… и МО является вероятной причиной, по которой
вступление
Выходные данные GPT-4 являются недетерминированными.
Это означает, что модель не дает одинаковых результатов для одних и тех же входных данных. Это легко заметить, особенно для более длинных выходов. Это странно, так как установка температуры на 0 должна привести к стабильным результатам.
Интересная гипотеза этого явления представлена в этом сообщении в блоге.
В этой статье я постараюсь быстро объяснить, о чем идет речь.
МО — причина недетерминизма?
Причиной недетерминизма выходных данных может быть архитектура Sparse Mixture of Expert (MoE).
Вы можете спросить — что такое МО?
В модели Sparse MoE разные части модели, называемые экспертами, специализируются на обработке разных типов данных или задач. Затем эти эксперты используются для составления прогнозов. Термин разреженный относится к тому факту, что только небольшое количество этих экспертов используется для любого данного ввода. Другими словами, для каждого входа модель выбирает нескольких экспертов, которые, по ее мнению, будут наиболее полезными в данном конкретном случае.
Зачем нам нужна эта архитектура?
Разреженность может привести к более эффективным и масштабируемым моделям. Это позволяет модели сосредоточить вычисления только на подмножестве доступных экспертов для каждого примера. Это также означает, что модель в целом можно сделать намного больше, поскольку только часть модели должна храниться в памяти или использоваться для каждого примера.
Почему MoE вызывает недетерминизм?
Недавняя статья о моделях Sparse Mixture of Experts (MoE) породила новую теорию. Эти модели маршрутизируют токены группами, что может привести к некоторой случайности на выходе. Это может объяснить недетерминизм в GPT-4. Чтобы проверить эту теорию, автор написал…