… и МО является вероятной причиной, по которой

вступление

Выходные данные GPT-4 являются недетерминированными.

Это означает, что модель не дает одинаковых результатов для одних и тех же входных данных. Это легко заметить, особенно для более длинных выходов. Это странно, так как установка температуры на 0 должна привести к стабильным результатам.

Интересная гипотеза этого явления представлена ​​в этом сообщении в блоге.

В этой статье я постараюсь быстро объяснить, о чем идет речь.

МО — причина недетерминизма?

Причиной недетерминизма выходных данных может быть архитектура Sparse Mixture of Expert (MoE).

Вы можете спросить — что такое МО?

В модели Sparse MoE разные части модели, называемые экспертами, специализируются на обработке разных типов данных или задач. Затем эти эксперты используются для составления прогнозов. Термин разреженный относится к тому факту, что только небольшое количество этих экспертов используется для любого данного ввода. Другими словами, для каждого входа модель выбирает нескольких экспертов, которые, по ее мнению, будут наиболее полезными в данном конкретном случае.

Зачем нам нужна эта архитектура?

Разреженность может привести к более эффективным и масштабируемым моделям. Это позволяет модели сосредоточить вычисления только на подмножестве доступных экспертов для каждого примера. Это также означает, что модель в целом можно сделать намного больше, поскольку только часть модели должна храниться в памяти или использоваться для каждого примера.

Почему MoE вызывает недетерминизм?

Недавняя статья о моделях Sparse Mixture of Experts (MoE) породила новую теорию. Эти модели маршрутизируют токены группами, что может привести к некоторой случайности на выходе. Это может объяснить недетерминизм в GPT-4. Чтобы проверить эту теорию, автор написал…