Секрет «Модели экспертов» раскрыт; давайте поймем, почему GPT4 так хорош!

В последние годы все чаще говорят о моделях глубокого обучения. Каждая компания разрабатывает его. А вместе с этим началась гонка за самой большой и самой плохой моделью! Мы все видели графики, демонстрирующие размеры таких моделей —

Мы все сравнивали Chinchillas, GPT-3, PaLM и многие другие. Все это время Microsoft и OpenAI работали над GPT-4. Они создали весь ажиотаж вокруг разработки ГПТ-4. Все предполагали, что GPT-4 станет первой моделью с триллионом параметров. Хотя возможностей для улучшения производительности модели GPT-3 было довольно мало, мы многого ожидали от GPT-4. А потом новости/слухи ожили. Этот GPT-4 на самом деле не является одной моделью, а состоит из 8 меньших моделей с 220 миллиардами параметров, каждая из которых работает вместе, чтобы создать гигантскую модель с параметрами от 1,6 до 1,7 триллиона.



Как 8 моделей работают вместе?

Чтобы ответить на этот вопрос, мы должны вернуться в прошлое. 33 года назад, в 1991 году, Роберт А. Джейкобс, Майкл И. Джордан, Стивен Дж. Ноулан и крестный отец ИИ Джеффри Хинтон написали статью «Адаптивные смеси местных экспертов».

Они написали,

«Мы представляем новую контролируемую процедуру обучения для системы, состоящей из множества отдельных сетей, каждая из которых учится обрабатывать подмножество полного набора обучающих случаев. Новую процедуру можно рассматривать либо как модульную версию многослойной контролируемой сети, либо как ассоциативную версию конкурентного обучения. Таким образом, он обеспечивает новую связь между этими двумя явно разными подходами. Мы демонстрируем, что процедура обучения делит задачу распознавания гласных на соответствующие подзадачи, каждая из которых может быть решена с помощью очень простой экспертной сети».

Что это значит? Давай проверим —