Моя команда рассматривает «Paper Review» как проект по развитию компетенций. Итак, каждую неделю я буду загружать на Medium как минимум одну публикацию с обзором статьи, название которой начинается с «[Обзор статьи]».

  • Название статьи | Восемь вещей, которые нужно знать о больших языковых моделях
  • Автор | Сэмюэл Р. Боуман (Нью-Йоркский университет 2Anthropic, PBC.)
  • Дата | 2 апреля 2023 г.

Документ представляет собой статью Сэмюэля Р. Боумена, в которой рассматриваются восемь утверждений о больших языковых моделях (LLM) и их значении для общества и исследований.

1. LLM становятся более способными с масштабом

2. LLM демонстрируют непредсказуемое эмерджентное поведение

3. LLM изучают и используют представления о мире

4. LLM трудно управлять

5. LLM трудно интерпретировать

6. LLM могут превзойти людей

7. LLM не выражают фиксированные значения

8. LLM чувствительны к инструкциям.

В документе также обсуждаются некоторые открытые вопросы, проблемы и риски, связанные с разработкой и развертыванием LLM, и содержится призыв к более тщательному и междисциплинарному изучению этих систем.

Восемь вещей

1. Объяснение того, как большие языковые модели (LLM) предсказуемо становятся более функциональными по мере увеличения инвестиций.

  • Закон масштабирования — это закон о соотношении между размером сложной системы и количеством компонентов в ней. Этот закон был предложен в статье Kaplan et al.
  • Согласно закону масштабирования, системы с одинаковыми компонентами разного размера следуют определенной схеме по мере увеличения размера. Этот шаблон может быть представлен простым математическим выражением. Типичным законом масштабирования является степенной закон. Степенной закон — это выражение, описывающее взаимосвязь между двумя переменными, обычно выражаемое в форме y = ax^b. Где x — переменная, представляющая размер системы, а y — переменная, представляющая количество компонентов. b — экспонента степенного закона, означающая, что если она больше 1, количество компонентов растет быстрее, чем размер системы, а если меньше 1, количество компонентов растет медленнее.

Закон масштабирования позволяет нам точно предсказать некоторые грубые, но полезные меры того, насколько способными будут будущие модели, когда мы масштабируем их по трем измерениям: объем данных, размер (измеряемый в параметрах) и объем вычислений, используемых для обучения (измеряемый в FLOP). ). Это мощный инструмент для привлечения инвестиций, поскольку он позволяет командам исследователей и разработчиков предлагать многомиллионные учебные проекты моделей с разумной уверенностью в том, что они преуспеют в создании экономически ценных систем. Рассмотрим следующий пример. Оригинальный GPT OpenAI может выполнять простые задачи по маркировке текста, но, как правило, не может создавать связный текст (Radford et al., 2018). GPT-2 добавляет возможность создавать текст достаточно высокого качества и ограниченную возможность следовать простым инструкциям (Radford et al., 2019). GPT-3 — это первый современный универсальный LLM, который действительно полезен для решения широкого круга языковых задач.

2. LLM демонстрируют непредсказуемое эмерджентное поведение

Мера в законе масштабирования относится к тому, насколько полезной будет модель в среднем во многих практических задачах, но обычно невозможно предсказать, когда модель проявит определенный навык или сможет выполнить конкретную задачу. Это означает, что когда они инвестируют в обучение новых LLM, они покупают загадочную коробку: у них есть разумная уверенность в том, что они получат кучу новых экономически ценных навыков, но они не могут сделать какие-то уверенные прогнозы о том, какими будут эти навыки или что им нужно будет сделать, чтобы подготовиться к их ответственному развертыванию.

3. LLM изучают и используют представления о мире

Автор рассказывает о том, как модели большого языка (LLM) могут узнавать об окружающем мире через текст, на котором они обучаются. Это означает, что они могут понимать такие вещи, как то, как выглядит кошка или что делает машина, даже если они никогда не видели их в реальной жизни. Они делают это, анализируя слова и предложения в тексте, на котором они обучаются, и создавая связи между ними.

Например, если LLM читает предложение вроде «Кошка сидела на подоконнике», он может узнать, что кошка — это животное, у которого есть шерсть, усы и четыре ноги, и что она может сидеть на таких предметах, как подоконники. Затем он может использовать эти знания для создания новых предложений о кошках, таких как «Черный кот преследовал мышь» или «Пушистый кот мурлыкал, когда его гладили».

Однако автор также отмечает, что LLM иногда могут ошибаться или предоставлять ложную информацию, особенно если они не обучены работе с разнообразными текстами. Таким образом, хотя они могут узнавать о мире, нам все равно нужно быть осторожными в том, как мы их используем и какую информацию мы им доверяем.

4. LLM трудно контролировать

Отсутствие надежных методов управления поведением LLM связано с тем, что эти модели очень сложны и трудны для понимания. Они обучены работе с огромными объемами данных и могут генерировать ответы, которые трудно предсказать или контролировать. Кроме того, оценка этих моделей является сложной задачей, и часто трудно определить, хорошо ли они работают или нет. Проще говоря, LLM похожи на действительно умных роботов, которые могут понимать и генерировать язык. Однако они настолько умны, что трудно контролировать то, что они говорят или делают. Это как пытаться контролировать очень умного друга, который иногда говорит вещи, которых ты не ожидаешь. Иногда эти роботы могут ошибаться или говорить неправду, и трудно понять, почему. Ученые все еще пытаются выяснить, как заставить этих роботов вести себя лучше и делать то, что мы от них хотим.

5. LLM трудно интерпретировать

Современные модели большого языка построены на искусственных нейронных сетях, которые в общих чертах моделируются на основе нейронов человека. Однако исследователи до сих пор не могут интерпретировать внутреннюю работу этих моделей, а это означает, что они не могут объяснить, какие виды знаний, рассуждений или целей использует модель, когда она производит какой-либо результат. Несмотря на то, что продолжаются исследования, чтобы понять поведение LLM, проблема сложна из-за сотен миллиардов связей между искусственными нейронами, что делает ее слишком сложной для понимания любым человеком.

6. LLM могут превзойти людей

Большие языковые модели (LLM) потенциально могут превзойти людей по многим задачам, потому что они обучаются на гораздо большем количестве данных, чем любой человек видит, и их можно дополнительно обучать с помощью обучения с подкреплением. Это означает, что LLM имеют доступ к большему количеству информации и могут научиться давать более полезные ответы, чем то, что могут сделать люди. Представьте, что вы пытаетесь научиться решать математическую задачу. У вас есть учебник с несколькими примерами, но большая языковая модель имеет доступ ко многим учебникам с тысячами примеров. Чем больше примеров у модели, тем лучше она может научиться решать задачу. Кроме того, модели может быть оказана дополнительная помощь, например репетитор, чтобы научиться решать задачу еще лучше. Это похоже на то, как LLM могут обучаться с подкреплением для повышения своей производительности. Таким образом, хотя люди хорошо решают проблемы, LLM потенциально могут быть еще лучше, потому что они имеют доступ к большему количеству информации и могут быть обучены быть более полезными.

7. LLM не выражают фиксированные значения

«7. LLM не выражают фиксированные значения» означает, что значения, выраженные Большой языковой моделью, не являются фиксированными или предопределенными. Когда простой предварительно обученный LLM создает текст, этот текст обычно будет напоминать текст, на котором он был обучен. Это включает в себя сходство в значениях, выраженных в тексте. Однако эти значения в значительной степени контролируются их разработчиками, особенно когда простой предварительно обученный LLM получает дополнительные подсказки и обучение, чтобы адаптировать его для развертывания в качестве продукта. Это означает, что значения, выраженные в поведении развернутого LLM, не обязательно должны отражать некоторое среднее значение значений, выраженных в его обучающих данных. Это также открывает возможности для стороннего участия и надзора, а это означает, что ценности, выраженные в этих моделях, также не обязательно должны отражать ценности конкретных людей и организаций, которые их создают.

8. LLM чувствительны к инструкциям.

В нем обсуждаются ограничения использования больших языковых моделей для конкретных задач. Хотя LLM могут следовать инструкциям, такое поведение не присуще модели и часто прививается к ней с помощью несовершенных инструментов. В результате LLM могут быть чувствительны к содержанию своих инструкций идиосинкразическим образом и часто не выполняют задачу, когда ее просят. Однако, как только будет найден подходящий способ побуждения модели к выполнению задачи, модель сможет постоянно хорошо работать в различных экземплярах задачи.

Хотя LLM могут понимать язык, иногда их может сбить с толку то, как задается вопрос. Это означает, что они не всегда могут правильно выполнить задание с первого раза, но если вопрос немного перефразировать или переформулировать, они могут выполнить задание правильно. Это как просить друга о помощи с математической задачей — если вы не объясните ее четко, они, возможно, не смогут вам помочь, но если вы объясните ее по-другому, они могут помочь вам решить ее.

Обсуждение и ограничения

В нем освещаются проблемы и неопределенности, связанные с LLM. В нем обсуждаются ограничения современных LLM, такие как их склонность запоминать конкретные примеры или стратегии без понимания их причин. В нем также говорится о непредсказуемости LLM, поскольку в результате увеличения инвестиций могут непредсказуемо появиться конкретные модели поведения и возможности. В этом разделе также освещаются потенциальные риски, связанные с LLM, такие как их подверженность предвзятости и токсичности, а также сложность оценки их развертывания.

В целом, в документе обсуждается текущее состояние LLM и их потенциал для будущих достижений. В нем подчеркивается важность масштабирования LLM для повышения производительности и непредсказуемости конкретного поведения, которое может возникнуть в результате. В документе также обсуждаются потенциальные ограничения парадигмы LLM и необходимость в разработанных экспертами сильных индуктивных смещениях для решения реальных проблем.