Исследователи Microsoft в области искусственного интеллекта опубликовали новую упрощенную модель генерации кода phi-1, которая превосходит GPT-3.5, большую языковую модель, лежащую в основе ChatGPT. Phi-1 — это модель на основе Transformer с 1,3 миллиарда параметров, тогда как Codex, модель OpenAI, которая послужила основой для GitHub Copilot, содержала 12 миллиардов параметров.

Исследователи Microsoft обучили phi-1 с использованием восьми процессоров Nvidia A100 всего за четыре дня. Модель была обучена на шести миллиардах веб-токенов и одном миллиарде токенов, сгенерированных GPT-3.5, одной из базовых моделей, используемых для создания ChatGPT OpenAI.

Что касается эффективности, phi-1 достиг точности HumanEval pass@1 50,6%. Несмотря на значительно меньшие размеры, модель Microsoft превзошла StarCoder от Hugging Face и ServiceNow (33,6%), OpenAI GPT-3.5 (47%) и PaLM 2-S от Google (37,6%).

Для сравнения, любая другая модель, которая набирает более 50% на HumanEval, имеет набор данных в 100 раз больше, чем эта.

На экзамене MBPP pass@1 компания phi-1 показала лучшие результаты, набрав 55,5%. Большинство ранее упомянутых моделей еще не опубликовали результаты по этому критерию, но WizardCoder от WizardLM набрал 51,5% в тесте, проведенном в прошлом месяце. WizardCoder имеет 15 миллиардов параметров по сравнению с 1,3 миллиарда в phi-1.

Как это произошло?

Исследователи Microsoft утверждают, что «сила высококачественных данных» является причиной того, что phi-1 работает так хорошо. Создавая данные «качества учебников», они смогли обучить модель, которая превосходит подавляющее большинство моделей с открытым исходным кодом по тестам кодирования, таким как HumanEval. и MBPP, несмотря на то, что размер модели в 10 раз меньше, а размер набора данных — в 100 раз меньше.

Что это означает с точки зрения последствий?

Экспертные модели ориентированы на качество данных. По мнению исследователей, их работа подтверждает, что высококачественные данные необходимы для обучения искусственному интеллекту. Однако, по их словам, получить качественные данные сложно. В частности, оно должно быть сбалансированным, разнообразным и лишенным повторений. Методы измерения отсутствуют, особенно для двух последних критериев. В статье подчеркивается важность обучения LLM на высококачественных данных, которые напоминают характеристики хорошего учебника: они должны быть краткими, самостоятельными, поучительными и сбалансированными. Этот метод повышает эффективность обучения моделей, снижает воздействие на окружающую среду и бросает вызов обоснованности существующих законов масштабирования.

Программирование и генерация кода. С точки зрения программирования на Python и сокращения вычислительных ресурсов, необходимых для небольших наборов данных, это важно. Команда Microsoft продемонстрировала, что phi-1 может достигать выдающихся показателей точности для задач, связанных с кодом, оставаясь при этом на несколько порядков меньшими, чем конкурирующие модели. Он превосходно справляется со сложными вычислительными задачами, включая использование внешних библиотек, реализацию сложных алгоритмов и обработку входных данных на естественном языке. В принципе, это может способствовать созданию более эффективных и действенных языковых моделей в будущем. Предоставляя новый инструмент разработчикам и их организациям, мы можем помочь сформировать рынок ближайшего будущего. Это не только облегчает задачу кодирования, но также позволяет технологическим предприятиям и разработчикам повысить производительность при одновременном снижении затрат на потребление ресурсов.

Загрязнение набора данных. Чтобы устранить опасения по поводу загрязнения набора данных, в документе сокращается набор обучающих данных, удаляя файлы, аналогичные файлам в оценочном наборе. Даже после агрессивного сокращения Phi-1 превосходит другие модели, демонстрируя, что его производительность обусловлена ​​не только перекрытием данных. Точная настройка низшей модели для расширения ее возможностей оказывает минимальное влияние на модель или вообще не влияет на нее, поскольку базовые данные остаются неизменными, а изменяется только внешний вид модели. Кроме того, новые модели унаследуют недостатки и предвзятости более сильной модели, использующей этот метод.

Исследование показывает, что высококачественные данные существенно повышают эффективность, результативность и популярность программ LLM. Делая упор на качество данных и изобретательные методы оценки, phi-1 достигает выдающихся результатов, используя лишь небольшую часть набора данных и размера модели, чем его конкуренты.

Подробнее читайте в полной версии статьи https://arxiv.org/pdf/2306.11644.pdf

#ai #largelanguagemodels #machinelearning #generativeai #phi-1 #codegeneration #microsoft #python #chatgpt #datascience