Модель включает в себя важные улучшения по сравнению с ее предшественниками и представляет собой важную веху для базовых моделей с открытым исходным кодом.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 160 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



На прошлой неделе Meta AI украл заголовки в области генеративного ИИ с релизом с открытым исходным кодом и коммерческой доступностью Llama 2. Модель была выпущена в трех разных вариантах: параметры 7B, 13B и 70B соответственно. Сегодня я хотел бы погрузиться в некоторые технические детали этого релиза.

В своем выпуске Meta AI разработала и представила Llama 2, семейство предварительно обученных и точно настроенных больших языковых моделей (LLM), охватывающих Llama 2 и Llama 2-Chat с масштабами параметров до 70 миллиардов. Проведя серию тестов полезности и безопасности, Meta AI заметил, что модели Llama 2-Chat в целом превосходят существующие модели с открытым исходным кодом и работают сравнимо с некоторыми моделями с закрытым исходным кодом. Чтобы повысить безопасность этих моделей, Meta AI использовал аннотацию данных, настройку, красную команду и итерационные оценки с учетом безопасности. Кроме того, в документе предлагается всесторонний отчет об их методологии тонкой настройки и подходе к повышению безопасности LLM. Мета-ИИ стремится способствовать открытости и позволяет сообществу воспроизводить точно настроенные LLM, продвигая ответственную разработку таких моделей. Важно понимать, что в релиз вошли два семейства моделей:

1. Лама 2: обновленная версия Ламы 1, обученная на новом наборе общедоступных данных. Размер корпуса предварительной подготовки был увеличен на 40 %, длина контекста модели была удвоена, а внимание к сгруппированным запросам