Последние тенденции в машинном обучении с дефицитом данных

На EMNLP 2022 было представлено множество инновационных работ по машинному обучению в условиях нехватки данных. В список документов, представленных в этой области, вошли такие темы, как обучение за несколько шагов, обучение с нулевым выстрелом, обучение на основе подсказок и т. д.

По аналогии с предыдущей работой по обучению на основе подсказок, также известной как LMBFF, которая использует демонстрации, чтобы помочь PLM лучше понять задачу, было предложено несколько работ. Вот некоторые из них:

→ Контрастная демонстрационная настройка для предварительно обученных языковых моделей

Лян и др. представили свою работу под названием Контрастная демонстрационная настройка для предварительно обученных языковых моделей и сообщили об улучшениях показателя производительности по сравнению с LMBFF.
В отличие от LMBFF, который выполняет фильтрацию демонстраций на основе семантического сходства, в этой работе была предложена идея объединения виртуальных демонстраций во входном пространстве.
Виртуальная демонстрация — это не что иное, как обучаемые непрерывные встраивания, которые обучаются путем оптимизации контрастных потерь в рамках быстрой настройки.
Предлагаемый подход показывает улучшение по сравнению с предыдущими соответствующими работами и совместим с любым популярным методом обучения на основе подсказок (LMBFF, PET).
Работа нацелена на преодоление ограничений подхода фильтрации на основе семантического сходства (применяемого LMBFF) и предполагает, что такой подход на основе фильтрации может вводить в заблуждение, поскольку семантическое сходство не всегда гарантирует приоритет наиболее информативных демонстраций.
Более того, включение текстовых демонстраций может привести к тому, что длина ввода превысит максимальную эффективную длину контекста модели. Более того, это может привести к ошибке, если токен [mask], присутствующий в подсказке тестового образца, выходит за пределы этой длины.
Предлагаемая контрастная демонстрационная настройка, которая представляет собой простой независимый от модели подход для предварительно обученных языковых моделей, улучшает современную производительность быстрой настройки без необходимости выбора демонстрации.
Однако модель использует предварительно обученную языковую модель. Таким образом, необходимо затратить ресурсы GPU. Кроме того, в настройках с несколькими выстрелами прирост производительности по-прежнему ограничен виртуальными демонстрациями, изученными только в нескольких тренировочных случаях. Стоит изучить получение соответствующего контекста из Интернета в качестве «демонстраций», чтобы помочь эффективному НЛП.

→ IDIAPers @ Causal News Corpus 2022: эффективное выявление причинно-следственной связи с помощью подхода, основанного на подсказках, в несколько выстрелов

Данная работа была представлена Burdisso et al. под названием IDIAPers @ Causal News Corpus 2022: Эффективное выявление причинно-следственной связи с помощью подхода, основанного на подсказках, состоящим из нескольких выстрелов.
Предлагаемая работа была вдохновлена методологией LMBFF для выполнения классификации нескольких выстрелов на основе демонстрации, чтобы определить, является ли событие причинным или случайным событием.
Ключевым отличием этой работы было обучение сети с помощью MLM без введения каких-либо дополнительных параметров.
В предлагаемом подходе используется конфигурация с несколькими попытками, в которой модель на основе подсказок точно настраивается с использованием только 256 экземпляров на класс.
Более того, сравнение с традиционными методами тонкой настройки, ансамблевыми подходами, а также с другими участвующими моделями показывает потенциал предлагаемого подхода для лучшего обобщения поставленной задачи.

Некоторые из исследовательских работ, представленных на мероприятии, касались адаптации предметной области с помощью машинного обучения с низким уровнем ресурсов (нехватка данных). Вот некоторые из них:

→ Быстрое обучение адаптации домена в диалоге, ориентированном на задачу

Сридхар и др. представил документ под названием Быстрое обучение для адаптации предметной области в диалоге, ориентированном на задачу, в котором проблема классификации намерений была поставлена в генеративном подходе, а метки намерений были переписаны в более описательный формат (канонические формы).
При использовании таких канонических форм генеративные подходы с моделями больших языков (LLM) показывают многообещающие результаты по сравнению с традиционными методами классификации намерений.
Работа демонстрирует, что генеративные модели очень хорошо обобщаются на невидимые домены в настройках с нулевым и малым числом выстрелов на основе подсказок по сравнению с подходами в стиле BERT.
Предполагается, что более короткие метки намерений затрудняют хорошее обобщение на новые домены, в то время как более длинные метки намерений вызывают галлюцинации.
В этой работе P-настройка включает в себя обучение двухслойного LSTM с замороженным LLM для создания вектора мягких подсказок. Выученная мягкая подсказка объединяется с входными вложениями. Для оценки канонических форм предполагается, что основные канонические формы истинности заданы, так что поиск ближайшего соседа может быть выполнен с быстрыми вложениями текста и преобразователями предложений.
В работе рассматриваются различные размеры Megatron и BERT в качестве PLM. В качестве наблюдения следует отметить, что для классификации внутри предметной области P-настройка на обучающем наборе, а затем оценка работает нормально, но для более новых доменов обучение выполнялось двумя способами:
— Zero-shot (P-tune с исходным доменом и выводом нулевого выстрела в целевом домене).
- Несколько выстрелов (P-настройка в исходном домене, а затем продолжение p-настройки нескольких выстрелов в целевом домене. За этим следует оценка в целевом домене ).
В заключение этой работы отмечается, что генеративные подходы с использованием p-настройки хорошо работают для классификации намерений. Это особенно многообещающе для адаптации домена с несколькими выстрелами.

→ Повышение эффективности примера оперативной настройки с адаптацией домена

Го и др. представили свою работу под названием Повышение эффективности выборки оперативной настройки с помощью адаптации домена, также известную как OPTIMA, чтобы продемонстрировать подход, первый в своем роде. который включает в себя ускорение мягких подсказок для улучшения адаптации домена без необходимости помеченных данных целевого домена.
Он считает неконтролируемые данные целевого домена целевым изменением домена.
Основное предположение в этой работе состоит в том, что гладкая граница более устойчива к враждебным возмущениям, если распределения исходной и целевой областей аналогичны.
Из предыдущих работ стоит отметить, что P-настройка требует больших объемов размеченных данных для обучения информативного вектора подсказок и, как правило, уступает настройке полной модели в сценариях с дефицитом данных.
Принимая во внимание частичное перекрытие распределений данных, в этой работе предлагается метод целенаправленной регуляризации, который способствует сглаживанию границ решений только в тех областях, где две области схожи.
Процедура следует стратегии быстрой настройки для выполнения классификации текста. В работе рассказывается, как повысить производительность обобщения мягких подсказок в предметной области, дополнив ввод виртуальными возмущениями. Затем предлагается стратегия оптимизации возмущений для уменьшения разрыва в предметной области и получения мягких подсказок с инвариантными знаниями предметной области. Наконец, эта работа демонстрирует, как использовать программные подсказки для ускорения обучения за несколько шагов в целевой области.
Кроме того, стоит отметить, что подходы, основанные на P-настройке, более чувствительны к случайным начальным значениям по сравнению с подходом настройки полной модели. Однако OPTIMA устойчива к случайным семенам по чувствительности.
Предлагаемая работа также имеет некоторые ограничения:
— Продемонстрированный метод регуляризации касается ситуации, когда исходный и целевой домены имеют разные распределения данных.
— Когда два дистрибутива абсолютно одинаковы, техника вырождается до простого состязательного обучения.
— Когда два дистрибутива сильно отличаются друг от друга, перенос вряд ли приведет к повышению производительности. Может потребоваться унифицированная структура, которая автоматически определяет расстояния между доменами и применяет правильный метод.
— Кроме того, мощность возмущений имеет наибольшее влияние в настройках с несколькими выстрелами / нулевыми выстрелами. Когда в целевом домене имеется большое количество помеченных данных, разрыв между настройкой мягкой подсказки и нашим методом, скорее всего, сократится.

На мероприятии было представлено множество докладов для решения задач NLG (Natural Language Generation) с использованием методов на основе подсказок. Одна из этих работ обсуждается ниже:

→ Большая часть NLG требует мало ресурсов: вот что мы можем с этим сделать

Хаукрофт и др. представили свою работу под названием Большая часть NLG требует мало ресурсов: вот что мы можем с этим поделать провели исследование объяснимости систем NLG, назвав тот факт, что большинство ресурс.
Определение нехватки ресурсов изучается на двух уровнях: Язык (для которого данных мало) и Домен (точек данных для определенного домена мало).
В документе названы некоторые из многообещающих направлений для работы с системами NLG в условиях ограниченных ресурсов за счет увеличения данных, которое может быть выполнено заменой слов, перефразированием с использованием больших языковых моделей (LLM) или обратным переводом.
Обучение на основе подсказок — еще одна альтернатива, которая может помочь PLM понять задачи в сценариях с дефицитом данных, передавая инструкции языковым моделям. Например, возможности, предлагаемые контекстным обучением GPT-3 для создания генеративных данных.
Если цель NLG состоит из нескольких вспомогательных задач, которые дополняют друг друга, то их совместное изучение с использованием схемы многозадачного обучения может оказаться полезным.
Однако относительная новизна темы затрудняет определение надлежащих критериев отбора для систематического обзора по этой теме.
— Обычно систематический обзор включает статьи, основанные на поиске по ключевым словам в академических базах данных, но почти ни одна статья явно не фокусируется на генерацию естественного языка в условиях ограниченных ресурсов, что затрудняет определение фраз, которые надежно указывают на все и только на соответствующие работы.
— Это ограничивает охват текущей статьи, хотя мы считаем, что это ограничение является разумным компромиссом при выделении области, требующей большего внимания в будущей работе.

Было много статей о быстрой настройке для улучшения метрики производительности, но лишь некоторые из представленных работ касались проблем, связанных с эффективностью моделей машинного обучения. Мы обсуждаем одну из таких работ, в которой предлагается стратегия обучения для многократного повышения эффективности.

→ FPT: повышение эффективности быстрой настройки с помощью прогрессивного обучения

Хуанг и др. представил интересную работу под названием FPT: Повышение эффективности быстрой настройки с помощью прогрессивного обучения, посвященную объяснимости быстрой настройки, которая также демонстрирует, как прогрессивное обучение может повысить эффективность модели.
Мотивация этой работы заключается в том, что точная настройка нижестоящих задач является дорогостоящей и множащейся для настройки всех параметров PLM. В качестве альтернативы предлагается оперативная настройка, состоящая из нескольких виртуальных токенов. Тем не менее, это также медленно и обучение неэффективно.
В этой работе предлагаются некоторые перспективные направления для преодоления вышеупомянутых проблем:
— Удаление слоев:Смежные слои содержат аналогичную информацию и могут быть отброшены.
— Сокращение FFN:Активируется только часть нейронов в сети.
— Составная редукция: комбинация удаления слоев и редукции FFN.
Предлагаемая стратегия рекомендует начинать обучение по одной из вышеперечисленных стратегий с использованием частичного PLM, который формируется путем разбиения PLM на N этапов. В начале обучения предлагается восстановить размер и глубину PLM. Это обучение продолжается до тех пор, пока PLM не будет завершен до исходного размера и глубины.
Более того, во время прогрессивного обучения мягкие подсказки также тренируются постепенно на каждом этапе. Отмечено, что все три предложенных направления показали сопоставимые характеристики и потребовали меньше вычислений и времени обучения. Тем не менее, сложное сокращение оказалось более эффективным для тренировки.
Кроме того, T5 (X-большой) продемонстрировал значительное повышение эффективности по сравнению с T5 (большой), что говорит о том, что предлагаемый механизм лучше работает с LLM (большие языковые модели).
В качестве ограничений статьи отмечается, что FPT требует выбора правильного гиперпараметра прогрессивных тренировочных шагов (т.е. продолжительности каждого тренировочного этапа). Кроме того, FPT нельзя напрямую применять к другим методам дельта-настройки (например, адаптеру и префиксной настройке).

Последние тенденции в машинном обучении с дефицитом данных

→ Повышение эффективности примера оперативной настройки с адаптацией домена

Похожие вопросы