На EMNLP 2022 было представлено множество инновационных работ по машинному обучению в условиях нехватки данных. В список документов, представленных в этой области, вошли такие темы, как обучение за несколько шагов, обучение с нулевым выстрелом, обучение на основе подсказок и т. д.
По аналогии с предыдущей работой по обучению на основе подсказок, также известной как LMBFF, которая использует демонстрации, чтобы помочь PLM лучше понять задачу, было предложено несколько работ. Вот некоторые из них:
→ Контрастная демонстрационная настройка для предварительно обученных языковых моделей
- Лян и др. представили свою работу под названием Контрастная демонстрационная настройка для предварительно обученных языковых моделей и сообщили об улучшениях показателя производительности по сравнению с LMBFF.
- В отличие от LMBFF, который выполняет фильтрацию демонстраций на основе семантического сходства, в этой работе была предложена идея объединения виртуальных демонстраций во входном пространстве.
- Виртуальная демонстрация — это не что иное, как обучаемые непрерывные встраивания, которые обучаются путем оптимизации контрастных потерь в рамках быстрой настройки.
- Предлагаемый подход показывает улучшение по сравнению с предыдущими соответствующими работами и совместим с любым популярным методом обучения на основе подсказок (LMBFF, PET).
- Работа нацелена на преодоление ограничений подхода фильтрации на основе семантического сходства (применяемого LMBFF) и предполагает, что такой подход на основе фильтрации может вводить в заблуждение, поскольку семантическое сходство не всегда гарантирует приоритет наиболее информативных демонстраций.
- Более того, включение текстовых демонстраций может привести к тому, что длина ввода превысит максимальную эффективную длину контекста модели. Более того, это может привести к ошибке, если токен [mask], присутствующий в подсказке тестового образца, выходит за пределы этой длины.
- Предлагаемая контрастная демонстрационная настройка, которая представляет собой простой независимый от модели подход для предварительно обученных языковых моделей, улучшает современную производительность быстрой настройки без необходимости выбора демонстрации.
- Однако модель использует предварительно обученную языковую модель. Таким образом, необходимо затратить ресурсы GPU. Кроме того, в настройках с несколькими выстрелами прирост производительности по-прежнему ограничен виртуальными демонстрациями, изученными только в нескольких тренировочных случаях. Стоит изучить получение соответствующего контекста из Интернета в качестве «демонстраций», чтобы помочь эффективному НЛП.
→ IDIAPers @ Causal News Corpus 2022: эффективное выявление причинно-следственной связи с помощью подхода, основанного на подсказках, в несколько выстрелов
- Данная работа была представлена Burdisso et al. под названием IDIAPers @ Causal News Corpus 2022: Эффективное выявление причинно-следственной связи с помощью подхода, основанного на подсказках, состоящим из нескольких выстрелов.
- Предлагаемая работа была вдохновлена методологией LMBFF для выполнения классификации нескольких выстрелов на основе демонстрации, чтобы определить, является ли событие причинным или случайным событием.
- Ключевым отличием этой работы было обучение сети с помощью MLM без введения каких-либо дополнительных параметров.
- В предлагаемом подходе используется конфигурация с несколькими попытками, в которой модель на основе подсказок точно настраивается с использованием только 256 экземпляров на класс.
- Более того, сравнение с традиционными методами тонкой настройки, ансамблевыми подходами, а также с другими участвующими моделями показывает потенциал предлагаемого подхода для лучшего обобщения поставленной задачи.
Некоторые из исследовательских работ, представленных на мероприятии, касались адаптации предметной области с помощью машинного обучения с низким уровнем ресурсов (нехватка данных). Вот некоторые из них:
→ Быстрое обучение адаптации домена в диалоге, ориентированном на задачу
- Сридхар и др. представил документ под названием Быстрое обучение для адаптации предметной области в диалоге, ориентированном на задачу, в котором проблема классификации намерений была поставлена в генеративном подходе, а метки намерений были переписаны в более описательный формат (канонические формы).
- При использовании таких канонических форм генеративные подходы с моделями больших языков (LLM) показывают многообещающие результаты по сравнению с традиционными методами классификации намерений.
- Работа демонстрирует, что генеративные модели очень хорошо обобщаются на невидимые домены в настройках с нулевым и малым числом выстрелов на основе подсказок по сравнению с подходами в стиле BERT.
- Предполагается, что более короткие метки намерений затрудняют хорошее обобщение на новые домены, в то время как более длинные метки намерений вызывают галлюцинации.
- В этой работе P-настройка включает в себя обучение двухслойного LSTM с замороженным LLM для создания вектора мягких подсказок. Выученная мягкая подсказка объединяется с входными вложениями. Для оценки канонических форм предполагается, что основные канонические формы истинности заданы, так что поиск ближайшего соседа может быть выполнен с быстрыми вложениями текста и преобразователями предложений.
- В работе рассматриваются различные размеры Megatron и BERT в качестве PLM. В качестве наблюдения следует отметить, что для классификации внутри предметной области P-настройка на обучающем наборе, а затем оценка работает нормально, но для более новых доменов обучение выполнялось двумя способами:
— Zero-shot (P-tune с исходным доменом и выводом нулевого выстрела в целевом домене).
- Несколько выстрелов (P-настройка в исходном домене, а затем продолжение p-настройки нескольких выстрелов в целевом домене. За этим следует оценка в целевом домене ). - В заключение этой работы отмечается, что генеративные подходы с использованием p-настройки хорошо работают для классификации намерений. Это особенно многообещающе для адаптации домена с несколькими выстрелами.
→ Повышение эффективности примера оперативной настройки с адаптацией домена
- Го и др. представили свою работу под названием Повышение эффективности выборки оперативной настройки с помощью адаптации домена, также известную как OPTIMA, чтобы продемонстрировать подход, первый в своем роде. который включает в себя ускорение мягких подсказок для улучшения адаптации домена без необходимости помеченных данных целевого домена.
- Он считает неконтролируемые данные целевого домена целевым изменением домена.
- Основное предположение в этой работе состоит в том, что гладкая граница более устойчива к враждебным возмущениям, если распределения исходной и целевой областей аналогичны.
- Из предыдущих работ стоит отметить, что P-настройка требует больших объемов размеченных данных для обучения информативного вектора подсказок и, как правило, уступает настройке полной модели в сценариях с дефицитом данных.
- Принимая во внимание частичное перекрытие распределений данных, в этой работе предлагается метод целенаправленной регуляризации, который способствует сглаживанию границ решений только в тех областях, где две области схожи.
- Процедура следует стратегии быстрой настройки для выполнения классификации текста. В работе рассказывается, как повысить производительность обобщения мягких подсказок в предметной области, дополнив ввод виртуальными возмущениями. Затем предлагается стратегия оптимизации возмущений для уменьшения разрыва в предметной области и получения мягких подсказок с инвариантными знаниями предметной области. Наконец, эта работа демонстрирует, как использовать программные подсказки для ускорения обучения за несколько шагов в целевой области.
- Кроме того, стоит отметить, что подходы, основанные на P-настройке, более чувствительны к случайным начальным значениям по сравнению с подходом настройки полной модели. Однако OPTIMA устойчива к случайным семенам по чувствительности.
- Предлагаемая работа также имеет некоторые ограничения:
— Продемонстрированный метод регуляризации касается ситуации, когда исходный и целевой домены имеют разные распределения данных.
— Когда два дистрибутива абсолютно одинаковы, техника вырождается до простого состязательного обучения.
— Когда два дистрибутива сильно отличаются друг от друга, перенос вряд ли приведет к повышению производительности. Может потребоваться унифицированная структура, которая автоматически определяет расстояния между доменами и применяет правильный метод.
— Кроме того, мощность возмущений имеет наибольшее влияние в настройках с несколькими выстрелами / нулевыми выстрелами. Когда в целевом домене имеется большое количество помеченных данных, разрыв между настройкой мягкой подсказки и нашим методом, скорее всего, сократится.
На мероприятии было представлено множество докладов для решения задач NLG (Natural Language Generation) с использованием методов на основе подсказок. Одна из этих работ обсуждается ниже:
→ Большая часть NLG требует мало ресурсов: вот что мы можем с этим сделать
- Хаукрофт и др. представили свою работу под названием Большая часть NLG требует мало ресурсов: вот что мы можем с этим поделать провели исследование объяснимости систем NLG, назвав тот факт, что большинство ресурс.
- Определение нехватки ресурсов изучается на двух уровнях: Язык (для которого данных мало) и Домен (точек данных для определенного домена мало).
- В документе названы некоторые из многообещающих направлений для работы с системами NLG в условиях ограниченных ресурсов за счет увеличения данных, которое может быть выполнено заменой слов, перефразированием с использованием больших языковых моделей (LLM) или обратным переводом.
- Обучение на основе подсказок — еще одна альтернатива, которая может помочь PLM понять задачи в сценариях с дефицитом данных, передавая инструкции языковым моделям. Например, возможности, предлагаемые контекстным обучением GPT-3 для создания генеративных данных.
- Если цель NLG состоит из нескольких вспомогательных задач, которые дополняют друг друга, то их совместное изучение с использованием схемы многозадачного обучения может оказаться полезным.
- Однако относительная новизна темы затрудняет определение надлежащих критериев отбора для систематического обзора по этой теме.
— Обычно систематический обзор включает статьи, основанные на поиске по ключевым словам в академических базах данных, но почти ни одна статья явно не фокусируется на генерацию естественного языка в условиях ограниченных ресурсов, что затрудняет определение фраз, которые надежно указывают на все и только на соответствующие работы.
— Это ограничивает охват текущей статьи, хотя мы считаем, что это ограничение является разумным компромиссом при выделении области, требующей большего внимания в будущей работе.
Было много статей о быстрой настройке для улучшения метрики производительности, но лишь некоторые из представленных работ касались проблем, связанных с эффективностью моделей машинного обучения. Мы обсуждаем одну из таких работ, в которой предлагается стратегия обучения для многократного повышения эффективности.
→ FPT: повышение эффективности быстрой настройки с помощью прогрессивного обучения
- Хуанг и др. представил интересную работу под названием FPT: Повышение эффективности быстрой настройки с помощью прогрессивного обучения, посвященную объяснимости быстрой настройки, которая также демонстрирует, как прогрессивное обучение может повысить эффективность модели.
- Мотивация этой работы заключается в том, что точная настройка нижестоящих задач является дорогостоящей и множащейся для настройки всех параметров PLM. В качестве альтернативы предлагается оперативная настройка, состоящая из нескольких виртуальных токенов. Тем не менее, это также медленно и обучение неэффективно.
- В этой работе предлагаются некоторые перспективные направления для преодоления вышеупомянутых проблем:
— Удаление слоев:Смежные слои содержат аналогичную информацию и могут быть отброшены.
— Сокращение FFN:Активируется только часть нейронов в сети.
— Составная редукция: комбинация удаления слоев и редукции FFN. - Предлагаемая стратегия рекомендует начинать обучение по одной из вышеперечисленных стратегий с использованием частичного PLM, который формируется путем разбиения PLM на N этапов. В начале обучения предлагается восстановить размер и глубину PLM. Это обучение продолжается до тех пор, пока PLM не будет завершен до исходного размера и глубины.
- Более того, во время прогрессивного обучения мягкие подсказки также тренируются постепенно на каждом этапе. Отмечено, что все три предложенных направления показали сопоставимые характеристики и потребовали меньше вычислений и времени обучения. Тем не менее, сложное сокращение оказалось более эффективным для тренировки.
- Кроме того, T5 (X-большой) продемонстрировал значительное повышение эффективности по сравнению с T5 (большой), что говорит о том, что предлагаемый механизм лучше работает с LLM (большие языковые модели).
- В качестве ограничений статьи отмечается, что FPT требует выбора правильного гиперпараметра прогрессивных тренировочных шагов (т.е. продолжительности каждого тренировочного этапа). Кроме того, FPT нельзя напрямую применять к другим методам дельта-настройки (например, адаптеру и префиксной настройке).