Основы автономного обучения с подкреплением



  1. Взаимная информация Регулярное автономное обучение с подкреплением(arXiv)

Автор:Сяо Ма, Бинъи Кан, Чжунвэнь Сюй, Мин Линь, Шуйчэн Ян

Выдержка. Автономное обучение с подкреплением (RL) направлено на изучение эффективной политики на основе автономных наборов данных без активного взаимодействия с окружающей средой. Основной проблемой автономного RL является сдвиг распределения, который появляется, когда запрашиваются действия вне распределения, что делает направление улучшения политики смещенным из-за ошибок экстраполяции. Большинство существующих методов решают эту проблему, наказывая политику за отклонение от политики поведения во время улучшения политики или делая консервативные обновления для функций значений во время оценки политики. В этой работе мы предлагаем новую структуру MISA для подхода к автономному RL с точки зрения взаимной информации между состояниями и действиями в наборе данных, напрямую ограничивая направление улучшения политики. Интуитивно взаимная информация измеряет взаимную зависимость действий и состояний, которая отражает то, как поведенческий агент реагирует на определенные состояния среды во время сбора данных. Чтобы эффективно использовать эту информацию для облегчения изучения политики, MISA строит нижние границы взаимной информации, параметризованной политикой и Q-значениями. Мы показываем, что оптимизация этой нижней границы эквивалентна максимизации вероятности одношаговой улучшенной политики для автономного набора данных. Таким образом, мы ограничиваем направление совершенствования политики лежащим в многообразии данных. Результирующий алгоритм одновременно увеличивает оценку и улучшение политики, добавляя регуляризацию взаимной информации. MISA — это общая офлайн-среда RL, объединяющая в качестве особых случаев консервативное Q-learning (CQL) и методы регуляризации поведения (например, TD3+BC). Наши эксперименты показывают, что MISA работает значительно лучше, чем существующие методы, и достигает нового уровня техники в различных задачах теста D4RL.

2. Адаптивное переписывание утверждений с помощью автономного обучения с подкреплением для эффективного обнаружения дезинформации(arXiv)

Автор: Ашкан Каземи, Артем Абзалиев, Найхао Дэн, Руй Хоу, Дэвис Лян, Скотт А. Хейл, Вероника Перес-Росас, Рада Михалча

Аннотация: мы предлагаем новую систему, помогающую специалистам по проверке фактов формулировать поисковые запросы для известных утверждений о дезинформации и эффективно выполнять поиск на нескольких платформах социальных сетей. Мы представляем адаптируемую стратегию перезаписи, при которой действия редактирования (например, замена слова его синонимом, изменение времени глагола на настоящее простое) для запросов, содержащих утверждения, автоматически изучаются посредством обучения с подкреплением в автономном режиме. В частности, мы используем преобразователь решений, чтобы изучить последовательность действий по редактированию, которые максимизируют метрики поиска запроса, такие как средняя средняя точность. С помощью нескольких экспериментов мы показываем, что наш подход может повысить эффективность запросов до 42% относительно, создавая последовательности действий редактирования, которые удобочитаемы для человека, что делает систему простой в использовании и объяснении.

3. CORL: Научно-ориентированная библиотека глубокого автономного обучения(arXiv)

Автор :Денис Тарасов, Александр Никулин, Дмитрий Акимов, Владислав Куренков, Сергей Колесников

Аннотация:ORL – это библиотека с открытым исходным кодом, которая предоставляет однофайловые реализации алгоритмов глубокого автономного обучения с подкреплением. Он подчеркивает простоту разработки с простой кодовой базой и современным инструментом отслеживания анализа. В CORL мы изолируем реализацию методов в отдельных отдельных файлах, что упрощает распознавание важных для производительности деталей. Кроме того, доступна функция отслеживания экспериментов, помогающая регистрировать метрики, гиперпараметры, зависимости и многое другое в облаке. Наконец, мы удостоверились в надежности реализаций путем сравнительного анализа широко используемого эталонного теста D4RL. Исходный код можно найти https://github.com/tinkoff-ai/COR