ТРИЛЕММА ГЕНЕРАТИВНОГО ОБУЧЕНИЯ

В настоящее время системы генеративного обучения не могут одновременно соответствовать трем основным критериям, которые часто необходимы для их широкого использования в реальных приложениях. Эти критерии включают (i) получение высококачественных выборок, (ii) охват всех режимов и создание разнообразных выборок и (iii) быстрое создание выборок с низкими вычислительными затратами.

Было замечено, что диффузионные модели обычно делают предположение, что распределение шумоподавления можно оценить с помощью гауссовых распределений. Тем не менее, известно, что предположение Гаусса выполняется только тогда, когда шаги шумоподавления бесконечно малы. В результате в обратном процессе требуется значительное количество шагов.

ТРАДИЦИОННАЯ МОДЕЛЬ ДИФФУЗИИ:

Вперед процесс:

Обратный процесс:

Функция потерь:

ШУМОПОДАВИТЕЛЬНЫЕ РАСПРЕДЕЛИТЕЛЬНЫЕ ГАНАЛЫ:

Литература по моделям диффузии часто основывается на предположении, что распределение шумоподавления q(xt-1|xt) может быть аппроксимировано распределением Гаусса. Однако важно проверить, когда это приближение является точным, а когда нет.

Согласно правилу Байеса, истинное распределение шумоподавления q(xt-1|xt) может быть выражено как пропорциональное произведению прямой гауссовой диффузии q(xt|xt-1) и предельного распределения данных на шаге т, q(xt-1). Когда размер шага βt бесконечно мал, в произведении по правилу Байеса доминирует q(xt|xt-1), и было показано, что истинное распределение шумоподавления принимает форму Гаусса. Это означает, что в таких случаях приближение, используемое современными моделями диффузии, может быть точным. Кроме того, когда q(xt|xt-1) является гауссовым, а βt достаточно мало, распределение шумоподавления q(xt-1|xt) также является гауссовым. Следовательно, в таких ситуациях приближение, используемое текущими моделями диффузии, также может быть точным.

Другая ситуация, когда распределение шумоподавления, q(xt−1|xt), принимает форму Гаусса, — это когда маргинальные данные, q(xt), также являются распределением Гаусса. Концепция использования кодировщика VAE для приближения распределения данных к гауссовскому недавно была изучена в LSGM (Vahdat et al., 2021). Однако преобразование данных в распределение Гаусса само по себе является сложной задачей, которую кодеры VAE не могут решить идеально. В результате, даже с подходами на основе VAE, LSGM по-прежнему требует значительного количества шагов (от десятков до сотен), чтобы быть эффективным на сложных наборах данных.

Если шаг шумоподавления велик, а распределение данных не является гауссовым, нет гарантии, что гауссовское предположение, сделанное для шумоподавляющего распределения, является точным или верным.

Если в обратном процессе используются более крупные размеры шагов, что означает, что шагов шумоподавления меньше, то для точного моделирования распределения шумоподавления необходимо негауссово мультимодальное распределение. Это связано с тем, что в таких ситуациях, как синтез изображений, несколько правдоподобных чистых изображений могут соответствовать одному и тому же зашумленному изображению, что приводит к мультимодальному распределению. Рассеивающий GAN для шумоподавления, в котором распределения шумоподавления моделируются с помощью условных GAN, математически показано следующим образом.

Наша модель прямой диффузии структурирована аналогично моделям диффузии, описанным в уравнении 1, с ключевым отличием в том, что мы предполагаем, что T мало (T ≤ 8), и каждый шаг диффузии имеет большее значение βt. Чтобы обучить нашу модель, мы используем состязательную потерю для согласования условного генератора GAN pθ(xt−1|xt) и распределения шумоподавления q(xt−1|xt) путем минимизации меры расхождения Dadv для каждого шага шумоподавления.

где D_adv может быть расстоянием Вассерштейна, дивергенцией Дженсона-Шеннона или f-дивергенцией в зависимости от настройки состязательного обучения. Генератор обучается со следующей функцией потерь:

Дискриминатор обучается с функцией потерь:

Широко известно, что GAN склонны к нестабильности обучения и коллапсу режима. Однако наша модель преодолевает эти проблемы, разбивая процесс генерации на несколько условных шагов шумоподавляющей диффузии, каждый из которых относительно просто моделировать из-за сильной зависимости от xt. Кроме того, процесс диффузии сглаживает распределение данных, что снижает вероятность переобучения дискриминатора.

Хотя диффузионные модели предлагают высококачественные и разнообразные выборки, их дорогостоящая выборка может ограничить их применимость во многих реальных задачах. С другой стороны, диффузионная GAN с шумоподавлением значительно снижает вычислительную сложность моделей диффузии, делая их более практичными и экономичными для реальных приложений.

Сопутствующие работы:

  1. РЕШЕНИЕ ТРИЛЕММЫ ГЕНЕРАТИВНОГО ОБУЧЕНИЯ С ПОМОЩЬЮ ДИФФУЗИОННЫХ ГАНСОВ ПОГЛУШЕНИЯ ШУМА. https://openreview.net/pdf?id=JprM0p-q0Co