ТРИЛЕММА ГЕНЕРАТИВНОГО ОБУЧЕНИЯ
В настоящее время системы генеративного обучения не могут одновременно соответствовать трем основным критериям, которые часто необходимы для их широкого использования в реальных приложениях. Эти критерии включают (i) получение высококачественных выборок, (ii) охват всех режимов и создание разнообразных выборок и (iii) быстрое создание выборок с низкими вычислительными затратами.
Было замечено, что диффузионные модели обычно делают предположение, что распределение шумоподавления можно оценить с помощью гауссовых распределений. Тем не менее, известно, что предположение Гаусса выполняется только тогда, когда шаги шумоподавления бесконечно малы. В результате в обратном процессе требуется значительное количество шагов.
ТРАДИЦИОННАЯ МОДЕЛЬ ДИФФУЗИИ:
Вперед процесс:
Обратный процесс:
Функция потерь:
ШУМОПОДАВИТЕЛЬНЫЕ РАСПРЕДЕЛИТЕЛЬНЫЕ ГАНАЛЫ:
Литература по моделям диффузии часто основывается на предположении, что распределение шумоподавления q(xt-1|xt) может быть аппроксимировано распределением Гаусса. Однако важно проверить, когда это приближение является точным, а когда нет.
Согласно правилу Байеса, истинное распределение шумоподавления q(xt-1|xt) может быть выражено как пропорциональное произведению прямой гауссовой диффузии q(xt|xt-1) и предельного распределения данных на шаге т, q(xt-1). Когда размер шага βt бесконечно мал, в произведении по правилу Байеса доминирует q(xt|xt-1), и было показано, что истинное распределение шумоподавления принимает форму Гаусса. Это означает, что в таких случаях приближение, используемое современными моделями диффузии, может быть точным. Кроме того, когда q(xt|xt-1) является гауссовым, а βt достаточно мало, распределение шумоподавления q(xt-1|xt) также является гауссовым. Следовательно, в таких ситуациях приближение, используемое текущими моделями диффузии, также может быть точным.
Другая ситуация, когда распределение шумоподавления, q(xt−1|xt), принимает форму Гаусса, — это когда маргинальные данные, q(xt), также являются распределением Гаусса. Концепция использования кодировщика VAE для приближения распределения данных к гауссовскому недавно была изучена в LSGM (Vahdat et al., 2021). Однако преобразование данных в распределение Гаусса само по себе является сложной задачей, которую кодеры VAE не могут решить идеально. В результате, даже с подходами на основе VAE, LSGM по-прежнему требует значительного количества шагов (от десятков до сотен), чтобы быть эффективным на сложных наборах данных.
Если шаг шумоподавления велик, а распределение данных не является гауссовым, нет гарантии, что гауссовское предположение, сделанное для шумоподавляющего распределения, является точным или верным.
Если в обратном процессе используются более крупные размеры шагов, что означает, что шагов шумоподавления меньше, то для точного моделирования распределения шумоподавления необходимо негауссово мультимодальное распределение. Это связано с тем, что в таких ситуациях, как синтез изображений, несколько правдоподобных чистых изображений могут соответствовать одному и тому же зашумленному изображению, что приводит к мультимодальному распределению. Рассеивающий GAN для шумоподавления, в котором распределения шумоподавления моделируются с помощью условных GAN, математически показано следующим образом.
Наша модель прямой диффузии структурирована аналогично моделям диффузии, описанным в уравнении 1, с ключевым отличием в том, что мы предполагаем, что T мало (T ≤ 8), и каждый шаг диффузии имеет большее значение βt. Чтобы обучить нашу модель, мы используем состязательную потерю для согласования условного генератора GAN pθ(xt−1|xt) и распределения шумоподавления q(xt−1|xt) путем минимизации меры расхождения Dadv для каждого шага шумоподавления.
где D_adv может быть расстоянием Вассерштейна, дивергенцией Дженсона-Шеннона или f-дивергенцией в зависимости от настройки состязательного обучения. Генератор обучается со следующей функцией потерь:
Дискриминатор обучается с функцией потерь:
Широко известно, что GAN склонны к нестабильности обучения и коллапсу режима. Однако наша модель преодолевает эти проблемы, разбивая процесс генерации на несколько условных шагов шумоподавляющей диффузии, каждый из которых относительно просто моделировать из-за сильной зависимости от xt. Кроме того, процесс диффузии сглаживает распределение данных, что снижает вероятность переобучения дискриминатора.
Хотя диффузионные модели предлагают высококачественные и разнообразные выборки, их дорогостоящая выборка может ограничить их применимость во многих реальных задачах. С другой стороны, диффузионная GAN с шумоподавлением значительно снижает вычислительную сложность моделей диффузии, делая их более практичными и экономичными для реальных приложений.
Сопутствующие работы:
- РЕШЕНИЕ ТРИЛЕММЫ ГЕНЕРАТИВНОГО ОБУЧЕНИЯ С ПОМОЩЬЮ ДИФФУЗИОННЫХ ГАНСОВ ПОГЛУШЕНИЯ ШУМА. https://openreview.net/pdf?id=JprM0p-q0Co