1. Введение

Вы когда-нибудь думали об обмене лицами с одним из любимых героев фильма?

Исследователи из Microsoft Research Asia и Шанхайского университета Цзяотун недавно опубликовали статью о переносе визуальных атрибутов изображений с помощью новой техники под названием Deep Image Analogy.

Чтобы продемонстрировать свою технику, они красиво поменяли местами лица Моны Лизы и Нейтри, используя аналогию с изображениями и глубокие особенности CNN. Рисунок 1, показанный ниже, демонстрирует результаты переноса визуальных атрибутов с использованием аналогии с глубоким изображением:

В первом ряду Рисунка 1 Моне Лизе (Леонардо да Винчи) и Нейтири (из научно-фантастического фильма «Аватар») удалось поменять местами лица, а во втором ряду показаны две фотографии панды со стилем. перевод: фотография панды была преобразована в эскиз, а панда, ранее изображавшаяся в эскизе, теперь видна на фотографии.

Авторы разработали этот метод, позволяющий передавать визуальные атрибуты между парой изображений, которые могут быть «визуально разными, но семантически похожими». По словам авторов, к визуальным атрибутам относятся цвет, текстура и стиль. Более того, два изображения считаются «семантически похожими», если они изображают один и тот же тип сцены, включая объекты из одного класса. Другими словами, передача визуального атрибута с большей вероятностью будет успешной, если пара входных изображений относится к одной семантической категории, например, панда на фотографии может поменяться стилями с другой пандой в эскизе, в то время как техника может терпят неудачу при попытке передать визуальные атрибуты между человеком и акулой, потому что «объекты» во входных изображениях не принадлежат к одному и тому же классу. По сути, техника должна сначала распознать объекты на обоих изображениях, а затем продолжить передачу визуальных атрибутов.

Одним из основных вкладов авторов является то, что Deep Image Analogy удалось создать семантически похожие глубокие соответствия между входными изображениями разных доменов, в отличие от существующих методов, которые либо по существу основаны на низкоуровневых функциях (например, с использованием SIFT Flow или Optical Flow). ), относятся к предметной области или не могут быть обобщены на междоменные изображения.

2. Передача визуальных атрибутов

Важным шагом для передачи визуальных атрибутов между изображениями является создание плотных соответствий между ними. Авторов вдохновили идеи, связанные с аналогией изображений [1], которая включает плотное сопоставление изображений из разных областей для создания глубоких соответствий.

Здесь аналог изображения определяется как A: A ’:: B: B’, где A и A ’, а также B и B’ находятся в пиксельном соответствии. Кроме того, A ’относится к A так же, как B’ к B.

Как видно из первой строки рисунка 1, A и B ’являются входными изображениями, которые семантически похожи, поскольку они оба являются женскими портретами, цель состоит в том, чтобы вывести A’ и B после передачи визуального атрибута.

2.1 Описание проблемы

Учитывая пару изображений A и B 'с аналогичной семантической структурой, предполагая, что они имеют разные визуальные атрибуты (например, стиль, цвет или текстуру), цель состоит в том, чтобы найти отображение от A к B' (или B 'к A) , и вывести два изображения A 'и B после переноса визуального атрибута.

2.2 Метод

Непросто напрямую отобразить из A в B ', поэтому авторы сформулировали проблему отображения как аналогию с изображениями:
A: A' :: B: B ', где A' и B - две скрытые переменные с bi -направленные ограничения, подразумевающие, что (1) A и A '(B и B') должны находиться в одной и той же пространственной схеме; (2) A и B (также A ’и B’) имеют похожие визуальные атрибуты (текстура, цвет, освещение и т. Д.)

На рисунке 2 требуется отображение от A к B ’, а A и B’ имеют одинаковую семантическую структуру: портрет женщины. Чтобы избежать прямого и сложного отображения из A в B '(показано красным), предлагаемый метод делит отображение из A в B' на два доступных отображения: (1) A в A 'как входящее разместить мэппинг (желтым цветом), убедившись, что нос находится «в нужном месте»; (2) Отображение похожего внешнего вида от A ’до B’ (синим цветом), где носы похожи по внешнему виду.

3. Аналогия с глубоким изображением

Передача визуальных атрибутов изображений достигается с помощью аналогии изображений и глубоких функций CNN. Авторы называют весь процесс «аналогией глубокого образа». Рисунок 4 иллюстрирует конвейер системы аналогии с глубокими изображениями.

3.1 Предварительная обработка

Характеристики Deep CNN сначала вычисляются для входных изображений A / B 'с помощью предварительно обученной 5-слойной CNN (сеть VGG-19 [2], обученная на ImageNet [3] база данных для распознавания объектов), а карты характеристик скрытых изображений A '/ B инициализируются на самом грубом слое. Здесь характеристики A ’/ B неизвестны и будут оцениваться от грубого к точному.

3.2 Поиск поля ближайшего соседа (NNF)

Первоначально PatchMatch [4] представляет собой быстрый рандомизированный алгоритм для расчета приблизительных NNF между парой изображений. Ближайшие совпадения патчей можно найти с помощью случайной выборки. Однако авторы здесь рассмотрели PatchMatch как область глубинных функций, чтобы обеспечить лучшее соответствие между изображениями и включить их в реконструкцию скрытых изображений.

На каждом уровне будут оцениваться как прямая, так и обратная NNF. По сути, поиск NNF включает в себя сопоставление пикселя в карте признаков с соответствующим ближайшим соседом в другой карте признаков. Как показано на рисунке 4, такие соответствия будут созданы между картами характеристик A (входные данные) и B (скрытые переменные), а также A ’(скрытые переменные) и B’ (входные).

Для поиска ближайшего соседа на другой карте объектов с учетом точки на входной карте объектов расстояние можно вычислить с помощью функции энергии, показанной ниже.

3.3 Реконструкция скрытого изображения

NNF и карты признаков, полученные в результате поиска NNF, будут служить входными данными для восстановления признаков скрытых изображений (A ’/ b) на следующем слое CNN.

Как показано на рис. 6, реконструкция скрытого изображения состоит из деформации карты признаков на текущем слое с последующей деконволюцией на следующем слое, а затем выполняется операция слияния для восстановления изображения. . Кроме того, Рисунок 6 также показывает, как мы можем восстановить скрытое изображение A ’. По сути, идеальный A 'должен наследовать структуру контента из входа A, показывая при этом соответствующий визуальный контент из B', который может быть выбран с помощью взвешенной маски, которая создает линейно взвешенную комбинацию структуры из A и визуальной информации из B '.

3.4 Отмена выборки поля ближайшего соседа

NNF вычисляются от грубого к точному: на самом грубом уровне сопоставления инициализируются случайным образом. Что касается других уровней, NNF, полученные на каждом уровне, будут дополнительно преобразованы с повышением частоты дискретизации до следующего уровня, служащего их инициализацией.

На рисунке 8 показано, как сопоставления между A и B ’постепенно улучшаются от грубого до точного. И предложенный метод аналогии с глубоким изображением позволил достичь лучших результатов сопоставления (средние строки) по сравнению с результатами, не зависящими от уровня (нижние строки).

Первые строки демонстрируют, как отображения из A в B ’выполняются иерархическим способом, в то время как остальные строки иллюстрируют отображения из B’ в A с использованием того же метода.

На каждом уровне повторяются три этапа поиска NNF, восстановления скрытого изображения и передискретизации NNF, уточняя глубокие соответствия между изображениями от грубого до точного.

3.5 Вывод

После извлечения NNF на самом нижнем уровне скрытое изображение может быть восстановлено путем агрегирования фрагментов в пиксельном слое изображения. Что касается скрытого изображения A ’(структура из A и визуальный контент из B’), агрегирование будет выполняться на извлеченных NNF в B ’.

Псевдокод для аналогии с глубоким изображением указан в алгоритме 1.

4. Приложения

Авторы показывают результаты применения их подхода по аналогии с глубоким изображением к четырем различным задачам передачи визуальных атрибутов: от фото к стилю, от стиля к стилю, от стиля к фото и от фото к фото.

4.1 Photo-to-Style

Перенос визуальных атрибутов между фотографиями и стилизованными произведениями искусства позволяет пользователям переносить стили между изображениями, например, фотография мужского портрета может «позаимствовать» стиль эскиза другого человека и получить эскиз исходного портрета. Результаты переноса фотографии в стиль показаны на рисунке 13.

4.2 От стиля к стилю

Рисунок 16 показывает впечатляющие результаты передачи с использованием аналогии с глубоким изображением. Как видно из результатов, фотография может трансформироваться в картину маслом (или наоборот).

4.3 Изменение стиля к фотографии

Это можно рассматривать как обратную задачу фото-стиля, но на самом деле это более сложная задача. Это связано с тем, что произведения искусства, как правило, содержат меньше деталей, чем фотографии, что дает больше творчества. Результаты преобразования произведений искусства в фотографию показаны на Рис. 17.

4.4 Photo-to-Photo

Передача из фото в фото применяется только к передаче атрибутов цвета и тона изображений.

Очень творческое применение аналогии с глубоким изображением - создание покадровой последовательности с использованием эталонных изображений другой связанной с семантикой сцены, как показано на рисунке 20. Несмотря на разные сцены из двух изображений, семантические соответствия все же можно идентифицировать, например, дерево-дерево и гора-гора.

5. Заключительные замечания

Авторы представили новую технику под названием Deep Image Analogy с целью передачи визуальных атрибутов между семантически похожими изображениями. Несколько результатов переноса демонстрируют применимость такой техники в различных задачах, включая задачи переноса фото в стиль и стиля в стиль.

Кроме того, авторы также привели примеры случаев отказа, проиллюстрированные на рис. 22, когда метод не обеспечивает удовлетворительных результатов переноса, в том числе когда есть различия в масштабе, точках обзора и т. Д.

По словам авторов, можно сделать несколько улучшений, таких как ослабление предположения о том, что передача должна максимально сохранять структуру контента, или предварительное обучение модели CNN на предметно-ориентированном наборе данных и т. Д.

Ссылки

[1] ГЕРЦМАН, А., ДЖЕЙКОБС, К. Э., ОЛИВЕР, Н., КЕРЛЕС, Б., И САЛЕСИН, Д. Х. 2001. Аналогии с изображениями. В Proc. ACM SIGGRAPH.

[2] СИМОНЯН К., ЗИССЕРМАН А. 2014. Очень глубокие сверточные сети для распознавания крупномасштабных изображений. Препринт arXiv arXiv: 1409.1556.

[3] РУССАКОВСКИЙ, О., ДЭНГ, Дж., СУ, Х., КРАУЗ, Дж., САТИШ, С., М.А., С., ХУАНГ, З., КАРПАТИ, А., ХОСЛА, А., БЕРН- ШТЕЙН, М., И др. 2015. Imagenet - масштабная задача визуального распознавания. Международный журнал компьютерного зрения 115, 3, 211–252.

[4] БАРНС, К., ШЕЧТМАН, Э., ФИНКЕЛЬШТЕЙН, А., И ГОЛДМАН, Д. Б. 2009. Patchmatch: рандомизированный алгоритм соответствия для структурного редактирования изображений. ACM Trans. График. (Материалы SIGGRAPH) 28, 3.

Автор: Олли Хуанг | Локализовано Synced Global Team: Junpei Zhong