Этот пост основан на выводах, сделанных в этой бумаге.

Введение

В последние годы Transformer, использующий механизм Attention, показал замечательную производительность в области обработки естественного языка и стал стандартом де-факто в области естественного языка. В области обработки изображений CNN с использованием механизма свертки был стандартом де-факто, но с тех пор были предприняты попытки включить Transformer в область обработки изображений.
Первоначально были разработаны модели, объединенные с CNN, но позже анонс Vision Transformer (ViT), который исключает CNN и строится только с Transformer, модели, основанные только на этом Transformer, также использовались в области обработки и распознавания изображений. Кроме того, он известен тем, что обрабатывает изображения как «данные последовательности», состоящие из серии фрагментов изображения.
Преимуществом использования Transformer для обработки изображений, такого как ViT, является его широкое поле восприятия. Подавляя более широкую область, чем CNN и т. д., можно получить лучшие значения признаков.

С другой стороны, ViT, который представляет собой просто перепрофилированный Transformer, также называется Dense Transformer и имеет главный недостаток, заключающийся в повышенных требованиях к памяти, высоких вычислительных затратах, задержке конвергенции обучения и опасности избыточного обучения. поскольку получается взаимосвязь всех изображений, стоимость вычислений огромна, и нет индуктивного смещения, такого как близкие пиксели, имеющие глубокую взаимосвязь, и он может превзойти CNN только путем обучения с большим объемом данных. Проблема в том, что точность не может быть достигнута. Другая проблема заключается в том, что нерелевантные местоположения могут повлиять на функции.

Поэтому Pyramid Vision Transformer (PVT), также известный как Sparse Transformer, и SwinTransformer были созданы как усовершенствования ViT. Это модели, которые улучшают эффективность использования памяти и вычислительной мощности, уделяя внимание областям изображения, которые были до некоторой степени сужены. По сравнению с ViT, производительность улучшилась, но, с другой стороны, поскольку область на изображении сужена, возможно, что обширная информация о взаимосвязях, полученная из исходной области, будет потеряна.

С другой стороны, Swin не вычисляет само-внимание для всего изображения, а делит изображение на небольшие области и выполняет само-внимание внутри небольших областей. По сравнению с ViT, Swin имеет улучшенную точность в ImageNet-1k, но он может получать связи только в пределах небольшой области и может терять информацию о глобальных связях. В рецептивном поле самовнимания, определяемом вручную, как Суин, может быть упущена важная информация.

Тем не менее, диапазон Attention, построенный вручную, такой как Swin Transformer, может быть не оптимизирован с точки зрения эффективности. Также возможно, что важные отношения ключ/значение были удалены, а использовались ненужные. В идеале диапазон «Внимание» должен быть свободно трансформируемым для каждого входного изображения, позволяя использовать только важные области.

Для решения проблемы был предложен деформируемый преобразователь внимания (DAT). это общая базовая модель с деформируемым вниманием как для классификации изображений, так и для задач плотного прогнозирования.

Модель «Трансформер» произвела революцию в реализации внимания, отказавшись от повторения и извилин и вместо этого полагаясь на само-внимание. Это позволяет модели адаптироваться к входным данным и повысить ее производительность. Преобразователь деформируемого внимания (DAT), предложенный на этот раз, использует деформируемое внимание к себе, что позволяет выбирать области с более влиятельными отношениями при сужении областей, таких как PVT и Swin Transformer.

Это улучшенная модель, в которой используется деформируемое самовнимание, так что при ограничении диапазона самовнимания можно выбирать более релевантные области. Другими словами, это модель, которая может более гибко управлять диапазоном внимания к себе. Таким образом, он изучает различные деформированные точки для каждого запроса в зависимости от данных. В результате удалось повысить эффективность и производительность по сравнению с обычными моделями обработки изображений. Таким образом, по этой причине эта модель использовалась в различных приложениях, включая классификацию изображений и задачи плотного прогнозирования.
В результате она достигла SOTA в задачах классификации классов, обнаружения объектов и сегментации, достигнув точности, превосходящей Swin. .

Краткий обзор деформируемой сверточной сети

Как было сказано ранее, задачи визуального распознавания, такие как обнаружение объектов или классификация изображений, часто связаны с обработкой масштаба объекта, позы, точки обзора и искажения. Предыдущие методологии, хотя и были в некоторой степени эффективными, имели присущие им недостатки.

Рассмотрим два распространенных подхода:

1. Одна из стратегий заключается в повышении разнообразия данных за счет расширения и увеличения емкости модели. Хотя это может привести к более детальным моделям, это связано со спросом на большие наборы данных и потенциально гигантские модели.
2. Другой подход включает использование инвариантных к деформации функций и алгоритмов, таких как SIFT и максимальное объединение. Однако они, как правило, изготавливаются вручную, что ограничивает их универсальность.

Более того, традиционные сверточные нейронные сети (CNN) из-за своей геометрической структуры могут быть подвержены геометрическим деформациям. Они выполняют операции над фиксированными позициями, и все слои имеют одинаковую форму и размер рецептивного поля, что не всегда подходит для таких задач, как семантическое распознавание объектов.

Чтобы преодолеть эти проблемы, в качестве нового решения была предложена деформируемая сверточная сеть (DCN), включающая деформируемые свертки и объединение областей интереса (RoI).

Чтобы лучше понять деформируемый преобразователь внимания, давайте сначала поговорим о деформируемой сверточной сети. Последнее основано на идее, что «рецептивное поле должно приспосабливаться к масштабу и форме объекта».

Деформируемые свертки и объединение ROI

это решение вводит регулируемые 2D-смещения в стандартные свертки, подобные сетке, и обучаемое смещение для позиций ячеек в пуле RoI. Эта гибкость позволяет модели обрабатывать более широкий спектр форм и размеров объектов на изображениях.

в то время как обычная свертка пытается вычислить y (p0) как:

В деформируемой свертке смещение добавляется как

Простое применение того, что делается в DCN, к Transformer потребует больших затрат памяти и вычислительных ресурсов, что делает его непрактичным.

DAT и его окружение

Деформируемый преобразователь внимания (DAT), который может быть базовой сетью для задач классификации изображений, обнаружения объектов и сегментации, обеспечивает гибкость и эффективность в области распознавания изображений.

Ключевым компонентом DAT является деформируемое внимание (DA). Он эффективно моделирует отношения между токенами, фокусируясь на важных областях на карте функций. Область внимания получается с использованием деформируемых точек выборки, полученных из запросов со смещенными сетями.

В отличие от деформируемых сверточных сетей (DCN), которые изучают разные области для разных пикселей на карте объектов, DAT изучает группы областей, не зависящие от запроса. Недавние исследования показывают, что глобальное внимание приводит к почти идентичным шаблонам внимания для разных запросов, что позволяет сфокусировать ключ/значение в важных областях и повысить эффективность вычислений.

Преодоление высоких затрат на расчеты

Однако, несмотря на эти преимущества, затраты на расчеты могут быть потенциально высокими. Чтобы решить эту проблему, была предложена стратегия, которая включает создание опорных точек из входной карты объектов, нормализацию этих опорных точек, создание смещений с использованием подсети, а затем выполнение билинейного завершения деформированной опорной точки.

Содействие разнообразию в деформированных точках

Канал функций разделен на несколько групп, чтобы поощрять разнообразие в точках деформации. Как и в методе Multi-Head Self-Attention (MHSA), функции, основанные на каждой группе, используют общую подсеть для создания разумных смещений.

Улучшение пространственной информации с деформируемым смещением относительного положения

Включение деформируемого смещения относительного положения в DAT также улучшает пространственную информацию в операциях внимания.

Архитектура модели DAT

С точки зрения вычислительной стоимости Deformable Multi-Head Attention (DMHA) выгодно отличается от таких моделей, как PVT и Swin Transformer. Разница заключается главным образом в вычислительной сложности офсетной сети.

DAT использует многомасштабную карту объектов и применяет Deformable Attention на более поздних этапах для моделирования отношений в более широких областях. Для задач классификации мы используем линейный классификатор с объединенными функциями. Для задач обнаружения и сегментации объектов DAT служит основой модели, извлекая многомасштабные функции.

(a) ViT (преобразователь зрения): ViT применяет внутреннее внимание ко всему изображению, используя глобальное рецептивное поле для захвата всеобъемлющих функций.

(b) Swin Transformer: в отличие от ViT, Swin Transformer ограничивает свое рецептивное поле, выполняя само-внимание в пределах этих определенных границ.

(c) DCN (деформируемые сверточные сети): DCN — это модель, основанная на сверточных нейронных сетях (CNN), и она выполняет операции с деформируемыми рецептивными полями.

Обзор структуры DAT

Общая структура DAT соответствует четырехступенчатой ​​иерархической схеме, аналогичной ResNet. С каждым этапом пространственный размер карты объектов уменьшается вдвое, а количество каналов удваивается, что позволяет использовать сверточные слои для понижения дискретизации между этапами.

Чтобы уменьшить вычислительные затраты, первая свертка 4x4 уменьшает разрешение до 1/4 размера изображения. Этапы 1 и 2 реализуют локальное внимание и внимание Shift-Window — методы распознавания собственного внимания с ограниченным рецептивным полем от Swin Transformer. Между тем, этапы 3 и 4 используют локальное внимание и деформируемое внимание, выполняя поочередное локальное и глобальное распознавание для повышения точности.

Интересно, что DAT принимает деформируемое внимание только во второй половине процесса. Это связано с тенденцией модели ViT отдавать предпочтение локальному распознаванию на ранних стадиях распознавания и попыткой сократить объем вычислений.

Структура модели

Общая структура модели использует четырехступенчатую иерархию, такую ​​как ResNet. По мере прохождения этапов пространственный размер карты объектов уменьшается вдвое, а количество каналов удваивается. Это понижение частоты дискретизации между этапами использует сверточные слои. (k=размер ядра, s=шаг).
Первая свертка 4x4 уменьшается до 1/4 размера изображения, чтобы сократить вычислительные затраты.

Этапы 1 и 2 используют локальное внимание и внимание Shift-Window. Это методы распознавания собственного внимания с ограниченными рецептивными полями, используемые в Swin Transformer.

На стадиях 3 и 4 используется локальное внимание и деформируемое внимание. Способствует повышению точности за счет попеременного локального и глобального распознавания.

Причина, по которой деформируемое внимание применяется только во второй половине процесса, заключается в том, что модель ViT имеет тенденцию отдавать предпочтение локальному распознаванию на ранних стадиях распознавания, а для уменьшения объема вычислений деформируемое внимание используется только во второй половине процесса. половина.

Деформируемый модуль внимания

Входное изображение x (H×W×C) с опорными точками (Hg×Wg= HxW/r²), где r определяется вручную, обрабатывается следующим образом, где Hg=H/r и Wg=W/r:

(i) Вход представляет собой карту объектов 𝑥 с размерами 𝐻 × 𝑊 × 𝐶.

(ii) Мы выбираем пиксели 𝑝 в качестве опорных точек из однородной сетки размеров 𝐻𝐺 × 𝑊𝐺 × 2 (где 𝐻𝐺 = 𝐻/𝑟 и 𝑊𝐺 = 𝑊/𝑟, эффективно уменьшая исходную сетку).

(iii) Эти опорные точки линейно проецируются на двумерную систему координат с точками в диапазоне от (0,0) до (𝐻𝐺 — 1, 𝑊𝐺 — 1) и нормируются между [-1, +1], где верхняя -left соответствует (-1,-1).

(iv) Чтобы получить смещение от каждой опорной точки, карта объектов линейно проецируется, в результате чего токен запроса 𝑞 = 𝑥𝑊𝑞.

(v) Маркер запроса 𝑞 затем передается в подсеть θ 𝑜𝑓𝑓𝑠𝑒𝑡 для создания смещения.

и для обеспечения стабильного процесса обучения используется предопределенное значение 𝑠, чтобы предотвратить слишком большое Δ𝑝 посредством преобразования Δ𝑝 ← 𝑠 tanh(Δ𝑝).

(vi) Деформированные опорные точки получаются путем объединения опорной точки и информации о смещении.

(vii) Затем мы проводим билинейную интерполяцию по этим деформированным опорным точкам, выбирая функцию 𝑥˜.

(viii) Выполняется линейная проекция результата шага (viii), чтобы защитить токен ключа 𝑘˜ = 𝑥 ˜ 𝑊𝑘 и токен значения 𝑣˜ = 𝑥˜ 𝑊𝑣.

(ix) Наконец, внимание применяется таким образом, чтобы интегрировать информацию, подобную встраиванию позиции, что завершается окончательным результатом.

Коротко о офсетной сети (подсеть)

В этой подсети значение смещения вычисляется для каждой опорной точки с помощью запроса. поскольку входное изображение x подвергается линейному преобразованию для получения запроса (q), который затем вводится в сеть смещения. реализована подсеть с двумя модулями свертки с нелинейными функциями активации.
Сначала используется глубинная свертка kxk (5 × 5 в статье) для получения локальных признаков. Затем сеть смещения использует функцию GelU между двумя свертками. Ядро свертки в свертке DW свертывает пространственную информацию.
Затем свертка 1 x 1, которая свертывается в направлении канала, сжимается до двух каналов (горизонтального, вертикального). На карте объектов хранятся значения вертикального и горизонтального расстояний, соответствующие каждой опорной точке.

Ключи и значения

Переведите опорную точку, используя значения, определенные сетью смещения. Определите
значение опорной точки, к которой он перемещается, с помощью билинейной интерполяции (для работы с плавающими числами).
Карта признаков с использованием определенных значений опорной точки x (Hg×Wg×C) и создайте x Затем линейно преобразуйте из в ключ и значение.

Чтобы поощрять разнообразие в деформированных точках, функциональный канал разделен на группы G, стратегия, напоминающая технику многоголового самоконтроля (MHSA). Подмножества объектов в каждой группе используют общую подсеть для создания коррелированных смещений. На практике подсчет единиц внимания с несколькими головками производится в G, умноженном на количество групп смещения, что гарантирует, что каждой преобразованной группе токенов ключа и значения назначается несколько головок внимания.

Кроме того, смещение относительного положения (между 7 и 9) инкапсулирует относительное положение между всеми возможными парами ключ-запрос, расширяя традиционный механизм внимания с помощью пространственных данных. Наконец, в рамках DAT значение нормализации служит встраиванием позиции, учитывая непрерывное относительное смещение, чтобы покрыть все возможные значения смещения.

Таким образом, применяется многоголовое внимание, когда входной запрос, ключ и значение получаются с помощью:

Самостоятельное внимание применяет следующее уравнение, где B указывает деформируемое смещение относительного положения:

Деформируемое внимание с несколькими головками (DMHA) имеет аналогичные вычислительные затраты, такие как PVT и Swin Transformer. Разница заключается в вычислительной сложности офсетной сети.

где Ns= HgxWg

в то время как Swin Transformer имеет вычислительную стоимость 79,63 млн флопс, вычислительные затраты, связанные с добавлением подсетей, составляют примерно 5,08 млн флопс. Обратите внимание, что вычислительные затраты могут быть дополнительно снижены за счет увеличения значения r — коэффициента понижающей дискретизации.

Архитектура модели

Общая архитектура модели следует четырехэтапной иерархической структуре, напоминающей ResNet. По мере прохождения этапов пространственные размеры карты объектов уменьшаются вдвое, а количество каналов удваивается благодаря внедрению сверточных слоев. На начальном этапе первая свертка 4x4 уменьшается до одной четверти размера изображения, чтобы сократить объем вычислений.

DAT, признавая необходимость многомасштабных карт признаков для задач изображения, использует аналогичную иерархическую структуру для формирования пирамид признаков. На первом и втором этапах деформируемое внимание (DA) не реализовано, поскольку основная цель — уловить больше локальных особенностей. DA здесь избегается из-за значительных пространственных накладных расходов и вычислительных затрат. Вместо этого модель интегрирует локальную информацию с Shift-Window Attention, основанным на окне механизмом локального внимания, используемым в Swin Transformer.

Третий и четвертый этапы привносят деформируемое внимание, позволяя моделировать отношения, которые переходят от более локальных к более широким областям. В задачах классификации линейный классификатор используется вместе с объединенными функциями, чтобы сначала нормализовать выходные данные карты признаков на последнем этапе, прежде чем прогнозировать логит.

Для задач обнаружения и сегментации объектов DAT работает как основа модели, извлекая многомасштабные функции. Кроме того, в таких задачах, как обнаружение объектов и декодеры семантической сегментации, уровень нормализации включается в функциональность каждого этапа перед передачей его в последующий модуль, процесс, аналогичный подходу FPN. Этот структурированный подход, который уравновешивает локальное и глобальное признание и управляет вычислительными затратами, приводит к повышению точности и эффективности в различных задачах.

Стадия, принятая Deformable Attention and Results

Можно видеть, что точность высока, если принять ее на этапах 3 и 4 на этапе, принятом Deformable Attention задачи классификации ImageNet-1k.

DAT превосходит традиционные методы в таких задачах, как классификация изображений (ImageNet-1K), обнаружение объектов (COCO) и сегментация (ADE20K). В частности, в классификации ImageNet-1k этапы 3 и 4 принятия Deformable Attention достигают высокой точности.

В то время как SWIN сверху не различает передний план и фон

DAT смещает точку отсчета на жирафа, фокусируясь также и на другом жирафе.

Таким образом, DAT улучшает распознавание и снижает вычислительную нагрузку, перемещая контрольные точки ближе к цели распознавания.

В заключение, это предлагаемое решение представляет собой многообещающий способ преодоления существующих проблем в задачах визуального распознавания. С помощью Deformable Attention Transformer, целью которого является повышение гибкости, эффективности и практичности в области распознавания изображений.

Рекомендации

Васвани А., Шазир Н., Пармар Н., Ушкорейт Дж., Джонс Л., Гомес А.Н., Кайзер Л. и Полосухин И. (2017). Внимание — это все, что вам нужно. В NeurIPS (стр. 5998–6008).

Досовицкий А., Бейер Л., Колесников А., Вайссенборн Д., Жай Х., Унтертинер Т., Дегани М., Миндерер М. и др. (2020). Изображение стоит 16x16 слов: Трансформеры для распознавания изображений в масштабе. Препринт arXiv arXiv: 2010.11929.

Лю, З., Линь, Ю., Цао, Ю., Ху, Х., Вэй, Ю., Чжан, З., Линь, С., и Го, Б. (2021). Трансформатор иерархического зрения с помощью сдвинутых окон. ICCV.

Дай Дж., Ци Х., Сюн Ю., Ли Ю., Чжан Г., Ху Х. и Вэй Ю. (2017). Деформируемые сверточные сети. В ICCV (стр. 764–773).

Ван, В., Се, Э., Ли, X., Фань, Д.-П., Сун, К., Лян, Д., Лу, Т., Луо, П., и Шао, Л. (2021 г.) ). Трансформатор пирамидального зрения: универсальный. В ИКВ.

Чжу, X., Су, В., Лу, Л., Ли, Б., Ван, X., и Дай, Дж. (2020). Deformable detr: деформируемые преобразователи для сквозного обнаружения объектов. Препринт arXiv arXiv: 2010.04159.