1. Слияние и сокращение маркеров изученных пороговых значений для Vision Transformers (arXiv)

Автор : Максим Боннаренс, Джони Дамбре

Аннотация: За последние годы трансформеры машинного зрения продемонстрировали замечательные успехи в решении широкого круга задач компьютерного зрения. Однако их высокие вычислительные затраты остаются серьезным препятствием для их практического применения. В частности, сложность моделей преобразователей квадратична по отношению к количеству входных жетонов. Поэтому были предложены методы, которые уменьшают количество входных токенов, которые необходимо обработать. В этом документе представлено слияние и сокращение токенов Learned Thresholds (LTMP), новый подход, который использует сильные стороны как слияния токенов, так и сокращения токенов. LTMP использует обученные модули маскирования порогов, которые динамически определяют, какие токены объединять, а какие удалять. Мы демонстрируем наш подход обширными экспериментами с преобразователями зрения в задаче классификации ImageNet. Наши результаты показывают, что LTMP обеспечивает самую современную точность по скорости сокращения, требуя только одну эпоху точной настройки, что на порядок быстрее, чем предыдущие методы. Код доступен по адресу https://github.com/Mxbonn/ltmp.

2. Исследование преобразователей зрения для обнаружения Covid-19 с помощью рентгенографии грудной клетки (arXiv)

Автор: Сандип Ангара, Шарат Тирунагару.

Резюме: пандемия COVID-19 привела к глобальному кризису в области здравоохранения, что подчеркивает необходимость быстрого и точного обнаружения вируса. В этой исследовательской работе рассматривается трансферное обучение с преобразователями зрения для обнаружения COVID-19, известное своей отличной производительностью в задачах распознавания изображений. Мы используем возможности Vision Transformers для захвата глобального контекста и изучения сложных закономерностей на рентгеновских снимках грудной клетки. В этой работе мы изучили последние современные модели трансформаторов для обнаружения Covid-19 с использованием изображений CXR, таких как преобразователь зрения (ViT), преобразователь Swin, преобразователь зрения Max (MViT) и преобразователь зрения пирамиды (PVT). Благодаря использованию трансферного обучения с весами IMAGENET модели достигли впечатляющего диапазона точности от 98,75% до 99,5%. Наши эксперименты показывают, что Vision Transformers достигают самых современных результатов в обнаружении COVID-19, превосходя традиционные методы и даже сверточные нейронные сети (CNN). Результаты подчеркивают потенциал Vision Transformers как мощного инструмента для обнаружения COVID-19 с последствиями для повышения эффективности и точности скрининга и диагностики в клинических условиях.