Понимание концепции состязательных примеров, часть 4 (машинное обучение)

Негде спрятаться: легкий неконтролируемый детектор против враждебных примеров(arXiv)

Автор: Хуэй Лю, Бо Чжао, Кехуан Чжан, Пэн Лю

Выдержка . Хотя глубокие нейронные сети (DNN) продемонстрировали впечатляющую производительность во многих задачах восприятия, они уязвимы для враждебных примеров, которые генерируются путем добавления незначительных, но злонамеренно созданных возмущений к безобидным изображениям. Обнаружение состязательности — важный метод выявления состязательных примеров до того, как они будут введены в целевые DNN. Предыдущие исследования по обнаружению враждебных примеров либо были нацелены на конкретные атаки, либо требовали дорогостоящих вычислений. Разработка легкого неконтролируемого детектора по-прежнему остается сложной проблемой. В этой статье мы предлагаем детектор состязательных примеров (AEAE) на основе AutoEncoder, который может защищать модели DNN, обнаруживая состязательные примеры с небольшими вычислениями без присмотра. AEAE включает только неглубокий автоэнкодер, но играет две роли. Во-первых, хорошо обученный автоэнкодер изучил множество хороших примеров. Этот автоэнкодер может давать большую ошибку реконструкции для враждебных изображений с большими возмущениями, поэтому мы можем обнаруживать значительно искаженные враждебные примеры на основе ошибки реконструкции. Во-вторых, автоэнкодер может отфильтровать небольшой шум и изменить предсказание DNN на состязательных примерах с небольшими возмущениями. Это помогает обнаруживать слегка возмущенные состязательные примеры на основе прогнозируемого расстояния. Чтобы охватить эти два случая, мы используем ошибку реконструкции и расстояние предсказания от доброкачественных изображений, чтобы построить набор признаков из двух кортежей и обучить детектор враждебных действий, используя алгоритм изолирующего леса. Мы эмпирически показываем, что AEAE является неконтролируемым и недорогим средством защиты от самых современных атак. Через обнаружение в этих двух случаях некуда спрятать состязательные примеры.

2.InferES: корпус логического вывода на естественном языке для испанского языка с противоречащими и противопоставленными примерами на основе отрицания(arXiv)

Автор:Венелин Ковачев, Мариона Тауле

Аннотация: В этой статье мы представляем InferES — оригинальный корпус для вывода на естественном языке (NLI) на европейском испанском языке. Мы предлагаем, внедряем и анализируем различные стратегии создания корпусов с привлечением опытных лингвистов и краудсорсинга. Цели InferES заключаются в предоставлении высококачественных данных и в то же время в облегчении систематической оценки автоматизированных систем. В частности, мы сосредоточены на измерении и улучшении производительности систем машинного обучения на состязательных примерах, основанных на отрицании, а также на их способности обобщать нераспространяемые темы. Мы обучаем две модели трансформаторов на InferES (8 055 золотых примеров) в различных сценариях. Наша лучшая модель имеет точность 72,8%, что оставляет много возможностей для улучшения. Базовый уровень «только гипотеза» работает только на 2%-5% выше, чем у большинства, что указывает на гораздо меньшее количество артефактов аннотаций, чем в предыдущей работе. Мы обнаружили, что модели, обученные на InferES, очень хорошо обобщаются по темам (как внутри, так и вне распространения) и умеренно хорошо работают на состязательных примерах, основанных на отрицании.

3. Следите за тем, к чему вы готовитесь: целевые, переносимые состязательные примеры на моделях самоконтролируемого распознавания речи(arXiv)

Автор:Рафаэль Оливье, Хади Абдулла, Бхикша Радж

Выдержка. Целенаправленная атака со стороны злоумышленников создает аудиосэмплы, которые могут заставить систему автоматического распознавания речи (ASR) выводить текст, выбранный злоумышленником. Чтобы использовать модели ASR в реальных условиях «черного ящика», злоумышленник может использовать свойство переносимости, т. е. образец злоумышленника, созданный для прокси-ASR, может также обмануть другой удаленный ASR. Однако недавняя работа показала, что перенос на большие модели ASR очень затруднен. В этой работе мы показываем, что современные архитектуры ASR, особенно те, которые основаны на обучении с самоконтролем, на самом деле уязвимы для переноса. Мы успешно демонстрируем это явление, оценивая современные модели ASR с самоконтролем, такие как Wav2Vec2, HuBERT, Data2Vec и WavLM. Мы показываем, что при низкоуровневом аддитивном шуме, достигающем отношения сигнал-шум 30 дБ, мы можем добиться целевой переносимости с точностью до 80%. Затем мы 1) используем исследование абляции, чтобы показать, что обучение с самоконтролем является основной причиной этого явления, и 2) мы даем объяснение этому явлению. Таким образом мы показываем, что современные архитектуры ASR однозначно уязвимы для угроз безопасности со стороны злоумышленников.

Понимание концепции состязательных примеров, часть 4 (машинное обучение)

Похожие вопросы