Понимание утечки данных, часть 3 (машинное обучение)

Split-U-Net: предотвращение утечки данных в разделенном обучении для совместной мультимодальной сегментации опухолей головного мозга (arXiv)

Автор : Хольгер Р. Рот, Али Хатамизаде, Цзиюэ Сюй, Цань Чжао, Вэньци Ли, Андрей Мироненко, Дагуан Сюй.

Аннотация: Сплит-обучение (SL) было предложено для децентрализованного обучения моделей глубокого обучения. Для децентрализованных приложений здравоохранения с вертикальным разделением данных SL может быть полезен, поскольку позволяет институтам с дополнительными функциями или изображениями для общего набора пациентов совместно разрабатывать более надежные и обобщаемые модели. В этой работе мы предлагаем «Split-U-Net» и успешно применяем SL для совместной сегментации биомедицинских изображений. Тем не менее, SL требует обмена промежуточными картами активации и градиентами, чтобы обеспечить возможность обучения моделей в разных пространствах функций, что может привести к утечке данных и вызвать проблемы конфиденциальности. Поэтому мы также количественно определяем объем утечки данных в распространенных сценариях SL для сегментации биомедицинских изображений и предлагаем способы противодействия такой утечке, применяя соответствующие стратегии защиты.

2. Утечка данных при федеративном усреднении (arXiv)

Автор : Димитр И. Димитров, Мислав Балунович, Никола Константинов, Мартин Вечев

Аннотация : : Недавние атаки показали, что пользовательские данные можно восстановить из обновлений FedSGD, тем самым нарушив конфиденциальность. Однако эти атаки имеют ограниченное практическое значение, поскольку в федеративном обучении обычно используется алгоритм FedAvg. По сравнению с FedSGD, восстановление данных из обновлений FedAvg намного сложнее, поскольку: (i) обновления вычисляются с ненаблюдаемыми промежуточными весами сети, (ii) используется большое количество пакетов и (iii) метки и веса сети изменяются одновременно для разных клиентов. шаги. В этой работе мы предлагаем новую атаку на основе оптимизации, которая успешно атакует FedAvg, решая вышеуказанные проблемы. Сначала мы решаем задачу оптимизации, используя автоматическое дифференцирование, которое вызывает симуляцию обновления клиента и генерирует ненаблюдаемые параметры для восстановленных меток и входных данных, соответствующие полученному обновлению клиента. Во-вторых, мы обращаемся к большому количеству пакетов, связывая изображения из разных эпох с априорным инвариантом перестановки. В-третьих, мы восстанавливаем метки, оценивая параметры существующих атак FedSGD на каждом этапе FedAvg. На популярном наборе данных FEMNIST мы демонстрируем, что в среднем мы успешно восстанавливаем около 45% изображений клиента из реалистичных обновлений FedAvg, рассчитанных на 10 локальных эпохах по 10 пакетов по 5 изображений в каждом, по сравнению с ‹10% при использовании базового уровня. Наши результаты показывают, что многие реальные реализации федеративного обучения на основе FedAvg уязвимы.

Понимание утечки данных, часть 3 (машинное обучение)

Похожие вопросы