Глубокое обучение на графах стало популярной областью исследований в последние годы. В этой статье я собираюсь резюмировать недавний исследовательский доклад на Microsoft Research Summit 2021, сделанный моим коллегой-исследователем «Аруном Айером» из Microsoft Research India, о проблемах, с которыми мы столкнулись при создании многопользовательского решения для изучения графов для рекомендаций. проблемы.
Мероприятие: Microsoft Research Summit 2021
Что такое графическое обучение DEEGO?
DEEGO — это сокращение от «Deep Entity Embeddings from Graphs in Office». Вложения DEEGO созданы на основе богатого взаимодействия между объектами (электронная почта, встречи, контакты, сообщения, документы и т. д.) в M365. Например:
- Пользователь 1 -> Электронная почта E1 -> Пользователь 2
- Пользователь 1 -> Документ D1 -> Пользователь 2
- Пользователь 1 -> Сообщения команд M1 -> Пользователь 2
Изучение этих разнообразных взаимодействий, возникающих в результате повседневных операций в клиентах M365, открывает совершенно новый набор возможностей для создания более качественной системы рекомендаций для наших клиентов по нескольким продуктам. Тем не менее, это также сопряжено с рядом новых проблем.
Как обучение на основе графов DEEGO повышает эффективность рекомендаций?
Есть два возможных способа создания/потребления DEEGO:
- Режим 1: неконтролируемое/самоконтролируемое встраивание обучения совместно с последующими задачами
- Режим 2: Контролируемое/полуконтролируемое встраивание обучающих «модулей», совместно используемых с последующими задачами
Ожидается, что режим № 1 будет основным шаблоном использования с несколькими сценариями выбора режима № 2 для максимальной гибкости. Основная причина, по которой сценарии переходят в режим № 1, заключается в том, чтобы избежать накладных расходов на инфраструктуру для извлечения, обучения и публикации вложений.
Наши эксперименты показывают, что настройки режима № 1 обеспечивают значительное повышение производительности при выполнении нескольких задач рекомендаций по сравнению с текущими базовыми производственными показателями.
Проблемы создания вложений графового обучения DEEGO
Есть проблемы, с которыми мы столкнулись при создании встраивания DEEGO, и это лишь некоторые из них:
- Вложения для быстро движущихся объектов против медленно движущихся объектов
- Надежность против корреляций метки-графика
- Конфиденциальность обучения
- Согласованность вложений для последующих задач
- Перекрытие арендаторов в нижестоящих задачах
- Масштабируемость
- …
В этой статье я расскажу о пяти основных проблемах, перечисленных выше. Чтобы узнать о крупномасштабном обучении, управлении конфиденциальностью и нашем решении для изоляции арендаторов, следите за моими следующими статьями.
Вложения для быстро движущихся объектов против медленно движущихся объектов
Сущности не созданы равными. В M365 дела идут в другом темпе. Например, объекты «Люди», «Команда» и «Канал» обычно перемещаются медленными темпами, что требует только ежемесячных обновлений. Принимая во внимание, что объекты электронной почты, собраний и чата перемещаются практически в режиме реального времени, что требует близкой или эквивалентной частоты обновления, чтобы обеспечить наилучшую ценность сценария.
Разнообразные объекты также создают проблемы в нашей инфраструктуре для обработки каждого объекта по разным графикам.
Надежность против корреляций метки-графика
Некоторые области подхода метки-графа в DEEGO все еще находятся в стадии изучения. Что касается проблемы классификации узлов, мы все еще пытаемся понять влияние на производительность использования графа меток в GNN. Чтобы лучше понять эту проблему, мы используем метрики гомофилии для узла, края и класса, чтобы оценить влияние на производительность. Но мы заметили, что объединение функций узлов и графика TSVD дает значительное улучшение по сравнению с моделями SoTA.
Для проблемы рекомендации нам еще предстоит определить метрики или найти модель для смягчения проблем с корреляцией метки-графика. Мы оставляем этот вопрос открытым для рассмотрения в будущих исследованиях.
Конфиденциальность обучения
В Microsoft конфиденциальность пользователей является нашим главным приоритетом. Для обучения встраиваниям DEEGO нам необходимо иметь кристально ясное представление об объеме, категории и точности данных, используемых при обучении. Все перемещения данных должны отслеживаться, утверждаться и управляться (в среде с нулевым доверием). Помимо программного контроля, мы также внедрили рутинные процессы обучения и допусков, чтобы держать всех под контролем.
Другая проблема конфиденциальности заключается в обеспечении сквозной изоляции в процессе извлечения, обучения и логического вывода. Я расскажу о нашем решении для обеспечения совместимости, защиты и изоляции обучения данных пользователя/арендатора в отдельной статье. Оставайтесь с нами.
Согласованность вложений для последующих задач
В настоящее время мы тренируем встраивание DEEGO в определенном ритме. Цикл обратной связи между внедрением обучения и онлайн-тестированием A/B может занять некоторое время. Для сценариев, чувствительных ко времени, обеспечение того, чтобы версия вложений не регрессировала с течением времени, является сложной задачей.
Перекрытие арендаторов в нижестоящих задачах
В M365 есть сотни миллионов пользователей в сотнях тысяч клиентов. Нередко пользователи взаимодействуют с пользователями в другом арендаторе/организации. Как мы можем обеспечить способ «объединения» этих сущностей и взаимодействий при построении графа без ущерба для конфиденциальности и безопасности и при этом сохранить в DEEGO как можно больше информации для обучения.
Подпишитесь, чтобы узнать о нашем решении для обучения графу DEEGO
В следующих нескольких статьях я продемонстрирую решение, созданное моей командой, которое обеспечивает обучение внедрению DEEGO нескольких сотен миллионов пользователей. Подпишитесь на меня в разделе Medium и Подпишитесь на мой блог, чтобы получать уведомления, когда он выйдет!
технический руководитель, Substrate Graph Intelligence, MSAI | технический блогер | Сноубордист | Ютубер | Торговец опционами | Криптовалютный энтузиаст Просмотреть все сообщения Coder Stan
Первоначально опубликовано на https://coderstan.com 5 сентября 2022 г.