Подразделение Науки о данных в Microsoft» было создано 2,5 года назад с простой миссией: делиться передовым опытом Microsoft в области обработки данных, обсуждать ценность того, что мы делаем как специалисты по данным, и демонстрировать влияние нашей работы на общий бизнес Майкрософт. Мы считаем, что эта форма социальной журналистики служит доступным механизмом — как для нас, так и для наших заинтересованных сторон — который позволяет нам рассказать историю науки о данных Microsoft. Мы намеренно решили сделать эту онлайн-публикацию общедоступной, потому что считаем, что можем внести положительный вклад и продвинуть диалог в более широком сообществе специалистов по данным.

Когда мы начинали, некоторые были настроены скептически. Они сказали, что у нас не будет достаточно материала, чтобы поддерживать регулярные публикации, или что у потенциальных читателей не будет достаточного интереса, или что мы не можем писать о том, как в Microsoft работает с наукой о данных и защитить то, что является собственностью Microsoft. Я рад сообщить, что более 120 опубликованных статей позже, в которых участвовали специалисты по науке о данных из Microsoft, и постоянно растущая читательская аудитория, которая в настоящее время превышает 3200 подписчиков, я считаю, что мы показали, что действительно есть желание читать то, чем мы хотим поделиться. о нашей работе во всех областях науки о данных.

DS@M, как мы называем это внутри компании, открыт для всех профессионалов в области наук о данных, которые работают полный рабочий день в Microsoft на момент публикации статьи, и они действительно услышали наш призыв: наши статьи написаны учеными данных, ML ученые, инженеры данных и менеджеры программ обработки данных, среди прочих, со всей компании. Хотя фокус их работы может варьироваться от человека к человеку, все они играют неотъемлемую роль в формировании развития и успеха науки о данных как профессии как внутри Microsoft, так и за ее пределами в более широком сообществе специалистов по данным.

Поскольку мы переходим ко второй половине 2022 года, я составил это резюме, чтобы выделить статьи, которые вызвали наибольший отклик у наших читателей с точки зрения мнений в течение первой половины года. Каждая из этих статей с момента публикации набрала не менее 1000 просмотров. Я не делал никаких дальнейших корректировок или ежемесячного усреднения этих показателей, поэтому это означает, что те, которые были опубликованы ранее в этом году, имели больше времени для создания своей аудитории, чем те, которые были опубликованы позже. Однако подавляющее большинство статей DS@M набирают большую часть просмотров в первый месяц, и поэтому я не считаю, что это представляет собой особенно искаженное представление. У нас была по крайней мере одна статья, превышающая этот порог за каждое из первых шести месяцев этого года. Далее следует список этих семи статей, а также краткий обзор и ссылка на каждую из них, чтобы вы могли найти и прочитать их, если у вас не было возможности сделать это раньше.

Выражаю глубокую благодарность авторам всех наших статей о DS@M, профессионалам в области науки о данных, которые находят время в своей напряженной работе и личной жизни, чтобы поделиться тем, что они знают, с нашими читателями.

А теперь основные моменты самых просматриваемых статей:

Сравнение матричной факторизации с преобразователями для рекомендаций MovieLens с использованием ускорения PyTorch, Крис Хьюз, опубликовано 4 января. Крис отмечает важность систем рекомендаций, которые помогают нам не перегружаться выбором и знакомят нас с контентом, который было бы трудно обнаружить иначе, и демонстрирует, как можно использовать преобразователи для прогнозирования оценок на основе последовательностей прошлого поведения, а также показывает, как это соотносится с более широко известным подходом матричной факторизации. Крис также отмечает, что трансформеры способствуют значительному прогрессу в областях НЛП, видения и временных рядов, поэтому пришло время им также обратиться к рекомендателям.

Службы самовнушения в веб-поиске Тезана Саху, опубликовано 8 февраля. В первой статье Тезана в этом году рассматриваются основы служб самовнушения в веб-поиске и рассматриваются некоторые ключевые аспекты современных служб самовнушения, такие как релевантность. и покрытие. Тезан также обсуждает некоторые методы улучшения UX этих сервисов, а также показатели производительности для оценки эффективности этих методов.

Визуальные ответы на вопросы с помощью мультимодальных преобразователей Тезана Саху, опубликованная 8 марта. Как объясняет Тезан в своей второй статье в этом году, в последние годы произошли значительные успехи не только в соответствующих областях обработки естественного языка ( NLP) и Computer Vision (CV), но и в задачах, включающих комбинацию этих модальностей. Среди различных задач визуальные ответы на вопросы (VQA) особенно привлекли внимание нескольких исследователей. В этой статье Тезан иллюстрирует некоторые основные концепции, связанные с визуальными ответами на вопросы и мультимодальными моделями для выполнения такой задачи. Он представляет подробную реализацию PyTorch моделей VQA с использованием преобразователей текста и изображений из библиотеки Huggingface, а также сравнивает производительность нескольких моделей, использующих разные преобразователи текста и изображений для этой задачи.

Масштабируемое прогнозирование временных рядов и обнаружение аномалий Сурава Кхемки, опубликовано 15 марта. Как объясняет Сурав в своей первой статье в этом году, прогнозирование временных рядов и обнаружение аномалий важны для многих предприятий в условиях интенсивного использования данных. мир. Он находит применение в различных отраслях, включая ИТ, производство, розничную торговлю, здравоохранение, банковское дело и финансы. Он также имеет приложения для прогнозирования продаж, анализа запасов, обнаружения вторжений, обнаружения мошенничества и мониторинга производственной системы, среди прочего. Сурав пишет, что у его команды есть несколько вариантов использования для прогнозирования временных рядов и обнаружения аномалий в области финансов и коммерции Azure, включая значительное количество временных рядов. Прогнозирование и обнаружение аномалий в одномерных временных рядах — хорошо известная проблема, и существует множество весьма эффективных решений. Но по мере увеличения количества временных рядов эти решения часто плохо масштабируются. Sourav предлагает решение, масштабируемое до 100 000 временных рядов.

Роль технического менеджера программы в проектах ИИ Ника Сачдева, опубликованная 5 апреля. В этой статье Ник передает отчет Venture Beat о том, что 87% проектов по науке о данных терпят неудачу и никогда не переходят к производство. Он отмечает, что менеджеры технических программ (TPM) могут внести изменения в эту статистику и помочь группам специалистов по данным и инженерам создавать успешные проекты ИИ, а также рассматривает рекомендации по управлению проектами для проектов машинного обучения и путь обучения для технических менеджеров по проектам, чтобы улучшить свои навыки для проектов. которые имеют компонент ML.

Оценка оттока клиентов на основе данных об использовании, Харибабу Инуганти, опубликованная 31 мая. Проблема оттока существует, рассказывается, как идентифицировать ушедших клиентов на основе данных об использовании, обсуждается, как понять закономерности оттока с помощью кривых Каплана-Мейера и тепловых карт, а также показано, как использовать статистическое тестирование для определения наличия проблемы оттока.

Масштабируемое прогнозирование временных рядов, авторы Мойд Хассан и Сурав Кхемка, опубликовано 21 июня. прогнозирование временных рядов. Эта статья основана на статье, которую Сурав написал в одиночку, о масштабируемом прогнозировании временных рядов и обнаружении аномалий, которая была опубликована 15 марта и описана выше, поскольку она также была просмотрена более 1000 раз.

Если у вас есть идеи для статей, которые вы хотели бы видеть в Науке о данных в Microsoft, укажите их в разделе Комментарии ниже. Мы благодарим вас за вашу читательскую аудиторию!

Кейси Дойл зарегистрирована в LinkedIn.