Машинное обучение Azure (Azure ML) предлагает предпочтительную платформу для Snowflake, облачного хранилища данных, которое все чаще становится предпочтительным выбором для многих организаций для хранения своих данных. Специалисты по обработке и анализу данных из организаций, которые используют Snowflake в качестве решения для хранилища данных, теперь могут исследовать возможности Azure ML, не полагаясь на сторонние библиотеки и не привлекая специалистов по обработке данных. Теперь, благодаря простой и встроенной интеграции между Snowflake и Машинным обучением Azure, специалисты по обработке и анализу данных могут импортировать свои данные из Snowflake в Azure ML с помощью одной команды и запускать свои проекты машинного обучения.

Мы рады объявить об общедоступной предварительной версии интерфейса командной строки и пакета SDK для импорта данных машинного обучения Azure (Azure ML), который предназначен для простого извлечения данных из репозиториев данных, не являющихся частью платформы Azure, для обучения работе с Azure ML. Сюда входят базы данных, такие как Snowflake, и службы облачного хранения, такие как AWS S3.

В этой записи блога будут описаны преимущества и шаги, необходимые для начала работы с машинным обучением Azure для пользователей Snowflake без каких-либо внешних зависимостей.

Преимущества интеграции Snowflake и машинного обучения Azure

  1. Улучшенная совместная работа: эта интеграция позволяет специалистам по данным напрямую импортировать данные из Snowflake, устраняя необходимость в постоянном общении с командами обработки данных.
  2. Эффективность использования времени: устраняя необходимость в сторонних библиотеках или разработке дополнительных конвейеров данных, специалисты по обработке и анализу данных могут сэкономить время и сосредоточиться на разработке своих моделей машинного обучения.
  3. Упрощенный рабочий процесс. Использование встроенной связи между Snowflake и Машинным обучением Azure делает рабочий процесс более оптимизированным и удобным для пользователя.
  4. Гибкость: используя расписания или параметры по запросу, специалисты по данным могут решать, когда и какие данные необходимо импортировать. При определенных конфигурациях также можно управлять сроком действия данных, что обеспечивает полную гибкость в отношении наборов данных.
  5. Отслеживаемость: каждый импорт, независимо от того, запланирован он или нет, создает уникальную версию набора данных, которая, в свою очередь, используется в заданиях по обучению, предоставляя специалистам по данным необходимую отслеживаемость в сценариях, требующих переобучения или аудита моделей.

С чего начать?

Все начинается с соединения. Именно здесь сведения о конечной точке экземпляра Snowflake, включая информацию о сервере, базе данных, хранилище и роли, вводятся как цель вместе с действительные учетные данные для доступа к данным. Как правило, администратор — это тот, кто создает соединение.

Специалисту по данным легко использовать существующее подключение, если известен запрос для извлечения необходимых данных, предназначенных для использования в обучении. За один шаг можно импортировать данные и зарегистрировать их в качестве ресурса данных машинного обучения Azure, на который можно будет легко ссылаться в учебных заданиях.

Если сценарий требует импорта данных по расписанию, можно использовать популярные шаблоны cron или повторения для определения частоты импорта.

Мы также рады представить общедоступную предварительную версию управления жизненным циклом в управляемом хранилище данных Azure ML (хранилище данных, размещенное от имени/HOBO). Это предложение от Azure ML предназначено исключительно для сценариев импорта данных, доступных в CLI и SDK. Выбрав хранилище данных HOBO в качестве предпочтительного места назначения для импорта данных, вы получаете возможность управления жизненным циклом или, как мы называем это, автоматического удаления настроек для импортированных активов данных. Политика автоматического удаления импортированного ресурса данных, если он не используется каким-либо заданием в течение 30 дней, устанавливается для каждого импортированного ресурса данных в управляемом хранилище данных AzureML. Все, что нужно сделать, это указать azureml://datastores/workspacemanagedstore в качестве пути при определении их импорта, как показано во фрагменте ниже, а остальное будет обрабатываться AzureML.

После импорта данных можно обновить настройки автоматического удаления, чтобы увеличить или сократить продолжительность времени или даже изменить условие, чтобы оно основывалось на времени создания, а не на времени последнего использования, с помощью команд CLI или SDK. .

Краткое резюме —

Клиенты, имеющие данные в Snowflake, теперь могут использовать возможности Azure ML для обучения непосредственно с нашей платформы. Они могут импортировать данные по запросу или по расписанию, а также могут устанавливать политики «автоматического удаления» для управления своими импортированными данными в управляемом хранилище данных Azure ML с точки зрения затрат и соответствия требованиям.

Попробуйте сами –

Чтобы приступить к импорту данных Машинного обучения Azure, посетите Документацию по Azure ML и Репозиторий GitHub, где можно найти подробные инструкции по настройке подключений к внешним источникам в рабочей области Azure ML, а также по обучению или развертыванию моделей с различными Примеры Azure ML.

Блог был опубликован для анонса коннектора Snowflake ML в сотрудничестве с Амаром Бадалом, менеджером по продукту — Azure ML, Microsoft.