Ускоренный курс Azure Data Scientist 1.0: серия Dark to Cloud (GPT DP-900, DP-100 и AZ-104)

Модуль 1

A. Управление пользователями и группами Azure AD:

1. Создайте пользователей и группы.
Чтобы создать пользователей и группы в Azure AD, вы можете использовать портал Azure или модуль Azure Active Directory PowerShell. На портале Azure перейдите в Azure Active Directory, выберите «Пользователи» или «Группы» и нажмите «Создать», чтобы создать нового пользователя или группу. Укажите необходимую информацию, такую как имя, адрес электронной почты и членство в группе.

2. Управление свойствами пользователей и групп.
Вы можете управлять свойствами пользователей и групп в Azure AD, выбрав пользователя или группу на портале Azure и изменив такие свойства, как отображаемое имя, должность, контактная информация и членство в группах. . Эти свойства помогают определить удостоверение и роли пользователей и групп в вашей среде Azure.

3. Управление лицензиями в Azure AD:
Azure AD позволяет назначать пользователям лицензии для доступа к определенным службам или приложениям. Чтобы управлять лицензиями, перейдите в Azure Active Directory, выберите «Лицензии» и выберите лицензию, которую хотите назначить. Затем выберите пользователей или группы, которым вы хотите назначить лицензию. В этом разделе вы также можете удалить лицензии или просмотреть отчеты об использовании лицензий.

4. Управление внешними пользователями.
Azure AD поддерживает внешних пользователей, что позволяет вам сотрудничать с людьми за пределами вашей организации. Чтобы управлять внешними пользователями, перейдите в Azure Active Directory, выберите «Внешние удостоверения» и выберите «Гостевые пользователи». Оттуда вы можете приглашать внешних пользователей, управлять их правами доступа и при необходимости отзывать их доступ.

5. Настройте самостоятельный сброс пароля (SSPR):
SSPR позволяет пользователям сбрасывать свои пароли без обращения в ИТ-поддержку. Чтобы настроить SSPR, перейдите в Azure Active Directory, выберите «Сброс пароля» и следуйте инструкциям по настройке необходимых политик и параметров безопасности. Затем пользователи могут сбросить свои пароли на странице входа в Azure AD или с помощью приложения Microsoft Authenticator.

Б. Управление доступом к ресурсам Azure:

1. Управление встроенными ролями Azure.
Azure предоставляет встроенные роли, которые определяют права пользователей на доступ к ресурсам Azure. К этим ролям относятся Владелец, Участник, Читатель и многие другие. Для управления встроенными ролями вы можете использовать портал Azure, Azure PowerShell или Azure CLI. Назначьте соответствующие роли пользователям или группам в зависимости от их обязанностей и требований к доступу.

2. Назначение ролей в разных областях.
Роли Azure можно назначать в разных областях, таких как подписка, группа ресурсов или уровень отдельного ресурса. Назначение ролей в соответствующей области гарантирует, что пользователи будут иметь необходимые разрешения только там, где это необходимо. Вы можете назначать роли с помощью портала Azure, PowerShell или Azure CLI, выбрав целевую область и связав нужную роль с пользователем или группой.

3. Интерпретация назначений доступа.
Чтобы интерпретировать назначения доступа, необходимо понимать иерархию ресурсов Azure и область, в которой назначаются роли. Роли, назначенные в более высоких областях, таких как подписка или группа ресурсов, наследуются в более низких областях, таких как отдельные ресурсы. Понимание назначений доступа помогает обеспечить надлежащие элементы управления доступом и разрешения для ваших ресурсов Azure.

C. Управление подписками Azure и управлением:

1. Внедрение политики Azure и управление ею.
Политика Azure позволяет вам применять организационные стандарты и соответствие требованиям в вашей среде Azure. Вы можете определить политики, управляющие свойствами ресурсов, элементами управления доступом и другими конфигурациями. Чтобы внедрить политику Azure и управлять ею, перейдите в раздел Политика Azure на портале Azure. Создавайте определения политик, назначайте их определенным областям и отслеживайте соблюдение политик.

2. Настройте блокировку ресурсов.
Блокировка ресурсов обеспечивает дополнительный уровень защиты для предотвращения случайного удаления или изменения важных ресурсов. Вы можете настроить блокировку ресурсов на уровне группы ресурсов или отдельного ресурса. Чтобы настроить блокировки ресурсов, перейдите к ресурсу или группе ресурсов на портале Azure, выберите «Блокировки» и примените нужный тип блокировки.

3. Применяйте теги к ресурсам и управляйте ими.
Теги помогают классифицировать и организовывать ресурсы для более эффективного управления и отслеживания затрат. Вы можете применять теги к ресурсам в зависимости от потребностей вашей организации, таких как среда, отдел или проект. Чтобы применить теги и управлять ими, откройте свойства ресурса на портале Azure, выберите «Теги» и добавьте нужные пары «ключ-значение».

4. Управление группами ресурсов.
Группы ресурсов представляют собой логический контейнер для управления и организации связанных ресурсов Azure. При необходимости вы можете создавать, изменять и удалять группы ресурсов. Чтобы управлять группами ресурсов, перейдите на портал Azure, выберите «Группы ресурсов» и выполните такие действия, как создание новых групп ресурсов, перемещение ресурсов между группами или удаление групп ресурсов.

5. Управление подписками.
Подписки Azure представляют собой границы выставления счетов и владения ресурсами Azure. Как специалисту по искусственному интеллекту Azure вам может потребоваться управлять подписками, включая добавление или удаление пользователей, назначение ролей или обновление свойств подписки. Управление подпиской можно осуществлять через портал Azure, выбрав опцию «Подписки».

6. Управляйте расходами с помощью предупреждений, бюджетов и рекомендаций Azure Advisor.
Azure предоставляет различные инструменты для управления расходами. Azure Monitor позволяет настраивать оповещения об использовании ресурсов или пороговых значениях затрат. Azure Cost Management and Billing предоставляет возможности бюджетирования для отслеживания и управления расходами. Помощник по Azure предлагает рекомендации по оптимизации использования ресурсов и снижению затрат на основе передового опыта.

7. Настройте группы управления.
Группы управления помогают организовывать подписки и управлять ими в нужном масштабе, группируя их на основе организационной структуры, проектов или политик. Вы можете создать иерархию групп управления и применять политики или элементы управления доступом на разных уровнях. Чтобы настроить группы управления, перейдите на портал Azure, выберите «Группы управления» и создайте нужную структуру.

Модуль 2

Внедрение безопасности Azure

А. Внедрение аутентификации и авторизации пользователей

1. Аутентификация и авторизация пользователей с помощью Microsoft Identity Platform:
— Microsoft Identity Platform предоставляет набор служб и API для аутентификации и авторизации пользователей в Azure.
— Вы можете использовать Azure Active Directory (Azure AD) в качестве поставщика удостоверений для ваших приложений.
— Azure AD поддерживает различные методы аутентификации, такие как имя пользователя и пароль, многофакторная аутентификация, вход через социальные сети и т. д.
— Для аутентификации пользователей вы можете используйте библиотеки и пакеты SDK, такие как Microsoft Authentication Library (MSAL), для разных языков программирования.

2. Аутентификация и авторизация пользователей и приложений с помощью Microsoft Azure Active Directory (Azure AD):
— Azure AD — это облачная служба управления идентификацией и доступом, предоставляемая Microsoft.
— она позволяет управлять пользователями. удостоверения и доступ к ресурсам в Azure.
— Azure AD можно настроить для аутентификации пользователей и авторизации их доступа к приложениям и ресурсам.
— Azure AD поддерживает интеграцию с различными поставщиками удостоверений, включая локальную Active Directory. и поставщики удостоверений социальных сетей.
— Вы можете использовать аутентификацию Azure AD в своих приложениях, используя библиотеки и протоколы аутентификации Azure AD.

3. Создайте и внедрите подписи общего доступа:
— Подписи общего доступа (SAS) позволяют предоставлять ограниченный доступ к ресурсам Azure без совместного использования ключей учетной записи.
— С помощью SAS вы можете определять детализированные разрешения и ограниченный по времени доступ к учетным записям хранения, большим двоичным объектам, очередям и т. д.
— Для создания и внедрения SAS можно использовать Azure SDK, Azure PowerShell, Azure CLI или портал Azure.
– SAS может использоваться для безопасного доступа к ресурсам при сохранении контроля над разрешениями и сроком действия.

4. Внедрение решений, взаимодействующих с Microsoft Graph:
— Microsoft Graph — это унифицированная конечная точка API, которая позволяет разработчикам получать доступ к данным и функциям в службах Microsoft 365 и Azure.
— Вы можете интегрировать свои приложения с Microsoft Graph. для доступа к пользовательским данным, организационным данным и другим ресурсам.
— Для взаимодействия с Microsoft Graph вам необходимо пройти аутентификацию и авторизацию приложения с помощью Azure AD.
— Вы можете использовать Microsoft Graph SDK или создать RESTful API вызовы для взаимодействия с Microsoft Graph и получения или обновления данных.

B. Внедрение безопасных решений Azure

1. Защитите данные конфигурации приложения с помощью App Configuration или Azure Key Vault:
— App Configuration и Azure Key Vault — это службы, которые обеспечивают безопасное хранилище для параметров приложения, строк подключения и секретов.
— App Configuration позволяет вам для централизованного хранения параметров конфигурации и управления ими.
— Azure Key Vault предоставляет безопасное хранилище для хранения ключей, секретов и сертификатов.
— вы можете получать данные конфигурации и секреты из App Configuration или Azure Key. Сохраняйте свои приложения с помощью соответствующих SDK или REST API.

2. Разработайте код, который использует ключи, секреты и сертификаты, хранящиеся в Azure Key Vault:
— Azure Key Vault позволяет безопасно хранить криптографические ключи, секреты и сертификаты.
— вы можете разрабатывать код, который обращается к и использует эти ключи, секреты и сертификаты в ваших приложениях.
— Azure Key Vault предоставляет пакеты SDK и библиотеки для разных языков программирования, чтобы упростить интеграцию с вашим кодом.
— Вы можете получать ключи, секреты и сертификаты. из Azure Key Vault программным путем и использовать их для операций шифрования, расшифровки, подписи и проверки.

3. Внедрение управляемых удостоверений для ресурсов Azure.
— Управляемые удостоверения для ресурсов Azure обеспечивают автоматический способ управления и защиты учетных данных для служб Azure.
— Управляемые удостоверения избавляют от необходимости хранить учетные данные в ваш код или файлы конфигурации.
– службы Azure, такие как виртуальные машины, служба приложений и функции Azure, могут иметь связанное с ними управляемое удостоверение.
– вы можете предоставить разрешения управляемого удостоверения для доступа к другим Безопасно используйте ресурсы Azure, такие как учетные записи хранения, базы данных или секреты Key Vault.

C. Мониторинг, устранение неполадок и оптимизация решений Azure

1. Внедрите кэширование решений:
а. Настройка кэша и политик срока действия для кэша Azure для Redis:
— кэш Azure для Redis — это полностью управляемая служба кэширования в памяти, предоставляемая Azure.
— вы можете настроить параметры кэша и политики срока действия для оптимизации производительность ваших приложений.
— За счет кэширования часто используемых данных вы можете снизить нагрузку на серверные системы и сократить время отклика.

б. Внедрите безопасные и оптимизированные шаблоны кэша приложений, включая размер данных, соединения, шифрование и срок действия:
— при реализации кэширования в ваших приложениях важно учитывать размер данных, управление соединениями, шифрование и политики истечения срока действия.
— Вы должны определить подходящий размер и емкость кеша в зависимости от требований вашего приложения.
— Эффективное и безопасное управление соединениями с кешем имеет решающее значение для оптимальной производительности.
— Если конфиденциальные данные кэшируются, следует применять шифрование. для защиты данных в состоянии покоя.
— Реализация политик срока действия гарантирует, что устаревшие данные автоматически удаляются из кэша.

в. Внедрите конечные точки и профили Azure CDN:
— сеть доставки содержимого Azure (CDN) — это распределенная сеть серверов, которая кэширует и доставляет контент ближе к конечным пользователям.
— вы можете создавать конечные точки и профили Azure CDN для ускорить доставку статического и динамического контента.
— Azure CDN интегрируется с другими службами Azure, такими как хранилище BLOB-объектов Azure и веб-приложения Azure, для кэширования и доставки контента из этих источников.
— Используя Azure CDN, вы можете повысить производительность и доступность ваших приложений по всему миру.

2. Устранение неполадок в Решениях с помощью Application Insights:
а. Настройте приложение или службу для использования Application Insights:
— Application Insights — это служба мониторинга и управления производительностью приложений (APM), предоставляемая Azure.
— вы можете настроить свои приложения или службы для отправки данных телеметрии в приложение. Аналитика для мониторинга и устранения неполадок.
— Пакеты SDK и агенты Application Insights можно использовать для инструментирования кода и сбора данных телеметрии.

б. Мониторинг и анализ метрик, журналов и трассировок.
— После того как приложение настроено с помощью Application Insights, вы можете отслеживать и анализировать различные метрики, журналы и трассировки.
– Метрики предоставляют информацию о производительности и поведении. вашего приложения, таких как время отклика, загрузка ЦП и количество запросов.
— Журналы собирают подробную информацию о событиях и операциях, выполняемых вашим приложением.
— Трассировки помогают отслеживать путь выполнения запросов или операций, что позволяет выявить узкие места или проблемы.

в. Внедрение веб-тестов и оповещений Application Insights:
— Application Insights позволяет создавать веб-тесты для отслеживания доступности и времени отклика вашего приложения.
— вы можете настроить оповещения на основе определенных условий или пороговых значений для получения уведомлений, когда обнаружены проблемы.
— Оповещения можно настроить так, чтобы они уведомляли вас по электронной почте, SMS или интегрировались с другими системами оповещения и управления инцидентами.

Модуль 3:

Развертывание вычислительных ресурсов Azure и управление ими

A. Автоматизируйте развертывание ресурсов с помощью шаблонов Azure Resource Manager (ARM) или файлов Bicep.

1. Интерпретация шаблона ARM или файла Bicep:
— шаблоны ARM и файлы Bicep — это декларативные шаблоны, используемые для определения и развертывания ресурсов Azure.
— шаблон ARM записывается в формате JSON, а Bicep — это язык высокого уровня, который компилируется в шаблоны ARM.
— вы можете интерпретировать и понимать структуру, синтаксис и компоненты этих шаблонов для развертывания ресурсов Azure.

2. Изменить существующий шаблон ARM:
— вам может потребоваться внести изменения в существующий шаблон ARM, чтобы настроить развертывание ресурсов Azure.
— вы можете изменить параметры шаблона, свойства ресурсов или добавить/ удалить ресурсы, чтобы привести их в соответствие с вашими требованиями.

3. Изменение существующего файла Bicep:
— аналогично изменению шаблонов ARM, вы можете внести изменения в существующий файл Bicep, чтобы изменить развертывание ресурсов Azure.
— Bicep предоставляет более краткий и читаемый синтаксис по сравнению с к шаблонам ARM.

4. Развертывание ресурсов с помощью шаблона ARM или файла Bicep:
— после того, как вы подготовили или изменили шаблон ARM или файл Bicep, вы можете использовать Azure Resource Manager для развертывания определенных ресурсов.
— Процесс развертывания создаст указанные ресурсы Azure на основе шаблона или файла.

5. Экспортируйте развертывание в виде шаблона ARM или скомпилируйте развертывание в виде файла Bicep:
— существующее развертывание можно экспортировать в виде шаблона ARM, чтобы зафиксировать конфигурацию и предоставленные ресурсы.
— в качестве альтернативы вы можете скомпилируйте развертывание, написанное на Bicep, чтобы сгенерировать соответствующий шаблон ARM для будущего использования.

B. Создание и настройка виртуальных машин

1. Создайте виртуальную машину:
— Azure предоставляет возможность создавать виртуальные машины (ВМ) в облаке.
— вы можете выбрать размер виртуальной машины, операционную систему и другие конфигурации в процессе создания.

2. Настройте шифрование дисков Azure:
— шифрование дисков Azure позволяет шифровать данные на дисках вашей виртуальной машины для защиты конфиденциальной информации.
— вы можете настроить параметры шифрования и управлять ключами шифрования для защиты дисков вашей виртуальной машины.

3. Переместите виртуальную машину в другую группу ресурсов, подписку или регион:
— иногда вам может потребоваться переместить виртуальную машину в другую группу ресурсов, подписку или даже в другой регион Azure.
— Azure предоставляет инструменты и параметры для облегчения перемещения виртуальных машин без нарушения работы работающих на них служб.

4. Управляйте размерами виртуальных машин:
— Azure предлагает различные размеры виртуальных машин с различными конфигурациями и характеристиками производительности.
— размер виртуальной машины можно увеличивать или уменьшать в зависимости от требований рабочей нагрузки, что позволяет настраивать ресурсы по мере необходимости.

5. Управление дисками виртуальных машин:
— виртуальные машины Azure используют диски для хранения операционной системы, приложений и данных.
— вы можете управлять и настраивать параметры дисков, например подключение дополнительных дисков, изменение размера дисков или создание моментальных снимков дисков для резервного копирования.

6. Разверните виртуальные машины в зонах доступности и группах доступности:
— Azure предоставляет зоны доступности и группы доступности для обеспечения высокой доступности и отказоустойчивости.
— вы можете развернуть виртуальные машины в разных зонах доступности или в пределах группы доступности для убедитесь, что ваши приложения устойчивы к сбоям.

7. Развертывание и настройка масштабируемых наборов виртуальных машин Azure:
— масштабируемые наборы виртуальных машин позволяют развертывать группу идентичных виртуальных машин и управлять ими.
— можно определить правила масштабирования для автоматической настройки количества виртуальных машин. экземпляры в зависимости от спроса.

C. Предоставление контейнеров и управление ими на портале Azure

1. Создайте реестр контейнеров Azure и управляйте им:
— Реестр контейнеров Azure — это частный реестр для хранения образов контейнеров и управления ими.
— Вы можете создать реестр контейнеров для безопасного хранения образов контейнеров и управления доступом к ним. их.

2. Подготовьте контейнер с помощью Azure Container Instances:
— Azure Container Instances (ACI) позволяет запускать контейнеры без управления базовой инфраструктурой.
— Вы можете подготавливать контейнеры с помощью ACI и легко масштабировать их в зависимости от рабочей нагрузки. требования.

3. Подготовьте контейнер с помощью Azure Container Apps:
— Azure Container Apps обеспечивают абстракцию более высокого уровня для развертывания и управления контейнерами в Azure.
— Вы можете подготавливать контейнеры с помощью Azure Container Apps, что упрощает опыт развертывания контейнеров.

4. Управляйте размером и масштабированием контейнеров, в том числе Azure Container Instances и Azure Container Apps:
— вы можете настроить распределение ресурсов, таких как ЦП и память, для контейнеров, работающих в Azure Container Instances или Azure Container Apps.
— Кроме того, вы можете определить правила масштабирования для автоматической настройки количества экземпляров контейнера в зависимости от спроса.

D. Создание и настройка службы приложений Azure

1. Подготовьте план службы приложений:
— планы службы приложений определяют вычислительные ресурсы и параметры для служб приложений Azure.
— вы можете предоставить план службы приложений, чтобы предоставить необходимые ресурсы для размещения ваших веб-приложений.

2. Настройте масштабирование для плана службы приложений:
— планы службы приложений поддерживают ручное или автоматическое масштабирование для обработки различных требований к рабочей нагрузке.
— вы можете настроить правила масштабирования на основе таких показателей, как загрузка ЦП или количество запросов для масштабирования. основные ресурсы вверх или вниз.

3. Создайте службу приложений:
— служба приложений Azure позволяет размещать веб-приложения, REST API и серверные части мобильных приложений.
— вы можете создать службу приложений и развернуть свой код или приложение, чтобы сделать его доступны через Интернет.

4. Настройте сертификаты и TLS для службы приложений:
— вы можете настроить SSL-сертификаты и параметры TLS для службы приложений, чтобы обеспечить безопасную связь с клиентами.
— Azure предоставляет возможности для управления сертификатами или интеграции с Azure. Key Vault для безопасного хранения сертификатов.

5. Сопоставьте существующее пользовательское DNS-имя со службой приложений:
— вы можете сопоставить личный домен или DNS-имя со своей службой приложений, что позволит пользователям получать доступ к вашему приложению с помощью удобного URL-адреса.

6. Настройте резервное копирование для службы приложений:
— Служба приложений Azure позволяет включить функции резервного копирования и восстановления для ваших приложений.
— Вы можете настроить параметры резервного копирования, чтобы защитить данные и конфигурацию вашего приложения.

7. Настройте сетевые параметры для службы приложений:
— вы можете настроить сетевые параметры для управления входящим и исходящим сетевым трафиком для вашей службы приложений.
— Azure предоставляет такие функции, как интеграция с виртуальной сетью, частные конечные точки и ограничения доступа для повышения безопасности сети.

8. Настройка слотов развертывания для службы приложений:
— слоты развертывания предоставляют промежуточную среду для развертывания и тестирования новых версий вашего приложения перед заменой его на производственную среду.
— вы можете создавать слоты развертывания и управлять ими. для облегчения непрерывного развертывания и минимизации времени простоя.

Конечно! Давайте продолжим с темами в разделе «Разработка решений Azure Compute».

Тема: Разработка вычислительных решений Azure

А. Внедрение контейнерных решений

1. Создание образов контейнеров для решений и управление ими:
— Образы контейнеров — это переносимые и легкие единицы, которые инкапсулируют приложения и их зависимости.
— Вы можете создавать образы контейнеров и управлять ими с помощью таких инструментов, как Docker или Azure Container Registry, чтобы упаковать свои решения.

2. Публикация образа в Реестре контейнеров Azure:
— Реестр контейнеров Azure позволяет хранить образы контейнеров и управлять ими в частном реестре.
— Вы можете опубликовать образы контейнеров в Реестре контейнеров Azure, чтобы сделать их доступными. для развертывания.

3. Запуск контейнеров с помощью экземпляра контейнера Azure:
— экземпляры контейнеров Azure (ACI) позволяют запускать контейнеры без управления базовой инфраструктурой.
— вы можете развертывать контейнеры и управлять ими с помощью ACI, указав образ и ресурсы. необходимый.

4. Создавайте решения с помощью приложений для контейнеров Azure:
— приложения для контейнеров Azure предоставляют упрощенный способ развертывания контейнеров в Azure и управления ими.
— вы можете создавать контейнерные решения с помощью приложений для контейнеров Azure, что позволяет абстрагироваться от сложности управление контейнерами напрямую.

B. Внедрение веб-приложений службы приложений Azure

1. Создайте веб-приложение службы приложений Azure:
— веб-приложения службы приложений Azure позволяют размещать и запускать веб-приложения в облаке.
— вы можете создать веб-приложение и настроить стек среды выполнения, масштабируемость. и другие настройки.

2. Включите ведение журнала диагностики:
— ведение журнала диагностики помогает собирать ценные сведения и устранять неполадки в веб-приложении.
— вы можете включить и настроить параметры ведения журнала для записи журналов приложений, журналов HTTP и подробной информации об ошибках.

3. Развертывание кода в веб-приложении:
— после создания веб-приложения вам необходимо развернуть код приложения, чтобы сделать его доступным.
— вы можете развернуть код из локальной среды разработки или интегрироваться с репозитории системы управления версиями, такие как Azure DevOps или GitHub.

4. Настройте параметры веб-приложения, включая SSL, параметры API и строки подключения:
— вы можете настроить различные параметры для своего веб-приложения, например включить сертификаты SSL/TLS для безопасного обмена данными, управлять параметрами API и определять строки подключения. для баз данных или внешних служб.

5. Внедрение автоматического масштабирования:
— автоматическое масштабирование позволяет вашему веб-приложению автоматически регулировать свою емкость в зависимости от спроса.
— вы можете определить правила масштабирования и пороговые значения для динамического масштабирования ресурсов вверх или вниз, обеспечивая оптимальную производительность и стоимость. -эффективность.

C. Внедрение функций Azure

1. Создайте и настройте приложение-функцию Azure:
— Функции Azure предоставляют возможности бессерверных вычислений, позволяя вам запускать код, управляемый событиями, без управления базовой инфраструктурой.
— вы можете создать приложение-функцию и настроить его триггеры, привязки и параметры среды выполнения.

2. Реализуйте привязки ввода и вывода:
— привязки определяют источники ввода и вывода для Функций Azure.
— вы можете настроить привязки ввода, чтобы инициировать выполнение функции, и указать привязки вывода, чтобы отправлять данные в различные места назначения, например хранилища, очереди или базы данных.

3. Внедрите триггеры функций с помощью операций с данными, таймеров и веб-перехватчиков:
— функции Azure могут запускаться различными событиями, такими как изменение данных, запланированные таймеры или входящие веб-перехватчики.
— вы можете реализовать триггеры. чтобы ваши функции реагировали на определенные события и выполняли соответствующую логику.

Модуль 4:

Внедрение и управление хранилищем

А. Настройте доступ к хранилищу

1. Настройте брандмауэры хранилища Azure и виртуальные сети:
— вы можете ограничить доступ к своим учетным записям хранилища Azure, настроив брандмауэры и виртуальные сети.
— это позволяет определить диапазоны IP-адресов или конкретные виртуальные сети, к которым можно получить доступ. ваши ресурсы хранения.

2. Создайте и используйте токены подписи общего доступа (SAS):
— Подписи общего доступа (SAS) обеспечивают безопасный способ предоставления ограниченного доступа к вашим ресурсам хранения.
— Вы можете создавать токены SAS с указанными разрешениями. и ограниченный по времени доступ, позволяющий клиентам выполнять авторизованные операции.

3. Настройка сохраненных политик доступа:
— хранимые политики доступа позволяют вам управлять и применять согласованные разрешения для подписей общего доступа.
— вы можете определять политики, которые определяют разрешения, срок действия и другие ограничения для предоставления доступ к ресурсам хранилища.

4. Управление ключами доступа:
— ключи доступа используются для проверки подлинности и авторизации для программного доступа к учетным записям хранения.
— вы можете управлять ключами доступа, повторно создавать их при необходимости и контролировать их доступность для обеспечения безопасного доступа. к ресурсам хранения.

5. Настройте доступ на основе удостоверений для файлов Azure:
— Файлы Azure поддерживают управление доступом на основе удостоверений, что позволяет предоставлять доступ к ресурсам хранилища с помощью удостоверений Azure Active Directory (Azure AD).
— вы можете настроить разрешения на уровне файлов для файлов Azure, чтобы обеспечить детальный контроль доступа.

B. Настройка учетных записей хранения и управление ими

1. Создайте и настройте учетные записи хранения:
— учетные записи хранения Azure служат контейнером верхнего уровня для хранения различных типов данных, таких как большие двоичные объекты, файлы, таблицы и очереди.
— вы можете создавать и настроить учетные записи хранения, указав такие параметры, как уровни производительности, уровни доступа и параметры репликации.

2. Настройте избыточность хранилища Azure:
— Azure предлагает различные варианты избыточности для обеспечения надежности и доступности данных.
— Вы можете настроить избыточность учетной записи хранения, например локально избыточное хранилище (LRS), зонально-избыточное хранилище ( ZRS) или геоизбыточное хранилище (GRS) в зависимости от ваших требований.

3. Настройте репликацию объектов:
— репликация объектов позволяет реплицировать данные между учетными записями хранения Azure или внутри одной учетной записи хранения.
— вы можете настроить правила репликации для репликации больших двоичных объектов, файлов или таблиц для обеспечения избыточности данных. и аварийное восстановление.

4. Настройте шифрование учетной записи хранения:
— служба хранилища Azure обеспечивает шифрование в неактивном состоянии для защиты данных, хранящихся в учетных записях хранения.
— вы можете настроить параметры шифрования, включая шифрование на стороне сервера с ключами, управляемыми клиентом (CMK). или ключи, управляемые Azure.

5. Управляйте данными с помощью Azure Storage Explorer и AzCopy:
— Azure Storage Explorer и AzCopy — это инструменты, упрощающие управление данными и операции передачи с помощью Azure Storage.
— эти инструменты можно использовать для отправки, загрузки, и управлять данными в учетных записях хранения, упрощая работу с ресурсами хранения.

C. Настройка файлов Azure и хранилища BLOB-объектов Azure

1. Создайте и настройте общий файловый ресурс в хранилище Azure:
— Файлы Azure позволяют создавать общие файловые ресурсы и управлять ими, предоставляя полностью управляемое решение для хранения файлов.
— Вы можете создавать общие файловые ресурсы и настраивать такие параметры, как контроль доступа, квоты и моментальные снимки для эффективного обмена файлами.

2. Создайте и настройте контейнер в хранилище BLOB-объектов:
— хранилище BLOB-объектов Azure позволяет хранить неструктурированные данные в виде больших двоичных объектов.
— вы можете создавать и настраивать контейнеры в хранилище BLOB-объектов, устанавливая такие свойства, как контроль доступа, общедоступность. уровень доступа и метаданные.

3. Настройте уровни хранения:
— уровни хранения в хранилище BLOB-объектов Azure позволяют оптимизировать затраты и производительность, выбрав соответствующий уровень хранения для ваших данных.
— вы можете настроить параметры уровней, например горячий, охлаждать или архивировать в зависимости от шаблонов доступа к данным и требований к их хранению.

4. Настройте моментальные снимки и обратимое удаление для файлов Azure:
— Azure Files поддерживает функции моментальных снимков и обратимого удаления.
— вы можете настроить моментальные снимки для создания копий файловых ресурсов на определенный момент времени и включить обратимое удаление. сохранять и восстанавливать удаленные файлы в течение определенного периода хранения.

5. Настройка управления жизненным циклом BLOB-объектов:
— управление жизненным циклом BLOB-объектов помогает управлять жизненным циклом данных BLOB-объектов путем определения правил автоматического распределения по уровням, удаления или архивирования.
— можно настроить политики управления жизненным циклом для оптимизации хранения. затраты и управление данными.

6. Настройка управления версиями BLOB-объектов:
— Azure Blob Storage обеспечивает поддержку управления версиями для BLOB-объектов, что позволяет хранить несколько версий одного и того же BLOB-объекта и управлять ими.
— можно настроить параметры управления версиями BLOB-объектов, чтобы включить отслеживание и извлечение версий. .

Разработка для службы хранилища Azure

A. Разработка решений, использующих Azure Cosmos DB

1. Выполнение операций с контейнерами и элементами с помощью SDK:
— Azure Cosmos DB — это глобально распределенная служба базы данных.
— вы можете разрабатывать решения, взаимодействующие с Cosmos DB, используя соответствующие SDK для выполнения операций с контейнеры и элементы, такие как создание, чтение, обновление и удаление данных.

2. Установите соответствующий уровень согласованности для операций:
— уровни согласованности в Azure Cosmos DB определяют компромисс между согласованностью, доступностью и задержкой.
— вы можете установить желаемый уровень согласованности при выполнении операций на обеспечить желаемую модель согласованности данных для вашего приложения.

3. Внедрение уведомлений канала изменений:
— канал изменений в Azure Cosmos DB предоставляет канал изменений базы данных.
— вы можете реализовать уведомления канала изменений, чтобы получать уведомления и реагировать на изменения, происходящие в базе данных, включая сценарии, такие как синхронизация данных или обработка в реальном времени.

Б. Разработка решений, использующих хранилище BLOB-объектов Azure.

1. Установка и извлечение свойств и метаданных:
— хранилище BLOB-объектов Azure позволяет хранить и извлекать свойства и метаданные, связанные с BLOB-объектами.
— можно задавать и извлекать свойства и метаданные для предоставления дополнительного контекста и информации о сохраненные BLOB-объекты.

2. Выполнение операций с данными с помощью соответствующего пакета SDK:
— вы можете разрабатывать решения, взаимодействующие с хранилищем BLOB-объектов Azure, с помощью соответствующих пакетов SDK.
— это позволяет выполнять такие операции, как загрузка, скачивание, перечисление, и удаление больших двоичных объектов программно.

3. Внедрите политики хранения и управление жизненным циклом данных:
— Azure Blob Storage предоставляет политики хранения и возможности управления жизненным циклом данных.
— вы можете внедрить политики для автоматизации перемещения и удаления больших двоичных объектов на основе правил, что позволяет эффективно управление данными.

4. Внедрите размещение статических сайтов:
— хранилище BLOB-объектов Azure поддерживает размещение статических сайтов, что позволяет обслуживать статический веб-контент непосредственно из контейнера хранилища.
— вы можете настроить и развернуть статический веб-сайт с помощью хранилища BLOB-объектов Azure. , что делает его доступным для пользователей через Интернет.

Модуль 5:

А. Настройка и управление виртуальными сетями в Azure

1. Создайте и настройте виртуальные сети и подсети:
— в Azure виртуальная сеть (VNet) — это логическое представление вашей сети в облаке. Он позволяет безопасно подключать ресурсы Azure.
— Для создания виртуальной сети можно использовать портал Azure, Azure CLI, Azure PowerShell или шаблоны Azure Resource Manager.
— При создании виртуальной сети , необходимо указать диапазон IP-адресов и конфигурацию подсети.
— Подсети — это подразделения виртуальной сети, позволяющие логически сегментировать ресурсы.

2. Создайте и настройте пиринг виртуальных сетей:
— Пиринг виртуальных сетей позволяет соединить две виртуальные сети в Azure.
— Пиринг позволяет ресурсам в разных виртуальных сетях безопасно и конфиденциально взаимодействовать друг с другом.
— Чтобы создать пиринг виртуальной сети, вам необходимо иметь необходимые разрешения и настроить параметры пиринга в обеих виртуальных сетях.

3. Настройте общедоступные IP-адреса:
— общедоступные IP-адреса позволяют ресурсам Azure обмениваться данными с Интернетом.
— общедоступный IP-адрес можно назначить таким ресурсам, как виртуальные машины, балансировщики нагрузки или шлюзы приложений.
— Чтобы настроить общедоступный IP-адрес, вы можете создать его в процессе создания ресурса или назначить существующему ресурсу.

4. Настройте определяемые пользователем сетевые маршруты:
— определяемые пользователем маршруты позволяют управлять потоком сетевого трафика в Azure.
— создавая настраиваемые маршруты, вы можете указать тип следующего прыжка и путь. трафик проходит внутри вашей виртуальной сети.
— определяемые пользователем маршруты обычно используются для перенаправления трафика, сетевых виртуальных устройств и принудительного туннелирования.

5. Устранение неполадок с сетевым подключением:
— Устранение неполадок с сетевым подключением включает выявление и устранение проблем, связанных с сетевым взаимодействием.
— Общие шаги по устранению неполадок в сети включают проверку конфигурации IP, проверку групп безопасности сети, изучение таблиц маршрутизации и использование сети. инструменты мониторинга.
— Azure предоставляет различные инструменты диагностики и возможности ведения журналов, помогающие устранять проблемы с сетевым подключением.

B. Настройка безопасного доступа к виртуальным сетям

1. Создайте и настройте группы безопасности сети (NSG) и группы безопасности приложений:
— группы безопасности сети (NSG) действуют как базовый брандмауэр для контроля входящего и исходящего трафика к ресурсам Azure.
— группы безопасности сети позволяют вам для определения правил безопасности на основе исходных/целевых IP-адресов, портов и протоколов.
— Группы безопасности приложений (ASG) позволяют группировать ресурсы Azure на основе их ролей приложений.
— Путем связывания групп безопасности сети и ASG с подсетями или сетевыми интерфейсами можно применять политики безопасности на сетевом уровне.

2. Оцените действующие правила безопасности в группах безопасности сети:
— действующие правила безопасности в группах безопасности сети определяют окончательный набор правил, которые применяются к сетевому трафику.
— когда с ресурсом связано несколько групп безопасности сети, действующие правила безопасности определяется на основе оценки правил.
– вы можете использовать портал Azure, PowerShell или Azure CLI для оценки и просмотра действующих правил безопасности NSG.

3. Внедрение Azure Bastion:
— Azure Bastion обеспечивает безопасное и беспрепятственное подключение RDP/SSH к виртуальным машинам напрямую через портал Azure.
— Azure Bastion не требует раскрытия общедоступных IP-адресов или управления VPN. соединений.
— Чтобы внедрить Azure Bastion, вам необходимо включить его для вашей виртуальной сети, а затем безопасно подключиться к вашим виртуальным машинам через портал Azure.

4. Настройте конечные точки службы для платформы Azure как службы (PaaS):
— конечные точки службы обеспечивают безопасный и прямой доступ к определенным службам Azure PaaS из вашей виртуальной сети.
— при настройке конечной точки службы трафик между вашей виртуальной сетью и службой PaaS остается в магистральной сети Microsoft Azure.
— Конечные точки служб обеспечивают повышенную безопасность и меньшую задержку при доступе к службам PaaS.

5. Настройте частные конечные точки для Azure PaaS:
— частные конечные точки обеспечивают частное подключение из вашей виртуальной сети к службам Azure PaaS.
— с частными конечными точками вы можете получить доступ к службам PaaS через частный IP-адрес, устраняя необходимы общедоступные IP-адреса.
— Частные конечные точки обеспечивают более безопасный и изолированный способ доступа к службам Azure PaaS из вашей виртуальной сети.

C. Настройка разрешения имен и балансировки нагрузки

1. Настройте Azure DNS:
— Azure DNS — это служба хостинга для доменов DNS, которая обеспечивает разрешение имен путем преобразования имен доменов в IP-адреса.
— Azure DNS можно использовать для размещения домена или настройки личного домена. имена для ресурсов Azure.
— Чтобы настроить Azure DNS, необходимо создать зону DNS, добавить записи DNS и настроить параметры DNS для своих виртуальных сетей.

2. Настройте внутренний или общедоступный балансировщик нагрузки:
— балансировщики нагрузки распределяют входящий сетевой трафик между несколькими внутренними ресурсами для повышения доступности и масштабируемости.
— Azure предоставляет как внутренние, так и общедоступные балансировщики нагрузки.
— Внутренние балансировщики нагрузки используются для балансировки нагрузки трафика в виртуальной сети, в то время как общедоступные балансировщики нагрузки предоставляют доступ к службам в Интернете.
— Чтобы настроить балансировщик нагрузки, необходимо определить внешние IP-конфигурации, серверные пулы, проверки работоспособности и правила балансировки нагрузки.

3. Устранение неполадок с балансировкой нагрузки:
— Устранение неполадок с балансировкой нагрузки включает в себя выявление и устранение проблем, связанных с распределением сетевого трафика.
— Общие шаги по устранению неполадок с балансировкой нагрузки включают проверку конфигураций балансировщика нагрузки, работоспособности серверного пула и балансировки нагрузки. rules.
— Azure предоставляет средства диагностики и возможности ведения журналов, помогающие устранять проблемы с балансировкой нагрузки.

Модуль 6:

Подключайтесь к службам Azure и сторонним службам и используйте их

A. Внедрение управления API:

1. Создайте экземпляр APIM.
Управление API (APIM) позволяет публиковать API, управлять ими и защищать их. Чтобы создать экземпляр APIM, вам нужно перейти на портал Azure и выполнить поиск по запросу «Управление API». Оттуда вы можете создать новый экземпляр и настроить его параметры, такие как ценовая категория, регион и интеграция с виртуальной сетью, если это необходимо.

2. Создание и документирование API.
После создания экземпляра APIM можно приступать к созданию API. API представляет собой набор операций, которые разработчики могут использовать для взаимодействия с вашим приложением или службой. Вы можете определить API вручную или импортировать их из спецификаций OpenAPI или Swagger. После того, как API определены, вы должны задокументировать их с содержательными описаниями, примерами запросов/ответов и другой соответствующей информацией.

3. Настройте аутентификацию для API.
Чтобы защитить свои API, вы можете настроить механизмы аутентификации. Azure APIM поддерживает различные варианты проверки подлинности, такие как OAuth 2.0, ключи API и клиентские сертификаты. Вы можете выбрать подходящий метод аутентификации в зависимости от ваших требований и уровня безопасности, необходимого для ваших API.

4. Внедрение политик для API.
Управление API позволяет применять политики к вашим API. Политики — это набор правил, которые управляют поведением ваших API. Их можно использовать для различных целей, таких как ограничение скорости, кэширование, преобразование и ведение журнала. Вы можете создавать политики с помощью языка политик управления API Azure, чтобы настроить поведение и добавить дополнительные функции в свои API.

B. Разработка решений на основе событий:

1. Внедрение решений, использующих Azure Event Grid:
Azure Event Grid — это служба, которая упрощает программирование на основе событий и позволяет создавать реактивные приложения. Он позволяет получать и реагировать на события из различных служб Azure и сторонних источников. Вы можете создавать подписки на события и определять обработчики событий для обработки событий. Сетка событий поддерживает широкий спектр источников событий и может инициировать действия или отправлять события в разные конечные точки.

2. Внедрение решений, использующих Azure Event Hub:
Azure Event Hub — это масштабируемая платформа потоковой передачи событий, которая может принимать и обрабатывать большие объемы событий в режиме реального времени. Он предназначен для сценариев с высокой пропускной способностью и может обрабатывать миллионы событий в секунду. Вы можете использовать концентраторы событий для захвата, преобразования и хранения событий из разных источников. Он предоставляет такие функции, как захват событий, разделение и группы потребителей для эффективной обработки событий.

C. Разработка решений на основе сообщений:

1. Внедрение решений, использующих служебную шину Azure.
Служебная шина Azure — это надежная служба обмена сообщениями для подключения приложений и служб. Он обеспечивает модель публикации-подписки для разделения компонентов и обеспечивает надежный обмен сообщениями между ними. Вы можете создавать темы и подписки для отправки и получения сообщений. Служебная шина поддерживает такие функции, как упорядочение сообщений, обработка сеансов и очереди недоставленных сообщений для надежной обработки сообщений.

2. Внедрение решений, использующих очереди хранилища очередей Azure.
Хранилище очередей Azure предоставляет простую службу очередей сообщений, которую можно использовать для асинхронной связи между компонентами вашего приложения. Вы можете помещать сообщения в очередь и извлекать их позже для обработки. Хранилище очередей полезно для сценариев, в которых вам необходимо разделить различные части вашего приложения и обрабатывать сообщения надежным и масштабируемым образом.

Модуль 7

A. Мониторинг ресурсов в Azure

1. Интерпретация метрик в Azure Monitor:
— Azure Monitor предоставляет централизованную платформу для мониторинга различных ресурсов Azure.
— метрики в Azure Monitor — это числовые значения, отражающие работоспособность и производительность ресурсов.
— Вы можете интерпретировать метрики, анализируя тенденции, выявляя аномалии и анализируя поведение ресурсов.
— Метрики можно просматривать в Azure Monitor с помощью обозревателя метрик, где вы можете выбрать определенные ресурсы и метрики для анализа.

2. Настройте параметры журнала в Azure Monitor:
— Azure Monitor также собирает данные журнала из различных ресурсов Azure, которые могут предоставить ценную информацию для мониторинга и устранения неполадок.
— Чтобы настроить параметры журнала, необходимо включить диагностику. настройки ресурса.
— Параметры диагностики позволяют определить типы собираемых журналов, например журналы приложений, журналы платформы или журналы гостевой ОС.
— Вы можете хранить журналы в службе хранилища Azure. учетные записи или отправлять их в концентраторы событий Azure или Azure Log Analytics.

3. Запрашивайте и анализируйте журналы в Azure Monitor:
— Azure Monitor предоставляет службу Log Analytics для запроса и анализа данных журналов.
— Используя язык запросов Kusto (KQL), вы можете писать запросы для извлечения определенных информацию из данных журналов.
— Log Analytics предлагает мощные возможности для фильтрации, сортировки и агрегирования данных журналов для получения информации и устранения неполадок.
— результаты запросов можно визуализировать с помощью диаграмм, таблиц или настраиваемых информационных панелей. .

4. Настройте правила оповещения, группы действий и правила обработки оповещений в Azure Monitor:
— правила оповещения позволяют определять условия на основе метрик или данных журнала и инициировать действия при выполнении этих условий.
— Вы можете настроить правила предупреждений для отправки уведомлений по электронной почте, вызова веб-перехватчиков или выполнения других настраиваемых действий.
— группы действий определяют действия, которые должны выполняться при срабатывании предупреждения, например отправка уведомлений определенным лицам или группам.
— правила обработки предупреждений позволяют точно настроить поведение предупреждений, изменяя или подавляя предупреждения на основе определенных критериев.

5. Настройте и интерпретируйте мониторинг виртуальных машин, учетных записей хранения и сетей с помощью Azure Monitor Insights:
— Azure Monitor Insights предоставляет предварительно настроенные решения для мониторинга определенных ресурсов Azure, таких как виртуальные машины, учетные записи хранения и сети.
— Эти аналитические данные предлагают консолидированное представление о работоспособности, производительности и емкости ресурсов.
— Вы можете настраивать и настраивать параметры мониторинга в соответствии со своими требованиями.
— Интерпретируя аналитические данные мониторинга, вы можете выявить узкие места в производительности. , шаблоны использования ресурсов и потенциальные проблемы.

6. Используйте Наблюдатель за сетями Azure и монитор подключений:
— Наблюдатель за сетями Azure — это служба мониторинга и диагностики сети в Azure.
— Она помогает отслеживать, диагностировать и получать информацию о сетевом трафике и подключении.
br /> — Монитор подключений, функция Наблюдателя за сетями Azure, позволяет отслеживать подключения между виртуальными машинами, виртуальными сетями и конечными точками, выходящими в Интернет.
— Настроив мониторинг подключений, вы можете выявлять проблемы с сетью, устранять неполадки. проблемы с подключением, а также измерять задержку в сети и потерю пакетов.

Модуль 8:

I. Проектирование и реализация хранилища данных

A. Реализация стратегии разделения
1. Когда дело доходит до реализации стратегии разделения файлов, вы можете использовать такие методы, как разделение файлов или соглашения об именах файлов, чтобы логически разделить данные на более мелкие единицы. Это обеспечивает лучшую организацию и эффективный поиск данных.
2. Для аналитических рабочих нагрузок вы можете разбивать данные на основе определенных критериев, таких как время, регион или любой другой соответствующий атрибут. Это помогает при параллельной обработке и повышает производительность запросов.
3. При работе с потоковыми рабочими нагрузками вы можете разбивать данные на основе временных интервалов, типов событий или любых других соответствующих критериев. Это позволяет обрабатывать и анализировать потоки данных в режиме реального времени.
4. Azure Synapse Analytics, ранее известное как хранилище данных SQL Azure, предоставляет встроенные возможности секционирования. Вы можете определить ключи секций и распределить данные между несколькими узлами, чтобы оптимизировать производительность запросов.

Б. Определение необходимости секционирования в Azure Data Lake Storage 2-го поколения требует понимания размера и сложности ваших данных. Если у вас есть большие наборы данных с разными шаблонами доступа или вам нужно оптимизировать извлечение данных для определенных сценариев, секционирование может оказаться полезным. Анализ ваших шаблонов использования данных и учет требований к производительности запросов помогут вам определить, когда секционирование необходимо.

C. Разработка и реализация уровня исследования данных
1. SQL Serverless и Spark Cluster — это два мощных инструмента, которые можно использовать для создания и выполнения запросов для исследования данных. SQL Serverless позволяет запрашивать данные, хранящиеся в Azure Data Lake Storage 2-го поколения, с использованием знакомого синтаксиса SQL, а Spark Cluster предоставляет возможности распределенных вычислений для обработки и анализа больших данных.
2. Azure Synapse Analytics предлагает готовые шаблоны баз данных, которые вы можете использовать. можно использовать для разработки и реализации уровня исследования данных. Эти шаблоны предоставляют оптимизированные схемы, стратегии индексирования и шаблоны запросов для конкретных случаев использования, экономя ваше время и усилия при разработке структуры базы данных.
3. Microsoft Purview — это служба управления данными, позволяющая отслеживать происхождение ваших данные. Вы можете передать информацию о происхождении данных из уровня исследования данных в Purview, что позволит вам отслеживать происхождение и преобразования, примененные к вашим данным.
4. Каталог данных Microsoft Purview предоставляет централизованный репозиторий для просмотра и поиска метаданных о ваших ресурсах данных. . Это позволяет вам обнаруживать и понимать структуру, формат и использование ваших данных, облегчая исследование и анализ данных.

Модуль 9:

A. Прием и преобразование данных:

1. Разработайте и внедрите добавочную загрузку:
— добавочная загрузка относится к процессу обновления набора данных только новыми или измененными данными с момента последнего обновления. Он включает в себя идентификацию изменений и их применение к существующему набору данных.

2. Преобразование данных с помощью Apache Spark:
— Apache Spark — это платформа распределенной обработки, используемая для анализа больших данных. Он предоставляет модель программирования, которая позволяет преобразовывать и обрабатывать данные в любом масштабе. Вы можете использовать Spark для эффективного преобразования данных.

3. Преобразование данных с помощью Transact-SQL (T-SQL):
— Transact-SQL (T-SQL) — это язык программирования, используемый для управления системами реляционных баз данных и управления ими. Вы можете использовать T-SQL для преобразования данных в SQL Server или базе данных SQL Azure.

4. Прием и преобразование данных с помощью Azure Synapse Pipelines или Azure Data Factory:
— Azure Synapse Pipelines и Azure Data Factory — это облачные службы интеграции данных. Они предоставляют инструменты и возможности для приема и преобразования данных из различных источников в ваши системы хранения или обработки данных.

5. Преобразование данных с помощью Azure Stream Analytics:
— Azure Stream Analytics — это служба аналитики в реальном времени в Azure. Он позволяет обрабатывать и анализировать потоковые данные из различных источников практически в режиме реального времени. Вы можете использовать его для преобразования и фильтрации потоковых данных.

B. Очистка и обработка данных:

1. Очистка данных:
— очистка данных включает выявление и исправление или удаление ошибок, несоответствий или неточностей в ваших наборах данных. Это помогает обеспечить качество и надежность данных для последующих процессов.

2. Обработка дубликатов данных:
— Дублирование данных означает наличие идентичных или похожих записей в наборе данных. Обработка повторяющихся данных включает выявление и удаление или объединение повторяющихся записей для обеспечения целостности данных.

3. Обработка отсутствующих данных:
— Отсутствующие данные относятся к отсутствию значений в наборе данных. Обработка отсутствующих данных включает такие стратегии, как импутация (замена отсутствующих значений оценочными значениями) или исключение неполных записей.

4. Обработка поздних данных:
— поздние данные относятся к данным, которые поступают после ожидаемого времени обработки. Обработка запаздывающих данных включает в себя определение соответствующих политик и механизмов для включения их в набор данных.

5. Разделение данных:
— Разделение данных предполагает разделение набора данных на подмножества на основе определенных критериев. Это может быть полезно для таких задач, как обучение и тестирование моделей машинного обучения или секционирование данных для параллельной обработки.

6. Уничтожьте JSON:
— JSON (JavaScript Object Notation) — это популярный формат данных. Измельчение JSON включает в себя извлечение данных из документов JSON и преобразование их в структурированный формат, подходящий для анализа или хранения.

7. Кодирование и декодирование данных:
— кодирование и декодирование данных включает преобразование данных между различными представлениями или форматами. Он может включать такие задачи, как преобразование текста в числовые представления или кодирование категориальных переменных.

8. Настройте обработку ошибок для преобразования:
— обработка ошибок для преобразования включает определение того, как обрабатывать и сообщать об ошибках или исключениях, возникающих во время обработки данных. Это обеспечивает устойчивость и надежность конвейера обработки данных.

9. Нормализация и денормализация данных:
— Нормализация и денормализация — это методы, используемые при проектировании баз данных. Нормализация включает организацию данных в таблицы для минимизации избыточности, а денормализация объединяет данные из нескольких таблиц для оптимизации производительности.

C. Выполните исследовательский анализ данных:
— Исследовательский анализ данных включает в себя изучение и понимание характеристик, шаблонов и взаимосвязей в наборе данных. Он включает в себя такие методы, как профилирование данных, сводная статистика, визуализация и исследовательский анализ данных.

D. Разработайте решение для пакетной обработки:

1. Разрабатывайте решения для пакетной обработки с использованием Azure Data Lake Storage, Azure Databricks, Azure Synapse Analytics и Azure Data Factory:
— Azure предоставляет несколько служб для пакетной обработки данных, включая Azure Data Lake Storage, Azure Databricks, Azure Synapse. Аналитика и Фабрика данных Azure. Вы можете использовать эти сервисы для разработки решений для пакетной обработки.

2. Используйте PolyBase для загрузки данных в пул SQL:
— PolyBase — это функция в Azure Synapse Analytics, которая позволяет запрашивать и загружать данные из внешних источников в пул SQL. Вы можете использовать его для эффективной загрузки больших объемов данных.

3. Внедрение Azure Synapse Link и запросов к реплицированным данным:
— Azure Synapse Link — это функция, которая обеспечивает аналитику в реальном времени операционных данных, хранящихся в Azure Cosmos DB. Вы можете использовать его для запроса реплицированных данных и интеграции их в решение для пакетной обработки.

4. Создайте конвейеры данных:
— конвейеры данных — это рабочие процессы, которые автоматизируют перемещение и обработку данных от источника к месту назначения. Вы можете создавать конвейеры данных с помощью Фабрики данных Azure или Azure Synapse Pipelines, чтобы координировать задачи пакетной обработки.

5. Масштабирование ресурсов.
Масштабирование ресурсов включает в себя настройку емкости или производительности вашей инфраструктуры обработки данных в зависимости от требований рабочей нагрузки. Azure предоставляет масштабируемые ресурсы, такие как кластеры Azure Databricks или выделенные пулы SQL Azure Synapse Analytics.

6. Настройте размер пакета:
— размер пакета означает количество элементов данных, обрабатываемых или передаваемых в каждой итерации операции пакетной обработки. Настройка размера пакета включает в себя его оптимизацию для повышения эффективности и использования ресурсов.

7. Создайте тесты для конвейеров данных:
— Создание тестов для конвейеров данных включает разработку и реализацию механизмов проверки, обеспечивающих правильность и надежность операций обработки данных. Это помогает выявлять проблемы и предотвращать ошибки данных.

8. Интегрируйте записные книжки Jupyter или Python в конвейер данных:
— записные книжки Jupyter или Python обеспечивают интерактивную и гибкую среду для анализа и обработки данных. Интеграция их в конвейер данных позволяет использовать их возможности в рабочем процессе конвейера.

9. Upsert Data:
— операции Upsert (вставка или обновление) включают в себя изменение набора данных путем вставки новых записей или обновления существующих на основе определенного условия. Добавление данных гарантирует, что ваш набор данных будет актуальным.

10. Вернуть данные в предыдущее состояние:
— Возврат данных в предыдущее состояние включает в себя восстановление набора данных до определенного момента времени. Эта возможность полезна для восстановления данных или сценариев отката.

11. Настройка обработки исключений:
— обработка исключений включает определение того, как обрабатывать и управлять исключительными условиями или ошибками во время пакетной обработки. Это обеспечивает устойчивость и надежность вашего решения по обработке данных.

12. Настройте пакетное хранение:
— пакетное хранение определяет, как долго должны храниться обработанные данные. Настройка пакетного хранения включает настройку соответствующих политик хранения на основе бизнес-требований или нормативных требований.

13. Чтение и запись в Delta Lake:
— Delta Lake — это уровень хранения с открытым исходным кодом, который обеспечивает надежность, производительность и возможности управления данными поверх облачного хранилища. Чтение и запись в Delta Lake обеспечивают эффективную и масштабируемую пакетную обработку данных.

E. Разработайте решение для потоковой обработки:

1. Создайте решение для потоковой обработки с помощью Stream Analytics и концентраторов событий Azure:
— Azure Stream Analytics и концентраторы событий Azure — это службы, обеспечивающие прием и обработку данных в режиме реального времени. Вы можете создать решение для потоковой обработки, подключив эти сервисы и определив логику обработки данных.

2. Обработка данных с помощью Spark Structured Streaming:
— Spark Structured Streaming — это компонент Apache Spark, обеспечивающий масштабируемую и отказоустойчивую потоковую обработку. Вы можете использовать Spark Structured Streaming для обработки и анализа потоковых данных.

3. Создайте оконные агрегаты:
— оконные агрегаты включают в себя вычисление сводной статистики или агрегатов по скользящему или переворачивающемуся окну данных. Это позволяет анализировать закономерности данных во времени в сценариях потоковой обработки.

4. Обработка дрейфа схемы

:
— Дрейф схемы относится к изменениям в структуре или схеме входящих потоков данных. Обработка дрейфа схемы включает в себя адаптацию логики обработки данных для динамического учета изменений схемы.

5. Обработка данных временных рядов:
— данные временных рядов представляют собой точки данных, собранные с течением времени, как правило, через равные промежутки времени. Обработка данных временных рядов включает анализ тенденций, закономерностей и аномалий для получения информации или прогнозов.

6. Обработка данных между разделами:
— обработка данных между разделами включает в себя распараллеливание и распределение рабочей нагрузки потоковой обработки между несколькими разделами. Это позволяет эффективно обрабатывать крупномасштабные потоки данных.

7. Обработка данных в одном разделе:
— обработка данных в одном разделе включает выполнение операций над одним разделом данных за раз. Это может быть полезно для задач, требующих когерентности данных или определенного порядка обработки.

8. Настройте контрольные точки и водяные знаки во время обработки:
— контрольные точки и водяные знаки — это механизмы, используемые в потоковой обработке для обеспечения отказоустойчивости и обработки соображений времени события. Контрольные точки обеспечивают восстановление после сбоев, а водяные знаки определяют пороговые значения времени события для операций, основанных на времени.

9. Масштабирование ресурсов:
— Масштабирование ресурсов при потоковой обработке включает настройку емкости или производительности базовой инфраструктуры для эффективной обработки входящего потока данных. Azure предоставляет масштабируемые ресурсы, такие как Azure Stream Analytics, для различных рабочих нагрузок.

10. Создайте тесты для конвейеров данных:
— Создание тестов для конвейеров потоковой обработки включает разработку и реализацию механизмов проверки, обеспечивающих правильность и надежность операций обработки данных. Это помогает выявлять проблемы и предотвращать ошибки данных.

11. Оптимизация конвейеров для аналитических или транзакционных целей.
Оптимизация конвейеров для аналитических или транзакционных целей включает в себя точную настройку логики обработки потоков и параметров инфраструктуры для соответствия конкретным требованиям к производительности, задержке или пропускной способности.

12. Обработка прерываний:
— Обработка прерываний в потоковой обработке включает управление и восстановление после сбоев, задержек или сбоев в потоке данных или инфраструктуре обработки. Это обеспечивает отказоустойчивость и непрерывность решения для потоковой обработки.

13. Настройте обработку исключений:
— обработка исключений в потоковой обработке включает в себя определение того, как обрабатывать и управлять исключительными условиями или ошибками, которые могут возникнуть во время обработки данных. Это обеспечивает устойчивость и надежность вашего решения для потоковой обработки.

14. Upsert Data:
— операции Upsert (вставка или обновление) в потоковой обработке включают изменение набора данных путем вставки новых записей или обновления существующих на основе определенных условий. Добавление данных обеспечивает актуальность набора данных.

15. Воспроизведение архивных данных потока.
— Воспроизведение архивных данных потока включает в себя обработку исторических или воспроизведенных данных с помощью решения для потоковой обработки. Он позволяет анализировать прошлые события или восстанавливаться после сбоев.

F. Управление партиями и конвейерами:

1. Запуск пакетов:
запуск пакетов включает в себя инициирование выполнения задач или рабочих процессов пакетной обработки на основе определенных условий или событий. Это обеспечивает своевременное и автоматизированное выполнение пакетных процессов.

2. Обработка неудачных пакетных загрузок:
— обработка неудачных пакетных загрузок включает выявление и устранение сбоев или ошибок, возникающих во время пакетной обработки. Он может включать механизмы повторных попыток, ведение журнала ошибок и уведомления о неудачных пакетах.

3. Проверка пакетных загрузок.
Проверка пакетных загрузок включает в себя проверку целостности и правильности обработанных данных перед дальнейшей последующей обработкой или анализом. Это обеспечивает надежность и точность результатов пакетной обработки.

4. Управление конвейерами данных в Azure Data Factory или Azure Synapse Pipelines:
— Azure Data Factory и Azure Synapse Pipelines предоставляют возможности для управления конвейерами данных. Это включает в себя мониторинг выполнения конвейера, управление зависимостями и планирование запусков конвейера.

5. Планирование конвейеров данных в Data Factory или Azure Synapse Pipelines:
— планирование конвейеров данных включает определение триггеров на основе времени или событий для автоматического выполнения рабочих процессов обработки данных. Он обеспечивает своевременное и регулярное выполнение задач пакетной обработки.

6. Внедрите контроль версий для артефактов конвейера:
— Реализация контроля версий для артефактов конвейера включает в себя управление и отслеживание изменений в компонентах конвейера данных, таких как сценарии, конфигурации или зависимости. Это обеспечивает прослеживаемость и воспроизводимость конвейера.

7. Управление заданиями Spark в конвейере.
Управление заданиями Spark в конвейере включает в себя организацию выполнения задач обработки данных на основе Spark в рамках рабочего процесса конвейера. Он включает в себя определение зависимостей, настройку ресурсов и мониторинг выполнения заданий.

Модуль 10:

А. Обеспечьте безопасность данных:

1. Внедрение маскирования данных.
Маскирование данных – это метод, используемый для сокрытия конфиденциальных данных, который позволяет получить доступ только авторизованным пользователям, скрывая фактические значения. В Azure вы можете реализовать маскирование данных с помощью таких методов, как динамическое маскирование данных и статическое маскирование данных. Динамическое маскирование данных применяет правила маскирования на лету при извлечении данных, в то время как статическое маскирование данных постоянно изменяет данные, чтобы скрыть конфиденциальную информацию.

2. Шифруйте данные в состоянии покоя и в движении.
Крайне важно шифровать данные, чтобы защитить их от несанкционированного доступа. Azure предоставляет варианты шифрования данных в состоянии покоя и в движении. Данные в состоянии покоя можно зашифровать с помощью шифрования службы хранилища Azure (SSE) или шифрования дисков Azure. Для данных в движении вы можете использовать SSL/TLS для шифрования данных во время передачи.

3. Реализуйте безопасность на уровне строк и столбцов.
Безопасность на уровне строк и столбцов позволяет контролировать доступ к определенным строкам или столбцам в таблице базы данных. Это позволяет вам ограничивать конфиденциальные данные на основе ролей пользователей или других критериев. Применяя эти меры безопасности, вы можете гарантировать, что пользователи будут иметь доступ только к тем данным, которые им разрешено просматривать.

4. Внедрите управление доступом на основе ролей Azure (RBAC):
Azure RBAC обеспечивает детальное управление доступом к ресурсам Azure. Назначая пользователям соответствующие роли, вы можете контролировать их доступ к ресурсам хранения и обработки данных. Роли RBAC включают, среди прочего, владельца, участника и читателя, что позволяет вам предоставлять необходимые разрешения в зависимости от требований пользователя.

5. Внедрение POSIX-подобных списков управления доступом (ACL) для Data Lake Storage 2-го поколения:
Azure Data Lake Storage 2-го поколения поддерживает POSIX-подобные списки управления доступом (ACL), которые позволяют определять детальный контроль доступа к файлам и каталогам. . С помощью ACL вы можете устанавливать разрешения на уровне пользователя или группы, контролируя, кто может читать, записывать или выполнять определенные файлы или каталоги.

6. Внедрите политику хранения данных.
Политика хранения данных указывает, как долго данные должны храниться, прежде чем они будут удалены или заархивированы. Внедрив политику хранения данных, вы сможете обеспечить соответствие нормативным требованиям и эффективно управлять затратами на хранение. Azure предоставляет различные инструменты и службы, такие как управление жизненным циклом Azure Data Lake Storage, для определения и применения политик хранения данных.

7. Внедрите безопасные конечные точки (частные и общедоступные).
Azure предлагает безопасные конечные точки для доступа к вашим ресурсам хранения и обработки данных. Частные конечные точки позволяют безопасно получать доступ к ресурсам из виртуальной сети, а общедоступные конечные точки обеспечивают доступ из общедоступного Интернета. Настраивая безопасные конечные точки, вы можете контролировать и защищать доступ к данным в соответствии со своими конкретными требованиями.

8. Внедрение токенов ресурсов в Azure Databricks.
Azure Databricks предоставляет токены ресурсов, которые обеспечивают безопасный доступ к ресурсам Databricks без раскрытия конфиденциальных учетных данных. Маркеры ресурсов недолговечны и могут создаваться с определенными разрешениями, обеспечивая безопасный способ доступа и взаимодействия с ресурсами Azure Databricks.

9. Загрузите фрейм данных с конфиденциальной информацией.
При работе с конфиденциальной информацией, такой как личная информация (PII), крайне важно обращаться с ней безопасно. Azure предоставляет различные платформы обработки данных, такие как Azure Databricks и Azure Synapse Analytics, которые позволяют загружать конфиденциальные данные и управлять ими с соблюдением передовых методов обеспечения безопасности.

10. Запишите зашифрованные данные в таблицы или файлы Parquet.
Чтобы защитить конфиденциальные данные, хранящиеся в таблицах или файлах Parquet, вы можете включить шифрование на уровне хранилища или использовать методы шифрования, характерные для формата данных. Например, база данных SQL Azure поддерживает прозрачное шифрование данных (TDE) для шифрования данных в состоянии покоя, а Azure Databricks предоставляет библиотеки и функции для записи зашифрованных файлов Parquet.

11. Управление конфиденциальной информацией.
Управление конфиденциальной информацией предполагает ее безопасное обращение на протяжении всего ее жизненного цикла. Это включает в себя идентификацию и классификацию конфиденциальных данных, реализацию соответствующих мер безопасности, мониторинг доступа и использования, а также обеспечение соблюдения правил защиты данных. Azure предоставляет такие службы, как Azure Information Protection и Azure Purview, которые помогают эффективно управлять конфиденциальной информацией.

B. Мониторинг хранения и обработки данных:

1. Реализуйте ведение журналов, используемое Azure Monitor.
Azure Monitor позволяет собирать и анализировать журналы из различных служб Azure, включая ресурсы хранения и обработки данных. Реализуя ведение журнала, вы можете собирать соответствующую информацию для целей мониторинга, устранения неполадок и аудита.

2. Настройте службы мониторинга.
Azure предлагает несколько служб мониторинга, таких как Azure Monitor, Azure Log Analytics и Azure Application Insights, для мониторинга производительности и работоспособности ваших решений для хранения и обработки данных. Настройка этих служб позволяет отслеживать показатели, настраивать оповещения и получать информацию об использовании ресурсов и поведении системы.

3. Мониторинг потоковой обработки.
Потоковая обработка включает анализ потоков данных в реальном времени. Azure предоставляет такие службы, как Azure Stream Analytics и Azure Databricks, которые позволяют принимать, обрабатывать и отслеживать потоковые данные. Мониторинг потоковой обработки включает в себя отслеживание событий, измерение задержки и обеспечение целостности данных по всему конвейеру.

4. Измеряйте производительность перемещения данных.
При перемещении данных между различными ресурсами хранения и обработки важно измерять производительность, чтобы оптимизировать передачу данных и выявить потенциальные узкие места. Azure предоставляет такие инструменты, как Фабрика данных Azure и Azure Databricks, которые позволяют отслеживать и измерять производительность операций перемещения данных.

5. Отслеживайте и обновляйте статистику о данных в системе.
Чтобы обеспечить оптимальную производительность и использование ресурсов, важно отслеживать и обновлять статистику о данных в вашей системе. Azure предоставляет такие службы, как Azure Synapse Analytics и Azure Databricks, которые позволяют собирать и анализировать статистику данных, например распределение данных и кардинальность, для оптимизации производительности запросов.

6. Мониторинг производительности конвейера данных.
Конвейеры данных используются для организации и автоматизации перемещения и преобразования данных. Мониторинг производительности конвейера данных включает в себя отслеживание выполнения действий конвейера, измерение пропускной способности данных и выявление любых проблем или узких мест, которые могут повлиять на общую производительность конвейера.

7. Измерение производительности запросов.
При запросе данных, хранящихся в службах Azure, таких как Azure Synapse Analytics или Azure Data Lake Storage, измерение производительности запросов помогает оптимизировать выполнение запросов и определить области для улучшения. Отслеживая время выполнения запросов, потребление ресурсов и планы запросов, вы можете настроить свои запросы для повышения производительности.

8. Планируйте и отслеживайте тесты конвейеров.
Чтобы обеспечить надежность и правильность конвейеров данных, важно планировать и отслеживать тесты конвейеров. Настроив автоматические тесты, вы можете проверить поведение конвейера данных, качество данных и соблюдение бизнес-правил. Мониторинг результатов тестирования помогает выявить любые проблемы или регрессии в функциональности конвейера.

9. Интерпретация метрик и журналов Azure Monitor.
Azure Monitor предоставляет широкий спектр метрик и журналов для мониторинга производительности и работоспособности ресурсов Azure. Интерпретация этих показателей и журналов включает в себя понимание данных, которые они предоставляют, анализ тенденций и выявление аномалий или закономерностей, которые могут потребовать дальнейшего изучения или действий.

10. Внедрите стратегию оповещения конвейера.
Стратегия оповещения помогает вам активно отслеживать и реагировать на критические события или условия в конвейерах данных. Настроив оповещения на основе определенных показателей или записей журнала, вы можете получать уведомления или инициировать автоматические действия при обнаружении предопределенных пороговых значений или шаблонов.

C. Оптимизация и устранение неполадок хранения и обработки данных:

1. Сжатие небольших файлов.
Со временем небольшие файлы могут накапливаться, что влияет на производительность и затраты на хранение. Сжимайте небольшие файлы, объединяя их в более крупные файлы с помощью таких методов, как задания сжатия или библиотеки сжатия, доступные в службах Azure, таких как Azure Data Lake Storage или Azure Databricks. Эта оптимизация снижает нагрузку на обработку многочисленных небольших файлов.

. Обработка перекосов в данных.
Перекос данных возникает, когда данные распределяются между разделами или сегментами неравномерно, что вызывает проблемы с производительностью при обработке данных. Обработка асимметрии включает в себя такие методы, как разбиение на разделы, группирование или использование алгоритмов обнаружения асимметрии для перераспределения или настройки распределения данных для повышения производительности обработки.

3. Обработка утечки данных.
Утечка данных происходит, когда памяти, выделенной для обработки данных, недостаточно, что приводит к временному хранению на диске. Обработка утечки данных включает в себя оптимизацию использования памяти, разбиение данных на разделы или корректировку распределения ресурсов для минимизации дисковых операций ввода-вывода и повышения производительности обработки.

4. Оптимизация управления ресурсами.
Оптимизация управления ресурсами включает точную настройку распределения и использования вычислительных ресурсов и ресурсов хранения в решениях для хранения и обработки данных. Это включает в себя мониторинг использования ресурсов, масштабирование ресурсов в зависимости от спроса и оптимизацию параметров конфигурации для достижения оптимальной производительности и экономической эффективности.

5. Настройте запросы с помощью индексаторов.
Индексаторы повышают производительность запросов, создавая индексы для определенных столбцов или атрибутов, которые часто используются в запросах. Такие службы Azure, как Azure Synapse Analytics, предоставляют возможности индексирования, которые можно использовать для оптимизации выполнения запросов и сокращения времени отклика.

6. Настройте запросы с помощью кэша.
Кэширование запросов может значительно повысить производительность запросов за счет сохранения результатов часто выполняемых запросов в памяти. Используя механизмы кэширования, доступные в службах Azure, таких как Azure Redis Cache или Azure Databricks, вы можете уменьшить потребность в избыточных вычислениях и ускорить выполнение запросов.

7. Устранение неполадок с неудачным заданием Spark.
Устранение неполадок с неудачным заданием Spark включает определение основной причины сбоя путем анализа сообщений об ошибках, журналов и сведений о выполнении задания. Общие проблемы могут включать проблемы, связанные с данными, конфликты ресурсов или ошибки кода. Систематически исследуя и устраняя основные проблемы, вы можете устранить сбой задания Spark.

8. Устранение неполадок при неудачном запуске конвейера, включая действия, выполняемые во внешних службах.
В случае сбоя при запуске конвейера данных важно устранить сбой и определить его причины. Это может включать изучение журналов ошибок, просмотр зависимостей действий и проверку сведений о выполнении внешних служб, используемых в конвейере. Определив причину сбоя, вы можете предпринять корректирующие действия, чтобы обеспечить успешную работу конвейера.

Модуль 11

A. Разработайте и подготовьте решение для машинного обучения

1. Определите подходящие вычислительные характеристики для учебной рабочей нагрузки.
При разработке решения для машинного обучения важно учитывать вычислительные характеристики для учебной рабочей нагрузки. Сюда входит определение необходимой вычислительной мощности, памяти и других ресурсов, необходимых для эффективного обучения ваших моделей. Вы можете выбирать из различных вариантов вычислений, предоставляемых Azure, таких как виртуальные машины, экземпляры GPU или управляемые службы, такие как Azure Machine Learning Compute.

2. Опишите требования к развертыванию модели.
Требования к развертыванию модели включают понимание среды, в которой будут развертываться и использоваться обученные модели. Сюда входят такие соображения, как целевая платформа, требования к масштабируемости, доступность и безопасность. Вы также должны подумать об инфраструктуре развертывания, такой как контейнеризация, бессерверные функции или пограничные устройства, в зависимости от вашего варианта использования.

3. Выберите, какой подход к разработке использовать для построения или обучения модели.
При построении или обучении модели вы можете выбирать из различных подходов к разработке. Вы можете выбрать традиционное программирование, где вы вручную определяете алгоритмы и правила, или вы можете использовать фреймворки и библиотеки машинного обучения, такие как TensorFlow или PyTorch. Другой вариант — использовать автоматизированное машинное обучение, которое упрощает процесс создания модели за счет автоматического поиска наилучшей архитектуры модели и гиперпараметров.

Б. Управление рабочей областью машинного обучения Azure

1. Создайте рабочую область машинного обучения Azure.
Чтобы начать работу с машинным обучением Azure, вам необходимо создать рабочую область машинного обучения Azure. Эта рабочая область служит централизованным центром для управления и организации ваших ресурсов машинного обучения, таких как эксперименты, наборы данных, модели и цели развертывания. Вы можете создать рабочую область с помощью портала Azure, Azure CLI или пакета SDK для машинного обучения Azure.

2. Управляйте рабочей областью с помощью инструментов разработчика для взаимодействия с рабочей областью.
Машинное обучение Azure предоставляет различные инструменты разработчика для взаимодействия с рабочей областью и управления ею. Эти инструменты включают в себя студию машинного обучения Azure, которая предоставляет веб-интерфейс для визуальных экспериментов и управления моделями, а также расширение машинного обучения Azure для Visual Studio Code, которое позволяет работать с рабочей областью непосредственно из среды разработки.

3. Настройте интеграцию Git для системы управления версиями.
Система управления версиями имеет решающее значение для совместной работы и управления версиями ваших проектов машинного обучения. Машинное обучение Azure интегрируется с Git, что позволяет легко отслеживать изменения, управлять ветвями и сотрудничать с другими членами команды. Вы можете настроить интеграцию Git в рабочей области машинного обучения Azure, что позволит вам управлять версиями своего кода, записных книжек и других ресурсов.

C. Управление данными в рабочей области машинного обучения Azure

1. Выберите Ресурсы хранилища Azure.
Azure предоставляет различные варианты хранения для управления вашими данными в рабочей области машинного обучения Azure. Вы можете выбрать одну из служб, таких как хранилище BLOB-объектов Azure, хранилище озера данных Azure или хранилище файлов Azure. Учитывайте такие факторы, как объем данных, шаблоны доступа, требования к производительности и стоимость при выборе подходящего ресурса хранения для ваших данных.

2. Зарегистрируйте и обслуживайте хранилища данных.
Хранилища данных в Машинном обучении Azure действуют как ссылки на ваши хранилища данных. Вы можете зарегистрировать различные хранилища данных в своей рабочей области, например контейнеры Azure Blob Storage или каталоги Azure Data Lake Storage. Это позволяет вам легко получать доступ к своим данным и управлять ими в рабочих процессах машинного обучения.

3. Создание ресурсов данных и управление ими.
Ресурсы данных — это конкретные наборы данных, с которыми вы работаете в своих проектах машинного обучения. Машинное обучение Azure предоставляет функции для создания ресурсов данных и управления ими, включая импорт данных из различных источников, предварительную обработку и очистку данных, а также преобразование данных в форматы, подходящие для обучения моделей машинного обучения.

D. Управление вычислениями для экспериментов в Машинном обучении Azure

1. Создайте цели вычислений для экспериментов и обучения.
В Машинном обучении Azure вы можете создавать цели вычислений для выполнения своих экспериментов и учебных рабочих нагрузок. Целями вычислений могут быть виртуальные машины, экземпляры GPU или специализированные управляемые службы, такие как Azure Machine Learning Compute. Они предоставляют необходимые ресурсы для запуска вашего кода машинного обучения и эффективного обучения ваших моделей.

2. Выберите среду для варианта использования машинного обучения.
Среды в машинном обучении Azure определяют зависимости программного обеспечения и конфигурации, необходимые для экспериментов с машинным обучением. Вы можете создавать собственные среды с определенными пакетами и библиотеками или использовать предварительно настроенные среды, предоставляемые Azure. Выбор правильной среды гарантирует, что ваш код будет работать согласованно и воспроизводимо на разных целевых объектах вычислений.

3. Настройте подключенные вычислительные ресурсы, включая пулы Apache Spark.
Машинное обучение Azure позволяет настраивать подключенные вычислительные ресурсы к вашей рабочей области, включая пулы Apache Spark. Apache Spark предоставляет возможности распределенных вычислений для обработки крупномасштабных наборов данных и выполнения расширенной аналитики. Настроив пулы Spark, вы можете использовать кластеры Spark для ускорения обработки данных и задач обучения.

4. Отслеживание использования вычислительных ресурсов.
Важно отслеживать использование вычислительных ресурсов в Машинном обучении Azure, чтобы обеспечить эффективное распределение ресурсов и управление затратами. Машинное обучение Azure предоставляет возможности мониторинга и ведения журнала, которые позволяют отслеживать использование ресурсов, показатели производительности и ошибки, связанные с вашими целями вычислений.

E. Исследуйте данные и обучайте модели

1. Исследуйте данные с помощью ресурсов данных и хранилищ данных.
Машинное обучение Azure предоставляет инструменты и API для изучения ваших ресурсов данных и хранилищ данных. Вы можете извлекать и анализировать данные из различных источников, визуализировать распределение и шаблоны данных, а также получать представление о характеристиках ваших наборов данных. Этот исследовательский анализ данных помогает вам понять данные, с которыми вы работаете, прежде чем обучать свои модели.

2. Доступ к данным и обработка данных во время интерактивной разработки.
Во время интерактивной разработки вы можете получать доступ к своим данным и управлять ими с помощью таких языков программирования, как Python или R. Машинное обучение Azure предоставляет API и библиотеки, которые позволяют загружать данные из хранилищ данных, выполнять предварительная обработка данных и инженерные задачи, а также подготовка данных для обучения ваших моделей.

3. Обрабатывайте интерактивные данные с помощью Apache Spark.
Если вы имеете дело с крупномасштабными наборами данных, Apache Spark может стать мощным инструментом для обработки данных. Машинное обучение Azure интегрируется со Spark, что позволяет использовать возможности распределенной обработки Spark для обработки рабочих нагрузок больших данных. Вы можете использовать Spark API для эффективного преобразования и очистки данных перед обучением моделей машинного обучения.

4. Создавайте модели с помощью Azure Machine Learning Designer.
Azure Machine Learning Designer предоставляет интерфейс перетаскивания для создания моделей машинного обучения без написания кода. Вы можете построить конвейер модели, выбрав и подключив предварительно созданные модули, которые представляют различные операции предварительной обработки данных, проектирования функций и обучения модели. Конструктор упрощает процесс создания модели и позволяет быстро экспериментировать.

5. Использование ресурсов данных из конструктора.
В конструкторе машинного обучения Azure вы можете использовать ресурсы данных, такие как наборы данных и хранилища данных, непосредственно в конвейере модели. Это позволяет беспрепятственно включать необходимые данные в рабочие процессы обучения или логических выводов. Вы можете настроить входы и выходы данных для каждого модуля в конструкторе, чтобы обеспечить правильную передачу данных по всему конвейеру.

6. Используйте настраиваемые компоненты кода в конструкторе.
Хотя конструктор предоставляет визуальный интерфейс для создания моделей, вы также можете включать настраиваемые компоненты кода, если вам нужна большая гибкость или расширенные функциональные возможности. Эти пользовательские компоненты кода могут быть написаны на Python или R и интегрированы в конвейер вашей модели, что позволит вам использовать существующий код или реализовать определенные алгоритмы.

7. Оцените модель, включая рекомендации по ответственному ИИ.
Оценка модели — это важный шаг для оценки производительности и качества обученных моделей. Машинное обучение Azure предоставляет метрики и методы оценки для измерения точности, достоверности, полноты и других соответствующих метрик для классификации, регрессии или других типов моделей. Руководящие принципы ответственного ИИ помогают обеспечить справедливость, прозрачность и этичность ваших решений для машинного обучения.

8. Используйте автоматизированное машинное обучение для изучения оптимальных моделей.
Машинное обучение Azure включает автоматизированное машинное обучение (AutoML

) возможности, которые автоматизируют выбор модели и процесс настройки гиперпараметров. AutoML исследует ряд алгоритмов и конфигураций, чтобы найти наиболее эффективную модель для заданного набора данных и задачи прогнозирования. Это упрощает процесс разработки моделей и помогает быстро находить оптимальные модели.

9. Используйте записные книжки для обучения настраиваемой модели.
Блокноты — это мощный инструмент для обучения настраиваемой модели в Машинном обучении Azure. Вы можете использовать блокноты Jupyter для написания и выполнения кода, визуализации данных и документирования своих экспериментов. Блокноты обеспечивают итеративную разработку, совместную работу и воспроизводимость в ваших проектах машинного обучения.

10. Разрабатывайте код с помощью вычислительного экземпляра.
Машинное обучение Azure предоставляет вычислительные экземпляры, представляющие собой облачные среды разработки с предварительно настроенными необходимыми инструментами и библиотеками для машинного обучения. Вы можете разрабатывать код, проводить эксперименты и исследовать данные непосредственно в вычислительном экземпляре, не настраивая собственную среду разработки. Вычислительные экземпляры предлагают гибкое и масштабируемое решение для разработки машинного обучения.

11. Отслеживайте обучение модели с помощью Mlflow.
MLflow — это платформа с открытым исходным кодом для управления сквозным жизненным циклом машинного обучения. Машинное обучение Azure интегрируется с MLflow, что позволяет отслеживать и регистрировать запуски обучения модели, параметры эксперимента, метрики и артефакты. MLflow предоставляет возможности управления версиями, воспроизводимости и совместной работы, что упрощает управление и воспроизведение ваших экспериментов по машинному обучению.

12. Оцените модель.
Оценка модели включает в себя оценку ее производительности и способности обобщать невидимые данные. Машинное обучение Azure предоставляет методы оценки и метрики для измерения точности, воспроизводимости, полноты, оценки F1 и других метрик оценки для различных типов моделей. Оценивая свою модель, вы можете получить представление о ее сильных и слабых сторонах и потенциальных областях для улучшения.

13. Обучите модель с помощью Python SDKv2.
Azure Machine Learning предлагает Python SDK, который позволяет программно обучать модели машинного обучения. Вы можете использовать SDK для определения экспериментов и управления ими, настройки целей вычислений и взаимодействия с другими службами машинного обучения Azure. Python SDK предоставляет полный набор API-интерфейсов для обучения моделей, отслеживания показателей и управления ресурсами.

14. Используйте терминал для настройки вычислительного экземпляра.
Вычислительные экземпляры машинного обучения Azure предоставляют веб-терминал, который позволяет вам взаимодействовать с базовой операционной системой и выполнять операции из командной строки. С помощью терминала вы можете устанавливать дополнительные библиотеки, настраивать среду, клонировать репозитории кода и выполнять различные административные задачи, связанные с вашими вычислительными экземплярами.

15. Настройте гиперпараметры с помощью Машинного обучения Azure.
Настройка гиперпараметров включает поиск оптимальных значений параметров, определяющих архитектуру и поведение вашей модели машинного обучения. Машинное обучение Azure предоставляет возможности настройки гиперпараметров, которые автоматически ищут наилучшее сочетание гиперпараметров с использованием таких методов, как поиск по сетке, случайный поиск или байесовская оптимизация. Это поможет вам оптимизировать ваши модели для повышения производительности.

Модуль 12:

A. Запуск сценариев обучения моделей.
Чтобы запустить сценарии обучения моделей, необходимо выполнить несколько задач:

1. Настройка параметров выполнения задания для сценария.
При настройке параметров выполнения задания для сценария вы определяете различные параметры, такие как файл сценария, целевой объект вычислений и любые аргументы командной строки, необходимые для выполнения сценария.

2. Настройте вычисления для выполнения задания.
В Машинном обучении Azure вы можете выбирать из различных целей вычислений, таких как локальные вычисления, Машинное обучение Azure или другие удаленные цели вычислений. Настройка вычислений включает указание типа и ресурсов, необходимых для задания.

3. Использование данных из актива данных в задании.
Чтобы использовать данные из актива данных в задании, необходимо указать расположение или сведения о подключении к источнику данных. Это может быть локальный файл, хранилище BLOB-объектов Azure, Azure Data Lake или любой другой поддерживаемый источник данных.

4. Выполнение сценария как задания с помощью Машинного обучения Azure.
Вы можете использовать Машинное обучение Azure, чтобы отправить сценарий в качестве задания для выполнения. Это позволяет отслеживать ход выполнения задания, регистрировать показатели и управлять зависимостями.

5. Используйте MLflow для регистрации показателей выполнения задания.
MLflow — это платформа с открытым исходным кодом для управления жизненным циклом машинного обучения. Вы можете использовать его для регистрации различных метрик, артефактов и параметров выполнения заданий, что позволяет отслеживать и сравнивать производительность модели.

6. Используйте журналы для устранения ошибок при выполнении задания.
При возникновении ошибок во время выполнения задания журналы машинного обучения Azure предоставляют ценную информацию для устранения неполадок. Вы можете получить доступ к этим журналам, чтобы определить причину ошибки и предпринять соответствующие действия.

7. Настройка среды для выполнения задания.
Чтобы обеспечить воспроизводимость и контролировать зависимости, можно создать и настроить среду для выполнения задания. Это включает в себя определение необходимых пакетов Python, зависимостей и переменных среды.

8. Определите параметры для задания.
Машинное обучение Azure позволяет определить параметры для выполнения вашего задания. Параметры позволяют динамически передавать значения в скрипт, делая его более гибким и пригодным для повторного использования.

B. Внедрение конвейеров обучения.
Конвейеры обучения помогают автоматизировать и оптимизировать процесс обучения моделей. Вот связанные с этим задачи:

1. Создайте конвейер.
Вы можете создать конвейер в Машинном обучении Azure, чтобы определить и упорядочить этапы процесса обучения. Конвейер может включать несколько шагов, таких как предварительная обработка данных, обучение модели и оценка.

2. Передавайте данные между шагами в конвейере.
В конвейере вы можете передавать данные между разными шагами. Это позволяет вам создать поток данных и определить зависимости между шагами, гарантируя, что каждый шаг имеет доступ к требуемым входам.

3. Запустите и запланируйте конвейер.
Вы можете вручную инициировать выполнение конвейера или запланировать его запуск через определенные промежутки времени. Запуск и планирование конвейеров позволяет автоматизировать и согласовывать процессы обучения.

4. Отслеживание выполнения конвейера.
Машинное обучение Azure предоставляет возможности мониторинга для отслеживания хода выполнения и производительности выполнения конвейера. Вы можете отслеживать метрики, журналы и другую важную информацию, чтобы обеспечить бесперебойную работу конвейера.

5. Создание пользовательских компонентов.
Помимо использования встроенных компонентов, вы можете создавать пользовательские компоненты, адаптированные к вашим конкретным потребностям. Пользовательские компоненты позволяют инкапсулировать многократно используемую логику или интегрировать ее с внешними системами в конвейере.

6. Используйте конвейеры на основе компонентов.
Конвейеры на основе компонентов обеспечивают модульный подход к построению конвейеров. Вы можете создавать отдельные компоненты для разных задач и повторно использовать их в нескольких конвейерах, повышая эффективность и удобство сопровождения.

C. Управление моделями в Машинном обучении Azure.
Управление моделями в Машинном обучении Azure включает в себя задачи, связанные с упаковкой моделей и ответственными практиками искусственного интеллекта:

1. Опишите выходные данные модели MLflow.
При использовании MLflow выходные данные модели сохраняются как артефакт. Вы можете описать выходные данные модели, включая ее формат, метаданные и зависимости, для лучшего документирования и отслеживания.

2. Определите подходящую платформу для упаковки модели.
В зависимости от вашего сценария вам необходимо выбрать подходящую платформу для упаковки вашей модели. Машинное обучение Azure поддерживает различные платформы, такие как ONNX, TensorFlow, PyTorch и другие.

3. Оцените модель с помощью рекомендаций по ответственному ИИ.
Рекомендации по ответственному ИИ направлены на обеспечение справедливости, прозрачности и этичного использования моделей ИИ. Вы должны оценить поведение вашей модели, потенциальные предубеждения и любые юридические или этические соображения, чтобы ответственно подойти к их решению.

Модуль 13:

А. Разверните модель

1. Чтобы настроить параметры для онлайн-развертывания, вам необходимо определить необходимые параметры и конфигурации для вашей модели. Сюда входит указание типа модели, входных и выходных форматов, а также любых дополнительных параметров, необходимых для развертывания.

2. Если вы хотите настроить вычислительные ресурсы для пакетного развертывания, вам необходимо выбрать соответствующие вычислительные ресурсы, которые могут удовлетворить требования вашей модели к пакетной обработке. Это может включать выбор правильных виртуальных машин или кластеров с достаточной вычислительной мощностью.

3. Чтобы развернуть модель в онлайн-конечной точке, вы можете использовать Машинное обучение Azure. Это включает в себя создание конечной точки и развертывание на ней вашей модели. Конечная точка предоставляет URL-адрес, который можно использовать для взаимодействия с развернутой моделью.

4. Для пакетного развертывания вам необходимо создать пакетную конечную точку и развернуть на ней свою модель. Конечная точка пакетной обработки позволяет выполнять пакетную обработку больших наборов данных, отправляя их в конечную точку для вывода.

5. Тестирование развернутой онлайн-службы включает отправку образцов данных в конечную точку и проверку ответов модели. Это помогает убедиться, что развернутая модель работает правильно и дает ожидаемые результаты.

6. Чтобы вызвать конечную точку пакета и запустить задание пакетной оценки, необходимо отправить задание с необходимыми входными данными. Задание будет обрабатываться асинхронно, и вы сможете следить за его ходом и получать результаты после завершения задания.

B. Применение практики операций машинного обучения (MLOPs)

1. Инициировать задание машинного обучения Azure можно различными способами, включая Azure DevOps или GitHub. Вы можете настроить непрерывные конвейеры интеграции и развертывания, чтобы автоматически запускать процессы обучения и развертывания модели всякий раз, когда в код или данные вносятся изменения.

2. Автоматизация переобучения модели на основе добавления или изменения новых данных является важной практикой MLOps. Отслеживая источники данных, вы можете настроить процессы, которые обнаруживают, когда новые данные доступны или когда существующие данные изменились. Это запускает конвейер переобучения для обновления модели последней информацией.

3. Триггеры переобучения на основе событий позволяют определить определенные события или условия, запускающие процесс переобучения модели. Например, вы можете настроить триггер для переобучения модели при достижении определенного порога качества данных или при возникновении определенных бизнес-событий.