Публикации по теме 'data-engineering'


Лучшие практики в области инженерии данных: построение надежных конвейеров данных
В сегодняшнем мире, управляемом данными, роль обработки данных никогда не была более важной. Поскольку организации стремятся использовать возможности своих данных, потребность в надежных, масштабируемых и эффективных конвейерах данных становится первостепенной. В этой статье подробно рассматриваются лучшие практики, которые должен применять каждый инженер по работе с данными, чтобы обеспечить успех своих инициатив в области данных. 1. Понимание бизнес-контекста Прежде чем..

Mage, современный инструмент оркестрации для замены воздушного потока — Часть 2
Ускорение преобразования данных: подробное изучение надстроек Mage Block В Части 1 вы узнали, что такое Mage, как построить конвейер данных с помощью Mage и какие существуют типы блоков. Во второй части вы узнаете больше о том, как повысить качество воронки продаж с помощью надстроек, которые можно применять ко всем блокам. Mage, современный инструмент оркестрации для замены воздушного потока — часть 1 Новая эра в оркестровке данных: раскрытие..

Как настроить хранилище HashiCorp с помощью Airflow
Интеграция хранилища HashiCorp с Apache Airflow Введение По умолчанию Apache Airflow считывает соединения и переменные из базы данных метаданных, которая, по сути, хранит все, что отображается на соответствующей вкладке пользовательского интерфейса Airflow. Несмотря на то, что нет абсолютно ничего особенно плохого в добавлении (или удалении) соединений и переменных через пользовательский интерфейс (и, таким образом, сохранении их в базе данных матаданных, которая также предлагает..

Машинное обучение на GCP — Облачный TPU против облачных функций
Введение В предыдущем сообщении в блоге мы говорили о машинном обучении на Google Cloud Platform с использованием Persistor и облачных функций, однако мало говорили о стоимости. Мы сказали, что использование Google Cloud Functions дешево, но это все. Что ж, вам больше не нужно верить нам на слово, так как мы собираемся углубиться в цены на все компоненты, которые мы использовали в предыдущем посте, а также провести сравнение с альтернативным подходом — с использованием тензорной..

Празднование второй годовщины Data Science в Microsoft
Путешествие продолжается! Наука о данных в Microsoft — онлайн-публикации на Medium.com, которую вы сейчас читаете, — 9 января исполняется два года. Какое это было путешествие! Когда мы начинали, пандемия еще не была фактом повседневной жизни в большей части мира. Организация, частью которой мы были, была намного меньше и состояла из других людей. Некоторые скептически отнеслись к нашему начинанию с DS@M, как мы его называем внутри компании. Как мы могли бы публично писать о..

Резонирует с читателями: наши самые просматриваемые статьи в первой половине 2022 года
Подразделение Науки о данных в Microsoft » было создано 2,5 года назад с простой миссией: делиться передовым опытом Microsoft в области обработки данных, обсуждать ценность того, что мы делаем как специалисты по данным, и демонстрировать влияние нашей работы на общий бизнес Майкрософт. Мы считаем, что эта форма социальной журналистики служит доступным механизмом — как для нас, так и для наших заинтересованных сторон — который позволяет нам рассказать историю науки о данных Microsoft. Мы..