Создавать дифференциально частные, синтетические версии наборов данных; при соблюдении нормативных требований для хранения конфиденциальных данных в одобренной среде.

Независимо от того, что вас беспокоит: HIPAA для здравоохранения, PCI для финансовой отрасли, GDPR или CCPA для защиты данных потребителей, возможность начать строительство без необходимости наличия соглашения об обработке данных (DPA). Работа с сервисами SaaS может значительно сократить время, необходимое для запуска вашего проекта и начала создания ценности. Сегодня мы рассмотрим пример использования Gretel.ai в локальной (облачной или локальной) конфигурации для создания высококачественных синтетических моделей и наборов данных.

Настройте свою локальную среду

Для начала вам нужно всего три вещи.

  1. Набор данных для синтеза в формате CSV или Pandas Dataframe
  2. Ключ API Gretel.ai (бесплатно)
  3. Локальный компьютер / виртуальная машина / облачный экземпляр

Рекомендуемая установка. Мы рекомендуем следующую конфигурацию оборудования: ЦП: рекомендуется 8+ ядер виртуального ЦП для создания синтетических записей. Графический процессор: Nvidia Tesla P4 с поддержкой CUDA 10.x рекомендуется для обучения. Оперативная память: 8 ГБ +. Операционная система: Ubuntu 18.04 для поддержки графического процессора или Mac OS X (без поддержки графического процессора на компьютерах Mac).

См. Отличное руководство по настройке TensorFlow для ускорения графического процессора. Хотя графический процессор не требуется, обычно обучение на графическом процессоре происходит как минимум в 10 раз быстрее, чем на центральном процессоре. Или запустите CPU и возьмите ☕.

Сгенерируйте ключ API

С ключом API вы получаете бесплатный доступ к премиум-функциям общедоступной бета-версии Gretel, которые дополняют нашу библиотеку с открытым исходным кодом для генерации синтетических данных с улучшенной корреляцией между полями, автоматической проверкой записей синтетических данных и отчетами для обеспечения качества синтетических данных.

Войдите или создайте бесплатную учетную запись на Gretel.ai с помощью электронной почты Github или Google. Щелкните значок своего профиля в правом верхнем углу, затем Ключ API. Сгенерируйте новый токен API и скопируйте в буфер обмена.

Настройте вашу систему и установите зависимости

Мы рекомендуем настроить виртуальную среду Python для среды выполнения, чтобы ваша система оставалась чистой и аккуратной. В этом примере мы будем использовать диспетчер пакетов Anaconda, поскольку он отлично поддерживает Tensorflow, ускорение графического процессора и тысячи пакетов для анализа данных. Вы можете скачать и установить Anaconda здесь https://www.anaconda.com/products/individual.

Создайте виртуальную среду

conda install python=3.8
conda create --name synthetics python=3.8 
conda activate synthetics # activate your virtual environment
conda install jupyter # set up notebook environment
jupyter notebook # launch notebook in browser

Установите необходимые пакеты Python

Установите зависимости, такие как gretel-synthetics, Tensorflow, Pandas и помощники Gretel (требуется ключ API) в вашу новую виртуальную среду. Добавьте приведенные ниже примеры кода прямо в свой блокнот или загрузите полную синтетическую записную книжку с Github.

Обучите модель и сгенерируйте синтетические данные

Загрузите источник из CSV в Pandas Dataframe, добавьте или удалите любые столбцы, настройте параметры обучения и обучите модель. По возможности мы рекомендуем не менее 5000 строк обучающих данных.

Сравните исходный и синтетический наборы данных

Используйте функцию отчетов Gretel.ai, чтобы убедиться, что синтетический набор данных содержит те же корреляции и идеи, что и исходные данные.

# Preview the synthetic Dataframe
bundle.synthetic_df()
# Generate a synthetic data report
bundle.generate_report()
# Save the synthetic dataset to CSV
bundle.synthetic_df().to_csv('synthetic-data.csv', index=False)

Загрузите новый набор синтетических данных и изучите корреляции и идеи в отчете о синтетических данных!

Хотите пробежать от начала до конца?

Загрузите наш пошаговый блокнот на Github, загрузите блокнот на локальный сервер ноутбука, подключите свой ключ API и начните создавать синтетические данные!



Заключение

В Gretel.ai мы очень рады возможности использования синтетических данных для расширения обучающих наборов для создания моделей машинного обучения и искусственного интеллекта, которые лучше обобщают неизвестные данные и с меньшими алгоритмическими ошибками. Мы хотели бы услышать о ваших примерах использования - не стесняйтесь обращаться к нам для более подробного обсуждения в комментариях, twitter или [email protected]. Как 2_? Поставьте нам ⭐ на Github!