Создавать дифференциально частные, синтетические версии наборов данных; при соблюдении нормативных требований для хранения конфиденциальных данных в одобренной среде.
Независимо от того, что вас беспокоит: HIPAA для здравоохранения, PCI для финансовой отрасли, GDPR или CCPA для защиты данных потребителей, возможность начать строительство без необходимости наличия соглашения об обработке данных (DPA). Работа с сервисами SaaS может значительно сократить время, необходимое для запуска вашего проекта и начала создания ценности. Сегодня мы рассмотрим пример использования Gretel.ai в локальной (облачной или локальной) конфигурации для создания высококачественных синтетических моделей и наборов данных.
Настройте свою локальную среду
Для начала вам нужно всего три вещи.
- Набор данных для синтеза в формате CSV или Pandas Dataframe
- Ключ API Gretel.ai (бесплатно)
- Локальный компьютер / виртуальная машина / облачный экземпляр
Рекомендуемая установка. Мы рекомендуем следующую конфигурацию оборудования: ЦП: рекомендуется 8+ ядер виртуального ЦП для создания синтетических записей. Графический процессор: Nvidia Tesla P4 с поддержкой CUDA 10.x рекомендуется для обучения. Оперативная память: 8 ГБ +. Операционная система: Ubuntu 18.04 для поддержки графического процессора или Mac OS X (без поддержки графического процессора на компьютерах Mac).
См. Отличное руководство по настройке TensorFlow для ускорения графического процессора. Хотя графический процессор не требуется, обычно обучение на графическом процессоре происходит как минимум в 10 раз быстрее, чем на центральном процессоре. Или запустите CPU и возьмите ☕.
Сгенерируйте ключ API
С ключом API вы получаете бесплатный доступ к премиум-функциям общедоступной бета-версии Gretel, которые дополняют нашу библиотеку с открытым исходным кодом для генерации синтетических данных с улучшенной корреляцией между полями, автоматической проверкой записей синтетических данных и отчетами для обеспечения качества синтетических данных.
Войдите или создайте бесплатную учетную запись на Gretel.ai с помощью электронной почты Github или Google. Щелкните значок своего профиля в правом верхнем углу, затем Ключ API. Сгенерируйте новый токен API и скопируйте в буфер обмена.
Настройте вашу систему и установите зависимости
Мы рекомендуем настроить виртуальную среду Python для среды выполнения, чтобы ваша система оставалась чистой и аккуратной. В этом примере мы будем использовать диспетчер пакетов Anaconda, поскольку он отлично поддерживает Tensorflow, ускорение графического процессора и тысячи пакетов для анализа данных. Вы можете скачать и установить Anaconda здесь https://www.anaconda.com/products/individual.
Создайте виртуальную среду
conda install python=3.8
conda create --name synthetics python=3.8
conda activate synthetics # activate your virtual environment
conda install jupyter # set up notebook environment
jupyter notebook # launch notebook in browser
Установите необходимые пакеты Python
Установите зависимости, такие как gretel-synthetics, Tensorflow, Pandas и помощники Gretel (требуется ключ API) в вашу новую виртуальную среду. Добавьте приведенные ниже примеры кода прямо в свой блокнот или загрузите полную синтетическую записную книжку с Github.
Обучите модель и сгенерируйте синтетические данные
Загрузите источник из CSV в Pandas Dataframe, добавьте или удалите любые столбцы, настройте параметры обучения и обучите модель. По возможности мы рекомендуем не менее 5000 строк обучающих данных.
Сравните исходный и синтетический наборы данных
Используйте функцию отчетов Gretel.ai, чтобы убедиться, что синтетический набор данных содержит те же корреляции и идеи, что и исходные данные.
# Preview the synthetic Dataframe bundle.synthetic_df() # Generate a synthetic data report bundle.generate_report() # Save the synthetic dataset to CSV bundle.synthetic_df().to_csv('synthetic-data.csv', index=False)
Загрузите новый набор синтетических данных и изучите корреляции и идеи в отчете о синтетических данных!
Хотите пробежать от начала до конца?
Загрузите наш пошаговый блокнот на Github, загрузите блокнот на локальный сервер ноутбука, подключите свой ключ API и начните создавать синтетические данные!
Заключение
В Gretel.ai мы очень рады возможности использования синтетических данных для расширения обучающих наборов для создания моделей машинного обучения и искусственного интеллекта, которые лучше обобщают неизвестные данные и с меньшими алгоритмическими ошибками. Мы хотели бы услышать о ваших примерах использования - не стесняйтесь обращаться к нам для более подробного обсуждения в комментариях, twitter или [email protected]. Как 2_? Поставьте нам ⭐ на Github!