Краткое введение в настройку среды для машинного обучения в python
Обзор
Вокруг машинного обучения много шумихи, но довольно часто мы сталкиваемся с трудностями при выборе того, какой инструмент использовать, какие библиотеки установить и так далее. Это руководство о том, как настроить среду для машинного обучения в Python для начинающих. Здесь не рассматривается подробно ML, а основное внимание уделяется первому этапу подготовки рабочей среды.
Мы установим Anaconda: платформу обработки данных Python/R с открытым исходным кодом и платформу машинного обучения.
Мы будем использовать следующее:
- Python 3: мы настроим нашу среду на Python (популярный язык в сообществе специалистов по данным) в качестве основного языка. В Python уже есть множество полезных библиотек, многие из которых ориентированы на машинное обучение.
- Jupyter Notebook: веб-приложение с открытым исходным кодом, в котором вы можете писать живой код, визуализировать свои данные или результаты, делиться ими с другими, создавать форматированные текстовые элементы и многое другое.
Предпосылки:
ОС: OSX/Unix/Windows
Установка Анаконды
Мы начнем с установки Anaconda. Python и Jupyter будут установлены по умолчанию вместе с ним.
- Загрузите последнюю версию Anaconda для Python 3 здесь. Это может занять некоторое время в зависимости от размера дистрибутива.
- После загрузки установщика дважды щелкните и следуйте инструкциям по установке.
Проверка настроек
Итак, мы установили необходимые библиотеки, теперь пришло время проверить, настроена ли среда.
Инструкции для пользователей OSX/Unix
Для пользователей Mac и Unix откройте терминал
- Создайте новый каталог, используя следующую команду. Вы можете дать любое имя вашему каталогу. Ваши записные книжки будут сохранены в этом каталоге. Для целей этой статьи я создаю каталог с именем tutorial.
$mkdir tutorial
2. Перейдите во вновь созданный каталог.
$cd tutorial
3. Запустите следующую команду
$jupyter notebook
Инструкции для пользователей Windows
- Создайте новую папку в том месте, где вы хотите сохранить свои записные книжки.
- Откройте командную строку и перейдите в указанный выше каталог, используя следующую команду
$cd ~/tutorial
3. Запустите следующую команду
$jupyter notebook
В браузере по умолчанию откроется новая вкладка, которая выглядит примерно так:
4. Щелкните раскрывающееся меню Создать и выберите Python 3. Будет создана новая вкладка.
Вы только что создали свой первый блокнот!
Давайте напишем базовую программу машинного обучения в нашей только что созданной среде.
Мы будем использовать библиотеки Python sklearn для написания нашей первой модели.
sklearn: популярная библиотека машинного обучения на Python. В него встроены все широко используемые алгоритмы машинного обучения.
Мы загрузим набор данных iris, который похож на набор данных hello world в мире науки о данных. Набор данных Iris уже присутствует в sklearn.
Мы реализуем базовый алгоритм логистической регрессии.
Начнем с кода, а затем объясним его.
# import libraries from sklearn.datasets import load_iris from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split # load dataset iris_dataset = load_iris() y = iris_dataset.target #Splitting the dataset into training and test X_train, X_test, y_train, y_test = train_test_split(iris_dataset.data, y, test_size=0.3) estimator = LogisticRegression() estimator.fit(X_train, y_train) #Accuracy print(estimator.score(X_test,y_test)) #0.9333333333333333
Пояснение:
Шаг 1: Импортируйте все библиотеки
Шаг 2: Загрузите набор данных. sklearn имеет встроенную функцию для загрузки набора данных iris.
Шаг 3: Разделите загруженный набор данных на обучающий и тестовый наборы данных. Модель будет установлена на обучающем наборе данных. Точность модели будет оцениваться на тестовом наборе данных.
Шаг 4: Инициализируйте модель и подгоните модель.
Шаг 3: Оцените точность модели, используя функцию оценки.
Вот и все. Все готово для машинного обучения.
Следующими шагами будет реализация базовых алгоритмов машинного обучения.
Ссылка на гитхаб: