Краткое введение в настройку среды для машинного обучения в python

Обзор

Вокруг машинного обучения много шумихи, но довольно часто мы сталкиваемся с трудностями при выборе того, какой инструмент использовать, какие библиотеки установить и так далее. Это руководство о том, как настроить среду для машинного обучения в Python для начинающих. Здесь не рассматривается подробно ML, а основное внимание уделяется первому этапу подготовки рабочей среды.

Мы установим Anaconda: платформу обработки данных Python/R с открытым исходным кодом и платформу машинного обучения.

Мы будем использовать следующее:

  1. Python 3: мы настроим нашу среду на Python (популярный язык в сообществе специалистов по данным) в качестве основного языка. В Python уже есть множество полезных библиотек, многие из которых ориентированы на машинное обучение.
  2. Jupyter Notebook: веб-приложение с открытым исходным кодом, в котором вы можете писать живой код, визуализировать свои данные или результаты, делиться ими с другими, создавать форматированные текстовые элементы и многое другое.

Предпосылки:

ОС: OSX/Unix/Windows

Установка Анаконды

Мы начнем с установки Anaconda. Python и Jupyter будут установлены по умолчанию вместе с ним.

  1. Загрузите последнюю версию Anaconda для Python 3 здесь. Это может занять некоторое время в зависимости от размера дистрибутива.
  2. После загрузки установщика дважды щелкните и следуйте инструкциям по установке.

Проверка настроек

Итак, мы установили необходимые библиотеки, теперь пришло время проверить, настроена ли среда.

Инструкции для пользователей OSX/Unix

Для пользователей Mac и Unix откройте терминал

  1. Создайте новый каталог, используя следующую команду. Вы можете дать любое имя вашему каталогу. Ваши записные книжки будут сохранены в этом каталоге. Для целей этой статьи я создаю каталог с именем tutorial.
$mkdir tutorial

2. Перейдите во вновь созданный каталог.

$cd tutorial

3. Запустите следующую команду

$jupyter notebook

Инструкции для пользователей Windows

  1. Создайте новую папку в том месте, где вы хотите сохранить свои записные книжки.
  2. Откройте командную строку и перейдите в указанный выше каталог, используя следующую команду
$cd ~/tutorial

3. Запустите следующую команду

$jupyter notebook

В браузере по умолчанию откроется новая вкладка, которая выглядит примерно так:

4. Щелкните раскрывающееся меню Создать и выберите Python 3. Будет создана новая вкладка.

Вы только что создали свой первый блокнот!

Давайте напишем базовую программу машинного обучения в нашей только что созданной среде.

Мы будем использовать библиотеки Python sklearn для написания нашей первой модели.

sklearn: популярная библиотека машинного обучения на Python. В него встроены все широко используемые алгоритмы машинного обучения.

Мы загрузим набор данных iris, который похож на набор данных hello world в мире науки о данных. Набор данных Iris уже присутствует в sklearn.

Мы реализуем базовый алгоритм логистической регрессии.

Начнем с кода, а затем объясним его.

# import libraries
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# load dataset
iris_dataset = load_iris()
y = iris_dataset.target
#Splitting the dataset into training and test
X_train, X_test, y_train, y_test = train_test_split(iris_dataset.data, y, test_size=0.3)
estimator = LogisticRegression()
estimator.fit(X_train, y_train)
#Accuracy
print(estimator.score(X_test,y_test))
#0.9333333333333333

Пояснение:

Шаг 1: Импортируйте все библиотеки

Шаг 2: Загрузите набор данных. sklearn имеет встроенную функцию для загрузки набора данных iris.

Шаг 3: Разделите загруженный набор данных на обучающий и тестовый наборы данных. Модель будет установлена ​​на обучающем наборе данных. Точность модели будет оцениваться на тестовом наборе данных.

Шаг 4: Инициализируйте модель и подгоните модель.

Шаг 3: Оцените точность модели, используя функцию оценки.

Вот и все. Все готово для машинного обучения.

Следующими шагами будет реализация базовых алгоритмов машинного обучения.

Ссылка на гитхаб:

https://github.com/anchika/ml-tutorial