Машинное обучение для начинающих!

Машинное обучение (ML) — это категория алгоритма, которая позволяет программным приложениям более точно прогнозировать результаты без явного программирования. Это научная область исследования для разработки различных алгоритмов и методов, позволяющих компьютерам обучаться аналогичным людям.

Типы переменных

Числовая переменная
Категориальная переменная (номинальная, порядковая)
Зависимая переменная (целевая, зависимая, выходная, ответная)
Независимая переменная (функция, независимая, столбец, ввод, предиктор, объяснительная)

Типы обучения

Машинное обучение включает в себя показ большого объема данных машине, чтобы она могла учиться и делать прогнозы, находить закономерности или классифицировать данные. Существует три типа машинного обучения: контролируемое, неконтролируемое и обучение с подкреплением.

Типы проблем

Регрессия
Классификация
Кластеризация
Прогнозирование временных рядов
Обнаружение аномалий
Рейтинг
Рекомендация
Генерация данных
Оптимизация

Оценка модели машинного обучения

Основным показателем, используемым для оценки модели классификации, является точность. Точность определяется как процент правильных прогнозов для тестовых данных. Его можно легко рассчитать, разделив количество правильных прогнозов на общее количество прогнозов.

Основным показателем, используемым для оценки регрессионной модели, является среднеквадратическая ошибка. Среднеквадратическая ошибка просто определяется как среднее квадратов разностей между прогнозируемым выходом и истинным выходом.

Проверка модели

Проверка — один из наиболее важных аспектов модели машинного обучения. Не существует единого метода проверки, который работал бы во всех сценариях.

Обучение/тестирование

Самый простой метод — это разделение обучения/тестирования. Принцип прост: вы просто случайным образом разделяете свои данные примерно на 70%, которые используются для обучения модели, и 30% — для тестирования модели.

Набор ограничений

При оптимизации гиперпараметров вашей модели вы можете подгонять свою модель, если будете оптимизировать с помощью разделения обучения/тестирования.

После оптимизации вашей модели в разделении обучения/тестирования вы можете проверить, не переобучились ли вы, проверив свой набор задержек.

Компромисс между погрешностью и дисперсией

Модель с высоким смещением ограничена в изучении истинной тенденции и не соответствует данным. Модель с высокой дисперсией слишком многому учится на данных обучения и подгоняет данные. Лучшая модель находится где-то посередине двух крайностей.

Спасибо за прочтение!

Свяжитесь со мной в LinkedIn

Свяжитесь со мной на Github

Источник:

Введение в машинное обучение для начинающих
Машинное обучение — это идея учиться на примерах и опыте без явного программирования.towardsdatascience.com

Проверка вашей модели машинного обучения
Выход за пределы перекрестной проверки k-Foldв сторону datascience.com

Оценка модели машинного обучения.
Итак, вы построили модель машинного обучения и обучили ее на некоторых данных... что теперь? В этом посте я расскажу, как…www.jeremyjordan.me