Классификация проектов по машинному обучению для начинающих

Классификация — одна из доминирующих проблем, которые люди решают в машинном обучении. Многие проблемы возникают в области машинного обучения, которая относится к этой области. Глубокие нейронные сети в основном решают такие проблемы, и было показано, что они работают значительно.

Мы рассмотрим четыре основных проекта по машинному обучению, которые должен решить каждый новичок, чтобы понять, как работают эти проблемы классификации. Это

Проблема классификации цветов ириса
Проблема классификации рака молочной железы
Проблема распознавания рукописных цифр MNIST
Проблема обнаружения спама

В этом посте будут обсуждаться основы этих проблем и где взять набор данных для таких проблем.

Проблема классификации цветов ириса

Это самая известная проблема классификации, и ее решает каждый, кто занимается машинным обучением. Основная цель этой задачи - классифицировать цветы по соответствующим категориям, то есть Vergina, Sesota и Versicolor. Это три типа цветка ириса, и набор данных содержит данные об этих типах ириса. Набор данных включает длину чашелистика, ширину чашелистика, длину лепестка и ширину лепестка.

Это многоклассовая классификация, в которой мы должны классифицировать данные по трем типам. Набор данных содержит 150 экземпляров и 4 признака. Набор данных для этого можно получить из репозитория машинного обучения UC. Это самый популярный набор данных, и почти все люди, занимающиеся машинным обучением, решили его. Это отличный момент, чтобы начать проблемы классификации.

Проблема классификации рака молочной железы

Это еще одна захватывающая проблема классификации, которую нужно решить, и почти каждый человек, занимающийся машинным обучением, также решает ее. Эта задача направлена на классификацию опухолей на злокачественные и доброкачественные. Злокачественный означает, что рак опасен, а доброкачественный означает, что опухоль безвредна.

Набор данных для этого также доступен в репозитории машинного обучения UC. Этот набор данных содержит 699 образцов, из которых есть доброкачественные и злокачественные. Всего в этом наборе данных 10 признаков, и все атрибуты являются целыми числами.

Это один из известных доступных наборов данных, который может многое рассказать о концепциях классификации. Особенности следующие:

1. Образец кода: идентификационный номер

2. Толщина сгустка

3. Однородность размера ячейки

4. Однородность формы клеток

5. Краевая адгезия

6. Размер одной эпителиальной клетки

7. Голые ядра

8. Мягкий хроматин

9. Нормальные ядрышки

10. Митозы

11. Класс: (2 для доброкачественных, 4 для злокачественных)

Выходной столбец содержит значения 2 и 4, 2 просто означает Доброкачественная, а 4 означает, что опухоль злокачественная.

Вам не нужно понимать, что означают эти функции и т. Д. Просто вам нужно знать, что это за функции и сколько их. Это поможет вам понять, как обрабатываются данные при использовании вашего алгоритма.

MNIST Классификатор рукописных цифр

Это еще одна захватывающая проблема классификации, известная как Helloworld компьютерного зрения. Этот проект направлен на классификацию изображений по цифрам от 0 до 9. Вам не нужно беспокоиться о данных изображений, даже если вы никогда не работали с изображениями. Эта проблема проста. Изображения сохраняются как значения пикселей, а не напрямую как изображения. Итак, вы работаете с целыми числами.

Изображения хранятся в виде значений пикселей в виде векторов. Каждое изображение имеет размер 28*28, и таким образом они образуют вектор из 784. Набор данных можно скачать с Kaggle. Есть 784 столбца, и каждый столбец представляет значение пикселя 0 или 1 и столбец метки. Столбец label содержит выходные данные, т. е. 0–9.

Значение пикселя изображения находится в диапазоне от 0 до 255. 0 — темный пиксель, 255 — яркое пятно, а промежуточные значения — разные оттенки. В этом наборе данных 0 представляет темное пятно, а 1 — светлое пятно.

Проблема классификации вин

Это еще одна захватывающая проблема классификации рака, а также один из популярных наборов данных в репозитории машинного обучения UC. Этот проект направлен на классификацию вин по регионам, в которых они были произведены.

Набор данных можно загрузить из репозитория машинного обучения UC, и в нем нет пропущенных значений. Всего имеется 13 атрибутов, и первый из них — это класс, к которому принадлежит вино.

Это захватывающая задача, которую нужно решить, и она даст вам захватывающее представление о концепциях классификации и алгоритмах, которые мы используем в классификации.

Вывод

Поскольку существует множество задач классификации, к которым можно подойти, я выбрал 4 задачи, решение которых должно быть удобным для каждого новичка. Если вам понравился этот пост, ставьте лайк и комментируйте. Заинтересованы в 4 задачах регрессии для начинающих? "Кликните сюда." Спасибо за прочтение 🙂