Для задач регрессии точность модели обычно измеряется как разница между фактическими значениями и прогнозируемыми значениями, но в модели классификации точность модели обычно измеряется путем создания матрицы путаницы и проверки различных показателей с использованием матрицы путаницы.

Для оценки моделей классификации используются следующие метрики:

  • Точность
  • Отзывать
  • Точность
  • Оценка F1
  • Специфика
  • РПЦ
  • АУК

Давайте рассмотрим каждый из них подробно.

Матрица путаницы

  • Скажем, для классификации классов A и B всех пар A/B матрица путаницы используется для подсчета количества раз, когда экземпляры класса A классифицируются как класс B.
  • Для создания матрицы путаницы нам необходимо иметь набор правильных и неправильных предикатов для каждого класса.

Где

TP (True Positive), что означает, что наблюдение положительное, а прогноз также положительный.

TN (True Negative), что означает, что наблюдение отрицательное, а прогнозируемое значение также отрицательное.

FP (ложное срабатывание), что означает, что наблюдение отрицательное, но прогнозируемое значение положительное.

FN (ложноотрицательный результат), что означает, что наблюдение положительное, но прогнозируемое значение отрицательное.

Давайте рассмотрим пример, чтобы понять, как создать матрицу путаницы.

Пример 1: Рассмотрим модель классификации, которая должна определять, страдает ли человек диабетом или нет, из группы из 100 человек. И у нас есть с собой фактические значения и прогнозируемые модели. Модель предсказала, что из 100 35 человек страдают диабетом, у которых на самом деле наблюдается диабет, который можно назвать истинно положительным, и 30 - как недиабетические, тогда как они являются диабетиками, что является ложноотрицательным, и 15 человек - диабетическими, хотя на самом деле они не являются диабетическими. диабетический, который является ложноположительным, и 20 как недиабетические, которые на самом деле являются недиабетическими, что является истинно отрицательным, поэтому мы можем обобщить их следующим образом:

TP — 35

FN — 30

FP — 15

TN — 20

Теперь матрицу путаницы можно представить как

Пример 2: Давайте рассмотрим пример, в котором модель должна классифицировать, является ли электронное письмо спамом или нет. Из 50 электронных писем модель предсказала, что 10 электронных писем являются спамом, которые на самом деле рассматриваются как спам, поэтому истинно положительным считается 10 и 5 электронных писем помечены. как спам в прогнозе по модели, где, как они наблюдаются, как не спам-сообщения, поэтому здесь ложноотрицательное значение равно 5, а 15 электронные письма помечаются как не спам по модели, где, как считается, они являются спамом, поэтому ложноположительное значение равно 15, а остальные электронные письма помечаются как спам, и на самом деле они рассматриваются как спам, поэтому True Negative равен 20. Если суммировать приведенные выше прогнозы, мы можем сказать, что

TP — 10

FN — 5

FP — 15

TN — 20

Теперь матрицу путаницы можно представить в виде

На основе этой матрицы путаницы мы можем определить все метрики.

Точность

  • Он сообщает нам, сколько классов модель способна правильно предсказать.
  • Точность можно определить как общее количество правильных классификаций, разделенное на общее количество классификаций.

Математически это представляется как

Точность

  • Он говорит нам, сколько положительных прогнозов среди общего числа положительных прогнозов.
  • Точность можно определить как количество правильных положительных прогнозов, разделенное на общее количество положительных прогнозов.

Математически это представляется как

Чувствительность/запоминание

  • Он сообщает нам общее количество правильно предсказанных положительных результатов из всех прогнозов.
  • Чувствительность можно определить как соотношение положительных случаев, которые правильно обнаруживаются моделью.

Математически это представляется как

Оценка F1

  • Когда нам нужно сравнить две модели, лучше объединить точность и полноту и сравнить модели, и для этого у нас есть метрика, вызывающая оценку F1.
  • Показатель F1 можно определить как среднее гармоническое по точности и полноте, а среднее гармоническое берется вместо обычного среднего, поскольку обычное среднее обрабатывает все значения одинаково, тогда как среднее гармоническое придает гораздо больший вес низким значениям, поэтому мы получаем высокий балл F1 только в том случае, если как отзыв, так и точность высоки.
  • Оценка F1 благоприятна, если модели имеют одинаковую точность и полноту

Математически это представляется как

Специфичность или истинно отрицательный показатель

  • Он показывает, насколько специфична модель при прогнозировании истинных негативов.
  • Специфичность можно определить как общее количество отрицательных прогнозов модели по отношению к общему количеству фактических негативов.

Математически это представляется как

Мы также можем определить частоту ложных срабатываний как (1-специфичность)

Соотношение точности и полноты

  • Как упоминалось выше, оценка F1 является благоприятной, когда модели имеют одинаковую точность и запоминаемость, но в некоторых сценариях мы хотим придать больший вес точности, например, когда у нас есть модель, которая определяет, безопасны ли видео для детей, здесь мы предпочитаем модель, которая отклоняет хорошие видео, а не показывает плохие видео, поэтому здесь мы хотим иметь высокую точность, даже несмотря на то, что отзыв низкий, и в некоторых сценариях мы хотим больше заботиться об отзыве, например, при обнаружении пациентов с вирусом короны, для модели вполне нормально предсказывать нековидных человек как пациент с Covid, а не пропускать пациентов с Covid, поэтому здесь нам нужно, чтобы модель имела больше отзыва, чем точности.
  • Точность и полнота обратно пропорциональны, что означает, что повышение точности уменьшает полноту и полноту, и наоборот, что называется компромиссом между точностью и полнотой, поэтому мы не можем иметь в модели и то, и другое.
  • И полнота, и точность могут быть взяты на основе порогового значения, а наилучшее значение порога может быть определено путем построения графика точности и точности отзыва.
  • Лучшее значение порога — когда точность начинает резко падать. Кроме того, нам нужно помнить, что модель не будет полезна, если значение отзыва слишком низкое.

Кривая Roc (рабочая характеристика приемника)

  • Кривая ROC также помогает нам выбрать порог, который лучше всего подходит для модели.
  • Он построен между истинно положительной частотой (запоминание/чувствительность) и ложноположительной частотой (выпадения/а-специфичность) для всех возможных пороговых значений.
  • Чем выше отзыв, тем больше уровень ложных срабатываний у модели.

AUC(Площадь под кривой)

  • Из разных моделей классификаторов, какую лучше выбрать, можно ответить, заглянув в AUC.
  • Модель, имеющая максимальную площадь под кривой ROC, является наиболее подходящей моделью благодаря построению кривой ROC и расчету площади под ней для модели.
  • На рисунке ниже мы видим, что из модели 1, модели 2 модель 1 имеет максимальное количество находящихся под прикрытием, поэтому эта модель лучше всего подходит.