Начало работы с линейной регрессией Продолжение…

Обычный метод наименьших квадратов (OLS)

Итак, первая таблица в регрессии в statsmodels — это сводная таблица модели или таблица OLS. Так что же такое OLS?
ну, это самый распространенный метод определения уравнения регрессии.
вы помните точечную диаграмму в последняя статья этой серии, только представьте, сколько линий может пройти через нее, но будет только одна линия, которая будет наименее удалена от всех точек на диаграмме рассеяния, которую вы назвали линией регрессии. Этим занимается ОЛС. Наименьший квадрат означает минимальную квадратичную ошибку.
Прежде чем понять OLS, нам нужно понять несколько терминов, таких как

Детерминанты регрессии

(Ссылка из 365datascience)
Итоговая сумма квадратов (SST): это сумма квадратов разностей между наблюдаемой зависимой переменной и средним значением. Или мы можно сказать о дисперсии наблюдаемой переменной вокруг среднего значения. Это также называется общей суммой квадратов (TSS).

Сумма квадратов из-за регрессии (SSR): это сумма квадратов разностей между предсказанным значением, найденным с помощью линии регрессии, и средним значением.

Сумма квадратов ошибок (SSE): это квадратная разница между наблюдаемым значением и предсказанным значением, которое вы получили в результате регрессии.

Знание этих важных терминов поможет нам понять некоторые важные термины в таблице МНК.

R-квадрат

Это отношение между SSR и SST, или можно сказать, что это отношение между изменчивостью регрессии и изменчивостью в целом. Он находится в диапазоне от 0 до 1. В идеале значение R в квадрате должно быть равно 1, однако это происходит очень и очень редко, поскольку в этом случае нет ошибок. Видно, что во многих моделях отношение варьируется от 0,2 до 0,9.
В целом мы можно сказать, чем выше значение R-квадрата, тем лучше регрессия.

У вас может возникнуть вопрос, каким может быть хорошее значение R-квадрата?
Ну, это полностью зависит от выборки, которую вы проводите анализ.
Например, учащийся старшей школы, как правило, более серьезно относятся к учебе, чем к учебе в колледже, поэтому проходные баллы на экзаменах могут сильно различаться в двух сценариях, в одном и том же в нескольких наборах данных значение R-квадрата 0,3 можно считать хорошим, а с другой стороны, возможно 0,5 можно назвать плохой регрессией.

Вы также никогда не знаете, от скольких факторов зависит ваша выборка.
Например, когда вы получаете хорошую оценку в старшей школе или колледже, это может быть связано с тем, что ваша мама готовит для вас еду, или, может быть, потому, что вам не нужно вообще тратить время на путешествия. Эти факторы вы, возможно, даже не учитывали, когда получали результаты средней школы, верно?
однако не все атрибуты или зависимости стоит добавлять в регрессионный анализ. это может отклонить ваш анализ в сторону чего-то несущественного и может закончиться неправильной регрессией. Таким образом, простой ответ на то, что может быть хорошим значением R-квадрата, заключается в том, чтобы просто продолжать пробовать различные пропущенные функции, пока не получите наилучшее значение.

Скорректированный R-квадрат

Чтобы понять изложенный выше сценарий, нам нужен сравнительный регрессионный анализ. Прежде чем привести еще один пример, я хотел кратко рассказать о скорректированном значении R-квадрата. Обычно оно наказывает чрезмерные атрибуты или функции. Его значение всегда меньше, чем значение R-квадрата, поэтому оно называется скорректированным.
Давайте разберемся с этим через пример.

Набор данных, используемый в этом примере, можно найти здесь на 365datascience.

Итак, вы, ребята, помните пример GPA и SAT студентов, поступающих в колледж, который я привел вам в прошлой статье, давайте внесем некоторые изменения.
поэтому в этом наборе данных, если мы добавим еще одну функцию под названием «Rand 1,2,3» который является ничем иным, как случайным образом присвоенным 1,2,3 числам с функцией SAT. Также, если у вас есть более одной функции в регрессионном анализе, мы можем сказать, что это множественная линейная регрессия. Вы можете спросить, почему я это сделал, просто чтобы проверить, что произойдет с регрессией, когда мы добавим незначительную функцию.
тогда это будет таблица: -

Я также помещу старую таблицу анализа для параллельного сравнения

просто сосредоточьтесь на значении R-квадрата, оно увеличилось до 4,07, но скорректированное значение R-квадрата уменьшилось до 0,392. Это означает, что вы, безусловно, добавили некоторую информацию, но уменьшили объяснительную силу модели.
также обратите внимание, что значение p намного выше 0,05. Следовательно, «rand123» — бесполезная функция. Другим атрибутом, который используется для проверки значимости модели, является F-статистика. Вы видели падение статистики f во второй модели!!. Следовательно, мы можем сказать, что чем выше значение статистики F, тем лучше регрессия. Этот пример объясняет глубокий анализ сценария, который я обсуждал выше.
Это будет достаточно, чтобы начать работу с регрессией с помощью статистических моделей.
Но прежде чем я закончу эту статью, очень важно понять допущение регрессии.

Допущение регрессии

В целом у нас есть 5 предположений, основанных на регрессии:

  1. Линейность
  2. Нет эндогенности
  3. гомоскедастичность
  4. Нет автокорреляции
  5. Нет мультиколлинеарности

Линейность:

линейность, поскольку название предполагает, что график между зависимой и независимой переменной должен быть прямой линией. Или вы можете сказать, что отношение между зависимой переменной и независимой переменной должно иметь степень 1

y = β1.x1 +β2.x2+β3.x3+β4.x4+ β5

вы можете спросить, что произойдет, если график рассеяния данных не будет линейным или линейная линия не будет наилучшим образом соответствовать тому, что следует делать. Простой ответ на это: вы должны преобразовать данные таким образом, чтобы они соответствовали прямой линии. вы узнаете о преобразовании данных позже в этой серии.

Нет эндогенности:

Отсутствие эндогенности — это случай, когда ошибка зависит от одной из функций, добавленных вами в модель. Что ж, ее гораздо легче понять из примера, чем из определения.
Возьмем гипотетическую модель, показывающую цену ноутбуков с разными процессорами Intel Core. Как обычно, ноутбук с процессором I5 будет дороже, чем I3, как и I7, но ошибка начинает возникать, когда в игру вступают macbook, потому что даже macbook I3 дороже, чем ноутбук Dell i7, поэтому мы можем сказать, что мы пропустили одну функцию, которая , «Бренд», как и ошибка. Если мы включим эту функцию в нашу модель, мы сможем удалить зависимость ошибки непосредственно от предыдущей функции.

Гомоскедастичность:

Ну, гомоскедастичность означает иметь одинаковую дисперсию члена ошибки. Это помогает уменьшить неопределенность модели. Вы можете подумать, что произойдет, если у нас не будет такой же дисперсии членов ошибки.

Что ж, это произойдет, т. Е. Наблюдение может быть изначально близко к линии регрессии, а затем разойтись, что приведет к ошибкам в модели. Мы также можем сказать, что модель надежна при малых значениях независимой переменной и неопределенна при более высоких значениях. Простое решение проблемы, безусловно, состоит в том, чтобы проверить пропущенную переменную, если она есть, как в предыдущем предположении.
Другое решение состоит в том, чтобы взять логарифм зависимой переменной или независимой переменной или обеих и испытать удачу.

Нет автокорреляции:

Предполагается, что ошибки в моделях некоррелированы, но мы находим корреляцию между ошибками в данных временных рядов, например, на фондовой бирже. И поэтому из-за этого предположения мы не можем использовать линейную регрессию в данных временного ряда, потому что это нельзя исправить. Для преодоления этой проблемы предлагается множество моделей.

Нет мультиколлинеарности:

Это одно из самых интересных предположений. Оно просто указывает удалить тот признак, который является производным от существующего признака в модели, потому что это приведет к неверным оценкам. Позвольте мне привести вам пример
предположим, что есть две продуктовые лавки. , № 1 продает два товара
-›макароны с полной тарелкой
-›макароны с половинной тарелкой
и прилавок №. 2 продает только макароны с полной тарелкой
Если мы попытаемся провести регрессионный анализ этой выборки, взяв все три позиции, мы можем получить мультиколлинеарность.
Нет смысла держать в киоске макароны как с половинной, так и с полной тарелкой. № 1 в регрессии, потому что, если вы поднимете цену на полную тарелку, вы должны поднять цену и на половину тарелки, иначе люди купят две макароны с половинной тарелкой.

Это похоже на то, что если у вас есть
2*a = b
, тогда замените a как ((1/2)*b )

Это все в этой статье, надеюсь вам понравится, следите за обновлениями