Что означают метки набора данных логистической регрессии?

Я изучил логистическую регрессию в течение нескольких дней, и я думаю, что метки набора данных логистической регрессии должны быть 1 или 0, это правильно?

Но когда я ищу библиотеку libSVM, набор данных регрессии, я вижу, что значения меток продолжают число (например, 1.0086,1.0089...), я что-то пропустил?

Обратите внимание, что для решения проблемы регрессии можно использовать библиотеку libSVM.

Спасибо большое !


person WoooHaaaa    schedule 19.01.2013    source источник


Ответы (3)


Вопреки своему названию, логистическая регрессия является алгоритмом классификации и выводит вероятность класса в зависимости от точки данных. Поэтому метки обучающего набора должны быть либо 0, либо 1. Для упомянутого вами набора данных логистическая регрессия не является подходящим алгоритмом.

SVM — это алгоритм классификации, и он использует входные метки -1 или 1. Это не вероятностный алгоритм, и он не выводит вероятности классов. Он также может быть адаптирован к регрессии.

person Blazej Wieliczko    schedule 19.01.2013
comment
Вы имеете в виду, что набор данных нельзя использовать для регрессии? Но его тип называется регрессией, посмотрите здесь:csie.ntu.edu .tw/~cjlin/libsvmtools/наборы данных - person WoooHaaaa; 20.01.2013
comment
Вы можете использовать набор данных для регрессии - как вы говорите, для этого он и предназначен. Но вы не можете применить к нему логистическую регрессию. - person Blazej Wieliczko; 21.01.2013

Вы используете стороннюю библиотеку или программируете ее самостоятельно? Обычно ярлыки используются как истина, чтобы вы могли увидеть, насколько эффективным был ваш подход.

Например, если ваш алгоритм пытается предсказать, что представляет собой конкретный экземпляр, он может вывести -1, метка истинности будет +1, что означает, что вы не смогли успешно классифицировать этот конкретный экземпляр.

person Steve    schedule 19.01.2013

Обратите внимание, что «регрессия» — это общий термин. Сказать, что кто-то будет проводить регрессионный анализ, не обязательно означает, какой алгоритм он будет использовать, или всю природу наборов данных. Все, что он на самом деле говорит вам, это то, что у вас есть набор образцов с функциями, которые вы хотите использовать для прогнозирования одного значения результата (модель условной вероятности).

Одно из основных различий между логистической регрессией и линейной регрессией заключается в том, что первая обычно обучается на категориальных наборах образцов с двоичной маркировкой; в то время как последний обучается на наборах образцов с реальной маркировкой (ℝ).

Каждый раз, когда ваши метки имеют реальное значение, это означает, что вы, вероятно, собираетесь использовать линейную регрессию или что-то подобное, либо преобразовать эти метки с реальным значением в категориальные метки (например, с помощью порогов или интервалов), если хотите. на самом деле используйте логистическую регрессию. Однако потенциально существует большая разница в качестве и интерпретации ваших результатов, если вы попытаетесь перейти от одной такой постановки задачи к другой.

См. также Регрессионный анализ.

person DuckMaestro    schedule 20.01.2013