Что означают метки набора данных логистической регрессии?

Я изучил логистическую регрессию в течение нескольких дней, и я думаю, что метки набора данных логистической регрессии должны быть 1 или 0, это правильно?

Но когда я ищу библиотеку libSVM, набор данных регрессии, я вижу, что значения меток продолжают число (например, 1.0086,1.0089...), я что-то пропустил?

Обратите внимание, что для решения проблемы регрессии можно использовать библиотеку libSVM.

Спасибо большое !

machine-learning libsvm

WoooHaaaa 19.01.2013 источник

Ответы (3)

arrow_upward
3
arrow_downward

Вопреки своему названию, логистическая регрессия является алгоритмом классификации и выводит вероятность класса в зависимости от точки данных. Поэтому метки обучающего набора должны быть либо 0, либо 1. Для упомянутого вами набора данных логистическая регрессия не является подходящим алгоритмом.

SVM — это алгоритм классификации, и он использует входные метки -1 или 1. Это не вероятностный алгоритм, и он не выводит вероятности классов. Он также может быть адаптирован к регрессии.

Blazej Wieliczko 19.01.2013

comment

Вы имеете в виду, что набор данных нельзя использовать для регрессии? Но его тип называется регрессией, посмотрите здесь:csie.ntu.edu .tw/~cjlin/libsvmtools/наборы данных - WoooHaaaa; 20.01.2013

comment

Вы можете использовать набор данных для регрессии - как вы говорите, для этого он и предназначен. Но вы не можете применить к нему логистическую регрессию. - Blazej Wieliczko; 21.01.2013

arrow_upward
0
arrow_downward

Вы используете стороннюю библиотеку или программируете ее самостоятельно? Обычно ярлыки используются как истина, чтобы вы могли увидеть, насколько эффективным был ваш подход.

Например, если ваш алгоритм пытается предсказать, что представляет собой конкретный экземпляр, он может вывести -1, метка истинности будет +1, что означает, что вы не смогли успешно классифицировать этот конкретный экземпляр.

Steve 19.01.2013

arrow_upward
0
arrow_downward

Обратите внимание, что «регрессия» — это общий термин. Сказать, что кто-то будет проводить регрессионный анализ, не обязательно означает, какой алгоритм он будет использовать, или всю природу наборов данных. Все, что он на самом деле говорит вам, это то, что у вас есть набор образцов с функциями, которые вы хотите использовать для прогнозирования одного значения результата (модель условной вероятности).

Одно из основных различий между логистической регрессией и линейной регрессией заключается в том, что первая обычно обучается на категориальных наборах образцов с двоичной маркировкой; в то время как последний обучается на наборах образцов с реальной маркировкой (ℝ).

Каждый раз, когда ваши метки имеют реальное значение, это означает, что вы, вероятно, собираетесь использовать линейную регрессию или что-то подобное, либо преобразовать эти метки с реальным значением в категориальные метки (например, с помощью порогов или интервалов), если хотите. на самом деле используйте логистическую регрессию. Однако потенциально существует большая разница в качестве и интерпретации ваших результатов, если вы попытаетесь перейти от одной такой постановки задачи к другой.

См. также Регрессионный анализ.

DuckMaestro 20.01.2013

Что означают метки набора данных логистической регрессии?

Ответы (3)

Похожие вопросы