Введение

Теория обучения утверждает, что алгоритм машинного обучения может хорошо обобщать конечный набор обучающих примеров. Кажется, это противоречит некоторым основным принципам логики. обобщение или вывод общих правил из ограниченного набора примеров логически недействительны. Чтобы логически вывести правило, описывающее каждого члена группы, необходимо иметь информацию о каждом члене этого множества. Отчасти машинное обучение избегает этой проблемы, предлагая только вероятностные правила вместо полностью определенных правил, используемых в чисто логических рассуждениях. Машинное обучение обещает найти правила, которые, вероятно, верны для большинства членов множества, к которому они относятся.

Описание

К сожалению, даже это не решает всей проблемы. Теорема об отсутствии бесплатного обеда для машинного обучения (Wolpert, 1996) утверждает, что усредненный по всем возможным распределениям, генерирующим данные, каждый алгоритм классификации имеет эквивалентную частоту ошибок при классификации ранее ненаблюдавшихся точек. Другими словами, в каком-то смысле ни один алгоритм машинного обучения не может быть лучше другого. самый сложный алгоритм, который мы вообразим, имеет эквивалентную среднюю производительность (все возможные задачи), поскольку просто предсказывает принадлежность каждой точки к эквивалентному классу.

К счастью, эти результаты справедливы, только если мы усредняем все возможные распределения, генерирующие данные. Если мы сделаем предположения о типах вероятностных распределений, с которыми мы сталкиваемся в реальных приложениях, то мы разработаем алгоритмы обучения, которые хорошо работают с этими распределениями. Это говорит о том, что цель исследований в области машинного обучения состоит не в поиске универсального алгоритма обучения или абсолютно лучшего алгоритма обучения. Вместо этого наша цель — узнать, какие виды распределений имеют отношение к «реальному миру», с которым сталкивается агент ИИ, и какие алгоритмы машинного обучения хорошо работают с данными, полученными из типов распределений, генерирующих данные, которые нам интересны.

Регуляризация

Теорема о бесплатном обеде подразумевает, что мы должны разрабатывать наши алгоритмы машинного обучения так, чтобы они хорошо справлялись с выбранной задачей. Мы делаем это, встраивая группу предпочтений в алгоритм обучения. Когда эти предпочтения совпадают с задачами обучения, которые мы просим алгоритм распутать, он работает лучше. До сих пор единственным методом модификации алгоритма обучения, который мы обсуждали, является расширение или уменьшение возможностей модели путем добавления или удаления функций из пространства гипотез решений, на которых алгоритм обучения может остановиться. Мы привели конкретный пример ускорения или уменьшения степени полинома для задачи регрессии. Точка зрения, которую мы описали до сих пор, чрезмерно упрощена. На поведение нашего алгоритма сильно влияет не только то, насколько большим мы делаем набор функций, разрешенных в его пространстве гипотез, но и точная идентичность этих функций. Алгоритм обучения, который мы изучали до сих пор, прямолинейная регрессия, имеет пространство гипотез, состоящее из набора линейных функций его входных данных.

Эти линейные функции часто очень полезны для задач, где связь между входами и выходами действительно близка к линейной. они менее полезны для задач, которые ведут себя очень нелинейно. например, прямолинейная регрессия не будет работать нормально, если мы попытаемся использовать ее для предсказания sin(x) по x. таким образом, мы будем контролировать производительность наших алгоритмов, выбирая, из каких тихих функций мы позволяем им извлекать решения, а также контролируя количество этих функций. мы также предоставим алгоритму обучения предпочтение одному решению в его пространстве гипотез другому. это говорит о том, что обе функции подходят, но одна предпочтительнее. Непредпочтительное решение выбирается, если оно значительно лучше соответствует тренировочным данным, чем понравившееся решение. например, мы изменим критерий обучения для прямолинейной регрессии, включив в него уменьшение веса. Чтобы выполнить прямолинейную регрессию с уменьшением веса, мы минимизируем сумму, включающую как среднеквадратичную ошибку обучения, так и критерий J (w), который выражает предпочтение, чтобы веса имели меньшую квадратную норму L. Конкретно,

J( w ) = MSE + λw w,

где λ может быть значением, выбранным до момента времени, который контролирует силу нашего предпочтения меньших весов. Когда λ = 0, мы не навязываем предпочтения, и чем больше λ, тем меньше веса. Минимизация J (w ) приводит к выбору весов, которые обеспечивают компромисс между соответствием обучающим данным и малым размером. это дает нам решения, которые имеют меньший наклон или придают вес меньшему количеству функций. В нашем примере с уменьшением веса мы выразили свое предпочтение линейным функциям, определенным с меньшими весами явно, через дополнительный член в пределах критерия, который мы минимизируем. Существует много других способов выражения предпочтения различных решений, как неявно, так и явно. Вместе эти различные подходы называются регуляризацией.

Регуляризация — одна из центральных проблем сектора машинного обучения, с которой по важности может соперничать только оптимизация. Теорема об отсутствии бесплатных обедов ясно показала, что не существует лучшего алгоритма машинного обучения и, особенно, лучшего вида регуляризации. Вместо этого мы должны выбрать тип регуляризации, который хорошо подходит для реальной задачи, которую мы хотим разгадать. Философия глубокого обучения в целом и этой книги в частности заключается в том, что действительно широкий набор задач (например, все интеллектуальные задачи, которые могут решать люди) может быть эффективно решен с использованием регуляризации очень общего назначения.

Для получения более подробной информации посетите: https://www.technologiesinindustry4.com/2021/05/the-no-free-lunch-theorem.html

Дополнительные материалы на plainenglish.io