Публикации по теме 'data-science'
A40: Дерево решений и ансамблевое обучение на основе дерева
Дерево решений, деревья в мешках, случайные леса, дополнительные рандомизированные деревья (ExtraTrees), поиск по сетке, настройка гиперпараметров, начальная загрузка, важность признаков, кривые ROC
Эта статья является частью серии книг Наука о данных с нуля — Могу ли я, чтобы я смог . ( Нажмите здесь, чтобы получить копию сегодня !)
Нажмите здесь, чтобы просмотреть предыдущую статью/лекцию на тему «A39: Дерево решений и случайные леса — теория »
💐Нажмите здесь, чтобы..
Работа с моделями ANOVA, часть 2 (машинное обучение)
Статистические аспекты SHAP: функциональный дисперсионный анализ для интерпретации модели (arXiv)
Автор : Эндрю Херрен , П. Ричард Хан
Аннотация: SHAP — это популярный метод измерения важности переменных в моделях машинного обучения. В этой статье мы изучаем алгоритм, используемый для оценки показателей SHAP, и обрисовываем его связь с функциональным разложением ANOVA. Мы используем эту связь, чтобы показать, что проблемы в приближениях SHAP в значительной степени связаны с..
Передовые методы анализа сложных временных рядов
Мы изучим новые алгоритмы, которые могут моделировать временные ряды с множественной сезонностью для прогнозирования и разложения временных рядов на различные компоненты.
Вы изучите следующие рецепты:
Разложение временных рядов с несколькими сезонными моделями с использованием MSTL Прогнозирование с использованием нескольких сезонных закономерностей с использованием Модели ненаблюдаемых компонентов (UCM) Прогнозирование временных рядов с несколькими сезонными закономерностями с..
Понимание концепции состязательных примеров, часть 4 (машинное обучение)
Негде спрятаться: легкий неконтролируемый детектор против враждебных примеров (arXiv)
Автор: Хуэй Лю , Бо Чжао , Кехуан Чжан , Пэн Лю
Выдержка . Хотя глубокие нейронные сети (DNN) продемонстрировали впечатляющую производительность во многих задачах восприятия, они уязвимы для враждебных примеров, которые генерируются путем добавления незначительных, но злонамеренно созданных возмущений к безобидным изображениям. Обнаружение состязательности — важный метод выявления..
Принцип Златовласки: поиск идеального соответствия вашей модели машинного обучения
Балансировка сложности модели, чтобы избежать переобучения и недообучения
Введение
Машинное обучение — это мощный инструмент для прогнозирования и поиска закономерностей в данных. Однако построить точные модели не всегда просто. Одной из основных проблем машинного обучения является поиск правильного баланса между переоснащением и недообучением.
Переобучение происходит, когда модель слишком сложна и слишком близко подходит к обучающим данным, что приводит к снижению..
Пакеты R, которые использует Microsoft
Добро пожаловать! R — один из лучших языков программирования для обработки данных, поэтому давайте взглянем на некоторые пакеты R, которые на самом деле использует Microsoft! Процесс поиска этих языков заключался в том, что я заходил на их страницу карьеры, просматривал соответствующие должности и отмечал пакеты, которые они использовали:
Насколько быстро выполняется быстрая загрузка данных в Power Query?
В моей предыдущей статье Анализ 10 миллионов строк в Excel я показал вам, как загрузить в Power Query набор данных, состоящий из 10 миллионов строк. По правде говоря, он может обрабатывать гораздо больше, но я просто хотел развеять миф о том, что миллион строк рабочего листа — это все, на что способен Excel.
На этот раз я собираюсь поэкспериментировать, чтобы посмотреть, сколько времени потребуется для загрузки наборов данных разного размера. Я буду также…