Публикации по тегам data-science

Публикации по теме 'data-science'

A40: Дерево решений и ансамблевое обучение на основе дерева

Дерево решений, деревья в мешках, случайные леса, дополнительные рандомизированные деревья (ExtraTrees), поиск по сетке, настройка гиперпараметров, начальная загрузка, важность признаков, кривые ROC Эта статья является частью серии книг Наука о данных с нуля — Могу ли я, чтобы я смог . ( Нажмите здесь, чтобы получить копию сегодня !) Нажмите здесь, чтобы просмотреть предыдущую статью/лекцию на тему «A39: Дерево решений и случайные леса — теория » 💐Нажмите здесь, чтобы..

Работа с моделями ANOVA, часть 2 (машинное обучение)

Статистические аспекты SHAP: функциональный дисперсионный анализ для интерпретации модели (arXiv) Автор : Эндрю Херрен , П. Ричард Хан Аннотация: SHAP — это популярный метод измерения важности переменных в моделях машинного обучения. В этой статье мы изучаем алгоритм, используемый для оценки показателей SHAP, и обрисовываем его связь с функциональным разложением ANOVA. Мы используем эту связь, чтобы показать, что проблемы в приближениях SHAP в значительной степени связаны с..

Передовые методы анализа сложных временных рядов

Мы изучим новые алгоритмы, которые могут моделировать временные ряды с множественной сезонностью для прогнозирования и разложения временных рядов на различные компоненты. Вы изучите следующие рецепты: Разложение временных рядов с несколькими сезонными моделями с использованием MSTL Прогнозирование с использованием нескольких сезонных закономерностей с использованием Модели ненаблюдаемых компонентов (UCM) Прогнозирование временных рядов с несколькими сезонными закономерностями с..

Понимание концепции состязательных примеров, часть 4 (машинное обучение)

Негде спрятаться: легкий неконтролируемый детектор против враждебных примеров (arXiv) Автор: Хуэй Лю , Бо Чжао , Кехуан Чжан , Пэн Лю Выдержка . Хотя глубокие нейронные сети (DNN) продемонстрировали впечатляющую производительность во многих задачах восприятия, они уязвимы для враждебных примеров, которые генерируются путем добавления незначительных, но злонамеренно созданных возмущений к безобидным изображениям. Обнаружение состязательности — важный метод выявления..

Принцип Златовласки: поиск идеального соответствия вашей модели машинного обучения

Балансировка сложности модели, чтобы избежать переобучения и недообучения Введение Машинное обучение — это мощный инструмент для прогнозирования и поиска закономерностей в данных. Однако построить точные модели не всегда просто. Одной из основных проблем машинного обучения является поиск правильного баланса между переоснащением и недообучением. Переобучение происходит, когда модель слишком сложна и слишком близко подходит к обучающим данным, что приводит к снижению..

Пакеты R, которые использует Microsoft

Добро пожаловать! R — один из лучших языков программирования для обработки данных, поэтому давайте взглянем на некоторые пакеты R, которые на самом деле использует Microsoft! Процесс поиска этих языков заключался в том, что я заходил на их страницу карьеры, просматривал соответствующие должности и отмечал пакеты, которые они использовали:

Насколько быстро выполняется быстрая загрузка данных в Power Query?

В моей предыдущей статье Анализ 10 миллионов строк в Excel я показал вам, как загрузить в Power Query набор данных, состоящий из 10 миллионов строк. По правде говоря, он может обрабатывать гораздо больше, но я просто хотел развеять миф о том, что миллион строк рабочего листа — это все, на что способен Excel. На этот раз я собираюсь поэкспериментировать, чтобы посмотреть, сколько времени потребуется для загрузки наборов данных разного размера. Я буду также…