Публикации по теме 'data-science'


Как работает гиперграфическое разбиение Часть 2 (интеллектуальный анализ данных)
1. Эволюционное разбиение гиперграфа n-го уровня с адаптивным огрублением ( arXiv ) Автор: Ричард Дж. Прин , Джим Смит Аннотация . Разбиение гиперграфа — это NP-сложная задача, возникающая во многих приложениях информатики, где необходимо сводить большие задачи к ряду более мелких, поддающихся вычислительному решению подзадач. Современные методы используют многоуровневый подход, при котором начальное разбиение выполняется после сжатия гиперграфа до заданного уровня. Этот..

Сокровища трансформеров, которые должен знать каждый специалист по данным в 2022 году
Awesome Treasure of Transformers Models для обработки естественного языка содержит статьи, видео, блоги, официальный репозиторий, а также блокноты colab. кредиты: Ашиш Патель Ссылка на репозиторий: https://github.com/ashishpatel26/Treasure-of-Transformers

Варианты использования машинного обучения в маркетинге, СМИ и издательском деле
Мы понимаем, что отделы маркетинга никогда не испытывают недостатка в информации. Объем данных, к которым имеют доступ маркетологи, может быть ошеломляющим, и они часто изо всех сил пытаются понять все это и эффективно использовать. В этом исследовании используется машинное обучение. Основное преимущество включения машинного обучения в ваш маркетинговый стек заключается в том, что оно значительно быстрее и эффективнее, чем люди, в понимании огромных объемов данных. Этот метод..

IPL Win Prediction ML Project - классификационное решение проблемы регрессии
Я знаю, что название этого блога звучит немного абсурдно, но на самом деле это так. Сегодня я буду делать проект End to End ML, в котором мы будем прогнозировать вероятность победы в процентах для обеих команд, играющих. Сначала это кажется проблемой регрессии, но на самом деле мы будем использовать для этого модели классификации, поскольку у нас есть определенные модели классификации ML, которые также сообщают вам вероятность предсказанного результата. Весь код, написанный в этом..

Выбор правильной базы данных — Жанры
Несмотря на то, что с учетом бума добычи это менее важно с точки зрения контекста, представьте данные как новую сырую нефть. В этом контексте базы данных (БД) — это перерабатывающие заводы, буровые установки и насосы. Вы, свежий и энергичный нефтяной магнат, которым вы и являетесь, хотите использовать только самое экономичное и ресурсоэффективное оборудование для оптимального управления. При выборе базы данных для хранения и уточнения данных не спрашивайте себя « Могу ли я..

Заполнение пробелов случайным лесом
Одной из основных проблем с различными наборами данных является отсутствие данных. Данные, которые имеют только некоторую аннотацию, указывающую на их существование, но отсутствуют. Например, в случае данных временных рядов отсутствующие данные будут пропущенными значениями в середине ряда. Значения, скорее всего, можно вывести, просто взглянув на график, однако приближение этих значений позволит создать новый и более краткий набор данных.

Обучение и оценка моделей кластеризации (1/2)
Кластеризация — это процесс группировки объектов со схожими объектами. Что такое кластеризация? Кластеризация – это форма неконтролируемого машинного обучения, при которой наблюдения группируются в кластеры на основе сходства их функций . Этот вид машинного обучения считается неконтролируемым, поскольку он не использует ранее известные значения label для обучения модели. В модели кластеризации метка — это кластер, которому назначается наблюдение исключительно на основе его..