Часть 1. «Понимание геометрии LDA (скрытого распределения Дирихле)»
Вы задавались вопросом, как лучше всего машинное обучение может помочь разобраться в данных ESG?
Данные ESG представляют собой множество неструктурированного текста со значительно разнообразными темами из разных источников без какой-либо стандартизации. Первым шагом будет начать распутывать паутину данных, чтобы можно было провести дальнейший анализ производительности ESG.
В этой серии мы попытаемся изучить один из таких алгоритмов тематического моделирования НЛП (LDA), который может помочь разобраться в ваших данных ESG.
Чтобы сделать вещи интересными и уникальными, давайте изучим и изучим алгоритм глазами геометрии.
Что такое тематическое моделирование в обработке естественного языка?
Тематические модели — это статистические инструменты НЛП для обнаружения скрытой семантической структуры в наборе документов.
Тематическое моделирование анализирует документы/эссе для изучения значимых моделей слов. Он выполняет неконтролируемую классификацию различных документов. В основе лежит статистический метод определения распределения вероятностей, применяемый к набору слов.
Допустим, у нас есть большой массив документов или набор текстов, связанных с устойчивым развитием, от нескольких организаций, и мы хотим классифицировать их по отраслям — банковское дело, цемент, ИТ-услуги, производитель транспортных средств и т. д. Основываясь на шаблонах встраивания слов, алгоритм моделирования темы может выполнить эту категоризацию за считанные секунды.
Геометрия:
Геометрия через свойства и отношения точек, линий, поверхностей, твердых тел и многомерных аналогов может помочь нам понять распределения вероятностей наглядным и простым способом. Действительно увлекательно!
Эта статья представляет собой попытку объяснить простым языком, что такое геометрическое распределение вероятностей и как геометрия прекрасно интегрируется в один из ключевых вариантов использования обработки естественного языка — тематическое моделирование.
Затем мы подробно рассмотрим популярный алгоритм тематического моделирования LDA(скрытое распределение Дирихле) и то, как его можно использовать в случаях использования ESG.
Пошаговое распутывание хаоса данных
Некоторые основные понятия геометрической вероятности:
Хороший алгоритм моделирования темы сможет определить группировку слов по конкретным темам с большей вероятностью.
Вероятность.На изображении ниже показана вероятность выбора синего или красного шара из мешка.
Эта концепция должна быть применена к набору слов (один грамм, два грамма, …., n-грамм) в корпусе текста (например, отчеты об устойчивом развитии / веб-статьи), чтобы предсказать тему.
Геометрическая вероятность — это инструмент для решения проблемы бесконечных результатов путем геометрического измерения количества результатов с точки зрения длины, площади или объема.
Одномерная геометрическая вероятность:
Например. Вероятность исхода ближе к 0, чем к 1 на одномерной прямой.
Двумерная геометрическая вероятность:
Во многих случаях использования вероятности, таких как тематическое моделирование с использованием набора слов, задействовано более одной переменной. В двух измерениях мы будем измерять вероятность, используя площадь.
Например. Вероятность того, что дротик приземлится ближе к центру, чем к краю -
Расширив это на Tтри измерения, вероятность будет измеряться с помощью объема.
Сейчас мы входим в мир исчисления, но чтобы не бояться, давайте наберёмся храбрости и продолжим погружаться ещё в пару тем -
Распределение Дирихле
LDA использует распределение Дирихле, в основе которого лежит бета-распределение. Распределение Дирихле — это многомерное распределение вероятностей.
(Бета-распределение. Бета-распределение — это вероятностное распределение вероятности. Оно обычно используется для моделирования непрерывных переменных, которые находятся в пределах от 0 до 1.)
Распределение Дирихле — это многомерное распределение вероятностей, описывающее k≥2 переменных X1,…,Xk, такое что каждое xi∈(0,1) и ∑Ni=1xi=1, параметризованное вектором положительнозначных параметров α =(α1,…,αk).
Формула:
θ — полиномиальная категория, а α — вектор или параметры β,
Применяя концепцию 2-мерной вероятности, основанной на площади, сгенерированной распределением Дирихле, можно угадать вероятность (вероятность) документа, принадлежащего каждой теме.
например Трехмерное распределение Дирихле -
(тема 1: Зеленая энергия, тема 2: Цепочка поставок, тема 3: Здоровье и безопасность)
При выполнении LDA на наших данных нам не обязательно знать математику, стоящую за этим. Однако понимание механизма алгоритма в значительной степени способствует лучшей настройке параметров, чтобы избежать неожиданного и нежелательного поведения и получить точные результаты.
В Части 2 мы рассмотрим применение LDA к данным ESG с фрагментами кода. Следите за обновлениями !
Спасибо за чтение.
Ссылки:
Академия Серрано — https://www.youtube.com/watch?v=T05t-SqKArY
Геометрическая вероятность | Brilliant Math & Science Wiki — блестящий.org
Компьютерщики для компьютерщиков — www.geeksforgeeks.org
Теорема Байеса — https://www.youtube.com/watch?v=HZGCoVF3YvM
Тематическое моделирование и скрытое распределение Дирихле (LDA) — datascienceplus.com