Часть 1. «Понимание геометрии LDA (скрытого распределения Дирихле)»

Вы задавались вопросом, как лучше всего машинное обучение может помочь разобраться в данных ESG?

Данные ESG представляют собой множество неструктурированного текста со значительно разнообразными темами из разных источников без какой-либо стандартизации. Первым шагом будет начать распутывать паутину данных, чтобы можно было провести дальнейший анализ производительности ESG.

В этой серии мы попытаемся изучить один из таких алгоритмов тематического моделирования НЛП (LDA), который может помочь разобраться в ваших данных ESG.

Чтобы сделать вещи интересными и уникальными, давайте изучим и изучим алгоритм глазами геометрии.

Что такое тематическое моделирование в обработке естественного языка?

Тематические модели — это статистические инструменты НЛП для обнаружения скрытой семантической структуры в наборе документов.

Тематическое моделирование анализирует документы/эссе для изучения значимых моделей слов. Он выполняет неконтролируемую классификацию различных документов. В основе лежит статистический метод определения распределения вероятностей, применяемый к набору слов.

Допустим, у нас есть большой массив документов или набор текстов, связанных с устойчивым развитием, от нескольких организаций, и мы хотим классифицировать их по отраслям — банковское дело, цемент, ИТ-услуги, производитель транспортных средств и т. д. Основываясь на шаблонах встраивания слов, алгоритм моделирования темы может выполнить эту категоризацию за считанные секунды.

Геометрия:

Геометрия через свойства и отношения точек, линий, поверхностей, твердых тел и многомерных аналогов может помочь нам понять распределения вероятностей наглядным и простым способом. Действительно увлекательно!

Эта статья представляет собой попытку объяснить простым языком, что такое геометрическое распределение вероятностей и как геометрия прекрасно интегрируется в один из ключевых вариантов использования обработки естественного языка — тематическое моделирование.

Затем мы подробно рассмотрим популярный алгоритм тематического моделирования LDA(скрытое распределение Дирихле) и то, как его можно использовать в случаях использования ESG.

Пошаговое распутывание хаоса данных

Некоторые основные понятия геометрической вероятности:

Хороший алгоритм моделирования темы сможет определить группировку слов по конкретным темам с большей вероятностью.

Вероятность.На изображении ниже показана вероятность выбора синего или красного шара из мешка.

Эта концепция должна быть применена к набору слов (один грамм, два грамма, …., n-грамм) в корпусе текста (например, отчеты об устойчивом развитии / веб-статьи), чтобы предсказать тему.

Геометрическая вероятность — это инструмент для решения проблемы бесконечных результатов путем геометрического измерения количества результатов с точки зрения длины, площади или объема.

Одномерная геометрическая вероятность:

Например. Вероятность исхода ближе к 0, чем к 1 на одномерной прямой.

Двумерная геометрическая вероятность:

Во многих случаях использования вероятности, таких как тематическое моделирование с использованием набора слов, задействовано более одной переменной. В двух измерениях мы будем измерять вероятность, используя площадь.

Например. Вероятность того, что дротик приземлится ближе к центру, чем к краю -

Расширив это на Tтри измерения, вероятность будет измеряться с помощью объема.

Сейчас мы входим в мир исчисления, но чтобы не бояться, давайте наберёмся храбрости и продолжим погружаться ещё в пару тем -

Распределение Дирихле

LDA использует распределение Дирихле, в основе которого лежит бета-распределение. Распределение Дирихле — это многомерное распределение вероятностей.

(Бета-распределение. Бета-распределение — это вероятностное распределение вероятности. Оно обычно используется для моделирования непрерывных переменных, которые находятся в пределах от 0 до 1.)

Распределение Дирихле — это многомерное распределение вероятностей, описывающее k≥2 переменных X1,…,Xk, такое что каждое xi∈(0,1) и ∑Ni=1xi=1, параметризованное вектором положительнозначных параметров α =(α1,…,αk).

Формула:

θ — полиномиальная категория, а α — вектор или параметры β,

Применяя концепцию 2-мерной вероятности, основанной на площади, сгенерированной распределением Дирихле, можно угадать вероятность (вероятность) документа, принадлежащего каждой теме.

например Трехмерное распределение Дирихле -

(тема 1: Зеленая энергия, тема 2: Цепочка поставок, тема 3: Здоровье и безопасность)

При выполнении LDA на наших данных нам не обязательно знать математику, стоящую за этим. Однако понимание механизма алгоритма в значительной степени способствует лучшей настройке параметров, чтобы избежать неожиданного и нежелательного поведения и получить точные результаты.

В Части 2 мы рассмотрим применение LDA к данным ESG с фрагментами кода. Следите за обновлениями !

Спасибо за чтение.

Ссылки:
Академия Серрано — https://www.youtube.com/watch?v=T05t-SqKArY
Геометрическая вероятность | Brilliant Math & Science Wiki — блестящий.org
Компьютерщики для компьютерщиков — www.geeksforgeeks.org
Теорема Байеса — https://www.youtube.com/watch?v=HZGCoVF3YvM
Тематическое моделирование и скрытое распределение Дирихле (LDA) — datascienceplus.com