Изучение баллов BLEU с использованием патентных данных

Вступление

Ваша машина учит китайский язык? Я не говорю на мандаринском или кантонском диалекте, поэтому Google Translate получает все заслуги - хорошие или плохие - за перевод предыдущего предложения на 您 的 機器 學習 中文 嗎? Но как исследователю быстро оценить качество машинного перевода? Этот вопрос включает в себя основную проблему, которая порождает метрику BLEU. BLEU, что означает двуязычный языковый дублер, является стандартной мерой качества машинного перевода, а также иногда применяется к задачам межъязыковой обработки естественного языка (НЛП). Метрика хорошо известна в сфере машинного перевода, но некоторые аналитики сомневаются в применимости алгоритма к более широкому кругу задач, выходящих за рамки первоначальных целей меры. В этой статье делается первоначальное погружение в уроки, реализации и ограничения BLEU с использованием примеров, взятых из многоязычных патентных документов.

Основы BLEU

Исследователи из IBM разработали алгоритм BLEU в 2002 году как эффективный метод оценки качества машинного перевода по сравнению с эталонными переводами, выполняемыми человеком. Оригинальный документ разработчиков, Папинени и его коллег - хорошее место для начала, если вас интересуют основополагающий контекст и цели алгоритма. BLEU - это скорректированная мера точности совпадения последовательностей слов между кандидатским машинным переводом и одним или несколькими справочными переводами, сделанными человеком. BLEU считает n-граммы, термин для последовательностей слов длиной n, в машинном переводе, которые соответствуют n-граммам в человеческом переводе, деленное на общее количество n-граммов в машинный перевод. Эта мера регулируется тем, что она ограничивает количество совпадений до максимального количества вхождений n-граммов в человеческом переводе, а также наказывает машинные переводы, которые отличаются по длине слова от эталонного перевода.

Результирующий балл BLEU представляет собой число от 0 до 1, где 0 представляет собой ноль н-граммовых совпадений между кандидатским и справочным текстами, а 1 может соответствовать машинному переводу, который в точности аналогичен одному из справочников. На практике мера подсчитывает совпадения по последовательности нескольких слов - 4-граммы (последовательности из четырех слов), триграммы (последовательности из трех слов), биграммы (последовательности из двух слов) и юниграммы (последовательности из одного слова). последовательности слов) - через среднее геометрическое соответствующих вычислений n-грамм. Алгоритм был разработан для сравнений на уровне корпуса предложений с n-граммовыми совпадениями, рассчитанными в базовой единице предложения и затем объединенными в оценку на уровне корпуса. Чтобы прояснить терминологию, использование термина документ в настоящей статье относится к корпусу предложений. Если вам нужны дополнительные ресурсы для понимания алгоритма, вы можете посмотреть видеоурок на deeplearning.ai, в котором обсуждаются детали алгоритма, или письменный учебник на machinelearningmaster.com, в котором исследуется реализация NLTK. Чтобы изучить реальные варианты использования метрики, я затем применяю BLEU, используя переводы патентов на китайский язык.

Применение BLEU к патентным текстам

Получить переводы

Согласно недавнему отчету WIPO (Всемирной организации интеллектуальной собственности), глобальной организации, которая регулирует патенты, растущая доля патентов в сфере машинного обучения создается и регистрируется на китайском языке. Чтобы изучить основы BLEU в этом многоязычном пространстве, вы можете сначала начать с внутреннего китайского патента на нововведение в области НЛП, которое компания электронной коммерции Alibaba распространила на глобальный охват. Название патента на китайском языке отображается ниже. Для получения дополнительных сведений, связанных с примером патента, см.

original_title_cn = "机器处理及文本纠错方法和装置、计算设备以及存储介质"

Инструмент запроса данных ВОИС предоставляет версии на английском и китайском языках, которые вы можете просматривать в своем браузере.

Специалисты-люди часто делают переводы эквивалентного качества, которые, тем не менее, различаются выбором слов и структурой. Поэтому BLEU принимает один или несколько переводов, сделанных человеком, в качестве справочных материалов для сравнения. Для более непосредственного изучения производства справочных переводов я получил два перевода патента на китайский язык с китайского на английский от двух разных переводчиков через Gengo, веб-платформу для переводчиков-людей. Затем вы можете найти кандидатский машинный перевод из двух

reference_human1_summary = "The invention discloses a machine processing and text error correction method and device, a computing device, and a storage medium, specifically comprising corrected and rewritten text pairs of incorrect text and corresponding correct text. The corrected and rewritten text pairs serving as a training corpus to train the machine processing model, thereby preparing a machine processing model suitable for text error correction. Through extraction of corrected and rewritten text pairs from a log, the machine processing model can be trained and thus made fit for text correction by inputting the first text into the machine processing model to get the second text, that is the error correction result text. In addition, the language model or the common lexicon can be used to determine whether the first text needs to be corrected. The training corpus extracted from a log can be used to train the language model, or the common lexicon can be sorted by segmenting and counting text in the log. This is how to easily implement text error correction."
reference_human2_summary = "This invention makes public a machine processing and text error correction method and hardware, computing equipment and storage medium, and specifically pairs error text with the corresponding corrected and modified correct text. It uses this text pair as training material for the machine processing model, and from there prepares the machine processing model that is applied to the text correction. It can train the machine processing model using a diary or daily journal and make it suitable for text correction. The first text version is inputted into the machine processing model to get the second text version, which is the corrected text. Additionally, it can also use a stored language model or common vocabulary bank to determine if the first text version needs correction. It can use the practice language material gathered from the diary or daily journal to train the language model, and it can also initialize the common vocabulary bank through the segmentation and analysis of the diary or daily journal text. Through all this, text correction is conveniently implemented."

отдельные алгоритмы машинного обучения, Google Translate и Всемирная организация интеллектуальной собственности (WIPO), которые показаны ниже.

candidate_google_summary = "The invention discloses a machine processing and text error correction method and device, a computing device and a storage medium, and particularly comprises an error correction rewriting pair of an error text and a corresponding correct text, and an error correction rewriting pair as a training corpus, and a machine processing model. Training is performed, thereby preparing a machine processing model suitable for text correction. The machine processing model can be trained to mine the error correction by mining the error correction rewrite pair from the log. The first text is input into the machine processing model to obtain a second text, that is, an error correction result text. In addition, you can use the language model or common lexicon to determine whether the first text needs to be corrected. The language model can be trained using the training corpus extracted from the log, or the common lexicon can be organized by segmenting and counting the text in the log. Thereby, text correction is facilitated."
candidate_wipo_summary = "The present invention discloses a machine processing and text correction method and device, computing equipment and a storage medium. Specifically comprising corrected and rewritten text pairs of incorrect text and corresponding correct text, the corrected and rewritten text pairs serving as a training corpus for training a machine processing model, and in this way developing a machine processing model for use in text correction. Through extraction of corrected and rewritten text pairs from a log, the machine processing model can be trained and thus made fit for text correction by inputting a first text into the machine processing model to obtain a second text i.e. a corrected text result. Moreover, a language model or a lexicon of commonly used words can be used to assess whether text needs correction. The training corpus extracted from the log can be used to train the language model and also, through text segmentation and statistical analysis of text in the log compile a lexicon of commonly used words. Thus, text correction can be made easier and more convenient."

Рассчитать баллы BLEU

Существует множество реализаций и расширений BLEU, в том числе популярный пакет sacreBLEU. Настоящий пример начинается с подсчета баллов с использованием модуля bleu_score в наборе средств естественного языка (NLTK), который основан на оригинальной реализации Papineni et al. Функция corpus_bleu принимает переводы ссылок и кандидатов, представленные в виде отдельных токенов слов, которые вы можете создать с помощью стандартных шагов предварительной обработки NLP. Для документа с несколькими предложениями исходная реализация BLEU вычисляет n-граммовые совпадения предложение за предложением, затем суммирует отсеченные n-граммы для всех предложений-кандидатов и, наконец, делит на количество n-граммов кандидатов в документе. . Как указано в документации NLTK: метрика BLEU вычисляет микросреднюю точность (т. Е. Суммирует числители и знаменатели для каждой пары гипотеза-справка перед делением). По умолчанию corpus_bleu вычисляет среднее геометрическое для равновзвешенных оценок в n граммах, состоящих из 4 граммов, триграмм, биграмм и униграмм.

Каковы результаты расчетов баллов BLEU для двух примеров машинного перевода? Результаты показывают, что переводы Google и WIPO имеют одинаковое качество по сравнению со справочными переводами, выполненными людьми-переводчиками на Gengo. Оценка первого перевода кандидата с помощью Google Translate составляет 0,53, а оценка ВОИС - 0,54, как показано ниже.

# calculate BLEU score of Google translation
bleu_google = round(corpus_bleu(refs_list_6, can_google_summary[:]),         
                    2)
# calculate BLEU score of WIPO translation
bleu_wipo = round(corpus_bleu(refs_list_5, can_wipo_summary[:]), 2)
print(f"Google Translate BLEU score: {bleu_google}")
print(f"WIPO BLEU score: {bleu_wipo}")

Имея в виду этот ощутимый пример применения BLEU, полезно определить потенциальную область применения алгоритма для задач машинного перевода и обработки естественного языка.

Пределы BLEU

Среди исследователей существует общее мнение, что BLEU целесообразен для оценки систем машинного перевода. Однако некоторые исследователи предупреждают, что BLEU может не подходить для определенных аспектов машинного перевода или более широких задач НЛП. Основная критика заключается в том, что оценки BLEU не обязательно могут хорошо коррелировать со значительными различиями в качестве переводов, выполняемых людьми. Как утверждают Каллисон-Берч и его коллеги в широко цитируемой статье: Есть случаи, когда улучшения BLEU недостаточно, чтобы отразить реальное улучшение качества перевода, а в других обстоятельствах нет необходимости улучшать BLEU, чтобы добиться заметного улучшения качества перевода . Эти авторы также предполагают, что BLEU может не подходить для сравнения систем машинного перевода, в которых используются разные методы, выявления аспектов перевода, которые не моделируются BLEU, или оценки нечастых улучшений в корпусе тестов.

Исследователи, проводящие обзор литературы по BLEU, в недавней статье утверждают, что корреляции между BLEU и человеком могут варьироваться в зависимости от деталей оцениваемых систем, конкретных используемых текстов корпуса и точного протокола, используемого для оценки на людях. Авторы, Рейтер и его коллеги, предполагают, что BLEU следует оценивать с помощью реальных человеческих оценок, таких как A / B-тесты, чтобы определить контексты, в которых BLEU надежно коррелирует с реальной эффективностью. Основываясь на результатах обзора литературы, эти авторы предупреждают, что исследователи должны подходить к BLEU как к диагностике машинного перевода на системном уровне, а не как к методу оценки для измерения производительности системы. Поскольку в литературе предлагается общее признание как полезности, так и недостатков этого показателя, некоторые исследователи, такие как автор недавней статьи, сосредотачиваются на повышении ясности в представлении оценок BLEU. Это может включать, например, включение исследователями схем предварительной обработки и других стандартизированных соглашений для отчетности о реализации и деталях оценки BLEU. Тезисы, поднятые в этих документах, требуют осторожности при применении и интерпретации оценок BLEU в патентном пространстве и в различных сценариях использования.

Заключение

В этой статье изложены цели, примеры и пределы оценок BLEU. Чтобы запустить полный код Python, который сопровождает эту статью, в записной книжке Jupyter, вы можете перейти в репозиторий Github для многоязычного машинного обучения. Чтобы узнать больше о моем интересе к этому пространству, посетите мой сайт lee-mackey.com. Поскольку патентные документы в области машинного обучения продолжают становиться все более многоязычными, особенно в случае патентов на китайском языке, мы надеемся, что вопросы, поднятые в этой статье, помогут вам выявить и контекстуализировать соображения при применении этого алгоритма в ваших конкретных случаях использования. Если вы работаете на разных языках в своих рабочих процессах НЛП, понимание этих деталей BLEU поможет выбрать, когда и как использовать эту метрику в ваших проектах.