Исследователи Microsoft в США и Азии потрясли сегодня сообщество ИИ своей статьей Достижение человеческого паритета при автоматическом переводе новостей с китайского на английский, в которой представлена ​​система нейронного машинного перевода, которая, по их словам, равна производительности специалисты по переводу с китайского на английский.

Хотя искусственный интеллект превзошел людей в таких задачах, как точность изображения и распознавание речи, многие эксперты сомневались, что машины могут делать это с языковым переводом. «Обеспечение человеческого паритета в задаче машинного перевода - это мечта, которая была у всех нас», - сказал Сюэдун Хуанг, технический специалист, отвечающий за работу с речью, естественным языком и машинным переводом Microsoft. «Мы просто не понимали, что сможем ударить его так скоро».

Система Microsoft была протестирована на эталонном наборе данных новостей newstest2017, который был разработан группой отраслевых и академических партнеров и опубликован на исследовательской конференции WMT17 прошлой осенью. Чтобы точно измерить качество перевода, исследователи Microsoft наняли двуязычных людей-оценщиков, чтобы сравнить результаты Microsoft с двумя независимо выполненными переводами справочных материалов, сделанными людьми, вместо того, чтобы ссылаться на традиционные показатели, такие как BLEU и TER.

«Одно и то же исходное предложение может быть переведено иногда существенно разными, но одинаково правильными способами. Это делает референтную оценку практически бесполезной при определении качества переводов, выполненных человеком, или машинных переводов, близких к человеческому », - говорится в документе.

Согласно исследованию, новая система машинного перевода Microsoft набрала 69,0 балла, что неотличимо от человеческого перевода, набравшего 68,6 балла.

Хуанг сказал Synced, что машинный перевод является ключом к овладению пониманием естественного языка (NLU), что, по мнению исследователей, будет способствовать развитию общего искусственного интеллекта (AGI) - долгосрочной цели современной технологии искусственного интеллекта на уровне человеческого интеллекта.

«У NLU нет больших наборов данных. Однако машинный перевод есть. Мы используем глубокую нейронную сеть для изучения семантических представлений, которые могут быть применены к NLU. По мере того, как мы изучаем выражение языка, у нас может быть шанс решить NLU и улучшить Cognitive Services (набор алгоритмов машинного обучения Microsoft) », - говорит Хуанг.

Исследователи Microsoft сосредоточили свое внимание на паре китайского (мандаринского) и английского языков, поскольку это два наиболее часто используемых языка в мире, и взяли образцы текстов из новостной области, поскольку новостные статьи имеют большое разнообразие содержания. Исследователи Microsoft предупреждают, что их результаты не обязательно будут распространяться на другие языковые пары или домены, даже если используемые методы не были специфичными для языков или доменов.

Хуанг объясняет этот прорыв тремя факторами: увеличенные вычислительные возможности, обеспечиваемые графическими процессорами Nvidia; улучшенные алгоритмы и особенно глубокая нейронная сеть; и оптимизированный набор данных, использующий инженерные методы для удаления некачественных данных или шума.

Чтобы повысить точность и беглость модели, исследователи использовали дополнительные методы обучения, например, метод двойного обучения, который учитывает данные перевода как от источника к цели, так и от цели к источнику, беря предложение, переведенное с китайского на английский, и переводя его обратно на Китайский, затем сравнивая результат с исходным предложением.

Другой используемый метод - это сети обсуждения, которые обучают модель многократно переводить один и тот же текст. Подобно тому, как человек может написать несколько черновиков, глубокая нейронная сеть постепенно улучшает и уточняет свои результаты.

Эта новая система еще не применялась в коммерческих продуктах Microsoft для перевода, таких как Microsoft Translator, PowerPoint Presentation Translator или Cognitive Services, но Хуванг говорит, что его команда работает над этим.

Исследователи по-прежнему сталкиваются с множеством проблем при машинном переводе, особенно с переводом в реальном времени и преобразованием речи в речь. Благодаря достижению Microsoft компания стала одним из мировых лидеров в этой активной исследовательской области.

Журналист: Тони Пэн | Редактор: Майкл Саразен

Уважаемый читатель Synced, предстоящий запуск Еженедельного бюллетеня Synced по AI поможет вам быть в курсе последних тенденций в области ИИ. Каждую неделю мы публикуем обзор главных новостей и историй об ИИ и делимся с вами предстоящими событиями в области ИИ по всему миру.

Подпишитесь здесь, чтобы получать подробные технические новости, обзоры и аналитику!