Распознавание речи достигает человеческого уровня

Перефразируя Кевина Келли (снова), предсказание будущего в основном связано с пониманием настоящего. Еще в мае на конференции Speechtek я говорил о том, что в течение следующего года распознавание речи достигнет человеческого уровня. Судя по всему, так и сегодня. Два дня назад Microsoft объявила о своих последних результатах с Cortana — процент ошибок 5,9%. Это соответствует частоте ошибок транскрипции человека.

Значение этого велико — не потому, что это выводит из строя ручную транскрипцию (она не будет — пока нет), а потому, что это означает, что это еще один праздник машин, посягающих на когнитивные способности человека. API-интерфейсы Vision теперь могут сканировать фотографии на наличие логотипов Coca-Cola или кошачьих мордочек намного быстрее, чем мы.

Для того, чтобы больше не имело смысла прибегать к какой-либо корректуре человеком, уровень ошибок, возможно, должен достичь 1%. Там же сообщается, что за прошлый месяц показатель составил 6,3%. Поскольку производительность ASR / частоты ошибок становится экспоненциально сложнее * и * поскольку технология также растет экспоненциально, мы можем предположить линейное снижение ошибок с той же скоростью — 0,4% в месяц. Может быть, пройдет год, прежде чем мы дойдем до 1%? Может два года? Давайте будем консервативны и скажем, пять лет. В этот момент эквивалентная сегодняшняя производительность будет распространена на другие языки, как и улучшения в моделировании голоса в дальнем поле. В этот момент мы смотрим на конец стенографии.

Распознавание речи достигает человеческого уровня

Похожие вопросы