Простое оптическое распознавание символов в 12 строках кода.

Оптическое распознавание символов - это распознавание набранного, рукописного или напечатанного текста и преобразование его в текст. OCR можно использовать для автоматизации различных задач с участием людей, например, в банковском деле, OCR используется для обработки проверок без участия человека, создания содержимого документов из отсканированных изображений, а также может быть полезно для людей с ослабленным зрением и т. Д.

Для этого OCR мы будем использовать Microsoft Computer Vision API. Мы отправим запрос на публикацию на Python и в ответ получим результат в формате JSON.

Для начала вам потребуется учетная запись Microsoft, после чего вы можете получить бесплатную подписку на API компьютерного зрения на 30 дней. Вы должны получить свой секретный ключ подписки, который похож на этот 98f714r6vb2e193018b28fg1u9b3b0d7e7.

Microsoft OCR API довольно гибок, и мы можем определить множество параметров в зависимости от наших вариантов использования, здесь мы определяем два параметра: язык, который в нашем случае является английским (определяется как unk), и определять, определять ли ориентацию текста или нет, что в нашем случае определяется как истина. Нам также нужен URL-адрес изображения, для которого мы хотим запустить OCR (мы также можем загрузить локальное изображение для OCR), поэтому мы определим URL-адрес изображения.

Ниже приведено изображение по ссылке выше.

Теперь мы импортируем запросы на отправку почтового запроса с упоминанием ocr_url, заголовков, параметров и json.

Выходные данные JSON вышеуказанного скрипта содержат данные о координатах ограничивающего прямоугольника, ориентации и угле текста для каждого слова построчно. Вот результат.

Наслаждаться!

P.S: На всякий случай, если вам нужны пояснения, оставьте комментарий.

Простое оптическое распознавание символов в 12 строках кода.

Похожие вопросы