Дорожные испытания нового Microsoft Computer Vision API

Вчера на Build 2016 Microsoft анонсировала портфель инструментов машинного обучения, объединяющий технологии, разработанные в рамках команд Project Oxford и Bing, под названием Microsoft Cognitive Services.

Эти сервисы позиционируются как платформа для разработки всего: от Видящего ИИ для поддержки слепых до анализа настроений изображений, размещенных в социальных сетях.

Microsoft предоставляет демонстрационные версии некоторых из 22 API-интерфейсов, входящих в состав этих служб, поэтому сегодня утром я решил опробовать некоторые из пакетов Cognitive Vision со смешанными результатами.

Некоторые из них жесткие, иногда намеренно, а иногда случайно. Тем не менее, Microsoft придает большое значение надежности результатов, и нет никаких сомнений в огромном разнообразии изображений, публикуемых в социальных сетях, поэтому они должны быть довольно хорошими.

1. Анализ изображения

Как это должно работать

Этот API идентифицирует объекты на изображении и присваивает каждому уровень достоверности. Он также определяет, должно ли изображение быть классифицировано как «взрослое» или просто «пикантное» — хотя не разъясняется, что означает «пикантное», хотя это очень специфичное в культурном отношении понятие.

Вот демонстрационный пример:

Тест №1 — Стул и книга

Результаты: неудовлетворительно

Я вижу, как ракурс этой фотографии и необычная форма стула делают это изображение «жестким». Я даже вижу, как пол на заднем плане может выглядеть как стол, так что я дам им презумпцию сомнения в этом.

Но книга вообще не упоминается, вероятно, потому, что предположение о таблице изменяет масштаб всей сцены, делая ее слишком маленькой для книги. Все это просто показывает, насколько хрупким может быть когнитивное зрение (и насколько впечатляющим является человеческое зрение).

Тест №2 — Штриховой рисунок Пикассо

Результат: успешно?

Я действительно не ожидал, что служба сможет распознать это как фламинго, поскольку это довольно абстрактный рисунок, но я не могу игнорировать тот факт, что он не смог распознать это как линейный рисунок. С другой стороны, признание того, что это в помещении, и предположение, что изображение нарисовано на доске, впечатляет. Я отдам ему пропуск.

Мой сосок против женщины в бикини

Я также протестировал сервис, используя фотографию своего соска, которую сайт определил как «пикантную», но не как контент для взрослых. Я не показываю вам это фото, как для вас, так и для меня.

Я позволю вам решить, было ли это правильно или нет. Но имейте в виду (без каламбура), одна из демонстраций точно так же идентифицирует женщину в бикини. Он также идентифицирует ее как «красивую», что кажется еще более проблематичным.

2. Распознавайте знаменитостей

Этот сервис предназначен для идентификации знаменитостей, изображенных на изображениях.

Вот демонстрация с участием генерального директора Microsoft Сатьи Наделлы (мне кажется, что это немного «внутри бейсбола»).

Тест №3 — Игги Поп против Игги Азалии

Для этого теста я подумал, что увижу, есть ли предвзятое отношение к современным знаменитостям. Оказывается есть.

Результат: Ошибка.

Сила этого алгоритма, безусловно, зависит от глубины списка знаменитостей, которые он может распознать. Я не утверждаю, что Игги Азалию сегодня знают не больше, чем Игги Попа (я действительно не знаю ответа на этот вопрос). глотать.

Что еще более важно, эта функция имеет аналогичную проблему с идентификацией «ярких» изображений — то, что представляет собой правильный ответ, похоже, зависит от аудитории. Показательный пример: хотя мой тест может показать, что «знаменитость» зависит от поколения, обе знаменитости из моего примера — американцы европеоидной расы. Все мы интерпретируем «знаменитость» в зависимости от нашего культурного контекста.

Непонятно, как Microsoft собирается относиться к «надежности» в смысле культурной специфики.

3. Читайте текст на изображениях

Этот сервис «обнаруживает текст на изображении и извлекает распознанные слова в машиночитаемый поток символов».

Первая демонстрация выглядит как реклама Nike (что, вероятно, сделано намеренно, чтобы придать сервису актуальность для директоров по маркетингу).

Тест №4 — мем Рона Бургунди

Наиболее распространенное использование текста в изображениях в социальных сетях — это, вероятно, распространение мемов, подобных этому, с использованием персонажа Уилла Феррела Рона Бургунди из Телеведущий.

Результат: Ошибка

Едва ли 70% текста улавливается правильно, несмотря на крупный, относительно четкий шрифт на контрастном фоне.

4. Создайте миниатюру

Эта служба призвана решить печально известную проблему с изображениями в Интернете, которая знакома всем, кто пытался создать адаптивную платформу публикации, доставляющую контент на различные форматы устройств. Традиционно автоматическое кадрирование терпит неудачу, потому что оно обрезает объект, особенно когда объект не центрирован по вертикали и горизонтали.

Microsoft утверждает, что с помощью этого API разработчики могут обеспечить «естественную» обрезку изображений для презентации на экранах с разными пропорциями.

Вот демо:

Тест №5 — Йога на озере

Я помню, как Мэтью Дельпрадо познакомил с этой проблемой сотрудников моего бывшего агентства. Он использовал изображение, очень похожее на приведенное ниже.

Результат: Ошибка

По какой-то причине этот сервис не определяет, что человек слева является субъектом изображения, несмотря на решение аналогичной проблемы в демоверсии. Это становится серьезной проблемой только при тонком кадрировании портрета в левом нижнем углу, но именно здесь требуется интеллектуальное кадрирование. Учитывая, что я рассматриваю это как каноническую постановку задачи, это определенно фейл.

Подведение итогов

Я был очень взволнован анонсом этого сервиса, но его действительно еще не было. Я не знаю, насколько «справедливы» мои тесты. Тем не менее, важно подвергнуть такие вещи несложному тестированию. В конце концов, просто сосредоточившись на примере использования аналитики в социальных сетях, PR-последствия отказа модерировать неприемлемую фотографию могут быть весьма значительными, не говоря уже о более умеренном воздействии неспособности распознать людей, которых ваша целевая аудитория считает знаменитостями.

Но, может быть, в том-то и дело, что не существует обобщенного человеческого интеллекта. Мы часто оказываемся дезориентированными в новых условиях. Зачем вообще нужен искусственный интеллект? Это не означает, что это не очень полезный инструмент, просто это не готовое решение, и, учитывая результаты этого дорожного теста, мы должны быть готовы к необходимости дополнить любой API. как это с обучением или модификацией предметной области.

Джастин Таубер — независимый цифровой консультант, живущий и работающий в Париже, Франция. Если вам нужен совет по управлению продуктом, архитектуре опыта или стратегии платформы, вы можете найти меня на моем веб-сайте http://www.justintauber.com.

Дорожные испытания нового Microsoft Computer Vision API