Есть ли ограничение на количество страниц для прогнозирования с использованием GCP AutoML для извлечения пользовательских сущностей?

Я пытаюсь изучить извлечение настраиваемых объектов с помощью GCP AutoML, у меня есть 10-страничные документы, используемые для обучения модели, где мои объекты обучаются, это также были страницы 7 и 8.

Во время тестирования из пользовательского интерфейса GCP AutoML я использовал только один из обученных документов, он не может извлекать объекты за пределами первых 5 страниц. - Разрешено ли это ограничение на количество страниц по умолчанию на данный момент? - Или это настраивается, что можно изменить, если да, как это сделать - Или мы можем запросить поддержку GCP для учета полной длины документа?

Любые указатели приветствуются.


person Sheetal Lomate    schedule 28.02.2020    source источник


Ответы (1)


ограничения на извлечение сущностей не позволяют использовать документы, длина которых превышает 10000 символов. , и, насколько мне известно, это нельзя изменить. Функция извлечения сущностей API обработки естественного языка предназначена для анализа сущностей в коротких документах, поэтому, если вам нужно работать с более длинными документами, я бы посоветовал вам разделить их небольшими партиями.

Надеюсь, это поможет.

person Alejandro    schedule 28.02.2020
comment
Спасибо, но документ, который я пробовал до 5 страниц, содержит ~ 18 тыс. Символов, он ограничен в зависимости от количества страниц документа, который я видел. Не удалось найти ничего, упомянутого в квотах об ограничении Cloud AutoML API на основе страница документа в формате pdf. - person Sheetal Lomate; 28.02.2020
comment
Тиражируется ли это и с другими документами? - person Alejandro; 04.03.2020