Как подготовить тестовые данные для textsum?

Мне удалось успешно запустить предварительно обученную модель TextSum (Tensorflow 1.2.1 ). Выходные данные состоят из сводок статей CNN и Dailymail (которые перед тестированием объединяются в формат bin).

Я также смог создать вышеупомянутые тестовые данные формата bin для статей CNN/Dailymail и файла vocab (согласно инструкциям здесь). Однако я не могу создать свои собственные тестовые данные, чтобы проверить, насколько хороша сводка. Я попытался изменить код make_datafiles.py, чтобы удалить закодированные значения. Я могу создавать токенизированные файлы, но следующий шаг, похоже, не работает. Было бы здорово, если бы кто-нибудь помог мне понять, для чего используется url_lists. Согласно github readme -

«Для каждого из списков URL-адресов all_train.txt, all_val.txt и all_test.txt соответствующие токенизированные истории считываются из файла, преобразуются в нижний регистр и записываются в сериализованные двоичные файлы train.bin, val.bin и test.bin. Они будут помещены в только что созданный каталог ready_files."

Как URL-адрес, такой как http://web.archive.org/web/20150401100102id_/http://www.cnn.com/2015/04/01/europe/france-germanwings-plane-crash-main/ сопоставляется с соответствующей историей в моей папке данных? Если кто-то добился успеха с этим, пожалуйста, дайте мне знать, как это сделать. Заранее спасибо!


person KRW4    schedule 02.05.2018    source источник


Ответы (1)


Обновление: мне удалось выяснить, как использовать собственные данные для создания bin-файлов для тестирования (и вообще избегать использования url_lists).

Это будет полезно — https://github.com/dondon2475848/make_datafiles_for_pgn

Обновлю ответ, как только я выясню, как исправить оценку ROGUE для этого.

person KRW4    schedule 03.05.2018