Парсинг табличных данных SEC

Мое требование - анализировать табличные данные SEC. Пожалуйста, найдите образец табличных данных на изображении ниже. введите здесь описание изображения Я использую для этого Python. Я обнаружил, что табличные данные хранятся в формате XBRL. Вначале я пытался анализировать данные XBRL так же, как мы анализируем XML с помощью модуля lxml. Позже я понял, что это сложная модель для анализа, и у нас есть много библиотек для анализа документов XBRL. Я просмотрел различные библиотеки, такие как python-xbrl, xbrl и установленные серверы (сервер raptorXMLXBRL) для анализа документов XBRL. Но ни один не работал так, как ожидалось. Как я упоминал ранее, моя цель — получить табличные данные от SEC. МЫ можем найти образцы документов в этом< /а> ссылка. Не могли бы вы предложить мне процесс/модуль для разбора табличных данных. Заранее спасибо.


person silpa    schedule 03.03.2020    source источник


Ответы (1)


Как и вы, я пытался анализировать документы xbrl, используя любые инструменты, доступные в python, но без особого успеха. Таким образом, один из способов обойти эту проблему — получить файл html, лежащий в основе файла xbrl.

Итак, чтобы использовать вашу примерную ссылку, URL-адрес первых 10 КБ есть

https://www.sec.gov/ix?doc=/Archives/edgar/data/1551152/000155115220000007/abbv-20191231x10k.htm

Просто удалите строку /ix?doc= из URL-адреса, и у вас останется

https://www.sec.gov/Archives/edgar/data/1551152/000155115220000007/abbv-20191231x10k.htm

это та же 10к подшивка, но в формате html. Оттуда вы можете просто использовать свои обычные HTML-инструменты для извлечения любых данных, которые вас интересуют.

person Jack Fleeting    schedule 03.03.2020