У меня есть несколько больших (> 10 ГБ) наборов данных SAS, которые я хочу преобразовать для использования в пандах, предпочтительно в HDF5. Существует много разных типов данных (даты, числовые, текстовые), а некоторые числовые поля также имеют разные коды ошибок для отсутствующих значений (т.е. значения могут быть ., .E, .C и т. д.). Я надеюсь сохранить имена столбцов а также метаданные меток. Кто-нибудь нашел эффективный способ сделать это?
Я пытался использовать MySQL в качестве моста между ними, но при передаче я получил несколько ошибок Out of range, к тому же это было невероятно медленно. Я также пытался экспортировать из SAS в формате Stata .dta, но SAS (9.3) экспортирует в старый формат Stata, который несовместим с read_stat() в pandas. Я также попробовал пакет sas7bdat, но, судя по описанию, он не был широко протестирован, поэтому я хотел бы загрузить наборы данных другим способом и сравнить результаты, чтобы убедиться, что все работает правильно.
Дополнительные сведения: наборы данных, которые я хочу преобразовать, принадлежат CRSP, Compustat, IBES и TFN из WRDS.