Как работает PigStorage для S3?

Мне интересно, как PigStorage в Pig хранит данные на S3? Сохраняет ли он выходные данные в HDFS, а затем копирует их? Или сохранить каждый вывод редуктора в локальный каталог каждого редуктора, а затем скопировать их на S3? Я предполагаю, что это не может быть потоковой передачей, поскольку S3 поддерживает только размещение файлов или каталогов?


person kee    schedule 25.11.2012    source источник


Ответы (1)


Насколько я понимаю, каждый редуктор записывает свой вывод локально, а затем копирует вывод в S3.

Как вы правильно заметили, поскольку S3 не поддерживает потоковую передачу, редуктор может копировать свой вывод только после завершения обработки.

person seedhead    schedule 30.11.2012