Мне интересно, как PigStorage в Pig хранит данные на S3? Сохраняет ли он выходные данные в HDFS, а затем копирует их? Или сохранить каждый вывод редуктора в локальный каталог каждого редуктора, а затем скопировать их на S3? Я предполагаю, что это не может быть потоковой передачей, поскольку S3 поддерживает только размещение файлов или каталогов?
Как работает PigStorage для S3?
Ответы (1)
Насколько я понимаю, каждый редуктор записывает свой вывод локально, а затем копирует вывод в S3.
Как вы правильно заметили, поскольку S3 не поддерживает потоковую передачу, редуктор может копировать свой вывод только после завершения обработки.
person
seedhead
schedule
30.11.2012