로그를 S3에 올려두고 EMR을 비용 문제로 Transient(필요할 때만 만드는) Cluster로…

로그를 S3에 올려두고 EMR을 비용 문제로 Transient(필요할 때만 만드는) Cluster로 사용하고 있습니다.

분석할 로그가 크기가 작고 잘게 쪼개져 있어서 좀 문제입니다. 알아본 결과:
a. 작은 파일들을 미리 적당한 단위로 묶은 뒤 S3에 올림
b. 클러스터 생성시 S3DistCp를 사용해 그룹핑하여 HDFS에 올림

두 가지 방법이 각각 장단점이 있는 것 같은데 a 의 경우 전처리의 부담 b 의 경우 클러스터를 만들 때마다 S3DistCp로 복사하는 과정이 오래 걸릴 것 같아 우려가 됩니다.

혹시 관련 경험이 있으신 분들의 조언을 부탁드립니다.
미리 감사드립니다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.