현재 데이터분석가분들이 분석할수 있는 환경을 제공하기 위해 EMR을 사용중입니다. 문제는…

현재 데이터분석가분들이 분석할수 있는 환경을 제공하기 위해 EMR을 사용중입니다.
문제는 분석가 분들은 평일 업무시간에만 EMR을 사용하는데 주말이나 퇴근이후에는 사용하지 않는다는 겁니다.

EMR이 Stop같은 기능이 없어서 Terminate를 시켜야 하는데 Clone하여 EMR을 쉽게 복제하여 세팅할수 있지만 매번 새로 생성하기도 번거롭고
접속정보도 바뀌니 이것도 care하기가 여간 손이 안가는 곳이 없습니다.
그래서 나름 고민한 방법으로는 쓰고 있는 다른 ec2인스턴스에 jenkins(cron)를 세팅해놓고 cli를 이용하여
매일 업무시간전에 해당 인스턴스 그룹에 spot instance를 biding하여 사이즈를 필요만큼 늘려놓고
퇴근 시간이후에 늘렸던 인스턴스를 terminate시키고 있습니다.

이렇게 하면 안쓰는 동안에 유지되는 인스턴스가 MASTER 1대 CORE 1대라서 좀 낫긴 합니다.
게다가 spot 인스턴스로 낙찰받는 가격이 on-demand의 1/4가격으로 평균 낙찰되고 있어서 금액적인 세이브도 되는데
혹시 여기계신 분들께서는 저와 같은 고민을 하신분이 계신지 어떻게 해결하셨는지 궁금하여 글을 올려봅니다.
개인의견도 좋습니다. ^^

One thought on “현재 데이터분석가분들이 분석할수 있는 환경을 제공하기 위해 EMR을 사용중입니다. 문제는…

  1. 저는 데이터를 S3에 올려놓고 S3를 HDFS대용으로 사용하고 있습니다.따라서 필요할때만 EMR을 Transient Cluster로 만들어 비용 절감효과가 큰 것 같습니다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.