http://www.isi.edu/~gideon/publications/JuveG-DataSharing.pdf ‘Data Sharing Options for Scientific Workflows on Amazon EC2’…

http://www.isi.edu/~gideon/publications/JuveG-DataSharing.pdf

‘Data Sharing Options for Scientific Workflows on Amazon EC2’ 란 제목의 논문입니다. 재미있는 주제네요. Scientific Workflows이야기를 하고 있긴 하지만, AWS환경에서 분산처리를 할때도 충분히 참고할 수 있어 보이네요.

http://www.isi.edu/~gideon/publications/JuveG-DataSharing.pdf

6 thoughts on “http://www.isi.edu/~gideon/publications/JuveG-DataSharing.pdf ‘Data Sharing Options for Scientific Workflows on Amazon EC2’…

  1. 네 성능과 가격을 생각해 보면 S3보다는 GlusterFS가 나을꺼 같습니다. 그런데 S3는 노드를 직접 생성하고 운영할 필요가 없으니 그런 부분을 잘 고려해서 상황에 맞게 적절한 선택을 하면 될 것 같습니다~ 🙂

  2. S3는 Archieving용이고, Gluster는 Working Space나 다른 용도로 잡는게 맞을 거 같습니다. Gluster는 용량 한계도 있으니까요. 사용 목적이 좀 틀린거 같구요 원래 자체가… 그리고 문서에도 보면 S3 시나리오는 Local Storage를 Working space처럼 S3 앞에 넣는 구조라서 성능이나 Cost가 더 좋게 나올 수 자체가 없는 구조 같습니다.

  3. 넵 빈번한 IO를 가정하면 S3를 적용하기에는 무리가 있을 수 있겠습니다. 실제로 local storage처럼 random access용으로 바로 쓰는건 어색함이 있고요. 따라서 성능 및 비용면에서 S3가 불리할 수 있을꺼 같구요. 그런데 분산 처리 환경에서의 Access pattern과 스토리지 노드를 따로 운영하는 부담과 비용등을 감안했을때 고려할 여지가 있을 수 있다는 얘기 였습니다~ ^^

  4. 논문을 결과위주로 봤는데, 1 node/ 8 core만 결과가 나와서 아쉽네요. 제가 봤을 땐, local도 동일하게 붙여놓고 실험하면 local이 압도적일듯 하네요.
    즉, 논문에서 얘기하는 것이 local을 사용하지 않고, aws를 이용해도 좋은 결과를 얻을 수 있다가 되어야 하는데 그런 결과를 보여주지 못하는것이 아쉽네요 ㅎㅎ

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.