서비스 운영 중에 갑자기 서버 인스턴스가 내려갔습니다. 재시동(리부팅)을 했더니 루트…

서비스 운영 중에 갑자기 서버 인스턴스가 내려갔습니다. 재시동(리부팅)을 했더니 루트 외 파티션이 뽑히고 새 파티션이 마운트 되어 올라와 있더라고요. 무식한 비유를 들자면, 마치 하드디스크가 뻑나서 해당 하드디스크를 뽑아내고 새 하드디스크를 넣은 것 같습니다. 당연히 해당 파티션에 있던 자료는 날아갔고요.

부트 로그를 봐도 원인을 파악할 수 있는 내용은 없었습니다.

서버 두 대에 이 현상이 일어났는데, 굳이 공통점을 찾자면 DB서버이고 write가 많은 서버라는 점입니다.

혹시 이런 경우 겪어보시거나 원인 아시는 분 계신가요? ㅜㅜ

23 thoughts on “서비스 운영 중에 갑자기 서버 인스턴스가 내려갔습니다. 재시동(리부팅)을 했더니 루트…

  1. root device외에 다른 파티션은 ebs volume이 살아있는지 확인해 보시고, volume이 살아있다면 다시 attach하시면 될껍니다. 아마 자동으로 attach 하는게 빠져있지 않을까 싶은데요. 예를들어 리눅스 장비라면 fstab에 누락되어 있거나 그럴꺼 같습니다. (/dev/xvd* 시리즈에 있습니다)

  2. KyeongMook Kay Cha 음.. 별도로 EBS 볼륨을 만들어서 attach하신게 아닌건가요?? ebs volume이 날라간거라면 그건 좀 놀라운 일인데요.. aws 고객 지원을 받아보시는게 어떨까요?

  3. Adrian Jung, Nara Park/ 볼륨이 날아간 거라 복구도 안 되고 완전 재앙과 멘붕이었습니다. secondary server에서 복구해서 데이터 유실은 없었지만 복구하는 데 시간도 오래 걸리고 처음 보는 현상이라 당황스럽고. 휴우.

  4. 이마존에서도 복구가 불가능하다고 답변을 받으셨나요? 데이터에 대한 보상 약관같은것도 확인해봐야겠네요.. 이정도 사고면 인스턴스 십년동안 무상제공해도 모자랄거같은데 ㅜㅠ

  5. 재시동을 하셨다고 하는걸로 봐서는, 아마 terminate 된건 아닐꺼 같긴한데, 혹 만약 그런 경우라면 가능성이 있다고 봅니다. 참고로 shutdown behavior는 콘솔이나 API를 통한 적용에만 적용되는게 아니고, os차원에서 장비를 shutdown 시켜도 그대로 적용됩니다

  6. 인프라입장에서 이런 경우는 스토리지 장비단에서 이슈가 있을 경우입니다. 물론 AWS는 자동(?)으로 다른 볼륨을 잡고 올라왔지만… 가능성은 있습니다. AWS에 문의해봄이 가장 빠른 방법같습니다.

  7. 이런 케이스 때문에 /etc/fstab에 mounting정보 입력해 놓을때,
    mount device 를 /dev/xvd*1 과 같은 경로 방식 말고 uuid=~~~~ 같은 방식을 권장하드라구요; 어디서 권장하는지는 비밀;;
    어떤 방식으로 되어 있으셨었나요?(타산지석으로 삼자;;;;)

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.