2021. 2. 22. 11:31ㆍIT/뉴스정리
[이슈IN]쿠키런: 킹덤, AWS 데이터센터 오류로 ‘점검 장기화’
모바일 RPG ‘쿠키런: 킹덤’의 서버 점검이 장기화 국면에 접어들었다. 아마존웹서비스(AWS)의 데이터센터 장애로 인해 정상화에 오랜 시간이 걸리는 것으로 알려졌다.
20일 데브시스터즈는 공식카페를 통해 쿠키런: 킹덤 서버점검 현황을 공지했다.
(사진=쿠키런: 킹덤 접속 화면 갈무리)
개발사 측에 따르면 이날 오후 4시 기준 현재 서버가 일부 복구됐지만 완전 정상화 되진 않았으며 서버 상태 확인 및 장애 발생 시점의 데이터 검증을 순차 진행 중이다.
앞서 지난 19일 늦은 저녁부터 쿠키런: 킹덤 접속 불가 현상이 발견됐다. 이에 따라 데브시스터즈 측은 내부 확인 절차에 돌입했고 AWS 장애 상황을 인지했다. 같은 날 밤 11시 22분부터 긴급 점검에 돌입한 후 이날까지 정상화 여부를 파악하고 있다.
이번 오류는 AWS 도쿄 리전에서 발생한 냉각 시스템 오류가 원인인 것으로 알려졌다. ‘AWS 서비스 헬스 대시보드’에 따르면 도쿄 지역 가용영역에 문제가 발생해 대응하고 있다. 해당 오류로 인해 ‘리그 오브 레전드(LoL)’, ‘로드 오브 히어로즈’ 등의 게임에서도 이상 현상이 발생했다.
데브시스터즈 측은 “AWS 데이터센터에서 냉각 유닛 정전 현상이 발생했다”며 “이에 따라 쿠키런: 킹덤 데이터베이스 서버가 있는 장소의 온도가 급상승했다”고 설명했다.
긴급 점검 후 5시간이 지난 오전 4시 26분쯤 AWS 데이터센터 내 냉각 유닛이 복원됐지만 오류 현상이 이어졌다. 문제 발생 당시 쿠키런: 킹덤 사용자 수가 많아 AWS의 많은 서버를 사용하는 상태였고 이로 인해 킹덤 데이터베이스 서버 여러 대가 멈춘 것으로 파악됐다.
(사진=쿠키런: 킹덤 공식카페 갈무리)
영향을 받은 데이터베이스를 복구하고 있지만 게임 데이터 양이 많아 재가동 및 전체 데이터 검증 등의 과정에서 많은 시간이 소요되는 것으로 알려졌다.
현재 데브시스터즈 내부에서는 장애 발생으로 인한 유저 보상을 논의중이다.
쿠키런: 킹덤 공식카페는 공지사항을 통해 “게임 플레이가 불가능했던 시간을 고려해 여러분께 드릴 보상을 논의 중”이라며 “정상화 시점에 보상도 함께 안내드릴 예정이며 모든 작업이 완료되면 쿠키런: 킹덤 서버를 오픈하고 공지를 통해 안내드리겠다”고 밝혔다.
한편 AWS 도쿄 리전은 지난 2019년에도 가용성존 한 곳의 냉각장치가 오작동을 일으켜 접속 장애를 유발한 바 있다.
www.bloter.net/archives/532039
현직자에게 물어보고 싶은 점
- 왜 서울리전을 사용하지 않고 도교리전을 사용하는지
- AWS는 클라우드 서비스로 가상 서버를 사용하는데 AWS 데이터센터의 온도가 올라가서 문제가 생긴거라면 각 리전마다 물리적인 데이터센터가 있는 것인지
- 그렇다면 물리적인 데이터센터가 왜 필요한 것인지? (AWS 즉 가상서버와 어떤 방식으로 작동이 되는 것인지)
- 데이터 서버가 멈췄다는 것은 가상서버가 멈췄다는 뜻이 아닌건가?
냉각 유닛 정전 현상이란?
그냥 냉각기가 고장나서 서버실의 온도가 올라가 서버에 문제가 생겼다는 흔한 오류인듯하다
AWS 장애에 롤·쿠키런 킹덤 먹통··· 다수 게임에 영향
[디지털데일리 이종현기자] ‘리그오브레전드(롤)’, ‘쿠키런 킹덤’ 등 인기 게임에서 동시에 장애가 발생했다. 활용 중인 아마존웹서비스(AWS) 도쿄 리전의 EC2 장애 탓으로 보인다.
19일 늦은 저녁, AWS의 도쿄 리전에서 장애가 발생하면서 이를 이용 중인 서비스 다수가 먹통이 되는 현상이 발생했다. 라이엇게임즈의 롤을 비롯해 쿠키런 킹덤, 로드 오브 히어로즈, 블루 아카이브 등의 게임에서 문제가 발생했다. 인터넷 커뮤니티에서는 게임뿐만 아니라 일부 웹서비스에서도 장애가 발생했다는 제보가 잇따랐다.
AWS 인프라의 상태를 확인할 수 있는 ’AWS 서비스 헬스 대시보드‘에 따르면 문제의 발생 원인은 냉각 시스템의 오류 때문으로 추정된다. AWS는 대시보드를 통해 20일 오전 0시9분과 0시58분 도쿄 지역의 가용영역(AZ)에 문제가 발생해 대응 중이라고 안내했다.
갑작스러운 서비스 장애에 이용자들은 “허구한날 서버가 터지냐”, “왜 굳이 도쿄 리전을 쓰는 거냐” 등의 불만을 토로했다. 특히 지난달 출시 이후 흥행가도를 달리다가 서버 문제로 홍역을 치렀던 쿠키런 킹덤의 경우 문제가 심각하다. 반복되는 서비스 장애에 상당수의 유저가 이탈할 수도 있는 상황이다.
AWS가 문제를 해결하는 것 외엔 뾰족한 수가 없기에 서비스 제공 기업들의 입장에서는 난감하다. 서버를 위탁하는 클라우드인 탓에 직접 손쓰기가 어렵지만 대다수 이용자는 서비스 제공자에 책임을 묻기 때문이다.
끊김 없이 안정적으로 서비스를 제공할 수 있는 ‘고가용성’은 클라우드를 선택하는 주요 요인 중 하나다. 하지만 최근 클라우드 사업자의 문제로 서비스가 중단되는 일은 드물지 않다. 지난해 11월에도 AWS의 미국 동부 리전에서 장애가 발생하며 어도비, 워싱턴포스트, 오토데스크, 코인베이스 등 AWS를 인프라로 이용하는 기업들이 피해를 입은 바 있다.
일부에서는 반복되는 서비스 장애에 퍼블릭 클라우드에 대한 신뢰가 흔들리고 있다고 지적한다. AWS의 경우 클라우드 1위 기업으로 전체 클라우드 시장 점유율의 약 32%를 차지하고 있다. 하지만 이런 신뢰성과는 별개로 최근 반복되는 장애로 여론이 악화되는 듯한 양상이다.
반면 일각에선 퍼블릭 클라우드 서비스를 사용하는 기업들이 고가용성 확보를 위한 노력을 기울여야 한다고 강조한다. 아키텍처 재구성을 통해 여러 AZ에 인프라를 배치하거나 다른 클라우드 서비스를 활용하는 멀티 클라우드 서비스 사용 등을 통해 비즈니스 연속성을 확보해야 한다는 제언이다.
한편 AWS는 국내에도 데이터센터 인프라를 운영 중이다. 지난 2016년 서울 리전을 오픈했으며 지난해 7월 4번째 AZ를 개선하며 데이터센터 인프라 강화에 나선 바 있다. AWS의 아시아태평양 지역 리전은 서울을 포함해 이번에 장애가 발생한 일본 도쿄, 홍콩, 뭄바이, 오사카, 싱가포르, 시드니 등이다.
도쿄 리전 역시 4개의 AZ를 운영 중이다. AZ는 리전의 전력과 네트워킹, 연결이 제공되는 하나 이상의 개별 데이터센터로 구성되며, 리전은 물리적으로 분리된 여러 개의 AZ로 구성된다. 이번에 장애가 발생한 AZ는 도쿄리전의 apne1-az1로 다른 AZ에는 영향을 끼치지 않은 것으로 나타났다.
<이종현 기자>bell@ddaily.co.kr
www.ddaily.co.kr/news/article/?no=209677
'IT > 뉴스정리' 카테고리의 다른 글
2021.2.24 수요일 (0) | 2021.02.24 |
---|---|
2021.2.23 화요일 (0) | 2021.02.23 |
2021.2.17 수요일 (0) | 2021.02.17 |
2021.2.16 화요일 (0) | 2021.02.16 |
2021.2.15 월요일 (0) | 2021.02.15 |