위기의 카카오가 내보인 ‘반성문’ 내용은?

입력 : 2022-12-07 17:53 수정 : 2022-12-07 17:54
이확영 비상대책위원회 원인조사 소위원장. 자료제공=이프 카카오

카카오가 위기 극복을 위한 처절한 반성문을 냈다. 5년간 투자한 금액의 3배 이상을 투자하겠다는 계획도 제시했다.

카카오는 7일 ‘이프 카카오 데브 2022’를 온라인으로 열어 10월15일 발생한 서비스 장애 원인 분석과 개선 사항에 대해 발표했다. 카카오는 장애 발생 직후 비상대책위원회를 발족해 ▲원인조사소위 ▲재발방지소위 ▲보상대책소위 분과를 두고 장애 원인을 정확히 규명하고 강도 높은 대책을 마련하고자 노력해왔다.

발표에 따르면 장애 원인은 ▲이중화 수준의 미흡 ▲서비스 개발과 관리를 위한 운영 관리 도구 부족 ▲이중화 전환 후 가용 자원 부족에 있었다. 이확영 재발방지소위 부위원장은 “캐시 서버와 오브젝트 스토리지가 판교 데이터센터에만 설치되어 있어 카카오의 주요 기능이 순식간에 마비될 수밖에 없었다”며 “장애 대응 과정에서 수동 전환 작업을 진행했기 때문에 복구가 지연됐고, 커뮤니케이션 채널에 혼선이 있었을 뿐 아니라 재해 초기의 컨트롤 타워도 부재했던 것이 심각한 지연을 초래했다”고 밝혔다.

이에 따라 카카오는 앞으로 이중화를 강화해나갈 예정이다. 데이터센터의 모니터링 시스템을 다중화하고, 메인 백본(데이터를 모아 빠르게 전송할 수 있는 대규모 전송회선) 센터를 세 곳으로 확장하고, 급증하는 트래픽에 대응할 수 있도록 별도 전용망을 구성한다. 또 데이터를 다중 복제 구조로 구성하고 플랫폼과 운영 관리 도구, 클라우드도 삼중화한다. 실제로 장애 대응이 이뤄지는 과정에서 발생한 ‘페일오버’(한 데이터베이스의 최신 버전을 대체 컴퓨터 시스템에 백업해둬 1차 시스템에 장애가 발생해 이용할 수 없을 경우 대체 시스템을 작동시키는 것) 문제와 서비스 간 의존성을 최소화하고, 장애 대응 시나리오도 재검토한다. 즉, 이중화 수준을 대폭 높이겠다는 것이다.

2024년 완공 예정인 안산 데이터센터의 구체적인 청사진도 제시됐다. 안산 데이터센터에는 총 4600억원이 투입, 전력ㆍ냉방ㆍ통신에 이중화 조치가 이뤄져 3개 영역이 24시간 무중단 운영될 예정이다. 또 무정전 전원장치(UPS)실과 배터리실이 분리된다. 전기배전(EPS)과 무정전 전원장치와 배터리를 묶어 하나의 섹터로 구성해 전력 안정성 극대화 조치도 시행된다. 
고우찬 소위원장은 “IT 엔지니어링부문 인재를 적극 영입하고, 재해복구위원회와 서비스 연속성 확보 전담 조직을 신설하고, 비상대응계획(BCP)의 취약성에 대해선 외부 전문가로부터 자문을 받겠다”고 선언했다.

이를 위해 카카오는 5년간 투자한 금액의 3배 이상을 향후 5년간 투입한다.

각각의 서비스 개발부서가 생각하는 장애 원인과 대응 방안은 8일 ‘1015장애 회고’ 세션에서 발표된다.

이유정 기자

ⓒ 농민신문 & nongmin.com, 무단 전재 및 수집, 재배포 금지

게시판 관리기준?
게시판 관리기준?
비방, 욕설, 광고글이나 허위 또는 저속한 내용 등은 사전 통보 없이 삭제되거나 댓글 작성이 금지될 수 있습니다.
농민신문 및 소셜계정으로 댓글을 작성하세요.
0 /200자 등록하기

기획·연재

많이 본 기사

최신기사

맨 위로 이동