이벤트

“철야, 철야, 철야 … 도시락 먹을 시간도 없었다”

2020/05/08 11:03:43

◇ 꽉 밀린 고속도로 진입로 … “댓글로 출결확인 할 줄이야”
서버가 터지는 유형은 다양하다. 우선 진입 시의 지연이 있다. 고속도로로 진입하는 차량행렬을 떠올리면 된다. 이후엔 특정 서비스로 진입할 때 접속 지연이 발생한다. 고속도로 진입 뒤 휴게소에 들어가려고 밀리는 차량, 나오면서 막히는 차량, 그리고 휴게소에서 볼일을 보기 위해 기다리는 등 각기 다른 서비스를 이용하듯이, EBS 온라인 클래스 내에서 별도로 할당된 영역 곳곳에서 지연이 발생했다. 

이 밖에도 휘발성 데이터인 캐시 데이터, 명령어다발을 의미하는 쿼리 등의 문제가 발견됐다. 구 부서장은 “죄인이 된 느낌이었다”고 털어놨다. 철야를 해서라도 서버의 문제를 해결했다면 성취감이 있었겠지만 그렇지 못했다. 개발진도 지쳐갔다. 답이 없는 문제에 개발진 8명이 투입돼 허덕이는 모습을 보는 경영진도 가슴이 타들어갔다. 

이런 상황은 e학습터도 마찬가지였다. 한국교육학술정보원의 e학습터의 개발과 운용을 맡은 것은 지역의 IT기업들이다. 당시 서비스 실무에 동참했던 백상엽 퓨전소프트 전무는 “처음 교육당국의 원격수업 목표수치(300만명)을 듣고 불가능하다고 생각했다”며 “검토단계부터 철야를 할 수밖에 없었다”고 했다. 

e학습터는 네이버의 클라우드 서비스를 활용해 구축돼 있었다. 이 운영을 책임진 박기은 네이버 비즈니스 플랫폼 CTO는 온라인 개학 초기 접속지연의 주요한 원인으로 ‘출결관리’를 꼽았다. 그는 “첫날 시스템 성능 저하의 주요한 원인은 게시판 이용 출결확인이었다”며 “출결관리의 방식을 학습방 게시판에 댓글 달기로 할 줄은 몰랐다”고 말했다. 특정 시간대에 갑자기 게시판 덧글이 폭주하기 시작하자 시스템 장애를 유발했고, 거의 모든 서버로 접속 지연 등이 전이돼 사달이 났다는 것이다. 

개발진은 철야를 반복하며 할 수 있는 모든 방법을 썼다. 캐시 데이터를 분산하고, 쿼리를 가볍게 다시 프로그래밍했다. 고속도로 톨게이트 역할을 하는 게이트웨이를 8개에서 160개(EBS 온라인 클래스 기준)로 순식간에 늘리고, 데이터 저장소도 기존보다 4배 확충한 것은 개발 난도 측면에서 기적적인 성과였다. 백 전무는 “며칠 동안 집에도 못 간 직원들이 아침도 먹지 못해 도시락을 주문했는데 그마저도 시간이 없어 식어버릴 정도였다”고 전했다. 

목록