아날로그 인시던트 컴퍼스 트레인 테이블: 라이브 장애 대응을 위한 종이 기반 컨트롤 서피스 만들기
종이와 펜으로 만드는 저기술(tabletop) 연습 도구인 ‘아날로그 인시던트 컴퍼스 트레인 테이블’이 어떻게 인시던트 대응 연습을 바꾸고, 숨은 의존성을 드러내며, 실제 장애 상황에서의 협업을 강화하는지 소개합니다.
아날로그 인시던트 컴퍼스 트레인 테이블: 라이브 장애 대응을 위한 종이 기반 컨트롤 서피스 만들기
현대적인 인시던트 대응은 대시보드, 알림, 그래프, 자동화로 가득합니다. 하지만 조직이 스트레스 상황에서 실제로 어떻게 행동하는지에 대한 가장 강력한 통찰은 놀랍게도 매우 저기술에서 나오는 경우가 많습니다. 바로 종이, 마커, 그리고 하나의 테이블입니다.
이것이 아날로그 인시던트 컴퍼스 트레인 테이블(Analog Incident Compass Train Table) 의 아이디어입니다. 라이브 장애 상황을 시뮬레이션하는 tabletop exercise(테이블탑 연습)을 위해 사용하는, 단순하면서도 물리적인 “컨트롤 서피스”죠. 팀은 각자 모니터 앞에 앉아 대시보드를 보는 대신, 시스템을 그려놓은 큰 종이 지도를 가운데 두고, 실제 장애가 났을 때 무엇을 할지를 함께 걸어가듯 연습합니다.
이 글에서는 이런 접근 방식이 구체적으로 어떻게 생겼는지, 왜 그렇게 효과적인지, 그리고 왜 기존 도구만으로는 보이지 않던 갭, 의존성, 조정 문제들을 드러내는지 살펴봅니다.
아날로그 인시던트 컴퍼스 트레인 테이블이란?
커다란 종이 한 장을 테이블 위에 펼쳐 놓는다고 상상해 보세요. 그리고 여기에 다음을 그립니다.
- 핵심 시스템과 서비스들
- 외부 의존성(클라우드/인프라 제공업체, 파트너, 외부 API 등)
- 유저 진입 지점(앱, 웹사이트, 디바이스)
- 핵심 비즈니스 프로세스(결제, 온보딩, 검색 등)
여기에 움직일 수 있는 요소들을 더합니다. 인덱스 카드, 포스트잇, 마커 등을 써서:
- 인시던트 (예: “데이터베이스 지연(latency) 급증”, “DNS 장애”)
- 팀 (SRE, 보안, 고객지원, 법무, 커뮤니케이션 등)
- 결정 및 액션 (롤백, 페일오버, 공지/커뮤니케이션 업데이트 등)
이렇게 해서 완성된 것이 바로 여러분의 트레인 테이블(train table) 입니다. 운영 세계를 단순화한, 하지만 충분히 알아볼 수 있는 모델이죠. 장애 카드를 마치 기차를 움직이듯 이 종이 위에서 이리저리 옮겨가며, 의사결정이 어떤 파장을 일으키는지, 어디서 충돌이 나는지 관찰합니다.
이 방식은 의도적으로 아날로그입니다.
- 실제 시스템에는 아무것도 손대지 않습니다.
- 대시보드가 없어도 됩니다.
- 프로덕션에서 명령어를 치는 사람은 아무도 없습니다.
대신, 사람이 어떻게 반응하는지에 집중합니다. 누가 누구와 말하는지, 누가 무엇을 결정하는지, 조직이 복잡하고 계속 변하는 상황을 어떻게 함께 헤쳐 나가는지에 주목하는 것이죠.
왜 실제 연습이 이론보다 강력한가: 진짜 장애 전에 미리 연습하기
많은 조직이 인시던트 대응 프로세스가 있다고 말합니다. 런북, 에스컬레이션 경로, 온콜 로테이션… 하지만 실제 장애가 터지면, 이론과 현실이 부딪히고 그 사이의 갭이 뼈아프게 드러납니다.
Tabletop exercise(TTX) 는 이 갭을 줄이는 방법입니다. 재난이 닥치기 전에, 팀이 현실적인 시나리오를 가지고 손발을 써가며 연습할 수 있도록 해줍니다.
아날로그 인시던트 컴퍼스 트레인 테이블 세션에서는 보통 이렇게 진행합니다.
- 현실적인 장애 시나리오를 제시합니다.
- 시간을 작은 단위로 흘려보냅니다. ("10분 후…", "30분이 지났을 때…")
- 각 역할에게 묻습니다. 무엇을 보고 있나요? 무엇을 하나요? 누구와 이야기하나요?
- 시스템 상태 변화, 사용자 영향, 의사결정을 카드와 마커를 움직이며 테이블 위에 표현합니다.
효과는 디테일에서 나옵니다.
- 인시던트는 얼마나 빨리 발견되나요? 누가 처음 알아차리나요?
- 사람들이 다른 팀이 뭘 하고 있을 거라고 어떤 가정들을 하고 있나요?
- 모두가 인시던트 채널, 문서, 런북을 어디서 찾아야 하는지 알고 있나요?
위험이 낮고 대화 중심이기 때문에, 사람들은 실제 장애 때는 말하기 어려운 것들을 훨씬 쉽게 이야기합니다. 모르는 점을 인정한다든지, “초보적인 질문”을 한다든지, 실제 상황에서는 꺼내기 힘든 “만약 이런 일이 생기면…”을 마음 편히 탐색할 수 있습니다.
역할과 책임을 선명하게 만들기
많은 조직에서 인시던트 대응 역할은 문서에는 있지만, 실제로는 잘 작동하지 않습니다. 위기 상황이 되면 사람들은 익숙한 패턴으로 돌아갑니다.
- 엔지니어는 바로 디버깅에 뛰어듭니다.
- 매니저는 상태 업데이트를 하느라 분주합니다.
- 커뮤니케이션 팀은 “상황이 명확해지길” 기다리다가 그 순간이 오지 않기도 합니다.
Tabletop을 해보면 결국 이런 질문과 마주하게 됩니다. 실제로 누가 무엇에 책임을 지는가?
트레인 테이블을 사용하면 역할을 눈에 보이게 표현할 수 있습니다.
- Incident Commander(인시던트 커맨더) 카드를 테이블 중앙에 둡니다.
- 그 주위에 운영/Operations, 보안/Security, 고객지원/Customer Support, 커뮤니케이션/Comms 카드를 둡니다.
- 시나리오가 진행되는 동안, 어떤 액션과 결정이 누구를 통해 흐르는지 선을 그려보거나 움직여 봅니다.
그러면 이런 문제들이 드러납니다.
- 두 사람이 동시에 Incident Commander처럼 행동하는 경우
- 고객 공지에 명시적으로 책임지는 사람이 아무도 없는 경우
- 법무/보안 팀이 너무 늦게 호출되는 경우
세션이 끝날 즈음이면, 단순히 더 좋은 계획만 생기는 것이 아니라 팀이 공유된 멘탈 모델(shared mental model) 을 갖게 됩니다. 사람들은 실제로 이렇게 더 분명한 답을 갖고 나가게 됩니다.
“진짜 장애가 나면, 내 역할은 정확히 무엇이고, 누구와 어떻게 조율해야 하지?”
커뮤니케이션과 조정 능력을 스트레스 테스트하기
인시던트는 대부분 순수하게 기술적인 문제라기보다, 시간 압박이 있는 커뮤니케이션 문제에 가깝습니다.
아날로그 인시던트 컴퍼스 트레인 테이블에서는 이런 상황을 의도적으로 시뮬레이션할 수 있습니다.
- 상충되는 정보를 던집니다. ("모니터링은 X라 하고, 로그는 Y를 암시한다")
- 외부 파트너가 “잠수”를 타거나 응답이 느린 상황을 가정합니다.
- 대규모 런칭, 마케팅 캠페인, 임원 대상 데모 같은 동시다발적인 비즈니스 압박을 추가합니다.
그리고 팀이 어떻게 소통하는지 지켜봅니다.
- 엔지니어링 팀이 고객지원팀에 선제적으로 브리핑하나요, 아니면 고객지원이 트위터를 보고 처음 상황을 알게 되나요?
- 외부 파트너에게 영향과 상황을 알리는 사람이 있나요, 아니면 완전히 잊혀지나요?
- 임원들은 리스크를 비전문가도 이해할 수 있는 언어로 정리된 업데이트를 받나요?
이 연습을 통해 문서만 봐서는 잘 보이지 않는 커뮤니케이션의 틈새가 드러납니다.
- 모호하거나 불분명한 에스컬레이션 경로
- 특정 시니어 한 사람에게 과도하게 의존하는 구조
- “누군가가 고객 커뮤니케이션은 알아서 하겠지”라는 막연한 기대
이것들을 실제 위기가 아닌, 위험이 없는 환경에서 눈으로 확인할 수 있기 때문에, 실제 장애가 터지기 훨씬 전에 커뮤니케이션 흐름과 채널, 기대치를 다시 설계할 수 있습니다.
숨은 의존성과 리스크 드러내기
시나리오 기반 TTX의 가장 큰 강점 중 하나는 숨은 의존성(hidden dependencies) 을 드러낸다는 점입니다. 평소에는 “당연히 잘 돌아가는 것” 같다가, 어느 날 갑자기 멈춰서야 존재를 깨닫게 되는 것들이죠.
트레인 테이블에서는 이런 의존성을 시각적으로 표현합니다.
- 서비스 간 연결선을 그립니다.
- 내부 시스템에서 외부 벤더로 향하는 화살표를 그립니다.
- 데이터 흐름과 신뢰 관계(trust relationship)에 대한 메모를 적습니다.
이 상태에서 장애 카드를 옮겨가며 시뮬레이션합니다. (예: “Primary DB(주 데이터베이스) 사용 불가”)
이때 이런 질문을 던져볼 수 있습니다.
- 이게 멈추면, 조용히 같이 죽는 것들은 무엇인가?
- 어떤 비즈니스 프로세스가 완전히 정지하거나, 심하게 저하되거나, 위험해지는가?
- 수동 우회(매뉴얼 워크어라운드)가 가능한가, 아니면 완전히 막히는가?
연습을 하다 보면 조직은 종종 이런 사실을 새롭게 발견합니다.
- 하나의 서드파티 제공업체가 여러 핵심 워크플로의 단일 장애 지점(SPOF) 이 되어 있는 상황
- 상류(upstream) 시스템 모니터링은 잘 되어 있지만, 하류(downstream) 사용자 영향에 대한 가시성은 거의 없는 상황
- 백업/페일오버 메커니즘은 문서에는 있지만, 실제로는 테스트되지 않았거나 팀이 잘 이해하지 못하는 상황
프로덕션에 손을 대지 않기 때문에, 평소에는 상상조차 꺼려지는 시나리오도 안전하게 탐색할 수 있습니다.
- “Primary와 Secondary 리전이 동시에 부분 장애인 상태라면 어떻게 될까?”
- “대규모 인시던트와 중대한 보안 사고가 동시에 터진다면?”
- “우리의 메인 상태 알림 채널 자체가 죽어버린다면?”
이것이 tabletop의 진짜 힘입니다. 비용은 낮지만, 학습은 크고, 프로덕션 리스크는 0인 연습 방식입니다.
저비용·고효과: 다양한 이해관계자를 쉽게 참여시키기
디지털 시뮬레이션이나 풀스케일 카오스 엔지니어링은 도입 장벽이 높습니다. 리소스를 많이 쓰고, 비기술 직군에게는 솔직히 꽤 위압적으로 느껴지기도 합니다.
아날로그 인시던트 컴퍼스 트레인 테이블은 이 역학을 완전히 뒤집습니다.
- 저비용: 종이, 마커, 포스트잇, 그리고 회의실만 있으면 됩니다.
- 저스트레스: 실제로 무엇인가를 망가뜨리지 않습니다.
- 접근성: 임원, 법무, 재무, 파트너 등 비기술 이해관계자도 쉽게 참여해 기여할 수 있습니다.
특히 다음과 같은 사람들을 참여시키기에 좋습니다.
- 사용자와 고객에게 장애 상황을 설명해야 하는 고객 접점 팀(세일즈, CS 등)
- 의무사항과 리스크를 중시하는 리스크/컴플라이언스/법무 팀
- 여러분의 운영에 필수적인 외부 파트너/벤더
이들의 목소리를 연습에 포함하면 다음과 같은 일이 벌어집니다.
- 복잡한 운영·기술 계획을 현실 세계의 제약과 함께 테스트하게 됩니다.
- 속도와 규제/계약상의 의무 같은 트레이드오프가 눈에 보이게 됩니다.
- 조직 경계(내부–외부)를 넘나드는 신뢰와 공감대가 쌓입니다.
그리고 상황의 부담이 적기 때문에, “잘 모르겠습니다”나 “그건 한 번도 해본 적이 없습니다”라는 솔직한 말이 더 잘 나옵니다. 바로 이런 정직함이 있어야 실제 대응 능력을 개선할 수 있습니다.
인사이트를 더 강한 인시던트 프로그램으로 연결하기
Tabletop 연습의 가치는 세션 그 자체가 아니라, 그 이후에 무엇을 하느냐에 달려 있습니다. 아날로그 인시던트 컴퍼스 트레인 테이블은 자연스럽게 실행 가능한 인사이트를 쏟아냅니다.
- 인시던트 대응 계획 정교화: 역할, 에스컬레이션 경로, 의사결정 권한을 명확히 합니다.
- 런북·플레이북 업데이트: 빠진 단계들을 추가하고, 낡은 가정을 제거하며, 새로 발견한 워크어라운드를 기록합니다.
- 툴링과 가시성 개선: 결과를 바꿨을 법한 알림, 대시보드, 상태 페이지의 필요성을 파악합니다.
- 교육 강화: 배운 내용을 기반으로 신규 팀원 온보딩과 파트너 정렬에 활용합니다.
이런 연습을 주기적으로 반복하면, 임원·고객·규제기관 같은 이해관계자에게 다음을 보여줄 수 있습니다. 여러분은 단지 인시던트에 반응하는 것이 아니라, 사전에 대비 태세를 키워가고 있다는 것을요.
즉, 여러분은:
- 자신의 리스크 지형을 이해하고 있고,
- 실제 필요해지기 전에 대응을 연습하고 있으며,
- 현실적인 시나리오를 통해 지속적으로 개선하고 있다는 증거를 갖게 됩니다.
시작하기: 간단한 플레이북
시작을 위해 거창한 준비는 필요 없습니다. 아래처럼 해보세요.
-
시나리오 선택
과거 사고나 주요 리스크를 기반으로 현실적인 장애/인시던트를 하나 고릅니다. (예: “결제 제공업체 다운타임”, “인증 서비스 부분 장애”) -
지도 그리기
큰 종이에 시스템, 유저 진입 지점, 핵심 외부 제공업체를 스케치합니다. -
역할 지정
Incident Commander, 기술 리드들, 고객지원, 커뮤니케이션, 그 외 관련 이해관계자를 정합니다. -
타임라인 따라가기
시간을 일정 간격으로 흘려보내며 상황 변화를 설명하고, 참여자들에게 그 시점에 무엇을 보고, 결정하고, 실행할지 말하게 합니다. -
인사이트 기록
발견된 갭, 놀랐던 점, 후속 과제를 눈에 보이게 목록으로 적어둡니다. 세션 안에서 전부 해결하려 하지 말고, 기록에 집중하세요. -
디브리핑 및 반복
연습 후 배운 내용을 리뷰하고, 계획을 업데이트하며, 다른 시나리오로 다음 세션을 예약합니다.
결론: 디지털 회복탄력을 위한 아날로그 도구
아날로그 인시던트 컴퍼스 트레인 테이블은 의도적으로 단순합니다. 그것이 곧 이 도구의 힘입니다.
복잡한 툴을 잠시 내려놓고, 종이 위에 그린 시스템 모델을 둘러 앉게 하면 다음과 같은 일이 벌어집니다.
- 실제 인시던트가 오기 전에, 팀이 현실적인 상황에서 손으로 익히는 연습을 할 수 있습니다.
- 역할, 책임, 의사결정 경로가 선명해집니다.
- 커뮤니케이션의 끊김과 숨은 의존성이 드러납니다.
- 프로덕션을 건드리지 않고도 핵심 이해관계자를 한 자리에 모을 수 있습니다.
- 인사이트를 바탕으로 더 강한 계획과 더 큰 조직적 자신감을 만들어 갈 수 있습니다.
자동화와 대시보드에 집착하는 세상에서, 펜과 마커, 그리고 테이블을 사이에 둔 솔직한 대화가 해낼 수 있는 일이 있습니다. 도구들만으로는 절대 보여주지 못하는 것, 즉 조직이 스트레스 상황에서 실제로 어떻게 행동하는지를 드러내고, 다음 장애가 오기 전에 그것을 개선할 기회를 주는 것입니다.