Rain Lag

칠판 신뢰성 놀이터: 손그림 게임으로 더 안전한 인시던트를 프로토타이핑하기

저기술 손그림 테이블탑 ‘칠판’ 연습을 통해 팀이 사이버 인시던트를 안전하게 시뮬레이션하고, 대응 계획을 다듬으며, 실제 장애가 발생하기 전에 진짜 신뢰성 ‘근육 기억’을 만드는 방법을 소개합니다.

칠판 신뢰성 놀이터: 손그림 게임으로 더 안전한 인시던트를 프로토타이핑하기

사이버 인시던트와 신뢰성을 이야기할 때 사람들은 보통 바로 툴링부터 떠올립니다. 대시보드, 카오스 플랫폼, 런북, 자동화 같은 것들이죠. 물론 중요합니다. 하지만 거의 비용이 들지 않고 화이트보드나 종이 한 장이면 되는 강력하지만 저평가된 도구가 하나 있습니다. 바로 손으로 그리는 게임 형식의 테이블탑(tabletop) 연습입니다.

이걸 **칠판 신뢰성 놀이터(chalkboard reliability playground)**라고 생각해 보세요. 실제 머신 대신 마커로, 알람 대신 스토리로, 서비스 메시 대신 막대 그림으로 인시던트를 리허설하는 공간입니다. 프로덕션을 깨뜨리는 게 아니라, 실제 시스템에 문제가 생기기 훨씬 전에 더 안전한 인시던트를 미리 프로토타이핑하는 것입니다.

이 글에서는 이런 저기술 시뮬레이션이 어떻게 사이버 인시던트 대응(CIR, Cyber Incident Response) 계획을 개선하고, SRE·DevOps 실무를 강화하며, 진짜로 불이 난 순간을 대비한 조직의 근육 기억을 만드는지 살펴봅니다.


왜 칠판에서 인시던트를 시뮬레이션할까?

장애나 침해 사고에 대비해야 한다는 건 모두 압니다. 하지만 실제 인시던트는 대가가 너무 큰 학습 방법입니다. 칠판 연습은 이런 걸 제공합니다.

  • 안전성 – 프로덕션 시스템이나 고객 데이터에 전혀 위험이 없습니다.
  • 명확성 – 추상적인 신뢰성 개념이 눈에 보이고, 논의 가능한 구체적인 형태가 됩니다.
  • 연습 – 팀이 (시뮬레이션된) 압박 속에서 커뮤니케이션, 의사결정, 워크플로를 실제처럼 리허설합니다.
  • 피드백 – 매 라운드마다 CIR 계획과 신뢰성 실무를 직접적으로 개선할 수 있는 인사이트가 나옵니다.

다음 새벽 3시의 알람이 터졌을 때야 비로소 허점을 발견하는 대신, 손에 마커를 쥔 채 스케줄된 시간, 낮은 위험 환경에서 그 허점을 미리 발견하는 겁니다.


칠판 인시던트 연습이란 무엇인가?

칠판(chalkboard) 혹은 테이블탑 연습은 가이드가 있는 대화형 인시던트 시뮬레이션입니다. 간단한 그림과 프롬프트를 활용해 한 공간(또는 온라인 화이트보드)에서 함께 진행합니다.

핵심 요소

  • 단순한 맵 – 서비스, 사용자, 데이터 흐름, 외부 의존성을 박스와 화살표로 손그림으로 그립니다.
  • 시나리오 – 짧은 게임 같은 스토리입니다. 예: “출처 불명의 트래픽이 급증하고, 에러율이 뛰며, 고객이 로그인할 수 없다.”
  • 역할(Role) – 참여자는 온콜 엔지니어, 인시던트 커맨더, 커뮤니케이션 리드, 보안 담당, PO 등 역할을 맡습니다.
  • 턴(Turn) – 퍼실리테이터가 새 증상, 로그 조각, 이해관계자의 질문, 깜짝 이벤트 등을 단계별로 제시하며 시나리오를 전개합니다.
  • 의사결정 – 팀은 조사, 완화, 에스컬레이션, 커뮤니케이션 등 어떤 액션을 취할지 선택해야 합니다.

복잡한 인프라도, 프로덕션 접근 권한도 필요 없습니다. 사람들, 공유된 멘탈 모델, 구조화된 스토리만 있으면 됩니다.


손그림 게임으로 신뢰성을 ‘손에 잡히게’ 만들기

MTTR, 블라스트 레디어스(blast radius), 런북, 페일오버 같은 신뢰성 개념은, 실제로 겪어 보기 전까지는 추상적으로 느껴지기 쉽습니다. 손그림 기반의 게임형 시나리오는 그 간극을 메워 줍니다.

비주얼 스토리텔링

시스템을 그려 보는 행위는 다음에 도움이 됩니다.

  • 아키텍처와 오너십에 대한 암묵적 가정을 드러냅니다.
  • 사람들 머릿속에만 있던 데이터 경로와 의존성을 시각화합니다.
  • 실패 모드를 가시화합니다. 어디가 망가질 수 있고, 그걸 어떻게 탐지할 수 있을지 보이게 됩니다.

퍼실리테이터는 예를 들어 이렇게 스케치할 수 있습니다.

  • 사용자 → API Gateway → Auth Service → Payments Service → Database
  • 한쪽에 위치한 서드파티(3rd-party) 프로바이더
  • 모니터링, 로깅, 알림 채널을 나타내는 간단한 아이콘들

보드 위에서 특정 서비스가 “빨갛게” 표시되는 순간, 사람들은 즉시 그 영향 경로를 눈으로 확인합니다. 논의는 이론에서 벗어나 곧바로 “Auth가 죽으면 어떤 알람이 뜨지? 누가 페이지를 받지? 고객에겐 뭐라고 말하지?” 같은 현실적인 질문으로 이동합니다.

게임 메커닉: 도전과 제약 조건

현실감 있고 몰입감 있게 만들려면, 가벼운 게임 메커닉을 얹을 수 있습니다.

  • 시간 압박 – 각 턴은 실제 5–10분을 의미합니다. 문제가 해결되지 않을수록 고객 영향은 커집니다.
  • 제한된 정보 – 매 턴마다 볼 수 있는 로그나 메트릭은 일부뿐입니다. 다음에 무엇을 봐야 할지 스스로 결정해야 합니다.
  • 트레이드오프 – 롤백, 페일오버, 사용자 액션 차단과 같은 선택에는, 보드에 그려지는 결과(부작용)가 따라옵니다.

시나리오를 게임처럼 플레이하면서 팀은 실제 인시던트의 긴장감과 모호성을 경험하지만, 실제 장애에서처럼 혼돈에 휘말리지는 않습니다.


사이버 인시던트 대응(CIR) 계획을 안전하게 점검하기

사이버 인시던트 대응(CIR) 계획의 품질은, 문서에 어떻게 써 있느냐가 아니라 실제로 실행할 수 있느냐에 달려 있습니다. 칠판 시뮬레이션은 실제 시스템을 건드리지 않고 CIR 워크플로를 시험·개선하기에 이상적입니다.

테이블탑 세션에서 무엇을 점검할까

연습을 통해 다음과 같은 질문을 찔러볼 수 있습니다.

  • 탐지(Detection) – 인시던트는 어떻게 포착되나요? 어떤 알람이 뜨고, 누가 제일 먼저 보나요?
  • 트리아지(Triage) – 심각도를 어떻게 판정하나요? 이건 보안 이슈인가요, 신뢰성 이슈인가요, 아니면 둘 다인가요?
  • 역할(Role) – 누가 인시던트 커맨더가 되나요? 내부 커뮤니케이션, 외부 커뮤니케이션, 기술 조사 담당은 누구인가요?
  • 에스컬레이션 – 언제, 어떤 방식으로 보안, 법무, PR, 리더십, 벤더를 끌어들이나요?
  • 문서화 – 실제로 어떤 런북·플레이북·다이어그램을 참고하나요? 혹은 아무것도 안 보나요?
  • 결정 권한 – 리전 차단, 기능 비활성화처럼 리스크가 큰 완화 조치를 누가 승인할 수 있나요?

세션에서 드러나는 망설임, 혼란, 의견 충돌은 전부 금덩이 같은 힌트입니다. CIR 계획의 어느 부분을 더 명확히 쓰고, 단순화하고, 교육해야 하는지 정확히 알려 줍니다.


압박 속에서 커뮤니케이션과 의사결정을 연습하기

대부분의 포스트모템은 “대시보드가 없었다”기보다 커뮤니케이션 붕괴와 느린 의사결정을 문제로 지적합니다.

칠판 연습은 인시던트의 인간적인 측면을 연습하기에 아주 좋습니다.

  • 상태 공유(Status Update) – 10–15분마다 누군가가 현재 상황을 간결하게 브리핑할 수 있나요?
  • 채널 규율 – 인시던트 조정을 위한 채널과 일반 잡담 채널을 모두가 구분하나요?
  • 갈등 관리 – 서로 다른 가설이나 리더십의 압박이 있을 때 팀은 어떻게 대응하나요?
  • 정보 요청 처리 – 인시던트 커맨더는 엔지니어를 잡음에서 보호하면서도 이해관계자에게 필요한 정보를 제공할 수 있나요?

환경이 가볍고 놀이 같기 때문에, 팀은 새로운 커뮤니케이션 패턴을 시도해 보고, 익숙하지 않은 역할도 맡아 보고, 무엇이 헷갈리거나 스트레스를 주는지 솔직하게 피드백하기 쉬워집니다.


참여 허들을 낮추기

전통적인 인시던트 드릴은 위압적으로 느껴질 수 있습니다. 전문 용어, 과한 형식, 평가받는 데 대한 두려움 때문입니다. 반대로 손그림 게임은 가볍고 접근성이 좋습니다.

왜 ‘놀이’ 형식이 먹히는가

  • 저기술(Low-tech) – 펜과 종이만 있으면 누구나 참여할 수 있고, 특정 툴 사용법을 몰라도 됩니다.
  • 심리적 안전감 – 이것이 명백히 시뮬레이션이라는 걸 모두가 압니다. 실수는 평가 대상이 아니라 학습 기회가 됩니다.
  • 크로스 펑셔널 친화적 – PM, 고객 지원, 보안 분석가, 리더십까지 모두 함께 참여할 수 있습니다.

실제 인시던트는 본질적으로 크로스 펑셔널합니다. 엔지니어가 아닌 사람들을 게임에 포함시키면 다음과 같은 효과가 있습니다.

  • 고객 지원이나 PR을 언제, 어떻게 개입시켜야 할지 더 명확해집니다.
  • 제품이나 리더십이 기술적 리스크를 어떻게 해석하는지의 간극이 드러납니다.
  • 심각도, 영향 범위, 트레이드오프에 대한 공유 언어를 만들 수 있습니다.

시각과 역할이 다양할수록, 조직 전체의 실제 대응도 더 현실에 가까워집니다.


SRE와 DevOps 실무로 인사이트 되돌려주기

칠판 연습은 단발성 워크숍이 아니라, 신뢰성과 보안 작업을 위한 요구사항의 원천입니다.

각 세션 후에는 다음을 정리해 두세요.

  • CIR 계획 개선점 – 역할 정의, 에스컬레이션 경로, 심각도 기준 등 수정 사항
  • 런북 필요 항목 – 모두가 즉흥으로 처리했지만 사실은 문서화되어야 할 단계들
  • 모니터링 갭“여기서 X를 보고 싶다고 했는데, 우리 그거 수집하고 있나?” 같은 질문들
  • 툴링 개선 – 누락된 대시보드, 알람 라우팅, 온콜 로테이션 이슈 등
  • 교육 주제 – 블라스트 레디어스, 컨테인먼트, 포렌식처럼 사람들이 특히 어려워한 개념들

이 인사이트는 SRE와 DevOps 백로그의 액션 아이템으로 반영해야 합니다. 시간이 지나면서 실제 시스템, 대시보드, 플레이북이 인시던트 중 사람들의 실제 행동과 점점 더 잘 맞물리게 됩니다.


반복을 통해 조직의 근육 기억 만들기

칠판 세션 한 번도 의미는 있습니다. 하지만 여러 번 꾸준히 하면 진짜로 변화를 만듭니다.

‘신뢰할 수 있는 의식’으로 만들기

근육 기억을 만들려면:

  • 정기적으로 세션을 운영하세요 – 월간 또는 분기별로, 리스크 영역이나 주요 출시 일정과 맞춰 진행합니다.
  • 시나리오를 바꿔가며 진행하세요 – 단순 장애, 보안 침해, 소프트웨어 공급망 이슈, 서드파티 장애 등을 두루 다룹니다.
  • 참여자를 순환시키세요 – 팀, 타임존, 직급을 바꿔 가며 포함합니다.
  • 퍼포먼스가 아닌 학습을 측정하세요 – 이전 세션에서 제기된 질문이 이후에 해결되었는지 추적합니다.

여러 차례 진행하다 보면 다음과 같은 변화를 보게 됩니다.

  • 새 시나리오가 시작되면 역할을 더 빠르고 명확하게 채택합니다.
  • 시뮬레이션된 시간 압박 속에서도 더 자신 있게 결정을 내립니다.
  • 기술적 완화 조치와 비즈니스 영향 간의 정렬이 눈에 띄게 좋아집니다.

이게 바로 조직 차원의 근육 기억입니다. 일이 잘못될 때 자동으로 발동되는, 일관되고 숙련된 행동 패턴입니다.


첫 번째 칠판 신뢰성 게임을 여는 방법

거창한 프로그램이 필요 없습니다. 이 정도만 있으면 시작할 수 있습니다.

  1. 단순한 시스템을 고르세요
    로그인, 결제, API Gateway 같은, 모두가 잘 아는 서비스나 워크플로를 선택합니다.

  2. 아키텍처를 그립니다
    화이트보드나 온라인 캔버스에 주요 컴포넌트와 데이터 흐름을 스케치합니다.

  3. 시나리오를 정의합니다
    예: “평소와 다른 트래픽이 알람을 촉발한다. 일부 사용자는 잘못된 계정으로 로그인된 상태라고 신고한다.”

  4. 역할을 할당합니다
    인시던트 커맨더, 온콜 엔지니어, 보안 담당, 커뮤니케이션 담당, PO 정도로 가볍게 구성합니다.

  5. 턴을 나눠 시뮬레이션을 진행합니다

    • 매 턴마다 새로운 단서나 이벤트를 제시합니다.
    • “다음에 무엇을 하시겠습니까?”라고 묻습니다.
    • 선택한 액션과 그 결과를 보드에 함께 그립니다.
  6. 충분히 디브리프합니다

    • 무엇이 잘 작동했나요?
    • 어디서 헷갈렸나요?
    • CIR 계획, 런북, 툴링에서 무엇을 바꿔야 할까요?

디브리프에서 나온 내용을 티켓과 후속 작업으로 옮기고, 바로 다음 세션 일정을 잡으세요.


결론: 칠판에서 연습하고, 프로덕션에서 공연하라

모든 사이버 인시던트나 장애를 막을 수는 없습니다. 하지만 첫 진짜 연습을 실제 고객 앞에서 할지, 아니면 칠판 위에서 미리 할지는 선택할 수 있습니다.

손그림 신뢰성 게임을 활용하면 다음을 할 수 있습니다.

  • 인시던트가 프로덕션에 도달하기 전에 안전하게 시뮬레이션할 수 있습니다.
  • 추상적인 신뢰성 개념을 구체적이고 공유된 이해로 바꿀 수 있습니다.
  • 시스템과 데이터에 위험을 주지 않고 사이버 인시던트 대응 계획을 시험·개선할 수 있습니다.
  • 커뮤니케이션, 의사결정, 크로스 펑셔널 협업을 강화할 수 있습니다.
  • 인사이트를 SRE와 DevOps 실무에 다시 반영해, 실제 시스템과 플레이북을 개선할 수 있습니다.
  • 진짜 위기 상황에서 작동하는 조직의 근육 기억을 구축할 수 있습니다.

작게 시작하세요. 하나의 시스템, 하나의 시나리오, 하나의 화이트보드면 충분합니다. 게임을 한 번 할 때마다, 아직은 상상 속에 불과한 인시던트에 대해 조직은 조금씩 더 잘 준비된 상태가 됩니다. 그리고 언젠가 진짜 인시던트가 왔을 때, 그동안 연습해 둔 대응이 결정적인 차이를 만들어 줄 것입니다.

칠판 신뢰성 놀이터: 손그림 게임으로 더 안전한 인시던트를 프로토타이핑하기 | Rain Lag