Rain Lag

아날로그 신뢰성 스토리 미궁: 사건이 실제로 전개되는 방식을 탐색하는 종이 미로 설계하기

단순한 종이 미로가 어떻게 사고 대응 훈련을 바꾸고, 숨겨진 의존성과 취약한 가정, 그리고 실제 실패 경로를 위기가 오기 훨씬 전에 드러내는지 살펴봅니다.

아날로그 신뢰성 스토리 미궁: 사건이 실제로 전개되는 방식을 탐색하는 종이 미로 설계하기

디지털 시스템의 실패는 지저분하고 비선형적으로 일어납니다. 그런데 대부분의 인시던트(incident) 대응 훈련은 여전히 일직선입니다. 1단계, 2단계, 3단계, 해결.

현실은 미궁입니다.

에스컬레이션은 팀 사이를 튕기듯 오가고, 내렸던 결정은 뒤집히며, 모니터링 도구들은 서로 다른 말을 하고, 부분적인 수정은 새로운 문제를 만들어 냅니다. 훈련이 깔끔하고 직선적인 런북(runbook)만 따라간다면, 실제로는 존재하지 않는 세계를 위한 연습을 하는 셈입니다.

여기서 등장하는 것이 바로 아날로그 신뢰성 스토리 미궁—종이에 기반한 미로 시뮬레이션입니다. 비용이 거의 들지 않고, 빠르게 반복할 수 있으며, 인시던트가 실제로 어떻게 전개되는지를 놀라울 만큼 잘 드러냅니다.

이 글에서는 종이 미로를 설계하고 활용하는 방법을 살펴보며, 이를 통해 다음을 가능하게 합니다.

  • 비싼 인프라 없이도 복잡한 인시던트 리허설하기
  • 분기 경로, 막다른 길, 피드백 루프를 시각화하기
  • 숨겨진 의존성과 취약한 가정 드러내기
  • 고충실도 시뮬레이션에 투자하기 전에 시나리오 프로토타이핑하기
  • 아날로그와 디지털 도구를 결합해 더 깊은 현실감 확보하기
  • 각 실행을 데이터로 삼아 실제 대응 역량을 향상시키기

왜 인시던트 대응에 종이 미로인가?

오늘날 인시던트 대응 훈련은 종종 현실감을 지향합니다. 풀 스택 게임데이(game day), 카오스 엔지니어링(chaos engineering), AI 기반 시뮬레이션 등입니다. 이 모두는 가치 있지만, 동시에 비용이 많이 들고, 시간이 오래 걸리며, 빠르게 반복하기 어렵습니다.

종이 미로는 이를 보완하는 대안입니다.

  • 저비용: 필요한 것은 종이, 펜, 그리고 한 공간(실제 회의실이나 온라인 화이트보드)이면 됩니다.
  • 고유연성: 시나리오를 즉석에서 바꾸고, 새로운 방향으로 분기시키고, 실제 시스템은 건드리지 않은 채 "만약에" 경로를 마음껏 탐색할 수 있습니다.
  • 심리적 안전감: 누구나 위험이 분명히 낮을 때 더 자유롭게 실험하고, 실패하고, 기본적인 질문을 던집니다.
  • 빠른 학습: 한 세션 안에 여러 번 반복 실행할 수 있고, 그때그때 발견한 내용을 반영해 미로를 개선할 수 있습니다.

종이 미로를 인시던트 훈련의 빠른 프로토타이핑 레이어라고 생각해도 좋습니다. 거창한 시뮬레이션을 위해 도구, API, 인프라를 엮기 전에, 펜과 포스트잇 몇 장으로 실패의 "이야기 공간"을 먼저 탐색해 보는 것입니다.


런북에서 미궁으로: 인시던트가 실제로 전개되는 방식 모델링하기

런북은 대개 다음과 같은 명확한 경로를 전제합니다.

  1. 인시던트 감지
  2. 이슈 진단
  3. 수정 조치 적용
  4. 검증 후 종료

하지만 실제 인시던트는 대개 이렇게 보입니다.

  • 모니터링이 잘못된 경보를 쏘고 → 무시되고 → 실제 문제가 나중에 드러난다.
  • 두 팀이 서로 상충하는 완화책을 적용 → 부분 롤백 → 새로운 실패 모드 등장
  • 핵심 의존성(예: 피처 플래그 시스템, 인증 서비스)이 인시던트 도중에 고장난다.
  • 커뮤니케이션이 깨지고, 모두가 오래된 정보를 바탕으로 행동한다.

종이 미로는 이런 복잡성을 눈에 보이게 만듭니다. 인시던트를 다음과 같이 시각화합니다.

  • 분기(branch): 서로 다른 결정이나 관찰이 다른 경로로 이어지는 지점
  • 막다른 길(dead end): 해결에 기여하지 못하거나 상황을 악화시키는 행동
  • 루프(loop): 같은 수정을 반복 시도하거나, 에스컬레이션이 뱅글뱅글 돌거나, 닫혔던 인시던트가 재오픈되는 상황

팀이 미로를 따라 걸어가다 보면, 해피 패스(happy path)만이 아니라 그 과정에서 얼마나 다양한 방식으로 상황이 틀어질 수 있는지 자연스럽게 보게 됩니다.


종이 인시던트 미로 설계 방법

유용한 인시던트 미궁을 만드는 데 미술 실력은 필요 없습니다. 필요한 것은 구조, 제약, 그리고 분명한 이야기입니다.

1. 핵심 실패 스토리부터 시작하기

짧고 구체적인 실패 시나리오 하나로 시작합니다. 예를 들어:

"주요 클라우드 제공자의 특정 리전 장애로 EU 지역 사용자 로그인 지연이 발생한다. 캐시가 일부 영향을 가리고 있지만, 백그라운드 잡이 전체 시스템에서 실패하기 시작한다."

이것이 미로의 중심입니다. 실제로 시스템에서 무슨 일이 벌어지고 있는지를 나타내는 "진실"입니다.

2. 핵심 불확실성 축 정의하기

질문해 봅니다. 이 인시던트가 인지·처리되는 방식에서 무엇이 달라질 수 있는가?

  • 시그널(signals): 사람들이 어떤 모니터링 알림, 고객 제보, 로그를 보게 될까?
  • 액터(actors): 어떤 팀들이 관여할까? SRE, 애플리케이션 팀, 보안팀, 고객지원팀 등.
  • 제약(constraints): 시간 압박, 온콜(on-call) 교대, 부재 인력, 도구 성능 저하 등.

이 요소들이 미로 안의 분기점조건부 경로가 됩니다.

3. 결정을 중심으로 한 그래프로 미로 그리기

화이트보드나 포스트잇을 사용해 다음을 정리합니다.

  • 노드(node): 인시던트의 상태 (예: "로그인 실패 인지", "EU 트래픽 우회", "롤백 시도 실패").
  • 엣지(edge): 인시던트가 한 상태에서 다른 상태로 이동하게 하는 결정이나 트리거 (예: "SRE에 에스컬레이션할 것인가?", "이 대시보드를 신뢰할 것인가?", "롤백 vs 롤포워드?").
  • 특수 노드:
    • 막다른 길: "수정이 통하는 것처럼 보이지만, 근본 원인은 그대로"
    • 루프: "새 알림으로 인해 인시던트를 다시 연다"
    • 지름길: "시니어 엔지니어가 이전 장애에서 같은 패턴을 알아본다"

목표는 예쁘게 그리는 것이 아니라, 현실적인 복잡성을 포착하는 것입니다.

4. 숨겨진 의존성 심기

미로를 활용해 선형 런북에서는 잘 드러나지 않는 요소들을 표면으로 끌어냅니다. 예를 들면:

  • 특정 완화책은 두 팀의 협업(접근 권한, 승인 등)을 전제로 한다.
  • 핵심 도구(대시보드, CI, 피처 플래그 서비스)가 부분적으로 다운되어 있다.
  • 중요한 의사결정권자가 근무 시간이 아니어서 바로 잡히지 않는다.
  • 서드파티 API 같은 의존성이 실패 중이지만, 메트릭에는 명확히 드러나지 않는다.

이런 요소를 조건부 분기로 배치합니다.

  • "피처 플래그 시스템이 다운이면, 설정 변경 롤아웃은 불가능 → 다른 경로로 이동해야 한다."
  • "보안팀 호출이 늦어지면, 컴플라이언스 승인이 지연되어 완화책 적용도 늦어진다."

이 과정을 통해 팀·도구·프로세스 사이의 낡은 배선이 드러납니다.

5. 시간과 압박 추가하기

인시던트는 시간에 의해 크게 좌우됩니다. 미로에 시간을 통합해 보세요.

  • 소프트 타이머: N번의 이동·결정 이후, 새로운 증상이나 이해관계자의 압박을 추가합니다.
  • 트레이드오프: 더 빠른 해결 vs 새로운 회귀(regression) 리스크, 로컬 최적화 vs 전체 최적화.

이런 제약이 미로를 단순 퍼즐이 아니라 현실적인 위기 리허설로 바꿔 줍니다.


팀을 미궁 속으로 안내하기

초안 미로가 준비되면, 이를 테이블탑(tabletop) 연습처럼 사용해 봅니다.

고려할 역할들

  • 퍼실리테이터(미로 마스터): 노드를 공개하고, 규칙을 적용하고, 시간을 기록하며, 결정을 기록합니다.
  • 인시던트 팀: 온콜 엔지니어, 테크 리드, 매니저, 커뮤니케이션/CS 담당 등 실제 인시던트에 참여할 사람들.
  • 옵저버 / 기록자: 커뮤니케이션 패턴, 혼란 지점, 놀라운 부분을 관찰·기록합니다.

세션 진행 흐름

  1. 컨텍스트 설정: 환경과 정상 운영 상태를 짧게 설명합니다.
  2. 첫 노드 공개: 첫 시그널을 제시합니다. 애매한 알림일 수도, 고객 불만일 수도 있습니다.
  3. 팀에 질문: "다음에 무엇을 하시겠습니까?" 퍼실리테이터는 답변을 미로의 분기와 매핑하고, 그에 따라 다음 노드로 이동시킵니다.
  4. 결과 공개: 각 새 노드는 새로운 정보, 제약, 이전 결정의 부작용 등을 제공합니다.
  5. 해결 또는 실패에 도달할 때까지 반복: 팀은 여러 가지 가능한 엔딩 중 하나에 도달할 수 있습니다.
    • 근본 원인까지 파악한 완전한 해결
    • 임시 완화책만 적용된 상태
    • 오진(misdiagnosis)으로 인해 위험이 남아 있는 상태
    • 조직 내 더 높은 레벨로의 에스컬레이션

여기서 중요한 것은 "미로를 깨는 것"이 아니라, 팀이 그 미로를 어떻게 탐색하는가입니다.


종이 미로가 런북이 못 보여주는 것들

팀이 미궁을 따라가며 보게 되는 것들:

  • 커뮤니케이션의 빈틈: 누가 언제 무엇을 알고 있다고 가정하는가? 상태 정보는 어디에서 사라지는가?
  • 불분명한 역할: 누가 트레이드오프 결정을 내리는가? 누가 고객과 소통하는가? 누가 위험한 완화책을 승인할 권한이 있는가?
  • 취약한 가정: "이 대시보드는 항상 정확하다.", "우리는 언제든 롤백할 수 있다.", "보안팀은 10분 안에 응답할 것이다."
  • 숨겨진 의존성: 모두가 의존하지만, 아무도 명시적으로 계획하지 않은 도구·팀·프로세스.

이러한 통찰은 고충실도 연습을 시작하기 에 드러나는 경우가 많아, 시간과 정렬 비용을 아끼는 데 큰 도움이 됩니다.


아날로그와 디지털의 결합: 함께할 때 더 강해진다

아날로그 미로는 디지털 또는 AI 기반 시뮬레이션을 대체하는 것이 아니라, 증폭시키는 역할을 합니다.

다음과 같은 워크플로를 생각해 볼 수 있습니다.

  1. 아날로그로 시작: 종이 미로를 사용해 가능한 인시던트 내러티브 공간을 탐색합니다. 주요 분기, 흔한 함정, 중요한 의존성을 식별합니다.
  2. 데이터로 정교화: 과거 인시던트 데이터, 실제 메트릭 동작, 알려진 실패 패턴을 미로에 녹여 넣습니다.
  3. 가치 높은 경로의 디지털화: 영향도가 큰 분기를 골라 다음과 같이 옮깁니다.
    • 자동화된 게임데이
    • 카오스 엔지니어링 실험
    • AI 기반 시나리오 생성기
  4. 결과를 다시 피드백: 디지털 연습에서 나온 학습 내용을 아날로그 미로에 반영해, 내용을 보강합니다.

이 하이브리드 접근은 다음을 제공합니다.

  • 아날로그 설계의 속도와 유연성
  • 디지털 실행의 정밀함과 재현성
  • 엔지니어링, 리더십, 지원 조직이 함께 쓸 수 있는 공유된 내러티브 언어

각 미로 실행을 데이터로 다루기

우리는 단순히 이야기를 꾸미는 것이 아니라, 조직의 신뢰성에 대한 데이터를 수집하고 있습니다.

각 실행마다 다음을 기록해 보세요.

  • 이동 경로: 팀이 어떤 분기를 택했는가? 어디에서 머뭇거리거나 되돌아갔는가?
  • 의사결정 지점: 가장 많은 논쟁이나 혼란을 일으킨 선택은 무엇인가?
  • 실패 모드: 어떤 오진, 잘못된 선택, 해로운 가정이 드러났는가?
  • 커뮤니케이션 패턴: 누가 가장 많이 말하는가? 누가 계속 침묵하는가? 이해관계자는 언제, 어떻게 참여하는가?

여러 번의 실행을 거치면 다음이 가능합니다.

  • 도구, 프로세스, 문화 전반에서 되풀이되는 약한 고리를 발견
  • 시간에 따른 개선을 벤치마킹 (예: 핵심 패턴을 더 빨리 인지하는지 여부)
  • 타깃팅된 투자 유도 (새 대시보드, 더 명확한 에스컬레이션 경로, 더 나은 문서 등)

이 미로는 단순 훈련을 넘어, 인시던트 대응 시스템을 이해하고 개선하기 위한 계측 도구가 됩니다.


시작을 위한 최소 실행 플레이북

자신의 조직에서 이 방법을 시도해 보려면:

  1. 실제 과거 인시던트(또는 그럴듯한 근접 사고)를 핵심 스토리로 하나 고릅니다.
  2. 노드 10–20개 정도 스케치: 시그널, 행동, 결과를 적어봅니다. 완벽함은 목표가 아닙니다.
  3. 크리티컬 분기 3–5개를 하이라이트: 상황이 전혀 달라질 수 있었던 지점들입니다.
  4. 60–90분 세션을 소규모 크로스펑셔널 그룹과 진행합니다.
  5. 명시적인 디브리핑:
    • 무엇이 놀라웠는가?
    • 어떤 가정이 틀린 것으로 드러났는가?
    • 프로세스, 도구, 교육 중 무엇을 바꾸고 싶은가?
  6. 학습 내용을 반영해 미로를 수정하고, 다른 팀과 다시 실행합니다.

단 한 장의 종이와 몇 개의 결정 포인트만으로도 시작할 수 있고, 조직의 연습 수준이 성숙해짐에 따라 점차 복잡성을 키워갈 수 있습니다.


결론: 미궁이 당신을 찾기 전에 먼저 탐색하라

인시던트는 거의 결코 깔끔하고 직선적인 경로를 따르지 않습니다. 그것은 조직 구조, 도구의 특성, 사람 사이의 역학을 가로질러 꼬불꼬불 흘러갑니다. 정돈된 버전만을 훈련한다면, 신뢰성을 운에 맡기는 셈입니다.

인시던트가 실제로 전개되는 방식을 모델링한 아날로그 신뢰성 스토리 미궁—종이 미로를 설계하는 것은 다음을 가능하게 하는 강력하고 저비용의 방법입니다.

  • 숨겨진 의존성과 취약한 가정을 드러내기
  • 불확실성과 압박 속에서 의사결정을 연습하기
  • 복잡한 시뮬레이션에 투자하기 전에 시나리오를 프로토타입하기
  • 디지털 도구와 결합해 더 풍부하고 현실적인 연습을 만들기
  • 모든 리허설을 조직에 대한 액션 가능한 데이터로 전환하기

지금 종이 위에서 미로를 먼저 걸어보십시오. 그러면 실제 프로덕션에서 진짜 미궁이 나타났을 때, 이미 그 길을 헤쳐 나가는 방법을 몸으로 익힌 팀이 되어 있을 것입니다.

아날로그 신뢰성 스토리 미궁: 사건이 실제로 전개되는 방식을 탐색하는 종이 미로 설계하기 | Rain Lag