Rain Lag

아날로그 인시던트 타로: 다음 프로덕션 장애를 위한 물리적 운명 카드 디자인하기

타로 카드 스타일의 ‘운명 카드’를 활용해 장애 대응 연습을 협업적이고, 부담 낮고, 재미있는 게임으로 바꾸어 역량, 심리적 안전감, 그리고 시스템 회복탄력성을 높이는 방법을 소개합니다.

아날로그 인시던트 타로: 다음 프로덕션 장애를 위한 물리적 운명 카드 디자인하기

현대적인 인시던트 대응은 대시보드, 알람, 런북으로 가득 차 있지만, 묘하게도 **‘놀이’**는 거의 없습니다. 장애를 문서나 슬라이드로 연습하고, 가끔은 카오스 엔지니어링 실험도 해보지만, 손으로 만지고, 사람들과 마주 앉아 하는, 재미있는 도구는 잘 쓰지 않습니다.

여기서 등장하는 것이 바로 **아날로그 인시던트 타로(Analog Incident Tarot)**입니다. 이 물리적인 타로 스타일 카드 덱은 팀이 함께 테이블에 둘러앉아 장애를 리허설하고, 실패를 탐색하고, 사후 회고에서 얻은 인사이트를 풀어내도록 돕기 위해 설계되었습니다.

이게 신비주의 이야기는 아닙니다. 익숙한 게임적 의식을 활용해서 다음과 같은 효과를 얻는 것입니다.

  • 스트레스 높은 주제를 부담 낮은 연습으로 바꾸기
  • **회고(레트로)**를 게임처럼 만들되, 분석의 엄밀함은 유지하기
  • 행동과 패턴에 대한 공통 언어를 만들기
  • 주니어와 시니어 모두에게 인시던트 드릴을 접근 가능하게 만들기

다시 말해, 다음 프로덕션 장애를 위해 운명 카드를 디자인하는 작업입니다.


디지털 세상에 왜 아날로그 카드가 필요한가

대부분의 인시던트 도구는 디지털입니다. 모니터링 대시보드, Slack 봇, 온콜 스케줄러 같은 것들이죠. 그런데 왜 굳이 아날로그 카드를 들고와야 할까요?

1. 물리적 오브젝트는 사회적 역학을 바꾼다

카드를 건네고, 테이블 중앙에 내려놓고, 뒷면을 뒤집는 행위는 작은 의식을 만듭니다. 이 의식은 다음을 돕습니다.

  • 과열된 대화를 잠시 늦추고
  • 모두의 시선을 하나의 공유된 오브젝트에 모으고
  • 추상적인 문제를 더 구체적으로 느끼게 합니다.

여러 명이 모인 자리에서 카드는 권력 구조를 재분배하는 역할도 합니다. “리더십 발휘하기(Leadership Step-Up)” 혹은 “기본적인 질문하기(Ask the Basic Question)” 같은 카드를 뒤집는 주니어 엔지니어는, 시니어들이 주도하는 자유로운 토론보다 훨씬 자신 있게 참여할 수 있습니다.

2. 카드는 심리적 안전감에 기여한다

전통적인 포스트모템(Postmortem)은, 특히 책임 추궁 문화가 강한 조직에서는 심문처럼 느껴질 수 있습니다. 카드는 그 분위기를 바꿉니다.

  • 지금은 과거의 결정을 변호하는 자리가 아니라, 시나리오와 페르소나를 가지고 하는 게임입니다.
  • 초점이 “누가 실수했나?”에서 “시스템이 이런 카드를 받았을 때 어떻게 행동하나?”로 옮겨집니다.
  • 카드의 프롬프트와 페르소나는, 사람들에게 자기 보호 심리 없이 반응을 설명할 수 있는 언어를 제공합니다.

3. 특정 기술 스택에 종속되지 않는다

카드 덱은 여러분의 스택이 Kubernetes이든, 서버리스이든, 2009년식 모놀리식 애플리케이션이든 상관하지 않습니다. 카드는 개념을 담습니다. 상충하는 우선순위, 불완전한 가시성, 모호한 소유권, 예상치 못한 실패 모드 같은 것들이죠. 그래서 팀과 기술 스택이 달라져도 재사용 가능합니다.


나만의 아날로그 인시던트 타로 덱 만들기

덱은 크게 네 가지 슈트(suit)로 구성된다고 생각하면 됩니다.

  1. 인시던트 시나리오(운명 카드)
  2. 카오스 & 실패 수정자 카드
  3. 페르소나 & 행동 카드
  4. 리플렉션 & 회고 프롬프트 카드

각 슈트는 연습의 다른 단계를 지원합니다. 가상의(또는 실제 인시던트를 재구성한) 장애 상황을 시뮬레이션하는 것부터, 팀이 이에 어떻게 반응하는지 탐색하는 것까지 포함합니다.

1. 인시던트 시나리오(운명) 카드

이 카드들은 무대 세팅을 담당합니다. 상상의(혹은 재구성된 실제) 장애에서 무엇이 잘못되었는지를 정하는 카드입니다.

예시:

  • 침묵한 페이저(The Silent Pager) – 알람이 울리지 않거나 잘못 라우팅됨
  • 서서히 끓는 물(The Slow Boil) – 레이턴시가 몇 시간에 걸쳐 서서히 증가하며, 고객이 먼저 눈치챔
  • 유령 피처 플래그(The Phantom Feature Flag) – 잊혀진 플래그가 위험한 코드 경로를 다시 활성화함
  • 서드파티의 일식(The Third-Party Eclipse) – 외부 의존성이 성능 저하를 보이거나 완전히 장애를 일으킴
  • 스플릿 브레인(The Split Brain) – 로그·메트릭·트레이스 등 소스마다 진실이 서로 다름

각 카드는 다음을 묘사합니다.

  • 증상: 사용자와 시스템이 보여주는 현상
  • 초기 가시성: 모니터링/관측 도구에 처음에 보이는 것
  • 이해관계자 압력: 고객, 경영진, 외부 파트너의 압박

이 카드들은 실제 프로덕션 이슈의 지저분함과 복잡성을 흉내 내지만, 통제된 대화형 환경에서 다뤄지도록 도와줍니다.

2. 카오스 & 실패 수정자 카드

카오스 엔지니어링에서 아이디어를 빌려온 카드들로, 시스템을 직접 공격하는 대신 여러분의 **가정(assumption)**을 공격하는 방식으로 시나리오에 복잡성을 더합니다.

예시:

  • 사라진 런북(The Missing Runbook) – 문서화된 플레이북이 오래됐거나 아예 사라짐
  • 롤백 불가 트위스트(The No-Rollback Twist) – 데이터/계약 변경 때문에 롤백이 불가능함
  • 툴 장애(The Tool Outage) – 주요 관측(Observability) 도구가 성능 저하 또는 장애 상태
  • 의외의 결합(The Surprise Coupling) – “관련 없어 보이던” 서비스가 사실상 핵심 의존성이었음
  • 주말 근무(The Weekend Shift) – 최소 인력만 온콜, 시니어 대응자는 대부분 부재

이 카드들을 활용해 이런 질문을 던질 수 있습니다.

  • 눈앞에 보이는 가장 쉬운 해결 경로가 막혔을 때, 팀은 어떻게 대응하는가?
  • 어떤 시스템적 약점이 드러나는가?
  • 어떤 안전망(safety net)에 대한 가정이 이 트위스트 아래에서 무너지는가?

이는 기계(시스템)를 대상으로 하는 카오스 테스트가 아니라, 사고방식과 프로세스를 대상으로 하는 카오스 테스트입니다.

3. 페르소나 & 행동 카드

Lean Tarot의 18 페르소나 같은 덱에서 영감을 얻은 카드로, 인시던트 동안 나타나는 팀의 전형적인 행동 양식과 아키타입을 표현합니다.

예시:

  • 히어로(The Hero) – 상황을 장악하고 혼자 해결하며, 문맥을 독점함
  • 옵티마이저(The Optimizer) – 인시던트 도중에도 “이번 기회에 제대로 고치자”며 리팩터링을 하려 함
  • 내레이터(The Narrator) – 소통을 잘하고 모두를 정렬시킴
  • 회의론자(The Skeptic) – 가정을 의심하고 더 많은 근거를 요구함
  • 사라지는 자(The Vanisher) – 압박이 커질수록 조용히 사라짐
  • 스코프 수호자(The Guardian of Scope) – 범위 확장과 산만함으로부터 팀을 보호함

이 카드들은 두 가지 강력한 방식으로 활용할 수 있습니다.

  1. 드릴 중 롤플레이
    연습 시작 시 각자에게 페르소나 카드를 한 장씩 배정합니다. 사람들이 그 아키타입을 충분히 연기해보도록 요청하고, 그 결과 팀 다이내믹이 어떻게 변하는지 관찰합니다.

  2. 실제 인시던트의 패턴 인식
    실제 인시던트 이후, 페르소나 카드를 펼쳐놓고 질문합니다.

    • 어떤 페르소나들이 실제로 등장했는가?
    • 어떤 페르소나는 부재했는가? (예: 아무도 내레이터 역할을 하지 않았다)
    • 어떤 페르소나에 과도하게 기대했는가? (예: 히어로가 너무 많았다)

페르소나 카드는 특정 개인이 아니라 행동 패턴 자체를 이야기하게 해주므로, 방어적 태도를 완화하고 심리적 안전감을 높이는 데 도움이 됩니다.

4. 리플렉션 & 회고 프롬프트 카드

이 카드들은 일종의 “메이저 아르카나(major arcana)”입니다. 시뮬레이션 또는 실제 인시던트 후의 탐구를 이끄는 강력한 질문 카드입니다.

예시:

  • 숨은 의존성(The Hidden Dependency) – “이 인시던트에 영향을 준 보이지 않는(비공식적인) 의존성은 무엇이었나?”
  • 첫 번째 잘못된 단서(The First Misleading Clue) – “우리를 잘못된 방향으로 이끈 신호는 무엇이었나?”
  • 느려졌어야 할 대화(The Slowed Down Conversation) – “어디서 잠시 멈추고 재정렬했어야 했나?”
  • 트레이드오프 장부(The Trade-Off Ledger) – “이번 상황에서 드러난 안정성 vs 속도(릴리스 속도) 간의 트레이드오프는 무엇이었나?”
  • 기억하는 시스템(The System That Remembered) – “어떤 로그/메트릭/트레이스가 도움이 되었나? 어떻게 더 나아질 수 있을까?”
  • 잊어버린 시스템(The System That Forgot) – “어디에서 도구나 문서가 우리를 버렸나?”

이 카드를 활용해 포스트 인시던트 대화를 구조화하면, “뭐가 잘못됐지?” 같은 막연한 질문 대신, 재사용 가능한 구체적인 관점으로 사건을 탐구할 수 있습니다.


인시던트 타로 세션 진행 방법

다음은 팀 드릴, 온보딩, 또는 실제 인시던트 후 리뷰에 적용할 수 있는 기본적인 진행 흐름입니다.

1단계: 프레임 설정하기

목표를 명확히 설명합니다.

  • 여기는 평가받는 자리가 아니라, 연습 공간입니다.
  • 목적은 사람을 탓하는 것이 아니라, 시스템과 행동을 탐구하는 것입니다.
  • 카드를 사용해 패턴과 공백을 함께 발견하려는 것입니다.

2단계: 운명 카드 뽑기

  1. 인시던트 시나리오 카드를 한 장 뽑습니다.
  2. 상황을 복잡하게 만들기 위해 카오스 수정자 카드를 1~2장 더 뽑습니다.

퍼실리테이터는 시나리오를 큰 소리로 읽고, 필요한 만큼 질문에 답하되, 너무 구체적으로 규정하려는 유혹은 참아야 합니다. 애매함 자체가 학습의 일부이기 때문입니다.

3단계: 페르소나 배정하기 (선택이지만 효과적)

  • 각 참가자에게 페르소나 카드를 한 장씩 나눠주거나, 뽑게 합니다.
  • 모두가 그 아키타입을 충분히 연기하도록 권장하되, 심리적 안전을 해치지 않는 선에서 진행해야 합니다. 필요하면 언제든 캐릭터를 벗어나 명확하게 설명해도 좋습니다.

4단계: 인시던트 플레이하기

20~40분 정도 시간을 주고, 팀이 다음을 논의하게 합니다.

  • 이 이슈를 어떻게 감지하고, 진단할 것인가
  • 누가 무엇을 맡을지(Incident Commander, 커뮤니케이션 담당, 도메인 전문가 등)
  • 어떤 완화(mitigation) 옵션과 트레이드오프가 있는지 단계별로 살펴보기

여기에 약간의 구조를 더할 수도 있습니다.

  • 시간을 단계별로 타임박스하기 (탐지 → 트리아지 → 완화 → 후속 조치)
  • 중간에 새로운 카드를 추가하기 (예: “20분 시점에 카오스 카드를 한 장 더 뽑으세요”)
  • 내레이터 페르소나에게 주기적으로 “지금까지의 스토리”를 요약하게 하기

5단계: 리플렉션 카드로 돌아보기

시나리오를 한 바퀴 돌린 뒤 리플렉션 카드를 뽑고 함께 논의합니다.

  • 무엇이 가장 놀라웠는가?
  • 어디에서 커뮤니케이션이 끊겼는가?
  • 어떤 문서나 도구가 있었으면 도움이 되었을까?
  • 이 시나리오에서 어떤 페르소나가 가장/가장 덜 도움이 되었는가?

일반적인 레트로와 마찬가지로, 메모를 남기고, 액션 아이템과 시스템 차원의 개선 사항을 도출합니다. 다만, 이 방식은 대화가 구체적이고, 상호작용적이며, 게임처럼 느껴지기 때문에 사람들의 몰입도가 훨씬 높게 유지되는 경우가 많습니다.


뉴커머와 베테랑 모두에게 주는 이점

카드 기반 인시던트 게임은 경험 수준과 관계없이 효과가 있습니다.

**초심자(주니어 / 온보딩 중인 인원)**에게는:

  • 구체적인 시나리오가 “틀린 말을 할까 봐” 생기는 두려움을 줄여줍니다.
  • 페르소나 카드는 의지할 수 있는 정해진 역할과 대본을 제공합니다.
  • 실제 장애를 겪기 전에, 인시던트의 리듬과 흐름을 미리 연습해 볼 수 있습니다.

숙련된 시니어 / 베테랑에게는:

  • 카오스 수정자 카드가 평소에는 드러나지 않던 취약한 가정을 수면 위로 끌어올립니다.
  • 리플렉션 카드는 기술적 루트코즈를 넘어, 조직 차원의 학습으로 사고를 확장하게 만듭니다.
  • 페르소나는 리더십, 커뮤니케이션, 협업 상의 격차를 드러내줍니다.

공유된 카드 포맷은 팀에 공통 언어도 제공합니다. 예를 들어, 실제 인시던트에서 “또 히어로 셋이 동시에 등장했네”라든가, “어제 밤엔 완전히 ‘사라진 런북’ 카드 상황이었어” 같은 표현을 쓰게 됩니다. 이 말들이 게임을 넘어 실제 상황에서도 행동을 바꾸는 데 영향을 줍니다.


비난에서 시스템 사고로

아날로그 인시던트 타로 덱의 가장 깊은 가치는 문화적 전환에 있습니다.

  • “누가 잘못했나?” 대신, “시스템이 우리에게 어떤 카드를 건넸고, 우리는 어떻게 응답했나?”를 묻습니다.
  • 실수를 숨기기보다, 미래에 다시 일어날 수 있는 가능성으로 바라보고 연습합니다.
  • 영웅적인 불끄기(소방수식 대응)만 칭찬하던 문화를 넘어, 내레이션, 회의적 질문, 스코프 수호 같은 행동도 동등하게 가치 있게 다룹니다.

인시던트 연습을 놀이처럼, 물리적인 카드로, 구조화된 방식으로 만들면, 감정적인 긴장은 낮추면서도 학습의 강도는 높게 유지할 수 있습니다.


결론: 섞고, 뽑고, 배우기

다음에 인시던트 드릴을 설계하거나 레트로를 준비할 때, 슬라이드 덱을 닫아두는 선택을 해보십시오. 대신, 아날로그 도구를 집어 드는 겁니다.

간단한 인시던트 타로를 이렇게 설계해 볼 수 있습니다.

  • 실제 장애 패턴을 닮은 시나리오 카드
  • 여러분의 안전망을 시험하는 카오스 카드
  • 팀의 행동 패턴을 드러내는 페르소나 카드
  • 사람을 탓하지 않고 시스템에 초점을 맞추는 리플렉션 프롬프트 카드

그리고 팀을 한자리에 모아, 덱을 섞고, 카드를 나눠 가진 뒤, 다음 “장애”에서 어떤 운명이 펼쳐지는지 함께 지켜보세요.

여전히 SLI, 알람, 런북에 대해 이야기하게 될 것입니다. 하지만 거기에 더해, 어떻게 생각하는지, 어떻게 행동하는지, 예상치 못한 일이 벌어졌을 때 조직이 어떻게 반응하는지에 대해서도 이야기하게 됩니다. 그리고 그 대화는 안전하고, 몰입되며, 놀랍도록 재미있는 방식으로 진행될 수 있습니다.

프로덕션은 언젠가 다시 깨질 것입니다. 그때 여러분이 준비되어 있을 가능성은, 또 다른 문서를 읽었기 때문이 아니라, 이미 이 게임을 여러 번 플레이해 보았기 때문일 것입니다.

아날로그 인시던트 타로: 다음 프로덕션 장애를 위한 물리적 운명 카드 디자인하기 | Rain Lag