연필 하나로 끝나는 인시던트 아케이드: 회의 사이 15분으로 하는 신뢰성 게임

대부분의 인시던트 대응 훈련은 둘 중 하나입니다. 분기마다 한 번 하는 대형 카오스 드릴이거나, 새벽 2시에 진짜로 터지는 인시던트.

그 사이에 있는 것들은요? 보통은 텅 비어 있습니다.

그런데 신뢰성 스킬 연습이 거창한 회사 비상훈련이 아니라, 짧은 퍼즐 푸는 느낌이라면 어떨까요? 프린트 몇 장과 연필만 있으면, 다음 회의 전 15분 동안에도 현실감 있는 인시던트 게임을 돌릴 수 있다면요?

이게 바로 **“연필‑온리 인시던트 아케이드(Pencil‑Only Incident Arcade)”**의 아이디어입니다. 프로덕션 접근 권한도, 무리한 일정 조율도, 거창한 시뮬레이션 도구도 없이 팀이 실패에 대응하는 방법을 날카롭게 다듬는, 작고 반복 가능한 저스트레스 연습들입니다.

이 글에서는 이런 신뢰성 미니 게임을 어떻게 설계할 수 있는지 살펴보면서, 다음을 할 수 있게 도와드립니다.

사람, 프로세스, 관측 가능성(Observability) 을 함께 연습하기
현실적인 장애·위협 시나리오 활용하기
위험은 낮게, 학습은 높게 유지하기
사람들이 다시 하고 싶어할 만큼 적당히 재밌게 만들기

왜 15분짜리 신뢰성 게임이 효과적인가

길고 정교하게 설계된 인시던트 시뮬레이션은 분명 가치가 있습니다. 하지만 비용이 큽니다. 시간, 조율, 인지 부하까지 모두요. 그래서 자주 못 하고, 그 사이에는 자연스럽게 스킬이 휘발됩니다.

짧은 연필‑온리 게임은 전혀 다른 문제를 해결합니다.

자연스러운 빈틈에 들어갑니다: 스탠드업 끝, 회의 직전, 온보딩 세션 중간 등
위험이 낮게 명확히 설정됩니다: 프로덕션에는 손도 안 대고, 실패해도 안전하게 설계돼 있습니다.
도구 복잡도가 줄어듭니다: 시스템 다섯 개에 로그인할 필요 없습니다. 연습 자체로 완결되어 있습니다.
반복 연습을 유도합니다: 자주, 가볍게 반복하는 연습이 사람들의 멘탈 모델을 탄탄하게 만듭니다.

이런 게임들을 인시던트 대응용 십자말 풀이라고 생각해도 좋습니다. 작고 독립적인 도전 과제들이 시간이 지나면서 깊은 전문성으로 쌓여갑니다.

핵심 설계 원칙: 연습이 아니라 “퍼즐”이어야 한다

연필‑온리 인시던트 아케이드 게임의 핵심은 퍼즐입니다.

"지금 눈에 보이는 건 이렇습니다. 무슨 일이 일어나고 있다고 생각하나요? 다음에 무엇을 하겠습니까?"

실제 인시던트의 어수선한 운영 환경 전체를 흉내 내는 대신, 집중할 얇은 조각 하나만 도려냅니다.

짧은 내러티브 ("서비스 X에 대한 페이저가 방금 울렸습니다")
몇 개의 신호 묶음 (로그, 알람, 그래프, 티켓, Slack 메시지 조각 등)
구체적인 질문이나 목표 ("가능성이 높은 원인을 찾아보세요" 또는 "가장 먼저 할 세 가지 액션을 결정하세요")

참여자에게 필요한 건 이것뿐입니다.

연필 또는 펜 하나
인쇄된 시나리오 시트(또는 하나의 공유 화면)
실제 런북이나 문서에 대한 접근 (노트북/폰으로 확인하면 충분)

제약 조건—실제 도구 사용 금지, 무한 클릭 금지—은 사람들에게 다음을 강제합니다.

내용을 꼼꼼히 읽기
불완전한 정보만으로 멘탈 모델을 세우기
구조화된 사고와 커뮤니케이션을 연습하기

이는 실제 인시던트에서 최고의 대응자들이 일하는 방식과 훨씬 더 가깝습니다.

15분짜리 게임의 흐름 예시

대부분의 세션에 쓸 수 있는 간단한 구조는 다음과 같습니다.

0–2분: 세팅

퍼실리테이터가 시나리오를 나눠주거나 화면에 띄웁니다.
목표와 시간 제한을 짧게 설명합니다.

2–8분: 개인 또는 소그룹 분석

참여자들이 시나리오를 읽습니다.
다음 내용을 간단히 적습니다.
- 무슨 일이 일어나고 있다고 생각하는지
- 다음에 무엇을 확인해 볼지
- 가장 먼저 취할 액션이 무엇인지

8–13분: 디브리핑 및 토론

이렇게 질문합니다: "당신의 가설은 무엇이었나요?" "가장 먼저 무엇을 하겠다고 생각했나요?"
답변을 비교하고, "공식" 풀이 또는 그럴듯한 대응 경로를 함께 살펴봅니다.
트레이드오프와, 무엇이 부족했거나 헷갈리게 만들었는지 논의합니다.

13–15분: 학습 내용 정리

현실과 맞지 않는 런북이 있었는지 적어둡니다.
부족한 대시보드나 알람이 있었다면 기록합니다.
실제 시스템에서 시도해 볼 개선점을 한두 개만 뽑아냅니다.

이게 전부입니다. 처음부터 끝까지 15분 안에 끝납니다.

사람, 프로세스, 관측 가능성을 함께 테스트하기

연필‑온리 게임은 단순한 기술적 진단 연습이 아니라, 인시던트 생태계 전체를 함께 움직여 보는 기회입니다.

시나리오를 설계할 때 세 가지 축을 모두 건드리도록 해보세요.

1. 사람 (People)

처음에 누가 페이징을 받나요?
언제, 누구를 추가로 호출해야 하나요?
이 상황을 비개발자에게 어떻게 설명하나요?

이런 질문을 곁들일 수 있습니다.

"5분이 지난 시점에 상태 채널에 뭐라고 쓸 건가요?"
"이 의존성의 오너는 누구고, 어떻게 연락하나요?"

2. 프로세스 (Process)

이 유형의 인시던트에 대한 런북이 있나요?
문서에 적힌 대응 프로세스가 실제로 사람들이 선호하는 대응 방식과 맞나요?
에스컬레이션 경로는 명확한가요?

참여자들에게 이렇게 시켜보세요.

관련 런북을 찾아보게 합니다.
그대로 따를지, 변형해서 쓸지, 아니면 무시할지 결정하고 그 이유를 설명하게 합니다.

3. 관측 가능성 (Observability)

시나리오 상에 필요한 메트릭이나 로그가 정말 존재하나요?
어떤 대시보드를 가장 먼저 열어볼지, 그리고 이유는 무엇인지?
알람이 너무 늦게 떴거나, 아예 안 뜬 건 없는지?

실제 대시보드나 로그의 스크린샷을 단순화해서 제공하고, 이렇게 물어볼 수도 있습니다.

"여기서 어떤 신호가 당신의 원인 가설을 바꾸게 만드나요?"

이렇게 하면 사람들의 판단력을 연습시킬 뿐 아니라, 실제 시스템에서 계측이나 문서를 어디를 보강해야 할지도 자연스럽게 드러납니다.

현실감 있는 시나리오를 구하는 방법

아케이드는 현실에 발을 딛고 있어야 합니다. 너무 티 나는 가짜 문제는 몰입감을 순식간에 깨버립니다.

좋은 시나리오 출처는 다음과 같습니다.

자사 인시던트 히스토리
- 서비스 이름, 민감한 데이터 등 식별 정보를 제거합니다.
- 긴 타임라인은 한 번에 볼 수 있는 스냅샷으로 압축합니다.
- 각 미니 게임은 핵심 의사결정 포인트 하나에만 초점을 맞춥니다.
공개 포스트모템과 사고 보고서
- 클라우드 제공업체 장애 사례
- 대형 테크 기업들의 유명 인시던트
- 정리·익명화된 보안 사고 보고서
위협·장애 카탈로그
- 흔한 설정 오류 (TLS, DNS, IAM 등)
- 의존성 장애 (데이터베이스, 외부 API, 메시지 큐)
- 악성코드·랜섬웨어 패턴 (갑작스러운 I/O 급증, 수상한 프로세스 등)

다음과 같은 프롬프트를 써볼 수 있습니다.

"서드파티 결제 서비스가 간헐적으로 실패합니다. 블라스트 레이디우스와 커뮤니케이션을 어떻게 관리하겠습니까?"
"핵심 서비스의 CPU가 100%에 고정되어 있는데, 트래픽 볼륨은 변하지 않았습니다. 가능한 원인은 무엇일까요?"
"20분 전에 신규 배포가 롤아웃되었습니다. 오류율과 레이턴시가 동시에 튀었습니다. 롤백과 검증 계획을 어떻게 세우겠습니까?"

패턴이 익숙할수록, 실제 업무에 배움이 더 잘 전이됩니다.

부담은 낮게, 학습은 높게 유지하기

심리적 안전감은 매우 중요합니다. 사람들은 망가져도 괜찮다고 느낄 때 더 많이 배우고, 더 솔직해집니다.

이 몇 가지를 지켜보세요.

틀려도 괜찮다는 걸 명시적으로 말하세요. 목표는 사고 과정을 탐색하는 것이지, 사람을 "잡아내는 것"이 아닙니다.
다양한 답을 환영하세요. "합리적인" 첫 행동은 여러 가지일 수 있고, 다소 비효율적인 선택도 좋은 배움거리가 됩니다.
결정의 이유를 디브리핑하세요. "왜 롤백을 피처 플래깅보다 먼저 택했나요?" 같은 질문은 숨은 멘탈 모델을 끌어냅니다.
사람이 아니라 시스템을 디버깅하는 시간으로 쓰세요. 모두가 같은 잘못된 가정을 했다면, 그건 사람 문제가 아니라 설계·문서 문제입니다.

이 게임의 최고의 성과 지표는 누가 퍼즐을 "맞혔는가"가 아니라, 문서·런북·툴링을 위한 구체적인 개선점을 얼마나 많이 발견했는지입니다.

가벼운 게임 메커닉 얹기

풀 세트 RPG가 필요하지는 않습니다. 단 몇 가지 간단한 메커닉만으로도 아케이드를 "습관"으로 만들기에 충분합니다.

실험해 볼 만한 아이디어들:

시간 압박 주기
- "6분 안에 처음 세 가지 액션을 결정해야 합니다."
- 실제 인시던트 초기 몇 분의 압박감을 가볍게 시뮬레이션합니다.
점수제 도입
- 가능성이 높은 원인 파악: +1점
- 괜찮은 첫 액션 제시: +1점
- 명확한 커뮤니케이션 플랜: +1점
- 시스템/프로세스 개선 아이디어 제안: 보너스 +1점
퀘스트나 스토리 라인 만들기
- 짧은 시리즈를 만들어 연결된 인시던트로 구성해 보세요. 예: "저주받은 데이터베이스의 일주일", "플래핑 로드밸런서의 수상한 사건" 등.
리더보드와 소소한 보상
- 주간/월간 누적 점수
- 작은 보상: 스티커, 회의에서의 칭찬, 다음 시나리오 선택권, 웃긴 트로피 등

목표는 살벌한 경쟁이 아니라, 반복과 몰입입니다. 또 하나의 의무 교육이 아니라, 사람들이 기다리게 되는 시간이 되도록 만드세요.

신뢰성 미니 게임 라이브러리 만들기

시간이 지나면, 연필‑온리 인시던트 아케이드는 살아 있는 라이브러리가 될 수 있습니다.

각 세션이 끝나면 다음을 해보세요.

시나리오 다듬기
- 사람들이 "엉뚱한 이유"로 헷갈렸던 부분은 빼거나 정리합니다.
- 모두가 막혔다면 힌트를 다듬거나, 단서를 하나 더 추가합니다.
무엇이 잘 먹혔는지 기록하기
- 어떤 질문이 좋은 토론을 이끌어냈나요?
- 어떤 의사결정 포인트에서 실제 프로세스나 툴링의 빈틈이 드러났나요?
시나리오에 태그 붙이기
- 서비스/도메인별: 결제, 인증, 스토리지, ML 등
- 장애 유형별: 레이턴시, 데이터 손실, 보안, 의존성, 용량 등
- 난이도별: 초급, 중급, 상급
재사용 가능하게 패키징하기
- 한 페이지짜리 시나리오 시트
- 퍼실리테이터 가이드:
  - 예상 대응 경로들
  - 자주 나오는 오해·실수 패턴
  - 핵심 학습 목표

이 라이브러리는 다음과 같은 데서 큰 가치를 발휘합니다.

신규 엔지니어와 SRE 온보딩
팀 간 크로스 트레이닝
큰 인시던트가 오래 없던 기간 이후 "근육 기억" 리프레시
조직 전체에서 신뢰성 문화를 공유하고 전파하기

다음 주에 바로 시작하는 방법

조직 전체의 공인 프로젝트가 될 필요는 없습니다. 작게 이렇게 시작해 보세요.

지난 6–12개월 사이의 실제 인시던트 하나를 고릅니다.
한 페이지짜리 스냅샷을 작성합니다.
- 증상: 알람, 그래프, 로그 등
- 제약: 할 수 있는 것·할 수 없는 것
- 목표: 안정화, 영향 감소, 원인 확증 등
기존 팀 미팅 끝에 20분을 확보합니다.
게임을 한 번 돌려봅니다. 위에서 소개한 15분 구조를 그대로 쓰세요.
끝나고 세 가지 질문을 던집니다.
- "무엇이 가장 의외였나요?"
- "우리 런북이나 대시보드에서 뭐가 부족하다고 느꼈나요?"
- "이걸 또 하면 좋겠나요?"

마지막 질문에 "네"라는 답이 나온다면, 이미 여러분은 인시던트 아케이드의 첫 게임 캐비닛을 연 셈입니다.

결론: 위기를 아니라 ‘수련’으로서의 실패 연습

인시던트를 없앨 수는 없지만, 팀이 인시던트를 어떻게 경험하는지는 바꿀 수 있습니다.

짧은 연필‑온리 게임으로 신뢰성 연습을 바꾸면, 여러분은 다음을 할 수 있습니다.

실패에 대해 자연스럽게, 공개적으로 이야기하는 문화를 만들고
안전한 실수와 실험의 공간을 확보하고
사람·프로세스·관측 가능성 사이의 연결을 강화하고
힘들게 얻은 지식을 재사용·공유 가능한 라이브러리로 만들어 둡니다.

무엇보다 중요한 건, 실제 장애를 주요 훈련 방법으로 삼는 의존에서 벗어나는 것입니다.

다음에 회의 전에 15분이 남는다면, 그냥 타임라인을 스크롤하거나 인박스를 새로고침하지 마세요. 인시던트 아케이드에서 시나리오 하나를 꺼내 연필을 들고 플레이해 보세요.

미래의 새벽 2시에 깨어 있을 당신이 고마워할 겁니다.