Rain Lag

아날로그 장애 퍼즐 캐비닛: 번아웃된 SRE 팀을 위한 손으로 느끼는 실패 게임 설계하기

물리적인 퍼즐 기반 ‘실패 게임’을 통해 번아웃된 SRE 팀이 낮은 압박감과 높은 몰입도, 심리적 안전감 속에서 장애 대응을 연습하면서도, 시스템과 프로세스를 은근히 단단하게 만드는 방법을 소개합니다.

아날로그 장애 퍼즐 캐비닛: 번아웃된 SRE 팀을 위한 손으로 느끼는 실패 게임 설계하기

Site Reliability Engineering(SRE)의 본질은 원래 불이 난 곳마다 뛰어다니며 모두가 지쳐 나가떨어질 때까지 버티는 일이 아니라, 탄탄하고 회복력 있는 시스템을 설계하는 일입니다. 그런데 많은 SRE 팀에게 장애 훈련은 또 다른 회의, 또 다른 인시던트 리뷰, 또 다른 스트레스성 드릴처럼 느껴지곤 합니다.

그렇다면 장애 대응 연습이 전쟁 회의실(war room) 같기보다는, 보드게임 하는 밤에 더 가까워질 수는 없을까요?

여기서 등장하는 것이 바로 **아날로그 장애 퍼즐 캐비닛(Analog Outage Puzzle Cabinet)**입니다. 화면도, 페이저(pager)도, 대시보드도 없이 장애를 시뮬레이션하고, 팀이 장애 대응 시나리오를 따라가도록 돕는 물리적이고 촉각적인 게임입니다. 필요한 건 손으로 만질 수 있는 노브, 자물쇠, 카드, 단서, 그리고 사람들뿐입니다.

겉으로는 다소 엉뚱해 보일 수 있지만, 이 접근법의 목적은 매우 진지합니다. 실력을 키우고, 커뮤니케이션을 강화하며, 실제 신뢰성 관행의 빈틈을 드러내는 동시에, 번아웃된 SRE들이 더 안전하고, 더 놀이에 가까운 방식으로 ‘실패’와 마주할 수 있게 해 줍니다.


왜 번아웃된 팀에게는 ‘다르게 느껴지는’ 장애 연습이 필요한가

전통적인 인시던트 훈련은 실제 장애 상황을 너무 그대로 닮아 있습니다. 압박감이 크고, 시간에 쫓기고, 시끄럽고, 감정적인 긴장도 높습니다. 이미 지친 SRE들에게 이런 방식은 다음과 같은 결과를 낳곤 합니다.

  • 불안을 줄이기는커녕 오히려 강화함
  • 실험과 학습을 주저하게 만듦
  • 훈련 자체를 또 다른 형태의 토일(toil)로 만듦

번아웃이 심해지면 기준선이 바뀝니다. 팀에 필요한 건 단순히 더 많은 연습이 아니라, 심리적 안전감‘놀아도 된다’는 허용입니다.

아날로그 퍼즐 캐비닛과 테이블탑(Tabletop) 스타일의 연습이 강점을 발휘하는 지점이 바로 여깁니다. 이 방식은 다음을 가능하게 합니다.

  • 위험도를 낮추기: 실제로 망가지는 것은 아무것도 없고, 모두가 그 사실을 알고 있음
  • 맥락을 전환하기: 실제 프로덕션 트래픽 대신 자물쇠, 카드, 단서를 다룸
  • 호기심을 자극하기: 퍼즐은 본질적으로 “이걸 해 보면 어떻게 될까?”라는 질문을 던지게 함
  • 공유된 소유감을 키우기: 모두가 퍼즐을 만지고, 물체를 옮기고, 해결에 기여할 수 있음

이런 요소들이 장애 훈련을 performance 평가가 아니라, 공동 탐험의 장으로 바꿔 줍니다.


아날로그 장애 퍼즐 캐비닛이란 무엇인가?

탈출 게임, 보드게임, 인시던트 시뮬레이션을 섞어 놓은 것을 떠올려 보세요.

  • 여러 칸과 자물쇠, 스위치, 다이얼, 숨겨진 공간이 있는 물리적인 캐비닛이나 박스
  • 인쇄된 단서, “로그”, 다이어그램, 모의 대시보드 카드, 런북 조각
  • 실제 장애 유형, 장애 대응 태스크, 커뮤니케이션 패턴과 대응되는 퍼즐들

대시보드만 뚫어지게 보는 대신, 당신의 SRE들은 이런 걸 하게 될 수 있습니다.

  • 다이얼을 돌려 용량을 “scale up”하고, 종이로 된 “메트릭” 출력에서 그 결과를 확인하기
  • 디코딩 휠로 “로그를 파싱”해 잘못 설정된 의존성을 찾아내기
  • 런북 플로우를 재구성하거나, 적절한 완화책을 골라 자물쇠가 걸린 서랍 열기
  • 물리적인 카드로 된 “티켓”이나 “알람”을 전달해 에스컬레이션 경로를 시뮬레이션하기

이 게임은 실패 시뮬레이터이지만, 클러스터 안이 아니라 테이블 위에 존재하는 시뮬레이터입니다.


왜 아날로그 실패 게임이 SRE에게 잘 맞는가

SRE의 핵심은 **복잡성 속에서의 신뢰성(reliability under complexity)**입니다. 대규모 분산 시스템, 무수한 숨은 의존성 위에서 돌아가는 서비스에서, 현실적인 장애 시뮬레이션은 필수입니다. 하지만 그런 시뮬레이션이 항상 프로덕션과 똑같은 환경에서 돌아가야 할 필요는 없습니다.

아날로그 게임은 다음과 같은 구체적인 장점을 줍니다.

1. 안전하고 저압인 연습 환경

물리적인 퍼즐 연습은 심리적인 경계를 또렷하게 그려 줍니다.

  • 지금은 실제 장애 상황이 아니다
  • 고객에게 영향을 주지 않는다
  • 누군가의 실력을 심판하는 자리가 아니다

그래서 다음과 같은 것들이 훨씬 쉬워집니다.

  • “기초적인” 질문을 부끄럽지 않게 물어보기
  • “이 의존성을 그냥 끊어 보면 어떨까?” 같은 엉뚱한 아이디어를 시도해 보기
  • 초반부터 “잘 모르겠다”는 혼란을 드러내기

2. 놀이를 통한 더 높은 기억 유지율

사람들은 다음과 같은 조건에서 더 잘 기억합니다.

  • 수동적으로 듣기만 하기보다 직접 행동할 때
  • 감정적으로 몰입해 있을 때
  • 동료와 협업하고 있을 때

촉각적이고 게임화된 “실패 게임”은 이런 모드를 자연스럽게 활성화합니다. 예를 들어, 레버를 당겨 한 리전을 “failover”하고, 그 결과로 새 “latency 카드”가 나타나는 경험은, 같은 내용을 슬라이드로 설명만 들을 때보다 훨씬 강하게 기억에 남습니다.

3. 프로덕션이 알아채기 전에 빈틈을 발견하기

잘 설계된 퍼즐에는 현실적인 제약이 녹아 있습니다.

  • 특정 선행 조건을 찾아내야만 열리는 “런북 서랍”
  • 어떤 퍼즐을 통해 두 팀이 alert threshold에 대해 전혀 다른 가정을 하고 있다는 사실이 드러남
  • 중요한 그래프가 빠진 모의 대시보드 카드 때문에 팀이 즉석에서 우회 방법을 찾아야 하는 상황

그러다 보면 이런 말이 종종 나옵니다.

“잠깐, 이 서비스가 죽고 저 팀이 자리에 없으면, 우리는 실제로 뭘 하기로 했었지?

이 질문이 게임 안에서 나오는 순간이 바로 금맥입니다. 그 질문은 문서가 빠진 곳, 부서지기 쉬운 의존성, 끊어져 있는 커뮤니케이션 경로를 드러냅니다. 그것도 새벽 3시에 실제 장애가 터지기 전에 말이죠.

4. 팀 결속과 회복탄력성 강화

SRE 업무는 종종 사람들을 각자의 온콜 슬롯, 특정 서브시스템, 티켓 큐에 갇히게 만듭니다. 하지만 공동의 게임은 이들을 다시 한자리에 모읍니다.

함께 게임을 하는 동안 팀원들은 다음과 같은 활동을 하게 됩니다.

  • 서로 단서를 교환하고
  • 각자의 멘탈 모델을 설명하며
  • 서로의 관점이 충돌하는 지점을 조율하고

…이 과정에서 공유된 이해와 신뢰가 쌓입니다. 이 결속력은 나중에 실제 페일오버나 복구 연습처럼 더 고위험의 드릴을 진행할 때 큰 힘을 발휘합니다.


직접 만드는 당신만의 장애 퍼즐 캐비닛

프로 게임 디자이너가 될 필요는 없습니다. 작은 것부터 시작해 점진적으로 개선하고, 캐비닛을 살아 있는 훈련 자산으로 취급하면 됩니다.

1단계: 현실적인 인시던트 주제 정하기

먼저 실제 아키텍처와 맞닿아 있는 장애 시나리오를 하나 고릅니다. 예를 들어:

  • 읽기 성능이 저하된 부분적 DB 장애
  • 잘못 설정된 feature flag로 인한 cascading retries
  • noisy neighbor나 용량 산정 오류로 인해 발생한 지연 시간(latency) 급증
  • 핵심 사용자 플로우에 영향을 주는 서드파티 API 장애

이 주제가 퍼즐, 단서, 소품의 전체적인 톤을 결정합니다.

2단계: 학습 목표 정의하기

팀이 이 연습을 통해 무엇을 연습하길 원하는지를 명확히 합니다. 예를 들면:

  • blast radius와 영향 범위를 빠르게 파악하기
  • 롤백(rollback), 페일오버(failover), rate limiting 사이에서 적절한 대응 선택하기
  • 런북을 탐색하고, 틀린 부분을 발견했을 때 업데이트하기
  • 다른 팀이나 이해관계자에게 에스컬레이션하고 커뮤니케이션하기

각 학습 목표는 최소 하나의 퍼즐이나 상호작용과 1:1로 매핑되도록 설계합니다.

3단계: 실제 태스크를 물리적 인터랙션으로 매핑하기

디지털 상에서 하는 행동을 손으로 하는 행위로 번역해 봅니다.

  • 로그 읽기 → 종이 스트립에 인쇄된 메시지를 디코딩하거나 재배열해 패턴을 드러내기
  • 알람 트리아지 → alert 카드를 ‘노이즈’, ‘시그널’, ‘불명’으로 분류하고, 무엇을 우선 조사할지 선택하기
  • 런북 따라가기 → 카드에 인쇄된 플로우차트를 퍼즐 맞추듯 순서대로 배열하기
  • 완화(mitigation) → 노브를 돌려 용량(capacity)을 조정하고, 스위치를 flipped해 feature toggle을 on/off하거나, pros/cons가 적힌 “playbook” 카드 중 하나를 선택하기

핵심은 원인과 결과의 연결입니다. 플레이어의 행동이 반드시 게임 상태를 눈에 띄게 바꾸어야 합니다. 예를 들어 서랍이 열리거나, 새 단서가 나타나거나, “시스템 메트릭” 카드 더미가 바뀌는 식입니다.

4단계: 커뮤니케이션 퍼즐 심기

실제 장애 대응은 기술적인 역량만큼이나 커뮤니케이션에 달려 있습니다. 이를 게임에 반영하려면 다음과 같은 요소를 넣어 보세요.

  • 두 사람이 각각 가진 단서를 합쳐야만 다음 단계 자물쇠를 열 수 있게 만들기
  • 한 사람에게만 “온콜” 정보를 주고, 나머지는 그 설명만 듣고 행동하게 만들기
  • “Incident Commander만 이 보드 위의 카드를 옮길 수 있다” 같은 제약을 추가하기

이렇게 하면 인시던트 커맨드 구조, 역할의 명확성, 정보 흐름을 실제 장애의 감정적 부담 없이 안전하게 탐색할 수 있습니다.

5단계: 저압 유지, 그리고 반복 개선

번아웃된 팀에게는 복잡성보다 톤과 분위기가 더 중요합니다.

  • 이건 시험이 아닌 연습이라는 점을 계속 강조하세요.
  • 게임 도중에도 잠시 멈추고 되짚어 보게 하세요. “지금 뭐가 헷갈리나요?”
  • 메타 코멘트도 환영하세요. “이건 실제 프로덕션에서는 절대 안 할 것 같은데요?” 같은 말들

라운드가 끝난 뒤에는 짧은 회고를 합니다.

  • 무엇이 현실적으로 느껴졌나요?
  • 무엇은 어색하거나 비현실적으로 느껴졌나요?
  • 시스템, 문서, 팀에 대해 새로 배운 점은 무엇인가요?
  • 무엇을 바꿔야 할까요? (캐비닛에서든, 실제 환경에서든)

캐비닛은 시스템과 관행이 변함에 따라 함께 진화해야 합니다.


시작할 때 도움이 되는 실용 팁

처음부터 거창하게 만들 필요는 전혀 없습니다. 예를 들어 이렇게 시작해 보세요.

  • 2~3개 칸만 있는 간단한 락박스(lockbox)
  • 인쇄된 “대시보드”, “로그”, “런북” 종이
  • 시스템 상태와 의존성을 표현하는 화이트보드
  • 사무용품점에서 쉽게 살 수 있는 기본 자물쇠, 봉투, 분류 폴더

그다음 점차 다음과 같은 것들을 추가할 수 있습니다.

  • 더 자세한 시스템 맵과 의존성 관계
  • “리전(region)” 카드, “서비스(service)” 토큰 같은 테마 소품
  • 팀이 어느 정도 익숙해진 뒤 도입하는 가벼운 시간 제한 챌린지

만약 팀 안에 만들기를 좋아하는 사람이 있다면, 캐비닛을 옛날 아날로그 컨트롤 패널이나 미션 컨트롤 콘솔처럼 꾸미는 작업을 즐길 수도 있습니다. 하지만 미관은 선택 사항입니다. 학습 가치는 상호작용 속에 들어 있습니다.


언제 퍼즐 캐비닛을 넘어설 때인가

아날로그 장애 게임이 특히 강력하게 작동하는 상황은 다음과 같습니다.

  • 신규 SRE 온보딩
  • 번아웃된 팀을 다시 참여하게 만들고 싶을 때
  • 새로운 아키텍처나 의존 관계를 개념 수준에서 탐색할 때

다만 이것이 다음의 대체재는 아닙니다.

  • 실제 규모의 페일오버 드릴
  • 스테이징이나 프로덕션에서의 카오스 실험(Chaos Engineering)
  • 특정 observability 스택이나 툴에 대한 실무 교육

퍼즐 캐비닛은 **게이트웨이 연습(gateway practice)**으로 생각하면 좋습니다. 더 고강도의 드릴이 부담스럽고 압도적이게 느껴지는 팀에게, 자신감, 공통 언어, 호기심을 회복시켜 주는 관문 역할을 합니다.


결론: 실패를 다시 ‘안전하게’ 만드는 일

신뢰성은 장애가 절대 일어나지 않기를 바라는 마음에서 나오지 않습니다. 언젠가 반드시 일어날 장애에 어떻게 대응할지 미리 연습하는 것에서 나옵니다. 하지만 번아웃된 SRE 팀에게 그 연습은 그들 상태에 맞게 섬세하게 설계되어야 합니다.

아날로그 장애 퍼즐 캐비닛과 손으로 느끼는 실패 게임은 놀랍도록 좋은 조합을 제공합니다.

  • 현실적인 장애 양상과 대응 패턴을 탐색할 수 있고
  • 감정적 한계를 존중하는 안전하고 저압인 환경을 제공하며
  • 런북, 툴링, 프로세스의 빈틈을 발견할 수 있는 풍부한 기회를 만들고
  • 팀 결속을 다시 쌓아 올리는, 놀이에 가까운 공동 경험을 선사합니다.

장애를 **위기(crisis)**가 아니라 **퍼즐(puzzle)**로 바꾸어 줄 때, 팀은 실패를 두려움의 대상이 아니라 학습의 재료로 바라보게 됩니다. 그리고 이런 마인드셋이야말로, 당신의 전체 시스템 중 가장 신뢰할 수 있는 부분이 될지도 모릅니다.

아날로그 장애 퍼즐 캐비닛: 번아웃된 SRE 팀을 위한 손으로 느끼는 실패 게임 설계하기 | Rain Lag