Rain Lag

아날로그 인시던트 스토리 ‘철도 키친’: 실과 분필, 종이 기차로 만드는 핸드‑쿠킹 신뢰성 플레이북

실, 분필, 종이 기차만으로 SRE 핵심 개념을 가르치고, 인시던트 대응 감각을 날카롭게 다듬으며, 더 나은 신뢰성 플레이북을 설계하는 로우‑테크 테이블탑 연습 방법을 소개합니다.

소개: 신뢰성과 공예 테이블이 만날 때

현대적인 SRE(Site Reliability Engineering) 스킬을 가르치는데 VR 헤드셋, 게임 엔진, 커스텀 시뮬레이션 플랫폼이 꼭 필요한 건 아닙니다. 테이프, 실, 분필, 종이 기차, 그리고 사람들만 있어도 충분합니다.

**아날로그 인시던트 스토리 ‘철도 키친(Analog Incident Story Railyard Kitchen)’**은 인시던트 대응 훈련을 물리적이고 협업적이며 놀라울 만큼 기억에 남는 경험으로 바꿔주는 테이블탑(모의) 연습 포맷입니다. 바닥과 테이블 위에서 돌아가는 모형 기차 세트 + 상업용 주방 라인 + 프로덕션 아키텍처 다이어그램의 하이브리드라고 생각하면 됩니다.

이 글에서는 직접 “철도 키친” 세션을 여는 방법과, SLO·에러 버짓·런북 같은 SRE 기본기를 게임 안에 녹여 넣는 방법, 그리고 왜 이런 아날로그 연습이 하이‑테크 시뮬레이션보다 학습 깊이와 팀 몰입도에서 더 뛰어날 수 있는지 살펴봅니다.


왜 인시던트 트레이닝을 아날로그로 할까?

종이 철도 야드부터 만들기 전에, 왜 굳이 로우‑테크 방식으로 하려는지가 명확해야 합니다.

1. 손으로 느끼는 학습은 오래 남는다.
손에 종이 서비스 카드(티켓)를 들고 직접 기차 노선을 따라 걸어가거나, 분필로 그린 트랙 위에서 "주문" 토큰을 옮겨 보게 하면 머릿속 모델을 밖으로 끌어내야 합니다. 손가락으로 실제로 경로를 따라가다 보면 큐잉, 병목, 장애 전파 같은 것들이 더 쉽게 보입니다.

2. 모두가 참여할 수 있다.
특정 시뮬레이션 툴을 능숙하게 다룰 필요가 없습니다. 마커와 테이프는 누구에게나 친숙합니다. 이 덕분에 PM, 고객 지원, 리더십까지 포함해 다양한 역할이 현실감 있는 인시던트 리허설에 쉽게 참여할 수 있습니다.

3. 제약이 사고를 날카롭게 만든다.
아날로그 도구만 있으면 대시보드나 마법 같은 자동화 뒤에 숨을 수 없습니다. 무엇이 관측 가능한지, 무엇이 보이지 않는지, 어떤 규칙으로 시스템이 움직이는지를 명확히 정의해야 합니다. 덕분에 지금껏 문서로 쓴 적 없는 가정과 암묵지를 맞닥뜨리게 됩니다.

4. 식스 시그마·신뢰성 사고와 자연스럽게 연결된다.
철도 키친은 플로우(flow), 결함(defects), 리드타임, WIP 한도, 컨트롤 포인트 같은 개념과 아주 잘 맞는 메타포입니다. 이 한 자리에서 SRE 개념과 전통적인 프로세스 개선 사고를 함께 가르칠 수 있습니다.


무대 세팅: 철도 키친 구성하기

넓은 공간을 떠올려 보세요. 컨퍼런스룸, 구내식당, 워크숍 공간이면 좋습니다. 바닥과 테이블 위에 분필이나 마스킹 테이프로 철도 야드(railyard) 를 그립니다.

  • 트랙(Tracks): 주요 서비스 경로
    (예: 웹 → API → DB, 결제 파이프라인, ML 추론 경로 등)
  • 스위치(Switches): 기능 플래그, 로드 밸런서, 라우팅 결정 지점
  • 디포 / 야드(Depots / Yards): 데이터베이스, 잡 큐, 외부 의존 서비스

테이블에는 키친 라인(kitchen line) 을 구성합니다.

  • 스테이션(Stations): 각 스테이션은 서브시스템 하나를 나타냅니다.
    (프론트엔드, 인증, 빌링, 알림 등)
  • 주문 티켓(Order tickets): 사용자 요청이나 잡을 나타내는 종이 슬립
  • 셰프(Chefs): 런북과 수동 절차를 실제로 수행하는 참가자들

이 두 메타포가 만나는 지점에는 종이 기차(paper trains) 가 있습니다.

  • 각 기차 = 사용자 여정, 배치 잡, 하나의 트랜잭션
  • 기차는 트랙을 따라 움직이고, 스테이션에 멈추며, 지연·우회·"유실"될 수도 있습니다.

여기에 실(string) 로 모든 것을 엮습니다.

  • 실은 의존성, SLI, 모니터링 훅을 나타냅니다.
  • 실에 태그를 달아 지표(레이턴시, 에러율, 용량 등)를 표현합니다.

이제 여러분은 직접 걸어 다니고, 주석을 달고, 일부러 망가뜨릴 수 있는 물리적 프로덕션 시스템 표현을 갖게 됩니다.


역할과 구조: 진짜 테이블탑 연습처럼 운영하기

아날로그 인시던트 스토리 철도 키친을 단순한 게임이 아니라, 정식 테이블탑 인시던트 연습으로 다루는 것이 핵심입니다.

핵심 역할

참가자들에게 명확한 역할을 부여합니다.

  • 인시던트 커맨더(IC, Incident Commander): 조율과 커뮤니케이션 총괄
  • 스크라이브(Scribe): 화이트보드에 타임라인, 결정, 영향 기록
  • 오퍼레이션 / SRE: 플레이북 실행, 기차 이동, 스위치 조작
  • 개발자(Developers): 시스템 지식 제공, 해결책 제안
  • 비즈니스 / 프로덕트: 사용자 영향과 우선순위 트레이드오프 대표
  • 옵저버(Observers): 커뮤니케이션, 프로세스, 학습 포인트 관찰

세션 단계

세션 전체 구조는 실제 인시던트의 흐름을 닮게 만듭니다.

  1. 브리핑 (10–15분)

    • 시스템의 “정상” 동작을 설명합니다.
    • SLO, 에러 버짓, 점수 산정 방식을 소개합니다.
    • 시간이 어떻게 흐르는지, 텔레메트리(관측 데이터)를 어떻게 요청하는지, 무엇이 금지되는지 등 규칙을 명확히 합니다.
  2. 워ーム업 런 (10분)

    • 정상 모드에서 기차 몇 대를 시스템에 통과시켜 봅니다.
    • 주문이 어떻게 흐르는지, 어떤 지표를 관측하는지, 어떤 조건에서 알림이 뜨는지 시연합니다.
  3. 게임데이 시나리오 (30–45분)

    • 현실적인 장애 모드를 한 가지 이상 투입합니다.
    • 팀이 이를 감지·진단·대응하게 둡니다.
  4. 디브리핑 & 리뷰 (30–45분)

    • 사건 타임라인을 함께 돌아봅니다.
    • 잘된 점, 아쉬운 점, 플레이북 개선 아이디어를 논의합니다.

아날로그 세계에 SRE 기본기 녹여 넣기

진짜 마법은 아날로그 놀이가 실제 신뢰성 운영 방식과 직접 연결될 때 일어납니다.

바닥 위의 SLO와 에러 버짓

연습을 위한 서비스 레벨 목표(SLO, Service Level Objective) 를 정의합니다.

  • 가용성 SLO: 예) 전체 기차의 99.5%는 제시간에 목적지에 도착해야 한다.
  • 레이턴시 SLO: 예) 주문 티켓의 95%는 전체 라인을 2 “턴” 이내에 완료해야 한다.
  • 품질 SLO: 예) 불량 주문(목적지 오류, 단계 누락 등)은 1% 미만이어야 한다.

에러 버짓(Error Budget) 은 손에 잡히는 형태로 표현합니다.

  • 토큰이나 포스트잇 뭉치 = 허용 가능한 실패·지연 기차 수
  • SLO를 어기는 결과가 나올 때마다 토큰을 하나씩 소진
  • 더 이상 남은 토큰이 없으면 에러 버짓을 소진한 상태입니다.

이 과정에서 팀은 금방 트레이드오프를 체감합니다.

  • 메인라인을 지키기 위해 저우선순위 트랙을 일시적으로 희생할 것인가?
  • 버짓이 거의 바닥일 때 위험한 변경을 중단할 것인가?

런북을 레시피 카드로 만들기

런북(runbook) 을 코팅한 레시피 카드처럼 만듭니다.

  • 각 카드는 자주 겪는 문제를 하나씩 담습니다.
    (예: “DB 포화”, “캐시 장애”, “업스트림 타임아웃” 등)
  • 카드에는 무엇을 확인할지, 어떤 스위치를 어떻게 조정할지, 기차를 어떻게 우회시킬지 단계별로 적습니다.

시나리오 진행 중에는 IC가 어떤 런북을 꺼내 쓸지 결정합니다. 참가자들은:

  • 적절한 카드를 찾아야 하고,
  • 시간 압박 속에서 단계를 따라야 하며,
  • 자신이 무엇을 하는지 스크라이브에게 지속적으로 업데이트해야 합니다.

이후에는 다음과 같은 지표로 런북 사용성을 평가할 수 있습니다.

  • 엉뚱한 카드를 집는 빈도
  • 단계를 건너뛰는 빈도
  • 전문가에게 추가 설명을 요구하는 빈도

철도 게임데이 운영: 실패를 측정하며 연습하기

각 세션을 게임데이(Game Day) 처럼 다룹니다. 실제에 가까운 장애를 구조화해서 리허설하는 자리입니다.

장애 시나리오 설계하기

자신들의 실제 인시던트 패턴을 닮은 시나리오를 정의합니다.

  • 단일 지점 장애(Single‑point failure): 트랙 하나(서비스 하나)가 다운된다면? 어떻게 우회할 것인가?
  • 점진적 성능 저하(Slow degradation): 특정 스테이션 이후부터 기차 속도가 점점 줄어드는 상황
  • 외부 의존성 장애(External dependency failure): 야드 밖(서드파티 API)의 한 지점이 기차를 더 이상 받지 않는 상황
  • 젠더링 허드(Thundering herd): 갑자기 기차가 몰려들어 큐가 밀리는 상황

장애는 물리적인 개입으로 도입합니다.

  • 트랙의 일부를 빼버립니다.
  • 구간에 “속도 제한” 표지판을 붙여 레이턴시를 강제로 증가시킵니다.
  • 스위치를 막아 다른 경로로만 갈 수 있게 만듭니다.

팀 퍼포먼스 측정하기

의미 있는 메트릭을 기록합니다.

  • 탐지 시간(TTD, Time to Detection): 문제가 생긴 후 몇 “턴” 만에 누군가 이상을 인지하고 인시던트를 선언하는가?
  • 완화 시간(TTM, Time to Mitigation): 사용자 영향이 안정되거나 개선되기까지 얼마나 걸리는가?
  • 커뮤니케이션 품질: IC가 상황을 명료하게 설명했는가? 역할이 잘 지켜졌는가?
  • SLO 영향: 시뮬레이션된 에러 버짓 안에 머물렀는가?

세션이 진행되는 동안 벽 차트에 성공/실패 여정을 누적해 그리며 SLO 준수 상태를 시각화하면 좋습니다.


연습 후 리뷰: 이야기에서 플레이북으로

디브리핑은 이 워크숍이 단순히 재미로 끝나지 않고, 진짜 신뢰성 자산을 만들어내는 단계입니다.

구조화된 연습 후 리뷰(Post‑Exercise Review)

블레임 없는(blameless) 리뷰를 진행하며 다음 질문들을 던집니다.

  • 시스템이 실제로 동작하는 모습 중 무엇이 가장 의외였는가?
  • 내 머릿속 모델과 바닥 위의 물리 모델이 달랐던 지점은 어디인가?
  • 탐지와 진단을 더디게 만든 요인은 무엇인가?
  • 어떤 런북은 도움이 되었고, 어떤 런북은 방해가 되었는가? 그 이유는?
  • 알림, 대시보드, 온콜 로테이션을 어떻게 바꾸고 싶은가?

그리고 이를 구체적인 산출물로 옮깁니다.

  • 업데이트된 런북과 에스컬레이션 경로
  • 실제 사용자 경험을 더 잘 반영하는 SLO·SLI 재설계
  • 새로운 설계 제약이나 테크빚(Tech debt) 티켓

신뢰성 스토리 라이브러리 만들기

각 철도 키친 세션을 하나의 스토리로 남깁니다.

  • 시나리오 설명
  • 시스템 구성(트랙, 스테이션, SLO)
  • 사건 타임라인과 주요 의사결정
  • 배운 점과 실제로 반영한 변화

이렇게 쌓인 기록은 시간이 지나 신뢰성 플레이북 라이브러리가 됩니다. 모두가 공유한 “기차·실·분필 트랙”의 물리적 기억 위에 얹혀 있는 스토리들이라, 나중에 다시 꺼내 쓰기도 쉽습니다.


아날로그 vs 하이‑테크: 왜 단순함이 여전히 강력한가

VR이나 정교한 디지털 시뮬레이터는 강력한 도구입니다. 하지만 아날로그 연습에는 그 나름의 뚜렷한 강점이 있습니다.

접근성과 포용성

  • 별도 라이선스나 특수 하드웨어가 필요 없습니다.
  • 비기술 이해관계자들도 쉽게 참여할 수 있습니다.

시스템 동작의 투명성

  • 모두가 시스템 전체를 한눈에 볼 수 있습니다.
  • 메트릭이 어디에서 나오는지, 무엇이 관측되지 않는지를 논의하기가 쉽습니다.

인지적 몰입도

  • 손으로 조각을 옮기고 철도 야드를 실제로 걸어 다니는 행위는 다른 학습 채널을 자극합니다.
  • 사람들은 웹 UI보다 이런 물리적 메타포를 더 오래 기억하는 경향이 있습니다.

비용과 적응력

  • 테이프와 종이만으로도 몇 분 안에 전체 아키텍처를 갈아엎을 수 있습니다.
  • 새로운 실험의 비용이 낮아 빠른 반복을 장려합니다.

많은 팀에게 최선의 접근법은 하이브리드입니다. 아날로그 연습으로 기본기를 몸에 익힌 뒤, 실제 프로덕션과 유사한 디지털 시뮬레이션으로 고급 연습을 이어가는 방식이죠.


결론: 작게 시작해서, 트랙을 그려보라

신뢰성은 도구와 대시보드만의 문제가 아니라, 압박 속에서도 함께 같은 그림을 볼 수 있는가의 문제이기도 합니다. 아날로그 인시던트 스토리 철도 키친은 이 도전을 로우‑테크이지만 학습 효과는 높은 하나의 의식(ritual)으로 바꿔 줍니다.

실, 분필, 종이 기차만으로도 다음을 할 수 있습니다.

  • 복잡한 시스템을 눈에 보이고 직관적인 형태로 만들고,
  • SLO·에러 버짓·런북 같은 SRE 개념을 즐겁고 기억에 남는 포맷에 녹여 넣고,
  • 현실적인 실패를 게임데이로 리허설하면서 탐지·진단·복구를 측정하고,
  • 연습 후 리뷰를 통해 신뢰성 플레이북을 지속적으로 다듬을 수 있습니다.

승인을 기다릴 필요도 없습니다. 테이프를 조금 집어오고, 종이 기차를 인쇄하고, 첫 트랙을 스케치한 뒤, 60분짜리 파일럿 세션을 한 번 돌려 보세요. 그리고 거기서부터 계속 개선하면 됩니다.

결국 진짜 가치는 소품 자체에 있는 게 아니라, 그 소품들이 열어 주는 대화와 통찰에 있습니다. 이렇게 한 번에 한 편씩, 아날로그 인시던트 스토리를 쌓아 가는 과정이 곧 팀의 신뢰성 역량을 키우는 길입니다.

아날로그 인시던트 스토리 ‘철도 키친’: 실과 분필, 종이 기차로 만드는 핸드‑쿠킹 신뢰성 플레이북 | Rain Lag