Rain Lag

종이로 만드는 신뢰성 아케이드 라인: 공공 공간에서 아날로그 방식으로 인시던트 대응을 연습하는 이동형 페어 디자인

테이블탑 연습을 회의실 밖으로 꺼내 종이 기반의 이동식 ‘신뢰성 아케이드 라인’으로 만들고, SRE와 인시던트 대응 훈련을 공개적이고 놀이처럼 경험할 수 있게 하는 방법.

소개: 장애를 이동식 페어로 바꾸기

대부분의 조직은 인시던트 대응 연습을 ‘닫힌 문 안’에서 진행합니다. 회의실에서 하는 테이블탑 연습, 스테이징 환경에서 소규모로 진행하는 프라이빗 게임 데이, 혹은 핵심 팀만 참여하는 모의 장애 상황 등입니다. 분명 유용하지만, 그리 흥미롭거나, 포용적이거나, 기억에 오래 남는 방식은 아닙니다.

이제 다른 장면을 상상해 봅니다. 컨퍼런스, 밋업, 내부 테크 서밋에 설치된 이동식 아날로그 신뢰성 페어가 있습니다. 오락실 게임 라인처럼 줄지어 서 있고, 모든 것은 종이와 손으로 만지는 재료들로 구성됩니다. 참가자들은 마치 축제의 부스를 돌듯 여러 스테이션을 옮겨 다니며, 산업제어시스템(ICS)이나 복잡한 프로덕션 환경에서 일어나는 인시던트의 서로 다른 측면을 체험합니다. 각자 역할을 정하고, 주사위를 굴리고, 이벤트 카드를 뽑고, 그 결정들이 그럴듯한 가상의 시스템의 운명을 바꾸어갑니다.

이것이 바로 **Paper Reliability Arcade Line(종이 신뢰성 아케이드 라인)**의 아이디어입니다. 휴대 가능하고, 로우테크이지만, 상호작용이 매우 풍부한 형식으로, 인시던트 연습을 공공 공간에서 실행하는 방식입니다.

이 글에서는 다음을 활용해 이런 페어를 설계하는 방법을 살펴봅니다.

  • ICS 스타일의 테이블탑 연습(Tabletop Exercise, TTX)을 기반으로 삼기
  • 명확하게 정의된 인시던트 대응 역량(competency)
  • 시나리오를 발전시키는 구조화된 인젝트(inject)
  • WHO Simulation Exercise Manual, HSEEP(Homeland Security Exercise and Evaluation Program) 같은 검증된 시뮬레이션 프레임워크

목표는 단 하나입니다. 진지한 신뢰성 작업을, 엄밀함은 유지한 채 ‘진지한 놀이’로 바꾸는 것입니다.


왜 테이블탑 연습이 이동식 페어에 적합한가

테이블탑 연습은 원래 ICS 인시던트 대응 훈련의 뼈대를 이루고 있습니다. 테이블탑 연습은 다음과 같은 특징이 있습니다.

  • 안전하고 저위험인 환경에서 ‘나쁜 날’을 실험할 수 있다
  • 의사결정과 커뮤니케이션에 집중하고, 도구에 덜 의존한다
  • 허구이지만 현실적인 시나리오와 잘 어울린다

이 말은 곧, 테이블탑 연습이 본질적으로 공개적이고 아날로그 형식에 잘 맞는다는 뜻입니다.

ICS 맥락에서 TTX는 대개 다음과 같은 상황을 시뮬레이션합니다.

  • 센서에서 비정상적인 측정값이 들어오는 경우
  • 이유 없이 설비가 셧다운되는 경우
  • 이상한 네트워크 트래픽이나 PLC(Programmable Logic Controller) 동작
  • 원격 운영 인력으로부터 상충되는 보고가 들어오는 상황

이를 Paper Reliability Arcade로 옮기면, 스테이션 기반 TTX가 됩니다. 각 스테이션은 인시던트 라이프사이클의 한 조각에만 집중합니다. 2시간 동안 한 회의실에 앉아 있기보다는, 참가자들은 다음과 같이 움직입니다.

  • 여러 개의 짧고 집중된 연습을 돌아다니며 수행한다
  • 서로 다른 역할과 책임을 번갈아 맡는다
  • 초기에 내린 결정이 뒤 단계의 시나리오에 어떤 영향을 미치는지 본다

필요한 것은 종이, 펜, 토큰, 타이머 정도뿐인 로우테크 형식이기 때문에:

  • 다양한 장소로 쉽게 운반·설치할 수 있고
  • 특정 툴을 잘 모르는 사람도 접근하기 쉽고
  • 활동이 바깥에서 눈에 잘 보여 **본질적으로 ‘공개적’**이며, 지나가던 사람이 쉽게 참여할 수 있습니다.

사람들이 “책임지고 운영하는” 느낌을 받는 가상 시스템 만들기

이 아케이드를 매력적으로 만들기 위해서는, 참가자가 비록 가상의 시스템이라도 진짜 시스템을 책임지고 있다는 느낌을 받아야 합니다.

1단계: 시스템 정의하기

단순하지만 일관성이 있는 ICS 유사 환경을 하나 만듭니다. 예를 들어:

  • 중간 규모 도시를 대상으로 하는 상수 처리장(water treatment plant)
  • 지역 전력망에 연결된 풍력 발전 단지(wind farm)
  • 백신 온도를 모니터링하는 콜드체인 창고(cold‑chain warehouse)

이 시스템을 다음 자료로 문서화합니다.

  • 고수준 아키텍처 다이어그램(인쇄된 포스터)
  • 참가자용 1–2페이지 분량의 “시스템 브리핑” 문서
  • 참가자가 선택할 수 있는 DevOps/SRE 결정 목록: 로깅 전략, 중복 구성(레던던시), 배포 방식, 알림 임계값 설정 등

2단계: 신뢰성 트레이드오프 심어두기

참가자들은 DevOps/SRE 관행과 아키텍처 패턴을 선택해야 하며, 이 선택은 다음에 영향을 줍니다.

  • 신뢰성(uptime, 복원력)
  • 리스크(영향 범위, 블라스트 레디우스, 안전성)
  • 가시성/관측성(Observability)(무슨 일이 잘못되는지 얼마나 잘 볼 수 있는가)
  • 대응 역량(Response capacity)(누가, 얼마나 빨리 행동할 수 있는가)

참가자가 뽑거나 고를 수 있는 트레이드오프 카드 예시는 다음과 같습니다.

  • “상세한 대시보드가 있는 중앙 집중형 모니터링 스택, 하지만 단 한 명의 공유 온콜 엔지니어만 있음.”
  • “중복 구성된 컨트롤러, 하지만 성능을 위해 로깅은 최소화함.”
  • “주간 변경 동결(weekly change freeze), 대신 긴급 핫픽스 파이프라인은 테스트가 충분치 않음.”

이런 선택은 초기 스테이션에서 이루어지고, 이후 스테이션에서 인젝트가 들어올 때 퍼실리테이터가 이를 참조합니다. 메시지는 분명합니다. 아키텍처와 프로세스 결정은 ‘나쁜 날’이 시작되기도 전에 그날의 모습을 이미 결정해 둔다는 것입니다.


훈련에서 페어로: 연습을 놀이로 전환하기

‘아케이드 라인’이라는 개념은 인터랙티브 페어와 공개 시연에서 많은 아이디어를 빌려옵니다. 인시던트 연습을 페어처럼 느끼게 하려면 다음 요소가 필요합니다.

1. 경험을 스테이션으로 나누기

각 스테이션은 10–20분 정도의 짧은 연습으로, 핵심 인시던트 역량 하나에 집중합니다. 예를 들어:

  1. 스테이션 A: 탐지 & 통보(Detection & Notification)

    • 목표: 뭔가 잘못되었다는 사실을 인지하고, 적절한 사람에게 알리는 것.
    • 활동: 인쇄된 로그, 알림, 운영자 보고서를 검토하고, 에스컬레이션 여부와 방법을 결정합니다.
  2. 스테이션 B: 트리아지 & 우선순위 결정(Triage & Prioritization)

    • 목표: 불확실한 상황에서 무엇이 가장 중요한지 정하는 것.
    • 활동: 이슈 카드들을 심각도, 안전 리스크, 비즈니스 영향 기준으로 분류하고 라벨링합니다.
  3. 스테이션 C: 인시던트 커맨드 & 조정(Incident Command & Coordination)

    • 목표: 역할, 커뮤니케이션 채널, 공통 상황 인식을 수립하는 것.
    • 활동: 인시던트 커맨더, 오퍼레이션, 커뮤니케이션 담당을 배정하고, 짧은 “상태 브리핑” 라운드를 실행합니다.
  4. 스테이션 D: 서지 캐퍼시티 & 자원 관리(Surge Capacity & Resource Management)

    • 목표: 언제, 어떻게 대응 인력을 확대할지 결정하는 것.
    • 활동: 제한된 자원 토큰(사람, 도구, 시간)을 완화(mitigation), 포렌식, 이해관계자 커뮤니케이션 등 서로 경쟁하는 작업에 할당합니다.
  5. 스테이션 E: 복구 & 마무리(Recovery & Demobilization)

    • 목표: 서비스를 복원하고, 결과를 문서화하며, 안전하게 종료하는 것.
    • 활동: 미리 정의된 복구 단계 메뉴에서 선택하고, 롤백 리스크를 관리하며, “인시던트 종료” 기준을 정의합니다.

2. 시각적·촉각적으로 재미있게 만들기

  • 인시던트 카드는 아이콘과 짧은 설명이 있는 트레이딩 카드처럼 디자인합니다.
  • 타이머와 ‘압박 게이지(pressure meter)’를 사용해 긴박감을 눈으로 보이게 합니다.
  • 역할이 적힌 랜야드나 스티커(“Incident Commander”, “Comms Lead”, “Ops Specialist” 등)로 누가 무엇을 하는지 명확히 합니다.
  • 점수표에는 성공/실패뿐 아니라 협업, 명료성, 학습 포인트도 기록합니다.

전체적인 분위기는 규정 준수 훈련이라기보다 보드게임에 가깝게, 그러나 실제 위험과 결과는 충분히 반영되도록 설계합니다.


명확한 역량(competency)을 중심에 둔 설계

이 활동이 단순한 재미거리로 끝나지 않게 하려면, 반드시 명시적인 역량에 기반해 설계해야 합니다. 아케이드는 다음과 같은 스킬을 훈련해야 합니다.

  • 인시던트 커맨드(Incident command): 역할 명확성, 의사결정 권한, 커뮤니케이션 리듬
  • 탐지 및 통보(Detection and notification): 신호 인지, 알림 피로(alert fatigue) 방지, 올바른 사람에게 알림 라우팅
  • 트리아지와 우선순위 결정(Triage and prioritization): 안전, 고객 영향, 기술적 리스크 사이의 균형 잡기
  • 서지 캐퍼시티(Surge capacity): 언제 도움을 요청하고, 추가 대응자를 어떻게 온보딩할지 아는 것
  • 복구 및 마무리(Recovery and demobilization): 구조화된 롤백, 검증, 인시던트 후 정리 작업

어떤 스테이션을 만들기 전에 먼저 이렇게 적어봅니다.

“이 스테이션을 마친 후, 참가자는 _______에 더 능숙해져야 한다.”

그 다음, 그 역량이 드러나도록 스테이션의 규칙, 자료, 인젝트를 설계합니다.

이처럼 역량 중심으로 설계하면 아케이드를 더 잘 **평가 가능(evaluable)**하게 만들 수 있습니다. 서로 다른 팀이 같은 스테이션을 어떻게 수행하는지 관찰하고, 실제 조직의 준비도가 어디는 강하고 어디는 취약한지 배울 수 있습니다.


구조화된 인젝트로 실제 인시던트 흐름 모사하기

실제 인시던트에서는 모든 정보가 한 번에 주어지지 않습니다. 상황은 변하고, 새로운 데이터가 등장하며, 이전의 가정은 뒤집어집니다. 이를 반영하기 위해 인젝트(inject)—시간 흐름에 따라 주입되는 스크립트된 이벤트—를 사용합니다.

아케이드 형식에서 인젝트는 다음과 같이 구현할 수 있습니다.

  • 특정 시간 간격마다 배포하는 카드
  • 특정 결정을 내렸을 때 열어보는 봉투
  • 퍼실리테이터가 전달하는 공지(“현장에서 새 정보가 들어왔습니다…”)

예시는 다음과 같습니다.

  • 초기 인젝트(탐지 단계): “SCADA 대시보드에 원격 사이트로 가는 패킷 손실이 간헐적으로 보이지만, 아직 어떤 알림도 발생하지 않음.”
  • 중간 인시던트 인젝트(트리아지 단계): “현장 운영자가 펌프 스테이션 3에서 이상한 냄새가 난다고 보고함. 안전 리스크는 불명확함.”
  • 후반 인젝트(복구 단계): “긴급 패치 적용 후 백업 컨트롤러가 예기치 않게 재시작됨.”

인젝트는 페이싱과 긴장감을 만들어내는 척추 역할을 합니다. 인젝트는 다음을 가능하게 합니다.

  • 참가자가 압박 속에서 **마음속 모델(mental model)**을 계속 업데이트하도록 강제
  • 초기 아키텍처 선택이 지금 무엇을 볼 수 있는지에 어떤 영향을 주는지 드러냄
  • 안전 이슈, 미디어 관심, 규제 기관 개입 같은 에스컬레이션을 시뮬레이션

모든 것이 스크립트와 타이밍에 따라 움직이기 때문에, 아케이드는 반복 가능(repeatable) 합니다. 서로 다른 그룹이 동일한 시나리오를 수행하고 결과를 비교할 수 있습니다.


검증된 프레임워크 위에 아케이드 얹기

페어를 재미있으면서도 엄밀하게 유지하려면, 이미 입증된 시뮬레이션 프레임워크에서 구조를 빌려오는 것이 좋습니다.

  • WHO Simulation Exercise Manual은 공중보건 비상 상황에서 시뮬레이션 연습을 설계·운영·평가하는 방법을 제공합니다. 여기서 가져올 수 있는 핵심 개념은 다음과 같습니다.

    • 역량과 연결된 명확한 목표 설정
    • 현실적이되 관리 가능한 시나리오
    • 퍼실리테이터, 옵저버, 플레이어의 명확한 역할 정의
  • **HSEEP(Homeland Security Exercise and Evaluation Program)**은 다음과 같은 템플릿을 제공합니다.

    • 시나리오 개발과 인젝트 계획
    • 애프터 액션 리뷰(After‑Action Review, AAR)
    • 개선 계획(Improvement Plan)

비록 ‘놀이 같은’ 아케이드를 만든다 하더라도, 다음과 같이 할 수 있습니다.

  • HSEEP 스타일 템플릿을 사용해 인젝트와 타임라인을 스크립트
  • 각 스테이션마다 짧고 집중된 **애프터 액션 허들(after‑action huddle)**을 진행
  • 간단한 옵저버 체크리스트 등을 활용해 관찰 결과를 체계적으로 수집

이렇게 하면 Paper Reliability Arcade Line은 단순한 신기한 아이템이 아니라, 실질적인 역량 개발을 위한 휴대 가능한 시리어스 게임 플랫폼이 됩니다.


왜 공개적이고 협업적인 형식으로 해야 할까?

이런 시뮬레이션을 컨퍼런스, 전체 회의, 공유 오피스 공간 같은 공개 장소에서 운영하면 강력한 부수 효과가 생깁니다.

  • 공유된 멘탈 모델: SRE, 프로덕트 매니저, 운영자, 안전 담당자, 커뮤니케이션 스태프 등 다양한 역할의 사람들이 같은 인시던트를 각자의 시각에서 바라보게 됩니다.
  • 커뮤니케이션 개선: 낮은 위험 환경에서 구조화된 인수인계, 브리핑, 상태 업데이트를 연습하면, 실제 인시던트 때까지 그 습관이 이어집니다.
  • 접근성 향상: 3시간짜리 TTX에는 신청하지 않을 사람도, 15분짜리 스테이션에는 가볍게 참여할 수 있습니다.
  • 문화적 신호: 인시던트 대응 훈련을 눈에 보이게 만들면, 신뢰성과 안전이 온콜 팀만의 일이 아니라 모두의 책임이라는 메시지를 줄 수 있습니다.

공개 시뮬레이션은 장애 상황의 ‘신비로움’을 줄여 줍니다. “SRE 팀이 워룸에 들어가서 사라진다”는 느낌 대신, 협력적 대응이 어떻게 이루어지고 왜 어려운지 모두가 체감하게 됩니다.


결론: 나만의 신뢰성 아케이드 만들기

Paper Reliability Arcade Line은 특이한 아이디어를 넘어, 다음을 가능하게 하는 실질적인 방법입니다.

  • ICS 스타일 테이블탑의 엄밀함을 누구나 접근 가능한 아날로그 이동식 형식으로 옮기기
  • 참가자가 가상의 시스템을 직접 책임지고 운영해 보면서, 아키텍처와 프로세스 결정이 스트레스 상황에서 어떻게 작동하는지 체험하게 하기
  • 핵심 인시던트 역량—커맨드, 탐지, 트리아지, 서지, 복구—을 짧고 집중된 스테이션을 통해 반복 연습하기
  • 구조화된 인젝트로 실제 인시던트처럼 상황이 전개되도록 시뮬레이션하기
  • 기존 시뮬레이션 프레임워크에 기반을 두어, 학습을 의도적이고 측정 가능하게 만들기

신뢰성, SRE 교육, ICS 인시던트 대비를 책임지고 있다면, 다음과 같이 나만의 종이 아케이드를 만드는 것을 고려해 보세요.

  1. 허구이지만 현실감 있는 시스템을 정의한다.
  2. 중요한 역량 몇 가지를 고른다.
  3. 그 역량을 중심으로 스테이션 기반 TTX를 설계한다.
  4. 시간이 흐르며 진화하는 인젝트를 스크립트한다.
  5. 조직 내부, 컨퍼런스, 파트너 사이트 등 현장을 옮겨 다니며 운영한다.

제대로 만든 Paper Reliability Arcade Line은 인시던트 연습을 가끔 하는 의무 활동이 아니라, 공유 가능하고, 반복 가능하며, 놀랍도록 재미있는 공개 의식으로 바꾸어 줄 것입니다. 그리고 그 결과, 실제 다음 장애 상황을 맞이했을 때 팀은 훨씬 더 잘 준비되어 있게 될 것입니다.

종이로 만드는 신뢰성 아케이드 라인: 공공 공간에서 아날로그 방식으로 인시던트 대응을 연습하는 이동형 페어 디자인 | Rain Lag