Rain Lag

아날로그 장애 스토리 객차 디오라마: 손으로 옮겨가며 연출하는 신발상자 크기의 장애 세계 만들기

단순한 신발상자 크기의 객차 디오라마가 어떻게 복잡한 장애 시나리오를 리허설하고 조직의 회복 탄력성을 높이는 강력한 로우테크 시뮬레이션 환경이 될 수 있는지 소개합니다.

아날로그 장애 스토리 객차 디오라마: 손으로 옮겨가며 연출하는 신발상자 크기의 장애 세계 만들기

장애를 생각하면 보통 데이터 센터 장애, 지역 단위 정전, 네트워크 마비 같은 것과 함께 각종 대시보드, 그래프, 스크롤되는 로그 화면을 떠올립니다. 하지만 실제로 위기 상황에서 대응해야 하는 사람들—시설팀, HR, 커뮤니케이션, 리더십 등—에게는 이런 추상적인 화면만으로는 상황이 잘 와닿지 않는 경우가 많습니다.

여기서 등장하는 것이 바로 아날로그 장애 스토리 객차 디오라마입니다. 신발상자 크기의 작은 물리 모델로, 복잡한 장애 시나리오를 손으로 집어 들고, 옮기고, 재배치하면서 생각해 볼 수 있는 형태로 바꿔줍니다.

이건 엔지니어들을 위한 미술·공예 시간이 아닙니다. 다음과 같은 용도로 활용할 수 있는, 의도적으로 저기술(로우테크) 기반의 시뮬레이션 환경입니다.

  • 복잡한 시스템을 손에 잡히는 형태로 모델링하기
  • 장애가 어떻게 전파되는지 탐색하기
  • 기능을 넘나드는(크로스펑셔널) 장애 대응 리허설하기
  • 분기형 “만약에?” 스토리라인을 돌려 보기
  • 드물지만 파급력이 큰 사건에 대한 ‘근육 기억(muscle memory)’ 만들기

왜 신발상자 크기의 장애 세계를 만들어야 할까?

대부분의 조직은 이미 테이블탑(Tabletop) 연습을 합니다. 몇 사람이 한 자리에 모여, 장애 시나리오를 읽고, “우리가 이렇게 대응하겠다”라고 말로 풀어가는 방식입니다. 이 방식도 유용하지만, **상상력과 사람들 각자의 머릿속 그림(멘털 모델)**에 크게 의존합니다. 그리고 이 멘털 모델은 서로 어긋나 있는 경우가 많습니다.

물리적인 디오라마는 게임의 규칙을 바꿉니다.

  • 추상을 눈에 보이게 만든다: 전력, 네트워크, 시설, 사람을 눈앞의 객체로 표현합니다.
  • 숨은 의존성을 드러낸다: “이중화된 네트워크”라고 해도 결국 한 통신실을 공통 경유한다는 사실을 한눈에 볼 수 있습니다.
  • 참여를 쉽게 한다: 비기술 직군도 전문 용어를 듣기만 하는 게 아니라 직접 보고 만지면서 상황을 이해할 수 있습니다.
  • 심리적 부담을 낮춘다: 작은 조각들을 이리저리 옮기며 가정과 가설을 실험할 때, 더 자유롭게 질문하고 토론할 수 있습니다.

운영 탄력성을 위한 모델 철도라고 생각해도 좋습니다. 작고 안전하지만, 구조적으로는 실제 세계를 닮아 있습니다.


객차 디오라마에는 무엇이 들어가나?

모형 취미가 아니어도 됩니다. 신발상자나 작은 객차 모양 상자 하나와 기본적인 공예 재료만 있으면 충분합니다.

1단계: 어떤 “세계”를 모델링할지 정하기

너무 작아서 단순하지도, 너무 커서 이해하기 힘들지도 않은 적당한 범위를 고르세요. 예를 들어:

  • 단일 데이터 센터 혹은 사무실 건물 하나
  • 한 지역 안의 여러 오피스 클러스터
  • IT·전력·인력이 얽힌 물류 허브 하나

이 디오라마가 바로 그 세계의 축소판이 됩니다.

2단계: 핵심 신뢰성(리라이어빌리티) 구성요소 맵핑하기

리라이어빌리티 엔지니어링과 SRE(Site Reliability Engineering) 관점을 빌려, 우리가 신경 쓰는 주요 부분을 뽑아봅니다.

  • 전력(Power): 상용 전원(유틸리티), 비상 발전기, UPS, 중요/비중요 부하 구분
  • 네트워크(Network): ISP 회선, 라우터, 스위치, 광 경로, WAN vs LAN
  • 시설(Facilities): 서버실, 냉각, 엘리베이터, 출입 통제, 안전 설비
  • 사람(People): 상주 인력, 원격 근무 팀, 리더십, 벤더, 긴급 대응 인력

디오라마 안에서는 이것들이 각각 물리적인 객체가 됩니다.

  • 건물과 방: 블록이나 토큰
  • 전력·네트워크 라인: 색깔 있는 실(끈)이나 테이프
  • 역할·팀: 작은 아이콘, 말(게임 말), 피스
  • “여기는 중요 인프라”, “여기는 공용 인프라”라는 의미의 작은 깃발이나 포스트잇

중요한 것은 외형의 사실성이 아니라, **구조와 관계의 정확성(상대적 구조)**입니다.

3단계: 의존성을 드러내기

장애는 결국 압박받는 의존성의 문제입니다. 이 모델로 그 의존성을 표현해 봅니다.

  • 메인 통신실로 들어가는 전력선(빨간 실)
  • 모든 네트워크 트래픽이 지나가는 단일 MDF를 향하는 네트워크 케이블(파란 실)
  • “HR → VPN → 이 라우터”로 이어지는 의존 관계를 보여주는 화살표나 라벨

누군가가 “이 방이 침수되면 어떻게 되죠?”라고 물으면, 그 방을 가리키는 조각을 그대로 빼거나 덮어 보기만 하면 무엇이 같이 망가지는지 바로 볼 수 있습니다.


디오라마를 미니 시뮬레이션 환경으로 활용하기

한 번 만들고 나면, 이 디오라마는 저기술(minimal tech) 기반의 시뮬레이션 랩이 됩니다. 여기서 할 수 있는 일들:

  • 새 이중화·재해복구 설계를 프로토타이핑하기
  • 아키텍처 변경 사항을 눈으로 시각화하기
  • 실제 사람들과 함께 대응 런북을 검증해 보기

장애 시뮬레이션 하기

시나리오를 하나 고르고, 이것을 물리적으로 표현합니다.

  • 고장 난 전원 라인 위에 빨간 표시(마커, 토큰)를 올려둔다.
  • “광 절단 – 복구 ETA 6시간”이라고 적힌 카드를 주요 네트워크 경로 위에 덮는다.
  • "상주 인력" 토큰을 치우고, 그 자리에 “전원 재택/원격 근무” 토큰을 둔다.

그리고 그룹에 질문합니다.

  • 지금 당장 어떤 기능들이 멈추는가?
  • 누가 가장 먼저 눈치채는가? 아예 눈치채지 못하는 사람은 누구인가?
  • 완전히 중단된 것과 단순 성능 저하(Degraded) 상태인 것은 무엇인가?

사람들이 대답할 때마다, 그에 따라 조각과 실들을 옮깁니다. 그러면 그 장애에 대한 **공유된 시각적 서사(스토리)**가 만들어집니다.

구성(아키텍처) 빠르게 프로토타이핑하기

물리 모델의 장점 중 하나는 변경 비용이 거의 0에 가깝다는 점입니다.

  • “건물 반대편에서 들어오는 두 번째 ISP 회선을 추가하면 어떨까?”
  • “발전기가 전체 층이 아니라 절반만 커버한다면?”
  • “백업 오피스가 같은 변전소(서브스테이션)에 물려 있다면?”

이런 변경을 디오라마에 직접 반영하고, 같은 시나리오를 다시 돌려봅니다. 그러면 어떤 변경이 실제로 회복 탄력성을 높이고, 어떤 것은 말 그대로 ‘보여주기용’ 수준인지 금방 드러납니다.


분기형 스토리라인: 압박 속의 선택들

현실의 인시던트는 선형이 아닙니다. 사람들은 불확실성 속에서 여러 결정을 내리고, 그 선택들이 결과를 바꿔 놓습니다.

연습에 분기형 스토리라인을 설계해 두고, 명확한 의사 결정 포인트를 만듭니다.

상용 전력이 끊겼습니다. 전력 회사는 30분 후에 업데이트를 주겠다고 하지만, ETA(복구 예상 시간)는 알려주지 않습니다. 당신은 무엇을 하겠습니까?

A. 전력 회사의 추가 정보를 기다린다.

B. 바로 백업 계획을 가동하고, 전원을 원격 근무 체제로 전환하기 시작한다.

디오라마에서 두 분기를 모두 탐색해 봅니다.

  • 분기 A (기다림):

    • 시간이 흐른다는 의미로 ‘시계’ 토큰을 앞으로 옮깁니다.
    • “전력사 업데이트 지연 – 새로운 ETA 불명”이라는 카드를 추가합니다.
    • 시간이 쌓일수록 어떤 영향이 늘어나는지 보여줍니다. 더 많은 서비스 성능 저하, 손 놓고 있는 직원들, 불만이 커지는 고객 등.
  • 분기 B (즉시 행동):

    • 사람 토큰을 “원격” 위치로 옮깁니다.
    • 핵심 서비스만 비상전원에 붙여둡니다.
    • “VPN 부하 증가 – 용량 85% 도달”이라는 카드를 추가합니다.

그리고 그룹과 함께 토론합니다.

  • 어느 선택이 실제 영향(Impact)을 더 줄였는가?
  • 어느 쪽이 이차적인 문제(예: VPN 과부하, 커뮤니케이션 혼선)를 만들었는가?
  • 다음에 같은 상황이 온다면 무엇을 다르게 하겠는가?

이런 실행을 여러 번 반복하면, 의사 결정 트리를 점점 다듬어서 공식 런북에 녹여 넣을 수 있습니다.


엔지니어만을 위한 도구가 아닌, 전사(全社) 크로스펑셔널 리허설 도구

파급력이 큰 장애는 IT만의 이슈가 아닙니다. 영향 범위는 훨씬 넓습니다.

  • Ops / SRE / IT: 시스템, 데이터, 애플리케이션
  • 시설(Facilities): 전력, 냉각, 물리적 출입
  • HR: 직원 안전, 근태, 정책
  • 커뮤니케이션(Comms): 고객 공지, 내부 안내
  • 리더십(Leadership): 리스크 트레이드오프, 비즈니스 연속성 의사 결정

디오라마는 이 모든 그룹에게 공유된 무대를 제공합니다.

연습 예시 플로우

  1. 상황 설정(Scene Setting)

    • “화요일 오전 10시 30분, 지역 단위 정전이 발생했습니다. 여기가 우리의 주요 오피스이자 데이터 룸입니다.”
  2. 첫 번째 실패 소개

    • 모델에서 상용 전원을 제거합니다.
    • 시설팀이 건물 안에서 무슨 일이 일어나는지 설명합니다.
  3. 연쇄(캐스케이딩) 효과 추가

    • 특정 방의 네트워크 장비 전원이 꺼집니다.
    • VPN 접속 품질이 떨어지고, 원격 근무 속도가 느려집니다.
  4. 의사 결정 촉구

    • 리더십은 오피스를 전면 폐쇄할지, 부분 운영을 유지할지 선택합니다.
    • 커뮤니케이션 팀은 보드(디오라마)에서 보이는 정보만을 기준으로 대외·내부 메시지를 작성합니다.
  5. 디브리핑(Debrief)

    • 무엇이 잘 작동했는가?
    • 무엇이 사람들을 놀라게 했는가?
    • 모두가 “무엇이 영향을 받았는지”에 대해 같은 멘털 모델을 가지고 있었는가?

이 과정을 여러 변형과 함께 반복하면서, 팀은 실제 재난을 기다리지 않고도 공유된 이해와 근육 기억을 쌓을 수 있습니다.


반복 가능한, 게임 같은 시나리오 설계하기

트레이닝·게임·시뮬레이션 연구는 하나같이 **반복(Repetition)과 변형(Variation)**이 실력 향상의 핵심이라고 말합니다.

디오라마 세션을 하나의 게임 시스템처럼 다뤄보세요.

  • 시나리오 카드: “대피 중 엘리베이터 고장”, “지역 ISP 대규모 장애”, “유지보수 윈도우 중 화재 경보” 같은 프롬프트 카드
  • 난이도 레벨: 처음에는 실패 1개짜리 단일 장애로 시작하고, 나중에는 전력 장애 + 인력 결손 + 공급업체 지연 같은 복합 장애로 난도를 높입니다.
  • 리셋 가능한 상태: 매 실행 후 디오라마를 빠르게 초기 상태로 돌릴 수 있게 유지합니다.
  • 지표(Metrics): 의사 결정까지 걸린 시간, 커뮤니케이션의 명료성, 미리 인지하지 못했던 의존성 개수 등

시간이 지나면, 파일럿이나 재난 대응 인력이 시뮬레이터로 기량을 단련하듯, 조직도 반복 가능한 드릴(Drill) 라이브러리를 쌓게 되고, 대비 상태가 점점 높아집니다.


왜 또 다른 대시보드보다 로우테크가 나을 때가 있는가

이 도구는 디지털 시스템을 대체하려는 것이 아닙니다. 보완하는 것이 목적입니다.

손으로 만지는 물리 모델은 다음과 같은 효과를 냅니다.

  • 사람들의 속도를 딱 적당히 늦춰서, 더 맑은 생각을 하게 합니다.
  • “초보적인” 질문을 하기 쉽게 만들어 줍니다. 그리고 이런 질문이야말로 종종 가장 중요합니다.
  • 아키텍처 다이어그램과 런북 안에 숨어 있던 가정(Assumption)을 수면 위로 끌어올립니다.
  • 협업을 촉진하고, 토론을 더 풍부하게 만듭니다.

모든 사람이 같은 작은 상자를 바라보며, 같은 “네트워크 케이블”을 뜻하는 실을 손가락으로 가리키고 있으면, 용어 정의를 둘러싼 논쟁은 자연스럽게 사라집니다. 대신 공유된 회복 탄력성 멘털 모델이 만들어지고, 이 모델은 연습이 끝난 뒤에도 사람들 머릿속에 남습니다.


내일부터 바로 시작하는 방법

예산 승인부터 받을 필요는 없습니다. 작게 시작하세요.

  1. 신발상자 하나와 포스트잇, 색깔 있는 실, 말(토큰)을 몇 개 준비합니다.
  2. 상자 안에 우리의 주요 사이트(오피스, 데이터 룸) 레이아웃을 대략적으로 스케치합니다.
  3. 전력과 네트워크 경로를 실로 연결합니다.
  4. 팀 역할을 토큰으로 배치합니다.
  5. 간단한 장애 하나를 돌려봅니다: “메인 전원 공급이 4시간 동안 끊긴다.”
  6. 질문합니다: 무엇이 멈추는가? 누가 행동하는가? 어떻게 복구하는가?

이때 배운 것을 기록하고, 그 결과를 바탕으로 모델을 조금씩 개선합니다.


결론: 작은 세계로 던지는 큰 회복 탄력성 질문

오늘날 시스템은 복잡하고 분산되어 있어서, 거창한 소프트웨어 도구만이 장애를 이해하는 유일한 방법처럼 느껴지기 쉽습니다. 하지만 때로는, 신발상자 크기의 아날로그 세계가 더 좋은 답을 줍니다.

  • 복잡성을 눈에 보이고 손에 잡히게 만들고
  • 실패와 복구를 안전하게 실험해 보고
  • 서로 다른 이해관계자들을 같은 현실 위에 맞춰 세우고
  • 진짜 위기가 올 때 필요한 습관과 직관을 미리 길러 줍니다.

아날로그 장애 스토리 객차 디오라마는 모니터링 시스템, 대시보드, 정교한 디지털 시뮬레이션을 대체하지 않습니다. 대신, 우리에게 더 단순하지만 묘하게 강력한 것을 제공합니다. 손으로 직접 재배치하면서, 실제 상황이 오기 전에 마음껏 실패하고, 그리고 다시 회복해 볼 수 있는 작은 세계 말입니다.

아날로그 장애 스토리 객차 디오라마: 손으로 옮겨가며 연출하는 신발상자 크기의 장애 세계 만들기 | Rain Lag