Rain Lag

아날로그 인시던트 스토리 ‘페리스 시계’: 슬로 모션으로 온콜 트레이드오프를 리허설하는 법

책상 위에 올려두는 종이 ‘페리스 시계’로 인시던트 대응 연습을 현실감 있게, 슬로 모션 리허설로 바꿔 온콜 판단력, 트레이드오프 사고, 팀 조율을 날카롭게 다듬는 방법을 소개합니다.

소개

대부분의 팀은 진짜로 인시던트 대응 프로세스를 마주하는 순간이, 이미 무언가가 불타고 있을 때입니다.

그때가 되면, 차분히 트레이드오프를 연습하거나, 커뮤니케이션 방식을 보정하거나, “만약 이런 경우엔?” 하는 경로를 탐색하기에는 이미 늦습니다. 시간에 쫓기며, 학습보다는 생존에 최적화된 결정을 내리게 되죠.

그렇다면 인시던트를 슬로 모션으로 리허설할 수 있다면 어떨까요? 빽빽한 문서나 슬라이드, 추상적인 회고가 아니라, 팀이 함께 손으로 돌려 가며 사용하는 책상 크기의 종이 바퀴로 말이죠.

여기서 등장하는 것이 아날로그 인시던트 스토리 페리스 시계(Incident Story Ferris Clock) 입니다. 손으로 직접 돌려 가며 인시던트 타임라인을 따라가는 종이 바퀴죠. 사이버보안 테이블탑(Tabletop) 연습이자, 게임 같기도 하고, 온콜 팀을 위한 의사결정 실험실 같은 도구입니다.


인시던트 스토리 페리스 시계란?

먼저 큰 원형 바퀴를 떠올려 보세요. (저녁 식사용 접시 이상 크기면 좋습니다.) 아날로그 대시보드처럼 책상 위에 올려 두고 쓰는 겁니다. 가장자리에는 시간 구간과 의사결정 포인트가 나뉘어 있습니다.

  • “알림(Alerts) 발생”
  • “초기 대응(First response)”
  • “트리아지 & 진단(Triage & diagnosis)”
  • “완화(Mitigation) 옵션”
  • “내부/외부 커뮤니케이션(Comms up / comms out)”
  • “에스컬레이션 & 롤백(Escalation & rollback)”
  • “사후 회고(Post-incident reflection)”

바퀴를 시계 방향으로 돌리면, 각 섹션마다 다음과 같은 요소들이 드러납니다.

  • 시나리오 카드 (컨텍스트, 증상, 리스크/중요도)
  • 여러 가지 선택지 (예: “지금 바로 롤백” vs “신호를 더 모은 뒤 결정”)
  • 빠르게 살펴볼 수 있는 트레이드오프와 평가 기준
  • 누가 무엇을 하는지, 누구에게 알릴지에 대한 프롬프트

실제 인시던트처럼 실시간으로 쫓기며 진행하는 대신, 바퀴를 직접 손으로 천천히 돌리면서 각 단계마다 결정, 트레이드오프, 결과를 충분히 이야기합니다.

일부러 아날로그로 만든 이유가 있습니다. 탭 전환도, 알림도, 대시보드도 없습니다. 오직 팀, 시나리오, 그리고 이 바퀴만 있습니다.


사이버보안 테이블탑 연습처럼 운영하기

페리스 시계는 사이버보안 테이블탑(Tabletop Exercise, TTX) 처럼 운영할 때 가장 효과적입니다.

  1. 상황 설정하기

    • 퍼실리테이터가 오늘 다룰 인시던트를 소개합니다. 부분 장애, 데이터 품질 이슈, 수상한 액세스 패턴 등이 될 수 있습니다.
    • 가정을 명확히 합니다. (시간대, 누가 온콜인지, 어떤 툴이 있는지 등)
  2. 역할 분배하기 (소규모여도 꼭 나눕니다)

    • 인시던트 커맨더(Incident Commander)
    • 주요 대응자 / 문제 해결 담당(Primary responder / fixer)
    • 커뮤니케이션 리드(Comms lead) – 내부 & 외부 커뮤니케이션
    • 옵저버 / 서기(Observer / scribe)
  3. 바퀴를 한 칸씩 돌리기

    • 각 단계마다 퍼실리테이터가 프롬프트와 선택지를 읽어 줍니다.
    • 팀은 문서에 “이렇게 하라”고 되어 있는 내용이 아니라 실제로라면 어떻게 하겠는지를 중심으로 이야기합니다.
  4. 결과보다 ‘경로’에 집중하기

    • 테이블탑의 핵심은 특정 결론이 아니라, 그 결정을 어떻게 만드는지에 있습니다. 어떤 정보를 찾고, 누구를 호출하고, 불확실성을 어떻게 전달하는지 등.
    • 페리스 시계는 이 과정을 형식화합니다. 각 섹션은 결국 프로세스를 두고 이야기하게 만드는 대화의 출발점입니다.
  5. 마찰과 갭을 포착하기

    • 어디서 의견이 갈리는지?
    • 오너십이나 다음 스텝이 헷갈리는 부분은 어디인지?
    • 어떤 문서화나 자동화가 명백히 부족한지?

목표는 시나리오를 “이기는 것”이 아닙니다. 보이지 않던 것들을 보이게 만드는 것입니다. 평소에는 드러나지 않다가, 압박 상황이 되어야 튀어나오는 가정, 습관, 실패 패턴을 끌어내는 거죠.


슬로 모션은 버그가 아니라 ‘기능’이다

실제 인시던트에서는 시간이 압축됩니다. 페리스 시계는 의도적으로 그 시간을 늘어뜨립니다.

속도를 늦추면, 평소엔 급박함에 묻혀 잘 보이지 않던 트레이드오프가 또렷하게 드러납니다.

  • 속도 vs 안전(Speed vs. safety)
    정보가 불완전한 상태에서 지금 당장 롤백할 것인가, 아니면 계속 조사하다가 장애 시간을 더 늘릴 리스크를 감수할 것인가?

  • 자동화 vs 인간 판단(Automation vs. human judgment)
    보통은 잘 먹히지만 리스크가 있을 수 있는 자동 복구 플레이를 바로 실행할까, 아니면 사람이 먼저 진단을 확인하고 실행할까?

  • 단기 처방 vs 장기 탄탄함(Short-term fixes vs. long-term resilience)
    당장 설정을 핫패치하고 넘어갈까, 아니면 지금 조금 더 아파도 장기적으로 탄탄한 경로를 만들까?

바퀴는 팀이 멈춰서 말하게 만듭니다.

“옵션 A를 선택하면, 우리는 무엇을 최적화하고 있는 거지? 어떤 리스크를 받아들이는 거지?”

진짜 학습은 바로 이 지점에서 일어납니다. 체크리스트를 외우는 게 아니라, 판단력을 훈련하는 것이니까요.


간단한 트레이드오프 만트라를 ‘생각의 틀’로 추가하기

압박 속에서 사람들은 긴 문서를 떠올리지 않습니다. 대신 짧고 잘 달라붙는 문구가 떠오릅니다.

이걸 페리스 시계에 3단어 만트라 혹은 짧은 트레이드오프 문구로 새겨 넣을 수 있습니다. 예를 들어:

  • “Stabilize before optimize(안정화 후 최적화)” – 인시던트 초반에는 우선 피를 멎게 하는 데 집중하고, 우아함은 나중에 챙깁니다.
  • “Logs, then levers(로그 먼저, 레버는 나중에)” – 바꾸기 전에 관찰합니다. 레버를 당기기 전에 신호를 모읍니다.
  • “Safety over speed(속도보다 안전)” – 사람 안전, 데이터 손실, 법적 리스크가 걸려 있다면, 속도보다 보수적인 선택을 우선합니다.
  • “Bias towards rollback(롤백에 편향)” – 최근 변경이 의심된다면, 스트레스 속에서 새로운 해결책을 끌어내기보다, 일단 되돌리는 편이 대개 더 안전합니다.

이런 문구는 SRE, DevOps, MLOps 관행에서 가져와도 좋습니다. 예컨대 ML 인시던트라면:

  • “Integrity before accuracy(정합성이 정확도보다 우선)” – 메트릭이 좋아 보인다고 해서, 신뢰할 수 없는 예측을 내보내서는 안 됩니다.
  • “Explain, then scale(이해 후 확장)” – 완화책을 대규모로 적용하기 전에, 먼저 실패 모드를 이해합니다.

이 만트라를 페리스 시계의 테두리나 스포크(살)에 적어 두면, 바퀴를 돌릴 때마다 응답자들이 기본으로 의지해야 할 정신적인 기본값을 계속 상기시키게 됩니다.

시간이 지날수록 이런 짧은 문구들은 실제 온콜 상황에서 자동으로 떠오르는 기준점이 됩니다.


ML에서 차용한 평가 축으로 의사결정을 점수화하기

연습을 더 깊게 만들고 싶다면, ML 벤치마크에서 아이디어를 빌려와 인시던트 의사결정에 적용해 보세요. 각 의사결정 포인트에서 다음과 같은 축으로 옵션을 평가합니다.

  • 정확도(Accuracy) – 인시던트를 제대로 이해하고 있는가?

    • 가설을 데이터로 검증했는가?
    • 증상과 근본 원인을 구분하고 있는가?
  • 강건성/견고함(Robustness) – 이 대응은 변동성과 불확실성에 얼마나 잘 견디는가?

    • 원인 진단이 틀렸을 때, 이 액션이 상황을 더 악화시키지 않는가?
    • 인시던트 양상이 변하더라도 이 접근법이 여전히 유효한가?
  • 편향(Bias) – 어떤 블라인드스팟이나 기본 편향이 선택을 왜곡하고 있는가?

    • 특정 대시보드나 메트릭을 과신하고 있지 않은가?
    • “네트워크 / DB / ML 모델 탓”으로 돌리는 습관에 너무 기대고 있지 않은가?
    • 서포트, 법무, 고객 성공 등 비엔지니어링 이해관계자의 니즈를 무시하고 있지 않은가?
  • 효율(Efficiency) – 시간, 인력, 컴퓨팅 리소스를 얼마나 잘 쓰고 있는가?

    • 에스컬레이션을 너무 일찍 혹은 너무 늦게 하고 있지 않은가?
    • 런북으로 처리 가능한 일을 시니어 엔지니어 셋을 붙들어 두고 있지 않은가?

페리스 시계의 각 섹션에 1–5점 정도의 작은 점수 그리드를 넣을 수 있습니다. 한 가지 선택을 내린 뒤에는, 팀이 함께 다음을 수행합니다.

  1. 그 결정에 점수를 매깁니다.
  2. 되돌아보며 묻습니다. “Robustness나 Bias 인식 면에서 점수를 한 칸 더 올리려면 무엇을 바꿨어야 할까?”

이렇게 하면 단순한 이야깃거리가 아니라, 구조화된 스킬 빌딩 연습으로 바뀝니다.


AI와 아날로그의 조합

AI 도구는 의외로 아날로그 바퀴와 매우 잘 어울립니다.

AI는 생성, 변주, 무거운 작업에 쓰세요.

  • 현실감 있는 인시던트 내러티브 작성 (인프라, 애플리케이션, 데이터, ML, 보안 등)
  • 트래픽 패턴, 사용자 영향, 규제 제약 사항 등 파라미터를 다양하게 만들기
  • 메트릭 스냅샷, 로그 일부, 알림(payload) 생성
  • 선택지 후보와 각각의 장단점 제안

반면, 페리스 시계 자체는 물리적인 형태로 유지합니다.

  • 산만함을 줄이고 (연습 중 탭 전환 방지)
  • 대면 대화를 유도하고, 조용한 슬랙 스레드에만 의존하지 않게 만들며
  • 모두가 손가락으로 가리키고, 포스트잇을 붙이고, 바로 수정할 수 있는 공유 시각 아티팩트를 만들고
  • 일상 업무와 다른 **의식(ritual)**로 느껴지게 만듭니다.

예를 들면 다음과 같이 할 수 있습니다.

  • 사전에 AI를 활용해 여러 개의 시나리오 카드의사결정 옵션 카드를 만들어서 코팅합니다.
  • 평가 그리드와 만트라를 출력해 바퀴에 붙입니다.
  • 연습이 끝난 뒤에는 메모를 AI 어시스턴트에 입력해, 취약 지점을 겨냥한 플레이북 업데이트새로운 시나리오를 제안받습니다.

이렇게 하면 타이트한 루프가 만들어집니다. AI는 더 풍성한 연습을 설계해 주고, 아날로그 시계는 팀이 그 순간에 집중하고, 조율하고, 성찰하게 도와줍니다.


팀의 ‘의식’으로 만드는 법

페리스 시계는 한 번 하는 워크숍 소품으로 두면 큰 효과를 보기 어렵습니다. **정기적인 의식(ritual)**으로 만들어야 합니다.

예를 들어 이렇게 운영해 보세요.

  • 주기: 45–60분, 2–4주마다 1회
  • 참여자: 온콜 엔지니어, SRE, 온콜 매니저, 그리고 서포트/프로덕트 등에서 돌아가며 게스트 초대
  • 포맷:
    1. 시나리오를 고르거나, “랜덤 시나리오 스택”에서 한 장 뽑는다.
    2. 역할을 배분한다.
    3. 바퀴를 돌리며 인시던트를 따라간다.
    4. 핵심 결정들을 Accuracy, Robustness, Bias, Efficiency 축에서 점수 매긴다.
    5. 마지막엔 2–3개의 구체적 개선사항으로 마무리한다. (런북 변경, 자동화 후보, 커뮤니케이션 템플릿 등)

그리고 시간이 지남에 따라 무엇이 달라지는지를 추적합니다.

  • 의사결정이 점점 팀의 만트라에 더 잘 부합하고 있는가?
  • 오너십과 에스컬레이션 관련 혼란이 줄어들고 있는가?
  • 실제 인시던트에서 “이거 페리스 시계 시나리오 3번이랑 비슷한데? 그때 썼던 롤백 전략 써보자” 같은 말이 나오고 있는가?

실제 인시던트가 터졌을 때, 대응자들이 기억하는 것은 명령어나 툴뿐만이 아닙니다. 다음과 같은 것들에 대한 근육 기억(muscle memory) 도 생깁니다.

  • 사고를 어떻게 구조화할지
  • 트레이드오프를 어떻게 말로 설명할지
  • 역할 간에 어떻게 손발을 맞출지

이게 진짜 수확입니다.


결론

인시던트 스토리 페리스 시계는 철저히 로우테크입니다. 종이, 잉크, 그리고 약간의 상상력. 하지만, 복잡하고, 고위험이고, 항상 켜져 있는 현대 시스템에 팀을 대비시키는라는 아주 현대적인 문제를, 시간을 느리게 돌리는 방식으로 풀어냅니다.

이 도구를 테이블탑 연습처럼 운영하고, 트레이드오프를 표면 위로 끌어올리고, 단순한 만트라에 결정을 anchoring하고, ML에서 가져온 평가 축으로 점수화하며, AI가 만든 콘텐츠를 아날로그 의식과 결합하면, 실제 인시던트에서는 거의 가지기 힘든 세 가지를 팀에 선물할 수 있습니다.

  • 생각할 시간
  • 서로 다른 의견을 나눌 여유
  • 트레이드오프를 공유 언어로 표현하는 힘

모든 인시던트를 막을 수는 없습니다. 하지만 더 잘 리허설할 수는 있습니다.

두꺼운 종이 한 장, 마커 한 개, 그리고 하나의 시나리오로 시작하세요. 함께 바퀴를 돌려 보세요. 다음에 페이저가 울릴 때, 팀은 단지 반사적으로 대응만 하지 않을 겁니다. 함께 연습했던 그 순간을 떠올리며 대응하게 될 것입니다.

아날로그 인시던트 스토리 ‘페리스 시계’: 슬로 모션으로 온콜 트레이드오프를 리허설하는 법 | Rain Lag