Rain Lag

골판지 신뢰성 극장: 화면 없이 사건을 연기하며 통찰을 극대화하는 방법

노트북과 대시보드 없이 진행하는 저기술·무(無)스크린 테이블탑 연습, 이른바 ‘골판지 신뢰성 극장’을 통해 인시던트 대응을 강화하고, 팀 협업을 개선하며, NIST CSF 2.0 같은 보안·리스크 프레임워크와 자연스럽게 연결하는 방법을 다룹니다.

골판지 신뢰성 극장: 화면 없이 사건을 연기하며 통찰을 극대화하는 방법

인시던트 연습이 주로 “다 같이 줌(Zoom)에 모여 대시보드를 바라보는 것”으로 끝난다면, 상당한 수준의 회복력(resilience)을 놓치고 있는 겁니다.

좋은 도구, 메트릭, 알림이 필요한 건 맞습니다. 하지만 인시던트 대응 스택에서 가장 복잡한 시스템은 Grafana나 PagerDuty가 아니라, 사람이고, 스트레스 상황에서 사람들이 함께 일하는 방식입니다.

골판지 신뢰성 극장(Cardboard Reliability Theater) 은 의도적으로 저기술(low‑tech) 을 지향하는 인시던트 연습 방식입니다. 노트북도, 대시보드도, 터미널도 없습니다. 사람, 종이, 소품만 있습니다. 테이블탑 인시던트 연습 + 즉흥극(improv theater) 정도로 생각하면 됩니다. 실제 장애 상황을 연기하고, 실제 플레이북을 따라가며, 실제 프로세스를 스트레스 테스트하지만, 프로덕션 환경은 건드리지 않습니다.

이 글에서는 이렇게 화면 없이 진행하는 리허설을 왜, 어떻게 해야 하는지, NIST CSF 2.0 같은 보안·리스크 프레임워크와는 어떻게 연결할 수 있는지, 그리고 각 ‘공연’에서 나온 배움을 어떻게 데이터로 만들어 시스템과 플레이북을 개선할지 설명합니다.


왜 인시던트를 연습해야 할까?

대부분의 팀은 인시던트에 “준비되어 있어야 한다”는 데 동의합니다. 하지만 이를 체계적으로 실천하는 팀은 훨씬 적습니다.

인시던트 대응 테이블탑(Tabletop) 연습 은 안전한 샌드박스를 제공합니다. 여기서 우리는:

  • 실제 고객에게 영향을 주지 않고 현실적인 장애를 리허설하고
  • 모니터링, 프로세스, 온콜 체계의 구멍을 드러내고
  • 스트레스 상황에서도 모든 것을 즉흥으로 하지 않게 만드는 근육 기억(muscle memory) 을 만들고
  • 실패를 공개적이고 건설적으로 이야기하는 문화를 정상화합니다.

이 연습을 1년에 한 번 하는 컴플라이언스 체크가 아니라, 운영 리듬의 일부로 다루기 시작하면, 조직 문화가 바뀝니다. 인시던트를 “당연히 생기는 것”으로 보고, “준비돼 있고, 배움을 쌓는” 것으로 여기는 문화가 자리 잡습니다.


플레이북: 고스트레스 상황을 위한 각본

연극에서 훌륭한 즉흥 연기자들도 완전히 백지 상태에서 움직이지 않습니다. 어느 정도의 구조를 가지고 연기합니다. 인시던트 대응에서 그 구조가 바로 인시던트 대응 플레이북(incident response playbook) 입니다.

좋은 플레이북은 다음 질문에 구체적으로 답합니다.

  • 누가 무엇을 책임지는가? (Incident Commander, Scribe, 커뮤니케이션 담당, SME 등)
  • 무엇을 X가 장애 났을 때 가장 먼저 세 가지 행동으로 할 것인가? (트리아지, 격리, 커뮤니케이션 등)
  • 어떻게 소통할 것인가? (채널, 빈도, 대상)
  • 언제 에스컬레이션할 것인가? (심각도 레벨, 의사결정 기준)
  • 어디에 결정과 타임라인을 기록할 것인가?

압박이 심할 때 사람들은 상황에 맞춰 ‘갑자기 성장’하지 않습니다. 보통 자신이 받은 훈련 수준으로 되돌아갑니다. 명확하고 사전에 정의된 플레이북이 있으면:

  • 주니어 엔지니어도 빠르게 기여할 수 있고
  • 시니어가 모든 결정을 처음부터 끝까지 혼자 내리지 않아도 되며
  • 팀 전체가 “좋은 대응이란 무엇인가”에 대한 공통된 멘탈 모델을 갖게 됩니다.

골판지 신뢰성 극장은 이 플레이북들을 문서에만 존재하는 이론이 아니라, 실제로 연습하고, 수정하고, 신뢰할 수 있는 살아 있는 스크립트로 만드는 공간입니다.


극장과 NIST CSF 2.0을 어떻게 연결할까

이건 그냥 재미로 하는 롤플레이가 아닙니다. 이런 연습을 NIST Cybersecurity Framework(CSF) 2.0 같은 프레임워크와 연결해, 실제 리스크 관리 활동으로 매핑할 수 있습니다.

NIST CSF 2.0은 다음 다섯 가지 기능(Functions)을 강조합니다.

  • Identify: 리스크, 자산, 의존성을 이해
  • Protect: 예방 통제 수단 구축
  • Detect: 가시성 확보 및 알림
  • Respond: 격리, 커뮤니케이션, 조정
  • Recover: 복구, 개선, 학습

골판지 신뢰성 극장은 주로 RespondRecover 기능을 직접적으로 다루지만, 연습 과정에서 Identify, Protect, Detect 영역의 문제도 자연스럽게 드러납니다.

예를 들어, 연습 도중 이런 상황이 나올 수 있습니다.

  • “이 데이터베이스에 의존하는 서비스가 무엇인지” 아무도 빠르게 답하지 못한다 → Identify(식별) 영역의 갭
  • 긴급 상황에서 방화벽 변경 승인 권한을 가진 사람이 누구인지 팀이 모른다 → Protect(보호) 영역의 갭
  • 이런 실패 모드에 대한 알림이 전혀 없다 → Detect(탐지) 영역의 갭

연습에서 나온 발견 사항을 명시적으로 NIST CSF 2.0에 매핑하면:

  • “재미있는 드릴”을 감사·내부 통제·이사회 보고에 쓸 수 있는 증거로 바꿀 수 있고
  • 인시던트 연습을 따로 노는 이벤트가 아니라, 리스크 프로그램의 일부로 녹여낼 수 있으며
  • 단지 “지금 급해 보이는 것”이 아니라, 전사 리스크 관점에서 중요도가 높은 것부터 개선을 우선순위화할 수 있습니다.

왜 화면을 치우고 할까?

“노트북 금지”는 처음 들으면 다소 역설적으로 들립니다. 실제 인시던트에서는 도구를 쓰니까, 도구를 써서 연습해야 하는 것 아닌가? 라는 생각이 자연스럽습니다.

둘 중 하나를 선택해야 하는 문제는 아닙니다. 도구 중심의 드릴은 반드시 필요합니다. 다만, 화면은 사람들의 주의를 인간 시스템에서 떼어 놓습니다. 그리고 실제 인시던트가 꼬이는 지점 중 상당수는, 바로 이 인간 시스템에서 발생합니다.

화면 없이, 역할극 형태로 연습하면 다음과 같은 질문들이 선명하게 드러납니다.

  • 누가 적극적으로 말하고, 누가 조용히 있는가?
  • 누군가 명확히 커맨드를 잡는가, 아니면 의사결정 마비가 오는가?
  • 의견 충돌이 있을 때, 어떻게 교착 없이 풀어가는가?
  • 인시던트 채널 밖의 이해관계자 업데이트는 누가, 어떻게 챙기는가?
  • 기본 반응이 ‘탓하기’인가, 아니면 ‘호기심과 탐구’인가?

이런 행동과 커뮤니케이션 패턴은 로그 파일에서는 절대 보이지 않지만, 실제 결과에는 엄청난 영향을 미칩니다.

또한 “로그를 그냥 보면 되는데?”라고 할 수 없으니, 사람들은:

  • 플레이북과 프로세스에 의존해야 하고
  • 자신의 멘탈 모델을 입 밖으로 꺼내 설명해야 하며
  • 데이터·시스템·책임 범위에 대한 가정과 전제를 명확히 해야 합니다.

이 지점에서 깊은 학습이 일어납니다.


카오스 엔지니어링에서 빌려오기: 줄거리를 교란하라

카오스 엔지니어링은 시스템의 행동을 이해하기 위해 의도적으로 실패를 주입하는 접근법입니다. 골판지 신뢰성 극장은 이 아이디어를 사람과 프로세스에 적용합니다.

단순하고 직선적인 시나리오만 돌리지 마세요. 연습 도중 중간에 줄거리를 교란(perturb) 하세요.

  • 시뮬레이션 장애가 한창일 때, 1차 온콜 담당자가 “연락 두절” 상태가 된다.
  • Incident Commander가 갑자기 “다른 긴급 상황으로 호출”된다. 누가 대신 지휘를 맡는가?
  • 상태 페이지(Status Page) 공지가 실수로 과도하게 기술적인 내용을 노출했다. 어떻게 바로잡고, 법무/PR과 조율하는가?
  • 전혀 다른 유형의 새로운 알림이 뜬다. 이걸 트리아지할 것인가, 무시할 것인가?

목적은 사람들을 속이거나 시험에 빠뜨리는 게 아닙니다. 우리가 알고 싶어 하는 건:

  • 우리가 놀라움(surprise) 에 얼마나 잘 대응하는가?
  • 사람 기준 단일 장애점(Single Point of Human Failure) 은 어디에 있는가?
  • 계획이 틀어졌을 때 우리의 커뮤니케이션 패턴은 얼마나 탄력적인가?

이런 교란 요소를 넣으면 플레이북에 내재된 기술적 가정뿐 아니라, 사회적·조직적 가정까지 함께 스트레스 테스트할 수 있습니다.


각 공연을 데이터로 취급하라

연극은 한순간이지만, 배움은 오래 남아야 합니다.

각 연습을 구조화된 실험으로 접근하세요.

  1. 가설부터 세운다

    • “서비스 X가 죽으면, 담당 팀은 5분 안에 페이징을 받을 것이다.”
    • “데이터베이스 페일오버 런북은 어느 L2 온콜이라도 이해하고 실행할 수 있을 만큼 충분히 명확하다.”
  2. 공연을 관찰한다

    • 역할이 배정되기까지 걸린 시간을 잰다.
    • 혼란이나 의견 충돌이 언제 나타나는지 기록한다.
    • 누군가 “잠깐, 이건 누가 책임이죠?”라고 말한 횟수를 센다.
  3. 가정을 반증(falsify)한다
    “모두가 에스컬레이션 경로를 알고 있다”가 가설이었는데, 실제로 10분 동안 누구에게 전화할지 논쟁만 했다면, 그 가설은 반증된 것입니다. 좋습니다. 이제 고칠 지점을 찾은 겁니다.

  4. 인사이트를 구체적으로 정리한다
    연습이 끝나면 짧은 회고를 진행합니다.

    • 무엇이 우리를 놀라게 했는가?
    • 무엇이 잘 작동했고, 계속 유지하고 싶은가?
    • 무엇이 속도를 늦추거나 헷갈리게 했는가?
    • 어떤 플레이북·정책이 업데이트가 필요한가?
  5. 시스템과 플레이북에 반영한다

    • 런북과 역할 정의를 업데이트한다.
    • 모니터링·알림·대시보드를 조정한다.
    • 서비스 오너십, 온콜 로테이션, 에스컬레이션 경로를 명확히 한다.
    • 이 변경 사항을 NIST CSF(예: Respond/Recover 기능)에 다시 매핑한다.

골판지 무대 자체를 인시던트 프로세스 실험실로 보세요. 각 연습은 현실 세계의 무언가를 반드시 바꾸도록 만들어야 합니다.


첫 번째 골판지 신뢰성 극장 세션을 여는 방법

예산 승인도, 화려한 도구도 필요 없습니다. 필요한 건:

  • 60–90분의 시간
  • 하나의 공간(리모트라면 가상 화이트보드)
  • 포스트잇 / 인덱스 카드 / 골판지 같은 메모 도구

1. 현실적인 시나리오를 정한다

실제로 걱정하고 있는 장애 유형을 고르세요.

  • 코어 데이터베이스 클러스터 장애
  • 주요 클라우드 리전(region) 전체 장애
  • 핵심 인증 서비스 설정 오류

그리고 짧고 구체적인 시작 상황을 적습니다.

“화요일 오전 10시 7분입니다. PagerDuty가 Payments 서비스 1차 온콜에게 페이지를 보냈습니다. 5xx 비율이 40%까지 치솟았습니다.”

2. 역할을 캐스팅한다

이름이 적힌 카드로 역할을 나눕니다.

  • Incident Commander
  • Scribe(기록 담당)
  • 커뮤니케이션 리드(내부/외부)
  • 기술 리드들(SRE, 애플리케이션 엔지니어, DB, 네트워크, 보안 등)
  • 선택: 임원, 고객 지원, 법무/PR 등

3. 규칙을 정한다

  • 노트북, 휴대폰, 대시보드는 사용 금지
  • 모든 “시스템 상태”는 진행자(Facilitator)가 미리 준비한 카드로 제공
  • 실제 플레이북·인쇄된 런북은 참조 가능

4. 연습을 진행한다

진행자는 시간 흐름에 따라 새로운 정보를 공개합니다.

  • “고객 지원팀에서 리포트가 왔습니다. TOP 고객이 결제를 할 수 없다고 합니다.”
  • “로그를 보니 데이터베이스 계층으로의 타임아웃이 증가했습니다.”
  • “클라우드 제공업체 상태 페이지에 기본 리전에 문제가 있다는 공지가 올라왔습니다.”

팀은 실제 상황이라고 생각하고, 키보드 대신 대화와 의사결정으로 협력하고 질문하며 대응합니다.

5. 교란 요소를 추가한다

팀이 어느 정도 패턴을 찾고 안정되었다 싶으면, 예기치 않은 상황을 던집니다.

  • “주요 DB 전문가가 지금 비행기 안이라 연락이 되지 않습니다.”
  • “Slack 워크스페이스가 방금 다운됐습니다. 이제 어떻게 소통하겠습니까?”

무엇이 깨지고, 무엇이 적응하는지 관찰하세요.

6. 회고하고 문서화한다

최소 20분은 회고에 남겨두세요.

  • 우리가 사실이라고 가정했지만, 실제로는 그렇지 않았던 것은 무엇인가?
  • 어디에서 시간을 낭비하거나 일을 중복했는가?
  • 어떤 결정이 특히 어려웠고, 왜 그랬는가?
  • 다음 주까지 실제로 바꾸기로 약속할 것은 무엇인가?

이 답들을 구체적인 티켓과 플레이북 업데이트로 옮깁니다.


구조와 창의성을 결합해 진짜 회복력을 만들기

가장 효과적인 인시던트 대응 프로그램은 다음 중 하나에만 의존하지 않습니다.

  • 프레임워크와 정책(NIST, 컴플라이언스 문서 등)만 있거나,
  • 애드혹 영웅주의와 똑똑한 도구만 있거나,
  • 배움 없이 기분만 좋은 시뮬레이션만 하는 식이 아닙니다.

대신 이 세 가지를 결합합니다.

  • NIST CSF 2.0 같은 구조화된 프레임워크가 주는 규율(Discipline)
  • 잘 설계된 인시던트 플레이북이 주는 명료함(Clarity)
  • 골판지 신뢰성 극장 같은 창의적인 저기술 시뮬레이션이 주는 통찰(Insight)

이 조합이 단순한 업타임을 넘어선 가치를 만듭니다. 문제가 생겼을 때 함께 생각하고, 소통하고, 적응할 줄 아는 팀, 그것이 진짜 회복력입니다.


결론: 골판지 무대 위로 올라서기

현대 시스템은 너무 복잡해서, 실패를 완전히 피하는 건 불가능합니다. 질문은 “인시던트가 올지 말지”가 아니라, “그게 왔을 때 우리는 얼마나 준비되어 있는가” 입니다.

골판지 신뢰성 극장은 다음을 제공합니다.

  • 심각한 장애를 저비용·저위험으로 리허설하는 방법
  • 도구로는 보이지 않는 인간·조직 차원의 문제를 들여다보는 렌즈
  • 연습 → 인사이트 → 더 나은 플레이북·시스템으로 이어지는 구조화된 파이프라인

시나리오 하나를 고르고, 소규모 팀을 모으고, 한 시간 동안 노트북을 금지하고, 그냥 연기해 보세요.

처음엔 어색하고 우스꽝스럽게 느껴질 수 있습니다. 괜찮습니다. 첫 리허설은 원래 다 어색합니다.

하지만 시간이 지날수록, 팀은 단순히 인시던트에 ‘반응’만 하는 게 아니라, 압박 속에서도 공연(performance)하듯 명확함·조율·자신감을 유지하는 조직으로 성장합니다. 그리고 이런 종류의 신뢰성은 어떤 대시보드도 직접 측정할 수 없지만, 고객은 분명히 체감할 수 있는 가치입니다.

골판지 신뢰성 극장: 화면 없이 사건을 연기하며 통찰을 극대화하는 방법 | Rain Lag