Rain Lag

종이로 만드는 케이오스 덱: 저기술 인시던트 카드로 고기술 장애를 길들이는 법

비싼 도구나 복잡한 환경 없이도, 종이 기반 케이오스 덱을 설계·활용해 강력한 SRE 테이블탑 연습을 진행하고, 인시던트 대응·협업·프로덕션 탄력성을 끌어올리는 방법을 소개합니다.

종이로 만드는 케이오스 덱: 저기술 인시던트 카드로 고기술 장애를 길들이는 법

현대 시스템은 복잡하고 예측하기 어려운 방식으로 실패합니다. 그리고 그 복잡성의 상당 부분은 코드가 아니라 사람과 프로세스에 숨어 있습니다. 그럼에도 많은 조직은 여전히 인시던트 대응을 “진짜로 배우는 건 위기 상황에서”라고 여깁니다.

이걸 바꾸는 데 풀스택 케이오스 엔지니어링 플랫폼이나 정교한 스테이징 환경은 필수가 아닙니다. 종이 몇 장, 펜 하나, 그리고 잘 설계된 인시던트 카드만 있어도, 팀이 장애를 학습하는 방식을 완전히 바꿀 수 있습니다.

이것이 바로 종이 기반 케이오스 덱(paper-driven chaos deck) 의 아이디어입니다. 현실감 있고 반복 가능한 테이블탑 인시던트 시뮬레이션을 진행해 실제 운영 환경의 회복력을 키워 주는, 저기술 도구 모음이죠.


왜 종이 기반 케이오스 덱이 그렇게 잘 통할까

겉으로 보기엔 종이는 프로덕션 시스템, 관측(Observability) 스택, 정교한 케이오스 도구에 비하면 너무 원시적으로 느껴질 수 있습니다. 하지만 바로 그 점 때문에 케이오스 덱은 강력합니다.

1. 마찰이 적고 누구나 접근 가능하다

필요 없는 것들:

  • 별도 전용 환경
  • 특수 계정이나 클라우드 크레딧
  • 시뮬레이션 도구나 복잡한 런북

필요한 건 이것뿐입니다:

  • 한 공간(오프라인 회의실이든 온라인이든)
  • 사람들
  • 인시던트 카드 덱 한 벌

진입 장벽이 낮기 때문에 다음과 같이 활용할 수 있습니다.

  • 팀 미팅, 온보딩, 게임데이 중에 바로 연습 세션을 돌리기
  • 고객지원, 프로덕트, 리더십 등 비기술 조직까지 포함시키기
  • “적절한 툴을 갖추면 그때 해보자”라는 변명을 없애기

2. 구조화된 혼돈이 실제 빈틈을 드러낸다

케이오스 덱은 구조화된 예측 불가성(structured unpredictability) 을 제공합니다. 각 카드는 시나리오, 제약, 반전 요소 등을 정의해 다음을 도와줍니다.

  • 인시던트 대응 플랜의 빈틈을 드러내기
  • 빠져 있는 문서나 불명확한 오너십을 표면화하기
  • 온콜 로테이션, 에스컬레이션 경로, 런북을 스트레스 테스트하기

형식이 일관되기 때문에(카드를 뽑고, 팀이 대응하고, 회고한다) 같은 연습을 반복하면서 능력이 어떻게 향상되는지 추적할 수 있습니다.

3. 저위험 연습이 고위험 상황에서의 근육 기억을 만든다

실제 인시던트 압박 속에 있는 팀은 대개 다음과 같이 행동합니다.

  • 비효율적이어도 익숙한 패턴으로 되돌아감
  • 명확하게 소통하지 못함
  • 실제로 연습해 본 적 없는 “교과서적인” 프로세스는 잊어버림

정기적인 케이오스 덱 세션은 다음과 같은 근육 기억(muscle memory) 을 만들어 줍니다.

  • 인시던트를 어떻게 선언할 것인가
  • 내부·외부 커뮤니케이션을 어떻게 할 것인가
  • 제한적이거나 상충하는 정보 속에서 어떻게 의사결정을 내릴 것인가

실제 고난도 장애가 터졌을 때, 종이로 연습하며 몸에 밴 행동과 협업 패턴이 그대로 인시던트 브리지(incident bridge)로 옮겨갑니다.


케이오스 덱의 구조: 카드에는 무엇이 담길까?

좋은 케이오스 덱은 의도적입니다. 그냥 재난 카드 뭉치를 무작위로 쌓아 두는 게 아니라, 실제 프로덕션 리스크와 SRE 우선순위에 맞게 선별된 프롬프트 모음이어야 합니다.

핵심 카드 타입

우선 네 가지 큰 카테고리로 시작해 볼 수 있습니다.

  1. 인시던트 시나리오 카드 (Incident Scenario Cards)
    무엇이 어떻게 잘못되고 있는지를 짧게 설명합니다.

    예시:

    • “EU 사용자 대상 API 레이턴시가 급증하고 있지만, 대시보드에는 뚜렷한 원인이 보이지 않는다.”
    • “백그라운드 잡이 멈춰 있고 큐 깊이는 계속 늘어나는데, CPU 사용률은 낮다.”
    • “새 배포가 막 롤아웃되었고, 고객지원에서 타임아웃 제보가 들어온다.”
  2. 신호 & 탐지 카드 (Signal & Detection Cards)
    문제가 어떻게 표면화되는지를 나타냅니다.

    예시:

    • “페이지 경보: 체크아웃 레이턴시 SLO 번 레이트(burn rate)가 임계치를 초과했다.”
    • “알람은 전혀 울리지 않았다. 주요 고객사가 올린 트윗으로 인시던트를 처음 알게 되었다.”
    • “Synthetic 모니터링에서는 실패가 관측되지만, 실제 사용자 지표는 정상처럼 보인다.”
  3. 제약 카드 (Constraint Cards)
    현실적인 트레이드오프를 강제하는 제한 요소입니다.

    예시:

    • “주요 SRE가 비행기 안에 있어, 숙련된 대응 인력이 한 명 빠진 상태다.”
    • “롤백이 불가능하다. 데이터베이스 스키마가 이미 마이그레이션되었다.”
    • “규제 요건: 어떤 경우에도 데이터 손실은 허용되지 않는다.”
  4. 반전 / 에스컬레이션 카드 (Twist / Escalation Cards)
    인시던트 도중에 추가되는 변화 요소입니다.

    예시:

    • “미티게이션이 일단 효과를 냈지만, 20분 후 에러율이 다시 올라오기 시작했다.”
    • “관련 없어 보이는 다른 서비스에서 동시 장애가 발생한다.”
    • “법무팀에서 10분 안에 영향도 업데이트를 달라고 요청한다.”

일반적인 활용 예:

  • 인시던트 카드로 시작해서, 문제가 어떻게 발견되었는지를 신호 카드로 정합니다.
  • 진행 상황에 따라 제약 카드와 반전 카드를 추가해 시나리오를 점점 복잡하게 만듭니다.

카드를 SRE 우선순위에 맞추기

단순한 스토리텔링이 아니라 실제 학습 도구가 되려면, 케이오스 덱은 조직의 SRE 우선순위—신뢰성(Reliability), 확장성(Scalability), 효율성(Efficiency)—에 직접적으로 맵핑되어야 합니다.

신뢰성(Reliability)에 초점을 둔 카드

예시:

  • “검색 API의 이달 에러 버짓(error budget)이 이미 90% 소진되었다. 한 번 더 스파이크가 나면 모든 변경이 동결된다. 지금 인시던트가 시작된다.”
  • “퍼시스턴트 스토리지가 비정상적으로 느려졌다. Read 레이턴시는 SLO 내에 있지만, Write 레이턴시는 SLO를 벗어난 상태다.”
  • “의존 중인 서드파티 API가 간헐적으로 실패하고 있다. 당신은 그 API에 직접적인 통제권이 없다.”

이런 시나리오는 다음 능력을 테스트합니다.

  • SLO 리터러시: 팀이 에러 버짓과 SLO를 활용해 의사결정을 할 수 있는가?
  • 의존성 관리: 폴백(fallback)이나 점진적 축소(graceful degradation) 전략이 있는가?
  • 압박 속에서의 우선순위 결정: 어떤 사용자나 리전을 우선 보호할 것인가?

확장성(Scalability)에 초점을 둔 카드

예시:

  • “예기치 못한 마케팅 캠페인으로 트래픽이 2배로 늘었다. 오토스케일링은 10–15분 정도 늦게 반응한다.”
  • “데이터베이스에 핫 파티션(hot partition)이 생겼다. 특정 샤드 한 개만 포화 상태고, 나머지 샤드는 한가하다.”
  • “캐시 히트 레이트가 갑자기 떨어졌고, 오리진(origin)이 녹아내리고 있다.”

이런 카드들은 다음을 탐색하게 만듭니다.

  • 용량 계획과 스케일링 전략
  • 부하 패턴과 핫스팟을 관찰할 수 있는 관측성(Observability)
  • 로드 셰딩(load shedding), 레이트 리미팅(rate limiting) 플레이북

효율성(Efficiency)에 초점을 둔 카드

효율성은 단순히 비용 문제가 아니라, 시간·집중·프로세스의 효율과도 직결됩니다.

예시:

  • “실제 인시던트 도중, 온콜이 저우선순위 알람으로 도배되고 있다.”
  • “수동 배포 단계 하나를 빼먹어, 일부만 배포된 상태로 롤아웃이 꼬였다.”
  • “두 팀이 모두 상대 팀이 문제 서비스의 오너라고 생각하고 있다.”

이런 카드는 다음을 점검합니다.

  • 알람 위생(alert hygiene)과 우선순위 설정
  • 런북 품질과 자동화의 빈틈
  • 서비스 오너십 명확성과 인시던트 역할 정의

케이오스 덱 테이블탑 연습을 진행하는 방법

과한 프로세스는 필요 없습니다. 단순하지만 반복 가능한 포맷이면 충분합니다.

1. 무대 세팅 (5–10분)

  • 이번 세션의 목표를 정의합니다. 예: 인시던트 커맨더 연습, SLO 이해도 점검, 신규 온콜 온보딩 등.
  • 역할을 할당합니다: 인시던트 커맨더, 커뮤니케이션 리드, 오퍼레이션(실무 대응), 옵저버 등.
  • 이건 저위험 학습임을 강조합니다. 목표는 비난이 아니라 인사이트입니다.

2. 초기 카드 뽑고 읽기 (5분)

  • 인시던트 시나리오 카드와 신호 카드를 한 장씩 뽑습니다.
  • 모두에게 소리 내어 읽고, 상황을 모두가 이해했는지 확인합니다.

선택 사항: 팀이 “추가 질의”를 할 수 있게 하되, 실제 상황에서 대시보드/런북으로 알 수 있거나 카드에 적힌 정보만 답변합니다.

3. 실제처럼 대응하기 (20–30분)

팀에게 다음을 단계별로 말로 풀어가며 진행하게 합니다.

  • 인시던트를 어떻게 선언하나요? 심각도(severity)는 몇 단계인가요?
  • 누구를 페이지하거나 초대하나요? 누가 리드를 맡나요?
  • 가장 먼저 어디를 확인하나요? 어떤 대시보드/로그를 보나요?
  • 어떤 초기 가설을 세우나요?
  • 어떤 실험이나 미티게이션을 먼저 시도하나요?

적절한 타이밍에 제약 카드나 반전 카드를 추가해 다음을 시뮬레이션합니다.

  • 빠져 있는 인력
  • 도구 장애
  • 새로운 변수나 복합적인 영향도 증가

속도는 현실감 있게, 하지만 집중도는 유지합니다. 목표는 기술적인 완전 해결이 아니라, 의사결정 과정을 연습하는 것입니다.

4. 짧은 데브리프(회고) 진행 (15–20분)

실제 가치는 여기서 나옵니다. 다음을 논의합니다.

  • 커뮤니케이션과 의사결정에서 무엇이 잘 되었나요?
  • 어디에서 막혔나요? 왜였나요?
  • 역할과 오너십은 명확하게 느껴졌나요?
  • 어떤 문서나 자동화가 있었다면 도움이 되었을까요?
  • 어떤 SLO, 대시보드, 알람이 있었다면 좋았겠나요?

그리고 구체적인 후속 조치를 기록합니다.

  • 런북 생성/업데이트
  • 온콜 로테이션이나 에스컬레이션 경로 개선
  • 알람과 SLO 튜닝
  • 이번 학습을 반영해 덱에 카드를 추가하거나 수정

케이오스 덱을 SRE & 인시던트 대응 학습 경로에 녹여 넣기

케이오스 덱은 일회성 워크숍용 장난감이 아니라, 지속적인 학습 프로그램의 일부가 될 수 있습니다.

신규 SRE 및 대응자 온보딩

신규 팀원에게 케이오스 덱 세션은 다음을 제공합니다.

  • 실제로 마주하게 될 인시던트 유형 소개
  • 우리 조직에서 인시던트를 어떻게 선언하고 운영하는지 학습
  • 비난 없는(blameless) 문화, 협업 문화 등 문화적 기대치를 강화

온보딩 과정에 짧은 세션을 포함해, 점차 난이도와 복잡도를 올려 가며 진행합니다.

경험 많은 팀을 위한 정기 연습

이미 자리 잡은 SRE·인시던트 대응 팀이라면:

  • 월간 혹은 분기별로 테이블탑 세션을 정기 일정에 넣습니다.
  • 퍼실리테이터(진행자)를 돌아가며 맡게 해, 더 많은 사람이 인시던트를 리드하는 법을 익히게 합니다.
  • 세션 간 변화를 추적합니다. (커뮤니케이션 갭 감소, 트리아지 명확성 증가 등)

시간이 지날수록 문서에는 잘 드러나지 않지만 실제 인시던트에서 차이를 만드는, 암묵지(tacit knowledge) 를 팀 전체가 공유하게 됩니다.

개선 사항을 시스템에 되먹이기

케이오스 덱 세션에서 나온 결과를 활용해 다음을 개선합니다.

  • 인시던트 대응 프로세스와 역할 정의 정교화
  • 런북, SLO, 알람 업데이트
  • 별도 엔지니어링 투자가 필요한 시스템적 리스크 식별

덱 자체도 살아 있는 학습 아티팩트가 됩니다. 실제 인시던트를 바탕으로 카드를 추가하고, 더 이상 현실과 맞지 않는 카드는 퇴역시키면 됩니다.


종이 기반 케이오스 덱의 효과를 측정하는 방법

단순한 종이 덱만으로도 진전을 추적할 수 있습니다. 정성적·정량적 신호를 함께 살펴보세요.

  • 명확성까지의 시간(Time to clarity): 팀이 공유된 가설과 계획을 명확히 말할 수 있기까지 얼마나 걸리나요?
  • 역할 유창성(Role fluency): 사람들이 자연스럽게 인시던트 역할을 맡고, 서로의 역할을 존중하나요?
  • 커뮤니케이션 품질: 상태 업데이트가 명료하고, 간결하며, 대상에 맞게 조정되어 있나요?
  • 후속 조치 이행(Follow-through): 데브리프에서 나온 액션 아이템이 실제로 실행되나요?

세션 간 결과를 비교해 보면, 더 자신감 있는 대응자, 더 나은 트리아지, 실제 인시던트에서의 ‘뜻밖의 상황’ 감소 같은 추세를 확인할 수 있습니다.


결론: 저기술 카드로 만드는 고효과 학습

고난도 장애를 훈련하는 데 반드시 고난도 도구가 필요한 것은 아닙니다. 종이 기반 케이오스 덱은 다음을 제공합니다.

  • 정기적으로 인시던트를 연습할 수 있는 저비용·저마찰 방식
  • 실제 프로세스의 빈틈을 드러내는 구조화된 테이블탑 연습
  • 신뢰성·확장성·효율성이라는 SRE 우선순위와 직접 연결되는 재사용 가능한 프레임워크
  • 조직 전체의 협업, 의사결정, 인시던트 근육 기억을 키우는 강력한 방법

작게 시작하세요. 실제 프로덕션 리스크와 최근 인시던트를 바탕으로 카드 10–20장을 만듭니다. 한 시간짜리 테이블탑 세션을 팀과 함께 돌려 보세요. 그리고 덱과 프로세스를 함께 개선해 나가세요.

다음에 실제 장애가 터졌을 때, 처음 함께 압박을 받아 본 경험이 프로덕션이 아니라 종이 위에서였다는 사실에 분명히 안도하게 될 것입니다.

종이로 만드는 케이오스 덱: 저기술 인시던트 카드로 고기술 장애를 길들이는 법 | Rain Lag