Rain Lag

종이만 쓰는 인시던트 비스트로: 손글씨 메뉴와 테이블탑 타임라인으로 만드는 일일 신뢰성 의식

종이, 테이블탑 연습, 그리고 일상적인 서비스 의식이 어떻게 인시던트 대응을 혼돈에서 믿을 수 있는 잘 돌아가는 비스트로로 바꿔줄 수 있는지에 대해 이야기합니다.

종이만 쓰는 인시던트 비스트로에 오신 것을 환영합니다

당신의 인시던트 대응 체계를 작은 동네 비스트로라고 상상해 보세요.

거대한 스크린도, 복잡한 대시보드도 없습니다. 대신에 있는 것은:

  • 모든 서버(점원)가 외울 정도로 익숙한 손글씨 메뉴판
  • 각 티켓이 손님 경험의 스토리를 담고 있는 종이 주문 패드
  • 의식, 타이밍, 신뢰로 돌아가는 주방 라인(kitchen line)

이것이 바로 종이만 쓰는 인시던트 비스트로의 정신입니다. 손글씨 메뉴, 테이블탑 타임라인, 반복 가능한 의식 같은 저(低)기술·고(高)규율의 프랙티스를 활용해, 일이 꼬였을 때도 기대할 수 있는 신뢰성을 만드는 것입니다.

이건 "안티 툴(anti-tool)"이 아닙니다. 의도를 중시(pro-intention) 하는 방식입니다. 연습할 때 자동화를 잠시 걷어내면, 빈틈이 드러나고, 판단력이 예리해지며, 근육 기억이 만들어집니다. 그다음에 툴을 다시, 의도적으로 끼워 넣는 거죠.


왜 테이블탑 연습이 당신의 테스트 키친인가

최고의 레스토랑은 paying 고객을 상대로 실험하지 않습니다. 대신 미리 리허설합니다.

신뢰성과 인시던트 대응에서 **테이블탑 연습(tabletop exercise)**은 당신의 테스트 키친입니다. 실서비스(프로덕션)가 걸려 있기 전에, 팀이 실제 비상 상황을 어떻게 처리할지 구조화된, 저위험 방식으로 리허설하는 방법이죠.

테이블탑 연습은 퍼실리테이터가 진행하는 세션으로, 여기에서는:

  1. 현실적인 시나리오를 함께 따라가며 살펴보고 (예: 리전 부분 장애, 데이터 손상, 서드파티 의존성 장애 등)
  2. 각 단계에서 무엇을 할지 소리 내어 말로 풀어가며 논의하고
  3. 결정, 혼란, 누락된 정보를 종이에 기록합니다.

키보드는 없습니다. 터미널도 없습니다. 대신에 준비하는 것은:

  • 출력해놓은 다이어그램
  • 클립보드에 꽂힌 런북(runbook)
  • 벽에 붙인 큰 종이 타임라인

이 설정은 생각의 속도를 딱 알맞게 늦춰 줍니다. 그래서:

  • 가정하고 있던 것들이 드러납니다. ("잠깐, DNS는 누가 책임이지?")
  • 문서화되지 않은 의존성이 보입니다. ("그 스크립트 하나 없이는 페일오버를 못 하네.")
  • 역할이 명확해집니다. ("고객에게 누가 말하지? 롤백 결정은 누가 하지?")

이런 걸 배우려고 꼭 위기 상황이 필요하지는 않습니다. 커피와 매직펜만으로도 배울 수 있습니다.


손글씨 메뉴: 런북은 오늘의 메뉴판처럼

종이만 쓰는 인시던트 비스트로에서 당신의 **런북(runbook)**은 칠판에 적힌 손글씨 메뉴와 같습니다.

영원히 보존할 예술 작품이 아닙니다. 런북은:

  • 실용적이어야 합니다: 명확한 단계, 기대되는 결과, 의사결정 포인트
  • 살아 있어야 합니다: 현실과 다르다는 게 드러날 때마다 업데이트
  • 현장 가까이에 있어야 합니다: 실제 대응자가 바로 꺼내 쓸 수 있는 위치(인쇄물이든, 찾기 쉬운 링크든)

좋은 "메뉴" 런북에는 이런 섹션이 있을 수 있습니다:

  • 재료(Ingredients): 사전 조건, 접근 권한, 필요한 툴
  • 준비 단계(Prep Steps): "아무것도 건드리기 전에, 이 시그널과 로그를 먼저 확인하라."
  • 메인 코스(Main Course): 단계별로 번호가 매겨진 명확한 액션과, 각 단계에서 기대되는 결과
  • 시식 노트(Tasting Notes): 시스템이 다시 건강해졌는지 검증하는 방법
  • 알레르기 & 경고(Allergens & Warnings): 알려진 함정, 위험한 커맨드, "압박받는 상황에서는 절대 이렇게 하지 말 것" 목록

테이블탑 연습 때는 팀이 반드시 종이 런북을 쓰도록 강제해 보세요.

  • 출력해서 나눠주고
  • 펜으로 마구 메모하게 하고
  • 헷갈리는 단계를 동그라미 치고
  • 빠진 커맨드를 직접 써넣게 하세요.

세션이 끝날 즈음 런북은 바쁜 저녁 장사를 치른 셰프의 메뉴판처럼 변해 있을 겁니다. 낙서투성이에 얼룩까지 묻어 있을 수도 있죠. 하지만 엄청나게 가치 있습니다. 그게 바로 "진짜"가 되었다는 신호입니다.


테이블탑 타임라인: 주방 라인에 걸린 티켓처럼 인시던트를 추적하기

레스토랑은 주문이 들어온 순간부터 테이블에 음식이 나갈 때까지의 흐름을 추적합니다. 인시던트도 마찬가지로 추적해야 합니다.

종이 타임라인은 사용할 수 있는 도구 중 가장 단순하면서도 강력한 것 중 하나입니다.

  • 넓은 종이나 화이트보드를 하나 준비합니다.
  • 가로로 긴 선을 하나 긋습니다.
  • 5분 단위로 시간을 표시합니다.
  • 시나리오가 진행되는 동안, 주요 이벤트를 적어 넣습니다.
    • 첫 알림(alert)이 발생한 시각
    • 인시던트로 공식 선언된 시각
    • 누가 언제 호출(paging)되었는지
    • 어떤 액션을 취했는지
    • 커뮤니케이션 업데이트가 언제 나갔는지

이 시각적 타임라인은 세 가지를 가능하게 합니다:

  1. 병목을 드러냅니다: "DB 담당자를 호출하는 데 왜 18분이나 걸렸지?"
  2. 혼선을 드러냅니다: "마케팅이 10:10에 안내받았다고 생각했는데, 실제로는 10:25였네."
  3. 더 나은 플레이북을 만들게 합니다: 흐름을 처음부터 끝까지 보면서, 더 나은 에스컬레이션 경로와 커뮤니케이션 주기를 설계할 수 있습니다.

다시 강조하지만, 이걸 툴 속에 숨겨 두지 말고 종이 위에 펼쳐놓는 것이 중요합니다. 그래야 흐름이 모두의 눈앞에서 피할 수 없이 보이게 되고, 팀 전체가 함께 비판적으로 돌아볼 수 있습니다.


일상으로서의 신뢰성: 서비스 업무로 바라보기

신뢰성(reliability)은 큰 장애가 났을 때만 하는 일이 아닙니다. 매일 수행하는 서비스 업무입니다.

당신의 온콜(on-call) 업무를 비스트로 운영과 비슷하게 생각해 보세요.

  • 오프닝 체크리스트: 백업은 정상인가? 대시보드는 그린인가? 오늘 경보(alert)는 유난히 시끄럽지 않은가?
  • 미장 플라스(mise en place, 제자리에 놓기): 크리덴셜, 런북, 다이어그램, 연락처 리스트가 최신 상태로 갖춰져 있는가?
  • 준비 작업(Prep work): 새 서비스는 문서화됐는가? 피처 플래그와 롤백 경로는 명확한가?

이런 평범하지만 꾸준한 의식들이 근육 기억을 만듭니다.

  • 어디를 먼저 봐야 할지 알게 되고
  • 무엇을 누가 소유하고 있는지 명확해지고
  • 언제, 어떻게 에스컬레이션해야 하는지 몸이 기억합니다.

위기 상황에서 당신은 새로운 프로세스를 발명하는 게 아니라, 이미 연습하고 다듬고 신뢰해 온 프로세스를 그대로 실행하는 셈입니다.

신뢰성 관련 의식을 다음처럼 대우하세요.

  • "있으면 좋은 것"이 아니라 진짜 업무
  • 팀의 **전문적인 장인정신(craft)**의 일부로
  • SRE만의 일이 아닌, 팀 전체의 공동 책임으로

팔로 더 선(Follow-the-Sun): 핸드오프는 주방 라인을 넘기는 일

글로벌 팔로 더 선(follow-the-sun) 온콜 모델은, 핸드오프(hand-off)를 주방 라인(kitchen line)을 다음 근무조에 넘기는 것만큼 진지하게 다룰 때만 잘 작동합니다.

좋은 교대(shift change)는 알림만 넘기는 게 아니라, 다음 세 가지를 함께 넘깁니다.

  • 신뢰(Trust): "당신은 이걸 처리할 전권이 있어요. 제가 뭘 왜 했는지 여기까지 정리했습니다."
  • 맥락(Context): "간헐적인 레이턴시가 있었고, X라는 의존성을 의심하고 있습니다. 로그 Y와 Z에서 이상 징후가 보였어요."
  • 소유권(Ownership): "이제 이 인시던트는 당신이 책임자입니다. 현재 상태와 다음 의사결정 포인트는 이렇습니다."

여기서도 종이는 도움이 됩니다.

  • 표준화된 핸드오프 템플릿을 유지하세요. (작성은 디지털로 하더라도 형태는 고정된 템플릿으로)
    • 지금 무엇이 깨져 있는가?
    • 누가 영향을 받고 있는가?
    • 언제부터 시작됐는가?
    • 현재 임팩트 레벨은 어느 정도인가?
  • 구두나 화상으로 넘기기 전에, 짧은 서면 요약을 먼저 적도록 장려하세요.

테이블탑 연습에서는 이런 상황도 시뮬레이션해 보세요.

  • 한 리전의 낮 시간에 시작된 인시던트가 다른 리전의 근무 시간까지 이어지는 상황
  • 다른 타임존의 팀들 간에 정보가 어떻게 전달되는지

그리고 그 핸드오프를 함께 비평해 보세요.

  • 애매한 부분은 없었는가?
  • 새로 받은 팀이 충분히 브리핑됐다고 느꼈는가?
  • 이전 근무조를 다시 깨우지 않고도 조치할 수 있었는가?

템플릿과 체크리스트: 위기 상황을 위한 레시피

좋은 주방은 레시피와 준비 리스트에 크게 의존합니다. 인시던트 대응 역시, 실제 상황과 시뮬레이션 모두에서 표준화된 템플릿과 체크리스트에 의존해야 합니다.

유용한 템플릿 예시는 다음과 같습니다.

  • 인시던트 선언 템플릿(Incident declaration template)

    • 무슨 일이 일어났는가? (추측이 아니라 증상 위주로)
    • 누가 영향을 받고 있는가?
    • 언제 시작됐는가?
    • 현재 임팩트 레벨은 어느 정도인가?
  • 에스컬레이션 체크리스트(Escalation checklist)

    • 적절한 1차/2차 담당자에게 호출을 했는가?
    • 인시던트 커맨더(incident commander)가 지정됐는가?
    • 커뮤니케이션 담당자가 지정됐는가?
    • (필요하다면) 상태 페이지(status page)를 업데이트했는가?
  • 포스트 인시던트 리뷰(Post-incident review) 기본 틀

    • 이벤트 타임라인
    • 잘된 점
    • 헷갈렸거나 빠져 있던 것들
    • 액션 아이템(명확한 오너와 데드라인 포함)

이 템플릿들을 당신의 테이블탑 "비스트로"에서도 똑같이 쓰세요. 출력해서, 연습하는 동안 손으로 직접 채워 넣습니다. 연습 때 특정 항목을 계속 건너뛴다면, 그건 시그널입니다. 진짜로 필요 없을 수도 있고, 아니면 지금 프로세스가 현실과 맞지 않을 수도 있습니다.


문화, 커뮤니케이션, 그리고 스트레스

스트레스를 받는다고 해서 사람이 갑자기 더 좋은 커뮤니케이터가 되지는 않습니다.

글로벌 팀에서 문화적 차이에 대한 이해는 특히 중요합니다.

  • 어떤 문화권은 직접적인 표현에 익숙합니다. ("이거 지금 망가졌고, 배포를 즉시 멈춰야 합니다.")
  • 다른 문화권은 더 완곡한 표현을 씁니다. ("오늘 변경 사항을 다시 한 번 재고해 보는 게 좋을지도 모르겠습니다.")

인시던트 상황에서는 이런 차이가 다음에 영향을 줍니다.

  • 문제가 얼마나 빨리 에스컬레이션되는지
  • 소유권이 얼마나 명확하게 선언되는지
  • 우려 사항이 얼마나 진지하게 받아들여지는지

테이블탑 연습을 활용해 다음을 실천해 보세요.

  • 에스컬레이션을 위한 **공통 규범(shared norms)**을 합의합니다. (예: "Blocker"라고 말하면 모두가 같은 심각도를 떠올리도록)
  • 정해진 간격마다 명확한 서면 업데이트를 연습합니다.
  • 질문을 정상화합니다. "당신이 'minor'라고 말할 때, 실제 고객 영향은 어느 정도인가요?"처럼요.

커뮤니케이션을 연습의 부수 요소가 아니라 핵심 요소로 다루면, 실제 인시던트에서도 그대로 이어지는 습관을 만들 수 있습니다.


왜 여전히 손으로 쓰는 것이 강력한가

툴이 넘쳐나는 세상에서, 종이에 무언가를 적는 일은 다소 구식처럼 느껴질 수 있습니다. 하지만 그만큼 강력한 방법이기도 합니다.

손으로 쓰는 행위는 당신의 속도를 적당히 늦춥니다. 그래서:

  • 더 또렷하게 생각하게 되고
  • 모순을 발견하게 되고
  • 빠져 있는 단계를 보게 됩니다.

당신이

  • 런북을 손글씨로 쓰고
  • 인시던트 타임라인을 스케치하고
  • 핸드오프 노트를 초안으로 끄적일 때,

뇌는 정보를 정리하고 구조화하는 작업을 하게 되고, 그 과정에서 숨겨져 있던 빈틈이 드러납니다.

나중에는 디지털화하고, 자동화해도 됩니다. 하지만 **처음 잉크로 쓴 초안(first draft in ink)**은 종종, 당신의 툴이 그동안 가려 왔던 것을 보여줍니다.


마감 준비: 모든 것을 한데 모으기

종이만 쓰는 인시던트 비스트로의 목표는 기술을 거부하는 것이 아닙니다. 진짜 목표는 다음과 같습니다.

  • 저(低)기술·고(高)의식 환경에서 연습하기
  • 테이블탑 연습으로 최악의 날을 안전하게 리허설하기
  • 신뢰성 의식을 비상시의 즉흥 대응이 아니라, 매일 수행하는 서비스 업무로 다루기
  • 팔로 더 선 핸드오프를 명확한 서면 소유권과 맥락으로 강화하기
  • 템플릿과 체크리스트를 예측 가능한 대응을 위한 레시피로 활용하기
  • 스트레스 상황에서도 통하는 공유 커뮤니케이션 문화를 구축하기
  • 툴이 보여주지 못하는 빈틈을 펜과 종이로 드러내기

지금 당신의 인시던트 대응이 가끔 저녁 피크 시간의 혼돈스러운 주방 같다고 느껴진다면, 작은 것부터 시작해 보세요.

  • 출력한 타임라인 한 장으로 1시간짜리 테이블탑을 돌려 보고
  • 손글씨로 쓴 런북 하나를 "메뉴" 삼아 사용해 보고
  • 무엇이 어색했고, 무엇이 모호했는지 짧게 데브리핑해 보세요.

시간이 지나면, 이런 의식들이 팀을 믿을 수 있는, 잘 운영되는 비스트로로 바꿔 줄 것입니다. 프로덕션 인시던트라는 점심 러시를 침착함, 명료함, 자신감으로 감당해 내는 그런 비스트로 말입니다.

툴은 조금 뒤로 미뤄도 됩니다. 먼저, 테이블부터 세팅하세요.

종이만 쓰는 인시던트 비스트로: 손글씨 메뉴와 테이블탑 타임라인으로 만드는 일일 신뢰성 의식 | Rain Lag