Rain Lag

아날로그 인시던트 침대칸: 온콜 엔지니어가 진짜로 잘 수 있게 만드는 종이 플레이북 설계법

체크리스트 형식의 종이 스타일 플레이북, 집중된 런북, 그리고 더 나은 온콜 스케줄을 설계해 인시던트 대응 효율을 높이면서도 온콜 엔지니어가 실제로 쉬고 잘 수 있게 만드는 방법을 정리합니다.

아날로그 인시던트 침대칸: 온콜 엔지니어가 진짜로 잘 수 있게 만드는 종이 플레이북 설계법

현대 인프라는 끝까지 디지털화되어 있습니다. 그런데 역설적으로, 온콜을 버티게 해주는 가장 강력한 도구는 또 하나의 대시보드나 봇, 알람 규칙이 아니라 종이 체크리스트에 가까운 것일 때가 많습니다.

온콜 시스템을 야간 열차라고 생각해 봅시다. "침대칸(sleeper car)"은 사람들이 정차 사이사이에 실제로 쉴 수 있는 공간입니다. 인시던트 프로세스가 엔지니어가 완전히 손을 떼고 자고 회복할 수 있도록 설계되어 있지 않으면, 자동화가 얼마나 똑똑하든 상관없이 결국 사람을 소진시키고 장기적으로는 안정성도 무너집니다.

이 글에서는 그런 "아날로그 침대칸"을 설계하는 방법을 다룹니다. 인시던트를 더 빨리 해결하는 것뿐 아니라, 온콜 엔지니어가 현실적으로 잘 수 있게 만들어 주는, 단순한 종이 스타일 플레이북을 만드는 방법입니다.

우리가 다룰 내용은 다음과 같습니다.

  • 휴식이 설계에 포함되도록 온콜 스케줄을 짜는 방법
  • 인시던트 부담을 제한해 온콜이 끝없는 두더지 잡기가 되지 않게 하기
  • 맥락이 개인 머릿속에만 남지 않도록 핸드오프를 표준화하기
  • 처음부터 방대한 라이브러리가 아니라, 소수의 고임팩트 런북부터 시작하기
  • 런북을 문서가 아니라 코드처럼 다루기
  • 정말 필요할 때 인지 부하를 줄여 주는 체크리스트 활용법
  • 근무가 끝난 뒤 남는 "주의 잔여(attention residue)"를 의도적으로 최소화하기

1. 정말로 ‘잠’을 신경 쓰는 스케줄을 설계하라

엉망인 온콜 스케줄은 아무리 좋은 플레이북으로도 가릴 수 없습니다. 먼저 부담을 사람답게 만들기부터 시작해야 합니다.

주간 로테이션 또는 Follow‑the‑Sun을 우선 검토하라

수면을 지키는 데 특히 효과적인 패턴은 두 가지입니다.

  • 주간(weekly) 로테이션: 한 명의 1차 온콜이 일주일 단위로 담당하고, 2차 온콜이 백업으로 서는 방식

    • 장점: 책임이 명확하고, 핸드오프가 적으며, 개인 생활 계획 세우기 쉽다.
    • 단점: 가드레일(예: 인시던트 수 제한, 적절한 에스컬레이션)이 없으면 그 주가 지옥주가 되기 쉽다.
  • Follow‑the‑Sun 로테이션: 각 리전 팀이 해당 지역의 주간(일반 근무시간)만 온콜을 담당하는 방식

    • 장점: 새벽 3시 알람이 줄고, 이미 깨어 있는 시간대에 더 많은 인시던트를 처리할 수 있다.
    • 단점: 글로벌 커버리지를 뒷받침할 인력이 필요하고, 깔끔한 핸드오프가 필수다.

하이브리드 모델도 가능합니다. 예를 들어, 비즈니스 크리티컬 서비스는 Follow‑the‑Sun으로, 그 외는 글로벌 백업 온콜을 두는 식입니다. 핵심은 “어딘가에 누군가는 깨어 있겠지”라고 막연히 기대하는 대신, 진짜 수면이 포함된 모델을 의도적으로 선택하는 것입니다.

한 번의 근무(shift)에서 처리할 인시던트 수에 상한을 두어라

로테이션이 아무리 좋아도, 한 사람이 알람에 파묻히면 그대로 무너집니다.

한 셰프트에서 감당 가능한 인시던트 최대치를 명시하세요. 예를 들어:

  • "엔지니어 1인당 12시간 셰프트에 P1/P2 인시던트는 최대 3건까지"
  • "야간에 발생하는 모든 알람(심각도 무관)은 10회 페이지를 넘기지 않도록"

누군가 이 임계치를 넘기면 다음을 수행합니다.

  • 해당 인시던트를 자동으로 다른 엔지니어 또는 온듀티 매니저에게 에스컬레이션
  • 가능하다면 우선순위가 낮은 인시던트를 재할당
  • 왜 부하가 급증했는지 사후 분석 티켓을 생성

이런 상한은 "이론상으로는 잘 수 있다"가 아니라, 실제로 인시던트 사이에 잠깐이라도 잘 수 있게 만들어 줍니다.


2. 핸드오프를 표준화해 맥락이 머릿속에만 남지 않게 하라

온콜이 고통스러운 가장 큰 원인 중 하나는 어설프게 기억나는 맥락 때문입니다.

"롤백은 이미 시도했었나? 왜 이 플래그는 꺼져 있지? APAC 팀은 전에 뭐 했지?"

새벽 3시에 기억력에 의존하는 건 감당할 수 없는 세금입니다.

단순하고 반복 가능한 핸드오프 의식을 만들어라

셰프트 교대마다 항상 같은 패턴을 따르도록 합니다. 예를 들어:

  1. 필수: 서면 업데이트

    • 진행 중인 인시던트, 현재 상태, 담당자
    • 알려진 워크어라운드 또는 임시 완화 조치
    • 시도했던 것과 효과 없었던 것
    • 시간에 민감한 후속 작업
  2. 가급적 필수: 짧은 구두 싱크

    • 10–15분 정도 서면 업데이트를 함께 훑으며 설명
    • 애매한 부분 명확히 하기
  3. 단일 소스 오브 트루스(Single Source of Truth)

    • 핸드오프 메모를 남길 공식 채널(런북, 문서, 인시던트 툴 중 하나)을 정합니다.
    • Slack, 이메일, 개인 노트 등 여러 군데에 맥락이 흩어지지 않게 합니다.

템플릿을 사용하라

프리폼으로 쓰게 두지 마세요. 구조화된 핸드오프 템플릿은 마찰과 추측을 줄여 줍니다.

예시 필드:

  • 인시던트 ID / 링크
  • 현재 상태 (Degraded / Mitigated / Investigating / Resolved 등)
  • 다음에 할 구체적인 액션
  • 다음 액션 담당자
  • Known unknowns (아직 이해되지 않은 것들)
  • 리스크 / 주의할 포인트

표준화를 많이 할수록, 해당 시점에 누가 근무 중인지, 얼마나 피곤한지에 프로세스 품질이 덜 의존하게 됩니다.


3. 처음부터 거대한 런북 라이브러리를 만들려고 하지 말고, 2–3개부터 시작하라

모든 것에 런북을 달고 싶을 수 있습니다. 에러 코드 하나하나, 엣지 케이스마다, 알람마다. 하지만 그렇게 하면 아무도 믿지 않고 쓰지도 않는 거대한 위키만 남게 됩니다.

대신 의도적으로 작게 시작하세요.

처음 만들 2–3개의 플레이북을 고르기

다음 중에서 선택합니다.

  • 가장 자주 발생하는 인시던트 유형 (예: 캐시 포화, 디스크 풀, 메모리 누수 등)
  • 가장 영향도가 큰 인시던트 유형 (예: 결제/체크아웃 장애, 인증 시스템 장애 등)

각 유형마다, 플레이북이 다음 세 가지 질문에 답하도록 작성합니다.

  1. 이게 발생하면 어떻게 보이는가?
    어떤 증상과 알람이 나는지, 자주 보는 대시보드는 무엇인지.

  2. 가장 안전한 첫 액션은 무엇인가?
    어느 정도 훈련된 엔지니어라면 사태를 악화시키지 않고 시도할 수 있는 상위 3–5가지 조치.

  3. 언제 에스컬레이션해야 하는가?
    언제 더 많은 사람을 깨워야 하는지, 혹은 특정 도메인 전문가를 호출해야 하는지에 대한 명확한 기준.

모든 경우의 수를 망라한 완벽한 트리 구조는 필요 없습니다. 지금 필요한 건 우왕좌왕과 패닉을 막아 주는, 안전하고 신뢰할 수 있는 출발점입니다.


4. 런북을 정적인 문서가 아니라 코드처럼 다뤄라

죽은 문서는 없는 것만 못합니다. 사람들은 곧 믿지 않게 됩니다.

런북은 코드처럼 관리해야 합니다.

  • 버전 관리 시스템(Git 등, 이미 쓰고 있는 것)을 사용합니다.
  • 코드 리뷰처럼, 변경에는 리뷰를 필수로 붙입니다.
  • 작성자와 변경 이력을 추적해 궁금한 점이 생기면 누구에게 물어봐야 하는지 알 수 있게 합니다.

실제 인시던트에 기반해 계속 개선하라

큰 인시던트 하나가 끝나면, 최소한 다음 중 하나는 반드시 남아야 합니다.

  • 새롭게 관찰한 패턴에 대한 새 런북 추가
  • 기존 런북의 업데이트:
    • 더 빠른 진단 명령 추가
    • 애매한 문구를 명확하게 수정
    • 새로운 완화책이나 안전한 롤백 절차 문서화

인시던트 리뷰 템플릿에 “플레이북/런북 업데이트”를 필수 항목으로 넣으세요. 리뷰가 런북 개선으로 이어지지 않는다면, 배운 것 중 일부를 그냥 버린 셈입니다.


5. 아날로그로 돌아가라: 고위험 작업에는 종이 스타일 체크리스트를 써라

파일럿과 외과의사가 체크리스트를 쓰는 이유는 미숙해서가 아니라, 스트레스 상황에서 작업 기억(working memory)이 매우 취약하기 때문입니다.

대형 인시던트 중에는:

  • 잠이 부족하고,
  • Slack, 대시보드, 커맨드, 이해관계자 커뮤니케이션을 동시에 처리해야 하며,
  • 불완전한 정보 속에서 시간에 쫓겨 결정을 내려야 합니다.

바로 이런 상황에서 "아날로그" 체크리스트가 빛을 발합니다.

좋은 인시던트 체크리스트의 모습

간단하고, 시각적이며, 실전 위주여야 합니다. 예를 들어:

P1 인시던트 트리아지 체크리스트 (처음 10분)

  1. 알람이 진짜인지 확인한다 (주요 SLO / 핵심 지표를 확인).
  2. 인시던트를 인시던트 관리 도구에 공식 선언한다.
  3. 역할을 할당한다: 인시던트 커맨더, 커뮤니케이션 담당, 서기(scribe).
  4. #incidents 채널에 현재 상태를 포스트한다:
    • 영향 범위(impact)
    • 영향 대상(누가 / 무엇이 영향 받는지)
    • 시작 시점(또는 최초 감지 시간)
  5. 관련 런북에서 가장 리스크가 낮은 완화 조치를 시도한다.
  6. 계속 완화할지, 롤백할지, 추가 에스컬레이션할지 결정한다.

이걸 실제로 프린트해서 책상 근처에 붙여 두거나, 한 페이지짜리 문서로 만들어 바로 띄울 수 있게 해도 좋습니다. 핵심은, 절차를 기억하는 부담을 체크리스트가 대신 지게 하고, 엔지니어는 판단력과 상황 인식에 집중하게 만드는 것입니다.

체크리스트를 적용하기 좋은 영역

  • P1/P2 인시던트 트리아지
  • 데이터베이스 페일오버 또는 롤백
  • 하이리스크 릴리스에 대한 피처 플래그 롤백
  • 법적/규제적 의미가 있는 데이터 보존·삭제 작업

반복되면서도 실수가 치명적인 작업이라면, 체크리스트 후보입니다.


6. 분리를 전제로 설계하라: 근무 후 ‘주의 잔여’를 최소화하라

야간 알람을 줄이고, 런북을 개선해서 당장의 수면 문제를 해결했다 해도, 더 미묘한 문제가 남아 있습니다. 바로 **주의 잔여(attention residue)**입니다.

이는 셰프트가 끝난 뒤에도 남는 정신적 끌림입니다. 예를 들어:

  • 방금 있었던 인시던트를 계속 머릿속에서 되감기
  • 뭔가 빼먹은 건 아닌지 걱정
  • 또 터지면 어떻게 하지 하는 불안

진짜로 회복하려면, 엔지니어가 **정신적으로 퇴근(clock out)**할 수 있어야 합니다. 침대칸 플레이북은 이것까지 지원해야 합니다.

“셰프트 랜딩(shift landing) 체크리스트”를 만들어라

간단한 근무 종료 체크리스트가, 머릿속에서 열린 루프를 닫는 데 큰 도움이 됩니다.

  1. 모든 진행 중인 인시던트에는 명시된 담당자(owner)가 있다.
  2. 핸드오프 메모가 공식 채널에 작성·공유되었다.
  3. "이건 기억해 둬야겠다" 싶은 잔여 메모는 모두 티켓이나 문서에 옮겨 적었다.
  4. 개인 메모(스크래치 노트, 노트북 등)는
    • 시스템으로 옮겼거나,
    • 더 이상 신경 쓰지 않아도 괜찮다고 명시적으로 표시했다.
  5. 간단한 셀프 체크: 아직 마음에 걸리는 게 있는가? 있다면, 글로 남기고 핸드오프한다.

목표는 엔지니어가 이렇게 말할 수 있게 만드는 것입니다.
“내가 아는 건 다 어딘가 안전한 곳에 적혀 있고, 누군가가 책임지고 있다. 이제 놓아도 된다.”

경계(boundary)를 문화로 정착시켜라

이걸 문화와 정책으로 뒷받침하세요.

  • 셰프트가 끝난 사람의 인시던트 채널 눈팅(lurking)을 오히려 말리기
  • 매니저가 근무를 마친 온콜 엔지니어에게 “딱 하나만 물어볼게요” DM을 보내지 않게 하기
  • 영웅적인 밤샘보다는, 프로세스를 잘 따르고 제대로 연결을 끊는 사람을 인정하고 칭찬하기

휴식은 사치가 아니라, 신뢰성과 품질을 위한 필수 요건입니다.


마무리: 모든 조각을 한데 모으면

"아날로그 인시던트 침대칸"을 설계한다는 건 종이가 좋다는 향수의 문제가 아닙니다. 인간의 한계를 전제로 한 인시던트 시스템을 설계하는 일입니다.

  • 사람은 자야 한다는 전제를 둔 스케줄
  • 한 명의 엔지니어가 갈려 나가지 않도록 하는 인시던트 상한
  • 새벽 3시의 기억력에 의존하지 않는 핸드오프
  • 실제로 사용되는, 작고 집중된 런북 세트
  • 먼지 쌓인 매뉴얼이 아닌, 살아 있는 코드처럼 다루는 런북
  • 스트레스 상황에서 작업 기억을 비워 주는 단순한 체크리스트
  • 사람들로 하여금 진짜로 머리를 비우고 퇴근하게 해 주는 셰프트 종료 의식

이 조각들을 제대로 쌓으면, 더 행복한 엔지니어만 얻는 게 아닙니다. 더 나은 인시던트 대응을 얻게 됩니다. 스트레스 환경에서도 더 명료한 사고, 더 빠른 완화, 각 장애에서 더 많은 학습을 끌어낼 수 있습니다.

인프라는 복잡하고 디지털일지 몰라도, 온콜 경험은 여전히 아날로그 마인드셋의 혜택을 크게 볼 수 있습니다. 영웅담은 줄이고, 체크리스트는 늘리고, 페이지 사이에 사람답게 잘 수 있는 조용한 시간을 확보하는 것입니다.

그게 인시던트 대응에서의 진짜 침대칸이며, 의도적으로 설계할 가치가 충분히 있습니다.

아날로그 인시던트 침대칸: 온콜 엔지니어가 진짜로 잘 수 있게 만드는 종이 플레이북 설계법 | Rain Lag