아날로그 인시던트 컴퍼스 가든 셰드: 온콜 의식을 조용히 조율하는 종이 도구 벤치
종이, 연필, 그리고 몇 가지 간단한 규칙만으로 사람다운·신뢰할 수 있는 온콜 시스템을 설계해, 인시던트를 빠르게 처리하면서 팀은 번아웃 대신 서로 연결된 상태를 유지하는 방법.
아날로그 인시던트 컴퍼스 가든 셰드
온콜 의식을 조용히 조율하는 종이 도구 벤치
대부분의 팀은 온콜을 디지털 문제로 다룹니다. 더 많은 대시보드, 더 많은 봇, 더 많은 규칙, 더 많은 도구. 하지만 실제 마찰은 소프트웨어가 부족해서 생기지 않습니다. 부족한 것은 명확성, 의식(ritual), 그리고 사람 사이의 연결입니다.
인시던트 프로세스를 최첨단 관제실보다는 작은 정원 창고(garden shed) 같은 걸로 떠올려 보세요. 운영이라는 "정원" 가장자리에 있는 조용한 장소, 복잡한 시스템을 더 잘 돌아가게 해 주는 단순한 도구들을 보관하는 곳 말입니다.
이 글에서는 그 정원 창고를 어떻게 짓는지 살펴봅니다. 바로 아날로그 인시던트 컴퍼스(Analog Incident Compass)—온콜 의식을 설계하고 조율하기 위한 종이 기반의 도구 벤치입니다. 읽고 나면 다음과 같은 것들을 가져갈 수 있을 겁니다.
- 단순하지만 견고한 온콜 로테이션 패턴
- 명확하고 짧은 시간 창을 가진 에스컬레이션 규칙
- 너무 늦지 않고, 딱 필요한 시점에 개입하는 리더십
- 소란 없이 조용히 프로세스를 개선하는 방법
- 디지털 과부하를 상쇄하는 아날로그 의식들
- 온콜이 고립이 아니라 지원받는 느낌이 들게 만드는 방법
왜 “아날로그 인시던트 컴퍼스”인가?
인시던트가 터지는 순간, 인지 부하는 폭발적으로 증가합니다.
- 여러 개의 대시보드
- 페이저 알림
- 수많은 채팅 스레드
- 상태 페이지
- 계속해서 업데이트를 요구하는 이해관계자들
신뢰성을 높인다는 명목으로 여기에 디지털 시스템을 더 얹는 것은 너무 쉽습니다. 하지만 화면이 늘어난다고 해서 자동으로 더 나은 결정을 하게 되는 것은 아닙니다.
종이, 화이트보드, 포스트잇 같은 아날로그 도구가 잘 먹히는 이유는 느리고, 단순하며, 유한하기 때문입니다. 이런 도구는 다음을 돕습니다.
- 복잡성을 외부화: 노트에 있는 것은 내 머릿속에 있을 필요가 없습니다.
- 규칙을 눈에 보이게: “우리는 이렇게 에스컬레이션한다”는 것이 암묵이 아니라 글자로 남습니다.
- 프로세스를 조용히 조율: 지우고, 다시 쓰고, 시간이 지날수록 조금씩 조정할 수 있습니다.
아날로그 인시던트 컴퍼스는 작지만 팀이 함께 사용하는 물리적인 산출물 세트입니다. 특히 스트레스가 큰 상황에서 온콜 시스템이 사람답고 이해하기 쉬운 상태를 유지하도록 도와줍니다.
1. 로테이션 설계: 지난주 Primary는 이번 주 Secondary
첫 번째 도구는 로테이션 패턴입니다. 여기서의 작은 변화 하나가 인시던트 결과를 크게 바꿉니다.
패턴
규칙은 단순합니다.
지난주 Primary가 이번 주 Secondary가 된다.
예를 들어 로테이션이 이렇게 되어 있다면:
- 1주차: Primary = Alex, Secondary = Bailey
- 2주차: Primary = Bailey, Secondary = Alex
- 3주차: Primary = Casey, Secondary = Bailey
…이런 식으로 막 페이저를 내려놓은 사람이 백업으로 계속 루프 안에 남아 있게 만듭니다. 이 사람은 여전히 컨텍스트를 갖고 있습니다.
- 최근 인시던트와 그 원인
- 잘 안 돌아가는(플래키한) 시스템과 임시 방편들
- 진행 중인 완화(mitigation) 작업들
이 설계 덕분에 에스컬레이션은 더 빠르고 부드러워집니다. Secondary가 완전히 “차가운(cold)” 상태가 아니라, 방금 전까지의 기억이 남아 있는 “웜(warm)” 상태이기 때문입니다.
어떻게 아날로그로 만들까
종이 로테이션 캘린더를 만드세요.
- 분기별로 한 페이지
- 컬럼: 주(Week), Primary, Secondary, Manager On‑Duty
- 볼펜이 아닌 연필로—언제든 수정할 수 있도록
이걸 벽에 붙이거나 팀이 공유하는 노트북에 넣어두세요. 팀 미팅 때, 앞으로의 온콜을 이야기할 때는 이 캘린더를 실제로 손가락으로 가리키면서 얘기하십시오. 그 작은 제스처 하나가 공동 책임감과 가시성을 강하게 상기시켜 줍니다.
2. 페이징 체인 그리기: Primary → Secondary → Engineering Manager
온콜이 혼란스러워지는 이유 중 상당수는 단순한 공백 하나에서 시작합니다. **“첫 번째 사람이 응답하지 않으면 정확히 어떻게 되는지 아무도 모른다”**는 공백 말입니다.
이 문제는 명확한 페이징 체인(paging chain) 하나로 해결할 수 있습니다.
체인
다음처럼 단일하고 눈에 잘 보이는 순서를 정의하세요.
- Primary — 첫 번째 응답자, 트리아지(우선순위 판단) 오너
- Secondary — 웜 백업, 에스컬레이션 시 투입
- Engineering Manager(또는 동등한 리더) — 오너십, 지원, 이해관계자 커뮤니케이션 책임
이걸 종이에 간단한 플로우로 적습니다.
인시던트 발생 → Primary 호출(Page) → (미응답 시) → Secondary 호출 → (그래도 미응답 시) → EM 호출
시간 창(짧고 명시적으로)
이 체인이 제대로 작동하려면, 각 단계마다 **짧고 분명한 시간 창(time window)**이 있어야 합니다. 애매함이 없어야 합니다.
예시:
- Primary: 0–5분 안에 Acknowledge(알림 수신·확인)
- Secondary: 5–10분 안에 Acknowledge
- Engineering Manager: 10–15분 안에 오너십을 가지고 조율 시작
숫자는 팀 상황에 맞게 조정해도 좋지만, 반드시 다음을 만족해야 합니다.
- 종이에 명시되어 있을 것
- 팀 모두에게 공유되어 있을 것
- 실제 Alerting 도구 설정에도 반영되어 있을 것
어떻게 아날로그로 만들까
한 장짜리 종이에 이렇게 그리세요.
- 위에서 아래로 내려가는 세로 플로우: Incident → … → Stable / Owned
- 각 노드에 “역할(Role)”과 “시간 창(Time Window)”을 함께 적기
이 종이는 인시던트 리뷰를 하는 공간에 붙여두세요. 그러면 “무엇이 잘못되었는지”를 얘기할 때마다, 한눈에 “원래는 어떻게 되었어야 하는지”와 나란히 비교할 수 있습니다.
3. Acknowledge 시간 고정: 최대 5분
“알림을 보면 그때 처리할게”라는 식의 애매한 Acknowledge 규칙은, 조용히 신뢰성을 갉아먹습니다.
고정된 Acknowledge 시간 창을 채택하세요.
Primary는 페이지를 받은 후 5분 안에 반드시 Acknowledge 해야 한다.
여기서 5분 안에 인시던트를 해결해야 한다는 뜻은 아닙니다. 다만 사람이 “이 인시던트를 봤고, 내가 맡겠다”고 말해야 한다는 뜻입니다.
이게 중요한 이유:
- 추측을 제거: “얼마나 기다려야 할까?”를 두고 더 이상 논쟁할 필요가 없습니다.
- 고객 보호: 시스템이 “설마 자고 있지는 않겠지” 하며 마냥 기다리지 않습니다.
- 응답자 보호: 기준이 명확해야 경계와 기대치를 사람답게 설정할 수 있습니다.
어떻게 아날로그로 만들까
인시던트 컴퍼스 노트에 **“Pager Promises(페이저 약속)”**라는 제목의 면을 하나 통째로 할당하세요.
왼쪽 페이지에 이렇게 적습니다.
- Primary: 5분 안에 Acknowledge
- Secondary: Primary 실패 후 5분 안에 Acknowledge
- EM: Secondary 실패 후 5분 안에 개입
오른쪽 페이지는 인시던트 후에 적을 수 있도록 비워둡니다.
- 이번 인시던트에서 이 약속들을 지켰는가? Y/N
- 아니라면, 어떤 작은 변화가 도움이 될까?
(예: 백업 전화, 다른 Alert 도구, 로테이션 구성 조정 등)
이렇게 하면, 사람을 탓하기보다 행동과 개선에 자연스럽게 초점을 맞추게 됩니다.
4. 전체 응답 시간 상한 설정: 15분 안에 리더십 개입
어떤 인시던트는 리더십 개입 없이도 해결됩니다. 하지만 필요한 상황인데도 리더십이 늦게 개입하는 것은 최악의 결과로 이어집니다. 몇 시간 동안의 혼란, 명확한 오너 부재, 점점 심해지는 고객 피해.
그래서 전체 응답 시간의 상한선을 정의합니다.
15분 안에 아무도 인시던트를 Acknowledge하고 책임을 지지 않으면, 리더십은 자동으로 개입한다.
이 말은 모든 사소한 알림까지 리더에게 올리라는 뜻이 아닙니다. 대신 이렇게 정의하는 겁니다.
- 시스템이 15분 내에 “누가 인시던트를 책임지고 있는지”를 확인하지 못한다면, 그 자체가 하나의 인시던트다.
- 리더십의 역할은 기술적인 문제를 직접 해결하는 것이 아니라, 오너십을 복구하는 것이다.
리더는 예를 들어 이렇게 행동할 수 있습니다.
- 응답자를 재배치하거나 추가 투입을 결정
- 이해관계자에게 상황을 알림
- 우선순위를 조정
- 다른 팀을 페이지할지 판단
어떻게 아날로그로 만들까
눈에 잘 띄는 색의 카드(인덱스 카드면 충분합니다)에 크게 이렇게 적으세요.
“15분이 지나도 주인이 없는 인시던트는 없다.”
이 카드를 팀 작업 공간이나 카메라 근처에 붙여두세요.
이 메시지는 단순하지만 강력한 상기입니다. 우리의 약속은 완벽함이 아니라, 오너십이라는 점을 계속 알려줍니다.
5. 온콜을 조용히 조율하는 ‘의식’으로 다루기
온콜은 바꿀 수 없는 고통스러운 규칙이 아니라, 시간이 지날수록 정성 들여 다듬어 가는 **의식(ritual)**이어야 합니다.
의식의 특징은 이렇습니다.
- 의도적이며
- 반복 가능하고
- 돌아보게 해 줍니다(반추·성찰적)
**조용한 튜닝(quiet tuning)**의 리듬을 만드세요.
- 의미 있는 인시던트가 있을 때마다, 인시던트 컴퍼스 노트에 메모 한 줄을 추가합니다.
- 무엇이 잘 작동했는가?
- 무엇이 헷갈렸는가?
- 어떤 작은 규칙 변경이 도움이 될까?
- 한 달에 한 번, 이 페이지들을 훑어보며 딱 한 가지 변화를 골라 실험해 봅니다.
변화 예시는 이런 것들이 있을 수 있습니다.
- 로테이션 길이 조정 (1주 vs 2주)
- 특정 서비스에 대한 에스컬레이션 경로 명확화
- 주말에 EM 백업을 누가 맡을지 변경
핵심은 작은 조정을 자주 하는 것입니다.
어떻게 아날로그로 만들까
노트에 “Ritual Experiments(의식 실험)” 섹션을 따로 만듭니다. 각 실험마다 이렇게 적습니다.
- 이름: 예) “5분 EM Heads‑up”
- 시작일 / 종료일
- 무엇을 바꿨는지
- 무엇을 관찰했는지
- 유지 / 되돌리기 / 추가 조정
시간이 지나면 이 섹션은 단순한 장애 기록이 아니라, 팀이 쌓아 온 지혜의 진화 로그가 됩니다.
6. 디지털 과부하를 상쇄하는 로우테크 의식들
디지털 도구는 필수적입니다. 하지만 그것만으로는 충분하지 않고, 종종 잡음을 더 만들기도 합니다.
이를 보완하기 위해, 신경계를 진정시키는 로우테크 의식들을 곁들여 보세요.
-
온콜 시작 전 종이 체크인 (5분)
온콜 주가 시작되기 전에, 한 페이지를 채워봅니다.- “이번 주에 가장 걱정되는 시스템은 무엇인가?”
- “오늘 한 번 훑어봐야 할 런북은 무엇인가?”
- “바로 도움을 요청할 수 있는 사람은 누구인가?”
-
한 페이지짜리 인시던트 로그
인시던트 중에는 손으로 이렇게 적어 봅니다.- 시간, 이벤트, 결정, 다음 체크 시점 이렇게 하면 컨텍스트가 계속 여기저기로 튀지 않고, 머릿속에 기준점이 생깁니다.
-
포스트 인시던트 리플렉션 카드
큰 인시던트 후에는 Primary와 Secondary에게 작은 카드를 한 장씩 줍니다.- 이번 인시던트를 더 쉽게 만든 한 가지
- 더 힘들게 만든 한 가지 이렇게 모은 카드를 매달 한 번씩 함께 리뷰합니다.
이 의식들은 의도적으로 작게 설계되어 있습니다. 추가 관료주의가 아니라, 정서적·인지적 가드레일입니다.
7. 온콜 안에 ‘팀 연결감’을 설계하기
최악의 온콜 시스템은 응답자를 고립되고, 비난받는 존재처럼 느끼게 합니다. 최고의 시스템은 응답자가 지원받고, 준비되어 있고, 팀과 연결되어 있다고 느끼게 합니다.
연결감을 의도적으로 설계하세요.
-
로테이션 핸드오프 시 버디 인트로
역할이 바뀔 때, Primary와 Secondary가 10분 정도 짧은 싱크를 합니다.- 지난주 인시던트 리뷰
- “이번 주에 특히 조심해야 할 것” 공유
- 서로의 연락 선호 방식 확인 (전화, DM, 그룹 채팅 등)
-
매니저는 심판이 아닌 서포터
매니저가 에스컬레이션 체인에 들어올 때, 첫 질문은 이렇게 시작해야 합니다.- “내가 어떻게 도울 수 있을까?”
“왜 이런 일이 났어?”가 아닙니다.
- “내가 어떻게 도울 수 있을까?”
-
런북의 공동 소유
중요한 런북을 모아둔 물리적인 폴더나 바인더를 두세요. 분기마다 한 번씩, 사람들이 둘씩 짝을 지어 한 개의 런북을 같이 훑어보고, 오래되었거나 틀린 부분에 표시를 남기게 합니다.
이런 관행은 분명한 메시지를 전달합니다.
온콜을 맡는다는 것은 혼자 버티는 게 아니라, 신뢰받고 뒷받침받고 있다는 뜻이라는 메시지입니다.
결론: 정원 창고로 걸어 들어가기
신뢰성(reliability)은 대시보드나 SLO만의 문제가 아닙니다.
인시던트가 터졌을 때도 사람을 단단히 붙들어 주는 명확한 역할, 짧은 응답 시간 창, 그리고 사람다운 의식의 문제이기도 합니다.
아날로그 인시던트 컴퍼스—작은 종이 기반 도구 벤치—를 만들면 다음을 할 수 있습니다.
- 컨텍스트를 보존하는 로테이션 설계 (지난주 Primary → 이번 주 Secondary)
- 가시적이고 시간 기반인 에스컬레이션 규칙 정립
(Primary → Secondary → EM, 고정된 시간 창 포함) - 최대 응답 시간 안에 오너십을 보장
(예: 15분 안에 반드시 주인이 생기도록) - 극단적인 변경 대신, 온콜 의식을 조용히 지속적으로 튜닝
- 하이테크 환경 속에서도 로우테크 관행으로 팀을 안정시키기
- 온콜을 ‘외로운 짐’이 아니라 ‘함께 지는 책임’으로 전환하기
이걸 시작하는 데 새로운 플랫폼은 필요 없습니다.
필요한 건 노트 한 권, 연필 한 자루, 그리고 은유적인 정원 창고로 함께 걸어 들어가서 이렇게 물어볼 팀뿐입니다.
“다음 인시던트가 조금 더 명확하고, 조금 더 친절하고, 조금 더 신뢰할 수 있게 만들 수 있는 작은 변화 한 가지는 무엇일까?”
그 질문에서 시작하세요. 종이에 적으세요. 조용히 조율하세요.
미래의, 더 차분해진 온콜 담당자인 당신이 고마워할 겁니다.