Rain Lag

연필로 그린 인시던트 나침반 로즈: 모든 온콜을 하나로 맞추는 작은 의식들

손으로 휘갈겨 그린 ‘인시던트 나침반 로즈’와 작은 신뢰성 의식들이 어떻게 온콜 엔지니어들을 같은 목표로 정렬시키고, 번아웃을 줄이며, 인시던트 대응을 개선하는지 이야기합니다.

연필로 그린 인시던트 나침반 로즈: 모든 온콜을 하나로 맞추는 작은 의식들

온콜을 오래 해본 사람이라면 이 감각을 안다. 페이저(또는 알림)가 울리고, 아드레날린이 치솟고, 맥락은 증발한다. 그 순간 머리는 눈앞의 알림에만 좁게 집중된다. 더 큰 그림은 사라진다. 지금 내가 최적화해야 하는 건 속도일까? 안전일까? 고객 영향일까? 장기적인 신뢰성일까? 머리로는 “다 중요하다”고 말하기 쉽지만, 실제 인시던트 상황에서는 곳곳이 트레이드오프 투성이다.

이럴 때 의외로 강력해지는 도구가 있다. 바로 연필로 그린 인시던트 나침반 로즈(incident compass rose) — 일이 틀어졌을 때, 무엇이 진짜 중요한지 상기시켜주는 작고 손으로 그린 메모다.

이 글에서는 나침반 로즈라는 메타포와 시각적인 아티팩트, 그리고 작고 반복 가능한 의식들이 어떻게 다음을 가능하게 하는지 살펴본다.

  • 모든 온콜 엔지니어를 같은 신뢰성 목표에 정렬시키기
  • 기대치와 우선순위를 명확히 해서 번아웃을 줄이기
  • 추상적인 신뢰성 가치를 구체적이고 반복 가능한 행동으로 바꾸기

왜 인시던트에 “나침반 로즈”가 필요할까?

**나침반 로즈(compass rose)**는 지도에 그려진 별 모양 도형으로, 북·남·동·서를 표시해주는 역할을 한다. 이게 잘하는 일은 단 하나다. 지금 어느 방향으로 가야 하는지 알려주는 것.

인시던트 대응은 스트레스 속에서 하는 일종의 항해다. 낯선 지형 한가운데에 떨어져서 재빨리 움직여야 한다. 공유된 나침반이 없다면, 온콜마다 제각각으로 이런 식으로 행동할 수 있다.

  • 서로 다른 목표를 최적화한다 (예: 속도 vs. 안전)
  • “좋은 대응”에 대한 머릿속 모델이 제각각이다
  • 팀과 고객을 혼란스럽게 만드는 불일관한 트레이드오프를 만든다

이 메타포가 유용한 이유는, 실제 나침반처럼 인시던트 관련 의식들을 ‘진북(true north)’에 맞춰 정렬할 수 있기 때문이다. 여기서 진북은 잘 정의된 신뢰성 목표와 우선순위를 의미한다.

팀이 이걸 명시적으로 정의해두지 않았다면, 그건 나침반이 있는 게 아니라 그냥 각자 ‘짐작’으로 움직이고 있다는 뜻이다.


진북 정의하기: 신뢰성 목표와 우선순위

무언가를 그리기 전에 먼저 정해야 한다. “우리는 실제로 어디를 향하고 있는가?”

인시던트 대응을 위한 ‘진북’ 문장은 예를 들어 이렇게 정리할 수 있다.

  • 고객 영향 최소화를 최우선으로.
    “고객에게 유의미한 영향이 발생했다면, 우리는 장기적으로 기술 부채가 조금 늘더라도 빠르고 보수적인 조치를 우선한다.”
  • 안전한 되돌리기를 선호한다.
    “특히 불확실성이 클 때에는, 되돌리기 쉬운 변경을 위험하고 되돌리기 어려운 변경보다 우선한다.”
  • 사람의 지속 가능성을 지킨다.
    “번아웃 위험도 신뢰성 리스크로 취급한다. 사람 시스템이 망가지면 기술 시스템이 망가진 것만큼이나 위험하다.”
  • 커뮤니케이션에 편향을 둔다.
    “아직 ‘조사 중’이더라도 이해관계자에게 일찍, 그리고 자주 상황을 공유한다.”

이렇게 3–5개의 원칙을 적어본다. 이게 인시던트 나침반 로즈의 동서남북, 즉 기본 축이 된다.

그리고 스스로에게 물어보자.

  • 이 원칙들만으로도, 모든 온콜 엔지니어가 비슷한 트레이드오프를 할 수 있을까?
  • 이 원칙들이 실제 우리의 온콜 스케줄런북 설계에 반영되어 있는가?

그렇지 않다면, 그게 바로 첫 번째 정렬 문제다.


과소평가되는 레버리지: 온콜 스케줄 설계

최고의 인시던트 대응 의식을 설계해놔도, 온콜 스케줄 자체가 지옥 같다면 신뢰성 관행은 실제에서 무너진다.

온콜 스케줄 설계는 곧 신뢰성 제어 장치다. 스케줄은 직접적으로 다음을 결정한다.

  • 팀 건강과 번아웃 리스크 – 지친 사람은 더 위험한 선택을 하고, 단계를 생략하고, 시스템 개선을 멈춘다.
  • 인시던트 대응 품질 – 피곤한 온콜은 패턴을 더 늦게 알아채고, 틀린 가설에 집착하기 쉽고, 커뮤니케이션도 흐려진다.
  • 온콜 자원에 대한 자발성 – 스케줄이 착취적이라고 느껴지면, 시니어 엔지니어들은 조용히 온콜을 피하게 되고, 팀의 회복탄력성이 떨어진다.

건강하고 잘 정렬된 스케줄은 예를 들어 이런 요소를 가진다.

  • 합리적인 로테이션 길이 (예: 1주 온콜 후 여러 주 비번)
  • 명시적인 핸드오프 의식 (짧은 핸드오프 문서, 간단한 싱크 콜, 혹은 Slack 노트 등)
  • 명확한 백업 역할 정의 (프라이머리, 세컨더리, 인시던트 커맨더 등)
  • 강도 높은 인시던트 이후 보호된 회복 시간 (반차, 혹은 회의 일정 경감 등)

스케줄을 설계할 때는 이렇게 자문해보자.

우리의 진북이 장기적인 신뢰성이라면, 이 스케줄은 그 방향으로 나아가게 하는가, 아니면 반대로 가게 하는가?

“사람이 우리의 가장 중요한 신뢰성 자산이다”라고 말하면서, 실제 스케줄은 사람을 갈아넣고 있다면, 이미 나침반이 거짓을 가리키고 있는 셈이다.


작은 의식들: 스트레스 속에서도 좋은 결정을 하도록

스트레스 상황에서 사람은 갑자기 더 잘하는 게 아니라, 평소 하던 의식 수준으로 떨어진다.

그래서 인시던트 대응을 일관되게 잘하는 팀은 대개 **작고 반복 가능한 ‘tiny rituals(작은 의식)’**을 가지고 있다. 이 의식들은 다음을 돕는다.

  • 인지 부하를 줄인다
  • 애매할 때의 기본값을 제공한다
  • 팀의 가치를 빠른 행동으로 코드화한다

이 의식들이 거창할 필요는 없다. 대신 다음을 만족해야 한다.

  1. 눈에 보인다 – 써먹어야 할 때 떠올릴 수 있다.
  2. 반복 가능하다 – 새벽에 반쯤 잠이 덜 깬 상태에서도 할 수 있을 만큼 단순하다.
  3. 정렬되어 있다 – 팀의 진북과 실제로 맞닿아 있다.

예시가 될 수 있는 작은 의식들:

  • 온콜 알림을 받을 때마다 하는 60초 사전 체크리스트
    • “현재 진행 중인 인시던트가 있는지 확인했는가?”
    • “전용 인시던트 채널이 있는가?”
    • “명확한 인시던트 커맨더가 있는가?”
  • 기본 트리아지 순서: 상태 페이지 확인 → 에러율 그래프 → 최근 배포 내역 → 관련 런북 순으로 확인.
  • 표준 에스컬레이션 룰:
    “영향도가 X 이상이거나, Y분 이상 막혀 있으면, 주저하지 말고 에스컬레이션한다.”
  • 포스트 인시던트 회고 질문:
    “이번 대응에서 나침반을 잘 따랐는가? 어디에서 진북에서 벗어나는 느낌이 들었는가?”

이런 것들은 사소해 보이지만, 반복되면서 힘을 갖는다. 하나하나가 나침반이 가리키는 방향으로 내딛는 걸음이 된다.


손으로 그린 나침반 로즈: 시각적인 신뢰성 앵커

이제 연필의 차례다.

디지털 도구가 어디에나 있지만, 손으로 그린 아티팩트에는 독특한 힘이 있다.

  • 개인적이고 인간적으로 느껴진다
  • 쉽게 고치고 메모를 덧붙일 수 있다
  • 추상적인 가치를 책상이나 노트 위의 ‘눈에 보이는 것’으로 만든다

각 온콜 엔지니어가 자신의 작업 공간 근처 노트나 화이트보드에 손으로 그린 나침반 로즈를 하나씩 가지고 있다고 상상해보자.

나침반에는 4개의 기본 방향이 있고, 필요하다면 대각선 방향도 추가할 수 있다. 각 방향에는 팀의 핵심 인시던트 원칙을 하나씩 적는다. 예를 들어 다음과 같이 할 수 있다.

  • 북 – 고객 보호
    사용자에게 보이는 영향을 최소화한다. 안전하고 빠른 완화 조치를 우선한다.
  • 동 – 안전성과 되돌리기 가능성 유지
    불확실성이 크면 특히, 고위험·되돌리기 어려운 변경보다는 되돌리기 쉬운 행동을 선택한다.
  • 남 – 사람의 지속 가능성
    피로도를 존중한다. 일찍 에스컬레이션하고, 탈진 상태에서 ‘히어로 플레이’로 버티지 않는다.
  • 서 – 명확한 커뮤니케이션
    이해관계자에게 상황을 공유한다. 정보가 완전하지 않아도 상태를 알려준다.

대각선 방향으로는 예를 들어 이렇게 넣을 수 있다.

  • 북동 – 지금 완화, 나중에 근본 해결
  • 남서 – 학습과 개선 (후속 작업과 포스트모템을 챙기는 축)

이건 미술 시간이 아니다. 정렬의 도구다.

직접 그리는 행위 자체가 중요하다. 그리면서 생기는 감각은 일종의 작은 커밋 의식이다. 단순히 정책 문서를 읽는 게 아니라, 머릿속 모델을 종이 위에 직접 꺼내어 외부화하는 과정이기 때문이다.

이 나침반을 온콜 동안 항상 눈에 들어오는 곳에 둔다. 인시던트 중에 한 번씩 눈을 돌려 이런 질문을 해본다.

  • 지금 내가 내리는 결정은 어느 방향으로 움직이고 있는가?
  • 어떤 축은 완전히 무시하고 있지 않은가? (예: 고객 보호를 위해 내 몸을 태우고 있지는 않은가?)
  • 이 결정은 정말 우리 진북을 향한 것인가, 아니면 단지 “그래프를 빨리 예쁘게 만들기” 위한 것인가?

시간이 지나면, 이 나침반은 팀이 신뢰성을 어떻게 다루는지 보여주는 구체적이고 기억에 남는 아티팩트가 된다.


모든 온콜의 머릿속 모델 표준화하기

인시던트 나침반 로즈의 진짜 힘은 마음속 모델을 동기화해준다는 데 있다.

정렬된 의식 없이 두 명의 실력 있는 엔지니어가 같은 상황에 놓인다면, 이런 식으로 달라질 수 있다.

  • 똑같은 상황에서 서로 다른 트레이드오프를 선택한다
  • 에스컬레이션 기준과 타이밍이 제각각이다
  • 무엇이 중요했는지에 대한 포스트모템(사후 분석) 서술이 완전히 다르다

반대로, 모든 온콜이 다음과 같은 공통 기반을 가진다면 상황이 달라진다.

  • 같은 나침반 로즈를 직접 그려봤고
  • 같은 작은 의식들을 반복해서 연습했으며
  • 같은 진북 원칙을 참고하고 있다면

인시던트 중의 행동은 훨씬 더 예측 가능하고 일관된 패턴을 띠게 된다.

이건 개개인의 판단력을 없애자는 얘기가 아니다. 대신 모두가 다음을 공유하도록 하자는 것이다.

  • 문제를 바라보는 공통의 의사결정 프레임
  • 어떤 트레이드오프가 팀 차원에서 선호되는지에 대한 이해
  • 에스컬레이션, 커뮤니케이션, “도움이 필요하다”는 신호를 보내는 것에 대한 심리적 안전감

한마디로, 나침반 로즈는 누가 페이저를 받든 같은 방향으로 서 있게 해준다.


팀에 인시던트 나침반 로즈를 도입하는 방법

작게 시작할 수 있다. 다음과 같은 가벼운 접근을 추천한다.

  1. 진북을 명확히 한다

    • 팀 회의에서 인시던트 대응 원칙 3–5가지를 함께 초안으로 만든다.
    • 실제 트레이드오프에 도움이 될 만큼 구체적으로 적는다.
  2. 나침반 로즈를 함께 디자인한다

    • 그 원칙들을 동서남북 방향으로 둔 거친 스케치를 만든다.
    • 함께 수정하고 다듬는다. 이건 리더가 일방적으로 내리는 지침이 아니라, 공동 소유를 만드는 작업이다.
  3. 그림을 중심으로 작은 의식을 만든다

    • 새로운 온콜 시프트가 시작될 때마다, 담당 엔지니어가 노트나 포스트잇에 나침반을 다시 그린다.
    • 인시던트 중에 커맨더가 명시적으로 나침반을 언급할 수 있다.
      예: “지금은 북, 고객 보호를 최우선으로 두고 있습니다. 안정화되면 남/서, 즉 사람 회복과 학습은 그 이후에 잡겠습니다.”
  4. 스케줄과 프로세스를 나침반에 맞춘다

    • 온콜 스케줄과 에스컬레이션 규칙이 나침반과 충돌하지 않도록 조정한다.
    • 예를 들어, 사람의 지속 가능성을 중요하게 생각한다면, 고심각도 인시던트 이후 휴식 시간을 반드시 보장한다.
  5. 실제 인시던트 이후에 다시 검토한다

    • 포스트 인시던트 리뷰에서 항상 묻는다.
      “이번 대응은 우리 나침반을 잘 반영했는가? 나침반이 이상하게 느껴진 지점은 어디였는가?”
    • 시간이 지남에 따라 신뢰성에 대한 팀의 이해가 성장하면, 나침반 방향도 함께 업데이트한다.

결론: 작고, 손으로 그리고, 놀랍도록 강력한 도구

인시던트 대응을 개선하는 데 꼭 새로운 플랫폼이나 AI, 화려한 대시보드가 필요한 것은 아니다. 필요한 것은 **정렬(alignment)**이다.

연필로 그린 단순한 인시던트 나침반 로즈와 몇 가지 의도적인 작은 의식만으로도 다음을 이룰 수 있다.

  • 모든 온콜 엔지니어를 같은 신뢰성 목표에 고정(anchor)시키기
  • 우연한 트레이드오프가 아니라 의도적인 트레이드오프로 만들기
  • 인간의 한계를 신뢰성의 핵심 요소로 다루어 번아웃을 줄이기
  • “고객 중심”, “학습 문화” 같은 모호한 가치를 구체적이고 눈에 보이는 행동으로 바꾸기

인시던트는 언제나 스트레스를 동반할 것이다. 하지만 그 속에서 방향감까지 잃을 필요는 없다.

모든 엔지니어에게 같은 나침반을 쥐어주고, 각자가 직접 그려볼 시간을 준다면, 팀은 더 일관되고, 더 지속 가능하며, 더 자신 있게 ‘진짜 신뢰성’을 향해 나아가게 될 것이다.

연필로 그린 인시던트 나침반 로즈: 모든 온콜을 하나로 맞추는 작은 의식들 | Rain Lag