Rain Lag

아날로그 인시던트 레시피 박스: 팀이 정말로 써먹을 수 있는 손글씨 실패 패턴

AI 시대의 인시던트 혼란을 아날로그 스타일의 ‘실패 레시피’로 차분하고 일관된 대응으로 바꾸는 방법—팀이 빠르게 행동하고, 명확하게 커뮤니케이션하며, 과거로부터 진짜 배울 수 있도록.

아날로그 인시던트 레시피 박스: 팀이 정말로 써먹을 수 있는 손글씨 실패 패턴

AI는 운영(ops) 팀의 일을 빠르게 바꾸고 있습니다. 우리는 더 많이 자동화하고, 더 많이 위임하고, 더 많은 시스템이 우리 대신 의사결정을 내리도록 맡기고 있습니다. 2026년쯤이면 인시던트 대응은 더 이상 마이크로서비스 장애나 배포 실패만의 문제가 아니라, 점점 더 AI 툴과 자동화 자체의 실패가 핵심 이슈가 될 것입니다.

그리고 그런 상황이 오면, 더 이상 AI 런북 어시스턴트에게 “이제 뭘 해야 해?”라고 물어볼 수 없습니다.

이때 의외로 강력해지는 것이 바로 아주 옛날식 아이디어입니다. 아날로그 인시던트 레시피 박스. 모든 게 불타고 있을 때도 팀이 실제로 꺼내 쓸 수 있는, 손으로 쓴, 따라 하기 쉬운 ‘실패 레시피’를 떠올려 보세요.

이건 향수에 젖은 감성이 아닙니다. 디자인입니다. 인시던트 문서를 압박 속에서도 바로 쓸 수 있게 만드는 데 초점을 둔 설계입니다.


왜 여전히 인간이 중요한가 (특히 AI가 실패할 때)

AI는 앞으로도 운영 팀을 계속 보조할 것입니다. 로그를 요약하고, 완화(mitigation) 방안을 제안하고, 플레이북 실행을 오케스트레이션하기까지. 하지만 세 가지 사실은 변하지 않습니다.

  1. AI도 실패하는 하나의 시스템이다. 장애, 환각(hallucination), 잘못된 모델, 깨진 연동(Integration)… AI 툴 자체가 실패 표면(failure surface)에 포함됩니다.
  2. 책임은 결국 인간에게 있다. 고객이 화를 내거나 규제 기관이 질문을 던질 때, 결정과 설명에 대한 책임은 사람에게 있습니다.
  3. 판단은 맥락적이다. 자동화가 아무리 좋아도, 애매하거나 처음 보는 상황, 윤리적인 경계 상황은 결국 인간의 해석과 판단이 필요합니다.

즉, 앞으로의 인시던트 대응은 다음과 같은 전제를 가져야 합니다.

  • AI는 도와주지만, 언젠가는 안 도와줄 때가 온다.
  • 팀은 AI 도움 없이도 행동할 수 있어야 한다.
  • 문서는 고스트레스 상황의 인간이 직접 바로 쓸 수 있어야 한다.

지금 우리가 가진 런북과 포스트모템은 이 기준을 잘 통과하지 못하는 경우가 많습니다.


현대식 런북과 포스트모템의 문제점

대부분의 팀은 대략 이런 것들을 가지고 있습니다.

  • 아무도 안 읽다가 사고 터지면 찾는 Markdown 런북
  • 컴플라이언스 문서처럼 느껴지는 포스트모템
  • 장애 났을 때는 도무지 탐색이 안 되는 방대한 Confluence 페이지

공통적인 문제는 이렇습니다.

  • 너무 길고, 실질적인 행동 지침이 없다. 장문의 글 사이에 핵심 액션이 겨우 숨어 있다.
  • 대응자보다 감사/감독을 위한 문서다. 스토리는 길지만 “이거 하고, 그다음 저거 해라”는 내용이 부족하다.
  • 구조화가 안 되어 있다. 인시던트마다 형식이 다르고, 표준화나 검색이 잘 안 된다.
  • 신뢰받지 못한다. 옛 문서를 복붙만 하고, 제대로 업데이트되진 않아서, 결국 구전 지식에 의존하게 된다.

AI와 복잡한 자동화가 점점 더 많이 관여하는 인시던트 환경에서는 이건 상당한 리스크입니다.

지금 필요한 건 짧고, 구조화되어 있고, 실전 친화적인 것—정책 문서라기보다 레시피 카드에 가까운 형태입니다.


셰프처럼 생각하기: 인시던트를 레시피로 바라보기

좋은 요리 레시피에는 몇 가지 공통점이 있습니다.

  • 짧고 한눈에 들어온다.
  • 무엇을, 어떤 순서로 할지 정확히 알려준다.
  • 중요한 타이밍과 안전 주의를 강조한다. (예: “뜨거운 기름에 물을 절대 붓지 마세요.”)
  • 가벼운 스트레스 상태의 인간을 전제로 한다. 로봇을 상정하지 않는다.

인시던트 문서도 똑같아야 합니다.

범용 런북 대신, 실패 패턴 레시피(failure pattern recipe) 관점으로 생각해 보세요.

실패 패턴 레시피란, 특정한 반복 발생 인시던트 상황에 대해, 압박 속에서도 바로 따라 할 수 있게 만든 표준화된 재사용 가이드입니다.

예를 들면 이런 것들입니다.

  • “AI 인시던트 어시스턴트가 잘못된 복구(remediation) 제안을 할 때”
  • “자동 롤백이 실패하고, 배포 파이프라인이 중간 상태에서 멈췄을 때”
  • “고객-facing AI 기능이 민감하거나 금지된 내용을 환각(hallucination)해 낼 때”
  • “ML 기반 이상 탐지 모니터링은 조용한데, 고객은 장애를 호소할 때”

각각은 매뉴얼의 한 챕터가 아니라, 짧고 집중된 레시피 카드 하나가 되어야 합니다.


인시던트 레시피 카드에는 무엇이 들어가야 할까

탄탄한 인시던트 레시피 카드는 최소한이지만, 필요한 건 다 있는 형태여야 합니다. 다음과 같은 구조를 권장합니다.

1. 이름 & 패턴

  • 제목: AI 인시던트 어시스턴트가 위험한 액션을 제안할 때
  • 패턴: 자동화가 인시던트를 악화시키거나 정책을 위반할 수 있는 수정을 제안하는 경우

2. 빠른 인지 포인트 (Quick Recognition)

대응자가 이 패턴을 빨리 알아채도록 돕는 2~4개의 불릿:

  • AI 툴의 제안이 기존 런북의 지침과 상충된다.
  • 여러 대응자가 제안 내용에 대해 혼란스럽거나 신뢰하지 못하겠다고 표현한다.
  • 제안된 변경이 롤백이 불명확한 핵심 시스템에 영향을 준다.

3. 기본 대응 플레이 (Default Response Play)

인지 부하를 최소화한, 구체적인 단계별 목록:

  1. 자동화를 일시 중지한다. AI 기반 실행은 “조언 모드(advisory only)”로 전환한다.
  2. 인간 리드를 지정한다. 인시던트 커맨더와 커뮤니케이션 리드를 명확히 한다.
  3. 안정화에 집중한다. (rate limit, 기능 플래그, 롤백 등) 피해 확산을 막는 액션을 우선한다.
  4. 신뢰할 수 있는 소스를 사용한다. 검증된 런북과 시스템 대시보드를 기준으로 삼는다.
  5. AI 제안을 기록한다. 사후 분석을 위해 AI가 무엇을 제안했는지 남긴다.

4. 커뮤니케이션 템플릿

Slack, 이메일, 상태 페이지 등에 바로 붙여 넣을 수 있는 간단한 문구:

  • 내부용: “현재 AI 기반 복구 제안이 상충되는 가이던스를 제공하고 있어 일시 중단했습니다. 현재 인간 주도 방식으로 완화 작업을 진행 중이며, 더 느리지만 보수적인 변경을 기준으로 합니다.”
  • 외부용(필요 시): “현재 서비스 장애를 겪고 있으며, 안정성을 보장하기 위해 자동 변경을 일시적으로 제한한 상태에서 조사를 진행하고 있습니다.”

이런 명료하고 일관된 커뮤니케이션은 혼란을 줄이고 신뢰를 유지해 줍니다.

5. 안전 체크 (Safety Checks)

명시적인 “하지 말 것” 목록:

  • 주요 인시던트 중에는 AI가 제안한 변경을 인간 검토 없이 실행하지 말 것.
  • 검증되지 않은 프롬프트나 지시가 프로덕션 변경에 영향을 주지 않도록 할 것.

6. 학습 훅 (Learning Hooks)

사후에 레시피를 개선하기 위해 답해 봐야 할 질문들:

  • AI가 어떤 패턴을 놓치거나 오해했는가?
  • 인간 대응자들이 가장 불확실함을 느낀 지점은 어디였는가?
  • 다음에는 이 레시피를 더 일찍 활성화하도록, 어떤 신호를 트리거로 삼아야 하는가?

왜 체크리스트는 압박 속에서 강력한가

고스트레스, 시간 압박이 큰 인시던트 상황에서 사람은:

  • 당연한 단계도 쉽게 잊습니다.
  • 위험한 지름길을 택하기 쉽습니다.
  • 하나의 가설에 집착해 다른 가능성을 무시하기도 합니다.

그래서 항공, 수술, 원자력 같은 분야는 모두 체크리스트와 구조화된 가이드에 의존합니다. 이들은 전문성을 대체하는 것이 아니라, 전문성을 보호합니다.

인시던트 레시피 카드는 다음에 초점을 맞춰야 합니다.

  • 처음 5~10분을 위한 체크리스트. “인시던트 커맨더 지정 완료? 로깅 활성화? 주요 이해관계자에게 알림 완료?”
  • 분기형 프롬프트. “만약 X라면 7번으로, 아니라면 10번으로 이동.”
  • 명확한 중지 규칙(Stop Rule). “이 작업이 두 번 실패하면 중단하고, 온콜 SRE에게 에스컬레이션 후 수동 롤백으로 전환.”

AI 툴이 불안정하거나 꺼져 있을 때, 이런 체크리스트가 대응자들을 현실에 붙들어 두고, 정렬시키며, 효율적으로 움직이게 해 줍니다.


포스트모템에서 레시피로: 실패를 재사용 가능한 패턴으로 바꾸기

미래의 모든 실패를 상상해 둘 필요는 없습니다. 대신 과거 인시던트에서 재사용 가능한 패턴을 캐내면 됩니다.

가벼운 루프는 다음과 같습니다.

  1. 인시던트를 컴포넌트가 아니라 패턴 기준으로 태깅한다.
    • 단순히 “DB 장애”라고만 하지 말고, “자동 롤백 실패”, “AI 제안 오사용”, “침묵하는 모니터링(silent monitoring failure)” 같은 태그를 쓴다.
  2. 반복되는 구조를 찾는다.
    • 최근의 “AI가 콘텐츠를 환각한” 인시던트 3건은 무엇을 공통적으로 갖고 있었는가?
  3. 핵심만 추출한다.
    • 어떻게 이 패턴을 알아챘는가?
    • 가장 효과적이었던 즉각적인 조치는 무엇인가?
    • 고객과 리더십에 어떤 커뮤니케이션이 잘 먹혔는가?
  4. 레시피 카드를 작성한다.
    • A4 한 페이지 이내로 제한한다.
    • 모든 카드에 동일한 템플릿을 강제한다.
  5. 게임 데이(Game Day)에서 테스트한다.
    • AI 시스템이 실패한 상황을 시뮬레이션하고, 대응자가 레시피만 가지고 대응하도록 한다.
  6. 정제하고 표준화한다.
    • 가장 유용한 패턴을 “상단 선반(top shelf)” 레시피 박스로 승격한다.

시간이 지나면, 다음에 비슷한 문제가 발생했을 때 팀을 더 빠르고 침착하게 만들어 줄 실패 패턴 라이브러리가 쌓이게 됩니다.


레시피 박스를 죽은 바인더로 만들지 않으려면

인시던트 레시피 박스의 가치는 사람들이 실제로 쓰느냐, 안 쓰느냐에 달려 있습니다.

살아 있게 유지하는 방법:

  • 물리적으로도, 디지털로도 존재하게 만든다.
    • 인시던트 워룸에 실제 플라스틱 박스와 라미네이트 카드
    • 인시던트 툴링에서 “recipes” 채널 또는 대시보드 링크를 상단 고정
  • 모든 주요 인시던트에 레시피를 끼워 넣는다.
    • “지금 상황과 가장 잘 맞는 레시피는 무엇이지?”라고 묻는 습관
  • 매 회고(레트로)마다 레시피 한 장씩 리뷰한다.
    • 여전히 정확한가? 여전히 유용한가? 빠진 건 없는가?
  • 카드 수를 제한한다.
    • 모든 게 중요하면, 아무것도 중요하지 않다. 레시피 박스는 영향이 크고 반복되는 패턴에만 할당한다.
  • 신규 대응자 교육은 레시피부터 시작한다.
    • 실전에 던져지기 전에, 안정적인 멘탈 모델을 제공한다.

레시피 박스를 정적인 서류함이 아니라, 조직이 위험을 다루는 방식을 모아놓은 살아 있는 메뉴로 바라보는 것이 핵심입니다.


2026년의 AI-중심 인시던트를 위한 설계

2026년 즈음이면 이런 인시던트가 훨씬 흔해질 가능성이 큽니다.

  • AI 기반 오토스케일러가 용량 한도를 지나치게 오버슈팅하는 경우
  • 모델 업데이트 후, 하룻밤 사이에 관련성이나 안전성이 떨어지는 경우
  • 프롬프트 인젝션(prompt injection)이나 Jailbreak 시도로 인해 예상치 못한 동작이 발생하는 경우
  • AI 어시스턴트들이 서로 상충되거나 위험한 복구 조언을 하는 경우

인시던트 레시피 박스는 이를 미리 고려해야 합니다.

  • 다음과 같은 구체적인 카드를 포함합니다.
    • “AI Observability Failure” (모니터링/알림용 AI가 오작동하거나 다운된 상황)
    • “Unsafe AI Output in Production” (환각, 정책 위반 콘텐츠 노출)
    • “Broken AI-Driven Change Management” (나쁜 제안, 승인 실패, 오적용)
  • 커뮤니케이션 규범을 내장합니다.
    • AI 실패에 대해 내부/외부에 어떻게 이야기할 것인지
    • 자동화를 왜, 언제 중단했는지 어떻게 설명할 것인지
  • 인간 오버라이드와 에스컬레이션 경로를 강조합니다.
    • “이 지점에서 자동화를 끄고 수동 제어로 전환한다”는 명확한 트리거

목표는 AI를 불신하는 것이 아닙니다. AI를 실수하는 동료로 다루고, 그 동료가 실수했을 때 인간이 대비되어 있도록 만드는 것입니다.


결론: 한 번 태워 먹은 경험으로 다시 요리하라

당신에게 필요한 건 더 많은 문서가 아닙니다. 더 잘 설계된 문서입니다. 짧고, 구조화되어 있고, 인시던트의 열기 속에서도 바로 쓸 수 있는 문서.

아날로그 인시던트 레시피 박스는 지저분하게 흩어진 장애 이력과 AI 실패들을 다음과 같이 바꿔 줍니다.

  • 일회성 무용담이 아니라, 재사용 가능한 실패 패턴으로
  • 부풀려진 런북이 아니라, 실행 가능한 체크리스트
  • 매번 새로 짜야 하는 메시지가 아니라, 명확한 커뮤니케이션 템플릿으로

AI가 운영에서 차지하는 비중이 커질수록, 자동화 자체가 인시던트가 될 확률은 높아질 것입니다. 그 순간, 잘 버티는 팀은 단순하고, 신뢰할 수 있고, 익숙한 무언가—잘 구겨진 레시피 카드 같은 것을 꺼내 들 수 있는 팀입니다.

작게 시작하세요. 반복해서 발생하는 실패 패턴 세 가지를 고르세요. 각각을 한 페이지짜리 레시피로 만드세요. 게임 데이를 돌려 보세요. 다듬으세요. 그리고 사람들이 실제로 보고 쓸 수 있는 곳에 그 카드를 두세요.

다음번 AI 중심 인시던트가 닥쳤을 때, 당신의 팀은 더 이상 찍어 보지 않을 것입니다. 이미 여러 번 태워 본 경험으로, 제대로 요리하고 있을 것입니다.

아날로그 인시던트 레시피 박스: 팀이 정말로 써먹을 수 있는 손글씨 실패 패턴 | Rain Lag