종이로 걷는 인시던트 미로: 하이테크 장애를 뚫는 로우테크 결정 경로
시스템은 불타고 대시는 까맣게 죽었는데, 화려한 도구들은 아무 도움도 안 될 때가 많다. 이런 순간을 버티게 해주는 건 전기가 없어도 작동하는, 명확하게 설계된 ‘종이 기반’ 의사결정 경로다. 장애 상황에서도 멈추지 않는 인시던트 대응을 위한 로우테크 런북, 다이어그램, ‘디시전 뮤럴’을 만드는 방법을 정리했다.
종이로 걷는 인시던트 미로: 하이테크 장애를 뚫는 로우테크 의사결정 경로
인시던트가 터질 때 대응이 망하는 이유는, 최신 툴이 없어서도, 새 플랫폼을 안 사서도 아니다. 인시던트는 보통 처음 10–30분 동안 무너진다. 사람이 과부하되고, 정보는 부족하고, 의사결정은 조용히 붕괴한다.
이 순간, 가장 강력한 인시던트 대응 기술은… 어쩌면 종이일 수 있다.
출력해 둔 런북, 마커로 그린 플로우차트, 벽에 붙여 둔 커다란 ‘디시전 뮤럴(decision mural)’. 이런 로우테크 산출물들이야말로, 당신이 의존하던 하이테크 시스템이 성능 저하, 장애, 혹은 지나친 노이즈로 제 역할을 못할 때, 통제된 대응과 우왕좌왕을 가르는 차이가 된다.
이 글에서는 인시던트가 가장 중요한 순간에, 팀을 인시던트 미로 속에서 이끌어 줄 종이 기반 의사결정 도구를 어떻게 설계하고 활용할지 다룬다.
인시던트가 망하는 진짜 이유: 문제는 도구가 아니다
대부분의 사후 인시던트 리뷰는 툴에 집착한다. 더 많은 자동화, 더 좋은 대시보드, 더 똑똑한 알림. 물론 도움이 되지만, 핵심 문제를 해결해 주진 못한다.
실제 실패 양상은 보통 이렇다:
- 누가 최종 책임자인지 아무도 확실히 모른다.
- 뭘 먼저 할지 논쟁만 하다가 아무것도 안 한다.
- 팀들이 일을 중복해서 하거나, 너무 obvious한 단계를 빼먹는다.
- 정지 vs. 격리 같은 핵심 결정이 나오는 데 너무 오래 걸린다.
이건 기술 실패가 아니라, 의사결정 실패다. 이런 일이 벌어지는 이유는:
- 스트레스가 시야와 기억을 급격히 좁힌다.
- 정보가 여러 툴과 팀에 쪼개져 있다.
- 선례 없이 ‘큰 결정’을 내렸다가 욕먹을까 봐 모두가 주저한다.
즉, 모든 게 불타고 있을 때, 팀은 그 자리에서 플레이북을 즉흥 제작하고 있는 셈이다. 이건 애초에 승산 없는 전략이다.
하이테크가 무너질 때, 로우테크가 빛난다
아이러니하게도, 인시던트 상황은 당신의 하이테크 지원 인프라가 가장 덜 믿을 만한 순간이다.
- 모니터링 대시보드는 타임아웃 난다.
- 티켓 시스템은 기어가다 멈춘다.
- VPN 접속이 불안정하다.
- ID/SSO 문제가 터져서 툴 로그인이 막힌다.
그런데 대응 프로세스가 이런 시스템들에 의존하고 있다면? “모든 게 정상이어야, 비정상을 처리할 수 있는” 모순 구조를 스스로 만든 셈이다.
종이 기반 의사결정 도구는 이 의존성을 끊어 준다.
- 전기, 네트워크, 계정이 필요 없다.
- 그 자리에 있는 누구나 볼 수 있다.
- “우리가 뭘 해야 하지?”를 “이 순서를 따르면 된다.”로 바꿔, 인지 부하를 줄인다.
종이는 툴을 대체하지 않는다. 툴이 흔들릴 때 대응을 붙들어 두는 앵커가 된다.
어디부터 만들까: 영향 높고, 자주 터지고, 실수 많은 영역
모든 작업에 출력된 런북이 필요하진 않다. 다음 조건 중 최소 두 개 이상을 만족하는 시나리오부터 시작하자:
- 고위험/고비용(High-impact): 틀리면 대가가 크다.
- 빈발(Frequent): 주간/월간 단위로 반복해서 겪는다.
- 실수 다발(Error-prone): 단계 누락, 오해, 논쟁이 반복된다.
전형적인 후보는 다음과 같다:
-
피싱(Phishing) 트리아지
- 빠르게 결정해야 한다: 무시할지, 차단할지, 경고만 할지, 깊이 분석할지.
- 흔한 오류: 멀쩡한 메일을 과잉 대응하거나, 실제 침해를 가볍게 본다.
-
패치 및 긴급 변경(Emergency Change)
- 인프라, 앱, 보안, 비즈니스가 얽힌 조율 작업.
- 흔한 오류: 잘못된 자산에 패치, 의존성 누락, 롤백 계획 부재.
-
알림 폭주 / Alert Storm, Alert Fatigue 상황
- 수백 개 알림이 한꺼번에 터지는 모니터링 스톰.
- 흔한 오류: 중요한 알림을 묻어버리거나, 소음 알림에 시간을 다 쓴다.
-
침해 의심 시 접근 권한 회수(Access Revocation)
- 얼마나 넓고, 얼마나 빨리 권한을 회수할지 결정해야 한다.
- 흔한 오류: 대응이 너무 느리거나, 비즈니스 핵심 접근을 통째로 깨 버린다.
이런 영역은 종이 런북, 플로우차트, 퀵 레퍼런스 가이드를 두기 좋은 최적의 구역이다.
스트레스 상황에서도 실제로 쓰이는 런북 쓰는 법
정책 문서처럼 쓴 런북은, 스트레스가 걸리는 순간 바로 무시된다. 실제 인시던트에서 쓰이려면 런북은 다음 조건을 만족해야 한다.
- 짧고 간결할 것
- 구체적이고 모호하지 않을 것
- 단계별(step-by-step)일 것
- 한눈에 스캔 가능할 것
구조: 글이 아니라, ‘카드’라고 생각하라
런북은 위키 글이 아니라 지시 카드에 가깝게 써야 한다. 예를 들어 이런 패턴이다:
제목: 피싱 트리아지 – 최초 15분 절차
전제 조건(Preconditions):
- 사용자가 신고했거나, 툴이 탐지한 의심스러운 이메일이 있다.
단계(Steps):
-
커뮤니케이션 안정화
- 다음 대상과 연락이 가능한지 확인한다: 신고자, 메일 관리자, IR(Incident Response) 리드.
-
초기 분류 (5분 이내)
- 발신 도메인이 허용/차단 리스트에 있는지 확인한다.
- URL을 사전 설정한 안전 브라우저/분석 도구로 스캔한다.
- 다음과 같은 피싱 전형 징후가 있는지 본다: 과도한 긴급성, 비밀번호 재설정 요청, 결제 정보 변경 요구 등.
-
의사결정 분기(Decision Branch)
- 피싱 가능성이 높음 → 섹션 B(격리/차단)로 이동.
- 애매함 → 섹션 C(심화 분석)로 이동.
- 정상으로 판단 → 기록 후 종료.
짧은 문장, 동사로 시작하는 문장, 한 줄에 하나의 결정을 원칙으로 한다.
언어 사용 규칙
- **“X를 하라”**라고 쓰지, **“필요에 따라 X를 고려한다”**라고 쓰지 않는다.
- 팀 전원이 매일 쓰는 용어가 아니라면, 불필요한 전문 용어는 줄인다.
- 시간 기대치를 명시한다: *"10분 이내", "30분마다"*처럼.
- 역할과 소유권을 명시한다: *"인시던트 커맨더가 … 한다", "커뮤니케이션 리드가 … 한다"*처럼.
피곤하고, 중간중간 방해받고, 불안한 상태에서도 따라갈 수 없다면, 그 런북은 너무 복잡한 것이다.
시각화로 미로를 그리기: 다이어그램과 플로우차트
텍스트는 선형적이다. 인시던트는 그렇지 않다.
플로우차트, 스윔레인(swimlane), 에스컬레이션 트리 같은 시각화 요소는 다음 이유로 강력하다.
- 분기 로직이 한눈에 보인다.
- 누가 언제 무엇을 하는지 명확해진다.
- 어디서 에스컬레이션이 일어나고, 어디서 팀 간 핸드오프가 발생하는지 드러난다.
무엇을 시각화할 것인가
-
에스컬레이션 경로(Escalation Path)
- 심각도 레벨별로 누구에게 알릴지.
- 언제 법무, PR, 임원, 외부 파트너를 끌어들일지.
-
의사결정 트리(Decision Tree)
- 예: "이건 단일 계정 침해인가, 더 넓은 침해의 징후인가?"
- 예/아니오(Yes/No) 분기로 논쟁을 줄인다.
-
스윔레인 플로우(Swimlane Flow)
- 가로 레인에 보안(Security), 인프라(Infra), 애플리케이션(App), 커뮤니케이션(Comms)을 나란히 둔다.
- 각자 하는 행동과 정보 흐름을 화살표로 연결한다.
종이에 잘 보이게 그리는 팁
- 굵은 마커와 큰 종이를 사용해 멀리서도 읽히게 한다.
- 각 의사결정 포인트에서 분기 수는 2–3개로 제한한다.
- 단순한 도형 체계를 쓴다:
- 다이아몬드: 결정(Decision)
- 사각형: 행동(Action)
- 원: 시작/종료(Start/End)
만족스럽게 다듬었다면, A3 / 11×17 크기로 크게 출력해서 인시던트 룸에 붙여 둔다.
‘디시전 뮤럴(Decision Mural)’: 함께 만드는 종이 기반 워크플로
좋은 워크플로는 책상 앞에서만 설계되는 게 아니다. 실제로 같이 그려 보고, 같이 연습하면서 다듬어야 한다. 이때 종이 기반 협업 활동이 빛을 발한다.
디시전 뮤럴 워크숍 운영 방법
-
시나리오를 하나 고른다
- 예: 대규모 웹 장애, 랜섬웨어 탐지, 대량 피싱 캠페인 등.
-
크로스펑셔널 팀을 모은다
- 보안, 운영(Ops), 앱 오너, 고객지원, 커뮤니케이션/비즈니스 담당자까지 포함한다.
-
벽 한 면을 종이로 덮는다
- 갈색 롤 페이퍼, 화이트보드, 플립차트 여러 장을 테이프로 이어 붙여도 좋다.
-
함께 워크플로를 맵으로 그린다
- 시작점은 이렇게 잡는다: "사용자가 문제를 신고한다" 혹은 "알림이 발생한다".
- 계속 묻는다: "그다음에 무슨 일이 일어나지?" 그리고 각 단계를 포스트잇에 적는다.
- 화살표를 그리고, 결정 다이아몬드를 넣고, 각 단계에 담당자를 써 넣는다.
-
고통 지점을 찾는다
- 어디에서 결정이 막히는가?
- 어디에서 정보가 부족하거나, 중복되는가?
- 어느 지점에서 팀들이 서로를 기다리기만 하는가?
-
정리된 하나의 뮤럴로 수렴한다
- 워크숍 후 이걸 깔끔하게 다시 그린다.
- 실제 이 과정을 사용할 팀들과 함께 검증한다.
-
뮤럴 → 런북 + 다이어그램으로 변환한다
- 핵심을 체크리스트와 플로우차트로 축약한다.
- 출력해서 코팅하고, 인시던트 룸에 비치한다.
뮤럴을 만드는 과정 자체가 아티팩트만큼 중요하다. 실제 장애가 터지기 전에, 서로 다른 기대치와 문서화되지 않은 의존성을 드러내 주기 때문이다.
가장 중요한 순간, 인지 부하를 줄이는 법
대형 인시던트에서 팀은 동시에 다음을 떠안고 있다.
- 불완전한 정보
- 시간 압박
- 이해관계자들의 기대
- 기술적 불확실성
종이 기반 워크플로는 다음과 같은 방식으로 도움을 준다.
- 기억을 외부화(Externalizing Memory): 개인 머릿속에만 있던 단계들을 종이로 꺼내, 누구나 볼 수 있게 만든다.
- 행동을 정규화(Normalizing Actions): 서비스 중단, 권한 회수, 규제기관 통지 같은 ‘무거운 결정’을 즉흥 대응이 아닌, 미리 정의된 경로의 일부로 만든다.
- 합의를 빠르게 만든다(Speeding Consensus): 매번 0에서 토론을 시작하는 대신, 런북을 기본값(default)으로 삼아 논의를 압축한다.
- 일관성을 높인다(Improving Consistency): 팀이 바뀌거나, 교대 근무가 바뀌어도, 구조화된 같은 방식으로 대응하게 한다.
결과적으로, 매분이 아쉬운 순간에 더 빠르고, 더 신뢰할 수 있는 의사결정을 하게 된다.
모두 합쳐서 적용하기
종이 기반 의사결정 경로를 인시던트 대응에 도입하려면, 거창하게 시작할 필요 없다. 이렇게 작게 시작해 보자.
- 시나리오 하나를 고른다: 예를 들어 피싱 트리아지 또는 P1(최고 심각도) 장애 트리아지.
- 실제 담당자들과 짧은 디시전 뮤럴 세션을 연다.
- 뮤럴을 다음 두 가지로 변환한다:
- 한 페이지짜리, 불릿 기반 런북
- 분기 로직을 담은 간단한 플로우차트
- 출력해서 인시던트 룸이나 온콜 데스크 근처에 비치한다.
- 다음 모의훈련(Game Day)이나 연습 때 직접 사용해 보고, 그 결과를 바탕으로 개선한다.
이 과정을 반복하다 보면, 가장 고통스러운 인시던트 패턴들을 커버하는, 로우테크 가이드 라이브러리가 자연스럽게 쌓인다.
결론: 디지털 위기 속에서, 종이를 과소평가하지 말자
하이테크 인시던트에는 하이테크 솔루션을 쓰고 싶어진다. 하지만 대응이 실패하는 이유는, 복잡한 결정의 미로를 인간에게 지도 없이 탐색하라고 떠맡긴 탓인 경우가 많다.
로우테크, 종이 기반 런북·다이어그램·디시전 뮤럴은 그 지도를 팀에게 건네준다.
이 도구들은:
- 장애와 툴 실패 속에서도 살아남고,
- 혼란 속에서 방향을 제시하며,
- 인지 부하와 불필요한 논쟁을 줄이고,
- 스트레스와 긴장이 극심한 상황을 안내된, 반복 가능한 워크플로로 바꿔 준다.
인시던트 대응을 더 좋게 만드는 데, 새로운 플랫폼이 반드시 필요한 건 아니다. 필요한 건 더 명확한 경로다.
당신 스택에서 가장 탄탄한 시스템은, 벽에 테이프로 붙어 있는 종이 한 장일 수 있다. 다른 모든 것이 암흑으로 꺼졌을 때를 대비해, 조용히 그 자리를 지키고 있는.