아날로그 장애 스토리 리버 캐비닛: 인시던트가 실제로 흘러가는 ‘종이 물길’을 손으로 그려 보기
손으로 그리는 ‘종이 물길’과 시스템 사고를 통해 SIEM 대시보드가 놓치는 숨은 장애 경로를 드러내고, 장애를 혼란스러운 폭풍이 아닌 탐색 가능한 강줄기 시스템으로 바꾸는 방법.
아날로그 장애 스토리 리버 캐비닛: 인시던트가 실제로 흘러가는 ‘종이 물길’을 손으로 그려 보기
현대 보안 관제 센터(SOC)는 데이터의 홍수 속에 있습니다. SIEM(Security Information and Event Management) 플랫폼은 방화벽, 엔드포인트, 클라우드 서비스, ID 공급자 등 모든 곳에서 로그를 수집하고, 실시간 모니터링과 더 빠른 인시던트 대응을 약속합니다. 그런데도 대형 장애나 보안 인시던트 한가운데 서면 여전히 계기판 없이 나는 느낌이 들 때가 많습니다.
왜 그럴까요? 로그 이벤트를 본다는 것과 장애가 실제로 시스템 안에서 어떻게 흘러가는지를 본다는 것은 전혀 다른 일이기 때문입니다.
여기서 의외의 동맹이 등장합니다. 바로 종이입니다.
이 글에서는 손으로 그리는 ‘종이 물길(paper currents)’—하천, 해류, 개념 지도를 모티브로 한 아날로그 지도—이 어떻게 팀이 연쇄 장애와 시스템 리스크를 더 선명하게 보도록 도와주는지 살펴봅니다. 복잡계 교육(예: STELLA 모델, 온·염 순환(thermohaline circulation))에서 나온 아이디어를 보안 실무에 연결하고, 아날로그 매핑과 SIEM 데이터를 섞어 쓸 때 대시보드만으로는 보이지 않던 패턴이 어떻게 드러나는지 이야기해 보겠습니다.
문제: 방향을 잃은 대시보드
SIEM 시스템은 강력한 도구입니다.
- 다양한 소스에서 로그 데이터를 집계하고
- 상관 규칙, 알림, 대시보드를 제공하며
- 실시간 모니터링과 더 빠른 대응을 가능하게 합니다.
하지만 복잡한 장애—ID → 네트워크 → 애플리케이션 계층으로 점프하는 장애—가 터지면, 팀은 종종 다음과 같은 상황에 부딪힙니다.
- 알림 폭주인데도 전체 이야기가 보이지 않음
- 원인 인과관계의 혼란 (대체 뭐가 먼저 망가졌지?)
- 아무도 몰랐던 숨은 의존성의 사각지대
화면에는 예를 들어 이런 것들이 보입니다.
- 특정 리전에서 인증 실패 증가
- API 게이트웨이의 레이턴시 급증
- 데이터베이스 커넥션 풀 고갈
이 모든 것은 차트, 테이블, 알람으로 나타납니다. 하지만 이것들이 서로 어떻게 연결되어 있을까요? 이 인시던트는 인프라 안에서 어떤 경로를 따라 이동하고 있을까요? 이것은 단순 로그 문제가 아니라 시스템 문제입니다.
연쇄 장애: 작은 누수가 전체 하천계를 잠기게 할 때
연쇄 장애(cascading failure)가 어떻게 전파되는지 이해하는 것은 시스템 리스크를 다루는 데 핵심입니다.
복잡한 인프라에서는
- 미묘한 DNS 설정 오류 하나가 인증 실패 연쇄로 이어질 수 있고
- 과부하된 메시지 큐 하나가 여러 다운스트림 서비스를 멈춰 세울 수 있으며
- 한 마이크로서비스의 레이트 리밋이 전체 리전의 트래픽을 역류시키기도 합니다.
이것들은 고립된 사건이 아닙니다. 이들은 다음을 따라 움직이는 **“장애의 흐름(flow)”**입니다.
- 의존성 (서비스 A는 B에, B는 C에 의존)
- 공유 자원 (데이터베이스, 캐시, ID 제공자)
- 암묵적 결합 (공유 라이브러리, 공유 컨트롤 플레인, 공유 자격 증명)
네트워크 과학과 복잡계 연구는 우리에게 모든 노드가 동등하지 않다고 말합니다. 어떤 노드는 장애 전파의 핵심 매개자입니다.
- 많은 최단 경로 위에 앉아 있거나
- 서브네트워크 사이의 트래픽을 중개하거나
- “남의 시스템”처럼 보이는 서브시스템들을 조용히 엮고 있거나
이처럼 국소 네트워크 토폴로지(local network topology)—노드가 이웃과 어떻게 연결되어 있고, 그 이웃들끼리는 또 어떻게 연결되어 있는지—에 집중하는 알고리즘은 이런 중요 노드를 찾아내는 데 도움을 줍니다. 이런 노드는 다음과 같이 다뤄야 합니다.
- 고가용성·중복 구성과 하드닝의 최우선 대상
- 강화된 모니터링 대상
- 게임데이와 장애 시뮬레이션의 필수 포함 대상
하지만 이것을 인시던트 대응에 실제로 활용하려면, 팀이 이런 전파 경로를 눈으로 직접 볼 수 있는 방법이 필요합니다. 바로 여기서 시각적이고 아날로그인 표현이 의외로 큰 힘을 발휘합니다.
왜 손으로 그리는 ‘종이 물길’이 효과적인가
디지털 다이어그램은 보통 깔끔하고 정적이며 이상화됩니다. 실제 장애는 그렇지 않습니다. 종이 물길은 그 ‘지저분함’을 그대로 받아들입니다.
커다란 종이를 한 장 펼쳐, 시스템을 박스와 화살표 대신 강과 지류의 네트워크로 그린다고 상상해 봅니다.
- 코어 서비스(ID, DNS, 메시징, DB 등)는 깊은 강줄기로 표시하고
- 다운스트림 애플리케이션은 이들 강에서 갈라져 나가는 작은 지류로 그리고
- 외부 의존성(SaaS, 클라우드 서비스, 결제 게이트웨이 등)은 지도 밖에서 흘러 들어오는 유입수로,
- 제어 수단(레이트 리밋, 서킷 브레이커, WAF, IAM 정책 등)은 수문, 댐, 제방으로 표기합니다.
이제 인시던트가 시작되면, 다음과 같이 진행합니다.
- 첫 번째로 관측된 증상이 나타난 곳을 표시합니다. (예: 모바일 앱에서 로그인 실패 증가)
- 종이 위 강줄기를 따라 상류 방향으로 추적합니다. 이 서비스를 먹여 살리는 건 무엇인가?
- SIEM 데이터에서 상관된 이상 징후가 보이는 모든 컴포넌트를 표시합니다.
- 그 “홍수”가 다른 서비스로 어떻게 하류·측방향으로 퍼져 가는지 시각적으로 확인합니다.
아날로그 매핑의 가치:
- ID 장애가 어떻게 빌링, 고객지원 툴, 관리자 포털까지 전파되는지 같은 보이지 않던 흐름을 가시화합니다.
- 여러 팀원이 지도 앞에 서서 메모를 추가하고 연결 관계를 두고 토론할 수 있으므로 협업을 촉진합니다.
- “이건 아마 X에 의존하는 것 같음” 같은 점선이나 애매한 부분이 그대로 드러나 가정과 미지의 부분을 표면 위에 끌어올립니다.
아날로그 지도는 SIEM을 대체하는 것이 아닙니다. SIEM이 이미 말해 주고 있는 사실에 구조와 서사를 부여하는 도구입니다.
복잡계 교육에서 가져올 수 있는 것들
이 이야기가 과학 수업의 교재 같게 느껴진다면, 의도한 바입니다. 복잡계 교육자들은 오래전부터 학생들에게 흐름, 피드백, 창발 행동을 어떻게 이해시키면 좋을지 고민해 왔습니다.
여기서 차용할 만한 영감 몇 가지를 소개합니다.
STELLA 스타일의 플로우 모델
STELLA 같은 도구는 학습자가 **스톡(stocks)과 플로우(flows)**를 이용해 모델을 만들도록 돕습니다.
- 스톡: 어떤 것의 양 (예: 바다의 열량, 대기 중 CO₂ 양)
- 플로우: 변화율 (예: 배출량, 유입·유출 복사량)
보안과 신뢰성 환경에 대입하면 스톡과 플로우는 다음처럼 보일 수 있습니다.
- 스톡: 인증된 세션 수, 큐에 쌓인 요청 수, 열린 DB 커넥션 수
- 플로우: 초당 로그인 시도 수, 초당 메시지 수, 커넥션 오픈/클로즈 속도
스톡과 플로우로 생각하면 팀은 이런 질문을 하게 됩니다. 이번 인시던트는 어디에 “쌓이고” 있고, 어디는 그냥 “지나가기만” 하는가?
온·염 순환과 보이지 않는 컨베이어 벨트
온·염 순환(thermohaline circulation)은 지구를 도는 거대한 해양 “컨베이어 벨트”로, 표면에서는 거의 보이지 않는 느리고 깊은 해류가 열을 이동시키는 현상입니다.
당신의 인프라에도 이와 비슷한 **깊은 흐름(deep currents)**이 있습니다.
- 백그라운드 동기화 작업
- 복제(리플리케이션) 스트림
- 컨트롤 플레인과 설정 전파 경로
장애는 겉으로는 “표면” 서비스(웹 API)에서 먼저 보이지만, 실제로는 깊은 흐름(특정 리전에서 멈춘 컨트롤 플레인 설정 전파 등)에서 시작된 것일 수 있습니다. 이것들을 종이 지도 위에 “수면 아래 깊은 강”으로 그려두면 팀은 자연스럽게 이런 질문을 합니다. 어떤 보이지 않는 심층 흐름이 이 장애를 실어 나르고 있을까?
에너지 밸런스 모델과 트레이드오프
단순한 에너지 밸런스 모델은 작은 변화(예: 반사율 변화)가 전체 기후를 어떻게 뒤흔들 수 있는지를 보여 줍니다.
마찬가지로, 아주 사소해 보이는 튜닝 변경도—
- 타임아웃 값
- 재시도 정책
- 레이트 리밋 설정
—인시던트 동안 시스템 전체의 거동을 극적으로 바꿀 수 있습니다. 종이 물길 지도에서 이런 요소들은 **밸브와 방수로(스필웨이)**로 표현되며, 팀은 이렇게 고민할 수 있습니다. 어디에서 압력을 빼줄 수 있고, 어디에서는 단지 문제를 하류로 떠넘기고 있을 뿐인가?
개념 지도: 보안 팀에 시스템 사고를 심는 도구
종이 물길이 “지리”라면, **개념 지도(concept map)**는 “문법”입니다.
개념 매핑은 단순하지만 강력한 기법입니다.
- “ID 공급자”, “API 게이트웨이”, “레이트 리밋 정책” 같은 주요 개념을 노드로 적고
- 노드 사이를 “~에 의존함”, “~에 의해 제한됨(throttled by)”, “~로 로그를 보냄(logs to)”, “~로 보호됨(secured by)” 같은 레이블이 붙은 화살표로 연결합니다.
개념 지도는 보안 맥락에서 시스템 사고를 도입하기에 이상적입니다. 이유는 다음과 같습니다.
- 단순한 컴포넌트 나열이 아니라 관계를 분명히 드러내야 하고
- “WAF는 인젝션 공격을 완화한다”, “MFA는 크리덴셜 스터핑 성공률을 낮춘다”처럼 제어 수단을 1급 시민으로 다루게 만들며
- 설계 리뷰나 인시던트 후 분석(Post-Incident Review) 과정에서 협업 매핑을 지원합니다.
이제 이것을 종이 강 지도와 결합합니다.
- 강 지도는 요청, 자격 증명, 메시지, 장애가 **어디로 흐르는지(Where)**를 보여 주고
- 개념 지도 레이블은 신뢰, 통제, 의존, 중개 같은 관계를 통해 어떻게, 왜(How/Why) 연결되는지를 설명합니다.
시간이 지나면 벽 가득 붙은 종이들이 하나의 **장애 스토리 리버 캐비닛(Outage Story Cabinet of Rivers)**이 됩니다. 과거 인시던트가 시스템을 어떻게 흘러 지나갔는지, 그리고 그 흐름에 제어 수단이 어떤 영향을 미쳤는지 담아낸 살아 있는 아카이브입니다.
아날로그 지도와 디지털 SIEM 데이터를 섞어 쓰기
가장 강력한 접근법은 하이브리드입니다. 구조와 서사는 아날로그로, 세부와 정밀도는 디지털로 담당합니다.
실제로 쓸 수 있는 워크플로는 다음과 같습니다.
-
인시던트 발생 전
- 개념 지도와 강 메타포를 활용해 의존성 워크숍을 엽니다.
- 여러 흐름을 매개하는 핵심 노드를 식별합니다.
- 이 중요 노드를 SIEM과 모니터링 시스템에서 태깅해 둡니다.
-
인시던트 중
- 벽이나 화이트보드에 붙어 있는 종이 지도부터 꺼냅니다.
- 가장 먼저 실패한 서비스를 형광펜 등으로 눈에 띄게 표시합니다.
- SIEM에서 상류·하류 서비스를 조회하고, 확인되는 대로 지도에 표시해 나갑니다.
- 지도 위에 시간과 증거를 메모합니다. (예: “12:03 – auth 실패 급증”, “12:05 – 큐 지연 5분 초과”)
-
인시던트 이후
- 최종적으로 주석이 잔뜩 달린 지도를 하나의 **사례(case study)**로 정리해 장애 스토리 리버 캐비닛에 보관합니다.
- 어떤 핵심 노드가 관여했는지, 기존 제어 수단이 제대로 작동했는지 리뷰합니다.
- 인사이트를 다음에 반영합니다.
- SIEM 상관 규칙
- 런북과 플레이북
- 아키텍처 결정과 중복·복원력 설계
그러다 보면 패턴이 보이기 시작합니다.
- 매번 같은 두세 개의 강이 초기 장애 매개자로 반복 등장합니다.
- 특정 제어 수단(예: 과 aggressive 한 재시도 정책)이 국지적 이슈를 시스템 전체 문제로 키우는 역할을 자주 합니다.
- 특정 대시보드는 인시던트 타임라인에서 항상 너무 늦게 참고되고 있음을 발견합니다.
이런 통찰은 로그 라인 바다 한가운데서는 잘 보이지 않습니다. 하지만 종이 위에서 손가락으로 인시던트의 이동 경로를 그대로 따라가 볼 수 있을 때 훨씬 쉽게 이해됩니다.
결론: 프로덕션을 잠그기 전에, 먼저 종이 위에서 흐르게 하라
SIEM 시스템은 현대 보안과 운영에서 없어서는 안 될 존재입니다. 하지만 그것만으로는 이야기가 절반에 불과합니다. 진짜 시스템 리스크를 다루려면, 팀은 인시던트가 어디에서 표면화되는지만이 아니라, 인프라 안을 어떻게 이동하는지를 이해해야 합니다.
다음과 같은 시도를 통해:
- 복잡계 교육 도구(스톡·플로우, 숨은 심층 흐름, 에너지 밸런스)를 차용하고
- 개념 지도로 관계와 제어 수단을 드러내며
- 트래픽, 신뢰, 장애의 흐름을 나타내는 종이 물길과 강을 그리고
- 이 모든 것을 풍부한 SIEM 데이터와 통합한다면,
각 장애는 더 이상 혼돈의 로그 분류전이 아니라, 팀 모두가 보고 배우며 공유할 수 있는 **“흐름의 서사”**로 바뀝니다.
시간이 흐를수록, 당신의 아날로그 장애 스토리 리버 캐비닛은 단지 기묘한 아트워크를 넘어섭니다. 그것은 시스템 행동에 대한 집단적 기억이 되고, 앞으로 인시던트가 어디로 흘러갈지, 그리고 보호·중복·모니터링에 어떤 투자를 해야 가장 큰 효과를 낼지 알려 주는 안내서가 됩니다.
여전히 인시던트가 여기저기 대시보드에 흩어져 나타나는 폭풍처럼 느껴진다면, 이제 펜을 들고, 종이를 펼쳐, 장애가 실제로 따라가는 강줄기를 그려 볼 때일지 모릅니다.