Rain Lag

아날로그 리스크 나침반 월: 종이 바늘로 다음 장애를 미리 보는 방법

시각 맵, 공격 그래프, 크라우드소싱 신호를 활용해, 리스크 프로그램을 장애·보안 사고용 아날로그 ‘날씨 벽’처럼 만드는 방법을 소개합니다.

아날로그 리스크 나침반 월: 종이 바늘로 다음 장애를 미리 보는 방법

잘 꾸려진 네트워크 운영센터(NOC)에 들어가 보면 보통 거대한 스크린 월이 있습니다. 기상 레이더, 트래픽 그래프, 장애 대시보드, 실시간 로그가 가득하죠. 마치 관제센터 같은 느낌입니다.

이제 조금 다른 벽을 떠올려 보세요. 아날로그 리스크 나침반 월(Analog Risk Compass Wall) 입니다. 대시보드와 티켓 큐가 뒤엉킨 화면이 아니라, 날씨 지도에 가까운 형태입니다. 거대한 시각 레이아웃 위에 시스템을 펼쳐 놓고, 종이 바늘과 컬러 핀으로 다음 장애, 데이터 유출, 안전 사고가 어디에서 형성될 가능성이 높은지를 표시하는 벽입니다.

이건 화이트보드와 포스트잇을 그리워하는 얘기가 아닙니다. 리스크를 보는 방식을 재구성하는 이야기입니다. 흩어진 텔레메트리, 취약점, 컴플라이언스 체크를 사람이 압박 속에서도 이해할 수 있는 ‘지도’ 형태로 바꾸려는 시도죠.

이 글에서는 그런 벽을 만들기 위한 핵심 요소들을 살펴봅니다.

  • 민감한 데이터가 어디에 있고, 어떻게 흐르는지 보여주는 시각 맵
  • 보안 통제, 서드파티, GenAI(생성형 AI) 연결 오버레이
  • 공격 그래프와 아키텍처 의존성 그래프
  • 중요한 것에 우선순위를 주는 리스크 스코어링 프레임워크
  • 실제 토폴로지와 공격자 행동에 기반한 시나리오 기반 모델링
  • 물리적 장애 리스크를 위한 OT(Operational Technology, 운영기술) 모델링
  • 사람이 올리는 실시간 크라우드소싱식 ‘날씨 리포트’

1단계: 데이터를 지도 위에 올려라

보이지 않는 폭풍은 예측할 수 없습니다. 첫 단계는 민감한 데이터가 어디에 있고, 시스템을 통해 어떻게 이동하는지 시각적으로 표현하는 것입니다.

데이터를 위한 지하철 노선도라고 생각해 보세요.

  • PII(개인식별정보, Personally Identifiable Information) – 고객 레코드, 임직원 정보, 아이덴티티 속성 등
  • PHI(보호건강정보, Protected Health Information) – 진료 데이터, 의무기록, 검사 결과 등
  • PCI(결제카드정보, Payment Card Information) – 카드 번호, 토큰, 거래 로그 등

각 서비스, 데이터베이스, 큐, 함수(Function)는 지도 위의 노드가 됩니다. 데이터 플로우(API, 메시지 버스, ETL 작업 등)는 이 노드들을 잇는 **엣지(간선)**가 됩니다.

이렇게 되면, 사람들은 실제로 벽 앞에 서서 손가락으로 짚으며 질문에 답할 수 있습니다.

  • “PHI는 어디에서 코어 임상 시스템을 벗어나나요?”
  • “어떤 마이크로서비스가 원본 카드 데이터를 직접 다루나요?”
  • “어떤 경로를 통해 PII가 분석 시스템이나 GenAI 프롬프트로 흘러가나요?”

이 작업은 코드 스캐닝이나 데이터 디스커버리 도구를 대체하는 게 아닙니다. 그보다 이 도구들이 뿜어내는 결과를 **개발자, 보안 엔지니어, SRE, PM이 한눈에 이해할 수 있는 형태로 ‘큐레이션’**하는 일에 가깝습니다.


2단계: 통제를 오버레이하라 — 그리고 빈틈을 드러내라

데이터 맵만으로는 절반뿐입니다. 다음 레이어는 보안과 신뢰성 통제를 노드와 데이터 플로우 위에 겹쳐 올리는 것입니다. 예를 들면:

  • 암호화(Encryption) – 저장/전송 구간, KMS 사용, 키 분리 여부
  • 인증·인가(Authentication & Authorization) – IdP, 토큰 타입, RBAC/ABAC 정책
  • 경계 통제(Boundary Controls) – 방화벽, API 게이트웨이, 프라이빗 링크, 네트워크 세그먼트
  • 서드파티 연동(Third-Party Integrations) – SaaS, 데이터 브로커, 외부 API
  • GenAI 연결(GenAI Connections) – 프롬프트 플로우, 임베딩 파이프라인, 모델 엔드포인트

아날로그 벽에서는 예를 들어 이런 식으로 표현할 수 있습니다.

  • 데이터 민감도별 색상 (예: PHI/PCI는 빨간색, PII는 호박색 등)
  • 암호화, 인증 강도, 모니터링 커버리지를 나타내는 아이콘
  • 서드파티나 GenAI 연결을 표시하는 핀 또는 태그

핵심 가치는 이겁니다. 사람들이 민감한 데이터와 통제 커버리지를 시각적으로 연결해 볼 수 있다는 점입니다.

  • 빨간 노드 + 자물쇠 아이콘 없음? 암호화되지 않은 민감 데이터.
  • 빨간 엣지가 네트워크 경계를 넘어 서드파티로 연결? 고위험 통합 지점.
  • 혼합 데이터가 있는 노드에 GenAI 아이콘? 프롬프트를 통한 데이터 누출 가능성.

이렇게 하면 “모든 PHI는 저장 시 암호화해야 한다”와 같은 추상적인 정책이, 현장에서 눈으로 보고 질문할 수 있는 패턴으로 바뀝니다.


3단계: 공격 그래프와 의존성 그래프를 활용하라

대부분의 장애와 침해는 시작된 곳과 끝나는 곳이 다릅니다. “저위험” 마이크로서비스의 사소한 설정 오류가 의존성을 타고 번지며, 대규모 데이터 노출이나 다운타임으로 이어지기도 합니다.

여기서 **공격 그래프(Attack Graph)**와 **아키텍처 의존성 그래프(Dependency Graph)**가 필요해집니다.

  • 공격 그래프는 공격자가 환경 안에서 어떻게 움직일지 모델링합니다.

    • 초기 발판: 피싱으로 탈취된 계정, 노출된 포트, 잘못 설정된 S3 버킷 등
    • 호스트, 서비스, 아이덴티티에 걸친 취약점과 설정 오류를 연쇄적으로 악용
    • 최종 목표: PII DB, OT 컨트롤러, 결제 시스템 같은 ‘크라운 주얼’에 도달
  • 아키텍처 의존성 그래프는 서비스들이 서로 어떻게 의존하는지 보여줍니다.

    • 상·하위 스트림 마이크로서비스 관계
    • 공유 데이터베이스와 캐시
    • 리전·클라우드 간 의존성

아날로그 리스크 월 위에서 이것들은 **경로와 “폭풍 진로(Storm Track)”**가 됩니다.

  • 하나의 노드가 뚫렸을 때 여러 고민감 노드로 이어지는 경로를 하이라이트
  • 한 서비스 장애가 여러 제품으로 연쇄 전파되는 핵심 서비스 체인을 추적

이 과정은 불편한 진실을 매우 분명히 보여 줍니다. 문제를 처음 감지한 지점은, 실제 피해가 최종적으로 드러나는 지점과 거의 일치하지 않는다는 사실입니다.


4단계: 리스크 스코어링으로 노이즈를 잘라내라

보안, 신뢰성, 컴플라이언스 도구들은 엄청난 양의 알림을 쏟아냅니다. 그중 상당수는 노이즈이고, 많은 것은 저충격 이슈이며, 오늘 당장 중요한 것은 극히 일부입니다.

여기서 리스크 스코어링 프레임워크가 역할을 합니다.

  • 위협 인텔리전스, 취약점 데이터, 악용 가능성, 비즈니스 영향도를 결합해
  • 단순한 이슈 리스트가 아닌, 우선순위가 매겨진 리스크 점수를 생성하고
  • 기술적 발견 사항을 트리아지와 계획에 활용 가능한 인텔리전스로 바꿉니다.

벽 위에서는 리스크 스코어가 등고선과 히트맵처럼 시각화됩니다.

  • 고위험 노드는 더 두꺼운 테두리나 더 강한 색으로 표시
  • 고위험 경로는 더 굵은 선이나 눈에 띄는 라벨로 표현
  • 시간이 지남에 따라 리스크 추세를 ‘전선(front)’이 이동하는 모습처럼 표시

이제 누군가 “이번 분기에 무엇을 먼저 고쳐야 하나요?”라고 물으면, 벽은 그저 모든 걸 나열하는 게 아니라 어디가 가장 뜨겁게 타고 있는지를 보여 줍니다.


5단계: 공격자 관점의 시나리오 기반 리스크 모델링

실제 공격자는 조직도대로 움직이지 않습니다. 실제 토폴로지에서 가장 저항이 약한 경로를 따라갑니다.

시나리오 기반 리스크 모델링은 분석을 다음에 기반해 진행합니다.

  • 실제 네트워크 레이아웃: 세그먼트, 서브넷, VPN, VPC, 크로스 커넥트
  • 실제 아이덴티티·접근 패턴: 서비스 계정, 권한 상승 경로, SSO 구조
  • 공격자의 구체적인 목적: 데이터 탈취, 비즈니스 방해, 랜섬웨어, 안전 사고 등

이걸로 다음과 같은 시나리오를 구성합니다.

  • “랜섬웨어 공격자가 외주업체 VPN 계정을 통해 초기 발판을 얻는다.”
  • “내부자가 합법적인 권한을 악용해 PHI를 개인 클라우드 계정으로 유출한다.”
  • “공격자가 노출된 OT 히스토리언에서 피벗해 안전 핵심 프로세스를 제어한다.”

아날로그 월에서는 이 시나리오를 가상의 폭풍 진로로 추적합니다.

  • 진입 지점을 표시하고
  • 가능성 있는 횡적 이동 경로를 그리며
  • 탐지·차단 ‘초크 포인트’를 표시합니다.

이렇게 하면 벽은 곧 플레이북 빌더로 진화합니다.

  • 어디에 로깅을 추가하면 더 이른 단계에서 움직임을 잡을 수 있는지
  • 어떤 통제가 공격 체인을 가장 효율적으로 끊는지
  • 지금은 가시성이 없지만, 지도 위에 올려보니 명백히 위험한 경로는 어디인지

6단계: OT를 잊지 마라 — 물리 리스크에도 날씨가 있다

여전히 많은 조직은 OT(운영기술)를 뒷전으로 둡니다. IT와 분리되어 있고, 문서화도 잘 안 되어 있으며, 레거시 시스템이 잔뜩인 경우가 많습니다.

하지만 OT 환경은 사이버 리스크가 물리적 결과로 이어지는 지점입니다.

  • 제조 라인이 생산 중에 멈춰 서는 상황
  • 전력 시스템이 오프라인으로 떨어지는 상황
  • 빌딩 관리·안전 시스템이 오동작하는 상황

여기서도 공격 그래프와 의존성 그래프가 핵심입니다.

  • PLC, RTU, HMI, 히스토리언, 게이트웨이를 노드로 매핑하고
  • OT와 IT 간 연결(예: 히스토리언 ↔ 클라우드 분석)을 표시하며
  • 각 OT 노드에 의존하는 물리 프로세스를 함께 표시합니다.

벽 위에서는 OT 노드를 IT와 연결된 별도의 영역에 배치할 수 있습니다. 예를 들어 다음을 강조합니다.

  • 네이티브 보안 기능이 약하거나 없는 레거시 장비
  • 기업망에서 물리 시스템으로 침해가 점프할 수 있는 IT–OT 브리지
  • 단순 다운타임을 넘어 인명·환경 피해로 이어질 수 있는 안전 핵심 경로

이건 중요한 마인드셋 전환을 돕습니다. OT에서 “장애”란 종종 물리 세계의 “사고”를 의미한다는 것입니다.


7단계: 사람에게서 오는 크라우드소싱 ‘날씨 리포트’

자동화 도구는 강력하지만, 사람이 눈으로 보고 느끼는 것까지 모두 잡아내지는 못합니다.

  • “이 API는 부하가 걸리면 이상하게 동작해요.”
  • “서비스 A와 B 사이에 자정 무렵에 자주 타임아웃이 발생합니다.”
  • “특정 리전 고객들이 간헐적인 오류를 보고하는데, 메인 모니터에는 안 찍혀요.”

이런 것들이 바로 사용자 날씨 리포트입니다. 위성 사진(자동화 모니터링)이 잡기 전에, 현지 관측이 먼저 경고를 주는 셈이죠.

아날로그 벽에서는 다음처럼 활용할 수 있습니다.

  • 특정 노드나 경로에 포스트잇/태그로 현장의 관측 내용을 붙이고
  • 반복적으로 보고가 들어오는 구간을 **“워치 존(Watch Zone)”**으로 표시하며
  • 이런 리포트를 텔레메트리, 로그, 리스크 스코어와 상관 분석합니다.

시간이 지나면, 이는 하이브리드 리스크 예보 시스템으로 진화할 수 있습니다.

  • 자동 분석이 잠재 이슈를 포착하고
  • 사람의 리포트가 신호를 확인·보정·반박하며
  • 두 가지 입력이 한데 모이는 공용 컨텍스트가 바로 이 벽이 됩니다.

모두 모았을 때: 벽은 ‘공유 나침반’이 된다

아날로그 리스크 나침반 월의 본질은 **공유된 상황 인식(shared situational awareness)**입니다.

이 벽이 제대로 작동하면, 조직 안에서 이런 역할을 합니다.

  • 계획 도구 – 보안·신뢰성 투자를 어디에 우선 배치할지 정할 때
  • 교육 도구 – 신규 엔지니어가 리스크 지형을 빠르게 이해하도록 도울 때
  • 사고 대응 도구 – 블라스트 레디우스를 추적하고, 두 단계 앞을 내다볼 때
  • 거버넌스 아티팩트 – 리스크가 어디로, 왜 움직이고 있는지 리더십에 보여줄 때

꼭 진짜 종이로 된 벽이 있어야 하는 건 아닙니다. (물론 실제 벽이 있으면 도움이 되는 팀이 많습니다.) 대신 필요한 건 다음과 같습니다.

  • 정확한 데이터, 통제, 의존성 지도
  • 정책 문서가 아니라 현실을 반영하는 공격·리스크 모델
  • 무엇이 가장 중요한지를 부각시키는 리스크 스코어링 프레임워크
  • OT 환경인간 관측을 한데 엮을 수 있는 방법

이걸 해내면, 리스크는 더 이상 도구와 티켓 더미가 아닙니다. 팀이 직접 보고, 손가락으로 짚고, 생산적으로 논쟁할 수 있는 대상이 됩니다. 단순히 또 하나의 대시보드가 아니라, 우리가 어디에 있고, 다음 장애·침해·안전 사고가 어디에서 생겨날지까지 가리키는 나침반이 됩니다.

그리고 모두가 같은 ‘날씨’를 볼 수 있게 되는 순간, 우리는 마침내 폭풍을 향해 그대로 돌진하는 대신, 폭풍을 피해 가는 항로를 설계할 수 있게 됩니다.

아날로그 리스크 나침반 월: 종이 바늘로 다음 장애를 미리 보는 방법 | Rain Lag