Rain Lag

종이만으로 만드는 회복탄력성 스튜디오: 하이테크 장애의 밤을 위한 로우테크 리허설 설계하기

종이 기반 테이블탑 연습이 어떻게 조직이 겪을 수 있는 복잡하고 고위험 장애 상황을, 저기술·저스트레스 방식으로 리허설하게 만들어 실제 회복탄력성을 높이는지 소개합니다.

서론: 모든 것이 한꺼번에 멈추는 그 밤을 위한 리허설

대부분의 조직은 이제 복잡하게 얽힌 기술, 자동화, 외부 서비스에 의존합니다. 산업제어시스템(ICS)에 대한 사이버 공격, 클라우드 장애, 안전 시스템의 설정 오류 등 무엇이든 한 번 실패하면 그 영향은 빠르고, 지저분하며, 냉혹하게 다가옵니다.

그런데 많은 “준비도 점검”은 대개 다음 둘 중 하나에 그칩니다.

  • 너무 가볍거나: 체크리스트, 정책 검토, 이론적인 리스크 매트릭스 수준이거나
  • 너무 좁거나: 하나의 통제 수단만 검증하고 “성공”을 선언하는 각본형 테스트

이 둘 중 어느 것도 리더들을 밤에 잠 못 자게 만드는, 복잡하고 불확실한 장애 상황에 팀을 제대로 대비시키지 못합니다.

여기서 등장하는 것이 바로 종이만으로 진행하는 회복탄력성 스튜디오입니다. 시나리오, 출력물, 화이트보드, 그리고 진행자의 질문만으로 하이테크 장애의 밤을 로우테크 방식으로 리허설하는 테이블탑 연습이죠. 제대로 설계하면 이런 세션은:

  • 스트레스와 비용은 낮지만
  • 방어, 의사결정, 협업의 실제 빈틈을 드러내는 데서는 충실도(현실감)가 매우 높습니다.

이 글에서는 종이 기반 테이블탑 연습이 무엇인지, 특히 복잡한 문제에 왜 효과적인지, 그리고 실제 조직의 회복탄력성을 높이기 위해 1–2개월 동안 어떻게 설계해야 하는지를 설명합니다.


종이만으로 진행하는 회복탄력성 스튜디오는 무엇인가?

종이만으로 진행하는 회복탄력성 스튜디오란 참가자들이 다음과 같은 자료를 활용해 장애 시나리오를 단계별로 따라가는 구조화된 테이블탑(논의형) 연습을 말합니다.

  • 출력 또는 화면 공유된 스크립트(타임라인, 이벤트, 인젝트)
  • 기존 사고 대응 계획과 안전 절차 문서
  • 현재 네트워크 다이어그램과 보안 통제 현황
  • 라이브 시스템이 아닌, 진행자가 이끄는 토론

여기에는 다음과 같은 요소가 없습니다.

  • 실제 운영(Production) 시스템을 건드리거나
  • 레드팀이 실제 공격을 수행하거나
  • 위험한 설정 변경을 하는 일

모든 활동은 다음 환경에서 이뤄집니다.

  • 회의실 또는 화상 회의
  • 화이트보드, 플립차트, 메모지를 중심으로
  • 진행자가 “평범한 하루”에서 “심각한 사고 상황”까지 여정을 이끌어 가는 방식으로

겉으로 보기엔 단순하지만, 이 연습은 다음에 기반을 두고 있기 때문에 매우 현실적입니다.

  • 실제 엔지니어링·운영 지식
  • 현재 운영 중인 ICS 및 IT 아키텍처
  • 기존의 사고 대응 및 안전 플레이북

결과물은 합격/불합격 점수가 아닙니다. 문서 속 계획과 실제 운영 현실을 나란히 놓았을 때, 진짜로 어떤 일이 일어나는지에 대한 통찰입니다.


왜 로우테크가 하이테크 장애에 통하는가

종이 기반 테이블탑 세션은 처음에는 너무 단순하게 느껴질 수 있습니다. 그러나 바로 그 단순함 때문에, 특히 복잡하고 불확실한 문제에 대해 매우 강력한 도구가 됩니다.

1. 정답이 뚜렷하지 않은 문제에 이상적

특히 산업 환경과 ICS에서 발생하는 많은 고영향 사고는 깔끔한 체크리스트로 해결되지 않습니다. 예를 들면 다음과 같습니다.

  • 공장 일부에만 영향을 주는 랜섬웨어 감염
  • 안전 시스템을 애매한 상태로 만들어 버린 설정 오류
  • 원인이 불분명한, 사이트 간 전력 또는 네트워크 장애

과하게 각본화된 전통적인 기술 테스트는, 통제 수단이 이상적인 조건에서 “작동한다”는 것만 확인해 허위의 준비 상태를 심어줄 수 있습니다. 반면 종이 기반 연습은 다음을 탐색합니다.

  • 모호한 징후와 신호
  • 안전 vs. 가용성 vs. 기밀성 사이의 상충된 우선순위
  • 정보가 부분적이고, 상황이 계속 변하는 현실

실제 사고는 바로 이 공간에서 일어나며, 진짜 회복탄력성도 이 공간에서 만들어집니다.

2. 저스트레스, 저비용, 고학습 효과

운영 시스템을 건드리지 않기 때문에:

  • 테스트 자체로 인한 업무 중단 위험이 없고
  • 준비 비용이 적게 들며(대부분 시간이 필요할 뿐, 특별한 도구는 거의 없음)
  • 참가자 입장에서는 심리적 부담이 상대적으로 낮습니다.

이런 환경은 다음을 자연스럽게 만들어 줍니다.

  • 압박 속에서 실제로 어떻게 행동하는지에 대한 솔직한 논의
  • “누가 승인하는지 잘 모르겠다…” 같은 불확실성과 빈틈에 대한 인정
  • “이 단계에서 당신 팀은 뭘 하나요?” 같은 팀 간 호기심과 이해 증진

3. 풀 시뮬레이션 없이도 현실적인 연습 가능

종이 기반 연습은 다음에 의해 안내됩니다.

  • 기존 사고 대응 계획
  • 실제 네트워크/공정 다이어그램
  • 사용 중인 보안 통제와 모니터링 도구

참가자들은 “지금 이 시점의 우리 인력과 통제 수단으로라면, 실제로 어떻게 대응할까?”를 단계별로 따라가며 답합니다. 이 과정에서 이론과 실제가 어긋나는 지점이 자연스럽게 드러납니다.

  • 계획에는 있지만, 실제로는 도입되지 않은 도구를 전제로 작성된 문서
  • 더 이상 존재하지 않는 팀을 전제로 한 절차
  • 문서 상에는 있는 수동(Manual) 우회 절차가, 현실에서는 검증되지 않았거나 물리적으로 불가능한 경우

초점은 기술 그 자체의 성능이 아니라, 그 기술을 둘러싼 사람과 조직의 성능입니다.


테이블탑 세션이 준비 상태를 검증(또는 도전)하는 방식

각 테이블탑 세션을 조직의 보안·안전 태세를 점검하는 **현실 검증(Reality Check)**으로 보면 이해가 쉽습니다.

계획된 방어와 실제 통제 수단의 비교

연습 도중 진행자는 주기적으로 다음과 같은 질문을 던집니다.

  • 지금 이 순간, 무엇을 하시겠습니까?
  • 어떤 도구나 데이터를 사용하시겠습니까?
  • 누구에게 연락하고, 누가 책임자입니까?

참가자들은 현재 보유한 다음 자료를 기준으로 답합니다.

  • 문서화된 사고 대응 계획
  • 실제 동작 중인 보안 통제(로그 수집, 탐지, 격리, 백업 등)
  • 안전 절차와 운전 매뉴얼

이때 다음과 같은 빈틈이 드러납니다.

  • 플레이북에는 *“영향받은 X 구간을 격리한다”*고 되어 있으나, 현재 네트워크 구조에서 어떻게 격리해야 하는지 아무도 모르는 경우
  • 사고 대응 계획에 포렌식 이미지 획득이 포함되어 있지만, 중요 공정을 멈추지 않고는 이를 할 수 있는 실질적인 방법이 없는 플랜트
  • 1년 넘게 업데이트되지 않은 온콜(On-call) 리스트를 전제로 한 커뮤니케이션 플랜

연습은 결국 문서 속 계획과 실제 운영 현실이 만나는 교차점에 대한 라이브 감사가 됩니다.

계획과 통제 수단의 숨은 약점 드러내기

잘 설계된 시나리오는 다음과 같은 약점을 비춰 줍니다.

  • 사고 대응의 빈틈: 누가 무엇을 언제 하는지 불명확한 역할, 누락된 단계, 에스컬레이션 기준 부재
  • 보안 통제의 빈틈: 로그 블라인드 스팟, 부실한 세분화(Segmentation), 모니터링되지 않는 외부 연결
  • 안전 플레이북의 빈틈: 안전과 가용성이 충돌할 때 최종 의사결정 권한이 누구에게 있는지 불명확

이런 발견 사항은 곧바로 실행 가능한 개선 작업으로 이어집니다.

  • 사고 대응 계획을 업데이트하고 단순화
  • 모니터링·탐지 우선순위 조정
  • 어떤 유형의 장애에서는 더 긴 다운타임을 감수하더라도 안전을 우선해야 하는지 기준 명확화

즉, 테이블탑 연습은 조직의 지속적인 개선 루프를 구성하는 핵심 요소가 됩니다.


교육 효과: 역량과 공동 이해 구축

종이 기반 연습은 단순한 점검 도구가 아니라, 동시에 교육 세션이기도 합니다.

신규 인력 교육과 베테랑 리프레시

신규 인력에게 테이블탑 연습은 다음을 이해시키는 데 큰 도움이 됩니다.

  • 핵심 산업 공정이 실제로 어떻게 돌아가는지
  • 레거시 시스템, 안전 제약, 벤더 의존성 등 ICS 특유의 보안 현실
  • 사고가 OT와 IT 전반에서 단계별로 어떻게 전개되는지

경험 많은 인력에게는 다음과 같은 가치를 제공합니다.

  • 사고 시 역할과 책임에 대한 근육 기억(머슬 메모리) 강화
  • 시스템 변화에 따라 프로세스가 어떻게 달라졌는지 재점검
  • 기존의 가정을 도전하고, 머릿속 모델(Mental Model)을 업데이트할 수 있는 장

팀 간 역할과 책임을 명료하게

대부분의 장애는 운영(Operations), ICS 엔지니어, IT 보안, 안전, 법무, 커뮤니케이션, 규제기관, 때로는 외부 공공기관까지 여러 팀과 이해관계자에 걸쳐 발생합니다.

테이블탑 연습은 다음을 분명하게 보여 줍니다.

  • **핸드오프(업무 인계)**가 언제, 어떻게 일어나는지(“이 시점에서 리드는 OT인가, IT인가, 안전팀인가?”)
  • 역할 혼선이 있는 부분(“벤더에 직접 연락하나요, 아니면 중앙 조달팀을 통해야 하나요?”)
  • 공동 의사결정이 필요한 지점(“안전 승인 전에는 복구를 시작할 수 없다.”)

이런 반복적인 공동 리허설을 통해, 조직 전반에 **공통의 사고 언어(Incident Language)**가 쌓여 갑니다.


위기 이전에 관계를 쌓는 시간

테이블탑은 도구 중심이 아니라 대화 중심으로 진행되기 때문에 자연스럽게 다음을 촉진합니다.

  • 커뮤니케이션: 각자가 하는 일과 그 이유를 서로 설명
  • 조정과 협력: 어떤 시점에, 어떤 방식으로 함께 일해야 하는지 체감
  • 신뢰 형성: 서로의 제약과 우선순위를 이해

규제기관, 긴급구조 기관, 국가 CERT, 핵심 공급업체 등 다수 기관과 외부 이해관계자가 얽혀 있는 경우에는 이 점이 특히 중요합니다.

실제 사고가 터지기 전에 이런 종이 기반 세션을 돌려 두면, 위기 상황에서 다음과 같은 차이가 납니다.

  • 이름에 얼굴이 붙어 있고
  • 연락 채널을 이미 시험해 봤으며
  • 기대치와 역할에 대한 인식이 더 분명합니다.

위기 한가운데서 관계를 쌓느라 시간을 허비하지 않게 됩니다.


1–2개월에 걸쳐 효과적인 연습 설계하기

쓸 만한 테이블탑을 만드는 작업은 단순한 회의 초대가 아니라 디자인 작업입니다. 1–2개월의 설계 기간을 확보하면 다음을 체계적으로 할 수 있습니다.

1. 핵심 비즈니스·운영 프로세스 명확화

먼저 다음을 정의합니다.

  • 어떤 비즈니스 프로세스 또는 물리적 운영이 진짜로 핵심인지
  • 그 프로세스가 어떤 **의존성(ICS, IT, 벤더, 물류 등)**에 기대고 있는지
  • 허용 가능한 다운타임과 리스크 한계는 어디까지인지

시나리오는 주변부 시스템이 아니라, 이 핵심 프로세스를 실제로 압박하는 방향으로 설계해야 합니다.

2. 시나리오보다 먼저, 학습 목표 정의하기

스크립트를 쓰기 전에, 연습을 통해 무엇을 알고 싶은지부터 정해야 합니다. 예를 들면:

  • 사고 단계별로 누가 책임자인지 모두 알고 있는가?
  • 저하된(Degraded) 상태에서 24시간 안전하게 운영할 수 있는가?
  • 커뮤니케이션과 보고 라인은 명확하고, 지연 없이 작동하는가?

이러한 목표가 시나리오의 전개와, 진행자가 던질 질문을 결정합니다.

3. 현실적이고 층위가 있는 시나리오 만들기

1–2개의 시나리오를 설계할 때는 다음을 반영합니다.

  • 실제 위협과 최근 업계 사고 사례
  • 불확실성과 불완전한 정보를 포함할 것
  • (탐지 → 분류/초기 대응 → 격리/확산 방지 → 복구 → 사후 분석)과 같은 단계적 전개

중간중간 **인젝트(Inject)**를 추가합니다.

  • 다른 지역에서 유사 공격이 발생했다는 새 인텔리전스
  • 규제기관의 요구 vs. 생산 목표 사이의 상충되는 제약 조건
  • 백업이 사용 불가하거나 손상된 상황 같은 추가 실패

4. 아티팩트, 역할, 기본 규칙 준비

준비 단계에서 다음을 갖춥니다.

  • 네트워크·공정 다이어그램, 연락처 리스트, 핵심 절차 등 아티팩트 수집
  • 참가자별 역할 정의(Incident Lead, OT Lead, IT Lead, Safety Officer, Communications 등)
  • 다음과 같은 Ground Rule(기본 규칙) 설정:
    • 이 연습은 성과 평가가 아니라 학습을 위한 것이다.
    • 완벽함보다 솔직함을 우선한다.
    • 모르면 모른다고 말하는 것이, 중요한 인풋이다.

5. 결과를 기록하고 실제 변화로 연결하기

처음부터 결과 활용을 염두에 두고 연습을 설계합니다.

  • 서기(Scribe) 또는 옵저버를 지정해 결정 사항, 질문, 발견된 빈틈을 기록
  • 발견 사항을 사람(조직·역할), 프로세스, 기술, 거버넌스 카테고리로 정리
  • 후속 조치에 대해 우선순위, 책임자(Owner), 타임라인을 부여

이 과정을 통해 연습 결과가 포스트잇 뭉치로 사라지는 게 아니라, 구체적인 회복탄력성 로드맵으로 이어지게 됩니다.


결론: 하이임팩트의 밤을 위한 로우테크 연습

고도화된 공격과 복잡한 자동화가 일상이 된 지금, 준비도를 높이려면 고가의 하이테크 시뮬레이션만이 답이라고 느끼기 쉽습니다. 그러나 가장 가치 있는 회복탄력성 강화 작업 중 상당수는, 단순한 방 안에서, 단순한 도구를 가지고, 종이 위에서 어려운 문제를 함께 풀어 가는 과정에서 일어납니다.

종이 기반 회복탄력성 스튜디오는 다음을 가능하게 합니다.

  • 문서에 적힌 계획과 실제 현실 사이의 갭을 드러내고
  • 신규·경력자 모두에게 훈련과 리프레시 기회를 제공하며
  • 팀 간 역할과 기대치를 명확히 하고
  • 다음 대형 사고 전에 관계와 신뢰를 쌓게 해 주며
  • 대시보드로는 보기 어려운 핵심 프로세스와 허용 가능한 리스크를 눈에 보이게 만듭니다.

이 연습은 로우테크이고, 스트레스가 낮으며, 비용도 크지 않습니다. 그럼에도 기술이 한밤중에 무너졌을 때, 조직이 대응하는 방식을 근본적으로 바꾸어 놓을 수 있습니다.

아직 이런 방식을 시도해 보지 않았다면, 종이 기반 회복탄력성 스튜디오를 정기적인 운영 리듬 속에 포함하는 것을 고려해 보십시오. 다음 사고 자체는 피하기 어려울 수 있습니다. 그러나 준비되지 않은 상태로 맞는 것만큼은 피할 수 있습니다.

종이만으로 만드는 회복탄력성 스튜디오: 하이테크 장애의 밤을 위한 로우테크 리허설 설계하기 | Rain Lag