Rain Lag

당신의 책상 위 종이 지진계: 다음 대규모 장애 전에 ‘작은 신뢰성 지진’을 감지하는 법

작은 사고와 아슬아슬한 회피 사례(near-miss)를 소음이 아니라 지진계의 미세한 진동처럼 다루면, 조직의 신뢰성을 어떻게 바꾸고 다음 대규모 장애를 예방할 수 있는지 이야기합니다.

당신의 책상 위 종이 지진계

상상해 보세요. 시스템에서 발생하는 모든 사고, 아슬아슬하게 비켜간 사고(near-miss), 그리고 “이상한 작은 글리치(glitch)”들이 당신 책상 위에 놓인 지진계에 아주 미세한 진동으로 찍혀 나온다고.

여기 작은 스파이크 하나: 배포 롤백.

저기 약한 흔들림 하나: 거의 돌아오지 못할 뻔한 데이터베이스 페일오버.

갑작스러운 충격 하나: 엔지니어가 명령어를 잘못 입력했지만, 안전 장치가 막판에 간신히 잡아 준 경우.

대부분의 조직은 이런 것들을 서류 처리 대상으로만 취급합니다. 닫아야 할 티켓, 채워야 할 필드, 맞춰야 할 컴플라이언스 체크리스트 정도로요. 하지만 고신뢰 조직(high-reliability organization)에서는 이런 “종이 위 사고 스토리”가 지진계입니다. 시스템을 뒤흔들 대형 지진이 오기 전에 아주 작은 신뢰성 지진을 감지하는 정밀한 계측기죠.

이 글은 그런 지진계가 깔린 책상을 어떻게 만드는지에 대한 이야기입니다. 작은 신뢰성 신호를 보고, 해석하고, 학습하는 방식을 통해, 다음 대규모 장애가 ‘갑자기’ 찾아오지 않도록 하는 방법 말입니다.


민감도: 작은 진동을 느낄 수는 있습니까?

신뢰성은 단순히 시스템이 “돌아가냐, 마냐”의 문제가 아닙니다. 시스템이 망가지기 시작할 때 조직이 그 징후를 감지할 수 있느냐 없느냐의 문제이기도 합니다.

민감도는 당신의 신뢰성 지진계에 달린 게인(gain) 노브라고 생각해 보세요.

  • 민감도가 높을 때: 작은 이상 징후, near-miss, 이상하지만 곧 회복된 사건들을 배경 소음과 구분해서 볼 수 있습니다.
  • 민감도가 낮을 때: 모든 것이 그냥 소음처럼 보입니다. 조기 경고 신호들이 “원래 그런가 보다” 하는 통상적인 변동 속에 섞여 버리고, “원래 그런 거지”라며 무시됩니다.

민감도가 낮을 때의 위험은 교묘하게 숨어 있습니다.

  • 실제로는 조기 경고 신호가 존재하지만, 보이지 않습니다.
  • 현장 인력은 뭔가 이상하다고 느끼지만, 그것을 드러낼 채널이나 표현 방식이 없어 조직에 전달되지 못합니다.
  • 작은 사고들의 패턴이 구조적 문제를 가리키고 있는데도, 그것들을 이어서 보는 사람이 없습니다.

사고 프로세스가 오로지 “큰 장애”에만 관심을 둔다면, 당신 조직의 민감도는 이미 지나치게 낮을 가능성이 큽니다.


Near-miss: 거의 무시당할 뻔한, 가장 중요한 사고들

항공, 원자력, 기타 고위험 산업에서는 잘 알려진 패턴이 있습니다. near-miss에서 집요하게 배우는 조직일수록, 대형 참사를 덜 겪는다는 것입니다.

near-miss는 이런 사건을 말합니다.

  • 무언가 잘못되었고, 그리고
  • 방어 장치, 백업 시스템, 혹은 사람의 개입 덕분에 외부에 드러나는 피해는 발생하지 않았던 경우

이런 사건들은 금광과 같습니다. 여기에는 다음과 같은 정보가 담겨 있습니다.

  • 당신의 방어선이 실제로 어디에서 어떻게 작동하는지
  • 설계가 아니라 운(運) 때문에 살아남은 부분은 어디인지
  • 실제 운영 조건에서 시스템이 얼마나 가장자리(edge) 가까이에서 돌아가는지

강한 **적응 역량(adaptive capacity)**을 가진 조직은 near-miss를 핵심 학습 기회로 취급합니다. 그들은 이렇게 묻습니다.

  • 이게 진짜 장애로 이어지려면, 무엇이 조금만 더 달랐으면 되었을까?
  • 이번에 우리를 살린 의존성(dependency)은 무엇이고, 그 의존성 자체는 얼마나 신뢰할 수 있는가?
  • 우리는 왜 놀랐는가? 어떤 가정이 깨졌는가?

반대로, 적응 역량이 약한 조직은 정반대로 행동합니다.

  • “문제 없었으니, 없는 거나 마찬가지지.”
  • “시스템도 복구됐고, 사고로 취급할 일은 아니야.”
  • “괜히 일을 키우지 말자. 고객은 아무것도 못 봤으니까.”

한 쪽의 사고방식은 살아 있는 지진계를 만들고, 다른 쪽은 지진이 나서야 비로소 눈을 뜹니다.


라벨의 힘: Near-miss인가, 그냥 작은 사고인가?

겉보기에는 사소해 보이지만, 사건에 어떤 이름을 붙이느냐가 그것을 배울 기회로 만들지, 무시할지 결정합니다.

두 팀이 똑같은 글리치를 겪을 수 있습니다. 한 팀은 이렇게 씁니다.

“경미한 사고, 영향 없음.”

다른 팀은 이렇게 남깁니다.

“심각한 near-miss, 페일오버 절차의 취약성이 드러남.”

당신이 어떤 라벨을 고르느냐는 여러 가지를 좌우합니다.

  • 그 사건이 조사 대상으로 남는지, 아니면 “별일 아니었음”으로 치부되는지
  • 리더십이 관심을 두는지 여부
  • 사람들이 복도에서, 슬랙에서 그 일을 어떤 톤으로 이야기하는지

만약 조직의 기본 반응이 다음과 같다면:

  • “이건 진짜 사고라고 할 수는 없지, 알아서 복구됐잖아.” 혹은
  • “다 사고라고 부를 수는 없잖아. 그렇게 보이면 안 좋아 보여.”

…당신은 스스로 지진계의 민감도를 낮추고 있는 겁니다.

더 신뢰성 있는 프레이밍은 이렇습니다.

  • “겉으로 드러난 피해가 학습의 기준은 아니다.”
  • “실제로 사고가 난 것뿐 아니라, 거의 크게 잘못될 뻔한 것도 중요하다.”

사건을 분류하는 방식을 바꾸는 것은 비용 대비 효과가 가장 높은 신뢰성 개선 방법 중 하나입니다.


사람들 머릿속으로 들어가기: 레퍼토리 그리드와 멘탈 모델

사고는 로그와 대시보드에만 존재하지 않습니다. 사고는 사람들 머릿속에도 함께 존재합니다.

프론트라인 오퍼레이터, SRE, 온콜 엔지니어, 교대 책임자 등은 모두 각자의 멘탈 모델을 가지고 있습니다.

  • 무엇이 위험한지
  • 무엇이 “정상”으로 느껴지는지
  • 어떤 신호는 중요하고, 어떤 신호는 무시해도 되는지
  • 실제 위험이 어디에 있다고 믿는지

이 멘탈 모델이 어떤 사건이 보고되고, 어떤 것이 에스컬레이션되고, 무엇에서 조직이 학습하는지를 결정합니다.

이 멘탈 모델을 눈에 보이게 만드는 한 가지 방법이 심리학과 지식 공학에서 차용한 레퍼토리 그리드(repertory grid) 기법입니다.

아주 거칠게 요약하면 이렇게 합니다.

  1. 실제 사건을 나열합니다. 사고, near-miss, “잘 수습한 사건”, 그리고 아무 문제 없었던 평범한 날까지.
  2. 직원들에게 사건들을 비교하게 합니다. “이 두 사건이 서로 어떤 점에서 비슷하고, 이 세 번째 사건과는 어떻게 다른가요?”
  3. 그들이 사용하는 구분 기준(차원)을 기록합니다. 예를 들어, “우리가 통제하고 있었다 vs. 통제 불능에 가까웠다”, “원인이 명확했다 vs. 알 수 없었다”, “예상된 복잡성 vs. 예상 밖의 기괴함” 같은 것들입니다.
  4. 패턴을 그립니다. 어떤 차원이 “이건 큰일이다/아니다”라는 느낌을 좌우하는지 찾아냅니다.

이 과정을 통해 드러나는 것들:

  • 블라인드 스팟: 구조적으로는 위험한데, 현장 인력이 일관되게 “중요하지 않다”고 느끼는 사건 유형
  • 엇갈린 기준: 리더십은 고객 임팩트를 중요시하지만, 오퍼레이터는 “우리가 통제력을 얼마나 잃을 뻔했는지”를 더 중요하게 보는 경우
  • 문화적 필터: 사람들이 아예 말할 가치도 없다고 여기는 영역들

이런 멘탈 모델이 보이기 시작하면, 사건 프로세스를 조정해서 정말 중요한 신호를 더 잘 포착할 수 있고, 의미 있는 작은 사건들을 “별것 아니다”라며 흘려보내지 않을 수 있습니다.


신뢰성 교훈은 이동한다: 데이터 센터에서 시추선까지

표면적으로는 거대한 시스템들이 아주 다르게 보입니다. GPU 클러스터, 해양 시추 플랫폼, 컨테이너 선박…. 하지만 이들의 **고장 동학(failure dynamics)**은 놀랄 만큼 비슷한 리듬을 가지고 있습니다.

  • 촘촘한 결합(tight coupling) — 요소들이 시간에 민감하게 서로에게 의존함
  • 복잡 상호작용(complex interactions) — 고장이 예상치 못한 경로로 전파됨
  • 로컬의 임시 처치가 전체 시스템에 전역적 영향을 미침
  • 겉보기에는 오랫동안 안정적인데, 어느 날 갑자기 큰 사건이 터짐

그래서 비슷한 신뢰성 실천들이 다음과 같은 곳들에 두루 적용됩니다.

  • 데이터 센터
  • 해양 시추선/오일 리그
  • 선박
  • 발전소
  • 항공기

이 영역들에서 고신뢰 조직의 공통점은 대략 이렇습니다.

  • 작은 이상 징후를 소음이 아니라 의미 있는 신호로 취급한다.
  • “외부 영향 없음” 사건이라도 깊이 있고, 비처벌적인 학습 리뷰를 수행한다.
  • 임원들의 머릿속이 아니라, 실제 오퍼레이터가 위험을 어떻게 경험하는지에 투자한다.
  • 사람이 실수할 것을 전제로 시스템을 설계하고, 완벽한 절차 준수를 기대하지 않는다.

당신의 시스템이 옮기는 것이 비트(bit)이지 배럴(barrel)이 아닐지라도, 놀람(surprise), 취약성(brittleness), 학습(learning)의 물리학은 놀랄 만큼 비슷하게 작동합니다.


“인적 오류”라는 신기루

무언가 잘못되면, 거의 빠짐없이 등장하는 라벨이 있습니다. 바로 **“인적 오류(human error)”**입니다.

간단하고 빠르기 때문에 매력적이지만, 대부분의 경우 학습을 가로막는 막다른 골목입니다.

“인적 오류”에서 사고 조사를 멈추면, 다음을 놓치게 됩니다.

  • 왜 인터페이스가 잘못된 조작을 쉽게 만들고, 올바른 행동은 어렵게 만들었는지
  • 왜 그 사람이 그 순간 과부하 상태였거나, 방해를 받았거나, 충분히 훈련되지 않았는지
  • 왜 정해진 절차가 실제 조건에서는 사용할 수 없었는지
  • 왜 조직이 비공식 우회로(workaround)를 묵인했고, 그것이 조금씩 안전 마진을 갉아먹었는지

대부분의 심각한 사고는 “실수”가 나타날 수밖에 없도록 만든 경영 의사결정과 시스템 설계 선택들로 거슬러 올라갑니다.

  • 인력 배치와 근무 스케줄
  • 도구·자동화에 대한 투자(혹은 방치)
  • 속도 vs. 안전 같은 상충 목표
  • 위험한 시스템 구석구석에 대한 소유권 부재

당신의 지진계 책상에서 뽑혀 나오는 사고 스토리들이 “오퍼레이터 실수”에서 멈추고 있다면, 그건 학습을 위한 계측기가 아니라 비난을 출력하는 프린터일 뿐입니다.


비난에서 구조로: 당신의 신뢰성 지진계 튜닝하기

신뢰성을 높인다는 것은 *“누가 망쳤나”*에서 시선을 떼고, *“시스템이 어떻게 그들을 그런 상황에 놓이게 했나”*로 초점을 옮기는 일입니다.

당신 조직의 지진계를 튜닝하는 실용적인 방법들을 살펴보겠습니다.

1. ‘사고’의 정의를 다시 쓰기

  • near-miss, 자동 복구된 이벤트, “좀 이상했는데 알아서 복구된” 케이스까지 포함시키세요.
  • “마이크로 사고(micro-incident)”나 “약한 신호(weak signal)”를 가볍게 기록할 수 있는 저마찰 채널을 만드세요.

2. 언어를 바꾸기

  • “그냥(just)”, “단지(only)”, “영향 없음(no impact)” 같은 표현을 자동으로 붙이는 습관을 줄이세요.
  • 대신 이런 표현을 사용해 보세요.
    • “생각보다 가장자리에 더 가까이 서 있었다.”
    • “여기서는 운에 기대었다.”

3. 학습 리뷰를 일상적이고 안전하게 만들기

  • 구조화된, 비난 인지적(blame-aware) 포스트모템/사고·near-miss 리뷰를 정례화하세요.
  • “인적 오류”를 **설명 종결어(closing label)**로 쓰는 것을 명시적으로 금지하세요.
  • 항상 이렇게 물어보세요.
    • “그 사람이 그 순간 보고 알고 있던 것만 놓고 보면, 그 행동은 왜 말이 되었을까?”

4. 멘탈 모델을 표면 위로 끌어올리기

  • 레퍼토리 그리드와 유사한 연습을 회고(retro)나 워크숍에서 활용해 보세요.
  • 이렇게 질문해 보세요.
    • “당신에게는 무섭게 느껴지지만, 리더십 레이더에는 전혀 잡히지 않는 사건 유형은 무엇인가요?”

5. 단순 건수 대신 구조적 패턴을 추적하기

  • “이번 분기에 사고 5건” 같은 숫자 합계 대신, 이런 패턴을 추적해 보세요.
    • 반복되는 의존성 장애
    • 만성적인 알림 피로(alert fatigue)
    • 아직은 장애로 이어지지 않았지만, 형태가 비슷한 near-miss들이 계속 반복되는 영역

이런 단계들을 통해, 종이 더미(혹은 디지털 티켓 더미)를 단순한 기록이 아니라, 시스템이 안전 쪽으로, 혹은 위험 쪽으로 어떻게 ‘표류(drift)’하고 있는지 들려주는 살아 있는 지진계로 바꿀 수 있습니다.


결론: 작은 진동에 귀 기울이기

대형 장애는 거의 항상 예고 없이 오지 않습니다. 그 전에 수십, 수백 번의 작은 진동들—near-miss, 아슬아슬한 수습, 예상 밖의 동작들—이 이미 조직 곳곳에서 관측되고, 경험되고, 그리고 조용히 묻혔을 가능성이 큽니다.

당신의 “종이 사고 스토리 지진계 책상”은 특정 도구나 대시보드 하나를 의미하지 않습니다. 그것은 다음이 결합된 상태를 말합니다.

  • 약한 신호를 감지하려는 민감도
  • near-miss를 핵심 학습 자료로 대하는 존중
  • 사람들이 사건을 분류하고 해석하는 방식을 궁금해하는 호기심
  • “인적 오류”라는 설명에 대한 건전한 의심
  • 신뢰성 지진을 키우거나 줄이는 조직 구조를 기꺼이 들여다보려는 의지

모든 작은 사건을 시스템 건강 상태를 보여 주는 지진계의 측정값으로 대하기 시작하면, 더 이상 지진에 “놀라지” 않게 됩니다. 그 대신, 애초에 큰 피해를 주는 지진이 일어나기 어렵도록 풍경(landscape) 자체를 재설계하기 시작하게 됩니다.

당신의 사고들은 이미 어떤 이야기를 들려주고 있습니다. 진짜 질문은 이것입니다. 그 이야기를 들을 수 있을 만큼 민감한 지진계를 이미 갖추었습니까?

당신의 책상 위 종이 지진계: 다음 대규모 장애 전에 ‘작은 신뢰성 지진’을 감지하는 법 | Rain Lag