고신뢰 조직(High Reliability Organization)에서 영감을 얻은 종이 기반 ‘인시던트 스토리’ 도구로, 미약한 신호를 일찍 포착하고 장애를 예방하며, 시스템을 지속적으로 개선하는 ‘작은 실패의 살아 있는 라이브러리’를 만드는 방법을 다룹니다.
‘세로 시간 지도’가 흩어진 인시던트 데이터를 하나의 일관된 장애 스토리로 바꿔, 실제 의존성을 드러내고, 원클릭 포스트모템을 가능하게 하며, 체계적인 안정성 향상을 이끄는 방법을 소개합니다.
간단한 물리적 ‘아틀라스 선반’이 흩어져 있던 장애 노트를 어떻게 살아 있는, 공유되는 위험 지도로 바꿔서 신뢰성 엔지니어링과 팀 간 의미 만들기(sensemaking)를 개선하는지 소개합니다.
극장에서 영감을 받은 테이블탑 연습과 사고 대응 드릴을 활용해, 실제 프로덕션에 장애가 발생하기 전에 ‘백스테이지 그린룸’에서 안전하게 실패를 리허설하는 방법을 살펴봅니다.
지저분한 프로덕션 장애를 되풀이되는 ‘실패 생물’의 실용적인 필드 가이드로 바꾸는 방법—스토리, 스케치, 휴리스틱을 활용해 공통 정신 모델을 만들고 장애에 더 빠르고 영리하게 대응하는 법을 다룹니다.
워크스루 형태의 ‘종이 정원’이 인시던트 대응 개념을 다감각적인 내러티브 경험으로 바꾸어, 신뢰성 연습을 추상적인 사후 회고가 아니라 손에 잡히고 오래 남는 일상의 실천으로 만드는 방법을 소개합니다.
접었다 펼치는 종이 ‘가든 벤치’가 어떻게 인시던트 리뷰를 모두가 함께 참여하는 물리적 경험으로 바꾸고, 팀이 신뢰성에서 배운 교훈을 더 인간적이고 놀이처럼 자연스럽게 내면화하도록 돕는지에 대한 이야기입니다.
손으로 그린 장애 스토리‑맵은 온콜 엔지니어가 실제로 장애를 어떻게 인지하고, 탐색하고, 해결하는지 보여줍니다—공식 런북과는 종종 아주 다릅니다. 이 글에서는 왜 아날로그 매핑이 중요한지, 어떻게 하는지, 그리고 SRE·팀 토폴로지와 나란히 사람 중심 운영 모델 안에서 어떻게 자리 잡는지 살펴봅니다.
신뢰성 블록 다이어그램(RBD), 인시던트 리뷰, 아날로그 테이블탑 맵을 결합해 복잡한 시스템 속에 숨어 있는 신뢰성 리스크를 함께 찾아내고 개선하는 강력한 도구를 만드는 방법.
새 도구를 한 개도 사지 않고도, 가장 중요한 장애 상황에서 혼란을 협업으로 바꿔 주는 종이 기반 ‘로우테크 컨트롤 타워(워 룸)’를 설계하는 방법.