사건의 확대
1) 목적과 원칙
사고 확대는 사용자 및 비즈니스 지표에 미치는 영향을 최소화하기 위해 올바른 역할과 리소스를 빠르게 유치하는 관리 프로세스입니다.
주요 원칙:- 속도는 이상보다 중요합니다. 사건을 조기에 선언하고 늦는 것보다 확대하는 것이 좋습니다.
- 통합 명령. 해결책을 담당하는 사람은 IC (Incident Commander) 입니다.
- 투명성. 내부 및 외부 이해 관계자를위한 명확한 상태 및 통신 채널.
- 다큐멘터리. 감사 및 개선을 위해 모든 단계, 결정 및 일정이 포착됩니다.
2) 심각도 그라데이션 (SEV/P- 레벨)
스케일 예 (도메인/관할 구역에 적응):- SEV-0/P0 (중요) -키 기능 (로그인/결제), 데이터 유출, 법적 위험을 완전히 사용할 수 없습니다. 전체 커널 온-콜, 프리즈 릴리스의 즉각적인 페이징.
- SEV-1/P1 (높음) -p95/p99 열화, 주요 프로세스에서 오류/오류의 비율 증가, 지역/공급자의 접근성 불가능.
- SEV-2/P2 (중간) - 제한된 코호트 (영역, 공급자) 에 대한 부분 분해는 해결 방법이 있습니다.
- SEV-3/P3 (낮음) -사용자에게는 중요하지 않지만주의가 필요합니다 (ETL 배경 지연, 기한이 지난 보고서).
- 레슨 반경 (사용자 수/회전율) × 지속 시간 × 감도 (규제/PR) → SEV 수준.
3) 프로세스 KPI
MTTD (감지 시간) -입사 시작부터 첫 번째 신호까지.
MTTA (수신 시간) -IC 대 신호 승인.
MTTR (복구 시간) - SLO/기능이 복원 될 때까지.
확인 대기 시간-원하는 역할/명령 연결에 이르기까지.
재개 율-" 해결 된 "후에 사건의 비율이 다시 열립니다.
Comm SLA-외부/내부 업데이트 간격을 준수합니다.
4) 역할 및 책임 (RACI)
IC (Incident Commander): 솔루션 소유자는 레벨, 계획, 동결, 에스컬레이션, 에스컬레이션을 설정합니다. 수정을 쓰지 않습니다.
기술 리드 (TL): 기술 진단, 가설, 엔지니어 조정.
Comms Lead (CL): 상태 페이지, 클라이언트 및 내부 커뮤니케이션, Legal/PR과의 조정.
스크라이브: 사실, 타임 라인, 결정에 대한 정확한 기록.
연락 담당자: 외부 제공 업체/팀 대표 (결제, KYC, 호스팅).
통화 중 엔지니어: 계획 실행, 플레이 북/롤백 시작.
각 역할에 대한 의무 일정 및 백업 할당.
5) 채널과 유물
전쟁 실 채널 (ChatOps): 자동 주석 (버전, 플래그, 카나리아) 템플릿이있는 단일 조정 지점 (슬랙/팀).
SEV-1 + 용 비디오 브리지.
사건 티켓 (1 호출기): ID, SEV, IC, 참가자, 가설/진단, 단계, ETA, 상태, 영향, 그래프 링크.
상태 페이지: 공개/내부; 정기적 인 업데이트 일정 (예: SEV-1 + 의 경우 15-30 분마다).
6) 타임 박스 및 표준 간격
T0 (최소 0-5): IC 할당, SEV 할당, 동결 해제 (필요한 경우), 전쟁 실 개방.
T + 15 분: 첫 번째 공개/내부 메시지 (영향을받는 내용, 해결 방법, 다음 업데이트 창).
T + 30/60 분: 안정적인 역학이없는 경우 다음 레벨 (플랫폼/DB/보안/제공 업체) 의 에스컬레이션.
정기 업데이트: SEV-0: 15 분마다; SEV-1: 30 분마다; SEV-2 +: 매 시간마다.
7) 자동 에스컬레이션 규칙 (트리거 정책)
코드로 녹음되고 모니터링/경고에 연결되었습니다
짧고 긴 창에서 연소 속도 오류 예산이 임계 값을 초과합니다.
외부 샘플의 정원:- 비즈니스 SLI (결제/등록 성공) 는 SLO 아래로 떨어집니다.
- 보안 서명: 누출/타협이 의심됩니다.
- 공급자 신호: 웹 후크 상태 "주요 중단".
8) 발견에서 솔루션으로의 프로세스
1. 사건 선언 (IC): SEV, 적용 범위, 동결, 플레이 북 출시.
2. 진단 (TL): 가설, 반경 격리 (지역, 공급자, 기능), 점검 (디스크에 대한 정보를 제공합니다.
3. 동작 완화 (빠른 승리): 롤백/카나리아 °, 저하 플래그 기능, 공급자 장애, 속도 제한, 캐시 오버레이.
4. 커뮤니케이션 (CL): 상태 페이지, 고객/파트너, 법률/PR, 일정에 따라 업데이트됩니다.
5. 회복 확인: 외부 합성 + 실제 지표 (SLI), 동결 제거.
6. 에스컬레이션: SEV 감소, 관찰 N 분/시간으로의 전환.
7. 폐쇄 및 RCA: 사후 준비, 행동 항목, 소유자 및 타이밍.
9) 외부 제공 업체와 협력
여러 지역의 공급자에게 소유 한 샘플 + 요청/오류의 미러 로그 예제.
에스컬레이션 계약 (연락처, 응답 SLA, 우선 순위, 상태 웹 후크).
SLO 제공 업체를 통한 자동 장애/트래픽 전송.
증거 기반: 타임 라인, 샘플 요청/응답, 대기 시간/오류 그래프, 공급자 티켓 ID.
10) 규제, 안전 및 홍보
보안/P0: 격리, 아티팩트 수집, 공개 최소화, 필수 알림 (내부/외부/규제 기관).
법적: 계약 SLA/벌금을 설명하는 외부 업데이트 문구 승인.
PR/고객 서비스: 기성품 응답 템플릿, Q&A, 보상/크레딧 (해당되는 경우).
11) 메시지 템플릿
기본 (T + 15):- "[기능/지역] 에 영향을 미치는 SEV-1 사건을 조사하고 있습니다. 증상: [간단히]. 해결 방법을 활성화했습니다 [설명]. 다음 업데이트는 [시간] 입니다. "
- "진단: [가설/확인]. 작업: [전환 공급자/롤백 릴리스/활성화 저하]. 영향은 [%/cohort] 로 감소했습니다. 다음 업데이트는 [시간] 입니다. "
- "이 사건은 SEV-1이 해결되었습니다. 이유: [루트]. 회복 시간: [MTTR]. 다음 단계: [수정/확인/시계 N 시간]. 사후 부검- [언제/어디서] "
12) 플레이 북 (예시)
결제 성공 감소: 공급자 A의 점유율을 줄이고 X% 를 B로 이전; 저하 지불 -UX 활성화에는 제한이있는 레트라가 포함됩니다. 지느러미 명령에 알립니다.
p99 API 성장: 새 버전의 카나리아를 줄입니다. 무거운 기능을 끄십시오. 캐시 -TTL 증가; DB 색인/연결을 확인하십시오.
인증서/체인을 확인하십시오. 레코드 스위치를 대기 CDN로 업데이트하여 캐시를 재구성하십시오.
보안 의심: 노드 격리, 키 회전, mSL 펜 활성화, 아티팩트 수집, 법적 알림.
13) 에스컬레이션 및 "해결 된" 기준
다음과 같은 경우 사고가 다운 그레이드됩니
녹색 영역에서 SLI/SLO 안정
회귀없이 완화 조치와 관찰이 수행되었습니다.
보안 클래스의 경우-벡터가 닫히고 키/비밀이 회전합니다.
마감 - 타임 라인, 액션 항목 소유자 및 마감일을 수정 한 후에 만 가능합니다.
14) 사후 부검 (비 처벌)
구조:1. 사실 (타임 라인, 사용자/메트릭이 본 것).
2. 근본 원인 (기술/프로세스).
3. 에스컬레이션에서 효과가 있었거나 효과가 없었
4. 예방 조치 (테스트, 경고, 한계, 아키텍처).
5. 마감일과 소유자가있는 행동 계획.
6. 오류 예산으로 연결하고 SLO/프로세스를 수정하십시오.
15) 프로세스 성숙도 지표
사용자 불만 이전에보고 된 사건의 비율.
SEV 수준별 MTTA; 원하는 역할을 연결하는 시간.
업데이트 간격 (Comm SLA) 을 준수합니다.
수동 "창의성" 없이 플레이 북으로 해결 된 사건의 비율.
제 시간에 사후 부검에서 행동 항목의 실행.
16) 반 패턴
"누군가는 무언가를한다" -IC/역할이 없습니다.
전쟁 실의 폴리포니는 행동 대신 버전에 대한 분쟁입니다.
늦은 선언 → 사람들을 모으기위한 시간 상실.
동결 및 해제 주석이 없습니다. 동시 변경으로 인해 원인이 마스크됩니다.
외부 커뮤니케이션 부족-불만/PR 위험 확대.
사후 및 행동없이 닫기-우리는 같은 실수를 반복합니다.
17) IC 체크리스트 (포켓 카드)
- SEV를 할당하고 전쟁 실을 엽니 다.
- TL, CL, Scribe, 통화 중 선물을 확인하십시오.
- 릴리스 동결 사용 (SEV-1 + 인 경우).
- 진실의 원천 확인: SLI 대시 보드, 합성, 로그, 추적.
- 빠른 완화 조치 (롤백/플래그/장애) 를 수락하십시오.
- 예정된 정기 업데이트를 제공하십
- 해결 및 복구 후 모니터링을위한 캡처 기준.
- 사후 부검을 시작하고 행동 항목 소유자를 할당하십시오.
18) 일상 업무 수행
게임 일: 주요 시나리오에 대한 시뮬레이션.
플레이 북 카탈로그: 버전이 있고 테스트되었으며 매개 변수가
도구: ChatOps 명령 "/선언 ", "/페이지", "/상태 ", "/롤백".
통합: 발권, 상태 페이지, 사후 모템, CMDB/서비스 카탈로그.
SLO/오류 예산과의 협상: 자동 에스컬레이션 트리거 및 동결 규칙.
19) 결론
에스컬레이션은 승무원에게 전화하는 것이 아니라 운영 규율입니다. IC, 기성품 플레이 북, 업데이트 타임 박스 및 SLO 메트릭 및 예산 정책과의 통합으로 지정된 명확한 SEV 레벨은 혼란스러운 화재를 예측 가능한 결과 (빠른 서비스 복구, 최소한의 PR/규제 위험 및 각 사고 후 체계적인 개선) 로 관리 가능한 프로세션.