사고 및 사고 대응
(섹션: 운영 및 관리)
1) 정의와 목표
사건-SLO/보안/규정 준수를 위반하거나 고객, 돈, 데이터, 평판에 위험을 초래하는 이벤트.
반응의 목표는 서비스를 신속하게 복원하고, 손상을 최소화하고, 증거를 수정하고, 투명하게 의사 소통하고 반복을 방지하는 것입니다.
핵심 원칙
안전 우선: 기능보다 사람/데이터/돈 보호.
한쪽 목 질식: 단일 사건 사령관 (IC) 이 결정을 내립니다.
지금 실행 가능: 각 가설 다음에는 테스트/동작이 이어집니다.
증거 문제: 모든 것이 기록되고 아티팩트가 서명되며 타임 라인이 자세히 설명되어 있습니다.
2) 분류 (심각도 및 우선 순위)
방아쇠: SLO 위반, 경고 규칙, 수동 보고서, 법적 사건 (DPO/CCO).
3) 역할 및 책임 (RACI)
사건 사령관 (A) -사건 리더, 작업 설정, 의사 결정, 장기 사건의 IC 변경.
Tech Lead (R) - 기술 진단/수정, SRE/엔지니어링 조정.
Comms Lead (R) - 상태 페이지의 소유자 인 상태 업데이트 (내부/외부) 를 작성합니다.
Scribe (R) - 프로토콜, 타임 라인, 아티팩트 수집.
보안/법률 (보안 사례의 경우 C/A) -위험 평가, 필수 알림.
고객 지원 (C) -응답 템플릿, 티켓 라우팅.
파트너 연락 담당자 (C) -공급자/임차인과의 커뮤니케이션.
관리 (I) -정보, 사업 결정 (대출/보상).
4) 처음 15 분 (템플릿)
1. IC를 할당하고 사건 카드 (채팅 채널, 비디오 브리지, Jira/Tracker) 를 엽니 다.
2. SEV를 할당하고 SLO 증상을 수정하십시오 (정확히 위반 된 것).
- 런북/룬: 회로 차단기, 스로틀 링, 경로 전환, 일시 정지 프로모션;
- 타협의 경우-킬 스위치에 민감한 기능.
- 4. 명령: 기술 리드-진단; Comms - "기술적 보류" (10-15 분-첫 번째 업데이트).
- 5. 가설 (최대 3 개) 을 식별하고 소유자를 지정하며 검증을 위해 타이머를 설정합니다 (5-10 분).
- 6. 아티팩트 수집: 메트릭, 구성 요소, 해시 해시, 'trace _ id' 가 포함 된 로그, 영수증.
5) 첫 시간 (템플릿)
커뮤니케이션 v1 (15-20 분): 사실, 도달 범위, 증상, 우리가하는 일, 다음 업데이트. 추측이 없습니다.
사건 경계: 영향을받는 지역/테넌트/채널/버전.
손상 제어: 임시 캡/제한, "잡음" 통합 분리, 분해 모드 활성화.
법의학: 로그 회전 동결, 아티팩트 보호 (WORM/서명).
복구 로드맵: 체크 포인트가있는 T + 30/T + 60.
6) 커뮤니케이션 및 상태 페이지
내부 간격: P1 - 15 분마다, P2 - 30-60 분.
외부: 상태 페이지/테넌트/SLA 파트너.
- "X: YY UTC로 EU 지역의 체크 아웃 실패 증가 (p95> 250 ms)"
- 영향: "A/B/C 운영자 ~ 트래픽의 40%"
- 우리가하는 일: "대체 경로, 스로틀 링 프로모션; 우리는 공급자 PSP-1과 협력합니다. "
- 데이터/마감일: "15 분 안에 다음 업데이트"
- 보상: "사고 종료 후 SLA 당 신용 메모 적용"
7) 플레이 북 (iGaming/fintech에 대한 참조)
PriceMismatch (쇼케이스 = 체크 아웃): 캐시 포스 장애, 'fx _ version/tax _ rule _ version' 조정, 동적 프로모션 동결, 정책 불일치 보상.
WebhookLag (파트너/계열사): 작업자 확장, 배치 증가, 우선 순위 재조정, 새로운 구독에 대한 임시 한도.
결제 중단/PSP 저하: 백업 PSP로 전환, 클라이언트 타임 아웃 감소, 수동 대기열 지우기, 검역소의 회색 트랜잭션.
RTP 드리프트: 보너스 일시 정지, 급여 지급/버전 확인, 모니터링 창 확장, RTP 프로필 롤백.
사기 스파이크: 강화 속도/제한, 추가 KYC 점검 포함, 의심스러운 코호트 격리, 높은 상금 수동 검토.
데이터/PII 노출: 시스템 격리, DPO/법률 알림, 영향을받는 레코드 인벤토리, 타임 라인별 규제 알림.
8) 도구 및 룬 (자동 작업)
일시 중지 프로모션, 재 경로, 한계 올리기, 롤백, 플러시 캐시, 웹 후크 사용하지 않기, 안전 모드 활성화.
가드 레일: "saddling" 에 대한 보호-롤백이 제한되고 로그에 서명되며 각 동작은 IC/Scribe입니다.
확실성: DSSE 서명, 스냅 샷 해시, 머클 로그 슬라이스.
9) 사고 종료
기준: SLO 복원, 대기열 사용, 데이터/화폐 조정, 위험 종료, 통신 전송.
폐회 의식: 최종 상태 업데이트, 고정 된 타임 라인, 영향 목록, 원인의 예비 가설, 사후 날짜 할당.
10) 사후 (무료)
용어: P1 - 3 일 (근무일 기준); P2-5 영업일.
내용: 사실/타임 라인, 근본 원인 (5 Whys/FRAM), 영향 (SLO, 금융, 고객), 작동/작동 항목, 행동 항목 (소유자, 용어, 측정 가능한 효과).
효과 점검: 30-60 일 후-성능 및 측정 항목 검토 (반복성, MTTR, 경고 노이즈).
11) 사고 관리 메트릭 및 SLO
MTTD/MTTA/MTTR, 실패율 변경, v1 대 통신 시간,% 자동 허용 (룬).
경고 소음: 관련없는 신호의 백분율, 통화 시프트 당 페이지.
반복 사건: 90 일 만에 반복 비율.
사후 SLA: 정시에 완료/폐쇄 비율.
SLO 반응: P1 - 첫 번째 통신 및 15 분; MTTR 체크 60 분; 아티팩트 완전성 = 100%.
12) 법률/준수/개인 정보
법적 통지: 누출/사고에 대한 지역 규제 기관의시기.
PII 최소화: 승인 된 bs을 통해서만 기본에 대한 액세스; 토큰 화/마스킹.
아티팩트 스토리지: WORM 로그, 관할권 별 보존 기간; 액세스 제어 (RBAC/ABAC, JIT).
상대방: 계약 SLA, 에스컬레이션 프로세스, 절차 영수증.
13) 의무 및 에스컬레이션 조직
24 × 7 통화 중: 역할 별 회전 (SRE, 앱, 데이터, 보안, 지불).
에스컬레이션 매트릭스: 지역/제품/공급자를위한 사람; 중복 연락처 (채팅/음성/SMS).
운동 (GameDays): 시뮬레이션-PSP 드롭, 재 트레이 눈사태, 가격 정렬, 주요 타협, 지역 고장.
14) 사건의 대시 보드
열 (현재): SLO 상태, p95/p99, 지역/테넌트 맵, 작업 대기열, 수집/아티팩트.
역사: 사건 유형별 추세, 룬 효율성, 재발을 유발합니다.
품질 관리: 타임 라인 완전성, 사후 모템의 "적용 범위", SLA 커뮤니케이션.
15) 구현 점검표
- SEV 스케일 및 SLO 트리거를 승인합니다.
- 할당 된 역할 (IC/Tech/Comms/Scribe/Sec/Legal) 및 회전 24 × 7.
- 단일 사건 카드 템플릿 및 상태 페이지를 시작하십시오.
- 플레이 북 설명 (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
- 감사 및 빨간색 버튼으로 실행됩니다.
- WORM/서명/아티팩트 컬렉션 사용.
- 통신 절차 (내부/외부), SLA 업데이트.
- 사후 절차 및 템플릿; 동작 항목 실행의 KPI.
- 매월 게임 일; 사고 추세에 대한 분기 별 검토.
- 대시 보드 IR 메트릭 (MTTA/MTTR/노이즈/반복/Comms SLA).
16) FAQ
왜 "IC 혼자"?
단일 의사 결정 지점은 혼돈을 제거하고 반응을 가속화합니
공개적으로 발표 할 시점?
확인 된 사실과 안정화 계획이있는 즉시. 규제 마감일을 평가하십시오.
더 중요한 것은 무엇입니까? 수정 또는 보고서?
첫째, 복구 및 보안. 동시에 아티팩트 모음. 보고서-안정화 후.
모든 것을 자동화 할 수 있습니까?
아니요, 그러나 룬은 "빈번하고 간단한" 단계를 닫습니다. 나머지는 명확한 플레이 북과 운동을 통해 이루어집니다.
요약: 강력한 사고 대응은 PagerDuty와 채팅 채널에 관한 것이 아닙니다. 이것은 빠른 처음 15 분, 통제 된 룬, 투명한 커뮤니케이션, 확실성이있는 법의학 및 필수 사후 부검의 역할입니다. 이 회로를 통해 MTTR을 줄이고 돈과 데이터를 보호하며 고객 및 규제 신뢰도를 높입니다.