GH GambleHub

사고 및 사고 대응

(섹션: 운영 및 관리)

1) 정의와 목표

사건-SLO/보안/규정 준수를 위반하거나 고객, 돈, 데이터, 평판에 위험을 초래하는 이벤트.
반응의 목표는 서비스를 신속하게 복원하고, 손상을 최소화하고, 증거를 수정하고, 투명하게 의사 소통하고 반복을 방지하는 것입니다.

핵심 원칙

안전 우선: 기능보다 사람/데이터/돈 보호.
한쪽 목 질식: 단일 사건 사령관 (IC) 이 결정을 내립니다.
지금 실행 가능: 각 가설 다음에는 테스트/동작이 이어집니다.
증거 문제: 모든 것이 기록되고 아티팩트가 서명되며 타임 라인이 자세히 설명되어 있습니다.

2) 분류 (심각도 및 우선 순위)

SEV표지판MTTR 목표
P1/SEV-0대규모 사용 불가/화폐 손실/PII 누출할 수 없습니다체크 아웃 실패; 개인 데이터 유출; 잘못된 기록
P2/SEV-1심한 열화/부분 영역4 시간동기화되지 않은 가격의 래그 웹 후크; 높은 공급자 오류
P3/SEV-2국소 저하/오류 증가10 시간 24 분파트너 큐 과부하; 사기 신호의 스플래시
P4/SEV-3경미한 버그/추세 위험계획에 따르면메트릭 편차, 오래된 인증서

방아쇠: SLO 위반, 경고 규칙, 수동 보고서, 법적 사건 (DPO/CCO).

3) 역할 및 책임 (RACI)

사건 사령관 (A) -사건 리더, 작업 설정, 의사 결정, 장기 사건의 IC 변경.
Tech Lead (R) - 기술 진단/수정, SRE/엔지니어링 조정.
Comms Lead (R) - 상태 페이지의 소유자 인 상태 업데이트 (내부/외부) 를 작성합니다.
Scribe (R) - 프로토콜, 타임 라인, 아티팩트 수집.
보안/법률 (보안 사례의 경우 C/A) -위험 평가, 필수 알림.
고객 지원 (C) -응답 템플릿, 티켓 라우팅.
파트너 연락 담당자 (C) -공급자/임차인과의 커뮤니케이션.
관리 (I) -정보, 사업 결정 (대출/보상).

4) 처음 15 분 (템플릿)

1. IC를 할당하고 사건 카드 (채팅 채널, 비디오 브리지, Jira/Tracker) 를 엽니 다.
2. SEV를 할당하고 SLO 증상을 수정하십시오 (정확히 위반 된 것).

3. 안정화:
  • 런북/룬: 회로 차단기, 스로틀 링, 경로 전환, 일시 정지 프로모션;
  • 타협의 경우-킬 스위치에 민감한 기능.
  • 4. 명령: 기술 리드-진단; Comms - "기술적 보류" (10-15 분-첫 번째 업데이트).
  • 5. 가설 (최대 3 개) 을 식별하고 소유자를 지정하며 검증을 위해 타이머를 설정합니다 (5-10 분).
  • 6. 아티팩트 수집: 메트릭, 구성 요소, 해시 해시, 'trace _ id' 가 포함 된 로그, 영수증.

5) 첫 시간 (템플릿)

커뮤니케이션 v1 (15-20 분): 사실, 도달 범위, 증상, 우리가하는 일, 다음 업데이트. 추측이 없습니다.
사건 경계: 영향을받는 지역/테넌트/채널/버전.
손상 제어: 임시 캡/제한, "잡음" 통합 분리, 분해 모드 활성화.
법의학: 로그 회전 동결, 아티팩트 보호 (WORM/서명).
복구 로드맵: 체크 포인트가있는 T + 30/T + 60.

6) 커뮤니케이션 및 상태 페이지

내부 간격: P1 - 15 분마다, P2 - 30-60 분.
외부: 상태 페이지/테넌트/SLA 파트너.

메시지 템플릿:
  • "X: YY UTC로 EU 지역의 체크 아웃 실패 증가 (p95> 250 ms)"
  • 영향: "A/B/C 운영자 ~ 트래픽의 40%"
  • 우리가하는 일: "대체 경로, 스로틀 링 프로모션; 우리는 공급자 PSP-1과 협력합니다. "
  • 데이터/마감일: "15 분 안에 다음 업데이트"
  • 보상: "사고 종료 후 SLA 당 신용 메모 적용"

7) 플레이 북 (iGaming/fintech에 대한 참조)

PriceMismatch (쇼케이스 = 체크 아웃): 캐시 포스 장애, 'fx _ version/tax _ rule _ version' 조정, 동적 프로모션 동결, 정책 불일치 보상.
WebhookLag (파트너/계열사): 작업자 확장, 배치 증가, 우선 순위 재조정, 새로운 구독에 대한 임시 한도.
결제 중단/PSP 저하: 백업 PSP로 전환, 클라이언트 타임 아웃 감소, 수동 대기열 지우기, 검역소의 회색 트랜잭션.
RTP 드리프트: 보너스 일시 정지, 급여 지급/버전 확인, 모니터링 창 확장, RTP 프로필 롤백.
사기 스파이크: 강화 속도/제한, 추가 KYC 점검 포함, 의심스러운 코호트 격리, 높은 상금 수동 검토.
데이터/PII 노출: 시스템 격리, DPO/법률 알림, 영향을받는 레코드 인벤토리, 타임 라인별 규제 알림.

8) 도구 및 룬 (자동 작업)

일시 중지 프로모션, 재 경로, 한계 올리기, 롤백, 플러시 캐시, 웹 후크 사용하지 않기, 안전 모드 활성화.
가드 레일: "saddling" 에 대한 보호-롤백이 제한되고 로그에 서명되며 각 동작은 IC/Scribe입니다.
확실성: DSSE 서명, 스냅 샷 해시, 머클 로그 슬라이스.

9) 사고 종료

기준: SLO 복원, 대기열 사용, 데이터/화폐 조정, 위험 종료, 통신 전송.
폐회 의식: 최종 상태 업데이트, 고정 된 타임 라인, 영향 목록, 원인의 예비 가설, 사후 날짜 할당.

10) 사후 (무료)

용어: P1 - 3 일 (근무일 기준); P2-5 영업일.
내용: 사실/타임 라인, 근본 원인 (5 Whys/FRAM), 영향 (SLO, 금융, 고객), 작동/작동 항목, 행동 항목 (소유자, 용어, 측정 가능한 효과).
효과 점검: 30-60 일 후-성능 및 측정 항목 검토 (반복성, MTTR, 경고 노이즈).

11) 사고 관리 메트릭 및 SLO

MTTD/MTTA/MTTR, 실패율 변경, v1 대 통신 시간,% 자동 허용 (룬).
경고 소음: 관련없는 신호의 백분율, 통화 시프트 당 페이지.
반복 사건: 90 일 만에 반복 비율.
사후 SLA: 정시에 완료/폐쇄 비율.
SLO 반응: P1 - 첫 번째 통신 및 15 분; MTTR 체크 60 분; 아티팩트 완전성 = 100%.

12) 법률/준수/개인 정보

법적 통지: 누출/사고에 대한 지역 규제 기관의시기.
PII 최소화: 승인 된 bs을 통해서만 기본에 대한 액세스; 토큰 화/마스킹.
아티팩트 스토리지: WORM 로그, 관할권 별 보존 기간; 액세스 제어 (RBAC/ABAC, JIT).
상대방: 계약 SLA, 에스컬레이션 프로세스, 절차 영수증.

13) 의무 및 에스컬레이션 조직

24 × 7 통화 중: 역할 별 회전 (SRE, 앱, 데이터, 보안, 지불).
에스컬레이션 매트릭스: 지역/제품/공급자를위한 사람; 중복 연락처 (채팅/음성/SMS).
운동 (GameDays): 시뮬레이션-PSP 드롭, 재 트레이 눈사태, 가격 정렬, 주요 타협, 지역 고장.

14) 사건의 대시 보드

열 (현재): SLO 상태, p95/p99, 지역/테넌트 맵, 작업 대기열, 수집/아티팩트.
역사: 사건 유형별 추세, 룬 효율성, 재발을 유발합니다.
품질 관리: 타임 라인 완전성, 사후 모템의 "적용 범위", SLA 커뮤니케이션.

15) 구현 점검표

  • SEV 스케일 및 SLO 트리거를 승인합니다.
  • 할당 된 역할 (IC/Tech/Comms/Scribe/Sec/Legal) 및 회전 24 × 7.
  • 단일 사건 카드 템플릿 및 상태 페이지를 시작하십시오.
  • 플레이 북 설명 (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
  • 감사 및 빨간색 버튼으로 실행됩니다.
  • WORM/서명/아티팩트 컬렉션 사용.
  • 통신 절차 (내부/외부), SLA 업데이트.
  • 사후 절차 및 템플릿; 동작 항목 실행의 KPI.
  • 매월 게임 일; 사고 추세에 대한 분기 별 검토.
  • 대시 보드 IR 메트릭 (MTTA/MTTR/노이즈/반복/Comms SLA).

16) FAQ

왜 "IC 혼자"?

단일 의사 결정 지점은 혼돈을 제거하고 반응을 가속화합니

공개적으로 발표 할 시점?
확인 된 사실과 안정화 계획이있는 즉시. 규제 마감일을 평가하십시오.

더 중요한 것은 무엇입니까? 수정 또는 보고서?
첫째, 복구 및 보안. 동시에 아티팩트 모음. 보고서-안정화 후.

모든 것을 자동화 할 수 있습니까?
아니요, 그러나 룬은 "빈번하고 간단한" 단계를 닫습니다. 나머지는 명확한 플레이 북과 운동을 통해 이루어집니다.

요약: 강력한 사고 대응은 PagerDuty와 채팅 채널에 관한 것이 아닙니다. 이것은 빠른 처음 15 분, 통제 된 룬, 투명한 커뮤니케이션, 확실성이있는 법의학 및 필수 사후 부검의 역할입니다. 이 회로를 통해 MTTR을 줄이고 돈과 데이터를 보호하며 고객 및 규제 신뢰도를 높입니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.