GH GambleHub

운영 및 → 관리 사고 예측

사건 예측

1) 왜 필요한가

사건은 거의 "아무데도 폭발하지 않습니다. "실패하기 전에 플랫폼은 p99의 가속화 된 성장, 오류 예산의 느린 소진, 대기열 지연, 특정 다운 스트림에서의 배상 증가, 공급자 할당량에 접근하는 신호를 제공합니다. 시스템 사고 예측은 "소방" 에서 "조기 개입" 으로의 응답을 변환하여 MTTR, 실패율 변경 및 수익 손실을 줄입니다.

목표:
  • 전구체 패턴을 식별하고 자동으로 예방 조치를 시작하십시오.
  • 왼쪽으로 이동하여 P1/P2 점유율을 줄입니다 (사전 사고 감지 속도).
  • 릴리스, feilover 및 용량 선점 프로세스에 대한 예측을 구축하십시오.

2) 납 지표

플랫폼/인프라:
  • 가속 p95/p99 (그라디언트), 지연의 "꼬리", 변화의 증가.
  • 대기열/스트림: 성장 '지연' 및 양의 미분 지연; 최대 HPA.
  • DB/캐시: 'active _ conns/max _ conns', 'replication _ lag', 'destory', 'cash _ hit' 드롭.
  • 네트워크: mSL/핸드 셰이크 오류, 5xx/타임 아웃 성장 외부.
의존성/제공자:
  • (PHP 3 = 3.0.6, PHP 4) 9`.
  • SLA 제공 업체: 계획된 창, 열화.
제품/비즈니스:
  • 비정상적인로드 (캠페인/일치), RPS/TPS 점프, 특이한 지역/채널 믹스.
  • p99 성장 → 준 프록시 사고로 예금/속도 변환이 감소합니다.
SLO 레이어:
  • 연소 속도 오류 예산> 임계 값 (예: 10-15 분 동안> 4 ×).
  • 접근 실패의 지표로서 SLO (미세 분해) 의 빈번한 사소한 위반.

3) 데이터 소스 및 데이터 마트

온라인 원격 측정: Prometheus/OTel (메트릭, 로그, 트레일).
사건 이벤트: 티켓/상태/사후 사후 (대상의 경우 사실).
계획/사실 변경: 릴리스, phicheflags, 마이그레이션, 공급자 창.
디렉토리: 종속지도, 할당량, 소유자.
DWH 스냅 샷: 교육/검증 단위 (동기 창!).

품질 요구 사항: 99% 이상 완전성, 시간/분 TZ 정렬, 균일 한 p95/p99 정의.

4) 예측 접근

4. 1 비모수/규칙 (빠른 시작)

변화율에 대한 임계 값 경고: 짧은 창의 경우 'deriv (p99)', 'z- 점수'.
종합 조건: 'lag RAM + HPA = max + circuit _ open (to = "PSP-X")'.

SLO- 번 게이트: 연소 속도> X에서 해제/카나리아 정지

4. 2 변칙적 탐지

계절별 기준선 (STL/선지자 같은 아이디어), 롤링 중앙값 + MAD.
다변량: 공동 이상 'p99 + 재 시도 + 공개 _ 회로 + 할당량'.
변경 지점 감지: 추세 변화를위한 CUSUM/BOCPD.

4. 3 개의 ML 모델 (감독)

분류 "T + K의 사고?" 기능 창 별 (예: 10-30 분 전).
특성: 통계, 파생 상품, 계절 잔류 물, 원 핫 제공 업체/지역, 플래그 해제.
레이블: 간격 [t, t + K] 의 '사고 {심각도 [P1, P2]}'.
설명 가능성: 신뢰와 운영성에 대한 CHAP/순열 중요성.

4. 4 SRE 우선 하이브리드

모델 → 점수 위험 (0-1) → 행동 정책 (phicheflags/feilover/pre-scale), HITL은 비판을받습니다.

5) 기능 공학

슬라이딩 윈도우 (1/5/15 분): 평균, p95/p99, std, max, slope.
상대 지표: 'p99/baseline _ 1d', 'orm _ rate _ delta'.
코호트 기능: 공급자, 지역, 게임/매치 유형, 장치 채널.
"로드" 기능: RPS, 페이로드 크기, 열린 WS 수.
시스템: 'hpa _ watch/max', 'db _ conn _ ratio', 'redis _ destory> 0'.
이벤트 플래그: "진행중인 릴리스", "카나리아 10%", "제공자 창".

6) 예측 역학 및 행동

의사 결정 체인:

1. 도메인 별 N 초마다 득점 위험 (Payments/Bets/Games/KYC).

2. 경보 정책:
  • 0보다 위험합니다. 8 + 확인 신호 → 도메인 소유자 페이지;
  • 0. 6–0. 8 → 경고 + 측정 준비.
3. 보호 장치:
  • 캐시를 가능하게하여 무거운 기능을 제한하는 사전 스캔 (HPA minReplicas TP);
  • 백업 공급자/경로로 전환
  • 일시 정지/롤백 카나리아;
  • 리트레이 제한은 "좁은" 다운 스트림으로 제한됩니다.
  • 4. HITL: 사람은 "비즈니스 행동의 변화" 수준의 측정을 확인합니다.

7) 일일 프로세스로의 통합

릴리스: 카나리아의 예측 게이트 (비교 전/후 및 위험 점수).
Feilover: 공급자의 위험에 처한 백업 경로의 자동 준비/예열.
용량: 헤드 룸이 떨어지고 지연이 발생하는 "조기 향상".
경고: 대시 보드에 별도의 피드 "사전 사고" + 주석.

8) 관찰 및 대시 보드

위험 개요: 도메인 및 공급자 별 위험, 트렌드, 기능 기여.
납 신호: 상위 N 선구자 (p99 그라디언트, 지연, 오픈 브레이커).
작업 및 결과: 켜진 것, p95/오류에 대한 영향, 사고 취소.
모델 상태: 정밀/리콜/대기 시간, 표지판 드리프트, 자동 작동 빈도.

9) 예측 품질 지표

@ P1/P2 (중요한 사고 민감도) 를 리콜하십시오.
정밀 (더 적은 "가짜 페이지").
리드 타임 (중앙값 "사실 몇 분 전").
중재 승률 (동작이 위험/비용을 줄인 경우의 비율).
경고 피로 색인 (경고/시프트/사람).
드리프트 점수 (통계. 기능 분포와 교육 기간의 차이).

기본 대상은 리콜 (P1) λ0입니다. 7, 정밀 6, 리드 타임 평균 8-10 분

10) 모델 위험 관리 (ML Ops/Governance)

데이터/코드/아티팩트 버전화, 재현성.
Champion/Challenger: 새 모델은 병렬 오프라인/온라인 비교로 실행됩니다.
드리프트: PSI/KL- 발산, 임계 값의 자동 열거, "모델이 구식입니다".
설명 가능성: 각 솔루션에 대해 기능의 중요성과 데이터 링크를 저장하십시오.
보안/윤리: 정치인의 액세스, PII 마스킹, 자동 조치 제어.

11) 샘플 규칙 및 정책

SLO 번 및 카나리아 (개념):

policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
공급자 복합 위험:

risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
스트리밍의 래그 스톰:

if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) 구현 점검표 (30-60 일)

  • 사건에 의한 신호 및 "진실" 카탈로그 (심각도, 일정).
  • 주요 지표에 대한 기준선 및 계절성 (사전/사후 릴리스).
  • 초기 신호 규칙 (p99, 지연, 연소 속도 구배).
  • 위험/납 신호/동작 대시 보드.
  • phicheflags/canaries와의 통합, 사전 규모 HPA.
  • 동일한 도메인의 ML 분류 파일럿 (예: 지불).
  • HITL 정책 및 자동 활동 로그.
  • 품질 지표 및 드리프트/건강 모델에 대한 경고.

13) 반 패턴

"크리스탈 볼": 기준선과 간단한 규칙이없는 복잡한 ML 모델.
행동 가능성이 없습니다: 우리는 "나쁜" 것을 예측하지만 자동으로 아무것도하지 않습니다.
계절/이벤트 일정 무시 (일치/토너먼트) → 잘못된 경보.
시간대 혼합 → 잘못된 메트릭/사건 창.
설명 불가능 → 불신, 명령으로 예측 변수를 비활성화합니다.
모든 도메인/지역에 대한 단일 글로벌 임계 값 → 낮은 정확도.

14) 도메인 특이성 (iGaming)

지불: 공급자/할당량, 성장 '다시 시도' 및 '회로 _ 열기' → 초기 가짜.
베팅: 계수 업데이트 지연, WS 팬 성장 → 브로드 캐스트 한계.
게임/라이브: 연결 스파이크, 스튜디오 제한 → UI 저하/캐시.
KYC/AML: 웹 후크 지연, 검증 대기열 → HITL 및 지연된 처리.

15) 지표 및 경고의 예 (아이디어)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) 예측 프로그램 KPI

사전 사고 탐지 속도.
사건 전 Avg 리드 타임.

P1/P2 QoQ의 감소

MTTR (초기 컨텍스트로 인해 예상되는 온라인).
허위 경보 속도/경보 피로 (안정적인 텍스트).
비용 회피.

17) 빠른 시작 (레시피)

1. p99/lag 및 SLO-burn에 대한 그라디언트 규칙 사용;

2. 공급자를위한 복합 조건을 추가하십시오.
3. 술어를 phicheflags 및 pre-scale에 연결하십시오.

4. 예측 → 행동 → 효과 보고서;

5. 하나의 도메인에서 ML 파일럿; 정밀/리콜 증가 후 규모.

18) FAQ

Q: ML없이 어디에서 시작해야합니까?
A: 계절별 기준선 + 그라디언트 + 복합 규칙. 이것은 합병증없이 리콜이 눈에 띄게 증가합니다.

Q: 민속 긍정에 빠지지 않는 방법?
A: 신호를 결합하고, 히스테리시스와 확인 시간을 입력하고, 도메인 당/영역 임계 값을 조정하고, 정밀 및 경보 피로를 평가하십시오.

Q: 먼저 자동화해야 할 조치는 무엇입니까?
A: 안전하고 가역적 인: 사전 스케일, 캐시/분해 가능, 일시 정지/롤백 카나리아, 확인 된 신호로 공급자 전환.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.