작업에서 이상 감지
1) 왜
Anomalies는 사건과 재정적 손실의 초기 지표입니다. iGaming에서는 성공적인 승인, 타임 아웃 버스트, 대기열 증가, KYC 변환 실패, 베팅 편차 점프, 게임 제공 업체의 오류가 감소합니다. 목표는 사용자 앞에서 감지하고 원인을 현지화하며 자동/연산자 반응을 시작하는 것입니다.
2) 신호 및 관찰 도메인
지불/금융: PSP/은행/GEO의 성공률 승인, 소프트/하드 감소, 청산 시간, 청구 초기 지표.
게임 코어: p95/p99 베팅 및 세트, 오류율, 균형 불일치, 승률/라인의 특이 치.
인프라: 대기 시간/5xx API, 채도 (CPU/RAM/IO), 복제 지연 DB, 소비자 지연 대기열, 캐시 적중/퇴거.
KYC/AML: 검증 대기열, TAT (턴어라운드 시간), 수동 점검 공유.
전면/RUM: TTFB/LCP, JS 오류, 지리적 분해.
보안/사기: 입력/등록/출력 버스트, 속도 이상, 비정형 패턴.
3) 이상의 유형
포인트: 일회성 스파이크/딥 (예: EU에서 성공률이 20% 감소).
상황: "이 시간/일/이벤트에 비정상" (야간 피크-확인, 낮-아니오).
집단: 사건을 형성하는 일련의 작은 편차 (크리핑 성장 p99).
변경 지점: 새로운 수준의 시리즈 (릴리스/구성/제공자 후).
4) 탐지 방법 (간단하고 복잡한)
1. 임계 값 규칙은 정적 또는 동적입니다 (슬라이딩 창 백분위 수, 중앙값 λk· MAD).
2. 계절 분해 (STL): 추세/계절 → 잔류 분석 (잔류) 및 IQR/MAD.
3. 제어 차트 (CUSUM/EWMA): 작은 평균/분산 이동에 민감합니다.
4. 포인트 감지 변경: BOCPD, 파열/PELT; 모드 변경 순간을 수정합니다.
5. 다차원 이상: Mahalanobis, 기능 세트 별 격리 숲/LOF (대기 시간, 오류율, 지연, 적중 비율).
6. 스트림 방법 (스트림): ADWIN, SSD, 스케치 통계; 대기 시간이 짧고 메모리가 제한되어 있습니다.
7. 예측 + 델타: ARIMA/ETS/Prophet/GBM → 사실과 신뢰 구간 (특히 비즈니스 시리즈) 의 비교.
8. 세미 제어 ML: 마크 업이 좋지 않은 데 유용한 "규범" (1 클래스 SVM/자동 인코더) 에 대한 교육.
실습: 투표 또는 우선 순위에 따라 2-3 가지 방법을 결합하고 집계 (규칙: 계절 STL + CUSUM + 예측 테이프).
5) 파이프 라인 이상: 데이터에서 동작까지
1. 수집 → 정규화: 통합 시리즈 (OTel/metrics), 단일 세분성 (10-60 초).
2. 특징 및 맥락: GEO/PSP/은행/채널, "작업 시간?", "매치/토너먼트?", 릴리스/피체 플래그, 계획된 작업.
3. 계절성 및 일정: 주말/프라임 시간/경기/공휴일에 대한 모델을 인식하십시오.
4. 검출기: 세그먼트 당 매개 변수가있는 선택된 메소드 (임계 값/통계/ML/스트림).
5. 소음 억제: 히스테리시스 및 여러 창 (N-of-M) 으로 확인, 사고 교착 상태.
6. 정보 및 우선 순위: 영향 평가 (SLO, 돈/분, 청중 점유율), P1-P4 할당.
7. 반응: 자동 작업 (PSP feilover, 지연으로 인한 열화 기능), 사고 및 var-room 생성, 상태 페이지 업데이트.
8. 로깅 및 감사: 작동 한 작업/이유, 임계 값/모델 버전, 통신.
6) 임계 값 및 품질 보정
"이상 사고" 에 대한 정밀/리콜/F1.
TTD (Time-to-Detect): 목표는 사용자/지원의 MTTA 이전입니다.
잘못된 경보 속도: P1/P2의 목표는 5-10% 입니다.
리드 타임: 탐지와 SLO 위반 사이의 창-자동 작업 기회를 제공합니다.
드리프트 모니터링: 일정 및 시즌/아키텍처 변경시 재교육/재 보정.
7) Anomaly 카탈로그 (iGaming 예제)
7. 1 지불
TR/EU에서 PSP-X의 성공 실패: 상황-특정 BIN 은행, 창 5-10 분.
정상적인 트래픽으로 소프트 감소 성장: 가능한 3DS/발행자 문제.
지연 지연: 현금 격차의 위험.
반응: 대체 PSP (health × fee × 변환) 로 라우팅, 지터로 다시 트레이, 단순화 된 3DS 포함, 파트너에게 comm 패키지.
7. 2 베팅/게임
베팅 테이블 p99 점프 복제본/캐시/큐.
예상되는 GGR과 표준 사이의 격차: 토너먼트/스포츠 이벤트의 상황 이상.
반응: 캐시 예열, 부하 재분배, 중요하지 않은 기능의 일부 보유.
7. 3 인프라/데이터
복제 시차가 지연되고 잠금 대기: 데이터베이스 과부하.
소비자 지연 점프: 파티 오해 또는 핫 키.
반응: 오토 스케일, 파싱, 생산자 한계.
7. 4 KYC/AML
verifikatsii TP 시간: 공급자가 저하되고 있습니다.
반응: 대체 공급자/수동 대기열, 준수 알림.
7. 5 전면/RUM
특정 브라우저/버전의 LCP/JS 오류: 릴리스 회귀.
반응: 카나리아 롤백, 기능 플래그 오프, 상태 페이지의 메시지.
8) SLO 인식 경고
이상 신호는 오류 예산에 영향을 미치거나 연소율을 예측하면 경고가됩니다.
두 개의 창: 빠른 (1 시간) 및 느린 (6-24 시간); 충격이 큰 P1만을위한 "즉시 호출기".
모든 경고는 런북 및 소유자 역할에 구속됩니다.
9) 솔루션 아키텍처
주입: OTel/metrics → Kafka/stream → 처리 프레임 워크 (Flink/Spark/Kafka Streams).
물리 공학: 집계, 계절 지표, PSP/뱅크/GEO에 의해 인기.
검출기: 버전이 포함 된 통계 + 모델 (온라인/미니 배치) 라이브러리.
결과 저장소: 문맥, 사고 관리와의 연결이있는 "아노마 라인" (이벤트).
의사 결정 서비스: 우선 순위 지정, 자동 반응, 상태 페이지/채널에 게시.
관찰 가능성: 모델 품질 그래프, 드리프트 알람, 주입 비용.
10) 비용과 프라이버시
비용 인식: 입력 시리즈의 샘플링, 역사의 다운 샘플링, 집계; 별도의 QoS 클래스.
PII: 메트릭으로 user Id를 기록하지 마십시오. 분석 - 토큰 화/마스크 및 SoD 액세스; TTL/암호화를 통한 워크 플로우를 통한 내보내기.
11) 프로세스 및 역할
책임: 해당 도메인의 SRE/관찰 성/지불 위험.
책임: Ops/SRE 책임자.
상담: 데이터 과학, 제품, 준수, 보안.
정보: 지원, 파트너 관리, 재무.
의식: 매주 임계 값/규칙 교정, 허위/누락 된 신호에 대한 월별 복고풍.
12) 대시 보드
Exec: 도메인 별 이상 맵, 잘못된/진정한 경보 추세, TTD 및 리드 타임, 수익/SLO 영향.
Ops/SRE: 컨텍스트 (릴리스/플래그/계획된 작업), STL 잔류 물 배포, 변경 포인트 카드가있는 테이프를 감지합니다.
지불/위험: PSP 히트 카드 × GEO × 뱅크, 고장 깔때기, 자동 라우팅 및 측정 효과.
Front/RUM: 브라우저 × 버전 × GEO, 릴리스 회귀, VIP 경험.
13) KPI/KRI 기능
SLO 위반 전 TTD (min) 및 리드 타임 (min).
사건 연계 정밀/리콜/F1.
허위 경보 속도 및 호출기 할당량 (통화 피로).
수동 개입없이 문제를 해결 한 자동 반응 비율.
구현 후 MTTR 감소.
비용/가치: $/경고 및 피할 수없는 손실로 인한 절약.
14) 구현 로드맵 (8-12 주)
네드. 1-2: SLI/KPI 인벤토리, 우선 순위 시리즈 선택 (지불/요금/대기열/DB), 기본 임계 값 및 STL.
네드. 3-4: 스트리밍 (Kafka + Flink/Streams), 컨텍스트 (GEO/PSP/releases), 히스테리시스 및 디드 업.
네드. 5-6: 체인지 포인트 + CUSUM, 비즈니스 시리즈 용 예측 테이프, 사고 플랫폼 통신, 런북.
네드. 7-8: 자동 반응 (PSP-feilover, 지연으로 인한 열화 기능), 대시 보드 및 품질 측정 항목.
네드. 9-10: 파일럿 도메인의 다변량 모델 (Isolation Forest/IForest/AE), 드리프트 모니터링.
네드. 11-12: 비용 최적화, A/B 임계 값 보정, 월별 검토 규정 및 팀 교육.
15) 아티팩트 패턴
변칙적 스펙: 신호, 세분화 (GEO/PSP/뱅크), 방법, 임계 값, 창, 히스테리시스, 소유자, 런북, 자동 반응.
변경 사항 보고서: 시간, 구성 요소, 레벨 전/후, 상관 관계 (릴리스/기능 플래그/작업).
품질 대시 보드 정의: 품질 지표, 대상 경계, 검토 기간.
자동 조치 정책: 자동 조치 조건 및 한계, 반품 기준, 감사.
16) 안티 패턴
계절성 및 세분화가없는 범용 정적 임계 값.
히스테리시스 → 펄럭이지 않고 "호출기 피로".
SLO/머니 컨텍스트 외부의 경고 → 많은 소음, 거의 사용하지 않습니다.
설명 및 로깅없이 ML "블랙 박스".
릴리스/phicheflags/계획 작업과 관련이 없습니다.
보조 행의 주입/저장 비용을 무시하십시오.
합계
변칙적 탐지는 모델뿐만 아니라 프로세스 및 플랫폼입니다. 올바른 신호 및 컨텍스트 → 지속 가능한 방법 (STL/CUSUM/CPD/예측) → SLO/수익에 의한 노이즈 감소 및 우선 순위 지정 → 자동 반응 및 이해할 수있는 런북 → 품질과 비용. 이러한 회로는 사용자보다 먼저 문제를 해결하고 MTTR을 줄이며 iGaming 플랫폼의 비즈니스 흐름을 보호합니다