GH GambleHub

변칙적 탐지

변칙적 탐지

Anomaly Detection은 "규범" 에서 벗어난 데이터의 비정상적인 관찰, 패턴 또는 변경 사항을 식별하며 장애, 사기, 보안 사고, 데이터 오류 또는 드문 비즈니스 이벤트를 나타낼 수 있습니다. 아래는 작업 공식화에서 경보 작동 및 관리에 이르기까지 체계적인 견해입니다.

1) 이상 및 진술의 유형

포인트 이상: 표준 이외의 단일 관측 (한 사용자의 예금 급증).
상황: 상황에 맞는 편차 (밤에는 높은 부하-낮에는-이상).
집단: 특이한 순서의 일반 포인트 그룹 (일련의 소규모 거래).
구조: 변화점; 새로운 계절).
데이터 품질 이상: 누락, 복제, 접착제, 타임 스탬프의 잘못된 정렬, "평면" 센서.

훈련 모드:
  • 감독: 눈에 띄는 이상이 있습니다 (희귀하고 비싸다).
  • 반 감독 (1 급): 우리는 "규범" 을 가르칩니다. 다른 모든 것은 비정상입니다.
  • 비 감독: 태그없이 "희귀/먼" 을 찾고 있습니다.

2) 데이터 및 준비

정상적인 한계: 지평과 계절 (시간/일/주), 달력 이벤트, 주말, 프로모션.
특징: 지연, 슬라이딩 통계 (평균/중앙값/EMA), 양수 기능, 범주 인코딩, 희귀 카운터, 창 집계 7/30/90.
청소: 중복 제거, 시간대 보정, 주파수 이퀄라이제이션, 건너 뛰기 처리 (보간/전진/복구 모델).
표준화/견고성: 방출 저항에 대한 RobustScaler/ranks/vinzorization.
적시 정확성: 기능을 생성 할 때 향후 누출이 없습니다.

3) 탐지 방법

3. 1. 통계 및 규칙

z 점수/견고한 z (중앙값, MAD), IQR/박스 플롯, 자신감 회랑이있는 지수 평활화.
제어 카드 (Shewhart, CUSUM, EWMA): 생산 공정 및 유량 측정 항목.
양자 임계 값 (창으로 동적), 계절별 양자 임계 값.

3. 2. 거리, 밀도, 클러스터

kNN 거리, LOF (Local Outlier Factor) 는 로컬 희귀 성입니다.
DBSCAN/HDBSCAN-클러스터 외부의 노이즈 포인트.
PCA/강력한 PCA-이상 → 높은 잔류 오류/SPE 통계; Hotelling의 T ².

3. 3. 앙상블과 나무

격리 숲-짧은 방법으로 희귀 지점을 분리합니다.
음식을위한 빠른베이스 라인 인 기본 규칙에 따른 무작위 쓰레기 보유/배깅.

3. 4. 재건과 확률

자동 인코더/VAE (시퀀스에 대한 LSTM/변압기 포함): 이상 = 높은 재구성 오류.
확률 적 예측: 예측 된 간격을 넘어서-신호.
정규화 변환의 베이지안 모델/스트림-명시 적 불확실성.

3. 5. 시계열 및 모드 변경

ARIMA/ETS/Prophet/TBATS-예측 + 편차.
변경 지점 감지: BOCPD, RuLSIF/발산 기준, Pruned Exact Linear Time (PELT).
매트릭스 프로파일/Discord 검색 - "가장 다른 서브 시작" 을 검색하십시오.

3. 6. 다차원 및 그래프

다변량 TS: VAR, TCN/TFT, LSTM-VAE; 상관 관계 및 공동 신뢰 구간.
열: 비정상적인 하위 경로/노드 (예: 네트워크 트래픽 또는 결제 체인).

4) 방법 선택: 실제 행렬

시나리오데이터추천
판매 지표, 원격 측정흐름, 계절성EWMA/CUSUM + 양자 복도; 그런 다음 두 번째 층으로 격리 숲
사기/거래불균형 판기준선으로서의 LOF/격리 숲 → 자동 인코더/VAE; 도메인 규칙 추가
판매/시장일일 행선지자/TBATS + 양자 간격; 조정을위한 변경 지점
데이터 품질원시 로그품질 규칙 + 통계; 스키마//복제본에 대한 알림
이벤트 흐름실시간CUSUM/EWMA + 경량 일류 모델의 온라인 버전; 지연 제한

5) 드문 이상에 대한 품질 평가

불균형: ROC-AUC는 오도 될 수 있습니다. PR-AUC, 정밀 @ k, 리콜 @ FPR

시간 측정법: "초기 탐지" 의 비율 인 평균 탐지 시간 (ATTD).
안정성: 펄핑 비율 (빈번한 온/오프 경고), "조용한" 기간의 평균 길이.
비용 기반: 비용 행렬 (거짓 양성/거짓 음수), 사고 가치를 피했습니다.
검증: 시간 분할, 시간 외 창문, 그룹 분할 (사용자/장치별), 백 테스트.

6) 임계 값 전략 및 교정

정적 임계 값: 단순하지만 계절에 따라 깨지십시오.
동적: 세그먼트 당/시간당 양자화, 부하 및 조용한 시간에 적응.
속도 별 지각: 99. 5/99. 고정밀도의 경우 9 위; 카테고리별로 버킷 당 수행 할 수 있습니다.
점수 교정: 확률에 대한 동위 원소/온도; 스무딩 경고 ("N of M").
히스테리시스: 이상 상태를 입력/종료하기위한 다른 임계 값.

7) 해석 및 RCA (근본 원인 분석)

글로벌: 이득/순열, PCA 부하, 세그먼트 프로파일, 재구성 오류에 대한 구성 요소 기여.
로컬: 경사로 또는 보조 모델의 경사로/LIME.
시리즈 속성: 추세/계절/회귀 자 (휴일, 캠페인) 의 기여.
세부 사항: "비정상 세그먼트 → 비정상 기능 → 비정상 객체".
인과 관계: "진정한" 변칙의 마케팅 효과 사무실에 대한 차이 차이/контракт달러.

8) 생산 및 MLop

서빙: 동기 (낮은 대기 시간, gRPC/REST) 및 비동기 (배치/마이크로 패치).
Fichestor: 기능 생성을위한 온라인/오프라인 일관성, 포인트 인 타임, SLA.
검증: 모델, 임계 값, 체계, 구성; 아티팩트 및 데이터 "캐스트" 를 저장합니다.
경고: 우선 순위 지정 (P1-P3), 중복 제거, 창문 억제 (야간/공휴일), 정규화 중 자동 폐쇄.
실패: 규칙/간단한 탐지기, 타임 아웃, QPS 제한에 대한 자동 저하.
Shadow/Canary: 새로운 검출기와 현재 검출기의 비교, offline- → shadow-→ Canary-→ full.
피드백 루프: 경고 표시 인터페이스, 반자동 릴레이 및 교육.

9) 경보 피로 감소

번들링: 그룹 경고는 한 사건으로 시간/세그먼트가 닫힙니다.
경고에 대한 SLO: 교대 당 정밀/수의 경고를 목표로합니다.
확대 정책: 지속 시간/규모에서 우선 순위의 성장.
속도 제한: 창당 N 개 이하의 경고; 트리거 후 "조용한시기".
2 단계 구성 요소: 저렴한 거친 검출기 (높은 리콜) + 고가의 정밀 검증기.

10) 구현 점검표

  • 이상의 유형과 탐지의 비즈니스 가치 식별
  • 계절성/달력을 고려합니다. 구축 된 컨텍스트 특성
  • 빠른 기준선 + 잠재적으로 더 복잡한 방법 선택
  • 임계 값 전략 (동적/세그먼트 당) 및 히스테리시스
  • 측정: PR-AUC, ATTD, 비용 측정, 세그먼트 보고서
  • 통역 계획 및 RCA; 대시 보드 드릴 다운
  • 경보 정책, 억제, 중복 제거
  • 로깅 스코어링, 버전, 입력 기능; 다시 테스트 재생
  • 재 훈련 절차 및 드리프트 제어 (PSI/JS-div)
  • 문서: 데이터 계약, SLO, Runibook

11) 전형적인 패턴

"예측 + 편차": 간격을 넘어 설 때 확률 적 예측 (정량 5-95%) 을 훈련시킵니다.
"재구성 자": 높은 재구성 오류에 대한 자동 인코더/견고한 PCA → 경고.
"절연체": 표/다중화를위한 격리 숲; 빠르고 적은 설정.
"국소 희귀 성": LOF/kNN 거리-밀도가 다른 세그먼트에 적합합니다.
"정권 변경": BOCPD/PELT + 원인 검증 (릴리스, 프로모션, 사건).
"2 단계": 규칙 기반 필터 → ML 검증 기 (잘못된 감소).

12) 탐지기 모니터링

품질: 슬라이딩 윈도우의 PR-AUC/pelluction @ k/ATTD, 확인 된 경고 공유.
데이터: 누락, 지연, 특이한 카디널리티, 일련의 이벤트.
드리프트: 주요 기능과 속도에 따른 PSI/KL/JS, 대상 드리프트 (표시된 경우).
운영 체제: 추론 지연, QPS, 내결함, 분해 비율.

13) 마킹 및 적극적인 훈련

마킹 전략: 최고 속도, 다양한 클러스터, "테두리" 사례.
합성: 스트레스 테스트를위한 이상 주사 (제어).

적극적인 학습: 논란의 여지가있는 사건에 대한 레이블을 분석

약한 감독: 약한 레이블 + 레이블 애그리 게이터로서의 규칙/휴리스틱.

14) 안전, 윤리, 준수

개인 정보 보호: 필드 최소화, 가명, 역할 액세스.
투명성: 경보 원인 설명 및 자동화 작업.
감사: 의사 결정 로그, 임계 값/버전/데이터의 재현성.
공정성: 세그먼트 별 바이어스 제어 (특히 사기 방지/채점).

미니 용어집

변경 지점: 시리즈 분포/모드 변경 순간.
PR-AUC: 정밀 리콜 곡선 아래의 영역은 드문 양수로 안정적입니다.
PSI: 인구 안정성 지수, 분포 드리프트 지표.
매트릭스 프로파일/Discord: "가장 다른" 하위 시퀀스를 찾는 방법.

합계

효과적인 이상 감지 루프는 하나의 "스마트" 알고리즘이 아니라 올바른 컨텍스트 (계절/달력), 강력한 기능, RCA에 의해 해석 된 잘 생각 된 임계 값 정책, 엄격한 운영 체제 (SLO/경고 정책) 피드백을 통한 개선주기. 이 방법은 고장의 조기 발견에서 손실 방지에 이르기까지 잘못된 경보를 줄이고 이상의 실제 이점을 증가시킵니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.