모델 모니터링

1) 왜

목표는 SLA/SLO, RG/AML/Legal 및 예산을 준수하면서 모델 솔루션의 품질과 안전성을 판매하는 것입니다. 모니터링은 조기 저하 (데이터, 교정, 대기 시간, 비용) 를 감지하고 예상되는 오류 비용을 최소화하며 재현성/감사를 보장해야합니다.

2) 모니터링 영역 (지도)

1. 가용성 및 성능: 대기 시간 p95/p99, 오류율, RPS, 오토 스케일.
2. 예측 품질: PR-AUC/KS (온라인 라벨), 교정 (ECE), 예상 비용 @ 임계 값.
3. 드리프트 및 안정성: 기능 및 속도 별 PSI/KL, 분포/범주 변경.
4. 적용 범위 및 완전성: 성공적으로 제공되는 요청의 공유, "빈" 기능의 공유, 적중률 캐시.
5. 슬라이스/공정성: 시장/공급자/장치/계정 연령별 측정 항목.
6. Guardrails (RG/AML): 정책 위반, 중재 빈도, 오 탐지/네거티브.
7. 비용: 비용/요청, 비용/기능, GPU/CPU-clock, 소형 파일/IO (배치/근처 RT 용).
8. 데이터/계약: 기능 체계, 버전, 온라인/오프라인 등가.

3) SLI/SLO (iGaming 용 랜드 마크)

대기 시간 p95: 개인화는 150 ms이며 RG/AML은 e2e를 사용하여 10 분의 1을 경고합니다.
가용성: 99 이상. 9%.
오류율은 5xx입니다. 5 분 창에서 5%.
적용 범위: 요청의 99% 이상이 유효한 속도와 솔루션을 받았습니다.

온라인 평가를위한 레이블의 신선도: 고속 프록시를위한 D + 1 (일일) -

드리프트 PSI: 기능/속도 <0. 2 (경고서 0. 1).
ECE 교정: 계정 0. 05.
예상 비용 _ live: 기본 모델 + X% 보다 높지 않음 (대상 X는 비즈니스에서 선택).

4) 신호 및 공식

4. 드리프트 1 개

PSI: 분포의 차이 (기차 대 prod) 를 빈으로 요약하십시오.

KL- 발산: "얇은" 꼬리에 민감한; 주요 기능/속도를 모니터링하십시오

요율에 대한 KS (레이블이있는 경우): 긍정적/음수에 대한 CDF 차이.

4. 2 교정

ECE (예상 교정 오류):	예측 된 prob-경험적 비율	바구니에.
신뢰성 곡선: 정확도 그래프 대 확률.

4. 3 예상 비용

작업 임계 값에서 최소화 (C = c _ {fp }\cdot FPR + c _ {fn }\cdot FNR); 라벨이 지연된 슬라이딩 창에서 온라인 카운트.

5) 라벨 소스

온라인 레이블 (빠른 프록시): 7 일 예금 이벤트, 클릭/변환, 완료된 RG 케이스.
지연된 레이블: 지불 거절/사기 (45-90 일), 장기 이탈/LTV.
규칙: 적시에 유지; "미래부터" 이벤트를 사용하지 마십시오.

6) 대시 보드 (최소 구성)

1. 작동: RPS, p50/p95/p99 대기 시간, 4xx/5xx, 채도, 자동 검사.
2. 품질: 점수 분배, PR-AUC (프록시 레이블), ECE, 예상 비용, KS.
3. 드리프트: 최고 기능, 참신 카테고리, 누락 속도, 기능 가져 오기 대기 시간별 PSI/KL.
4. 슬라이스/공정성: 시장/공급자/장치 별 PR-AUC/ECE/예상 비용.
5. Guardrails: RG/AML 위반, 중재/1k 요청, 허위 정지 률.
6. 비용: 비용/요청, CPU/GPU 시간, 캐시 적중률, 외부 조회.

7) 경고 (예: 규칙)

HighP95Latency: p95> 150 ms (5 분) → 페이지 SRE/MLops.
ErrorBurst: 5xx> 0. 5% (5 분) → 롤백 스크립트를 사용할 수 있습니다.
PSI _ Drift: PSI (amount _ base)> 0. 2 (15 분) → 워밍업 재교육.
ECE _ Bad: ECE> 0. 07 (30 분) → 교정/임계 값을 재구성합니다.
ExpectedCost _ Up: 벤치 마크 (1 일) 에 + X% → 롤백/과부하를 고려하십시오.
Slice _ Failure: R 시장의 PR-AUC는> Y% (1 일) → 티켓 도메인 소유자로 떨어졌습니다.
Guardrails _ Breach: 공격적인 제안의 공유> 캡 → 즉각적인 킬 스위치.

8) 로깅 및 추적

쿼리 로그 (최소): '요청 _ id', '추적 _ id', '모델 _ id/버전', '기능 _ 버전', '기능 _ 통계' (누락 된%, 극단), '점수', '결정', '임계 값', 'policy _ id', 'latency _ ms', 'latency _ ms', (선택적 설명)

OTel-тре여러 가지 방법으로 사용할 수 있습니다. '기능 _ 가져오기' → '사전 프로세스' → '점수' → '사후 프로세스' → '가드 레일'.
PII: 별칭/토큰 만; 정책 마스킹, 주요 거주지.

9) 온라인 품질 평가

빠른 라벨 (시간/일) 별로 PR-AUC/KS 용 슬라이딩 창.
보유 레이블: D + 7/D + 30/D + 90 소급 보고서, 예상 비용 조정.
교정: D + 1에 대한 동위 원소/Platt 재평가, 자동 새로 고침 아티팩트.

10) 결정 임계 값 및 정책

우리는 레지스터에서 임계 값을 설정으로 유지합니다. 온라인에서는 예상 비용과 허용 범위 (요율 제한) 내에서 조정을 고려합니다.

안전 한도: 동작의 상한/하한; 규정 준수에 대한 수동 재정의

백 테스트 임계 값: 어제 데이터에 대한 야간 시뮬레이션.

11) 슬라이스와 공정성

세그먼트: 시장/관할권, 공급자, 장치/ASN, 계정 연령, 예금 전력.
측정 항목: PR-AUC, ECE, 예상 비용, FPR/TPR 차이 (동일한 확률), 이질적인 영향.
동작: 슬라이스에 대한 교정/임계 값, 스케일로 재교육, 기능 수정.

12) 온라인/오프라인 동등성

평등 테스트 기능: 제어 샘플의 MAE/MAPE; > 임계 값을 변경할 때주의하십시오.
Versioning: 'facture _ spec _ version', 'logic _ version'; WORM 아카이브.
서킷 계약: 이중 항목 (v1/v2) 없이는 중단 변경이 허용되지 않습니다.

13) 가드 레일 (RG/AML)

필터 전/사후 작업, 주파수 제한, 대기 시간, 금지 목록.
'정책 _ id/성향/마스크/결정'; 위반을보고하십시오.
인터뷰 시간 및 허위 개입 속도 지표.

14) 사건과 런북

시나리오 및 단계:

1. Latency TP/5xx TP: 외부 기능 제공 업체를 확인하십시오 → 필요한 경우 캐시/타임 아웃 → 스케일 → 롤백을 활성화하십시오.

2. PSI/ECE/예상 비용 악화: 트래픽 동결 (카나리아), 대체 임계 값/모델 활성화, 재교육 실행.

3. 슬라이스 오류: 임시 슬라이스 특정 임계 값, 도메인 소유자 티켓.

4. 가드 레일 위반: 킬 스위치, 사례 감사, 해상 이후.

15) 비용과 성능

프로파일 링: 기능 가져오기 대 점수 대 IO의 시간 분쇄.
캐시 전략: TTL/퇴거, RAM의 인기 기능, 차가운 기능-게으른 기능.
모델 양자화/최적화: 품질을 유지하면서 FP16/INT8.
충전: 비용/요청, 팀/시장 별 비용/기능.

16) 예 (조각)

예상 비용 임계 값 (의사 코드):

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

프로 메테우스 (미터법 아이디어):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

경고 (아이디어):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) 프로세스 및 RACI

R (책임): MLops (관찰 가능성/경고/레지스트리), 데이터 과학 (품질 지표/보정/임계 값), Data Eng (기능/계약/동등성).
A (책임): 데이터/CDO 책임자.
C (컨설팅): 준수/DPO (PII/RG/AML/DSAR), 보안 (KMS/감사), SRE (SLO/Incidents), 금융 (비용).
I (정보): 제품/마케팅/운영/지원.

18) 로드맵

MVP (2-4 주):

1. 기본 SLI/SLO (대기 시간/5xx/적용 범위) + 대시 보드.

2. 상위 10 개 기능 및 점수 분배를위한 PSI; ECE 및 프록시 라벨에 예상 비용.

3. 결정 로그 + OTel 트레일; 온라인/오프라인 동등성 테스트.

4. HighP95Latency/PSI _ Drift/ECE _ Bad + runbook '및 경고.

2 단계 (4-8 주):

슬라이스/공정성 패널, 지연된 라벨의 야간 백필 메트릭.
자동 재 보정 및 임계 값 시뮬레이터.
기능/재생에 대한 비용 대시 보드 및 할당량/제한.

3 단계 (8-12 주):

카나리아 제어를 통한 자동 릴리스/재교육 드리프트.
품질 보고서 및 아티팩트의 WORM 아카이브.
혼돈 모니터링 테스트 및 DR 연습.

19) 배송 점검표

SLI/SLO는 그림자/카나리아에서 24 시간 이상 동의하고 모니터링했습니다.
PSI/KL, ECE, 예상 비용 및 PR-AUC는 온라인으로 간주됩니다. 임계 값 및 경고가 지정됩니다.
슬라이스/공정성 패널이 활성화됩니다. 세그먼트 소유자가 지정됩니
로그/트레일 완료 (결정, 임계 값, 마스크), PII 마스킹 및 레지던트가 충족되었습니다.
온라인/오프라인 녹색 평등 테스트; 계약에 따라 다이어그램이 있습니다.
런북 '및 원 클릭 롤백 테스트; 킬 스위치
예산에 적합한 비용; 캐시/할당량/제한이 활성화되었습니다.
메트릭/아티팩트 및 품질 보고서의 WORM 아카이브가 저장됩니다.

20) 반 패턴 및 위험

온라인 레이블 부족 및 소급 평가.
ROC-AUC는 예상 비용과 교정없이 만 모니터링합니다.
지역/장치에서 슬라이스/공정성 → 숨겨진 실패를 무시하십시오.
온라인/오프라인 기능 → "이중 현실" 은 동등하지 않습니다.
제로 가드 레일: 독성 제공, RG/AML 위반.
롤백/DR 계획이없고 WORM 아카이브가 없습니다.

21) 결론

모델 모니터링은 "일주일에 한 번 보지 않고 조기 경보 및 위험/비용 관리 시스템" 입니다. "SLO를 입력하고, 드리프트/보정/예상 비용을 측정하고, 트랙 슬라이스와 가드 레일을 측정하고, 롤백/킬 스위치 버튼, 자동화 보고서 및 재 훈련을 유지하십시오. 따라서 모델은 유용하고 윤리적이며 데이터 및 트래픽의 난기류를 준수합니다.

모델 모니터링

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다