Modellərin monitorinqi
1) Niyə
Məqsəd SLA/SLO, RG/AML/Legal və büdcələrə uyğun olaraq modelin həllərinin keyfiyyətini və təhlükəsizliyini qorumaqdır. Monitorinq deqradasiyanı (məlumat, kalibrləmə, latency, xərc) erkən aşkar etməli, genişlənmiş cost səhvlərini minimuma endirməli və təkrarlanabilirliyi/auditi təmin etməlidir.
2) Monitorinq sahələri (xəritə)
1. Mövcud və performans: latency p95/p99, error-rate, RPS, avtoskeyl.
2. Proqnozların keyfiyyəti: PR-AUC/KS (onlayn etiketlərdə), kalibrləmə (ECE), expected-cost @threshold.
3. Sürüklənmə və sabitlik: PSI/KL Fich və Speed, paylama/kateqoriyaların dəyişdirilməsi.
4. Əhatə dairəsi və dolğunluğu: uğurla xidmət edilən sorğuların payı, «boş» fiqurların payı, hit-rate caches.
5. Slice/Fairness: bazarlar/provayderlər/cihazlar/hesab yaşı.
6. Guardrails (RG/AML): siyasətin pozulması, müdaxilə tezliyi, yanlış pozitives/negatives.
7. Qiymət: cost/request, cost/feature, GPU/CPU-saat, small-files/IO (batch/near-RT üçün).
8. Verilənlər/müqavilələr: sxem fich, versiyalar, ekvivalentlik online/offline.
3) SLI/SLO (iGaming üçün göstəricilər)
Latency p95: personalizasiya ≤ 150 ms, RG/AML alert ≤ 5 e2e ilə.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5 min pəncərə üçün 5%.
Coverage: Sorğuların ≥ 99% -i etibarlı sürət və həll yolu aldı.
Online qiymətləndirmə üçün Freshness etiketləri: D + 1 (gündəlik), sürətli proxy üçün - ≤ 1 saat.
Drift PSI: Ficks/Skor <0. 2 (warning с 0. 1).
Kalibrləmə ECE: ≤ 0. 05.
Expected-cost_live: əsas model + X% -dən yüksək deyil (hədəf X biznes seçir).
4) Siqnallar və formullar
4. 1 Drift
PSI: paylama fərqi binaları (train vs prod).
KL divergensiyası: «nazik» quyruqlara həssasdır; əsas fich/skor üçün monitorinq.
Sürüşmə üçün KS (etiketlər olduqda): müsbət/mənfi üçün CDF fərqi.
4. 2 Kalibrləmə
4. 3 Expected-Cost
İş həddində minimuma endirmək (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); onlayn etiketləri ilə sürüşmə pəncərəsi hesab.
5) Etiket mənbələri
Online etiketlər (sürətli proxy): «7 gün ərzində depozit» hadisəsi, klik/dönüşüm, tamamlanmış RG case.
Gecikmiş etiketlər: chargeback/frod (45-90 gün), uzunmüddətli churn/LTV.
Qaydalar: as-of vaxt saxlamaq; «gələcəkdən» hadisələrdən istifadə etməyin.
6) Daşbordlar (minimal tərkibi)
1. Əməliyyat: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Keyfiyyət: score-distribution, PR-AUC (proxy etiketlərində), ECE, expected-cost, KS.
3. Drift: PSI/KL top-fich, novelty kateqoriyalar, missing-rate, feature-fetch latency.
4. Slice/Fairness: PR-AUC/ECE/expected-cost bazarlar/provayderlər/cihazlar.
5. Guardrails: RG/AML pozuntuları, müdaxilələr/1k sorğular, false-stop rate.
6. Qiymət: cost/request, CPU/GPU vaxt, cache hit-rate, xarici lookups.
7) Alertinq (nümunə qaydaları)
HighP95Latency: p95> 150 ms (5 dəq) → page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 dəq) → rollback skript mövcuddur.
PSI_Drift: PSI(amount_base) > 0. 2 (15 dəq) → warm-up retrain/kanarya geri dönüş.
ECE_Bad: ECE > 0. 07 (30 dəq) → kalibrləmə/həddi yenidən seçin.
ExpectedCost_Up: + X% to benchmark (1 gün) → geri/yenidən baxın.
Slice_Failure: R bazarında PR-AUC düşdü> Y% (1 gün) → domen sahibi sorğu.
Guardrails_Breach: aqressiv offerlərin payı> cap → dərhal kill-switch.
8) Log və Track
Sorğu qeydləri (minimum): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (isteğe bağlı) izahları (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: yalnız təxəllüslər/tokenlər; siyasət maskası, açarların rezidentliyi.
9) Online keyfiyyət qiymətləndirilməsi
PR-AUC/KS üçün sürüşmə pəncərələri (saat/gün).
Gecikmiş etiketlər: retrospektiv hesabatlar D + 7/D + 30/D + 90, düzəlişlər expected-cost.
Kalibrləmə: Isotonic/Platt-ın D + 1-də yenidən qiymətləndirilməsi, artefaktın auto-refresh.
10) Eşik və həll siyasəti
Eşik reyestrdə olduğu kimi saxlanılır; online expected-cost hesab və icazə verilən diapazonda düzəliş (rate-limited).
Safety-caps: yuxarı/aşağı fəaliyyət sərhədləri; komplayens üçün əl override.
Backtesting eşik: dünənki məlumatlarda nightly simulyasiya.
11) Slice & Fairness
Seqmentlər: bazar/yurisdiksiya, provayder, cihaz/ASN, hesab yaşı, depozit gücü.
Metriklər: PR-AUC, ECE, expected-cost, FPR/TPR fərqləri (equalized odds), disparate impact.
Fəaliyyət: slaytlar üzrə kalibrləmə/eşik, tərəzi ilə yenidən təlim, fich yenidən baxılması.
12) Online/offline ekvivalenti
Bərabərlik testi: Test nümunəsində MAE/MAPE; uyğunsuzluq> eşik.
Versiyası: 'feature _ spec _ version', 'logic _ version'; WORM arxivi.
Sxem müqavilələri: breaking-change ikiqat qeyd olmadan qadağandır (v1/v2).
13) Guardrails (RG/AML)
Pre-/Post-filter fəaliyyət, tezlik limitləri, cooldown, qadağan siyahıları.
Логи `policy_id/propensity/mask/decision`; pozuntuların hesabatı.
Time-to-intervene metrikası və false-intervention rate.
14) Hadisələr və runbook
Ssenarilər və addımlar:1. Latency ↑/5xx ↑: xarici fich provayderlərini yoxlayın → cache/taymautları aktiv edin → ölçmək → lazım olduqda rollback.
2. PSI/ECE/Expected-cost pisləşdi: freeze trafik (canary ↓), fallback/model daxil, retrain başlayın.
3. Slice uğursuzluq: müvəqqəti slays-spesifik eşik, domen sahibinə bilet.
4. Guardrails breach: kill-switch, cases audit, post-dəniz.
15) Qiymət və performans
Profil: feature-fetch vs score vs IO-da vaxt payı.
Cash strategiyaları: TTL/eviction, RAM-da «isti» fişlər, soyuq - lazy.
Modelin kvantlaşdırılması/optimallaşdırılması: keyfiyyəti qoruyarkən FP16/INT8.
Chargeback: komandalar/bazarlar üzrə cost/request, cost/feature.
16) Nümunələr (fraqmentlər)
expected-cost (psevdokod) üzrə eşik:python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus (metrik ideyalar):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert (fikir):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) Proseslər və RACI
R (Responsible): MLOps (müşahidə/alert/reyestr), Data Science (keyfiyyət metrikası/kalibrləmə/eşik), Data Eng (fırıldaq/müqavilələr/ekvivalentlik).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/audit), SRE (SLO/insidentlər), Finance (dəyər).
I (Informed): Məhsul/Marketinq/Əməliyyatlar/Dəstək.
18) Yol xəritəsi
MVP (2-4 həftə):1. Əsas SLI/SLO (latency/5xx/coverage) + dashboard.
2. PSI top 10 fich və score-distribution üçün; ECE və proxy etiketlərində expected-cost.
3. Həllərin qeydləri + OTel treysləri; online/offline ekvivalent testi.
4. Alertlər HighP95Latency/PSI_Drift/ECE_Bad + runbook '.
Faza 2 (4-8 həftə):- Slice/fairness panelləri, nightly backfill gecikmiş etiketlərdə metrik.
- Avtomatik yenidən seçmə kalibrləmə və hədd simulyatoru.
- Cost-dashboard və kvotalar/Fich/Replay limitləri.
- Kanarya nəzarəti ilə avtomatik relaut/retrain drift.
- WORM-keyfiyyət hesabatları arxivləri və artefaktlar.
- Chaos monitorinq testləri və DR təlimləri.
19) Hazırlıq yoxlama siyahısı
- SLI/SLO razılaşdırılmış və 24 saat ≥ shadow/canary monitor.
- PSI/KL, ECE, expected-cost və PR-AUC online hesab olunur; həddi və həyəcan verilir.
- Slice/fairness panelləri daxildir; seqment sahibləri təyin.
- Tam log/treys (həllər, eşik, maskalar), PII-maskalama və rezidentlik müşahidə olunur.
- Online/offline yaşıl ekvivalent test; sxemləri kontrakt altında phich.
- Runbook 'və bir-click rollback yoxlanılır; kill-switch для guardrails.
- Xərclər büdcələrə uyğundur; cache/kvotalar/limitlər aktiv.
- WORM-Archive metrik/artefaktlar və keyfiyyət hesabatları saxlanılır.
20) Anti-nümunələr və risklər
Online etiketlərin olmaması və retrospektiv qiymətləndirmə.
expected-cost və kalibrləmə olmadan yalnız ROC-AUC monitorinqi.
İqnor slice/fairness → bölgələrdə/cihazlarda gizli uğursuzluqlar.
Heç bir ekvivalenti online/offline → «ikili reallıq».
Sıfır guardrails: zəhərli offerlər, RG/AML pozuntuları.
Heç bir geri planları/DR, heç bir WORM arxiv.
21) Yekun
Model monitorinqi «həftədə bir dəfə baxmaq» deyil, erkən xəbərdarlıq və risk/dəyər idarəetmə sistemidir. SLO daxil edin, drift/kalibrləmə/expected-cost ölçün, slays və guardrails izləyin, rollback/kill-switch düymələrini saxlayın, hesabatları və retrainləri avtomatlaşdırın. Beləliklə, modellər məlumatların və trafikin hər hansı bir turbulentliyi zamanı faydalı, etik və uyğun olaraq qalacaq.