Modellərin monitorinqi

1) Niyə

Məqsəd SLA/SLO, RG/AML/Legal və büdcələrə uyğun olaraq modelin həllərinin keyfiyyətini və təhlükəsizliyini qorumaqdır. Monitorinq deqradasiyanı (məlumat, kalibrləmə, latency, xərc) erkən aşkar etməli, genişlənmiş cost səhvlərini minimuma endirməli və təkrarlanabilirliyi/auditi təmin etməlidir.

2) Monitorinq sahələri (xəritə)

1. Mövcud və performans: latency p95/p99, error-rate, RPS, avtoskeyl.
2. Proqnozların keyfiyyəti: PR-AUC/KS (onlayn etiketlərdə), kalibrləmə (ECE), expected-cost @threshold.
3. Sürüklənmə və sabitlik: PSI/KL Fich və Speed, paylama/kateqoriyaların dəyişdirilməsi.
4. Əhatə dairəsi və dolğunluğu: uğurla xidmət edilən sorğuların payı, «boş» fiqurların payı, hit-rate caches.
5. Slice/Fairness: bazarlar/provayderlər/cihazlar/hesab yaşı.
6. Guardrails (RG/AML): siyasətin pozulması, müdaxilə tezliyi, yanlış pozitives/negatives.
7. Qiymət: cost/request, cost/feature, GPU/CPU-saat, small-files/IO (batch/near-RT üçün).
8. Verilənlər/müqavilələr: sxem fich, versiyalar, ekvivalentlik online/offline.

3) SLI/SLO (iGaming üçün göstəricilər)

Latency p95: personalizasiya ≤ 150 ms, RG/AML alert ≤ 5 e2e ilə.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5 min pəncərə üçün 5%.
Coverage: Sorğuların ≥ 99% -i etibarlı sürət və həll yolu aldı.
Online qiymətləndirmə üçün Freshness etiketləri: D + 1 (gündəlik), sürətli proxy üçün - ≤ 1 saat.
Drift PSI: Ficks/Skor <0. 2 (warning с 0. 1).
Kalibrləmə ECE: ≤ 0. 05.
Expected-cost_live: əsas model + X% -dən yüksək deyil (hədəf X biznes seçir).

4) Siqnallar və formullar

4. 1 Drift

PSI: paylama fərqi binaları (train vs prod).
KL divergensiyası: «nazik» quyruqlara həssasdır; əsas fich/skor üçün monitorinq.
Sürüşmə üçün KS (etiketlər olduqda): müsbət/mənfi üçün CDF fərqi.

4. 2 Kalibrləmə

ECE (Expected Calibration Error):	predicted-prob − empirical-rate	səbət.
Reliability curve: dəqiqlik qrafiki vs ehtimal.

4. 3 Expected-Cost

İş həddində minimuma endirmək (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); onlayn etiketləri ilə sürüşmə pəncərəsi hesab.

5) Etiket mənbələri

Online etiketlər (sürətli proxy): «7 gün ərzində depozit» hadisəsi, klik/dönüşüm, tamamlanmış RG case.
Gecikmiş etiketlər: chargeback/frod (45-90 gün), uzunmüddətli churn/LTV.
Qaydalar: as-of vaxt saxlamaq; «gələcəkdən» hadisələrdən istifadə etməyin.

6) Daşbordlar (minimal tərkibi)

1. Əməliyyat: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Keyfiyyət: score-distribution, PR-AUC (proxy etiketlərində), ECE, expected-cost, KS.
3. Drift: PSI/KL top-fich, novelty kateqoriyalar, missing-rate, feature-fetch latency.
4. Slice/Fairness: PR-AUC/ECE/expected-cost bazarlar/provayderlər/cihazlar.
5. Guardrails: RG/AML pozuntuları, müdaxilələr/1k sorğular, false-stop rate.
6. Qiymət: cost/request, CPU/GPU vaxt, cache hit-rate, xarici lookups.

7) Alertinq (nümunə qaydaları)

HighP95Latency: p95> 150 ms (5 dəq) → page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 dəq) → rollback skript mövcuddur.
PSI_Drift: PSI(amount_base) > 0. 2 (15 dəq) → warm-up retrain/kanarya geri dönüş.
ECE_Bad: ECE > 0. 07 (30 dəq) → kalibrləmə/həddi yenidən seçin.
ExpectedCost_Up: + X% to benchmark (1 gün) → geri/yenidən baxın.
Slice_Failure: R bazarında PR-AUC düşdü> Y% (1 gün) → domen sahibi sorğu.
Guardrails_Breach: aqressiv offerlərin payı> cap → dərhal kill-switch.

8) Log və Track

Sorğu qeydləri (minimum): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (isteğe bağlı) izahları (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: yalnız təxəllüslər/tokenlər; siyasət maskası, açarların rezidentliyi.

9) Online keyfiyyət qiymətləndirilməsi

PR-AUC/KS üçün sürüşmə pəncərələri (saat/gün).
Gecikmiş etiketlər: retrospektiv hesabatlar D + 7/D + 30/D + 90, düzəlişlər expected-cost.
Kalibrləmə: Isotonic/Platt-ın D + 1-də yenidən qiymətləndirilməsi, artefaktın auto-refresh.

10) Eşik və həll siyasəti

Eşik reyestrdə olduğu kimi saxlanılır; online expected-cost hesab və icazə verilən diapazonda düzəliş (rate-limited).
Safety-caps: yuxarı/aşağı fəaliyyət sərhədləri; komplayens üçün əl override.
Backtesting eşik: dünənki məlumatlarda nightly simulyasiya.

11) Slice & Fairness

Seqmentlər: bazar/yurisdiksiya, provayder, cihaz/ASN, hesab yaşı, depozit gücü.
Metriklər: PR-AUC, ECE, expected-cost, FPR/TPR fərqləri (equalized odds), disparate impact.
Fəaliyyət: slaytlar üzrə kalibrləmə/eşik, tərəzi ilə yenidən təlim, fich yenidən baxılması.

12) Online/offline ekvivalenti

Bərabərlik testi: Test nümunəsində MAE/MAPE; uyğunsuzluq> eşik.
Versiyası: 'feature _ spec _ version', 'logic _ version'; WORM arxivi.
Sxem müqavilələri: breaking-change ikiqat qeyd olmadan qadağandır (v1/v2).

13) Guardrails (RG/AML)

Pre-/Post-filter fəaliyyət, tezlik limitləri, cooldown, qadağan siyahıları.
Логи `policy_id/propensity/mask/decision`; pozuntuların hesabatı.
Time-to-intervene metrikası və false-intervention rate.

14) Hadisələr və runbook

Ssenarilər və addımlar:

1. Latency ↑/5xx ↑: xarici fich provayderlərini yoxlayın → cache/taymautları aktiv edin → ölçmək → lazım olduqda rollback.

2. PSI/ECE/Expected-cost pisləşdi: freeze trafik (canary ↓), fallback/model daxil, retrain başlayın.

3. Slice uğursuzluq: müvəqqəti slays-spesifik eşik, domen sahibinə bilet.

4. Guardrails breach: kill-switch, cases audit, post-dəniz.

15) Qiymət və performans

Profil: feature-fetch vs score vs IO-da vaxt payı.
Cash strategiyaları: TTL/eviction, RAM-da «isti» fişlər, soyuq - lazy.
Modelin kvantlaşdırılması/optimallaşdırılması: keyfiyyəti qoruyarkən FP16/INT8.
Chargeback: komandalar/bazarlar üzrə cost/request, cost/feature.

16) Nümunələr (fraqmentlər)

expected-cost (psevdokod) üzrə eşik:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometheus (metrik ideyalar):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

Alert (fikir):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) Proseslər və RACI

R (Responsible): MLOps (müşahidə/alert/reyestr), Data Science (keyfiyyət metrikası/kalibrləmə/eşik), Data Eng (fırıldaq/müqavilələr/ekvivalentlik).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/audit), SRE (SLO/insidentlər), Finance (dəyər).
I (Informed): Məhsul/Marketinq/Əməliyyatlar/Dəstək.

18) Yol xəritəsi

MVP (2-4 həftə):

1. Əsas SLI/SLO (latency/5xx/coverage) + dashboard.

2. PSI top 10 fich və score-distribution üçün; ECE və proxy etiketlərində expected-cost.

3. Həllərin qeydləri + OTel treysləri; online/offline ekvivalent testi.

4. Alertlər HighP95Latency/PSI_Drift/ECE_Bad + runbook '.

Faza 2 (4-8 həftə):

Slice/fairness panelləri, nightly backfill gecikmiş etiketlərdə metrik.
Avtomatik yenidən seçmə kalibrləmə və hədd simulyatoru.
Cost-dashboard və kvotalar/Fich/Replay limitləri.

Faza 3 (8-12 həftə):

Kanarya nəzarəti ilə avtomatik relaut/retrain drift.
WORM-keyfiyyət hesabatları arxivləri və artefaktlar.
Chaos monitorinq testləri və DR təlimləri.

19) Hazırlıq yoxlama siyahısı

SLI/SLO razılaşdırılmış və 24 saat ≥ shadow/canary monitor.
PSI/KL, ECE, expected-cost və PR-AUC online hesab olunur; həddi və həyəcan verilir.
Slice/fairness panelləri daxildir; seqment sahibləri təyin.
Tam log/treys (həllər, eşik, maskalar), PII-maskalama və rezidentlik müşahidə olunur.
Online/offline yaşıl ekvivalent test; sxemləri kontrakt altında phich.
Runbook 'və bir-click rollback yoxlanılır; kill-switch для guardrails.
Xərclər büdcələrə uyğundur; cache/kvotalar/limitlər aktiv.
WORM-Archive metrik/artefaktlar və keyfiyyət hesabatları saxlanılır.

20) Anti-nümunələr və risklər

Online etiketlərin olmaması və retrospektiv qiymətləndirmə.
expected-cost və kalibrləmə olmadan yalnız ROC-AUC monitorinqi.
İqnor slice/fairness → bölgələrdə/cihazlarda gizli uğursuzluqlar.
Heç bir ekvivalenti online/offline → «ikili reallıq».
Sıfır guardrails: zəhərli offerlər, RG/AML pozuntuları.
Heç bir geri planları/DR, heç bir WORM arxiv.

21) Yekun

Model monitorinqi «həftədə bir dəfə baxmaq» deyil, erkən xəbərdarlıq və risk/dəyər idarəetmə sistemidir. SLO daxil edin, drift/kalibrləmə/expected-cost ölçün, slays və guardrails izləyin, rollback/kill-switch düymələrini saxlayın, hesabatları və retrainləri avtomatlaşdırın. Beləliklə, modellər məlumatların və trafikin hər hansı bir turbulentliyi zamanı faydalı, etik və uyğun olaraq qalacaq.

Modellərin monitorinqi

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq