Modellere gözegçilik
1) Näme üçin
Maksat, SLA/SLO, RG/AML/Legal we býudjetleri berjaý etmek bilen, nusgada modeliň çözgütleriniň hilini we howpsuzlygyny saklamakdyr. Gözegçilik bozulmalary (maglumatlary, kalibrlemegi, latency, bahasy) ir ýüze çykarmalydyr, ýalňyşlyklaryň ekspected cost-ny azaltmalydyr we gaýtalanmagy/auditi üpjün etmelidir.
2) Gözegçilik ugurlary (kart)
1. Elýeterliligi we öndürijiligi: latency p95/p99, error-rate, RPS, awtoskeýl.
2. Çaklamalaryň hili: PR-AUC/KS (onlaýn belliklerde), kalibrlemek (ECE), ekspected-cost @threshold.
3. Deňagramlylyk we durnuklylyk: PSI/KL şekiller we tizlikler boýunça, paýlanyşyň/kategoriýalaryň üýtgemegi.
4. Örtügi we dolulygy: üstünlikli hyzmat edilen haýyşlaryň paýy, "boş" fiçleriň paýy, hit-rate keşleri.
5. Slice/Fairness: bazarlar/üpjün edijiler/enjamlar/hasap ýaşy boýunça metrikler.
6. Guardrails (RG/AML): syýasatlaryň bozulmagy, gatyşma ýygylygy, false positives/negatives.
7. Bahasy: cost/request, cost/feature, GPU/CPU-sagat, small-files/IO (batch/near-RT üçin).
8. Maglumatlar/şertnamalar: shema fich, wersiýalary, ekwiwalentligi online/offline.
3) SLI/SLO (iGaming üçin gollanma)
Latency p95: şahsylaşdyrma ≤ 150 ms, RG/AML alert ≤ 5 s e2e.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5 minutda 5%.
Coverage: Soraglaryň 99% -den ≥ tassyklanan tizligi we çözgüdi aldy.
Onlaýn baha bermek üçin bellikleriň freshness: D + 1 (gündelik), çalt proksi üçin - ≤ 1 sagat.
Drift PSI: çitler/skor <0. 2 (warning с 0. 1).
Kalibrlemek ECE: ≤ 0. 05.
Expected-cost_live: esasy modelden ýokary däl + X% (maksatly X işi saýlaýar).
4) Signallar we formulalar
4. 1 Drift
PSI: paýlanyşyň tapawudynyň binalary boýunça jemleýäris (train vs prod).
KL-diwergensiýa: "inçe" guýruklara duýgur; Esasy nokat/tizlik üçin gözegçilik etmek.
Skoplar üçin KS (bellikler bar bolsa): pozitiwler/negatiwler üçin CDF tapawudy.
4. 2 Kalibrlemek
4. 3 Expected-Cost
Iş bosagasynda iň az (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); gijikdirilen bellikler bilen süýşýän penjirede onlaýn hasaplaýarys.
5) Bellikleriň çeşmeleri
Onlaýn bellikler (çalt proxy): "7 gün depozit" çäresi, basmak/öwürmek, tamamlanan RG işi.
Gijikdirilen bellikler: chargeback/frod (45-90 gün), uzak möhletli churn/LTV.
Düzgünler: wagt saklamak; Geljekdäki wakalary ulanmaň.
6) Daşbordlar (iň az düzümi)
1. Amal: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Hil: score-distribution, PR-AUC (proksi belliklerde), ECE, expected-cost, KS.
3. Dreýf: PSI/KL topfiçalar boýunça, nowelty kategoriýalary, missing-rate, feature-fetch latency.
4. Slice/Fairness: PR-AUC/ECE/expected-cost.
5. Guardrails: RG/AML düzgün bozmalar, gatyşmalar/1k soraglar, false-stop rate.
6. Bahasy: cost/request, CPU/GPU time, cache hit-rate, daşarky lookups.
7) Alerting (mysal üçin düzgünler)
HighP95Latency: p95> 150 ms (5 minut) → page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 minut) → rollback-skript bar.
PSI_Drift: PSI(amount_base) > 0. 2 (15 minut) → warm-up retrain/kanar yza gaýdyp gelmek.
ECE_Bad: ECE > 0. 07 (30 min) → kalibrlemäni/bosagany täzeden düzüň.
ExpectedCost_Up: + X% bençmarka (1 gün) → yzyna/yzyna serediň.
Slice_Failure: PR-AUC bazary R düşdi> Y% (1 gün) → domen eýesi bilet.
Guardrails_Breach: agressiw offerleriň paýy> cap → derrew öldürmek-switch.
8) Logirlemek we yzarlamak
Soragyň loglary (iň az): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (goşmaça) düşündirişler (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: diňe lakamlary/bellikleri; syýasaty gizlemek, açarlaryň rezidentligi.
9) Onlaýn hil bahalandyrmasy
PR-AUC/KS üçin çalt bellikler boýunça süýşýän penjireler (sagat/gün).
Tutulan bellikler: retrospektiw hasabatlar D + 7/D + 30/D + 90, düzedişler ekspected-cost.
Kalibrlemek: Isotonic/Platt-yň D + 1, awto-refresh artefaktyna gaýtadan bahalandyrylmagy.
10) Çözgütleriň çägi we syýasaty
Bosagany reýestrdäki ýaly saklaýarys; onlaýn expected-cost hasaplaýarys we rugsat edilýän aralykda düzedýäris (rate-limited).
Safety-caps: Hereketiň ýokarky/aşaky çäkleri; gabat gelmek üçin el bilen override.
Bosagalary bölmek: düýnki maglumatlarda gijeki simulýasiýa.
11) Slice & Fairness
Segmentler: bazar/ýurisdiksiýa, üpjün ediji, enjam/ASN, hasap ýaşy, goýum-güýç.
Metrikler: PR-AUC, ECE, expected-cost, FPR/TPR tapawudy (equalized odds), disparate impact.
Hereketler: slaýslar boýunça kalibrlemek/bosagasy, agramly gaýtadan taýýarlamak, täzeden gözden geçirmek.
12) Ekwiwalentlik online/offline
Deňlik synagy: Gözegçilik nusgasynda MAE/MAPE; gapdalyndaky alert> bosagasy.
Wersiýalaşdyrmak: 'feature _ spec _ version', 'logic _ version'; WORM arhiwi.
Shema şertnamalary: breaking-change goşa ýazylmazdan gadagan (v1/v2).
13) Guardrails (RG/AML)
Pre-/Post-filter hereketleri, ýygylyk çäkleri, cooldown, gadaganlyk sanawlary.
Логи `policy_id/propensity/mask/decision`; düzgün bozmalaryň hasabaty.
Metrika time-to-intervene we false-intervention rate.
14) Wakalar we runbook
Ssenariler we ädimler:1. Latency ↑/5xx ↑: daşarky piç-üpjün edijileri barlamak → keş/wagtlary açmak → masştablamak → zerur bolsa rollback.
2. PSI/ECE/Expected-cost ýaramazlaşdy: freeze traffigi (canary ↓), fallback bosagalaryny/modelini açyň, retraini işe giriziň.
3. Slice şowsuzlygy: wagtlaýyn slaýs-spesifik çäk, domen eýesine bilet.
4. Guardrails breach: kill-switch, ýagdaýlaryň barlagy, deňizden soňky.
15) Bahasy we öndürijiligi
Profilleme: feature-fetch vs score vs IO-da wagt paýy.
Nagt strategiýalar: TTL/eviction, RAM-da "gyzgyn" çitler, sowuk - lazy.
Modeliň kwantizasiýasy/optimizasiýasy: hil saklanylanda FP16/INT8.
Chargeback: cost/request, cost/feature toparlar/bazarlar boýunça.
16) Mysallar (bölekler)
Expected-cost (pseudo-kod) bosagasy:python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]
Prometheus (metrik pikirler):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert (ideýa):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m
17) Amallar we RACI
R (Responsible): MLOps (syn etmek/alertler/reýestr), Data Science (hil ölçegleri/kalibrlemek/bosagasy), Data Eng (fiçler/şertnamalar/ekwiwalentlik).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/audit), SRE (SLO/hadysalar), Finance (bahasy).
I (Informed): Önüm/Marketing/Amallar/Goldaw.
18) Ýol kartasy
MVP (2-4 hepde):1. Esasy SLI/SLO (latency/5xx/coverage) + dashboard.
2. Top 10 üçin PSI we score-distribution; ECE we proksi-belliklerde ekspected-cost.
3. Çözgütleriň ýazgylary + OTel-söwdalar; online/offline ekwiwalentlik synagy.
4. Alertler HighP95Latency/PSI_Drift/ECE_Bad + runbook.
2-nji faza (4-8 hepde):- Slice/fairness-panelleri, gijikdirilen belliklerde gijikdirilen backfill metrikleri.
- Kalibrlemäni awto-gaýtadan saýlamak we bosagalaryň simulýatory.
- Cost-dashboard we kwotalar/çitler/repleýler üçin çäkler.
- Awto-relaut/kanar gözegçiligi bilen dreýf boýunça retreýn.
- WORM-hil hasabatlarynyň we artefaktlaryň arhiwleri.
- Chaos-gözegçilik synaglary we DR-maşklar.
19) Azyk taýýarlygynyň çek-sanawy
- SLI/SLO ylalaşyldy we 24 sagat ≥.
- PSI/KL, ECE, expected-cost we PR-AUC onlaýn hasaplanýar; bosagalar we alertler berildi.
- Slice/fairness panelleri açyldy; segmentleriň eýeleri bellendi.
- Doly girdejiler/söwdalar (çözgütler, bosagalar, maskalar), PII-maskalanma we rezidentlik berjaý edilýär.
- Onlaýn/awtonom ýaşyl ekwiwalentlik synagy; kontrakt boýunça shemalar.
- Runbook 'we one-click rollback barlandy; kill-switch для guardrails.
- Bahasy býujetlere laýyk gelýär; nagt pul/kwotalar/çäkler işjeň.
- Metrikler/artefaktlar we hil hasabatlarynyň WORM arhiwi saklandy.
20) Anti-patternler we töwekgelçilikler
Onlaýn-bellikleriň we retrospektiv baha bermegiň ýoklugy.
Diňe ROC-AUC-ni ekspected-cost we kalibrlemezden yzarlamak.
Ignor slice/fairness → sebitlerde/enjamlarda gizlin şowsuzlyklar.
Online/offline deňligi ýok → "goşa hakykat".
Nol guardrails: zäherli offerler, RG/AML bozulmalary.
Yza/DR meýilnamasy ýok, WORM arhiwi ýok.
21) Jemleýji
Modellere gözegçilik etmek "hepdede bir gezek seretmek" däl-de, töwekgelçiligi/gymmaty irki duýdurmak we dolandyrmak ulgamydyr. SLO-ny giriziň, süýşmegi/kalibrlemegi/expected-cost ölçäň, slaýslary we garawullary yzarlaň, rollback/kill-switch düwmelerini saklaň, hasabatlary we retreýnleri awtomatlaşdyryň. Şonuň üçin modeller maglumatlaryň we traffigiň islendik turbulentliginde peýdaly, ahlak we laýyk bolup galar.