Monitorizarea modelelor
1) De ce
Scopul este de a menține calitatea și siguranța soluțiilor modelului în vânzare, respectând SLA/SLO, RG/AML/Legal și bugetele. Monitorizarea ar trebui să detecteze degradarea precoce (date, calibrare, latență, cost), să minimizeze costul așteptat al erorilor și să asigure reproductibilitatea/auditul.
2) Zone de monitorizare (hartă)
1. Disponibilitate și performanță: latență p95/p99, rată de eroare, RPS, autoscale.
2. Calitatea predictiei: PR-ASC/KS (pe etichete online), etalonare (ECE), prag preconizat-cost @.
3. Drift și stabilitate: PSI/KL după caracteristici și viteză, schimbarea distribuțiilor/categoriilor.
4. Acoperire și completitudine: ponderea cererilor deservite cu succes, cota de caracteristici „goale”, cache-uri hit-rate.
5. Felie/corectitudine: valori după vârsta pieței/furnizorului/dispozitivului/contului.
6. Guardrails (RG/AML): încălcări ale politicilor, frecvențe de intervenție, fals pozitive/negative.
7. Cost: cost/cerere, cost/caracteristică, GPU/CPU-ceas, fișiere mici/IO (pentru lot/near-RT).
8. Date/contracte: schemă de caracteristici, versiuni, echivalență online/offline.
3) SLI/SLO (repere pentru iGaming)
Latență p95: personalizare ≤ 150 ms, alerte RG/AML ≤ 5 cu e2e.
Disponibilitate: ≥ 99. 9%.
Rata de eroare 5xx: ≤ 0. 5% în fereastra de 5 min.
Acoperire: ≥ 99% din solicitări au primit o viteză și o soluție validă.
Prospețimea etichetelor pentru evaluarea online: D + 1 (zilnic), pentru proxy-uri rapide - ≤ 1 oră.
Drift PSI: Caracteristică/rată <0. 2 (avertisment с 0. 1).
Calibrare ECE: ≤ 0. 05.
Expected-cost_live: nu mai mare decât modelul de bază + X% (ținta X este aleasă de întreprindere).
4) Semnale și formule
4. 1 Drift
PSI: rezumați prin bin diferența de distribuții (tren vs prod).
KL-divergență: sensibil la cozi „subțiri”; monitor pentru caracteristici cheie/viteză.
KS pentru rate (dacă etichetele sunt prezente): diferență CDF pentru pozitive/negative.
4. 2 Calibrare
4. 3 Costul preconizat
Minimizarea (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) la pragul de lucru; numărătoarea online într-o fereastră glisantă cu etichete întârziate.
5) Surse de etichetare
Etichete online (proxy-uri rapide): eveniment de depozit de 7 zile, click/conversie, caz RG finalizat.
Etichete întârziate: chargeback/fraudă (45-90 zile), pe termen lung Churn/LTV.
Reguli: păstrați ca-de-timp; nu utilizați evenimente „din viitor”.
6) Tablouri de bord (compoziție minimă)
1. Operare: RPS, p50/p95/p99 latență, 4xx/5xx, saturație, autoscaling.
2. Calitate: scor-distribuție, PR-ASC (pe etichetele proxy), ECE, cost așteptat, SK.
3. Drift: PSI/KL după caracteristici de top, categorii de noutăți, rata lipsă, latență de preluare a funcțiilor.
4. Felie/corectitudine: PR-ASC/ECE/costul așteptat de piață/furnizor/dispozitiv.
5. Guardrails: încălcări RG/AML, intervenții/cereri 1k, rata fals-stop.
6. Cost: cost/cerere, timp CPU/GPU, cache hit-rate, căutări externe.
7) Alertarea (reguli de exemplu)
HighP95Latency: p95> 150 ms (5 min) → pagina SRE/MLOps.
ErrorBurst: 5xx> 0. 5% (5 min) → script rollback este disponibil.
PSI_Drift: PSI (amount_base)> 0. 2 (15 min) → reîncălzire.
ECE_Bad: ECE> 0. 07 (30 min) → reconstrui calibrarea/pragurile.
ExpectedCost_Up: + X% la criteriul de referință (1 zi) → ia în considerare rollback/supraîncărcare.
Slice_Failure: PR-ASC în piața R a scăzut> Y% (1 zi) → proprietarul domeniului de bilete.
Guardrails_Breach: ponderea ofertelor agresive> cap → kill-switch imediat.
8) Înregistrarea și urmărirea
Jurnale de interogare (minim): 'request _ id',' trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (lipsă%, extreme), 'score', 'decizie', 'prag', 'policy _ id',' guard _ mask ',' latency _ ms', 'cost _ estimate', (opţional) explicații (SHAP top-k).
OTel- : 'feature _ fetch' 'preprocess' 'score' 'postprocess'.
PII: numai aliasuri/jetoane; mascare politică, rezidență cheie.
9) Evaluarea online a calității
Ferestre glisante pentru PR-ASC/KS după etichete rapide (oră/zi).
Etichete păstrate: D + 7/D + 30/D + 90 rapoarte retrospective, ajustări ale costurilor preconizate.
Calibrare: reevaluare Isotonic/Platt pe D + 1, artefact auto-refresh.
10) Pragul decizional și politica
Păstrăm pragul ca config în registru; online considerăm costul așteptat și ajustarea în intervalul admis (rată limitată).
Capacele de siguranță: limitele superioare/inferioare ale acțiunilor; suprascriere manuală pentru conformitate.
Praguri de testare: simulare nocturnă pe datele de ieri.
11) Felie și corectitudine
Segmente: piață/jurisdicție, furnizor, dispozitiv/ASN, vârsta contului, putere de depozit.
Valori: PR-ASC, ECE, cost așteptat, diferențe FPR/TPR (cote egalizate), impact disparat.
Acțiuni: calibrare/prag pentru felii, recalificare cu cântare, revizuirea caracteristicii.
12) Echivalență online/offline
Caracteristica testului de egalitate: MAE/MAPE pe eșantionul de control; alertă atunci când divergența> prag.
Versioning: 'feature _ aug _ version', 'logic _ version'; Arhiva WORM.
Contracte de circuit: breaking-schimbare nu este permisă fără o intrare dublă (v1/v2).
13) Guardrails (RG/AML)
Acțiuni pre-/post-filtru, limite de frecvență, cooldown, liste de interdicții.
Логи „policy _ id/înclination/mask/decision”; raportează încălcări.
Timp-la-interviu și măsurători ale ratei de intervenție falsă.
14) Incidente și runbook
Scenarii și pași:1. Latency↑/5xx↑: verificați furnizorii de caracteristici externe → activați memoria cache/timeout → scară → rollback, dacă este necesar.
2. PSI/ECE/Preconizat-cost deteriorat: congela traficul (canary↓), permite praguri de rezervă/model, rula recalificare.
3. Eșecul feliei: prag temporar specific feliei, bilet către proprietarul domeniului.
4. Guardrails încălcare: kill-switch, caz de audit, post-mare.
15) Cost și performanță
Profilare: Fracțiune de timp în feature-fetch vs scor vs IO.
Strategii cache: TTL/evacuare, caracteristici fierbinți în RAM, cele reci - leneș.
Model de cantizare/optimizare: FP16/INT8 menținând în același timp calitatea.
Chargeback: cost/cerere, cost/caracteristică de echipă/piață.
16) Exemple (fragmente)
Prag de cost preconizat (pseudocod):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometeu (idei metrice):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert (idee):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) Procese și RACI
R (Responsible): MLOps (observabilitate/alerte/registry), Data Science (quality metrics/calibration/prag), Data Eng (features/contracts/echivalence).
A (Responsabil): șef de date/CDO.
C (Consultat): Conformitate/DPO (PII/RG/AML/DSAR), Securitate (KMS/Audit), SRE (SLO/Incidente), Finanțe (Cost).
I (Informat): Produs/Marketing/Operațiuni/Suport.
18) Foaie de parcurs
MVP (2-4 săptămâni):1. SLI/SLO de bază (latenţă/5xx/acoperire) + tablou de bord.
2. PSI pentru top 10 caracteristici și scor-distribuție; ECE și costul așteptat pe etichetele proxy.
3. Jurnale de decizii + trasee OTel; testul de echivalență online/offline.
4. Alerte HighP95Latency/PSI_Drift/ECE_Bad + runbook 'și.
Faza 2 (4-8 săptămâni):- Panouri felie/corectitudine, măsurători de rambursare nocturnă pe etichete întârziate.
- Auto-recalibrare și prag simulator.
- Tabloul de bord al costurilor și cotele/limitele caracteristicilor/reluărilor.
- Auto-release/retrain drift cu control canar.
- Arhivele WORM ale rapoartelor și artefactelor de calitate.
- Teste de monitorizare haos și exerciții DR.
19) Lista de verificare a livrării
- SLI/SLO a fost de acord și monitorizat la umbră/canar ≥ 24 de ore.
- PSI/KL, ECE, costul așteptat și ASC-PR sunt considerate online; sunt specificate praguri și alerte.
- Panourile felie/corectitudine sunt activate; proprietarii de segmente sunt atribuite.
- Busteni/trasee complete (decizii, praguri, măști), PII mascare, și rezidență îndeplinite.
- Testul de echivalență online/verde offline; diagrame caracteristică în cadrul contractului.
- Runbook 'și un singur clic rollback testat; kill-switch для guardrails.
- Costul se încadrează în bugete; cache/cote/limite sunt active.
- Arhiva WORM a metricii/artefactelor și rapoartelor de calitate este salvată.
20) Anti-modele și riscuri
Lipsa etichetelor online și evaluarea retrospectivă.
ROC-ASC monitorizează numai fără costuri şi calibrare aşteptate.
Ignorați felia/corectitudinea → defecțiunile ascunse în regiuni/dispozitive.
Nu există nici o echivalență caracteristică online/offline → „realitate dublă”.
Zero parapete: oferte toxice, încălcări RG/AML.
Fără planuri rollback/DR, fără arhivă WORM.
21) Linia de jos
Modelul de monitorizare este un sistem de avertizare timpurie și de gestionare a riscurilor/costurilor, mai degrabă decât "aspect o dată pe săptămână. "Introduceți SLO, măsurați deriva/calibrarea/costul așteptat, feliile de cale și guardrails, țineți butoanele rollback/kill-switch, automatizați rapoartele și recalculările. Astfel, modelele vor rămâne utile, etice și conforme cu orice turbulență a datelor și a traficului.