Monitorizarea modelelor

1) De ce

Scopul este de a menține calitatea și siguranța soluțiilor modelului în vânzare, respectând SLA/SLO, RG/AML/Legal și bugetele. Monitorizarea ar trebui să detecteze degradarea precoce (date, calibrare, latență, cost), să minimizeze costul așteptat al erorilor și să asigure reproductibilitatea/auditul.

2) Zone de monitorizare (hartă)

1. Disponibilitate și performanță: latență p95/p99, rată de eroare, RPS, autoscale.
2. Calitatea predictiei: PR-ASC/KS (pe etichete online), etalonare (ECE), prag preconizat-cost @.
3. Drift și stabilitate: PSI/KL după caracteristici și viteză, schimbarea distribuțiilor/categoriilor.
4. Acoperire și completitudine: ponderea cererilor deservite cu succes, cota de caracteristici „goale”, cache-uri hit-rate.
5. Felie/corectitudine: valori după vârsta pieței/furnizorului/dispozitivului/contului.
6. Guardrails (RG/AML): încălcări ale politicilor, frecvențe de intervenție, fals pozitive/negative.
7. Cost: cost/cerere, cost/caracteristică, GPU/CPU-ceas, fișiere mici/IO (pentru lot/near-RT).
8. Date/contracte: schemă de caracteristici, versiuni, echivalență online/offline.

3) SLI/SLO (repere pentru iGaming)

Latență p95: personalizare ≤ 150 ms, alerte RG/AML ≤ 5 cu e2e.
Disponibilitate: ≥ 99. 9%.
Rata de eroare 5xx: ≤ 0. 5% în fereastra de 5 min.
Acoperire: ≥ 99% din solicitări au primit o viteză și o soluție validă.
Prospețimea etichetelor pentru evaluarea online: D + 1 (zilnic), pentru proxy-uri rapide - ≤ 1 oră.
Drift PSI: Caracteristică/rată <0. 2 (avertisment с 0. 1).
Calibrare ECE: ≤ 0. 05.
Expected-cost_live: nu mai mare decât modelul de bază + X% (ținta X este aleasă de întreprindere).

4) Semnale și formule

4. 1 Drift

PSI: rezumați prin bin diferența de distribuții (tren vs prod).
KL-divergență: sensibil la cozi „subțiri”; monitor pentru caracteristici cheie/viteză.
KS pentru rate (dacă etichetele sunt prezente): diferență CDF pentru pozitive/negative.

4. 2 Calibrare

ECE (Eroare de calibrare preconizată):	prezis-prob − empiric-rata	în coşuri.
Curba de fiabilitate: graficul de precizie vs probabilitate.

4. 3 Costul preconizat

Minimizarea (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) la pragul de lucru; numărătoarea online într-o fereastră glisantă cu etichete întârziate.

5) Surse de etichetare

Etichete online (proxy-uri rapide): eveniment de depozit de 7 zile, click/conversie, caz RG finalizat.
Etichete întârziate: chargeback/fraudă (45-90 zile), pe termen lung Churn/LTV.
Reguli: păstrați ca-de-timp; nu utilizați evenimente „din viitor”.

6) Tablouri de bord (compoziție minimă)

1. Operare: RPS, p50/p95/p99 latență, 4xx/5xx, saturație, autoscaling.
2. Calitate: scor-distribuție, PR-ASC (pe etichetele proxy), ECE, cost așteptat, SK.
3. Drift: PSI/KL după caracteristici de top, categorii de noutăți, rata lipsă, latență de preluare a funcțiilor.
4. Felie/corectitudine: PR-ASC/ECE/costul așteptat de piață/furnizor/dispozitiv.
5. Guardrails: încălcări RG/AML, intervenții/cereri 1k, rata fals-stop.
6. Cost: cost/cerere, timp CPU/GPU, cache hit-rate, căutări externe.

7) Alertarea (reguli de exemplu)

HighP95Latency: p95> 150 ms (5 min) → pagina SRE/MLOps.
ErrorBurst: 5xx> 0. 5% (5 min) → script rollback este disponibil.
PSI_Drift: PSI (amount_base)> 0. 2 (15 min) → reîncălzire.
ECE_Bad: ECE> 0. 07 (30 min) → reconstrui calibrarea/pragurile.
ExpectedCost_Up: + X% la criteriul de referință (1 zi) → ia în considerare rollback/supraîncărcare.
Slice_Failure: PR-ASC în piața R a scăzut> Y% (1 zi) → proprietarul domeniului de bilete.
Guardrails_Breach: ponderea ofertelor agresive> cap → kill-switch imediat.

8) Înregistrarea și urmărirea

Jurnale de interogare (minim): 'request _ id',' trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (lipsă%, extreme), 'score', 'decizie', 'prag', 'policy _ id',' guard _ mask ',' latency _ ms', 'cost _ estimate', (opţional) explicații (SHAP top-k).
OTel- : 'feature _ fetch' 'preprocess' 'score' 'postprocess'.
PII: numai aliasuri/jetoane; mascare politică, rezidență cheie.

9) Evaluarea online a calității

Ferestre glisante pentru PR-ASC/KS după etichete rapide (oră/zi).
Etichete păstrate: D + 7/D + 30/D + 90 rapoarte retrospective, ajustări ale costurilor preconizate.
Calibrare: reevaluare Isotonic/Platt pe D + 1, artefact auto-refresh.

10) Pragul decizional și politica

Păstrăm pragul ca config în registru; online considerăm costul așteptat și ajustarea în intervalul admis (rată limitată).
Capacele de siguranță: limitele superioare/inferioare ale acțiunilor; suprascriere manuală pentru conformitate.
Praguri de testare: simulare nocturnă pe datele de ieri.

11) Felie și corectitudine

Segmente: piață/jurisdicție, furnizor, dispozitiv/ASN, vârsta contului, putere de depozit.
Valori: PR-ASC, ECE, cost așteptat, diferențe FPR/TPR (cote egalizate), impact disparat.
Acțiuni: calibrare/prag pentru felii, recalificare cu cântare, revizuirea caracteristicii.

12) Echivalență online/offline

Caracteristica testului de egalitate: MAE/MAPE pe eșantionul de control; alertă atunci când divergența> prag.
Versioning: 'feature _ aug _ version', 'logic _ version'; Arhiva WORM.
Contracte de circuit: breaking-schimbare nu este permisă fără o intrare dublă (v1/v2).

13) Guardrails (RG/AML)

Acțiuni pre-/post-filtru, limite de frecvență, cooldown, liste de interdicții.
Логи „policy _ id/înclination/mask/decision”; raportează încălcări.
Timp-la-interviu și măsurători ale ratei de intervenție falsă.

14) Incidente și runbook

Scenarii și pași:

1. Latency↑/5xx↑: verificați furnizorii de caracteristici externe → activați memoria cache/timeout → scară → rollback, dacă este necesar.

2. PSI/ECE/Preconizat-cost deteriorat: congela traficul (canary↓), permite praguri de rezervă/model, rula recalificare.

3. Eșecul feliei: prag temporar specific feliei, bilet către proprietarul domeniului.

4. Guardrails încălcare: kill-switch, caz de audit, post-mare.

15) Cost și performanță

Profilare: Fracțiune de timp în feature-fetch vs scor vs IO.
Strategii cache: TTL/evacuare, caracteristici fierbinți în RAM, cele reci - leneș.
Model de cantizare/optimizare: FP16/INT8 menținând în același timp calitatea.
Chargeback: cost/cerere, cost/caracteristică de echipă/piață.

16) Exemple (fragmente)

Prag de cost preconizat (pseudocod):

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometeu (idei metrice):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

Alert (idee):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) Procese și RACI

R (Responsible): MLOps (observabilitate/alerte/registry), Data Science (quality metrics/calibration/prag), Data Eng (features/contracts/echivalence).
A (Responsabil): șef de date/CDO.
C (Consultat): Conformitate/DPO (PII/RG/AML/DSAR), Securitate (KMS/Audit), SRE (SLO/Incidente), Finanțe (Cost).
I (Informat): Produs/Marketing/Operațiuni/Suport.

18) Foaie de parcurs

MVP (2-4 săptămâni):

1. SLI/SLO de bază (latenţă/5xx/acoperire) + tablou de bord.

2. PSI pentru top 10 caracteristici și scor-distribuție; ECE și costul așteptat pe etichetele proxy.

3. Jurnale de decizii + trasee OTel; testul de echivalență online/offline.

4. Alerte HighP95Latency/PSI_Drift/ECE_Bad + runbook 'și.

Faza 2 (4-8 săptămâni):

Panouri felie/corectitudine, măsurători de rambursare nocturnă pe etichete întârziate.
Auto-recalibrare și prag simulator.
Tabloul de bord al costurilor și cotele/limitele caracteristicilor/reluărilor.

Faza 3 (8-12 săptămâni):

Auto-release/retrain drift cu control canar.
Arhivele WORM ale rapoartelor și artefactelor de calitate.
Teste de monitorizare haos și exerciții DR.

19) Lista de verificare a livrării

SLI/SLO a fost de acord și monitorizat la umbră/canar ≥ 24 de ore.
PSI/KL, ECE, costul așteptat și ASC-PR sunt considerate online; sunt specificate praguri și alerte.
Panourile felie/corectitudine sunt activate; proprietarii de segmente sunt atribuite.
Busteni/trasee complete (decizii, praguri, măști), PII mascare, și rezidență îndeplinite.
Testul de echivalență online/verde offline; diagrame caracteristică în cadrul contractului.
Runbook 'și un singur clic rollback testat; kill-switch для guardrails.
Costul se încadrează în bugete; cache/cote/limite sunt active.
Arhiva WORM a metricii/artefactelor și rapoartelor de calitate este salvată.

20) Anti-modele și riscuri

Lipsa etichetelor online și evaluarea retrospectivă.
ROC-ASC monitorizează numai fără costuri şi calibrare aşteptate.
Ignorați felia/corectitudinea → defecțiunile ascunse în regiuni/dispozitive.
Nu există nici o echivalență caracteristică online/offline → „realitate dublă”.
Zero parapete: oferte toxice, încălcări RG/AML.
Fără planuri rollback/DR, fără arhivă WORM.

21) Linia de jos

Modelul de monitorizare este un sistem de avertizare timpurie și de gestionare a riscurilor/costurilor, mai degrabă decât "aspect o dată pe săptămână. "Introduceți SLO, măsurați deriva/calibrarea/costul așteptat, feliile de cale și guardrails, țineți butoanele rollback/kill-switch, automatizați rapoartele și recalculările. Astfel, modelele vor rămâne utile, etice și conforme cu orice turbulență a datelor și a traficului.

Monitorizarea modelelor

Contactați-ne

Contact rapid

Videoclipul va fi actualizat în curând

Suntem în prezent foarte ocupați cu proiectele