模型監控
1)為什麼
目標是通過遵守SLA/SLO,RG/AML/Legal和預算來保持模型解決方案的質量和安全性。監控必須及早檢測降解(數據、校準、延遲、成本),最大限度地減少被排除的錯誤,並確保可重復性/審核。
2)監測區域(地圖)
1.可用性和性能: latency p95/p99, error-rate, RPS, autoscail.
2.預測質量:PR-AUC/KS(在線標簽),校準(ECE),expected-cost@threshold。
3.漂移和穩定性: PSI/KL在假發和爭球,分布/類別的變化.
4.覆蓋面和完整性:成功服務的請求比例,「空白」信息比例,命中率緩存。
5.Slice/Fairness:按市場/提供商/設備/帳戶年齡分列的指標。
6.Guardrails (RG/AML):策略違規、幹預頻率、false positives/negatives。
7.費用:費用/要求,費用/功能,GPU/CPU手表,小型文件/IO(用於batch/near-RT)。
8.數據/合同:Fitch方案、版本、在線/離線等效。
3)SLI/SLO(iGaming地標)
Latency p 95:個性化≤ 150毫秒,RG/AML alerta ≤ 5與e2e。
Availability: ≥ 99.9%.
Error-rate 5xx: ≤ 0.5分鐘窗口為5%。
Coverage: ≥ 99%的請求已收到有效漏洞和解決方案。
用於在線評估的新鮮標簽:D+1(每日),用於快速代理-≤ 1小時。
Drift PSI: fici/scor <0。2 (warning с 0.1).
ECE校準: ≤ 0。05.
Expected-cost_live:不高於基本型號+X%(目標X選擇業務)。
4)信號和公式
4.1漂移
PSI:總和分布差異(train vs prod)。
KL發散:對「薄」尾巴敏感;監控關鍵鏡頭/skor。
Skors的KS(如果有標簽):正面/負面的CDF差。
4.2校準
4.3 Expected-Cost
在工作閾值處最小化(C=c_{fp}\cdot FPR+c_{fn}\cdot FNR);在網上我們考慮在帶延遲標簽的滑動窗口中。
5)標簽來源
在線標簽(快速代理):「7天存款」事件,點擊/轉換,完成RG案例。
延遲標簽:chargeback/frod(45-90天),長期的churn/LTV。
規則:保留時間;不要使用「來自未來」的事件。
6)Dashbords(最低組成)
1.運營:RPS,p50/p95/p99 latency,4xx/5xx,aturation,autoscaling。
2.質量:分布得分,PR-AUC(在代理標簽上),ECE,開銷和KS。
3.漂移:PSI/KL排名第一,新奇類別,錯過率,功能性問答。
4.Slice/Fairness: PR-AUC/ECE/expected-cost按市場/提供商/設備劃分。
5.Guardrails:RG/AML違規行為,幹預/1k查詢,假停止率。
6.費用:費用/要求,CPU/GPU時間,cache命中率,外部外觀。
7)Alerting(示例規則)
HighP95Latency: p95> 150 ms (5分鐘)→ page SRE/MLOps.
ErrorBurst: 5xx > 0.5%(5分鐘)→ rollback腳本可用。
PSI_Drift: PSI(amount_base) > 0.2(15分鐘)→戰利品/金絲雀回滾。
ECE_Bad: ECE > 0.07(30分鐘)→越過校準/閾值。
ExpectedCost_Up:+X%到基準(1天)→考慮回滾/流式傳輸。
Slice_Failure:R市場的PR-AUC下跌>Y%(1天)→股票域名的所有者。
Guardrails_Breach:激進的offers> cap →立即殺手開關的比例。
8)邏輯和跟蹤
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
查詢邏輯(最小值):"request_id"、"trace_id"、"model_id/version"、"feature_version"、"feature_stats" (missing%,extremes)、"score"、"decision"、"threshold"、"policy_id"、"guard_mask"、"latency_ms', 'cost_estimate'(可選)解釋(SHAP top-k)。
PII:僅別名/代幣;策略偽裝,關鍵居民身份。
9)在線質量評估
PR-AUC/KS的滑動窗口通過快速標簽(每小時/每天)。
延遲標簽:回顧性報告D+7/D+30/D+90,外收費用調整。
校準:將Isotonic/Platt重新評估為D+1, auto-refresh工件。
10)臨界值和決策策略
閾值在註冊表中保持為config;在網上計算外價,並在有效範圍(rate-limited)內進行調整。
安全帽:上部/下部動作邊界;手動配對。
逆止閾值:對昨天的數據進行夜間模擬。
11) Slice & Fairness
細分市場:市場/司法管轄區,提供商,設備/ASN,帳戶年齡,存款能力。
度量標準:PR-AUC,ECE,expected-cost,FPR/TPR差分(等值碼),分離影響。
動作:在幻燈片上校準/閾值,用權重重新訓練,修改幻燈片。
12)在線/離線等效性
相等性測試:對照樣本中的MAE/MAPE;差異時alert>閾值。
轉化:「feature_spec_version」,「logic_version」;WORM存檔。
電路合同:禁止在沒有雙重記錄(v1/v2)的情況下進行中斷更改。
13) Guardrails (RG/AML)
前/後過濾器操作,頻率限制,cooldown,禁令列表。
Логи `policy_id/propensity/mask/decision`;違規報告。
時間到intervene和false intervention rate度量。
14)事件和運行手冊
腳本和步驟:1.Latency↑/5xx↑:檢查外部信息提供商→啟用緩存/定時→縮放→如果需要滾回。
2.PSI/ECE/Expected-cost變得更糟:freeze流量(canary↓),啟用fallback閾值/模型,啟動retrain。
3.Slice失敗:臨時幻燈片特定閾值,字幕域所有者。
4.Guardrails breach: kill-switch、案例審核、後海。
15)成本和性能
Profilation:在feature-fetch vs比分vs IO中的時間份額。
緩存策略:TTL/eviction,RAM中的「熱」fici,寒冷-懶惰。
量化/優化模型:FP16/INT8同時保持質量。
Chargeback: cost/request, cost/feature by command/Market.
16)示例(片段)
expected-cost(偽代碼)閾值:python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus(指標思想):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert(想法):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17)流程和RACI
A (Accountable): Head of Data / CDO.
R(響應能力):MLOps(可觀察性/Alerta/註冊表),數據科學(質量指標/校準/閾值),數據能力(fici/合同/等效性)。
C(咨詢):合規性/DPO(PII/RG/AML/DSAR),安全(KMS/審計),SRE(SLO/事件),財務(成本)。
I (Informed):產品/營銷/運營/支持。
18)路線圖
MVP(2-4周):1.基本的SLI/SLO(latency/5xx/coverage)+dashboard。
2.PSI排名前10位Fich和Score-distribution;代理標簽上的ECE和開銷。
3.解決方案的邏輯+OTel步道;在線/離線等效性測試。
4.Alerta HighP95Latency/PSI_Drift/ECE_Bad+runbook'和。
第二階段(4-8周):- Slice/fairness面板,延遲標簽上的夜間背景指標。
- 自動重新校準和閾值模擬器。
- Cost-dashbord和fici/replay配額/限制。
- 通過金絲雀控制漂移自動轉發/轉發。
- WORM質量報告和工件歸檔。
- 混沌監測測試和DR演習。
19)準備就緒支票清單
- SLI/SLO在影子/金絲雀上協調並宣傳≥ 24小時。
- PSI/KL,ECE,expected-cost和PR-AUC在線計算;閾值和Alertes設置。
- 包含Slice/fairness面板;分區所有者被指定。
- Logi/Traces是完整的(解決方案,閾值,口罩),PII掩蓋和居住性。
- 在線/離線等效性測試為綠色;合約下的攝影計劃。
- Runbook'和單擊滾動測試;kill-switch для guardrails.
- 成本適用於預算;緩存/配額/限額處於活動狀態。
- 保存了度量/工件和質量報告的WORM存檔。
20)反模式和風險
缺乏在線標簽和回顧性評估。
僅監視ROC-AUC而不進行開銷和校準。
忽略slice/fairness →區域/設備中的潛在故障。
在線/離線幻燈片→「雙重現實」沒有等效性。
零護欄:有毒的離場,RG/AML違規行為。
沒有回滾/DR計劃,沒有WORM存檔。
21)結果
模型監控是一個早期預警和風險/成本管理系統,而不是「每周觀看一次」。輸入SLO,測量漂移/校準/開關成本,跟蹤幻燈片和guardrails,保持滾回/殺手開關按鈕,自動化報告和轉發。因此,在數據和流量的任何動蕩中,模型將保持有用,合乎道德和兼容性。