模型監控

1）為什麼

目標是通過遵守SLA/SLO，RG/AML/Legal和預算來保持模型解決方案的質量和安全性。監控必須及早檢測降解（數據、校準、延遲、成本）,最大限度地減少被排除的錯誤,並確保可重復性/審核。

2）監測區域（地圖）

1.可用性和性能： latency p95/p99, error-rate, RPS, autoscail.

2.預測質量：PR-AUC/KS（在線標簽），校準（ECE），expected-cost@threshold。

3.漂移和穩定性： PSI/KL在假發和爭球,分布/類別的變化.

4.覆蓋面和完整性：成功服務的請求比例，「空白」信息比例，命中率緩存。
5.Slice/Fairness：按市場/提供商/設備/帳戶年齡分列的指標。
6.Guardrails （RG/AML）：策略違規、幹預頻率、false positives/negatives。
7.費用：費用/要求，費用/功能，GPU/CPU手表，小型文件/IO（用於batch/near-RT）。
8.數據/合同：Fitch方案、版本、在線/離線等效。

3）SLI/SLO（iGaming地標）

Latency p 95：個性化≤ 150毫秒，RG/AML alerta ≤ 5與e2e。

Availability: ≥ 99.9%.

Error-rate 5xx: ≤ 0.5分鐘窗口為5%。
Coverage： ≥ 99%的請求已收到有效漏洞和解決方案。
用於在線評估的新鮮標簽：D+1（每日），用於快速代理-≤ 1小時。

Drift PSI： fici/scor <0。2 (warning с 0.1).

ECE校準： ≤ 0。05.

Expected-cost_live：不高於基本型號+X%（目標X選擇業務）。

4）信號和公式

4.1漂移

PSI：總和分布差異（train vs prod）。
KL發散：對「薄」尾巴敏感；監控關鍵鏡頭/skor。
Skors的KS（如果有標簽）：正面/負面的CDF差。

4.2校準

ECE (Expected Calibration Error):	predicted-prob − empirical-rate	通過籃子。
可信度曲線：精度圖vs概率。

4.3 Expected-Cost

在工作閾值處最小化（C=c_{fp}\cdot FPR+c_{fn}\cdot FNR）；在網上我們考慮在帶延遲標簽的滑動窗口中。

5）標簽來源

在線標簽（快速代理）：「7天存款」事件，點擊/轉換，完成RG案例。
延遲標簽：chargeback/frod（45-90天），長期的churn/LTV。
規則：保留時間；不要使用「來自未來」的事件。

6）Dashbords（最低組成）

1.運營：RPS，p50/p95/p99 latency，4xx/5xx，aturation，autoscaling。
2.質量：分布得分，PR-AUC（在代理標簽上），ECE，開銷和KS。
3.漂移：PSI/KL排名第一，新奇類別，錯過率，功能性問答。
4.Slice/Fairness： PR-AUC/ECE/expected-cost按市場/提供商/設備劃分。
5.Guardrails：RG/AML違規行為，幹預/1k查詢，假停止率。
6.費用：費用/要求，CPU/GPU時間，cache命中率，外部外觀。

7）Alerting（示例規則）

HighP95Latency： p95> 150 ms （5分鐘）→ page SRE/MLOps.

ErrorBurst: 5xx > 0.5%（5分鐘）→ rollback腳本可用。
PSI_Drift: PSI(amount_base) > 0.2（15分鐘）→戰利品/金絲雀回滾。
ECE_Bad: ECE > 0.07（30分鐘）→越過校準/閾值。
ExpectedCost_Up：+X%到基準（1天）→考慮回滾/流式傳輸。
Slice_Failure：R市場的PR-AUC下跌>Y％（1天）→股票域名的所有者。
Guardrails_Breach：激進的offers> cap →立即殺手開關的比例。

8）邏輯和跟蹤

查詢邏輯（最小值）："request_id"、"trace_id"、"model_id/version"、"feature_version"、"feature_stats" （missing%，extremes）、"score"、"decision"、"threshold"、"policy_id"、"guard_mask"、"latency_ms', 'cost_estimate'（可選）解釋（SHAP top-k）。

OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.

PII：僅別名/代幣；策略偽裝，關鍵居民身份。

9）在線質量評估

PR-AUC/KS的滑動窗口通過快速標簽（每小時/每天）。
延遲標簽：回顧性報告D+7/D+30/D+90，外收費用調整。
校準：將Isotonic/Platt重新評估為D+1, auto-refresh工件。

10）臨界值和決策策略

閾值在註冊表中保持為config；在網上計算外價,並在有效範圍（rate-limited）內進行調整。
安全帽：上部/下部動作邊界；手動配對。
逆止閾值：對昨天的數據進行夜間模擬。

11) Slice & Fairness

細分市場：市場/司法管轄區,提供商,設備/ASN,帳戶年齡,存款能力。
度量標準：PR-AUC，ECE，expected-cost，FPR/TPR差分（等值碼），分離影響。
動作：在幻燈片上校準/閾值,用權重重新訓練,修改幻燈片。

12）在線/離線等效性

相等性測試：對照樣本中的MAE/MAPE；差異時alert>閾值。
轉化：「feature_spec_version」，「logic_version」；WORM存檔。
電路合同：禁止在沒有雙重記錄（v1/v2）的情況下進行中斷更改。

13) Guardrails (RG/AML)

前/後過濾器操作，頻率限制，cooldown，禁令列表。
Логи `policy_id/propensity/mask/decision`;違規報告。
時間到intervene和false intervention rate度量。

14）事件和運行手冊

腳本和步驟：

1.Latency↑/5xx↑：檢查外部信息提供商→啟用緩存/定時→縮放→如果需要滾回。

2.PSI/ECE/Expected-cost變得更糟：freeze流量（canary↓），啟用fallback閾值/模型，啟動retrain。

3.Slice失敗：臨時幻燈片特定閾值,字幕域所有者。

4.Guardrails breach： kill-switch、案例審核、後海。

15）成本和性能

Profilation：在feature-fetch vs比分vs IO中的時間份額。
緩存策略：TTL/eviction，RAM中的「熱」fici，寒冷-懶惰。
量化/優化模型：FP16/INT8同時保持質量。

Chargeback： cost/request, cost/feature by command/Market.

16）示例（片段）

expected-cost（偽代碼）閾值：

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometheus（指標思想）：

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

Alert（想法）：

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17）流程和RACI

R（響應能力）：MLOps（可觀察性/Alerta/註冊表），數據科學（質量指標/校準/閾值），數據能力（fici/合同/等效性）。

A (Accountable): Head of Data / CDO.

C（咨詢）：合規性/DPO（PII/RG/AML/DSAR），安全（KMS/審計），SRE（SLO/事件），財務（成本）。
I （Informed）：產品/營銷/運營/支持。

18）路線圖

MVP（2-4周）：

1.基本的SLI/SLO（latency/5xx/coverage）+dashboard。

2.PSI排名前10位Fich和Score-distribution；代理標簽上的ECE和開銷。

3.解決方案的邏輯+OTel步道；在線/離線等效性測試。

4.Alerta HighP95Latency/PSI_Drift/ECE_Bad+runbook'和。

第二階段（4-8周）：

Slice/fairness面板，延遲標簽上的夜間背景指標。
自動重新校準和閾值模擬器。
Cost-dashbord和fici/replay配額/限制。

第三階段（8至12周）：

通過金絲雀控制漂移自動轉發/轉發。
WORM質量報告和工件歸檔。
混沌監測測試和DR演習。

19）準備就緒支票清單

SLI/SLO在影子/金絲雀上協調並宣傳≥ 24小時。
PSI/KL，ECE，expected-cost和PR-AUC在線計算；閾值和Alertes設置。
包含Slice/fairness面板；分區所有者被指定。
Logi/Traces是完整的（解決方案，閾值，口罩），PII掩蓋和居住性。
在線/離線等效性測試為綠色；合約下的攝影計劃。
Runbook'和單擊滾動測試；kill-switch для guardrails.
成本適用於預算；緩存/配額/限額處於活動狀態。
保存了度量/工件和質量報告的WORM存檔。

20）反模式和風險

缺乏在線標簽和回顧性評估。
僅監視ROC-AUC而不進行開銷和校準。
忽略slice/fairness →區域/設備中的潛在故障。
在線/離線幻燈片→「雙重現實」沒有等效性。
零護欄：有毒的離場，RG/AML違規行為。
沒有回滾/DR計劃,沒有WORM存檔。

21）結果

模型監控是一個早期預警和風險/成本管理系統，而不是「每周觀看一次」。輸入SLO,測量漂移/校準/開關成本,跟蹤幻燈片和guardrails,保持滾回/殺手開關按鈕,自動化報告和轉發。因此，在數據和流量的任何動蕩中，模型將保持有用，合乎道德和兼容性。

模型監控

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案