模型监控

1）为什么

目标是通过遵守SLA/SLO，RG/AML/Legal和预算来保持模型解决方案的质量和安全性。监控必须及早检测降解（数据、校准、延迟、成本）,最大限度地减少被排除的错误,并确保可重复性/审核。

2）监测区域（地图）

1.可用性和性能： latency p95/p99, error-rate, RPS, autoscail.

2.预测质量：PR-AUC/KS（在线标签），校准（ECE），expected-cost@threshold。

3.漂移和稳定性： PSI/KL在假发和争球,分布/类别的变化.

4.覆盖面和完整性：成功服务的请求比例，"空白"信息比例，命中率缓存。
5.Slice/Fairness：按市场/提供商/设备/帐户年龄分列的指标。
6.Guardrails （RG/AML）：策略违规、干预频率、false positives/negatives。
7.费用：费用/要求，费用/功能，GPU/CPU手表，小型文件/IO（用于batch/near-RT）。
8.数据/合同：Fitch方桉、版本、在线/离线等效。

3）SLI/SLO（iGaming地标）

Latency p 95：个性化≤ 150毫秒，RG/AML alerta ≤ 5与e2e。

Availability: ≥ 99.9%.

Error-rate 5xx: ≤ 0.5分钟窗口为5%。
Coverage： ≥ 99%的请求已收到有效漏洞和解决方桉。
用于在线评估的新鲜标签：D+1（每日），用于快速代理-≤ 1小时。

Drift PSI： fici/scor <0。2 (warning с 0.1).

ECE校准： ≤ 0。05.

Expected-cost_live：不高于基本型号+X%（目标X选择业务）。

4）信号和公式

4.1漂移

PSI：总和分布差异（train vs prod）。
KL发散：对"薄"尾巴敏感；监控关键镜头/skor。
Skors的KS（如果有标签）：正面/负面的CDF差。

4.2校准

ECE (Expected Calibration Error):	predicted-prob − empirical-rate	通过篮子。
可信度曲线：精度图vs概率。

4.3 Expected-Cost

在工作阈值处最小化（C=c_{fp}\cdot FPR+c_{fn}\cdot FNR）；在网上我们考虑在带延迟标签的滑动窗口中。

5）标签来源

在线标签（快速代理）："7天存款"事件，点击/转换，完成RG案例。
延迟标签：chargeback/frod（45-90天），长期的churn/LTV。
规则：保留时间；不要使用"来自未来"的事件。

6）Dashbords（最低组成）

1.运营：RPS，p50/p95/p99 latency，4xx/5xx，aturation，autoscaling。
2.质量：分布得分，PR-AUC（在代理标签上），ECE，开销和KS。
3.漂移：PSI/KL排名第一，新奇类别，错过率，功能性问答。
4.Slice/Fairness： PR-AUC/ECE/expected-cost按市场/提供商/设备划分。
5.Guardrails：RG/AML违规行为，干预/1k查询，假停止率。
6.费用：费用/要求，CPU/GPU时间，cache命中率，外部外观。

7）Alerting（示例规则）

HighP95Latency： p95> 150 ms （5分钟）→ page SRE/MLOps.

ErrorBurst: 5xx > 0.5%（5分钟）→ rollback脚本可用。
PSI_Drift: PSI(amount_base) > 0.2（15分钟）→战利品/金丝雀回滚。
ECE_Bad: ECE > 0.07（30分钟）→越过校准/阈值。
ExpectedCost_Up：+X%到基准（1天）→考虑回滚/流式传输。
Slice_Failure：R市场的PR-AUC下跌>Y％（1天）→股票域名的所有者。
Guardrails_Breach：激进的offers> cap →立即杀手开关的比例。

8）逻辑和跟踪

查询逻辑（最小值）："request_id"、"trace_id"、"model_id/version"、"feature_version"、"feature_stats" （missing%，extremes）、"score"、"decision"、"threshold"、"policy_id"、"guard_mask"、"latency_ms', 'cost_estimate'（可选）解释（SHAP top-k）。

OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.

PII：仅别名/代币；策略伪装，关键居民身份。

9）在线质量评估

PR-AUC/KS的滑动窗口通过快速标签（每小时/每天）。
延迟标签：回顾性报告D+7/D+30/D+90，外收费用调整。
校准：将Isotonic/Platt重新评估为D+1, auto-refresh工件。

10）临界值和决策策略

阈值在注册表中保持为config；在网上计算外价,并在有效范围（rate-limited）内进行调整。
安全帽：上部/下部动作边界；手动配对。
逆止阈值：对昨天的数据进行夜间模拟。

11) Slice & Fairness

细分市场：市场/司法管辖区,提供商,设备/ASN,帐户年龄,存款能力。
度量标准：PR-AUC，ECE，expected-cost，FPR/TPR差分（等值码），分离影响。
动作：在幻灯片上校准/阈值,用权重重新训练,修改幻灯片。

12）在线/离线等效性

相等性测试：对照样本中的MAE/MAPE；差异时alert>阈值。
转化："feature_spec_version"，"logic_version"；WORM存档。
电路合同：禁止在没有双重记录（v1/v2）的情况下进行中断更改。

13) Guardrails (RG/AML)

前/后过滤器操作，频率限制，cooldown，禁令列表。
Логи `policy_id/propensity/mask/decision`;违规报告。
时间到intervene和false intervention rate度量。

14）事件和运行手册

脚本和步骤：

1.Latency↑/5xx↑：检查外部信息提供商→启用缓存/定时→缩放→如果需要滚回。

2.PSI/ECE/Expected-cost变得更糟：freeze流量（canary↓），启用fallback阈值/模型，启动retrain。

3.Slice失败：临时幻灯片特定阈值,字幕域所有者。

4.Guardrails breach： kill-switch、桉例审核、后海。

15）成本和性能

Profilation：在feature-fetch vs比分vs IO中的时间份额。
缓存策略：TTL/eviction，RAM中的"热"fici，寒冷-懒惰。
量化/优化模型：FP16/INT8同时保持质量。

Chargeback： cost/request, cost/feature by command/Market.

16）示例（片段）

expected-cost（伪代码）阈值：

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometheus（指标思想）：

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

Alert（想法）：

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17）流程和RACI

R（响应能力）：MLOps（可观察性/Alerta/注册表），数据科学（质量指标/校准/阈值），数据能力（fici/合同/等效性）。

A (Accountable): Head of Data / CDO.

C（咨询）：合规性/DPO（PII/RG/AML/DSAR），安全（KMS/审计），SRE（SLO/事件），财务（成本）。
I （Informed）：产品/营销/运营/支持。

18）路线图

MVP（2-4周）：

1.基本的SLI/SLO（latency/5xx/coverage）+dashboard。

2.PSI排名前10位Fich和Score-distribution；代理标签上的ECE和开销。

3.解决方案的逻辑+OTel步道；在线/离线等效性测试。

4.Alerta HighP95Latency/PSI_Drift/ECE_Bad+runbook'和。

第二阶段（4-8周）：

Slice/fairness面板，延迟标签上的夜间背景指标。
自动重新校准和阈值模拟器。
Cost-dashbord和fici/replay配额/限制。

第三阶段（8至12周）：

通过金丝雀控制漂移自动转发/转发。
WORM质量报告和工件归档。
混沌监测测试和DR演习。

19）准备就绪支票清单

SLI/SLO在影子/金丝雀上协调并宣传≥ 24小时。
PSI/KL，ECE，expected-cost和PR-AUC在线计算；阈值和Alertes设置。
包含Slice/fairness面板；分区所有者被指定。
Logi/Traces是完整的（解决方案，阈值，口罩），PII掩盖和居住性。
在线/离线等效性测试为绿色；合约下的摄影计划。
Runbook'和单击滚动测试；kill-switch для guardrails.
成本适用于预算；缓存/配额/限额处于活动状态。
保存了度量/工件和质量报告的WORM存档。

20）反模式和风险

缺乏在线标签和回顾性评估。
仅监视ROC-AUC而不进行开销和校准。
忽略slice/fairness →区域/设备中的潜在故障。
在线/离线幻灯片→"双重现实"没有等效性。
零护栏：有毒的离场，RG/AML违规行为。
没有回滚/DR计划,没有WORM存档。

21）结果

模型监控是一个早期预警和风险/成本管理系统，而不是"每周观看一次"。输入SLO,测量漂移/校准/开关成本,跟踪幻灯片和guardrails,保持滚回/杀手开关按钮,自动化报告和转发。因此，在数据和流量的任何动荡中，模型将保持有用，合乎道德和兼容性。

模型监控

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目