モデルモニタリング
1)なぜ
目標は、SLA/SLO、 RG/AML/法的および予算に準拠しながら、販売中のモデルのソリューションの品質と安全性を維持することです。モニタリングは、早期劣化(データ、キャリブレーション、レイテンシ、コスト)を検出し、予想されるエラーのコストを最小限に抑え、再現性/監査を確保する必要があります。
2)モニタリングエリア(地図)
1.可用性とパフォーマンス:レイテンシp95/p99、エラーレート、RPS、オートスケール。
2.予測品質:PR-AUC/KS(オンラインラベル)、キャリブレーション(ECE)、 expected-cost@threshold。
3.ドリフトと安定性:特徴と速度によるPSI/KL、分布/カテゴリの変更。
4.カバレッジと完全性:正常に配信されたリクエストの共有、「空」機能の共有、ヒット率キャッシュ。
5.スライス/公平性:マーケット/プロバイダ/デバイス/アカウントの年齢による指標。
6.ガードレール(RG/AML):ポリシー違反、介入頻度、誤検出/ネガ。
7.コスト:コスト/リクエスト、コスト/機能、GPU/CPUクロック、スモールファイル/IO (バッチ/ニアRT用)。
8.データ/契約:機能スキーム、バージョン、オンライン/オフライン等価。
3) SLI/SLO (iGamingのランドマーク)
レイテンシp95: 150ミリ秒≤パーソナライズ、RG/AMLアラート≤ e2eで5。
空室状況: ≥ 99。9%.
エラー率5xx: ≤ 0。5分の窓の5%。
適用範囲:要求の≥ 99%は有効な速度および解決を受け取りました。
オンライン評価用のラベルの鮮度:D+1(毎日)、高速プロキシ用-≤ 1時間。
ドリフトPSI: フィーチャー/レート<0。2(警告0。1).
ECEキャリブレーション: ≤ 0。05.
Expected-cost_live:ベースモデル+X%以上ではありません(ターゲットXはビジネスによって選択されます)。
4)信号と数式
4.1ドリフト
PSI: binで分布の違いを要約する(train vs prod)。
KL発散:「薄い」尾に敏感。主な特徴/速度のためのモニター。
レートのKS(ラベルが存在する場合):陽性/陰性のCDF差。
4.2キャリブレーション
4.3期待される費用
作業スレッショルドで(C=c_{fp}\cdot FPR+c_{fn}\cdot FNR)を最小化します。遅延したラベルが付いているスライディングウィンドウのオンライン計算。
5)ラベルソース
オンラインラベル(高速プロキシ):7日間のデポジットイベント、クリック/変換、完了したRGケース。
遅延ラベル:チャージバック/詐欺(45-90日)、長期チャーン/LTV。
規則:時間通りに保って下さい;「未来からのイベント」を使用しないでください。
6)ダッシュボード(最小構成)
1.動作:RPS、 p50/p95/p99レイテンシ、4xx/5xx、飽和、オートスケーリング。
2.品質:スコア分布、PR-AUC(プロキシラベル)、ECE、期待コスト、KS。
3.ドリフト:トップフィーチャー、ノベルティカテゴリ、ミッシングレート、フィーチャーフェッチのレイテンシによるPSI/KL。
4.スライス/公平性:PR-AUC/ECE/市場/プロバイダ/デバイスによる期待コスト。
5.ガードレール:RG/AML違反、介入/1kリクエスト、偽ストップレート。
6.コスト:コスト/リクエスト、CPU/GPU時間、キャッシュのヒットレート、外部参照。
7)アラート(ルール例)
HighP95Latency: p95> 150 ms (5分)→page SRE/MLOps。
ErrorBurst: 5xx> 0。5%(5分)→ロールバックスクリプトが利用可能です。
PSI_Drift: PSI (amount_base)> 0。2(15分)→ウォームアップ再トレーニング。
ECE_Bad: ECE> 0。07(30分)→校正/しきい値の再構築。
ExpectedCost_Up:+X%をベンチマーク(1日)→ロールバック/オーバーロードを考慮します。
Slice_Failure: R市場のPR-AUCは、>Y% (1日)→チケットドメインの所有者に落ちました。
Guardrails_Breach:積極的なオファーのシェア>キャップ→即時キルスイッチ。
8)ログとトレース
クエリのログ(最小値):'request_id'、 'trace_id'、 'model_id/version'、 'feature_version'、 'feature_stats'(%、extremes)、 'score'、 'decision'、 'threshold'、 'policy_id'、 'guard_mask'、 'latency_ms'、' cost_ms' cost_existate'(オプション)説明(SHAP top-k)。
OT-EL-TU-TU-TU-TU-TU-TU-TU: 'feature_fetch'→'preprocess'→'score'→'postprocess'→'guardrail'。
PII:エイリアス/トークンのみ;ポリシーマスキング、キーレジデンス。
9)オンライン品質評価
速いラベル(時間/日)によってPR-AUC/KSのための滑走窓。
保持されたラベル:D+7/D+30/D+90回顧録レポート、予想コスト調整。
キャリブレーション:D+1の等音/プラットの再評価、自動更新アーティファクト。
10)意思決定のしきい値と方針
レジスタ内の設定としてしきい値を保持します。オンラインでは、予想コストを考慮し、許容範囲内で調整します(レート制限)。
安全帽子:行為の上下の限界;コンプライアンスのための手動オーバーライド。
バックテストのしきい値:昨日のデータの夜間シミュレーション。
11)スライス&公平性
セグメント:市場/管轄、プロバイダー、デバイス/ASN、口座年齢、預金電力。
指標:PR-AUC、 ECE、予想コスト、FPR/TPR差(等化オッズ)、異なる影響。
アクション:スライスのキャリブレーション/しきい値、スケールの再訓練、フィーチャーのリビジョン。
12)等価性オンライン/オフライン
平等テスト特徴:制御サンプルのMAE/MAPE;>しきい値を分散するときに警告します。
バージョン管理:'feature_spec_version'、 'logic_version';WORMアーカイブ。
回路コントラクト:ダブルエントリ(v1/v2)なしでは、ブレイクチェンジは許可されません。
13)ガードレール(RG/AML)
前/後フィルタアクション、周波数制限、クールダウン、禁止事項のリスト。
「policy_id/propensity/mask/decision」;違反を報告する。
面接時間と誤った介入率の指標。
14)インシデントとランブック
シナリオとステップ:1.レイテンシー:外部フィーチャープロバイダをチェックする→キャッシュ/タイムアウトを有効にする→スケール→必要に応じてロールバックする。
2.PSI/ECE/予想コストの悪化:トラフィックのフリーズ(カナリア→)、フォールバックしきい値/モデルの有効化、再訓練を実行します。
3.スライスの失敗:一時的なスライス固有のしきい値、ドメイン所有者へのチケット。
4.ガードレール違反:キルスイッチ、ケース監査、海後。
15)コストとパフォーマンス
プロファイリング:feature-fetchとscoreとIOの時間の割合。
キャッシュ戦略:TTL/回避、 RAMのホット機能、冷たいもの-怠惰。
モデル量子化/最適化:品質を維持しながらFP16/INT8します。
チャージバック:コスト/リクエスト、チーム/マーケットによるコスト/機能。
16)例(断片)
予想コストのしきい値(擬似コード):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
プロメテウス(メートル法のアイデア):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
アラート(アイデア):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17)プロセスとRACI
R(責任ある):MLOps (observability/alerts/registry)、データサイエンス(quality metrics/calibration/threshold)、 Data Eng (features/contracts/equivalence)。
A(説明責任):データ/CDOの責任者。
C(コンサルティング):コンプライアンス/DPO (PII/RG/AML/DSAR)、セキュリティ(KMS/監査)、 SRE (SLO/インシデント)、ファイナンス(コスト)。
I (Informed):製品/マーケティング/オペレーション/サポート。
18)ロードマップ
MVP (2-4週):1.基本的なSLI/SLO (レイテンシ/5xx/カバレッジ)+ダッシュボード。
2.トップ10の機能とスコア分布のためのPSI;ECEとプロキシラベルの予想コスト。
3.意思決定ログ+OTelトレイル;オンライン/オフラインの等価性テスト。
4.アラートHighP95Latency/PSI_Drift/ECE_Bad+runbook'と。
フェーズ2(4-8週間):- スライス/公平性パネル、遅延ラベルの夜間バックフィルメトリクス。
- 自動再調節およびしきい値のシミュレーター。
- 機能/リプレイのコスト・ダッシュボードとクォータ/制限。
- カナリアコントロールを備えたオートリリース/リトレインドリフト。
- 品質レポートとアーティファクトのWORMアーカイブ。
- カオス監視テストとDR演習。
19)配達チェックリスト
- SLI/SLOは合意し、シャドウ/カナリアで24時間≥監視しました。
- PSI/KL、 ECE、予想コストおよびPR-AUCはオンラインで考慮されます;しきい値とアラートが指定されます。
- スライス/公平性パネルが有効になります。セグメントの所有者が割り当てられます。
- ログ/トレイルの完了(意思決定、しきい値、マスク)、PIIマスキング、レジデンスが完了しました。
- 等価性テストオンライン/オフライングリーン;契約の下の特徴の図表。
- Runbook'とワンクリックロールバックがテストされました。キルスイッチガードレール。
- コストは予算に適合する。cache/quotas/limitsはアクティブです。
- メトリクス/アーティファクトと品質レポートのWORMアーカイブが保存されます。
20)アンチパターンとリスク
オンラインラベルとレトロスペクティブ評価の欠如。
ROC-AUCは、予想コストと校正なしでのみ監視します。
スライス/公平性→リージョン/デバイスの非表示の障害を無視します。
オンライン/オフライン機能→「二重現実」に等価性はありません。
ゼロのガードレール:有毒なオファー、RG/AML違反。
ロールバック/DR計画、WORMアーカイブはありません。
21)ボトムライン
モデルモニタリングは「、週に1回」ではなく、早期警告とリスク/コスト管理システムです。"SLOを入力し、ドリフト/キャリブレーション/予想コストを測定し、スライスとガードレールを追跡し、ロールバック/キルスイッチボタンを保持し、レポートと再訓練を自動化します。したがって、モデルは有用で倫理的であり、データやトラフィックの乱れに準拠しています。