Supervisión de modelos
1) Por qué
El objetivo es mantener la calidad y seguridad de las soluciones del modelo en venta, respetando SLA/SLO, RG/AML/Legal y los presupuestos. El monitoreo debe detectar con antelación las degradaciones (datos, calibración, latencia, costo), minimizar el costo de los errores especulados y garantizar la reproducibilidad/auditoría.
2) Áreas de monitoreo (mapa)
1. Disponibilidad y rendimiento: latency p95/p99, error-rate, RPS, auto skale.
2. Calidad de las predicciones: PR-AUC/KS (en etiquetas en línea), calibración (ECE), expected-cost @ threshold.
3. Deriva y estabilidad: PSI/KL por fichas y corcho, cambio de distribuciones/categorías.
4. Cobertura y exhaustividad: porcentaje de solicitudes atendidas con éxito, porcentaje de fichas «vacías», caché de puntuación alta.
5. Slice/Fairness: métricas por mercado/proveedores/dispositivos/edad de la cuenta.
6. Guardrails (RG/AML): infracciones de políticas, frecuencias de intervención, false positives/negatives.
7. Costo: costo/solicitud, costo/función, GPU/CPU-reloj, pequeños archivos/IO (para batch/near-RT).
8. Datos/contratos: esquema de fichas, versiones, equivalencia online/offline.
3) SLI/SLO (puntos de referencia para iGaming)
Latency p95: personalización ≤ 150 ms, alertas RG/AML ≤ 5 con e2e.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5% por una ventana de 5 minutos.
Coverage: ≥ el 99% de las solicitudes recibieron una solución y un resquicio válidos.
Freshness etiquetas para la evaluación en línea: D + 1 (diariamente), para los proxies rápidos - ≤ 1 h.
Drift PSI: fichas/score <0. 2 (warning с 0. 1).
Calibración ECE: ≤ 0. 05.
Expected-cost_live: no por encima del modelo básico + X% (el objetivo X selecciona el negocio).
4) Señales y fórmulas
4. 1 Deriva
PSI: sumamos por binas las diferencias de distribución (tren vs prod).
KL-divergencia: sensible a las colas «sutiles»; monitor para fichas clave/score.
KS para scores (si hay etiquetas): diferencia de CDF para positivos/negativos.
4. 2 Calibración
4. 3 Expected-Cost
Minimizar (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) en el umbral de trabajo; contamos en línea en una ventana deslizante con etiquetas depositadas.
5) Fuentes de etiquetas
Etiquetas en línea (proxy rápido): evento «depósito en 7 días», clic/conversión, caso RG completado.
Etiquetas diferidas: chargeback/frod (45-90 días), churn/LTV a largo plazo.
Reglas: almacenar como de tiempo; no utilizar eventos «del futuro».
6) Dashboards (composición mínima)
1. Operativo: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Calidad: score-distribution, PR-AUC (en etiquetas proxy), ECE, expected-cost, KS.
3. Deriva: PSI/KL en las mejores fichas, novelty categorías, missing-rate, feature-fetch latency.
4. Slice/Fairness: PR-AUC/ECE/expected-cost por mercados/proveedores/dispositivos.
5. Guardrails: RG/AML infracciones, intervenciones/1k solicitudes, false-stop tasa.
6. Costo: costo/solicitud, tiempo CPU/GPU, cache hit-rate, lookups externos.
7) Alerting (reglas de ejemplo)
HighP95Latency: p95> 150 ms (5 min) → página SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 min) → el script rollback está disponible.
PSI_Drift: PSI(amount_base) > 0. 2 (15 min) → retroceso warm-up/retroceso canario.
ECE_Bad: ECE > 0. 07 (30 min) → rebasar la calibración/los umbrales.
ExpectedCost_Up: + X% al índice de referencia (1 día) → considerar retroceso/recorte.
Slice_Failure: PR-AUC en el mercado R cayó> Y% (1 día) → el propietario del dominio ticket.
Guardrails_Breach: proporción de offers agresivos> cap → kill-switch inmediato.
8) Lógica y rastreo
Registros de consulta (mínimo): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms',' cost _ estimate ', (opcional) explicaciones (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: sólo alias/tokens; enmascaramiento de políticas, residencia de claves.
9) Evaluación de calidad en línea
Ventanas deslizantes para PR-AUC/KS a través de etiquetas rápidas (hora/día).
Etiquetas retenidas: informes retrospectivos D + 7/D + 30/D + 90, ajustes expected-cost.
Calibración: revalorización de Isotonic/Platt en D + 1, artefacto auto-refresh.
10) Umbral y política de decisiones
El umbral se mantiene como una confiscación en el registro; en línea consideramos expected-cost y ajustamos dentro del rango permitido (rate-limited).
Safety-caps: bordes de acción superior/inferior; override manual para el cumplimiento.
Backtesting de umbrales: simulación nocturna en los datos de ayer.
11) Slice & Fairness
Segmentos: mercado/jurisdicción, proveedor, dispositivo/ASN, edad de la cuenta, poder de depósito.
Métricas: PR-AUC, ECE, expected-cost, FPR/TPR de diferencia (equalized odds), disparate impact.
Acciones: calibración/umbral por diapositivas, readiestramiento con escalas, revisión de fichas.
12) Equivalencia online/offline
Prueba de igualdad fich: MAE/MAPE en la muestra de control; alerta en la divergencia> del umbral.
Versionar: 'feature _ spec _ version', 'logic _ version'; Archivo WORM.
Contratos de circuitos: se prohíbe el cambio sin doble registro (v1/v2).
13) Guardrails (RG/AML)
Acciones pre-/Post-filter, límites de frecuencia, cooldown, listas de prohibiciones.
Логи `policy_id/propensity/mask/decision`; Informe de infracciones.
La métrica de tiempo a intervención y la tasa de intervención falsa.
14) Incidentes y runbook
Secuencias de comandos y pasos:1. Latency↑/5xx↑: compruebe los proveedores de alimentación externos → habilite caché/temporizadores → escalar → si es necesario rollback.
2. PSI/ECE/Expected-cost han empeorado: tráfico libre (canary↓), activar los umbrales/modelo fallback, ejecutar retrain.
3. Slice Falls: un umbral específico de diapositivas temporales, un ticket al propietario del dominio.
4. Guardrails breach: kill-switch, casos de auditoría, post-mar.
15) Costo y rendimiento
Perfil: proporción de tiempo en feature-fetch vs score vs IO.
Estrategias de caché: TTL/eviction, fiches «calientes» en RAM, fríos - lazy.
Cuantización/optimización del modelo: FP16/INT8 manteniendo la calidad.
Chargeback: costo/solicitud, costo/función por equipo/mercado.
16) Ejemplos (fragmentos)
Umbral por expected-cost (pseudocódigo):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus (ideas de métricas):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alerta (idea):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) Procesos y RACI
R (Responsable): MLOps (observación/alertas/registro), Data Science (métricas de calidad/calibración/umbral), Data Eng (fichas/contratos/equivalencias).
A (Accountable): Head of Data / CDO.
C (Consultado): Cumplimiento/DPO (PII/RG/AML/DSAR), Seguridad (KMS/auditoría), SRE (SLO/incidentes), Finanzas (costo).
I (Informed): Producto/Marketing/Operaciones/Soporte.
18) Hoja de ruta
MVP (2-4 semanas):1. SLI/SLO básico (latency/5xx/coverage) + dashboard.
2. PSI para el top 10 fich y score-distribution; ECE y expected-cost en etiquetas proxy.
3. Logs de soluciones + OTel-trays; prueba de equivalencia online/offline.
4. Alertas HighP95Latency/PSI_Drift/ECE_Bad + runbook 'y.
Fase 2 (4-8 semanas):- Slice/fairness panel, nightly backfill métricas en etiquetas pendientes.
- Auto-re-calibración y simulador de umbrales.
- Costa-dashboard y cuotas/límites de fichas/réplicas.
- Auto-relajación/retransmisión a la deriva con control canario.
- Archivos WORM de informes de calidad y artefactos.
- Pruebas de monitoreo de chaos y ejercicios de RD.
19) Lista de comprobación de disponibilidad
- SLI/SLO acordados y promocionados en shadow/canary ≥ 24 h.
- PSI/KL, ECE, expected-cost y PR-AUC se consideran en línea; los umbrales y alertas están establecidos.
- Los paneles slice/fairness están habilitados; los propietarios de segmentos están asignados.
- Se cumplen los registros/tracks completos (soluciones, umbrales, máscaras), enmascaramiento PII y residencia.
- Prueba de equivalencia verde online/offline; diagramas de fich bajo contrato.
- El Runbook 'y y el rollback de un clic son verificados; kill-switch для guardrails.
- El costo se ajusta a los presupuestos; caché/cuotas/límites están activos.
- Se ha guardado el archivo WORM de métricas/artefactos e informes de calidad.
20) Anti-patrones y riesgos
Ausencia de etiquetas en línea y evaluación retrospectiva.
Monitoreo sólo ROC-AUC sin expected-cost y calibración.
Ignore el slice/fairness → fallas ocultas en regiones/dispositivos.
No hay equivalencia en línea/offline fich → «doble realidad».
Cero guardrails: offers tóxicos, trastornos de RG/AML.
No hay planes de reversión/DR, no hay un archivo WORM.
21) Resultado
El monitoreo de modelos es un sistema de alerta temprana y gestión de riesgo/costo, en lugar de «mirar una vez a la semana». Introduzca SLO, mida la deriva/calibración/expected-cost, realice un seguimiento de las diapositivas y guardrails, mantenga los botones rollback/kill-switch, automatice los informes y los retoques. Así que los modelos seguirán siendo útiles, éticos y complacientes con cualquier turbulencia de datos y tráfico.