Formación de modelos
1) Nombramiento y principios
El objetivo de la formación es conseguir un modelo sostenible, reproducible y económico que mejore las métricas de negocio (Net Revenue, churn↓, fraud↓), respetando RG/AML/Legal.
Principios:- Problem→Metric→Data: primero la tarea y la métrica operativa/costo de error, luego dataset.
- Punto en tiempo: ningún ficha/sello utiliza el futuro.
- Reproducibility: seeds/versiones fijas, control de artefactos.
- Simplicity first: comenzamos con modelos básicos/fich; complicamos sólo con un beneficio probado.
- Privacidad por diseño: minimización PII, residencia, auditoría.
2) Formalización de tareas y métricas
Clasificación: churn/depósito/frod/RG → PR-AUC, F1 @ óperas. umbral, KS, costo especulado.
Regresión/pronóstico: LTV/GGR → WAPE/SMAPE, error P50/P90, cobertura PI.
Clasificación/recomendaciones: NDCG @ K, MAP @ K, coverage/diversity.
Métricas en línea: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.
python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))
3) Datacets y particiones
Las mediciones compatibles con Point-in-time y SCD.
Desequilibrio de clases: sampling stratifed, class_weight, loss focales, oversampling de eventos raros.
Particiones por tiempo/mercados/tenantes: train↔val↔test con «holgura» (gap) para fugas.
sql
SELECT FROM ds WHERE event_time < '2025-07-01' -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test
4) Preparación de signos
Ventanas y unidades: 10m/1h/1d/7d/30d, R/F/M, velocidad/share.
Categorías: hashing/one-hot; target encoding (time-aware).
Normalización/Skaling: parámetros del tren, guardados en artefactos.
Grafic/NLP/geo: construyendo batch, publicado en Feature Store (online/offline).
5) Algoritmos básicos
GBDT: XGBoost/LightGBM/CatBoost es una base sólida para los datos tabulares.
Regresión logística/ElasticNet: interpretable/barato.
Recomendaciones: LambdaMART, factorización, seq2rec.
Anomalías: Bosque de Isolación, AutoEncoder.
Series temporales: Prophet/ETS/GBDT-por fichas de calendario.
6) Regularización y prevención del readiestramiento
GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Parada temprana: por métrica en val con patience y mejora mínima.
7) Selección de hiperparámetros
Grid/Random para la búsqueda de borradores; Bayesian/Hyperband para una configuración fina.
Limitaciones: presupuesto de iteraciones/tiempo/costo, «no-overfit» en val (verificación cruzada en varias divisiones temporales).
python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())
8) Calibración de probabilidad
Platt/Isotonic на holdout; almacenar la función de calibración como artefacto.
Comprobar ESE/Reliability; reencarnar los umbrales a través de un costo especulado.
9) Interpretabilidad y explicaciones
Global: feature importance/SHAP, contribución permutacional.
Local: SHAP para soluciones unitarias (casos RG/AML).
Documentar los riesgos y la admisibilidad del uso de explicaciones en línea.
10) Reproducibilidad y artefactos
Seed dondequiera: datos/modelo/selección/partición.
Artefactos: versión de datos, fih pipeline, pesos, calibración, umbrales, confites.
Detallistic builds: contenedores/dependencias fijos.
11) Experimentos de seguimiento
Registramos: commit git, versiones dataset/fich, confit del modelo, métricas (off/online), artefactos y comentarios.
Reglas para nombrar experimentos, etiquetas (dominio/mercado/modelo).
12) Transferencia de → fuera de línea en línea
Código único de transformación (Feature Store); prueba de equivalencia online/offline.
Serving: NAT/gRPC, temporizadores/retray/caché; canario/por etapas.
Umbral/política: configurables (banderas de ficha), audit y roll-back.
13) Monitoreo y deriva
Datos/score: PSI/KL; alertas cuando se superan los umbrales.
Calibración y métricas: ECE, PR-AUC/KS en etiquetas de streaming.
Métricas de negocio: uplift Net Revenue, fraud saved, RG-intervencion, SLA.
Retrain desencadenantes: por deriva/estacionalidad/lanzamientos/fecha de caducidad.
14) Privacidad, residencia, fairness
Minimización PII: alias, CLS/RLS, mappings individuales.
Residencia: catálogos/claves individuales (EEA/UK/BR); la prohibición de las join's cruzadas-regionales sin fundamento.
Fairness: análisis de diapositivas (mercado/dispositivo/edad de la cuenta), disparate impact, equalized odds; ajuste de fich/umbrales/pesos.
15) Costh-engineering
Costo de capacitación: CPU/GPU-reloj, I/O, número de carreras.
Costo del infierno: latency/cost per request; límites en los fichas en línea y tamaño del modelo.
Materialización: fiches pesados - fuera de línea; en línea - rápido, en caché.
Chargeback: presupuestos para experimentos/réplicas.
16) Ejemplos (fragmentos)
LightGBM (clasificación, boceto de Python):python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)
Muestra de punto en tiempo (idea SQL):
sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);
Estimación del costo especulado y selección del umbral:
python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]
17) Procesos y RACI
R (Responsable): Data Science (modelos/experimentos), Data Eng (datacets/Feature Store), MLOps (serving/monitoreo/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consultado): Cumplimiento/DPO (PII/RG/AML/DSAR), Seguridad (KMS/secretos/auditoría), SRE (SLO/costo), Finanzas (ROI).
I (Informed): Producto/Marketing/Operaciones/Soporte.
18) Hoja de ruta para la implementación
MVP (3-6 semanas):1. Directorio de tareas y métricas (expected cost), datasets de punto en tiempo.
2. Modelos básicos (LogReg/GBDT) + calibración + tarjetas de modelo.
3. Experimentos de seguimiento, seeds/artefactos fijos, builds reproducibles.
4. Serving online canario, umbrales como config, alertas métricas/deriva.
Fase 2 (6-12 semanas):- Selección bayesiana/Hyperband, análisis de diapositivas/fairness, desencadenantes retro.
- Economía fich/infersa, caché/TTL, chargeback.
- Documentación de fórmulas métricas/umbrales, what-if simulaciones.
- Pipelines multi-regionales, DR/enseñanzas, archivos WORM de lanzamientos.
- Autogeneración de informes de calidad/calibración, auto-recapitulación por eventos.
- Experimentos A/B/n con prueba sequential y parada automática.
19) Lista de verificación antes de la venta
- La tarea y la métrica del negocio están alineadas; calculado el costo de los errores.
- Dataset point-in-time; División de tiempo/mercado; No hay leuceds.
- Selección/regularización, parada temprana, calibración de probabilidad.
- Modelo de tarjeta: datos, fichas, métricas, riesgos, fairness, propietario.
- Los artefactos se conservan (pesos, paipeline, calibración, umbrales).
- Se ha realizado la prueba de equivalencia online/offline; serving con la bandera de ficha.
- Monitoreo de la deriva/calibración/métricas de negocio; planes retrain/rollback.
- Se cumplen las políticas PII/DSAR/RTBF, residencia y auditoría de acceso.
- El costo de la matrícula/inferencia está inscrito en el presupuesto; alertas SLA.
20) Anti-patrones y riesgos
Leucedge: fichas/etiquetas del futuro, descoordinadas por SCD.
Afinación «a azul» en una sola muestra de eje: no hay división temporal/verificación cruzada.
Falta de calibración y umbrales de costo.
Divergencia en línea/fuera de línea: diferentes resultados en la venta.
Ignorar fairness/diapositivas: fallos ocultos en los mercados/dispositivos.
Réplicas ilimitadas y fiches caros: aumento de valor sin beneficio.
21) Resultado
El aprendizaje de modelos es un proceso manejable: tarea clara y métrica, disciplina de datos (punto en tiempo), afinación razonable con regularización, calibración y reproducibilidad, transferencia transparente en línea y monitorización constante de calidad, costos y riesgos. Siguiendo este playbook, se obtienen modelos que mejoran previsiblemente el producto, la retención y el cumplimiento - rápido, ético y confiable.