Formación de modelos

1) Nombramiento y principios

El objetivo de la formación es conseguir un modelo sostenible, reproducible y económico que mejore las métricas de negocio (Net Revenue, churn↓, fraud↓), respetando RG/AML/Legal.

Principios:

Problem→Metric→Data: primero la tarea y la métrica operativa/costo de error, luego dataset.
Punto en tiempo: ningún ficha/sello utiliza el futuro.
Reproducibility: seeds/versiones fijas, control de artefactos.
Simplicity first: comenzamos con modelos básicos/fich; complicamos sólo con un beneficio probado.
Privacidad por diseño: minimización PII, residencia, auditoría.

2) Formalización de tareas y métricas

Clasificación: churn/depósito/frod/RG → PR-AUC, F1 @ óperas. umbral, KS, costo especulado.
Regresión/pronóstico: LTV/GGR → WAPE/SMAPE, error P50/P90, cobertura PI.
Clasificación/recomendaciones: NDCG @ K, MAP @ K, coverage/diversity.
Métricas en línea: uplift Net Revenue, CTR/CVR, time-to-intervene (RG), abuse-rate.

Umbral de valor (pseudocódigo):

python best_thr = argmin_thr(cost_fp FPR(thr) + cost_fn FNR(thr))

3) Datacets y particiones

Las mediciones compatibles con Point-in-time y SCD.
Desequilibrio de clases: sampling stratifed, class_weight, loss focales, oversampling de eventos raros.
Particiones por tiempo/mercados/tenantes: train↔val↔test con «holgura» (gap) para fugas.

split temporal (idea SQL):

sql
SELECT FROM ds WHERE event_time < '2025-07-01'     -- train
UNION ALL SELECT FROM ds WHERE event_time BETWEEN '2025-07-01' AND '2025-08-15' -- val
UNION ALL SELECT FROM ds WHERE event_time > '2025-08-15' -- test

4) Preparación de signos

Ventanas y unidades: 10m/1h/1d/7d/30d, R/F/M, velocidad/share.
Categorías: hashing/one-hot; target encoding (time-aware).
Normalización/Skaling: parámetros del tren, guardados en artefactos.
Grafic/NLP/geo: construyendo batch, publicado en Feature Store (online/offline).

5) Algoritmos básicos

GBDT: XGBoost/LightGBM/CatBoost es una base sólida para los datos tabulares.
Regresión logística/ElasticNet: interpretable/barato.
Recomendaciones: LambdaMART, factorización, seq2rec.
Anomalías: Bosque de Isolación, AutoEncoder.
Series temporales: Prophet/ETS/GBDT-por fichas de calendario.

6) Regularización y prevención del readiestramiento

GBDT: `max_depth`, `num_leaves`, `min_data_in_leaf`, `subsample`, `colsample_bytree`, `lambda_l1/l2`.
NN: dropout/weight decay/early stopping.
Parada temprana: por métrica en val con patience y mejora mínima.

7) Selección de hiperparámetros

Grid/Random para la búsqueda de borradores; Bayesian/Hyperband para una configuración fina.
Limitaciones: presupuesto de iteraciones/tiempo/costo, «no-overfit» en val (verificación cruzada en varias divisiones temporales).

Esbozo:

python for params in sampler():
model = LGBMClassifier(params, random_state=SEED)
model. fit(X_tr, y_tr, eval_set=[(X_val, y_val)],
eval_metric="aucpr", early_stopping_rounds=200)
log_trial(params, pr_auc=pr_auc(model, X_val, y_val), cost=cost())

8) Calibración de probabilidad

Platt/Isotonic на holdout; almacenar la función de calibración como artefacto.
Comprobar ESE/Reliability; reencarnar los umbrales a través de un costo especulado.

9) Interpretabilidad y explicaciones

Global: feature importance/SHAP, contribución permutacional.
Local: SHAP para soluciones unitarias (casos RG/AML).
Documentar los riesgos y la admisibilidad del uso de explicaciones en línea.

10) Reproducibilidad y artefactos

Seed dondequiera: datos/modelo/selección/partición.
Artefactos: versión de datos, fih pipeline, pesos, calibración, umbrales, confites.
Detallistic builds: contenedores/dependencias fijos.

11) Experimentos de seguimiento

Registramos: commit git, versiones dataset/fich, confit del modelo, métricas (off/online), artefactos y comentarios.
Reglas para nombrar experimentos, etiquetas (dominio/mercado/modelo).

12) Transferencia de → fuera de línea en línea

Código único de transformación (Feature Store); prueba de equivalencia online/offline.
Serving: NAT/gRPC, temporizadores/retray/caché; canario/por etapas.
Umbral/política: configurables (banderas de ficha), audit y roll-back.

13) Monitoreo y deriva

Datos/score: PSI/KL; alertas cuando se superan los umbrales.
Calibración y métricas: ECE, PR-AUC/KS en etiquetas de streaming.
Métricas de negocio: uplift Net Revenue, fraud saved, RG-intervencion, SLA.
Retrain desencadenantes: por deriva/estacionalidad/lanzamientos/fecha de caducidad.

14) Privacidad, residencia, fairness

Minimización PII: alias, CLS/RLS, mappings individuales.
Residencia: catálogos/claves individuales (EEA/UK/BR); la prohibición de las join's cruzadas-regionales sin fundamento.
Fairness: análisis de diapositivas (mercado/dispositivo/edad de la cuenta), disparate impact, equalized odds; ajuste de fich/umbrales/pesos.

15) Costh-engineering

Costo de capacitación: CPU/GPU-reloj, I/O, número de carreras.
Costo del infierno: latency/cost per request; límites en los fichas en línea y tamaño del modelo.
Materialización: fiches pesados - fuera de línea; en línea - rápido, en caché.
Chargeback: presupuestos para experimentos/réplicas.

16) Ejemplos (fragmentos)

LightGBM (clasificación, boceto de Python):

python params = dict(
objective="binary", metric="average_precision",
num_leaves=64, learning_rate=0. 05, feature_fraction=0. 8,
bagging_fraction=0. 8, lambda_l1=1. 0, lambda_l2=2. 0
)
model = lgb. train(params, train_data,
valid_sets=[valid_data],
early_stopping_rounds=200, verbose_eval=100)
save_artifacts(model, scaler, feature_spec, cal_model)

Muestra de punto en tiempo (idea SQL):

sql
SELECT a. user_pseudo_id, a. asof, f. dep_30d, f. bets_7d, lbl. churn_30d
FROM features_at_asof f
JOIN asof_index a USING(user_pseudo_id, asof)
JOIN labels lbl USING(user_pseudo_id, asof);

Estimación del costo especulado y selección del umbral:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_val, y_proba >= t, cost_fp, cost_fn) for t in thr_grid]
t_best = thr_grid[np. argmin(costs)]

17) Procesos y RACI

R (Responsable): Data Science (modelos/experimentos), Data Eng (datacets/Feature Store), MLOps (serving/monitoreo/CI-CD-CT).
A (Accountable): Head of Data / CDO.
C (Consultado): Cumplimiento/DPO (PII/RG/AML/DSAR), Seguridad (KMS/secretos/auditoría), SRE (SLO/costo), Finanzas (ROI).
I (Informed): Producto/Marketing/Operaciones/Soporte.

18) Hoja de ruta para la implementación

MVP (3-6 semanas):

1. Directorio de tareas y métricas (expected cost), datasets de punto en tiempo.

2. Modelos básicos (LogReg/GBDT) + calibración + tarjetas de modelo.

3. Experimentos de seguimiento, seeds/artefactos fijos, builds reproducibles.

4. Serving online canario, umbrales como config, alertas métricas/deriva.

Fase 2 (6-12 semanas):

Selección bayesiana/Hyperband, análisis de diapositivas/fairness, desencadenantes retro.
Economía fich/infersa, caché/TTL, chargeback.
Documentación de fórmulas métricas/umbrales, what-if simulaciones.

Fase 3 (12-20 semanas):

Pipelines multi-regionales, DR/enseñanzas, archivos WORM de lanzamientos.
Autogeneración de informes de calidad/calibración, auto-recapitulación por eventos.
Experimentos A/B/n con prueba sequential y parada automática.

19) Lista de verificación antes de la venta

La tarea y la métrica del negocio están alineadas; calculado el costo de los errores.
Dataset point-in-time; División de tiempo/mercado; No hay leuceds.
Selección/regularización, parada temprana, calibración de probabilidad.
Modelo de tarjeta: datos, fichas, métricas, riesgos, fairness, propietario.
Los artefactos se conservan (pesos, paipeline, calibración, umbrales).
Se ha realizado la prueba de equivalencia online/offline; serving con la bandera de ficha.
Monitoreo de la deriva/calibración/métricas de negocio; planes retrain/rollback.
Se cumplen las políticas PII/DSAR/RTBF, residencia y auditoría de acceso.
El costo de la matrícula/inferencia está inscrito en el presupuesto; alertas SLA.

20) Anti-patrones y riesgos

Leucedge: fichas/etiquetas del futuro, descoordinadas por SCD.
Afinación «a azul» en una sola muestra de eje: no hay división temporal/verificación cruzada.
Falta de calibración y umbrales de costo.
Divergencia en línea/fuera de línea: diferentes resultados en la venta.
Ignorar fairness/diapositivas: fallos ocultos en los mercados/dispositivos.
Réplicas ilimitadas y fiches caros: aumento de valor sin beneficio.

21) Resultado

El aprendizaje de modelos es un proceso manejable: tarea clara y métrica, disciplina de datos (punto en tiempo), afinación razonable con regularización, calibración y reproducibilidad, transferencia transparente en línea y monitorización constante de calidad, costos y riesgos. Siguiendo este playbook, se obtienen modelos que mejoran previsiblemente el producto, la retención y el cumplimiento - rápido, ético y confiable.

Formación de modelos

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos