Formación con y sin profesor

1) Por qué y cuándo

Con el profesor (Supervisado): hay una etiqueta (etiqueta) → predecir probabilidad/grado/valor. Usamos cuando se entiende la «respuesta correcta» y hay un historial: churn, depósito de 7 días, riesgo RG/AML, probabilidad de respuesta al offer, pronóstico LTV.
Sin maestro (Unsupervised): no hay etiquetas → encontramos estructuras/clústeres/anomalías/factores latentes: segmentación de jugadores, pinzas de frod, perfiles temáticos de juegos, identificación de fallas de proveedores, compresión de signos.

Regla de selección: si la decisión empresarial depende de un pronóstico probabilístico específico → supervisado; si el objetivo es abrir patrones/señales desconocidas o reducir la dimensión de los datos → unsupervised. En la práctica, se combinan.

2) Casos típicos de iGaming

Supervised

Churn/reactivación: clasificación binaria (se irá/no se irá), modelos uplift para exposición.
Propensity al depósito/compra: probabilidad de un evento en el horizonte T.
RG/AML: riesgo-score, probabilidad de estructuración, sesión sospechosa.
Antibugs bonificaciones: la probabilidad de uso fraudulento de la promoción.
Recomendaciones (clasificación): probabilidad de hacer clic/apostar en el juego (listwise/pointwise).

Unsupervised

Segmentación de jugadores: k-means, GMM, HDBSCAN por RFM/comportamiento/géneros.
Anomalías: Bosque de Isolación, LOF, AutoEncoder en pagos/patrones de juego.
Análisis gráfico: agrupamiento en el grafo «jugador de tarjeta de device-IP».
Reducción de dimensión: PCA/UMAP para visualización e ingeniería de fichas.
Modelos temáticos: NMF/LDL para descripciones de juegos/chats de soporte.

3) Datos y fichas

Conexiones punto-en-tiempo para excluir el leakage de datos.
Ventanas de signos: 10 min/1 h/1 día/7 días/30 días (recency, frequency, monetary).
Contexto: mercado/jurisdicción/DST/vacaciones, proveedor/género, dispositivo/ASN.
Caracteres gráficos: número de tarjetas únicas/IP/dispositivos, centralidad.
Normalización de las monedas/zonas horarias, SCD II para usuarios/juegos/proveedores.

4) Algoritmos y métricas

Con el profesor

Algoritmos: LogReg, XGBoost/LightGBM/CatBoost, AmbNet; para clasificación - LambdaMART/GBDT; series de tiempo - Prophet/ETS/Gradient Boosted TS.
Métricas: ROC-AUC/PR-AUC, F1 @ umbral operativo, KS (riesgo), NDCG/MAP @ K (recomendaciones), MAPE/WAPE (predicciones), costo especulado con pesos FP/FN.

Sin profesor

Clustering: k-means/GMM (el número de clústeres es elbow/silhouette), HDBSCAN (density).
Anomalías: Isolation Forest/LOF/AutoEncoder; métricas - precision @ k en la marca de expertos, AUCPR en anomalías sintéticas.
Dimensión: PCA/UMAP para diseño de fichas y visualizaciones.

5) Enfoques combinados

Semi-Supervised: pseudolables para una parte de los datos no etiquetados (auto-formación), consistencia regularización.
Auto-Supervisado: las tareas de contraste/enmascarado (embarques de sesiones/juegos) → utilizan downstream en supervisado.
Aprendizaje activo: el sistema ofrece candidatos para marcar (máxima incertidumbre/diversidad) → ahorra el trabajo de los expertos de AML/RG.
Weak Supervision: heurísticas/reglas/marcas distantes forman etiquetas «débiles», luego calibramos.

6) Proceso: de offline a serving en línea

1. Fuera de línea: recogida/preparación → split por tiempo/mercados → formación/validación → backtest.
2. métricas semánticas: fórmulas únicas (por ejemplo, churn_30d) y ventanas de tiempo fijo.
3. Feature Store: fórmulas únicas fich online/offline; pruebas de conformidad.
4. Serving online: Endpoints gRPC/NAT, SLA por latencia, lanzamientos AB-routing/canario.
5. Monitoreo: deriva de datos/predicciones (PSI/KL), latency p95, error de métricas de negocio, alertas.

7) Privacidad y cumplimiento

Minimización PII: seudonimización, aislamiento de mappings, CLS/RLS.
Residencia: transportadores/claves de cifrado individuales por región (EEA/UK/BR).
DSAR/RTBF: eliminamos/editamos fichas y registros; Conservamos los fundamentos jurídicos de las excepciones.
Legal Hold: congelación de artefactos de investigación/denuncia.
Fairness: auditoría de proxy fich, informes de impacto (SHAP), política de intervención de RG.

8) Economía y productividad

Costo de cómputo fich (costo/función) e infersa (costo/solicitud).
Materialización de agregados offline; en línea - sólo ventanas críticas.
Caché de permisos/resultados de captura de pantalla en TTL cortos, lookups asíncronos con temporizadores.
Cuotas y presupuestos para las réplicas/backtests; chargeback por equipos/modelos.

9) Ejemplos (fragmentos)

9. 1 Punto-en-tiempo muestra para churn_30d

sql
WITH base AS (
SELECT user_pseudo_id, DATE(event_time) AS asof
FROM silver. fact_events
GROUP BY user_pseudo_id, DATE(event_time)
),
feat AS (
SELECT b. user_pseudo_id, b. asof,
SUM(CASE WHEN e. type='deposit' AND e. event_time>=b. asof - INTERVAL '30' DAY
AND e. event_time<b. asof THEN amount_base ELSE 0 END) AS dep_30d,
COUNT(CASE WHEN e. type='bet' AND e. event_time>=b. asof - INTERVAL '7' DAY
AND e. event_time<b. asof THEN 1 END) AS bets_7d
FROM base b
JOIN silver. fact_events e USING (user_pseudo_id)
GROUP BY b. user_pseudo_id, b. asof
),
label AS (
SELECT f. user_pseudo_id, f. asof,
CASE WHEN NOT EXISTS (
SELECT 1 FROM silver. fact_events x
WHERE x.user_pseudo_id=f. user_pseudo_id
AND x.event_time>f. asof AND x.event_time<=f. asof + INTERVAL '30' DAY
) THEN 1 ELSE 0 END AS churn_30d
FROM feat f
)
SELECT FROM feat JOIN label USING (user_pseudo_id, asof);

9. 2 Anomalías de pago (pseudocódigo, Bosque de Isolación)

python
X = build_features (payments_last_7d) # sum/frequency/novelty/BIN/ASN/time model = IsolationForest (contamination = 0. 01). fit(X_train)
scores = -model. decision_function(X_test)
alerts = where (scores> THRESHOLD) # AML case candidates

9. 3 Segmentación k-means (géneros RFM +)

python
X = scale(np. c_[R, F, M, share_slots, share_live, share_sports])
km = KMeans(n_clusters=8, n_init=20, random_state=42). fit(X)
segments = km. labels_

9. 4 Umbral de valor para el modelo binario

python threshold = pick_by_expected_cost(scores, labels, cost_fp=5. 0, cost_fn=50. 0)

10) Evaluación, validación y experimentación

Offline: temporal split (train/val/test por tiempo/mercados), backtesting, bootstrap de confianza.
En línea: A/B/n, pruebas secuenciales, CUPED/diff en diff.
Política desactivada: IPS/DR para políticas de personalización.
Calibración: Platt/Isotonic para probabilidades correctas.
Control de degradación: alertas por métricas de negocio y PR-AUC/KS.

11) RACI

R (Responsable): Ciencia de datos (modelos/experimentos), MLOps (plataforma/serving), Data Eng (fichas/pipelines).
A (Accountable): Head of Data/CDO.
C (Consultado): Cumplimiento/DPO (PII/RG/AML), Seguridad (KMS/secretos), SRE (SLO/costo), Finanzas (ROI).
I (Informed): Producto/Marketing/Operaciones/Soporte.

12) Hoja de ruta para la implementación

MVP (4-6 semanas):

1. Catálogo de objetivos/etiquetas y señales (churn_30d, propensity_7d, risk_rg).

2. Feature Store v1 (5-10 fich), modelos básicos de XGBoost, dashboards de métricas offline.

3. Segmentación de k-means (8 clústeres) + descripción de segmentos; Isolation Forest para pagos.

4. Serving en línea con caché, p95 <150 ms; A/B en el 10-20% del tráfico.

Fase 2 (6-12 semanas):

Active/Semi-Supervised para la escasez de etiquetas (AML/RG), embarques de juegos/sesiones auto-supervisados.
Lanzamientos canarios, monitoreo a la deriva, autorretratamiento.
Una sola capa semántica de métricas y alineación online/offline fich.

Fase 3 (12-20 semanas):

Señales gráficas y anillos de frodo; modelos de bonificaciones uplift.
Serving multi-regional, cuotas/chargeback; Archivo WORM de lanzamientos.
Auditoría de fairness, pruebas de estrés, incidentes de runbooks.

13) Lista de verificación antes de la venta

Muestras de punto en tiempo y pruebas contra leakage.
Calibración de probabilidades; Seleccionar un umbral a través de un costo especulado.
Tarjetas de modelo (owner, datos, métricas, riesgos, fairness).
Feature Store: prueba de conformidad online/offline.
Monitoreo de deriva/latencia/errores, alertas y auto-rollback.
Políticas PII/DSAR/RTBF/Legal Hold; la lógica es impersonal.
El plan A/B y la capacidad estadística se cuentan; runbook de vuelta listo.

14) Anti-patrones

Mezclar nuevos eventos en etiquetas (leakage) y sin punto en tiempo.
«Un modelo para todo» en lugar de una descomposición de dominio.
Una especie de probabilidades libradas → umbrales de negocio incorrectos.
Vuelo «a ciegas»: no hay monitoreo de deriva/calidad en línea.
Reinstalación en línea (pesados external-join's sin caché y temporizadores).
Segmentos sin interpretación empresarial y propietario.

15) Resultado

El aprendizaje con el profesor proporciona un pronóstico medible y una gestión del riesgo/ingreso; sin el maestro - la estructura y las señales donde no hay marcas. Su combinación (semi/self-supervised, active learning) en la disciplina de datos (punto en tiempo, Feature Store), cumplimiento y MLOps le da a la plataforma iGaming una ganancia sostenida de Net Revenue, disminución de Frod y RAM oportuno Intervenciones G - con reproducibilidad, control de costos y preparación para la auditoría.

Formación con y sin profesor

Unsupervised

Sin profesor

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos