Marcación de datos y calidad de los modelos
1) Nombramiento y principios
Objetivo: obtener las etiquetas reproducibles y la calidad medida de los modelos sin leuceds y teniendo en cuenta el cumplimiento.
Principios:- Schema-first: ontologías formalizadas, diccionarios de clases y criterios.
- Punto en tiempo: las etiquetas se construyen a partir de la información disponible en el momento de la solución.
- Quality-as-code: instrucciones, pruebas, hojas de comprobación y muestras - en el repositorio.
- Privacidad por diseño: minimización de PII, DSAR/RTBF, residencia.
- Costo-aware: consideramos el costo de las marcas y las soluciones erróneas (costo especulado).
2) Ontología y esquema de etiquetas
Defina el objeto de marcado, las clases, las excepciones y las fuentes de verdad: Ejemplo (AML/Antifraude):- Objeto: transacción/sesión.
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- Excepciones: chargeback sin evidencia → 'unknown'.
- Fuentes: gestión de casos, registros de chargeback, proveedores/banco.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Instrucciones de anotación (guidelines)
Estructura:1. Descripción de la tarea y el contexto empresarial.
2. Definiciones de clases con ejemplos positivos/negativos y casos fronterizos.
3. Reglas de prioridad de las fuentes (verdad> heurística> opinión).
4. Criterios de 'desconexión' y escalamiento.
5. Políticas de privacidad (enmascaramiento, tokens en lugar de ID).
6. Preguntas frecuentes y lista de comprobadores.
Fragmento de instrucciones (frod):- 'fraud _ confirmed': chargeback/caso cerrado probado con la etiqueta FRAUD.
- 'fraud _ suspected': ≥3 de depósito
- 'legit': no hay banderas y casos confirmados en la ventana 60 días.
- 'unknown': signos conflictivos o datos insuficientes.
4) Fuentes de etiquetas y reglas de punto en tiempo
Auto-etiquetas: reglas/casos, chargeback, auto-exclusión (RG), outcome apuestas.
Ground Truth: el resultado de la investigación/resultados regulatorios.
Punto en tiempo: se prohíbe el uso de eventos después del momento de la decisión (t0).
Retrasos: por ejemplo, el chargeback se manifiesta en 45-90 días → la etiqueta «madura».
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Muestras: estratificación y equilibrio
Eventos raros: use sampling stratified por mercados/proveedores/fechas; oversampling clases raras o focal loss.
Capas de validación: mantenga holdout por semanas/mercados/tenantes.
Sanciones/PII: excluir campos con identificadores directos de los conjuntos de entrenamiento.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Consistencia de marcadores (IRR)
Medir el consentimiento interanual: Cohen's κ (2 anotadores )/Krippendorff's α (N anotadores, diferente tipo de escala).
Puntos de referencia:- κ < 0. 4 - poca coherencia → revisar las instrucciones/ejemplos.
0. 4–0. 6 - Aceptable para tareas complejas;> 0. 6 - Bueno;> 0. 8 - genial.
- Cobertura (cuántos marcados), κ/ α por clase y diapositivas, fracción 'unknown', tiempo medio, errores superiores.
7) Circuito de QA y referencias de oro
Conjunto de oro: 1-5% marcado - una referencia con doble validación.
Trabajos de Honey-pot: casos ocultos conocidos en el flujo de tareas.
Segunda mirada: escalada/arbitraje sobre ejemplos controvertidos.
Pruebas de regresión de marcas: revalidación después de la actualización de gaids.
8) Aprendizaje activo, débil y semi-controlado
Aprendizaje activo: selección de ejemplos «inseguros» (máxima entropía/diversidad).
Weak Supervision: heurística/supervisión distant + modelo de ruido para etiquetas.
Semi-Supervised: pseudolables con umbral de temperatura y verificación posterior.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Anti-leucemia y control de tiempo
Point-in-time join para fichas y sellos.
Prohibición de etiquetas/fich del futuro (después de 'asof').
Pipelines separados en línea/fuera de línea con prueba de equivalencia de transformación.
Versificación de datasets y lógica ('logic _ version', 'data _ version', 'asof _ date').
10) Métricas de calidad de modelos
Seleccione las métricas para el costo de error empresarial:- Clasificación: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, costa expectada (pesos FP/FN).
- Puntuación de riesgo: KS/ROC-AUC, Brier, calibración (ECE), PSI/CSI para la deriva.
- Recomendaciones: NDCG/MAP @ K, coverage/diversity, novedad.
- Anomalías: Precision @ k, AUCPR en sintético/conjunto de oro.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Análisis de diapositivas y fairness
Diapositivas: mercado, proveedor, dispositivo/ASN, edad de la cuenta, tamaño del depósito, hora del día.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Acciones: revisión de fichas, calibración por diapositivas, revisión de umbrales, pesos de entrenamiento.
12) Monitoreo de calidad de producción
Derivación de datos/predicciones: PSI/KL por fichas/secuencias.
Calibración: ECE, reliability-diagramas.
Estabilidad del umbral: alerta si se expecta el costo ↑> X% o PR-AUC ↓.
Esquemas/contratos: capturar cambios de breaking (registro schema).
Feedback loop: etiquetas de mano rápidas para incidentes (cierre de caso, resultados de RG).
13) Privacidad, seguridad, cumplimiento
Minimización PII: alias, mapping protegido separado.
Residencia: pipelines/llaves separadas (EEA/UK/BR); Prohibición de la join's cruzada-regional sin fundamento.
DSAR/RTBF: proyecciones calculadas y ediciones selectivas.
Legal Hold: archivos WORM para casos y paquetes de informes.
Registros: auditoría de acceso/exportación sin cambios.
14) Organización del proceso de marcado
Herramientas: rastreador de tareas, cola de ejemplos, vista previa del contexto, máscara PII, teclas de acceso rápido.
Control de velocidad y calidad: KPI del anotador (velocidad, precisión en oro), entrenamiento y certificación.
Versioning: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', temporizadores.
Documentación: tarjeta de marcado (owner, fuente, ventanas, reglas, métricas).
15) Ejemplos de plantillas
Tarjeta Dataset (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Reglas de QA de marcado:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (idea SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Hoja de ruta para la implementación
MVP (2-4 semanas):1. Ontología e instrucciones v1, conjunto de oro (≥1000 ejemplos por dominio).
2. Flujo de anotación con enmascaramiento PII, κ-métrica para cada semana.
3. Modelo básico + evaluación offline (PR-AUC, expected cost), punto en tiempo de muestreo.
4. Monitoreo de la deriva de los fich/skors; un registro de datasets y versiones de gaidas.
Fase 2 (4-8 semanas):- Transportador active/weak-supervision, auto-triage 'unknown'.
- Análisis de diapositivas e informes de fairness, calibración de probabilidades.
- Procedimientos DSAR/RTBF para conjuntos marcados, Legal Hold para casos.
- Automatización completa de QA (golden/honey-pots), pruebas de regresión de marcas.
- Catálogo de datasets y tarjeta «calidad del modelo»; la orquestación expected-cost de los umbrales.
- Chargeback por valor de marcado/inferencia, SLA por actualizaciones de etiquetas.
17) RACI
R (Responsable): Ciencia de datos (ontología, métricas), Label Ops (proceso/QA), Data Eng (muestras/PII/almacenamiento).
A (Accountable): Head of Data / CDO.
C (Consultado): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (reglas), Security (KMS/auditoría).
I (Informed): Producto/Marketing/Operaciones/Soporte.
18) Lista de verificación antes de la venta
- Ontología y gaidas aprobadas, versión fija.
- Muestra de calidad: estratificación, holdout por tiempo/mercados.
- κ/ α ≥ del umbral objetivo; golden-accuracy respetado.
- Colección de puntos en tiempo real y etiquetas; prueba de ausencia de leucemia.
- Las métricas se seleccionan a través del costo especulado, el análisis de diapositivas y fairness realizado.
- Control de deriva/calibración habilitado; alertas personalizadas.
- Se han respetado las políticas PII/DSAR/RTBF y Legal Hold; auditoría habilitada.
19) Anti-patrones y riesgos
Etiquetado sin criterios claros → bajo κ, etiquetas ruidosas.
Lakedge del futuro (señales/etiquetas post-factum).
Muestras desequilibradas, métricas ROC-AUC sin tener en cuenta el coste.
Ausencia de pruebas de golden/QA y regresión de marcas.
PII en datasets sin enmascaramiento ni residencia.
No hay análisis de diapositivas → degradación latente en las regiones/proveedores.
20) Resultado
La calidad de los modelos comienza con la calidad de las etiquetas. Ontología estricta, instrucciones con ejemplos, disciplina punto-en-tiempo, contornos QA y métricas que tienen en cuenta el costo de error, son la base del ML reproducible en iGaming. Al integrar estas prácticas en la canalización de datos y MLOps, obtendrá modelos sostenibles, éticos y de cumplimiento que mejoran los resultados empresariales sin sorpresas.