Marcación de datos y calidad de los modelos

1) Nombramiento y principios

Objetivo: obtener las etiquetas reproducibles y la calidad medida de los modelos sin leuceds y teniendo en cuenta el cumplimiento.

Principios:

Schema-first: ontologías formalizadas, diccionarios de clases y criterios.
Punto en tiempo: las etiquetas se construyen a partir de la información disponible en el momento de la solución.
Quality-as-code: instrucciones, pruebas, hojas de comprobación y muestras - en el repositorio.
Privacidad por diseño: minimización de PII, DSAR/RTBF, residencia.
Costo-aware: consideramos el costo de las marcas y las soluciones erróneas (costo especulado).

2) Ontología y esquema de etiquetas

Defina el objeto de marcado, las clases, las excepciones y las fuentes de verdad: Ejemplo (AML/Antifraude):

Objeto: transacción/sesión.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
Excepciones: chargeback sin evidencia → 'unknown'.
Fuentes: gestión de casos, registros de chargeback, proveedores/banco.

Esquema YAML:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Instrucciones de anotación (guidelines)

Estructura:

1. Descripción de la tarea y el contexto empresarial.

2. Definiciones de clases con ejemplos positivos/negativos y casos fronterizos.

3. Reglas de prioridad de las fuentes (verdad> heurística> opinión).

4. Criterios de 'desconexión' y escalamiento.

5. Políticas de privacidad (enmascaramiento, tokens en lugar de ID).

6. Preguntas frecuentes y lista de comprobadores.

Fragmento de instrucciones (frod):

'fraud _ confirmed': chargeback/caso cerrado probado con la etiqueta FRAUD.
'fraud _ suspected': ≥3 de depósito
'legit': no hay banderas y casos confirmados en la ventana 60 días.
'unknown': signos conflictivos o datos insuficientes.

4) Fuentes de etiquetas y reglas de punto en tiempo

Auto-etiquetas: reglas/casos, chargeback, auto-exclusión (RG), outcome apuestas.
Ground Truth: el resultado de la investigación/resultados regulatorios.
Punto en tiempo: se prohíbe el uso de eventos después del momento de la decisión (t0).
Retrasos: por ejemplo, el chargeback se manifiesta en 45-90 días → la etiqueta «madura».

Plantilla SQL «sin futuro»:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Muestras: estratificación y equilibrio

Eventos raros: use sampling stratified por mercados/proveedores/fechas; oversampling clases raras o focal loss.
Capas de validación: mantenga holdout por semanas/mercados/tenantes.
Sanciones/PII: excluir campos con identificadores directos de los conjuntos de entrenamiento.

Control de desplazamiento de muestreo:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Consistencia de marcadores (IRR)

Medir el consentimiento interanual: Cohen's κ (2 anotadores )/Krippendorff's α (N anotadores, diferente tipo de escala).

Puntos de referencia:

κ < 0. 4 - poca coherencia → revisar las instrucciones/ejemplos.

0. 4–0. 6 - Aceptable para tareas complejas;> 0. 6 - Bueno;> 0. 8 - genial.

Tarjeta de calidad de marcado:

Cobertura (cuántos marcados), κ/ α por clase y diapositivas, fracción 'unknown', tiempo medio, errores superiores.

7) Circuito de QA y referencias de oro

Conjunto de oro: 1-5% marcado - una referencia con doble validación.
Trabajos de Honey-pot: casos ocultos conocidos en el flujo de tareas.
Segunda mirada: escalada/arbitraje sobre ejemplos controvertidos.
Pruebas de regresión de marcas: revalidación después de la actualización de gaids.

8) Aprendizaje activo, débil y semi-controlado

Aprendizaje activo: selección de ejemplos «inseguros» (máxima entropía/diversidad).
Weak Supervision: heurística/supervisión distant + modelo de ruido para etiquetas.
Semi-Supervised: pseudolables con umbral de temperatura y verificación posterior.

Pipeline (esbozo):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anti-leucemia y control de tiempo

Point-in-time join para fichas y sellos.
Prohibición de etiquetas/fich del futuro (después de 'asof').
Pipelines separados en línea/fuera de línea con prueba de equivalencia de transformación.
Versificación de datasets y lógica ('logic _ version', 'data _ version', 'asof _ date').

10) Métricas de calidad de modelos

Seleccione las métricas para el costo de error empresarial:

Clasificación: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, costa expectada (pesos FP/FN).
Puntuación de riesgo: KS/ROC-AUC, Brier, calibración (ECE), PSI/CSI para la deriva.
Recomendaciones: NDCG/MAP @ K, coverage/diversity, novedad.
Anomalías: Precision @ k, AUCPR en sintético/conjunto de oro.

Expected-Cost (pseudocódigo):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Análisis de diapositivas y fairness

Diapositivas: mercado, proveedor, dispositivo/ASN, edad de la cuenta, tamaño del depósito, hora del día.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Acciones: revisión de fichas, calibración por diapositivas, revisión de umbrales, pesos de entrenamiento.

12) Monitoreo de calidad de producción

Derivación de datos/predicciones: PSI/KL por fichas/secuencias.
Calibración: ECE, reliability-diagramas.
Estabilidad del umbral: alerta si se expecta el costo ↑> X% o PR-AUC ↓.
Esquemas/contratos: capturar cambios de breaking (registro schema).
Feedback loop: etiquetas de mano rápidas para incidentes (cierre de caso, resultados de RG).

13) Privacidad, seguridad, cumplimiento

Minimización PII: alias, mapping protegido separado.
Residencia: pipelines/llaves separadas (EEA/UK/BR); Prohibición de la join's cruzada-regional sin fundamento.
DSAR/RTBF: proyecciones calculadas y ediciones selectivas.
Legal Hold: archivos WORM para casos y paquetes de informes.
Registros: auditoría de acceso/exportación sin cambios.

14) Organización del proceso de marcado

Herramientas: rastreador de tareas, cola de ejemplos, vista previa del contexto, máscara PII, teclas de acceso rápido.
Control de velocidad y calidad: KPI del anotador (velocidad, precisión en oro), entrenamiento y certificación.
Versioning: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', temporizadores.
Documentación: tarjeta de marcado (owner, fuente, ventanas, reglas, métricas).

15) Ejemplos de plantillas

Tarjeta Dataset (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

Reglas de QA de marcado:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confusion matrix (idea SQL):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Hoja de ruta para la implementación

MVP (2-4 semanas):

1. Ontología e instrucciones v1, conjunto de oro (≥1000 ejemplos por dominio).

2. Flujo de anotación con enmascaramiento PII, κ-métrica para cada semana.

3. Modelo básico + evaluación offline (PR-AUC, expected cost), punto en tiempo de muestreo.

4. Monitoreo de la deriva de los fich/skors; un registro de datasets y versiones de gaidas.

Fase 2 (4-8 semanas):

Transportador active/weak-supervision, auto-triage 'unknown'.
Análisis de diapositivas e informes de fairness, calibración de probabilidades.
Procedimientos DSAR/RTBF para conjuntos marcados, Legal Hold para casos.

Fase 3 (8-12 semanas):

Automatización completa de QA (golden/honey-pots), pruebas de regresión de marcas.
Catálogo de datasets y tarjeta «calidad del modelo»; la orquestación expected-cost de los umbrales.
Chargeback por valor de marcado/inferencia, SLA por actualizaciones de etiquetas.

17) RACI

R (Responsable): Ciencia de datos (ontología, métricas), Label Ops (proceso/QA), Data Eng (muestras/PII/almacenamiento).
A (Accountable): Head of Data / CDO.
C (Consultado): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (reglas), Security (KMS/auditoría).
I (Informed): Producto/Marketing/Operaciones/Soporte.

18) Lista de verificación antes de la venta

Ontología y gaidas aprobadas, versión fija.
Muestra de calidad: estratificación, holdout por tiempo/mercados.
κ/ α ≥ del umbral objetivo; golden-accuracy respetado.
Colección de puntos en tiempo real y etiquetas; prueba de ausencia de leucemia.
Las métricas se seleccionan a través del costo especulado, el análisis de diapositivas y fairness realizado.
Control de deriva/calibración habilitado; alertas personalizadas.
Se han respetado las políticas PII/DSAR/RTBF y Legal Hold; auditoría habilitada.

19) Anti-patrones y riesgos

Etiquetado sin criterios claros → bajo κ, etiquetas ruidosas.
Lakedge del futuro (señales/etiquetas post-factum).
Muestras desequilibradas, métricas ROC-AUC sin tener en cuenta el coste.
Ausencia de pruebas de golden/QA y regresión de marcas.
PII en datasets sin enmascaramiento ni residencia.
No hay análisis de diapositivas → degradación latente en las regiones/proveedores.

20) Resultado

La calidad de los modelos comienza con la calidad de las etiquetas. Ontología estricta, instrucciones con ejemplos, disciplina punto-en-tiempo, contornos QA y métricas que tienen en cuenta el costo de error, son la base del ML reproducible en iGaming. Al integrar estas prácticas en la canalización de datos y MLOps, obtendrá modelos sostenibles, éticos y de cumplimiento que mejoran los resultados empresariales sin sorpresas.

Marcación de datos y calidad de los modelos

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos