Balisage des données et qualité des modèles

1) Désignation et principes

Objectif : obtenir des labels reproductibles et la qualité mesurable des modèles sans leukege et en tenant compte de la conformité.

Principes :

Schema-first : ontologies formalisées, dictionnaires de classe et critères.
Point-in-time : les labels sont construits à partir des informations disponibles au moment de la décision.
Quality-as-code : instructions, tests, chèques et échantillons - dans le référentiel.
Privacy-by-design : minimisation du PII, DSAR/RTBF, résidence.
Cost-aware : nous considérons le coût du marquage et des solutions erronées (cost expected).

2) Ontologie et schéma des labels

Identifiez l'objet de marquage, les classes, les exceptions et les sources de vérité : Exemple (AML/Antifrod) :

Objet : transaction/session.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
Exceptions : chargeback sans preuve → « unknown ».
Sources : gestion de cas, registres chargeback, fournisseurs/banque.

Schéma YAML :

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Instructions d'annotation (guides)

Structure :

1. Description de la tâche et du contexte commercial.

2. Définitions de classes avec exemples positifs/négatifs et cas limites.

3. Règles de priorité des sources (vérité> heuristique> opinion).

4. Critères 'unknown' et escalade.

5. Politiques de confidentialité (masquage, jetons au lieu d'ID).

6. FAQ et liste de contrôle du marqueur.

Fragment d'instructions (frod) :

'Fraud _ confirmed ': charge prouvée/case fermée marquée FRAUD.
« fraud _ suspected » : ≥3 du dépôt
'Legit ': pas de drapeaux et cas confirmés dans la fenêtre de 60 jours.
'Unknown ': signes conflictuels ou données insuffisantes.

4) Sources des labels et règles du point-in-time

Auto-labels : règles/cas, chargeback, auto-exclusion (RG), paris outcome.
Ground-lât : résultat de l'enquête/résultats réglementaires.
Point-in-time : il est interdit d'utiliser les événements après l'instant de la décision (t0).
Retards : par exemple, chargeback se manifeste après 45-90 jours → le label « mature ».

Modèle SQL « sans avenir » :

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Échantillons : stratification et équilibre

Événements rares : utilisation d'un sampling stratifié par marchés/fournisseurs/dates ; oversampling des classes rares ou focal loss.
Couches de validation : tenir holdout par semaines/marchés/tenants.
Sanctions/PII : exclure les champs avec des identifiants directs des ensembles de formation.

Contrôle du déplacement de l'échantillon :

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Cohérence des marqueurs (IRR)

Mesurer l'accord interannotateur : Cohen's κ (2 annotateurs )/Krippendorffs α (N annotateurs, type d'échelle différent).

Repères :

κ < 0. 4 - peu de cohérence → revoir les instructions/exemples.

0. 4–0. 6 - acceptable pour les tâches difficiles;> 0. 6 - bien;> 0. 8 - très bien.

Carte de qualité de marquage :

Couverture (combien marquée), κ/ α par classe et diapositives, proportion de 'unknown', temps moyen, erreurs supérieures.

7) Le circuit QA et les références en or

Golden set : 1-5 % balisé est une référence avec double contrôle.
Honey-pot jobs : cachés cas connus dans le flux de tâches.
Second point de vue : escalade/arbitrage sur des exemples controversés.
Tests de régression de marquage : validation répétée après mise à jour des hydes.

8) Apprentissage actif, faible et semi-contrôlé

Apprentissage actif : sélection d'exemples « incertains » (maximum d'entropie/diversité).
Weak Supervision : heuristique/supervision distant + modèle de bruit pour les labels.
Semi-Supervisé : pseudo-blocs avec seuil de température et contrôle ultérieur.

Pipeline (croquis) :

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anti-leucisme et contrôle du temps

Point-in-time join pour les fiches et les labels.
Interdiction des labels/fiches du futur (après « asof »).
Piplines séparées en ligne/hors ligne avec test d'équivalence de transformation.
La versionation des datacets et de la logique ('logic _ version', 'data _ version', 'asof _ date').

10) Métriques de qualité des modèles

Sélectionnez les métriques en fonction du coût commercial des erreurs :

Classification : PR-AUC/ROC-AUC, F1 @ k, Recall @ k, cost expected (poids FP/FN).
Score de risque : KS/ROC-AUC, Brier, étalonnage (ECE), PSI/CSI pour la dérive.
Recommandations : NDCG/MAP @ K, coverage/diversité, nouveauté.
Anomalies : Precision @ k, AUCPR sur kit synthétique/or.

Expected-Cost (pseudo-code) :

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Analyse de diapositives et fairness

Diapositives : marché, fournisseur, device/ASN, âge du compte, taille du dépôt, heure de la journée.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Actions : réverbération des fiches, calibrage par diapositives, révision des seuils, poids d'apprentissage.

12) Surveillance de la production-qualité

Dérive des données/prédictions : PSI/KL par fiches/agrégats.
Étalonnage : ECE, diagrammes de relativité.
Stabilité du seuil : alert si expected cost ↑> X % ou PR-AUC ↓.
Schémas/contrats : capturer les changements de breaking (schema registry).
Feedback loop : labels manuels rapides par incident (cas-fermeture, résultats RG).

13) Vie privée, sécurité, conformité

Minimisation des PII : alias, mapping sécurisé séparé.
Résidence : Piplines/clés séparées (EEE/UK/BR) ; interdiction des join's cross-régionaux sans fondement.
DSAR/RTBF : projections et édition sélectives.
Legal Hold : Archives WORM pour les dossiers et les paquets de rapport.
Journaux : Contrôle d'accès/exportation invariable.

14) Organisation du processus de marquage

Outils : task-tracker, file d'exemples, aperçu du contexte, masquage PII, raccourcis clavier.
Contrôle de la vitesse et de la qualité : Annotateur KPI (vitesse, précision sur golden), formation et certification.
Versioning : 'guidelines _ version', 'annotator _ id', 'reviewer _ id', timestemps.
Documentation : carte de jeu (owner, source, fenêtres, règles, métriques).

15) Exemples de modèles

Carte datacet (YAML) :

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

Règles de marquage QA :

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Fusion matrix (idée SQL) :

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Feuille de route pour la mise en œuvre

MVP (2-4 semaines) :

1. Ontologie et instructions v1, jeu d'or (≥1000 exemples par domaine).

2. Flux d'annotation avec masque PII, métrique κ pour chaque semaine.

3. Modèle de base + évaluation hors ligne (PR-AUC, cost expected), échantillonnage point-in-time.

4. Surveillance de la dérive fich/skor ; registre des datacets et versions des hydes.

Phase 2 (4-8 semaines) :

Pipeline Active/weak-surveillance, auto-triage 'unknown'.
Analyse de la diapositive et rapports de fairness, étalonnage des probabilités.
Procédures DSAR/RTBF pour les ensembles marqués, Legal Hold pour les cas.

Phase 3 (8-12 semaines) :

Automatisation complète de QA (golden/honey-pots), tests de régression de marquage.
Catalogue de datacets et carte « qualité du modèle » ; orchestration expected-cost des seuils.
Chargeback par le coût du marquage/inference, SLA par les mises à jour des labels.

17) RACI

R (Responsible) : Data Science (ontologie, métriques), Label Ops (processus/QA), Data Eng (échantillons/PII/stockage).
A (Accountable): Head of Data / CDO.
C (Consulté) : Conformité/DPO (PII/résidence/DSAR), Risque/AML/RG (règles), Sécurité (KMS/audit).
I (Informed) : Produit/Marketing/Opérations/Support.

18) Chèque-liste avant la vente

Ontologie et hydes approuvés, version fixée.
Échantillonnage qualitatif : stratification, holdout par temps/marchés.
κ/ α ≥ seuil cible ; golden-accuracy respecté.
Rassemblement point-in-time des fiches et des labels ; le test d'absence de leukedge est passé.
Les métriques sont sélectionnées par le cost expected, l'analyse de diapositives et fairness.
La surveillance de la dérive/étalonnage est activée ; les alerts sont faits.
Les politiques PII/DSAR/RTBF et Legal Hold sont respectées ; l'audit est inclus.

19) Anti-schémas et risques

Marquage sans critères clairs → faible κ, label bruyant.
Leukedge du futur (signes post-factuels/labels).
Échantillons déséquilibrés, métrique ROC-AUC hors coût.
Absence de tests de marquage golden/QA et de régression.
PII dans les datacets sans masque et sans résidence.
Aucune analyse de diapositives → dégradation latente sur les régions/fournisseurs.

20) Résultat

La qualité des modèles commence par celle des labels. L'ontologie stricte, les instructions avec des exemples, la discipline point-in-time, les contours QA et les métriques qui prennent en compte le coût des erreurs sont la base du ML reproduit dans iGaming. En intégrant ces pratiques dans la chaîne de données et les MLOps, vous obtiendrez des modèles durables, éthiques et cohérents qui améliorent les résultats de l'entreprise sans surprises.

Balisage des données et qualité des modèles

Prendre contact

Contact rapide

La vidéo sera bientôt mise à jour

Nous sommes actuellement très occupés par des projets