Marcatura dei dati e qualità dei modelli

1) Assegnazione e principi

Obiettivo: ottenere etichette riproduttive e la qualità misurabile dei modelli senza leucage e tenendo conto della compilazione.

Principi:

Schema-first - Ontologie formalizzate, dizionari di classe e criteri.
Point-in-time - Le etichette sono costruite dalle informazioni disponibili al momento della soluzione.
Quality-as-code - Istruzioni, test, scontrini e campionamenti nel repository.
Privacy-by-design: riduce al minimo PII, DSAR/RTBF, residenza.
Cost-aware - Conteggiamo il costo di marcatura e soluzioni errate (expected cost).

2) Ontologia e schema discografico

Definire l'oggetto di marcatura, le classi, le eccezioni e le origini di verità: Esempio (AML/Antifrode):

Oggetto: transazione/sessione.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
Le eccezioni sono → eback senza prove di «unknown».
Fonti: gestione valigetta, registri chargeback, provider/banca.

Diagramma YAML:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Istruzioni di annotazione (guidelines)

Struttura:

1. Descrizione dell'attività e del contesto aziendale.

2. Definizioni di classi con esempi positivi/negativi e valigette di confine.

3. Regole di priorità delle origini (verità> euristica> opinione).

4. I criteri «unknown» e l'escalation.

5. Criteri di privacy (maschera, token anziché ID).

6. FAQ e un assegno di contrassegno.

Porzione di istruzioni (frodo):

«fraud _ confirmed» è una valigetta provata/una valigetta chiusa con il tag FRAUD.
'fraud _ suspected': deposito ≥3
«legit»: niente bandiere e valigette confermate nella finestra dei 60 giorni.
«unknown»: segni in conflitto o dati insufficienti.

4) Sorgenti etichette e regole point-in-time

Etichette auto: regole/valigette, chargeback, auto-esclusione (RG), outcome scommesse.
Tromba di ground: risultato di indagini/risultati regolatori.
Point-in-time - Non è consentito utilizzare eventi dopo la decisione (t0).
I ritardi, ad esempio, si manifestano 45-90 giorni dopo.

Modello SQL «senza futuro»:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Campionamenti: stratificazione e bilanciamento

Eventi rari: use stratified sampling per mercato/provider/data; oversampling di classi rare o focal loss.
Livelli di validazione: mantenere holdout per settimane/mercati/tenanti.
Sanzioni/PII - Escludi i campi con identificatori diretti dai set di apprendimento.

Controllo spostamento campionamento:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Coerenza marcatori (IRR)

Misurare il consenso interannotatore: Cohen's (2 annotatori )/Krippendorff's (N annotatori, diverso tipo di scala).

Punti di riferimento:

κ < 0. 4 - scarsa coerenza per rivedere istruzioni/esempi.

0. 4–0. 6 - accettabile per attività complesse;> 0. 6 - Bene;> 0. Il 8 è perfetto.

Scheda di qualità di contrassegno:

Copertura (quanto marcato), / per classe e diapositiva, quota «unknown», tempo medio, errori top.

7) Circuito QA e riferimento in oro

Golden set: 1-5% marcato è un riferimento a doppia prova.
Attività Honey-pot - valigette conosciute nascoste nel flusso di attività.
Secondo, escalation/arbitraggio su esempi controversi.
Test di regressione di marcatura: convalida ripetuta dopo l'aggiornamento degli hard.

8) Formazione attiva, debole e semi-controllata

Active Learning - Selezione di esempi «insicuri» (massima entropia/varietà).
Weak Supervision: euristic/distant supervision + modello di rumore per etichette.
Semi-Supervised: pseudonimi con soglia di temperatura e controllo successivo.

Pipeline (sketch):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anti-leucage e controllo del tempo

Point-in-time join per le etichette e le etichette.
Proibire etichette/fiffe dal futuro (dopo «asof»).
Pipline separate online/offline con test di equivalenza trasformazioni.
Versioning dei dataset e della logica ('logic _ version', 'data _ version', 'asof _ date').

10) Metriche di qualità modello

Selezionare le metriche in base al costo aziendale degli errori:

Classificazione: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, expected cost (peso FP/FN).
Controllo del rischio: KS/ROC-AUC, Brier, Calibrazione (ECE), PSI/CSI per la deriva.
Le linee guida sono NDCG/MAP @ K, coverage/divisity, novità.
Anomalie: Precision @ k, AUCPR su un set sintetico/dorato.

Expected-Cost (pseudocode):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Diapositiva e fairness

Diapositive: mercato, provider, device/ASN, età dell'account, importo del deposito, ora del giorno.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Azioni: reimpostazione, calibrazione per diapositiva, revisione delle soglie, peso di apprendimento.

12) Monitoraggio della qualità della produzione

La deriva di dati/prevendite è PSI/KL per fit/screen.
Calibrazione: ECE, diagrammi reliability.
Stabilità soglia: alert se expected cost ↑> X% o PR-AUC ↓.
Schemi/contratti: rilascia breaking changes (schema registry).
Feedback loop: etichette manuali veloci per incidenti (case-chiusura, RG-Exit).

13) Privacy, sicurezza, compliance

Minimizzazione PII: alias, mapping protetto separato.
Residenza: pipline/chiavi separate (EEA/UK/BR); divieto di join'ov crocifissori senza fondamento.
DSAR/RTBF: proiezioni calcolate e modifiche selettive.
Legale Hold: archivi WORM per valigette e pacchetti di report.
Registri - Controllo di accesso/esportazione invariato.

14) Organizzazione del processo di marcatura

Strumenti: tracker task, coda di esempi, anteprima del contesto, maschera PII, tasti hot.
Controllo di velocità e qualità: KPI annotatore (velocità, precisione sul golden), formazione e certificazione.
Versioning: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', 'minutaggio'.
Documentazione - Scheda set (owner, origine, finestre, regole, metriche).

15) Esempi di modelli

Scheda dataset (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

Regole QA di marcatura:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confolution matrix (SQL-Idea):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Road map di implementazione

MVP (2-4 settimane):

1. Ontologia e istruzioni v1, set d'oro (≥1000 esempi per dominio).

2. Flusso di annotazione con maschera PII, metrica per ogni settimana.

3. Modello di base + offline-valutazione (PR-AUC, expected cost), point-in-time di campionamento.

4. Monitoraggio della deriva fich/score; maiuscole di dataset e versioni di guidi.

Fase 2 (4-8 settimane):

Linea di montaggio Active/weak-supervision, auto-triage «unknown».
Diapositiva e report fairness, calibrazione delle probabilità.
Procedure DSAR/RTBF per i set segnati, Legale Hold per le valigette.

Fase 3 (8-12 settimane):

Completa automazione QA (golden/honey-pots), test di regolazione.
Catalogo di dataset e cartellino «qualità modello» expected-cost orchestrazione delle soglie.
Chargeback per valore di contrassegno/inferance, SLA per aggiornamenti discografici.

17) RACI

R (Secondable): Data Science (ontologia, metriche), Label Ops (processo/QA), Data Eng (campionamento/PII/storage).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (regole), Security (KMS/Audit).
I (Informed) - Prodotto/Marketing/Operazioni/Supporto.

18) Foglio di assegno prima della vendita

Ontologia e guidi approvati, versione registrata.
Campionamento qualitativo: stratificazione, holdout in termini di tempo/mercato.
la soglia di destinazione golden-accuracy rispettato.
Punto-in-time raccolta di fit e etichette; Il test per la mancanza di leucage è stato superato.
Le metriche sono selezionate per expected cost, l'analisi delle diapositive e fairness.
Il monitoraggio della deriva/calibrazione è attivato; Gli alert sono sintonizzati.
I criteri PII/DSAR/RTBF e Legale Hold sono stati rispettati; controllo attivato.

19) Anti-pattern e rischi

Etichettatura senza criteri chiari, basso →, etichette rumorose.
Lakedge dal futuro (post-fattura segni/etichette).
Campionamenti non bilanciati, metrica ROC-AUC senza costi.
Niente golden/QA e test di regressione di marcatura.
PII in dataset senza occultamento e residenza.
Nessuna diapositiva → la degradazione nascosta nelle regioni/provider.

20) Totale

La qualità dei modelli inizia con la qualità delle etichette. L'ontologia rigorosa, le istruzioni con esempi, la disciplina point-in-time, i tracciati QA e le metriche che tengono conto del costo degli errori sono la base dell'ML riprodotta nel iGaming. Integrando queste pratiche nella catena di montaggio e MLOs, si otterranno modelli sostenibili, etici e complessi che migliorano i risultati aziendali senza sorprese.

Marcatura dei dati e qualità dei modelli

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti