Marcarea datelor și calitatea modelului
1) Scop și principii
Scopul: de a obține etichete reproductibile și calitatea măsurabilă a modelelor fără leucage și luând în considerare conformitatea.
Principii:- Schema-first: ontologii formalizate, dicționare de clasă și criterii.
- Punct-in-time: Etichetele sunt construite din informațiile disponibile în momentul deciziei.
- Calitate-ca-cod: instrucțiuni, teste, liste de verificare și selecții - în depozit.
- Confidențialitate: minimizare PII, DSAR/RTBF, rezidență.
- Cost-conștient: luați în considerare costul de marcare și costul așteptat.
2) Ontologie și schema de etichetare
Definiți obiectul de marcare, clasele, excepțiile și sursele adevărului: Exemplu (AML/Antifraudă):- Obiect: Tranzacție/sesiune.
- Классы: 'legal', 'fraudă _ suspect', 'fraudă _ confirmat', 'necunoscut'.
- Excepții: chargeback fără dovezi → „necunoscut”.
- Surse: management de caz, registre de chargeback, furnizori/banca.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Orientări
Structura:1. Descrierea sarcinii și a contextului de afaceri.
2. Definiții de clasă cu exemple pozitive/negative și cazuri la limită.
3. Regulile prioritare sursă (adevărat> euristic> opinie).
4. „Necunoscut” şi criterii de escaladare.
5. Politici de confidențialitate (mascare, token-uri în loc de ID).
6. FAQ și lista de verificare a marcajelor.
Fragment de instrucțiuni (fraudă):- 'fraud _ confirmed': caz dovedit de chargeback/închis cu etichetă FRAUD.
- 'fraud _ suspendat': depozit ≥3
- „legal”: Nu există steaguri și nici cazuri confirmate în fereastra de 60 de zile.
- „necunoscut”: caracteristici contradictorii sau date insuficiente.
4) Surse de etichetare și reguli punctuale
Etichete auto: reguli/cazuri, chargeback, auto-excludere (RG), pariuri rezultat.
Teren: rezultatul investigațiilor/rezultatelor reglementărilor.
Punct-in-time-Nu utilizaţi evenimente după punctul de decizie (t0).
Întârzieri: de exemplu, chargeback apare după 45-90 de zile → eticheta „se maturizează”.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Probe: stratificare și echilibru
Evenimente rare: utilizarea eșantionării stratificate de către piață/furnizor/dată; suprasamplificarea claselor rare sau pierderea focală.
Straturi de validare: țineți holdout de săptămână/piață/chiriaș.
Sancțiuni/PII: Excludeți câmpurile de identificare directă din seturile de formare.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Consistența trasorului (IRR)
Se măsoară acordul de inter-adnotare: κ lui Cohen (2 adnotatori )/ α Krippendorff (N adnotatori, tip de scară diferită).
Obiective turistice:- κ < 0. 4 - coerență slabă → revizuirea instrucțiunilor/exemplelor.
0. 4–0. 6 - acceptabil pentru sarcini complexe;> 0. 6 - bun;> 0. 8 este excelent.
- Acoperire (câte sunt marcate), κ/ α pe clasă și felie, acțiune „necunoscută”, timp mediu, erori de top.
7) Circuitul QA și standardele de aur
Set de aur: 1-5% marcat - dublu-verificat de referință.
Miere-pot sarcini: cazuri cunoscute ascunse în fluxul de sarcini.
Al doilea aspect: escaladări/arbitraj pe exemple controversate.
Marcarea testelor de regresie: revalidare după actualizarea ghidurilor.
8) Învățarea activă, slabă și semi-supravegheată
Învățare activă: Selectarea exemplelor „incerte” (entropie/diversitate maximă).
Supraveghere slabă: euristică/supraveghere îndepărtată + model de zgomot pentru etichete.
Semi-supravegheat: pseudo-etichete cu un prag de temperatură și verificarea ulterioară.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Anti-leucaj și controlul timpului
Punct-in-time se alăture pentru caracteristici și etichete.
Interzicerea etichetelor/caracteristicilor din viitor (după „asof”).
Conducte separate online/offline cu test de echivalență de transformare.
Date și versiuni logice ('logic _ version', 'data _ version', 'asof _ date').
10) Măsurători ale calității modelului
Selectați valori pentru costul de afaceri al erorilor:- Clasificare: PR-ASC/ROC-ASC, F1 @ k, Recall @ k, cost preconizat (greutăţi FP/FN).
- Scor de risc: KS/ROC-ASC, Brier, calibrare (ECE), PSI/CSI pentru derivă.
- Recomandări: NDCG/MAP @ K, acoperire/diversitate, noutate.
- Anomalii: Precision @ k, AUCPR pe set sintetic/aur.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Analiza felie și corectitudine
Felii: piață, furnizor, dispozitiv/ASN, vârsta contului, mărimea depozitului, ora din zi.
Corectitudine: impact disparat (raport), cote egalizate (разница FPR/TPR).
Acțiuni: reasamblarea caracteristicilor, calibrarea prin felii, revizuirea pragurilor, greutăți de formare.
12) Monitorizarea calității producției
Derivă de date/predicție: PSI/KL peste caracteristici/rate.
Calibrare: ECE, diagrame de fiabilitate.
Stabilitatea pragului: alertă dacă costul preconizat ↑> X% sau PR-ASC ↓.
Scheme/contracte: modificări de rupere a capturilor (registrul schemei).
Bucla de feedback: etichete cu incidente manuale rapide (închideri de carcase, rezultate RG).
13) Confidențialitate, Securitate, Conformitate
Minimizarea PII: pseudonime, cartografiere separată protejată.
Rezidență: conducte/chei separate (SEE/UK/BR); interzicerea intrărilor transregionale fără motiv.
DSAR/RTBF: proiecții calculabile și modificări selective.
Legal Hold: arhive WORM pentru cazuri și pachete de raportare.
Jurnale: audit de acces/export inalterabil.
14) Organizarea procesului de marcare
Instrumente: task tracker, exemplu coadă, previzualizare context, PII mascare, taste rapide.
Viteza și controlul calității: KPI al adnotatorului (viteză, precizie în aur), instruire și certificare.
Versioning: 'guidelines _ version', 'adnotator _ id',' reviewer _ id', timestamps.
Documentație: set card (proprietar, sursă, ferestre, reguli, valori).
15) Șabloane de probă
Card de date (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Regulile de marcare QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Matrice de confuzie (idee SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Foaia de parcurs privind implementarea
MVP (2-4 săptămâni):1. Ontologie și instrucțiuni v1, set de aur (≥1000 exemple pe domeniu).
2. Fluxul de adnotare cu mascare PII, κ metric pentru fiecare săptămână.
3. Model iniţial + estimare offline (ASC-PR, cost preconizat), eşantionare punctuală.
4. Monitorizarea derivei caracteristicilor/ratelor; registru de seturi de date și versiuni de ghidare.
Faza 2 (4-8 săptămâni):- Conductă de supraveghere activă/slabă, auto-triaj „necunoscut”.
- Analiza felii și rapoarte de corectitudine, probabilitatea de calibrare.
- Proceduri DSAR/RTBF pentru seturi marcate, Legal Hold pentru cazuri.
- Automatizare QA completă (ghivece de aur/miere), teste de regresie marcare.
- Catalog de seturi de date și carduri „calitate model”; pragul estimat al costurilor.
- Chargeback după costul de marcare/deducție, SLA după actualizările etichetei.
17) RACI
R (Responsabil): Știința datelor (ontologie, metrică), Label Ops (proces/QA), Data Eng (probe/PII/stocare).
A (Responsabil): șef de date/CDO.
C (Consultat): Conformitate/DPO (PII/rezidență/DSAR), Risc/AML/RG (politică), Securitate (KMS/audit).
I (Informat): Produs/Marketing/Operațiuni/Suport.
18) Lista de verificare pre-vânzare
- Ontologie și ghiduri aprobate, versiunea fixă.
- Eșantion calitativ: stratificare, rezistență la timp/piață.
- κ/ α ≥ pragul țintă de aur-precizie respectat.
- Colectarea punctuală a caracteristicilor și etichetelor; testul pentru absența leucajului a trecut.
- Măsurători selectate de costul așteptat, analiza felie, și corectitudine.
- Drift/calibrare monitorizare pe; alertele sunt stabilite.
- politicile PII/DSAR/RTBF și Legal Hold aplicate; audit activat.
19) Anti-modele și riscuri
Marcaj fără criterii clare → etichete cu κ reduse, zgomotoase.
Lacul din viitor (semne/etichete post-factuale).
Eșantioane dezechilibrate, metrice ROC-ASC excluzând costul.
Lipsa de aur/QA și teste de marcare de regresie.
PII în seturi de date demascate și de rezidență.
Nici o analiză felie → degradare ascunsă pe regiuni/furnizori.
20) Linia de jos
Calitatea modelului începe cu calitatea etichetei. Ontologia strictă, instrucțiunile cu exemple, disciplina punct-in-time, contururile QA și măsurătorile care iau în considerare costul erorilor sunt baza ML reproductibile în iGaming. Prin încorporarea acestor practici în conducta de date și MLOps, obțineți modele durabile, etice și conforme care îmbunătățesc rezultatele de afaceri fără surprize.