Maglumat bellikleri we modelleriň hili
1) Bellenilmegi we ýörelgeleri
Maksady: köpeldilýän bellikleri we modelleriň ölçelýän hilini leýkedjsiz we laýyklygy göz öňünde tutup almak.
Ýörelgeler:- Schema-first: resmi ontologiýalar, synp sözlükleri we ölçegler.
- Point-in-time: bellikler çözgüt tapylanda elýeterli bolan maglumatlardan gurlupdyr.
- Quality-as-code: görkezmeler, synaglar, çek sahypalary we nusgalar - ammarda.
- Privacy-by-design: PII, DSAR/RTBF iň az, rezidentlik.
- Cost-aware: bellikleriň we ýalňyş çözgütleriň bahasyny hasaplaýarys (expected cost).
2) Bellikleriň ontologiýasy we shemasy
Bellik obýektini, synplaryny, kadadan çykmalaryny we hakykat çeşmelerini kesgitläň: Mysal (AML/Antifrod):- Obýekt: geleşik/sessiýa.
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- Kadadan çykmalar: subutnamasyz chargeback → 'unknown'.
- Çeşmeler: keýs-dolandyryş, chargeback-reýestrler, üpjün edijiler/bank.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Düşündiriş görkezmeleri (guidelines)
Gurluşy:1. Wezipäniň beýany we işewürlik konteksti.
2. Oňyn/negatiw mysallar we serhet hadysalary bolan synplary kesgitlemek.
3. Çeşmeleriň ileri tutulýan düzgünleri (hakykat> ewristika> pikir).
4. 'unknown' we eskalasiýa ölçegleri.
5. Gizlinlik syýasaty (gizlemek, ID ýerine bellikler).
6. FAQ we bellik edijiniň çek-sanawy.
Görkezmeler bölegi (frod):- 'fraud _ confirmed': subut edilen chargeback/FRAUD tagly ýapyk keýs.
- 'fraud _ suspected': 3 depozit ≥ <10 minutda REPORT_LIMIT + halka bilen IP baglanyşyk/kart.
- 'legit': 60 günüň penjiresinde baýdaklar we tassyklanan ýagdaýlar ýok.
- 'unknown': gapma-garşy alamatlar ýa-da ýeterlik maglumat ýok.
4) Bellikleriň çeşmeleri we point-in-time düzgünleri
Awto-bellikler: düzgünler/mysallar, çargeback, öz-özüni aýyrmak (RG), daşarky nyrhlar.
Graund-trut: derňewiň/kadalaşdyryjy netijeleriň netijesi.
Point-in-time: Çözülen pursatdan soň wakalary ulanmak gadagandyr (t0).
Gijikdirmeler: mysal üçin, chargeback 45-90 günden soň ýüze çykýar → bellik "ýetişýär".
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Nusgalar: gatlaklaşdyrmak we deňagramlylyk
Seýrek wakalar: bazarlar/üpjün edijiler/seneler boýunça use stratified sampling; seýrek synplaryň ýa-da focal loss.
Walidasiýa gatlaklary: hepdelerde/bazarlarda/tenantlarda holdout saklaň.
Sanksiýalar/PII: Göni kesgitleýjili meýdanlary okuw toplumlaryndan aýyryň.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Bellikleriň utgaşdyrylmagy (IRR)
Annotatorara ylalaşygy ölçäň: Cohen's κ (2 annotator )/Krippendorff's α (N annotators, dürli şkalalar).
Gollanmalar:- κ < 0. 4 - gowşak sazlaşyk → görkezmelere/mysallara täzeden garamak.
0. 4–0. 6 - çylşyrymly meseleler üçin kabul ederlikli;> 0. 6 - gowy;> 0. 8 - ajaýyp.
- Örtük (näçe bellik), synplar we slaýslar boýunça κ/ α, "unknown" paýy, ortaça wagt, iň ýokary ýalňyşlyklar.
7) QA-kontury we altyn standartlary
Golden set: 1-5% bellenen - iki gezek barlanylýan standart.
Honey-pot işleri: iş akymynda belli bolan gizlin ýagdaýlar.
Ikinji görnüş: jedelli mysallarda eskalasiýa/arbitra.
Regression bellik synaglary: gidler täzelenenden soň gaýtalanýan tassyklama.
8) Işjeň, gowşak we ýarym gözegçilik edilýän okuw
Active Learning: "näbelli" mysallary saýlamak (iň köp entropiýa/dürlülik).
Weak Supervision: ewristika/distant supervision + etiketler üçin ses modeli.
Semi-Supervised: temperatura bosagasy we soňraky barlagy bolan pseudoleýbller.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Anti-leýkedj we wagt gözegçiligi
Fiç we bellikler üçin point-in-time join.
Geljekdäki bellikleri gadagan etmek ('asof' -dan soň).
Transformasiýa ekwiwalentlik synagy bilen onlaýn/offline bölünen paýlaýnlar.
Datasetleriň we logikalaryň wersiýasy ('logic _ version', 'data _ version', 'asof _ date').
10) Modelleriň hiliniň metrikleri
Ýalňyşlyklaryň iş bahasy üçin metrikleri saýlaň:- Klassifikasiýa: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN agramlary).
- Töwekgelçilik hasaby: KS/ROC-AUC, Brier, kalibrlemek (ECE), PSI/CSI.
- Teklipler: NDCG/MAP @K, coverage/diversity, täzelik.
- Anomaliýalar: Precision @k, AUCPR sintetikde/altyn toplumda.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Slaýs-analiz we fairness
Slaýslar: bazar, üpjün ediji, enjam/ASN, hasap ýaşy, goýumyň möçberi, gije-gündiziň wagty.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Hereketler: fiçleri gaýtadan saýlamak, slaýslary kalibrlemek, bosagalara täzeden seretmek, agramlary öwretmek.
12) Önümçiligiň hiline gözegçilik
Maglumatlaryň/çaklamalaryň süýşmegi: PSI/KL şekiller/bökdençlikler boýunça.
Kalibrlemek: ECE, reliability-diagrammalar.
Bosaganyň durnuklylygy: eger expected cost ↑> X% ýa-da PR-AUC ↓.
Shemalar/şertnamalar: breaking changes (schema registry) tutmak.
Feedback loop: hadysalar boýunça çalt el bellikleri (case-ýapylmalar, RG-netijeler).
13) Gizlinlik, howpsuzlyk, gabat gelmek
PII-minimalizasiýa: lakamlary, aýratyn goralýan mapping.
Rezidentlik: aýratyn paýlaýynlar/açarlar (EEA/UK/BR); sebitleýin join 'olaryň esassyz gadagan edilmegi.
DSAR/RTBF: hasaplanyp bilinýän proýeksiýalar we saýlama redaktirlemeler.
Legal Hold: Kazyýet we hasabat bukjalary üçin WORM arhiwleri.
Žurnallar: elýeterliligiň/eksportyň üýtgemeýän barlagy.
14) Bellik etmek prosesini guramak
Gurallar: task-treker, mysallaryň nobaty, konteksti öňünden görmek, PII maskalanmak, gyzgyn düwmeler.
Tizlik we hil gözegçiligi: KPI annotator (tizlik, takyklyk golden), okuw we attestasiýa.
Wersiýalaşdyrmak: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', timstamplar.
Resminamalar: toplumyň kartoçkasy (owner, çeşme, penjireler, düzgünler, metrikler).
15) Şablonlaryň mysallary
Dataset kartoçkasy (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Bellik etmegiň QA düzgünleri:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (SQL pikiri):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Durmuşa geçirmegiň ýol kartasy
MVP (2-4 hepde):1. Ontologiýa we görkezmeler v1, altyn toplum (domen üçin 1000 mysal ≥).
2. PII-maskaly annotasiýa akymy, her hepde üçin κ-metrika.
3. Esasy model + offline-baha bermek (PR-AUC, expected cost), nokat-in-time nusgalary.
4. Çalt/çalt sürüşmegiň monitoringi; datasetleriň we gidleriň wersiýalarynyň sanawy.
2-nji faza (4-8 hepde):- Active/weak-supervision konweýer, auto-triage 'unknown'.
- Slaýs-analiz we fairness-hasabatlar, ähtimallyklary kalibrlemek.
- Bellenen toplumlar üçin DSAR/RTBF amallary, ýagdaýlar üçin Legal Hold.
- Doly awtomatlaşdyryş QA (altyn/bal-pots), regression bellik synaglary.
- Datasetleriň we "modeliň hili" kartoçkalarynyň katalogy; expected-cost bosagalar orkestri.
- Bellik/inferens bahasy boýunça Chargeback, bellik täzelenmeleri boýunça SLA.
17) RACI
R (Responsible): Data Science (ontologiýa, metrika), Label Ops (proses/QA), Data Eng (nusgalar/PII/ammar).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (düzgünler), Security (KMS/audit).
I (Informed): Önüm/Marketing/Amallar/Goldaw.
18) Azyk önüminden öň çek-sanawy
- Ontologiýa we gidler tassyklandy, wersiýa kesgitlenildi.
- Hil nusgasy: stratifikasiýa, wagt/bazarlar boýunça holdout.
- Maksat çäginiň κ/ α ≥; golden-accuracy saklandy.
- Nokat-in-time fiçleri we bellikleri ýygnamak; leýkedjiň ýoklugy üçin synag geçirildi.
- Metrikler expected cost boýunça saýlandy, slays-analiz we fairness geçirildi.
- Dreýf/kalibrlemek monitoringi girizildi; aldawlar.
- PII/DSAR/RTBF we Legal Hold syýasaty berjaý edilýär; audit girizildi.
19) Anti-patternler we töwekgelçilikler
Anyk ölçegler bolmazdan bellik etmek → pes κ, şowhunly bellikler.
Geljekdäki bellik (faktumdan soňky alamatlar/bellikler).
Deňagramsyz nusgalar, bahany hasaba almazdan ROC-AUC metrikasy.
Golden/QA we regression bellik synaglarynyň ýoklugy.
PII gizlenmezden we rezidentliksiz datasetlerde.
Slaýs-analiz ýok → sebitlerde/üpjün edijilerde gizlin pese gaçma.
20) Jemleýji
Modelleriň hili bellikleriň hilinden başlaýar. Berk ontologiýa, mysallar bilen görkezmeler, nokat-in-time düzgün-nyzam, ýalňyşlyklaryň bahasyny göz öňünde tutýan QA-konturlar we metrikler - iGaming-de gaýtalanýan ML-iň esasyny düzýär. Bu amallary maglumat konweýerine we MLOps-e goşmak bilen, iş netijelerini garaşylmadyk ýagdaýda gowulandyrýan durnukly, ahlak we laýyklyk modellerini alarsyňyz.