GH GambleHub

Maglumat bellikleri we modelleriň hili

1) Bellenilmegi we ýörelgeleri

Maksady: köpeldilýän bellikleri we modelleriň ölçelýän hilini leýkedjsiz we laýyklygy göz öňünde tutup almak.

Ýörelgeler:
  • Schema-first: resmi ontologiýalar, synp sözlükleri we ölçegler.
  • Point-in-time: bellikler çözgüt tapylanda elýeterli bolan maglumatlardan gurlupdyr.
  • Quality-as-code: görkezmeler, synaglar, çek sahypalary we nusgalar - ammarda.
  • Privacy-by-design: PII, DSAR/RTBF iň az, rezidentlik.
  • Cost-aware: bellikleriň we ýalňyş çözgütleriň bahasyny hasaplaýarys (expected cost).

2) Bellikleriň ontologiýasy we shemasy

Bellik obýektini, synplaryny, kadadan çykmalaryny we hakykat çeşmelerini kesgitläň: Mysal (AML/Antifrod):
  • Obýekt: geleşik/sessiýa.
  • Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
  • Kadadan çykmalar: subutnamasyz chargeback → 'unknown'.
  • Çeşmeler: keýs-dolandyryş, chargeback-reýestrler, üpjün edijiler/bank.
YAML shema:
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Düşündiriş görkezmeleri (guidelines)

Gurluşy:

1. Wezipäniň beýany we işewürlik konteksti.

2. Oňyn/negatiw mysallar we serhet hadysalary bolan synplary kesgitlemek.

3. Çeşmeleriň ileri tutulýan düzgünleri (hakykat> ewristika> pikir).

4. 'unknown' we eskalasiýa ölçegleri.

5. Gizlinlik syýasaty (gizlemek, ID ýerine bellikler).

6. FAQ we bellik edijiniň çek-sanawy.

Görkezmeler bölegi (frod):
  • 'fraud _ confirmed': subut edilen chargeback/FRAUD tagly ýapyk keýs.
  • 'fraud _ suspected': 3 depozit ≥ <10 minutda REPORT_LIMIT + halka bilen IP baglanyşyk/kart.
  • 'legit': 60 günüň penjiresinde baýdaklar we tassyklanan ýagdaýlar ýok.
  • 'unknown': gapma-garşy alamatlar ýa-da ýeterlik maglumat ýok.

4) Bellikleriň çeşmeleri we point-in-time düzgünleri

Awto-bellikler: düzgünler/mysallar, çargeback, öz-özüni aýyrmak (RG), daşarky nyrhlar.
Graund-trut: derňewiň/kadalaşdyryjy netijeleriň netijesi.
Point-in-time: Çözülen pursatdan soň wakalary ulanmak gadagandyr (t0).
Gijikdirmeler: mysal üçin, chargeback 45-90 günden soň ýüze çykýar → bellik "ýetişýär".

"Geljegi ýok" SQL şablony:
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Nusgalar: gatlaklaşdyrmak we deňagramlylyk

Seýrek wakalar: bazarlar/üpjün edijiler/seneler boýunça use stratified sampling; seýrek synplaryň ýa-da focal loss.
Walidasiýa gatlaklary: hepdelerde/bazarlarda/tenantlarda holdout saklaň.
Sanksiýalar/PII: Göni kesgitleýjili meýdanlary okuw toplumlaryndan aýyryň.

Nusganyň süýşmegine gözegçilik etmek:
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Bellikleriň utgaşdyrylmagy (IRR)

Annotatorara ylalaşygy ölçäň: Cohen's κ (2 annotator )/Krippendorff's α (N annotators, dürli şkalalar).

Gollanmalar:
  • κ < 0. 4 - gowşak sazlaşyk → görkezmelere/mysallara täzeden garamak.
  • 0. 4–0. 6 - çylşyrymly meseleler üçin kabul ederlikli;> 0. 6 - gowy;> 0. 8 - ajaýyp.

Bellik hil kartoçkasy:
  • Örtük (näçe bellik), synplar we slaýslar boýunça κ/ α, "unknown" paýy, ortaça wagt, iň ýokary ýalňyşlyklar.

7) QA-kontury we altyn standartlary

Golden set: 1-5% bellenen - iki gezek barlanylýan standart.
Honey-pot işleri: iş akymynda belli bolan gizlin ýagdaýlar.
Ikinji görnüş: jedelli mysallarda eskalasiýa/arbitra.
Regression bellik synaglary: gidler täzelenenden soň gaýtalanýan tassyklama.

8) Işjeň, gowşak we ýarym gözegçilik edilýän okuw

Active Learning: "näbelli" mysallary saýlamak (iň köp entropiýa/dürlülik).
Weak Supervision: ewristika/distant supervision + etiketler üçin ses modeli.
Semi-Supervised: temperatura bosagasy we soňraky barlagy bolan pseudoleýbller.

Pipeline (eskiz):
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anti-leýkedj we wagt gözegçiligi

Fiç we bellikler üçin point-in-time join.
Geljekdäki bellikleri gadagan etmek ('asof' -dan soň).
Transformasiýa ekwiwalentlik synagy bilen onlaýn/offline bölünen paýlaýnlar.
Datasetleriň we logikalaryň wersiýasy ('logic _ version', 'data _ version', 'asof _ date').

10) Modelleriň hiliniň metrikleri

Ýalňyşlyklaryň iş bahasy üçin metrikleri saýlaň:
  • Klassifikasiýa: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN agramlary).
  • Töwekgelçilik hasaby: KS/ROC-AUC, Brier, kalibrlemek (ECE), PSI/CSI.
  • Teklipler: NDCG/MAP @K, coverage/diversity, täzelik.
  • Anomaliýalar: Precision @k, AUCPR sintetikde/altyn toplumda.
Expected-Cost:
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Slaýs-analiz we fairness

Slaýslar: bazar, üpjün ediji, enjam/ASN, hasap ýaşy, goýumyň möçberi, gije-gündiziň wagty.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Hereketler: fiçleri gaýtadan saýlamak, slaýslary kalibrlemek, bosagalara täzeden seretmek, agramlary öwretmek.

12) Önümçiligiň hiline gözegçilik

Maglumatlaryň/çaklamalaryň süýşmegi: PSI/KL şekiller/bökdençlikler boýunça.
Kalibrlemek: ECE, reliability-diagrammalar.
Bosaganyň durnuklylygy: eger expected cost ↑> X% ýa-da PR-AUC ↓.
Shemalar/şertnamalar: breaking changes (schema registry) tutmak.
Feedback loop: hadysalar boýunça çalt el bellikleri (case-ýapylmalar, RG-netijeler).

13) Gizlinlik, howpsuzlyk, gabat gelmek

PII-minimalizasiýa: lakamlary, aýratyn goralýan mapping.
Rezidentlik: aýratyn paýlaýynlar/açarlar (EEA/UK/BR); sebitleýin join 'olaryň esassyz gadagan edilmegi.
DSAR/RTBF: hasaplanyp bilinýän proýeksiýalar we saýlama redaktirlemeler.
Legal Hold: Kazyýet we hasabat bukjalary üçin WORM arhiwleri.
Žurnallar: elýeterliligiň/eksportyň üýtgemeýän barlagy.

14) Bellik etmek prosesini guramak

Gurallar: task-treker, mysallaryň nobaty, konteksti öňünden görmek, PII maskalanmak, gyzgyn düwmeler.
Tizlik we hil gözegçiligi: KPI annotator (tizlik, takyklyk golden), okuw we attestasiýa.
Wersiýalaşdyrmak: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', timstamplar.
Resminamalar: toplumyň kartoçkasy (owner, çeşme, penjireler, düzgünler, metrikler).

15) Şablonlaryň mysallary

Dataset kartoçkasy (YAML):
yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Bellik etmegiň QA düzgünleri:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (SQL pikiri):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Durmuşa geçirmegiň ýol kartasy

MVP (2-4 hepde):

1. Ontologiýa we görkezmeler v1, altyn toplum (domen üçin 1000 mysal ≥).

2. PII-maskaly annotasiýa akymy, her hepde üçin κ-metrika.

3. Esasy model + offline-baha bermek (PR-AUC, expected cost), nokat-in-time nusgalary.

4. Çalt/çalt sürüşmegiň monitoringi; datasetleriň we gidleriň wersiýalarynyň sanawy.

2-nji faza (4-8 hepde):
  • Active/weak-supervision konweýer, auto-triage 'unknown'.
  • Slaýs-analiz we fairness-hasabatlar, ähtimallyklary kalibrlemek.
  • Bellenen toplumlar üçin DSAR/RTBF amallary, ýagdaýlar üçin Legal Hold.
3-nji faza (8-12 hepde):
  • Doly awtomatlaşdyryş QA (altyn/bal-pots), regression bellik synaglary.
  • Datasetleriň we "modeliň hili" kartoçkalarynyň katalogy; expected-cost bosagalar orkestri.
  • Bellik/inferens bahasy boýunça Chargeback, bellik täzelenmeleri boýunça SLA.

17) RACI

R (Responsible): Data Science (ontologiýa, metrika), Label Ops (proses/QA), Data Eng (nusgalar/PII/ammar).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (düzgünler), Security (KMS/audit).
I (Informed): Önüm/Marketing/Amallar/Goldaw.

18) Azyk önüminden öň çek-sanawy

  • Ontologiýa we gidler tassyklandy, wersiýa kesgitlenildi.
  • Hil nusgasy: stratifikasiýa, wagt/bazarlar boýunça holdout.
  • Maksat çäginiň κ/ α ≥; golden-accuracy saklandy.
  • Nokat-in-time fiçleri we bellikleri ýygnamak; leýkedjiň ýoklugy üçin synag geçirildi.
  • Metrikler expected cost boýunça saýlandy, slays-analiz we fairness geçirildi.
  • Dreýf/kalibrlemek monitoringi girizildi; aldawlar.
  • PII/DSAR/RTBF we Legal Hold syýasaty berjaý edilýär; audit girizildi.

19) Anti-patternler we töwekgelçilikler

Anyk ölçegler bolmazdan bellik etmek → pes κ, şowhunly bellikler.
Geljekdäki bellik (faktumdan soňky alamatlar/bellikler).
Deňagramsyz nusgalar, bahany hasaba almazdan ROC-AUC metrikasy.
Golden/QA we regression bellik synaglarynyň ýoklugy.
PII gizlenmezden we rezidentliksiz datasetlerde.
Slaýs-analiz ýok → sebitlerde/üpjün edijilerde gizlin pese gaçma.

20) Jemleýji

Modelleriň hili bellikleriň hilinden başlaýar. Berk ontologiýa, mysallar bilen görkezmeler, nokat-in-time düzgün-nyzam, ýalňyşlyklaryň bahasyny göz öňünde tutýan QA-konturlar we metrikler - iGaming-de gaýtalanýan ML-iň esasyny düzýär. Bu amallary maglumat konweýerine we MLOps-e goşmak bilen, iş netijelerini garaşylmadyk ýagdaýda gowulandyrýan durnukly, ahlak we laýyklyk modellerini alarsyňyz.

Contact

Biziň bilen habarlaşyň

Islendik sorag ýa-da goldaw boýunça bize ýazyp bilersiňiz.Biz hemişe kömek etmäge taýýar.

Telegram
@Gamble_GC
Integrasiýany başlamak

Email — hökmany. Telegram ýa-da WhatsApp — islege görä.

Adyňyz obýýektiw däl / islege görä
Email obýýektiw däl / islege görä
Tema obýýektiw däl / islege görä
Habar obýýektiw däl / islege görä
Telegram obýýektiw däl / islege görä
@
Eger Telegram görkezen bolsaňyz — Email-den daşary şol ýerden hem jogap bereris.
WhatsApp obýýektiw däl / islege görä
Format: ýurduň kody we belgi (meselem, +993XXXXXXXX).

Düwmäni basmak bilen siz maglumatlaryňyzyň işlenmegine razylyk berýärsiňiz.