Data nişanı və model keyfiyyəti

1) Təyinat və prinsiplər

Məqsəd: leykedj olmadan və uyğunluq nəzərə alınmaqla təkrarlanan etiketləri və ölçülə bilən model keyfiyyətini əldə etmək.

Prinsiplər:

Schema-first: rəsmiləşdirilmiş ontologiyalar, sinif lüğətləri və meyarlar.
Point-in-time: etiketlər həll zamanı mövcud olan məlumatlardan qurulur.
Quality-as-code: təlimatlar, testlər, yoxlama vərəqləri və nümunələr - anbarda.
Privacy-by-design: PII minimuma endirilməsi, DSAR/RTBF, rezidentlik.
Cost-aware: nişan və səhv həllərin dəyərini hesablayın (expected cost).

2) Ontologiya və etiket sxemi

Nişan obyektini, sinifləri, istisnaları və həqiqət mənbələrini təyin edin: Nümunə (AML/Antifrod):

Obyekt: əməliyyat/sessiya.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
istisnalar: sübut olmadan chargeback → 'unknown'.
Mənbələr: cass-management, chargeback-reyestrlər, provayderlər/bank.

YAML sxemi:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Annotasiya təlimatları (guidelines)

Quruluş:

1. Tapşırıq və biznes kontekstinin təsviri.

2. Müsbət/mənfi nümunələr və sərhəd halları ilə siniflərin müəyyən edilməsi.

3. Mənbələrin prioritet qaydaları (həqiqət> evristika> fikir).

4. Meyarlar 'unknown' və eskalasiya.

5. Gizlilik siyasəti (maskalanma, ID əvəzinə tokenlər).

6. FAQ və çek siyahısı nişanlayıcı.

Təlimat fraqmenti (frod):

'fraud _ confirmed': sübut edilmiş chargeback/FRAUD etiketli qapalı case.
'fraud _ suspected': ≥ 3 depozit
'legit': 60 gün pəncərəsində bayraqlar və təsdiqlənmiş hallar yoxdur.
'unknown': münaqişə əlamətləri və ya kifayət qədər məlumat yoxdur.

4) Etiket mənbələri və point-in-time qaydaları

Avtomatik etiketlər: qaydalar/cases, chargeback, özünü istisna (RG), outcome dərəcələri.
Graund-trut: araşdırma/tənzimləyici nəticələrin nəticəsi.
Point-in-time: həll anından sonra hadisələrdən istifadə etmək qadağandır (t0).
Gecikmələr: məsələn, chargeback 45-90 gün sonra özünü göstərir → etiket «yetişir».

SQL «gələcəyi olmayan» şablon:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Nümunələr: stratifikasiya və balans

Nadir hadisələr: bazarlar/provayderlər/tarixlər üzrə use stratified sampling; nadir siniflər və ya focal loss oversampling.
Validasiya qatları: həftələrdə/bazarlarda/tenantlarda holdout edin.
Sanksiyalar/PII: Təlim dəstlərindən birbaşa identifikatorlu sahələri xaric edin.

Nümunənin yerdəyişməsinə nəzarət:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Nişançı uyğunluğu (IRR)

Annotatorlararası razılığı ölçün: Cohen 's κ (2 annotators )/Krippendorff 's α (N annotators, müxtəlif növ şkalalar).

Göstərişlər:

κ < 0. 4 - zəif uyğunluq → təlimatlara/nümunələrə yenidən baxın.

0. 4–0. 6 - çətin məsələlər üçün məqbuldur;> 0. 6 - yaxşı;> 0. 8 - əla.

Nişan keyfiyyəti kartı:

Örtük (nə qədər qeyd olunur), siniflər və slaytlar üzrə κ/ α, pay 'unknown', orta vaxt, üst səhvlər.

7) QA konturu və qızıl standartları

Golden set: 1-5% nişanlı - ikili yoxlama ilə standart.
Honey-pot tapşırıqları: tapşırıqların axınında gizli məlum hallar.
İkinci baxış: mübahisəli nümunələri eskalasiya/arbitraj.
Regression işarələmə testləri: bələdçi yenilənməsindən sonra təkrar validasiya.

8) Aktiv, zəif və yarı nəzarət təlim

Aktiv öyrənmə: «qeyri-müəyyən» nümunələrin seçilməsi (maksimum entropiya/müxtəliflik).
Weak Supervision: evristics/distant supervision + etiket səs-küy modeli.
Yarı-Supervised: temperatur həddi və sonrakı yoxlama ilə psevdolables.

Pipeline (eskiz):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Anti-leykedj və vaxt nəzarəti

Fich və etiketlər üçün point-in-time join.
Gələcəkdən etiket/fich qadağası ('asof' sonra).
Transformasiya ekvivalentliyi testi ilə online/offline ayrı payplaynlar.
Dataset və məntiq versiyası ('logic _ version', 'data _ version', 'asof _ date').

10) Model keyfiyyətinin metrikası

Səhvlərin biznes dəyəri üçün metrləri seçin:

Təsnifat: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN çəkiləri).
Risk skoru: KS/ROC-AUC, Brier, kalibrləmə (ECE), sürüklənmə üçün PSI/CSI.
Tövsiyələr: NDCG/MAP @K, coverage/diversity, yenilik.
Anomaliyalar: Precision @k, AUCPR sintetik/qızıl dəsti.

Expected-Cost (psevdokod):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Slays-analiz və fairness

Slaytlar: bazar, provayder, cihaz/ASN, hesab yaşı, depozit ölçüsü, günün vaxtı.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Hərəkətlər: Fich-in yenidən seçilməsi, slaysların kalibrlənməsi, hədlərin yenidən nəzərdən keçirilməsi, ağırlıqların öyrədilməsi.

12) Production keyfiyyətinin monitorinqi

Data Drift/Proqnozlar: PSI/KL Fich/Close.
Kalibrləmə: ECE, reliability-diaqramlar.
Eşik sabitliyi: expected cost ↑> X% və ya PR-AUC ↓.
Sxemlər/müqavilələr: breaking changes (schema registry) tutmaq.
Feedback loop: Hadisələrin sürətli əl etiketləri (case-closing, RG-exchange).

13) Gizlilik, təhlükəsizlik, uyğunluq

PII-minimallaşdırma: təxəllüslər, ayrıca qorunan mapping.
Rezidentlik: ayrı paylaynlar/açarlar (EEA/UK/BR); əsas olmadan cross-regional join 'oların qadağan edilməsi.
DSAR/RTBF: hesablanabilir proyeksiyalar və seçici redaktələr.
Legal Hold: iş və hesabat paketləri üçün WORM arxivləri.
Jurnallar: davamlı giriş/ixrac auditi.

14) Markalama prosesinin təşkili

Alətlər: task-tracker, nümunə növbəsi, kontekstin əvvəlcədən baxılması, PII maskalanması, qaynar düymələr.
Sürət və keyfiyyətə nəzarət: KPI annotator (sürət, qızıl dəqiqlik), təlim və sertifikatlaşdırma.
Versiyası: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', time-stamplar.
Sənədləşmə: kart dəsti (owner, mənbə, pəncərə, qaydalar, metriklər).

15) Nümunə nümunələri

Dataset kartı (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

QA qaydaları:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confusion matrix (SQL-ideya):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Tətbiqi yol xəritəsi

MVP (2-4 həftə):

1. Ontologiya və təlimatlar v1, qızıl dəst (domen başına ≥ 1000 nümunə).

2. PII maskalanmış annotasiya axını, hər həftə üçün κ -metrika.

3. Əsas model + offline-qiymətləndirmə (PR-AUC, expected cost), point-in-time nümunələri.

4. Sürüşmə/sürüşmə monitorinqi; datasetlərin və qaydaların versiyalarının reyestri.

Faza 2 (4-8 həftə):

Active/weak-supervision konveyer, auto-triage 'unknown'.
Slays təhlili və fairness hesabatları, ehtimal kalibrlənməsi.
İşlənmiş dəstlər üçün DSAR/RTBF prosedurları, hallar üçün Legal Hold.

Faza 3 (8-12 həftə):

Tam QA avtomatlaşdırılması (golden/honey-pots), regressiya işarələmə testləri.
Datasetlərin və kartların kataloqu «model keyfiyyəti»; expected-cost eşik orkestri.
Chargeback etiket yeniləmə/inference dəyəri, SLA.

17) RACI

R (Responsible): Data Science (ontologiya, metrika), Label Ops (proses/QA), Data Eng (nümunələr/PII/saxlama).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (qaydalar), Security (KMS/audit).
I (Informed): Məhsul/Marketinq/Əməliyyatlar/Dəstək.

18) Satış öncəsi yoxlama siyahısı

Ontologiya və qaydalar təsdiq, versiyası qeydə alınmışdır.
Keyfiyyət nümunəsi: stratifikasiya, vaxt/bazar holdout.
κ/ α hədəf həddi ≥; golden-accuracy müşahidə olunur.
Point-in-time phich və etiket toplama; leykedj yoxluğu testi keçdi.
Metriklər expected cost, slays analizi və fairness ilə seçilir.
Drift/kalibrləmə monitorinqi daxildir; alertlər qurulmuşdur.
PII/DSAR/RTBF və Legal Hold siyasətlərinə əməl olunur; audit daxildir.

19) Anti-nümunələr və risklər

Dəqiq meyarlar olmadan işarələmə → aşağı κ, səs-küylü etiketlər.
Gələcək leykedj (post-faktum əlamətləri/etiketlər).
Balanssız nümunələr, dəyəri nəzərə alınmadan ROC-AUC metrikası.
Golden/QA və regression işarələmə testləri yoxdur.
Gizlənmə və rezidentlik olmadan datasetlərdə PII.
No slays təhlili → regionlarda/provayderlərdə gizli deqradasiya.

20) Yekun

Modellərin keyfiyyəti etiketlərin keyfiyyəti ilə başlayır. Ciddi ontologiya, nümunələrlə təlimatlar, nöqtə-zamanlı nizam-intizam, QA konturları və səhvlərin dəyərini nəzərə alan metriklər iGaming-də səsləndirilən ML-in əsasını təşkil edir. Bu təcrübələri məlumat konveyerinə və MLOps-ə daxil edərək, iş nəticələrini sürprizsiz yaxşılaşdıran davamlı, etik və komplayent modellər əldə edəcəksiniz.

Data nişanı və model keyfiyyəti

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq