Деректерді белгілеу және үлгілердің сапасы

1) Мақсаты және қағидаттары

Мақсаты: лейкеджсіз және комплаенсті ескере отырып, шығарылатын лейблдерді және үлгілердің өлшенетін сапасын алу.

Принциптері:

Schema-first: формальды онтологиялар, сынып сөздіктері және критерийлер.
Point-in-time: лейблдер шешу сәтінде қол жетімді ақпараттан құрылады.
Quality-as-code: нұсқаулықтар, тестілер, чек парақтары және іріктемелер - репозиторийде.
Privacy-by-design: PII, DSAR/RTBF барынша азайту, резиденттік.
Cost-aware: таңбалау мен қате шешімдердің құнын есептейміз (expected cost).

2) Онтология және лейблдер схемасы

Белгілеу нысанын, кластарды, ерекшеліктерді және шындық көздерін анықтаңыз: Мысал (AML/Антифрод):

Нысан: транзакция/сессия.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
Ерекшеліктер: дәлелсіз chargeback → 'unknown'.
Дереккөздер: кейс-менеджмент, chargeback-тізілімдер, провайдерлер/банк.

YAML схемасы:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Аннотация нұсқаулары (guidelines)

Құрылымы:

1. Міндет пен бизнес-контекстің сипаттамасы.

2. Оң/теріс мысалдары және шекаралық кейстері бар сыныптарды анықтау.

3. Көздердің басымдығы қағидалары (ақиқат> эвристика> пікір).

4. 'unknown' және эскалация критерийлері.

5. Құпиялылық саясаты (ID орнына бүркемелеу, белгілер).

6. FAQ және белгілеушінің чек-парағы.

Нұсқау фрагменті (фрод):

'fraud _ confirmed': FRAUD тегімен дәлелденген chargeback/жабық кейс.
'fraud _ suspected': 3 депозит ≥ <10 минутта REPORT_LIMIT + IP байламы/сақинасы бар карта.
'legit': 60 күн терезесінде жалаушалар мен расталған кейстер жоқ.
'unknown': қайшылықты белгілер немесе деректер жеткіліксіз.

4) Лейблдер мен point-in-time ережелерінің көздері

Авто-лейблдер: ережелер/кейстер, chargeback, өзін-өзі жою (RG), outcome ставкалары.
Граунд-трут: тергеу/реттеушілік нәтижелер нәтижесі.
Point-in-time: шешілгеннен кейін оқиғаларды пайдалануға тыйым салынады (t0).
Кешіктірулер: мысалы, chargeback 45-90 күннен кейін пайда болады → лейбл «піседі».

Болашағы жоқ SQL үлгісі:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Іріктемелер: стратификация және теңгерім

Сирек оқиғалар: use stratified sampling нарықтар/провайдерлер/күндер бойынша; сирек сыныптарды немесе focal loss oversampling.
Валидация қабаттары: апта/нарық/теңге бойынша holdout ұстаңыз.
Санкциялар/PII: оқу жиындарынан тікелей идентификаторлары бар өрістерді алып тастаңыз.

Іріктеменің ығысуын бақылау:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Белгілегіштердің келісімділігі (IRR)

Аннотатор аралық келісімді өлшеңіз: Cohen's κ (2 аннотатор )/Krippendorff's α (N аннотатор, әр түрлі шкала түрі).

Бағдар:

κ < 0. 4 - нашар үйлесімділік → нұсқаулықтарды/мысалдарды қайта қарау.

0. 4–0. 6 - күрделі міндеттер үшін қолайлы;> 0. 6 - жақсы;> 0. 8 - өте жақсы.

Таңбалау сапасының карточкасы:

Жабу (қанша белгіленген), сыныптар мен слайстар бойынша κ/ α, 'unknown' үлесі, орташа уақыт, топ-қателер.

7) QA-контур және алтын эталондар

Golden set: 1-5% таңбаланған - екі рет тексерілетін эталон.
Honey-pot тапсырмалары: тапсырмалар ағынындағы жасырын белгілі кейстер.
Екінші көзқарас: даулы мысалдарда эскалация/төрелік.
Регрессиялық таңбалау тестілері: гайдтарды жаңартқаннан кейін қайта валидациялау.

8) Белсенді, әлсіз және жартылай бақыланатын оқыту

Active Learning: «беймәлім» мысалдарды іріктеу (максималды энтропия/әртүрлілік).
Weak Supervision: эвристика/distant supervision + лейблдер үшін шу моделі.
Semi-Supervised: температура табалдырығы бар псевдолейблдер және кейіннен тексеру.

Pipeline (нобай):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Анти-лейкедж және уақыт бақылау

Фич пен лейблдер үшін point-in-time join.
Болашақтан лейблдерге/фичке тыйым салу ('asof' -тан кейін).
Трансформацияның баламалық тестімен online/offline жеке пайплайндар.
Датасеттер мен логиканы нұсқалау ('logic _ version', 'data _ version', 'asof _ date').

10) Модельдер сапасының метрикасы

Қателердің бизнес-құнына арналған өлшемдерді таңдаңыз:

Жіктелуі: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN салмақтары).
Тәуекел скорингі: KS/ROC-AUC, Brier, калибрлеу (ECE), дрейфке арналған PSI/CSI.
Ұсынымдар: NDCG/MAP @K, coverage/diversity, жаңалық.
Аномалиялар: Precision @k, AUCPR синтетикалық/алтын жиынтығында.

Expected-Cost (жалған құжат):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Слайс-талдау және fairness

Слайстар: нарық, провайдер, девайс/ASN, есепшот жасы, депозит мөлшері, тәулік уақыты.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Іс-әрекеттер: фичтерді қайта іріктеу, слайстар бойынша калибрлеу, шектерді қайта қарау, оқыту салмақтары.

12) production-сапа мониторингі

Деректер/болжамдар дрейфі: PSI/KL саңылаулар/жиектер бойынша.
Калибрлеу: ECE, reliability-диаграммалар.
Табалдырықтың тұрақтылығы: егер expected cost ↑> X% немесе PR-AUC ↓ болса, alert.
Сызбалар/келісімшарттар: breaking changes (schema registry) ұстау.
Feedback loop: инциденттер бойынша жылдам қол лейблдері (case-жабулар, RG-шығыстар).

13) Құпиялылық, қауіпсіздік, комплаенс

PII-минимизация: бүркеншік атаулар, жеке қорғалған маппинг.
Резиденттік: бөлек пайплайндар/кілттер (EEA/UK/BR); негізсіз кросс-өңірлік join 'oларға тыйым салу.
DSAR/RTBF: есептелетін проекциялар мен селективті өңдеулер.
Legal Hold: WORM - кейстер мен есеп пакеттеріне арналған мұрағаттар.
Журналдар: қолжетімділіктің/экспорттың өзгермейтін аудиті.

14) Таңбалау процесін ұйымдастыру

Құралдар: task-трекер, мысалдар кезегі, контексті алдын ала қарау, PII бүркемелеу, ыстық пернелер.
Жылдамдықты және сапаны бақылау: KPI аннотатор (жылдамдық, дәлдік golden), оқыту және аттестаттау.
Нұсқалау: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', таймстемптер.
Құжаттама: теру карточкасы (owner, дереккөз, терезе, ережелер, метрика).

15) Үлгі үлгілері

Датасет карточкасы (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

QA белгілеу ережелері:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confusion matrix (SQL идеясы):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Енгізу жол картасы

MVP (2-4 апта):

1. Онтология және нұсқаулықтар v1, алтын жинақ (доменге 1000 мысалдан ≥).

2. PII-бүркемелеуі бар аннотациялық ағын, κ - әр аптаға арналған метрика.

3. Базалық модель + offline-бағалау (PR-AUC, expected cost), point-in-time іріктемелер.

4. Фич/жылдамдық дрейфінің мониторингі; датасеттер мен гайдтар нұсқаларының тіркелімі.

2-фаза (4-8 апта):

Active/weak-supervision конвейері, auto-triage 'unknown'.
Слайс-талдау және fairness-есептер, ықтималдықтарды калибрлеу.
Белгіленген жиынтықтар үшін DSAR/RTBF рәсімдері, кейстер үшін Legal Hold.

3-фаза (8-12 апта):

QA (golden/honey-pots) толық автоматтандыру, регрессиялық белгілеу тестілері.
Датасеттер мен «модель сапасы» карточкаларының каталогы; expected-cost шегі оркестрі.
Таңбалау/инференс құны бойынша Chargeback, лейблдерді жаңарту бойынша SLA.

17) RACI

R (Responsible): Data Science (онтология, метрика), Label Ops (процесс/QA), Data Eng (іріктеме/PII/сақтау орны).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (ережелер), Security (KMS/аудит).
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.

18) Азық-түлік алдындағы чек-парағы

Онтология мен гайдтар бекітілді, нұсқа бекітілді.
Сапалы іріктеме: стратификация, уақыт/нарық бойынша holdout.
Нысаналы шекті κ α/ ≥; golden-accuracy сақталды.
Point-in-time фич пен лейблдерді жинау; лейкедждің болмауына арналған тест өтті.
Өлшемдер expected cost бойынша таңдалған, слайс-талдау және fairness орындалған.
Дрейф/калибрлеу мониторингі қосылған; тәуекелдер теңшелді.
PII/DSAR/RTBF және Legal Hold саясаты сақталған; аудит енгізілген.

19) Анти-паттерндер және тәуекелдер

Нақты өлшемдерсіз таңбалау → төмен κ, шулы лейблдер.
Болашақтағы лейкедж (пост-фактум белгілері/лейблдер).
Теңгерілмеген іріктемелер, құнын есептемегенде ROC-AUC метрикасы.
Алтын/QA және регрессиялық таңбалау тестерінің болмауы.
PII жасырынбаған және резиденттігі жоқ датасеттерде.
Слайс-талдау жоқ → өңірлерде/провайдерлерде жасырын тозу.

20) Қорытынды

Үлгілердің сапасы лейблдердің сапасынан басталады. Қателіктердің құнын ескеретін қатаң онтология, мысалдары бар нұсқаулықтар, point-in-time тәртібі, QA-контурлар мен метриктер - iGaming-те ойнатылатын ML-дің негізі. Бұл тәжірибелерді деректер конвейері мен MLOps-ке кіріктіріп, сіз бизнес нәтижелерін күтпеген жерден жақсартатын тұрақты, этикалық және комплаентті модельдерге ие боласыз.

Деректерді белгілеу және үлгілердің сапасы

Бізбен байланысыңыз

Жылдам байланыс

Бейне жақында жаңартылады

Қазір біз жобалармен өте қатты айналысып жатырмыз