Деректерді белгілеу және үлгілердің сапасы
1) Мақсаты және қағидаттары
Мақсаты: лейкеджсіз және комплаенсті ескере отырып, шығарылатын лейблдерді және үлгілердің өлшенетін сапасын алу.
Принциптері:- Schema-first: формальды онтологиялар, сынып сөздіктері және критерийлер.
- Point-in-time: лейблдер шешу сәтінде қол жетімді ақпараттан құрылады.
- Quality-as-code: нұсқаулықтар, тестілер, чек парақтары және іріктемелер - репозиторийде.
- Privacy-by-design: PII, DSAR/RTBF барынша азайту, резиденттік.
- Cost-aware: таңбалау мен қате шешімдердің құнын есептейміз (expected cost).
2) Онтология және лейблдер схемасы
Белгілеу нысанын, кластарды, ерекшеліктерді және шындық көздерін анықтаңыз: Мысал (AML/Антифрод):- Нысан: транзакция/сессия.
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- Ерекшеліктер: дәлелсіз chargeback → 'unknown'.
- Дереккөздер: кейс-менеджмент, chargeback-тізілімдер, провайдерлер/банк.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Аннотация нұсқаулары (guidelines)
Құрылымы:1. Міндет пен бизнес-контекстің сипаттамасы.
2. Оң/теріс мысалдары және шекаралық кейстері бар сыныптарды анықтау.
3. Көздердің басымдығы қағидалары (ақиқат> эвристика> пікір).
4. 'unknown' және эскалация критерийлері.
5. Құпиялылық саясаты (ID орнына бүркемелеу, белгілер).
6. FAQ және белгілеушінің чек-парағы.
Нұсқау фрагменті (фрод):- 'fraud _ confirmed': FRAUD тегімен дәлелденген chargeback/жабық кейс.
- 'fraud _ suspected': 3 депозит ≥ <10 минутта REPORT_LIMIT + IP байламы/сақинасы бар карта.
- 'legit': 60 күн терезесінде жалаушалар мен расталған кейстер жоқ.
- 'unknown': қайшылықты белгілер немесе деректер жеткіліксіз.
4) Лейблдер мен point-in-time ережелерінің көздері
Авто-лейблдер: ережелер/кейстер, chargeback, өзін-өзі жою (RG), outcome ставкалары.
Граунд-трут: тергеу/реттеушілік нәтижелер нәтижесі.
Point-in-time: шешілгеннен кейін оқиғаларды пайдалануға тыйым салынады (t0).
Кешіктірулер: мысалы, chargeback 45-90 күннен кейін пайда болады → лейбл «піседі».
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Іріктемелер: стратификация және теңгерім
Сирек оқиғалар: use stratified sampling нарықтар/провайдерлер/күндер бойынша; сирек сыныптарды немесе focal loss oversampling.
Валидация қабаттары: апта/нарық/теңге бойынша holdout ұстаңыз.
Санкциялар/PII: оқу жиындарынан тікелей идентификаторлары бар өрістерді алып тастаңыз.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Белгілегіштердің келісімділігі (IRR)
Аннотатор аралық келісімді өлшеңіз: Cohen's κ (2 аннотатор )/Krippendorff's α (N аннотатор, әр түрлі шкала түрі).
Бағдар:- κ < 0. 4 - нашар үйлесімділік → нұсқаулықтарды/мысалдарды қайта қарау.
0. 4–0. 6 - күрделі міндеттер үшін қолайлы;> 0. 6 - жақсы;> 0. 8 - өте жақсы.
- Жабу (қанша белгіленген), сыныптар мен слайстар бойынша κ/ α, 'unknown' үлесі, орташа уақыт, топ-қателер.
7) QA-контур және алтын эталондар
Golden set: 1-5% таңбаланған - екі рет тексерілетін эталон.
Honey-pot тапсырмалары: тапсырмалар ағынындағы жасырын белгілі кейстер.
Екінші көзқарас: даулы мысалдарда эскалация/төрелік.
Регрессиялық таңбалау тестілері: гайдтарды жаңартқаннан кейін қайта валидациялау.
8) Белсенді, әлсіз және жартылай бақыланатын оқыту
Active Learning: «беймәлім» мысалдарды іріктеу (максималды энтропия/әртүрлілік).
Weak Supervision: эвристика/distant supervision + лейблдер үшін шу моделі.
Semi-Supervised: температура табалдырығы бар псевдолейблдер және кейіннен тексеру.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Анти-лейкедж және уақыт бақылау
Фич пен лейблдер үшін point-in-time join.
Болашақтан лейблдерге/фичке тыйым салу ('asof' -тан кейін).
Трансформацияның баламалық тестімен online/offline жеке пайплайндар.
Датасеттер мен логиканы нұсқалау ('logic _ version', 'data _ version', 'asof _ date').
10) Модельдер сапасының метрикасы
Қателердің бизнес-құнына арналған өлшемдерді таңдаңыз:- Жіктелуі: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN салмақтары).
- Тәуекел скорингі: KS/ROC-AUC, Brier, калибрлеу (ECE), дрейфке арналған PSI/CSI.
- Ұсынымдар: NDCG/MAP @K, coverage/diversity, жаңалық.
- Аномалиялар: Precision @k, AUCPR синтетикалық/алтын жиынтығында.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Слайс-талдау және fairness
Слайстар: нарық, провайдер, девайс/ASN, есепшот жасы, депозит мөлшері, тәулік уақыты.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Іс-әрекеттер: фичтерді қайта іріктеу, слайстар бойынша калибрлеу, шектерді қайта қарау, оқыту салмақтары.
12) production-сапа мониторингі
Деректер/болжамдар дрейфі: PSI/KL саңылаулар/жиектер бойынша.
Калибрлеу: ECE, reliability-диаграммалар.
Табалдырықтың тұрақтылығы: егер expected cost ↑> X% немесе PR-AUC ↓ болса, alert.
Сызбалар/келісімшарттар: breaking changes (schema registry) ұстау.
Feedback loop: инциденттер бойынша жылдам қол лейблдері (case-жабулар, RG-шығыстар).
13) Құпиялылық, қауіпсіздік, комплаенс
PII-минимизация: бүркеншік атаулар, жеке қорғалған маппинг.
Резиденттік: бөлек пайплайндар/кілттер (EEA/UK/BR); негізсіз кросс-өңірлік join 'oларға тыйым салу.
DSAR/RTBF: есептелетін проекциялар мен селективті өңдеулер.
Legal Hold: WORM - кейстер мен есеп пакеттеріне арналған мұрағаттар.
Журналдар: қолжетімділіктің/экспорттың өзгермейтін аудиті.
14) Таңбалау процесін ұйымдастыру
Құралдар: task-трекер, мысалдар кезегі, контексті алдын ала қарау, PII бүркемелеу, ыстық пернелер.
Жылдамдықты және сапаны бақылау: KPI аннотатор (жылдамдық, дәлдік golden), оқыту және аттестаттау.
Нұсқалау: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', таймстемптер.
Құжаттама: теру карточкасы (owner, дереккөз, терезе, ережелер, метрика).
15) Үлгі үлгілері
Датасет карточкасы (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
QA белгілеу ережелері:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (SQL идеясы):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Енгізу жол картасы
MVP (2-4 апта):1. Онтология және нұсқаулықтар v1, алтын жинақ (доменге 1000 мысалдан ≥).
2. PII-бүркемелеуі бар аннотациялық ағын, κ - әр аптаға арналған метрика.
3. Базалық модель + offline-бағалау (PR-AUC, expected cost), point-in-time іріктемелер.
4. Фич/жылдамдық дрейфінің мониторингі; датасеттер мен гайдтар нұсқаларының тіркелімі.
2-фаза (4-8 апта):- Active/weak-supervision конвейері, auto-triage 'unknown'.
- Слайс-талдау және fairness-есептер, ықтималдықтарды калибрлеу.
- Белгіленген жиынтықтар үшін DSAR/RTBF рәсімдері, кейстер үшін Legal Hold.
- QA (golden/honey-pots) толық автоматтандыру, регрессиялық белгілеу тестілері.
- Датасеттер мен «модель сапасы» карточкаларының каталогы; expected-cost шегі оркестрі.
- Таңбалау/инференс құны бойынша Chargeback, лейблдерді жаңарту бойынша SLA.
17) RACI
R (Responsible): Data Science (онтология, метрика), Label Ops (процесс/QA), Data Eng (іріктеме/PII/сақтау орны).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (ережелер), Security (KMS/аудит).
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.
18) Азық-түлік алдындағы чек-парағы
- Онтология мен гайдтар бекітілді, нұсқа бекітілді.
- Сапалы іріктеме: стратификация, уақыт/нарық бойынша holdout.
- Нысаналы шекті κ α/ ≥; golden-accuracy сақталды.
- Point-in-time фич пен лейблдерді жинау; лейкедждің болмауына арналған тест өтті.
- Өлшемдер expected cost бойынша таңдалған, слайс-талдау және fairness орындалған.
- Дрейф/калибрлеу мониторингі қосылған; тәуекелдер теңшелді.
- PII/DSAR/RTBF және Legal Hold саясаты сақталған; аудит енгізілген.
19) Анти-паттерндер және тәуекелдер
Нақты өлшемдерсіз таңбалау → төмен κ, шулы лейблдер.
Болашақтағы лейкедж (пост-фактум белгілері/лейблдер).
Теңгерілмеген іріктемелер, құнын есептемегенде ROC-AUC метрикасы.
Алтын/QA және регрессиялық таңбалау тестерінің болмауы.
PII жасырынбаған және резиденттігі жоқ датасеттерде.
Слайс-талдау жоқ → өңірлерде/провайдерлерде жасырын тозу.
20) Қорытынды
Үлгілердің сапасы лейблдердің сапасынан басталады. Қателіктердің құнын ескеретін қатаң онтология, мысалдары бар нұсқаулықтар, point-in-time тәртібі, QA-контурлар мен метриктер - iGaming-те ойнатылатын ML-дің негізі. Бұл тәжірибелерді деректер конвейері мен MLOps-ке кіріктіріп, сіз бизнес нәтижелерін күтпеген жерден жақсартатын тұрақты, этикалық және комплаентті модельдерге ие боласыз.