GH GambleHub

Деректерді белгілеу және үлгілердің сапасы

1) Мақсаты және қағидаттары

Мақсаты: лейкеджсіз және комплаенсті ескере отырып, шығарылатын лейблдерді және үлгілердің өлшенетін сапасын алу.

Принциптері:
  • Schema-first: формальды онтологиялар, сынып сөздіктері және критерийлер.
  • Point-in-time: лейблдер шешу сәтінде қол жетімді ақпараттан құрылады.
  • Quality-as-code: нұсқаулықтар, тестілер, чек парақтары және іріктемелер - репозиторийде.
  • Privacy-by-design: PII, DSAR/RTBF барынша азайту, резиденттік.
  • Cost-aware: таңбалау мен қате шешімдердің құнын есептейміз (expected cost).

2) Онтология және лейблдер схемасы

Белгілеу нысанын, кластарды, ерекшеліктерді және шындық көздерін анықтаңыз: Мысал (AML/Антифрод):
  • Нысан: транзакция/сессия.
  • Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
  • Ерекшеліктер: дәлелсіз chargeback → 'unknown'.
  • Дереккөздер: кейс-менеджмент, chargeback-тізілімдер, провайдерлер/банк.
YAML схемасы:
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Аннотация нұсқаулары (guidelines)

Құрылымы:

1. Міндет пен бизнес-контекстің сипаттамасы.

2. Оң/теріс мысалдары және шекаралық кейстері бар сыныптарды анықтау.

3. Көздердің басымдығы қағидалары (ақиқат> эвристика> пікір).

4. 'unknown' және эскалация критерийлері.

5. Құпиялылық саясаты (ID орнына бүркемелеу, белгілер).

6. FAQ және белгілеушінің чек-парағы.

Нұсқау фрагменті (фрод):
  • 'fraud _ confirmed': FRAUD тегімен дәлелденген chargeback/жабық кейс.
  • 'fraud _ suspected': 3 депозит ≥ <10 минутта REPORT_LIMIT + IP байламы/сақинасы бар карта.
  • 'legit': 60 күн терезесінде жалаушалар мен расталған кейстер жоқ.
  • 'unknown': қайшылықты белгілер немесе деректер жеткіліксіз.

4) Лейблдер мен point-in-time ережелерінің көздері

Авто-лейблдер: ережелер/кейстер, chargeback, өзін-өзі жою (RG), outcome ставкалары.
Граунд-трут: тергеу/реттеушілік нәтижелер нәтижесі.
Point-in-time: шешілгеннен кейін оқиғаларды пайдалануға тыйым салынады (t0).
Кешіктірулер: мысалы, chargeback 45-90 күннен кейін пайда болады → лейбл «піседі».

Болашағы жоқ SQL үлгісі:
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Іріктемелер: стратификация және теңгерім

Сирек оқиғалар: use stratified sampling нарықтар/провайдерлер/күндер бойынша; сирек сыныптарды немесе focal loss oversampling.
Валидация қабаттары: апта/нарық/теңге бойынша holdout ұстаңыз.
Санкциялар/PII: оқу жиындарынан тікелей идентификаторлары бар өрістерді алып тастаңыз.

Іріктеменің ығысуын бақылау:
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Белгілегіштердің келісімділігі (IRR)

Аннотатор аралық келісімді өлшеңіз: Cohen's κ (2 аннотатор )/Krippendorff's α (N аннотатор, әр түрлі шкала түрі).

Бағдар:
  • κ < 0. 4 - нашар үйлесімділік → нұсқаулықтарды/мысалдарды қайта қарау.
  • 0. 4–0. 6 - күрделі міндеттер үшін қолайлы;> 0. 6 - жақсы;> 0. 8 - өте жақсы.

Таңбалау сапасының карточкасы:
  • Жабу (қанша белгіленген), сыныптар мен слайстар бойынша κ/ α, 'unknown' үлесі, орташа уақыт, топ-қателер.

7) QA-контур және алтын эталондар

Golden set: 1-5% таңбаланған - екі рет тексерілетін эталон.
Honey-pot тапсырмалары: тапсырмалар ағынындағы жасырын белгілі кейстер.
Екінші көзқарас: даулы мысалдарда эскалация/төрелік.
Регрессиялық таңбалау тестілері: гайдтарды жаңартқаннан кейін қайта валидациялау.

8) Белсенді, әлсіз және жартылай бақыланатын оқыту

Active Learning: «беймәлім» мысалдарды іріктеу (максималды энтропия/әртүрлілік).
Weak Supervision: эвристика/distant supervision + лейблдер үшін шу моделі.
Semi-Supervised: температура табалдырығы бар псевдолейблдер және кейіннен тексеру.

Pipeline (нобай):
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Анти-лейкедж және уақыт бақылау

Фич пен лейблдер үшін point-in-time join.
Болашақтан лейблдерге/фичке тыйым салу ('asof' -тан кейін).
Трансформацияның баламалық тестімен online/offline жеке пайплайндар.
Датасеттер мен логиканы нұсқалау ('logic _ version', 'data _ version', 'asof _ date').

10) Модельдер сапасының метрикасы

Қателердің бизнес-құнына арналған өлшемдерді таңдаңыз:
  • Жіктелуі: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN салмақтары).
  • Тәуекел скорингі: KS/ROC-AUC, Brier, калибрлеу (ECE), дрейфке арналған PSI/CSI.
  • Ұсынымдар: NDCG/MAP @K, coverage/diversity, жаңалық.
  • Аномалиялар: Precision @k, AUCPR синтетикалық/алтын жиынтығында.
Expected-Cost (жалған құжат):
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Слайс-талдау және fairness

Слайстар: нарық, провайдер, девайс/ASN, есепшот жасы, депозит мөлшері, тәулік уақыты.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Іс-әрекеттер: фичтерді қайта іріктеу, слайстар бойынша калибрлеу, шектерді қайта қарау, оқыту салмақтары.

12) production-сапа мониторингі

Деректер/болжамдар дрейфі: PSI/KL саңылаулар/жиектер бойынша.
Калибрлеу: ECE, reliability-диаграммалар.
Табалдырықтың тұрақтылығы: егер expected cost ↑> X% немесе PR-AUC ↓ болса, alert.
Сызбалар/келісімшарттар: breaking changes (schema registry) ұстау.
Feedback loop: инциденттер бойынша жылдам қол лейблдері (case-жабулар, RG-шығыстар).

13) Құпиялылық, қауіпсіздік, комплаенс

PII-минимизация: бүркеншік атаулар, жеке қорғалған маппинг.
Резиденттік: бөлек пайплайндар/кілттер (EEA/UK/BR); негізсіз кросс-өңірлік join 'oларға тыйым салу.
DSAR/RTBF: есептелетін проекциялар мен селективті өңдеулер.
Legal Hold: WORM - кейстер мен есеп пакеттеріне арналған мұрағаттар.
Журналдар: қолжетімділіктің/экспорттың өзгермейтін аудиті.

14) Таңбалау процесін ұйымдастыру

Құралдар: task-трекер, мысалдар кезегі, контексті алдын ала қарау, PII бүркемелеу, ыстық пернелер.
Жылдамдықты және сапаны бақылау: KPI аннотатор (жылдамдық, дәлдік golden), оқыту және аттестаттау.
Нұсқалау: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', таймстемптер.
Құжаттама: теру карточкасы (owner, дереккөз, терезе, ережелер, метрика).

15) Үлгі үлгілері

Датасет карточкасы (YAML):
yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
QA белгілеу ережелері:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (SQL идеясы):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Енгізу жол картасы

MVP (2-4 апта):

1. Онтология және нұсқаулықтар v1, алтын жинақ (доменге 1000 мысалдан ≥).

2. PII-бүркемелеуі бар аннотациялық ағын, κ - әр аптаға арналған метрика.

3. Базалық модель + offline-бағалау (PR-AUC, expected cost), point-in-time іріктемелер.

4. Фич/жылдамдық дрейфінің мониторингі; датасеттер мен гайдтар нұсқаларының тіркелімі.

2-фаза (4-8 апта):
  • Active/weak-supervision конвейері, auto-triage 'unknown'.
  • Слайс-талдау және fairness-есептер, ықтималдықтарды калибрлеу.
  • Белгіленген жиынтықтар үшін DSAR/RTBF рәсімдері, кейстер үшін Legal Hold.
3-фаза (8-12 апта):
  • QA (golden/honey-pots) толық автоматтандыру, регрессиялық белгілеу тестілері.
  • Датасеттер мен «модель сапасы» карточкаларының каталогы; expected-cost шегі оркестрі.
  • Таңбалау/инференс құны бойынша Chargeback, лейблдерді жаңарту бойынша SLA.

17) RACI

R (Responsible): Data Science (онтология, метрика), Label Ops (процесс/QA), Data Eng (іріктеме/PII/сақтау орны).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (ережелер), Security (KMS/аудит).
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.

18) Азық-түлік алдындағы чек-парағы

  • Онтология мен гайдтар бекітілді, нұсқа бекітілді.
  • Сапалы іріктеме: стратификация, уақыт/нарық бойынша holdout.
  • Нысаналы шекті κ α/ ≥; golden-accuracy сақталды.
  • Point-in-time фич пен лейблдерді жинау; лейкедждің болмауына арналған тест өтті.
  • Өлшемдер expected cost бойынша таңдалған, слайс-талдау және fairness орындалған.
  • Дрейф/калибрлеу мониторингі қосылған; тәуекелдер теңшелді.
  • PII/DSAR/RTBF және Legal Hold саясаты сақталған; аудит енгізілген.

19) Анти-паттерндер және тәуекелдер

Нақты өлшемдерсіз таңбалау → төмен κ, шулы лейблдер.
Болашақтағы лейкедж (пост-фактум белгілері/лейблдер).
Теңгерілмеген іріктемелер, құнын есептемегенде ROC-AUC метрикасы.
Алтын/QA және регрессиялық таңбалау тестерінің болмауы.
PII жасырынбаған және резиденттігі жоқ датасеттерде.
Слайс-талдау жоқ → өңірлерде/провайдерлерде жасырын тозу.

20) Қорытынды

Үлгілердің сапасы лейблдердің сапасынан басталады. Қателіктердің құнын ескеретін қатаң онтология, мысалдары бар нұсқаулықтар, point-in-time тәртібі, QA-контурлар мен метриктер - iGaming-те ойнатылатын ML-дің негізі. Бұл тәжірибелерді деректер конвейері мен MLOps-ке кіріктіріп, сіз бизнес нәтижелерін күтпеген жерден жақсартатын тұрақты, этикалық және комплаентті модельдерге ие боласыз.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.