Маалыматтарды белгилөө жана моделдердин сапаты
1) Максаты жана принциптери
Максаты: лейкеджсиз жана комплаенс эске алуу менен кайталануучу этикеткаларды жана өлчөнүүчү сапаттагы моделдерди алуу.
Принциптери:- Schema-first: формалдуу онтологиялар, класстык сөздүктөр жана критерийлер.
- Point-in-time: этикеткалар чечим учурда жеткиликтүү болгон маалыматтардан турат.
- Quality-as-code: инструкциялар, тесттер, чек баракчалары жана үлгүлөрү - сактагычта.
- Privacy-by-design: PII минималдаштыруу, DSAR/RTBF, жашаган.
- Cost-aware: Биз белгилөө жана туура эмес чечимдерди (expected cost) наркын карап.
2) Онтология жана этикеткалар схемасы
Белгилөө объектисин, класстарды, өзгөчөлүктөрдү жана чындыктын булактарын аныктаңыз: Мисал (AML/Antifrod):- Объект: транзакция/сессия.
- Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
- өзгөчөлүктөр: chargeback эч кандай далил → 'unknown'.
- Булактар: кейс-менеджмент, chargeback-реестрлер, провайдерлер/банк.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) түшүндүрмө көрсөтмөлөрү (guidelines)
Түзүлүшү:1. Милдет жана бизнес контексттин сүрөттөлүшү.
2. Оң/терс мисалдар жана чек ара учурлары менен класстарды аныктоо.
3. Булактардын артыкчылыктуу эрежелери (чындык> эвристика> пикир).
4. Критерийлер 'unknown' жана эскалация.
5. Купуялык саясаты (жашыруу, ID ордуна токендер).
6. FAQ жана чек тизмеси.
Көрсөтмөлөрдүн фрагменти:- 'fraud _ confirmed': далилденген chargeback/жабык case тег FRAUD.
- 'fraud _ suspected': ≥ 3 депозиттик
- 'legit': 60 күндүк терезеде желектер жана тастыкталган учурлар жок.
- 'unknown': карама-каршы белгилер же жетишсиз маалыматтар.
4) Лейблдердин булактары жана point-in-time эрежелери
Auto-лейблдер: эрежелер/учурларда, chargeback, өзүн-өзү жоюу (RG), outcome коюмдар.
Граунд-трут: иликтөөнүн/жөнгө салуучу натыйжалардын натыйжасы.
Point-in-time: чечим кийин окуяларды колдонууга тыюу салынат (t0).
кечигүү: Мисалы, chargeback 45-90 күндөн кийин пайда болот → этикеткасы "жетилген".
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Үлгүлөр: стратификация жана баланс
Сейрек окуялар: use stratified sampling рыноктор/провайдерлер/даталар боюнча; сейрек класстарды же focal loss oversampling.
Валидация катмарлары: жумалар/базарлар/тенанттар боюнча кармап туруу.
Санкциялар/PII: окутуу топтомдорунан түз идентификаторлору бар талааларды алып салыңыз.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) шайкештиги белгилөө (IRR)
Cohen's κ (2 аннотатор )/Krippendorff's α (N аннотатор, шкаланын ар кандай түрү).
Болжолдуу маалыматтар:- κ < 0. 4 - начар ырааттуулук → нускамаларды/мисалдарды кайра карап чыгуу.
0. 4–0. 6 - татаал тапшырмалар үчүн алгылыктуу;> 0. 6 - жакшы;> 0. 8 - мыкты.
- камтуу (канча белгиленген), κ/ α класстары жана тилкелери боюнча, үлүшү 'unknown', орточо убакыт, жогорку каталар.
7) QA-контур жана алтын стандарттары
Алтын комплект: 1-5% белгиленген - кош текшерүү менен эталон.
Honey-pot тапшырмалар: тапшырмалардын агымында жашыруун белгилүү учурлар.
Экинчи көз караш: эскалация/талаш мисалдар боюнча арбитраждык.
Регрессиялык белгилөө тесттери: гиддерди жаңырткандан кийин кайталап валидациялоо.
8) активдүү, алсыз жана жарым-контролдук окутуу
Active Learning: "белгисиз" мисалдарды тандоо (максималдуу энтропия/ар түрдүү).
Weak Supervision: evristics/distant supervision + этикеткалар үчүн ызы-модель.
Жарым-Supervised: температура босогосу жана кийинки текшерүү менен psevdolables.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Анти-лейкедж жана убакыт контролдоо
Point-in-time join for fich and label.
Келечектен лейбл/фич тыюу салуу ('asof' кийин).
Трансформациянын эквиваленттүүлүгүн сыноо менен онлайн/оффлайн өзүнчө бөлүштүрүү.
Берилиштер жана логика версиясы ('logic _ version', 'data _ version', 'asof _ date').
10) Сапаттуу моделдер Метрика
Бизнес-наркы каталар үчүн метрика тандоо:- Классификация: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN салмагы).
- Тобокелдик эсеби: KS/ROC-AUC, Brier, калибрлөө (ECE), PSI/CSI дрейф үчүн.
- Сунуштар: NDCG/MAP @K, coverage/diversity, жаңылык.
- Аномалиялар: Precision @k, AUCPR синтетикалык/алтын топтому боюнча.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Слайс-талдоо жана fairness
Слайддар: базар, провайдер, аппарат/ASN, эсеп жашы, депозиттин өлчөмү, сутканын убактысы.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Иш-аракеттер: fich кайра тандоо, слайстарды калибрлөө, босоголорду кайра карап чыгуу, салмакты үйрөтүү.
12) Production-сапатын мониторинг
Маалыматтар/божомолдор Drift: PSI/KL phices/cloths.
калибрлөө: ECE, reliability-диаграммалар.
Босогонун туруктуулугу: эгерде expected cost ↑> X% же PR-AUC ↓.
Схемалар/контракттар: breaking changes (schema registry) кармоо.
Feedback loop: тез кол этикеткалар окуя (case-жабуу, RG-натыйжалары).
13) Купуялык, коопсуздук, комплаенс
PII-минималдаштыруу: псевдонимдер, өзүнчө корголгон mapping.
Резиденттүүлүк: өзүнчө пайплайндар/ачкычтар (EEA/UK/BR); негизсиз кросс-аймактык join's тыюу салуу.
DSAR/RTBF: эсептөө проекциялары жана тандоо редакторлору.
Legal Hold: WORM архивдери жана отчеттук пакеттер үчүн.
Журналдар: кирүү/экспорттун өзгөрүлбөгөн аудити.
14) белгилөө жараянын уюштуруу
Tools: task-tracker, үлгү кезеги, контекстти алдын ала көрүү, PII masking, ысык баскычтар.
ылдамдыгын жана сапатын контролдоо: KPI аннотатор (ылдамдыгы, алтын тактык), окутуу жана күбөлүк.
Версиялоо: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', таймстемптер.
Документация: комплект картасы (owner, булак, терезелер, эрежелер, метрика).
15) үлгүлөрү мисалдар
Dataset Card (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
QA белгилөө эрежелери:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Confusion matrix (SQL-идея):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Ишке ашыруунун жол картасы
MVP (2-4 жума):1. Онтология жана көрсөтмөлөр v1, алтын топтому (доменге ≥ 1000 мисал).
2. PII-маскировкасы менен аннотациялык агым, жума сайын κ-метрика.
3. Негизги модель + offline-баа (PR-AUC, expected cost), пункту-жылы-убакыт үлгүлөрү.
4. Мониторинг дрейф/тез; датасеттер жана гайддардын версияларынын реестри.
2-этап (4-8 жума):- Active/weak-supervision конвейер, auto-triage 'unknown'.
- Слайс-талдоо жана fairness-отчеттор, ыктымалдыгын калибрлөө.
- Белгиленген топтомдор үчүн DSAR/RTBF жол-жоболору, Cases үчүн Legal Hold.
- Толук автоматташтыруу QA (алтын/honey-pots), регрессия тесттер белгилөө.
- Маалыматтар жана карталар каталогу "сапаттуу модель"; expected-cost босого оркестр.
- Chargeback маркировкалоо/Infenerce наркы боюнча, SLA лейблдер тактоо боюнча.
17) RACI
R (Responsible): Data Science (онтология, метрика), Label Ops (процесс/QA), Data Eng (үлгүлөрү/PII/сактоо).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (эрежелер), Security (KMS/аудит).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.
18) Азык-түлүктүн алдындагы чек-тизме
- Ontology жана Gaydes бекитилген, версия жазылган.
- Сапаттуу үлгү: катмарлануу, убакыт/рыноктор боюнча holdout.
- κ/ α максаттуу босого ≥; алтын-accuracy сакталат.
- Point-in-time fich жана лейблдер чогултуу; лейкедждин жоктугу боюнча тест өттү.
- Metrics expected cost боюнча тандалып алынган, slays талдоо жана fairness аткарылган.
- Мониторинг дрейф/калибрлөө киргизилген; Алерттер орнотулган.
- PII/DSAR/RTBF жана Legal Hold саясаты сакталат; аудит киргизилген.
19) Анти-үлгүлөрү жана тобокелдиктер
так критерийлери жок белгилөө → төмөн κ, ызы-чуу этикеткалар.
Лейкедж келечектен (пост-фактум белгилери/лейблдер).
Балансталбаган үлгүлөр, наркы эске албаганда, метрика ROC-AUC.
Жок алтын/QA жана регрессия белгилөө тесттер.
PII datasetes жашырып жана жашаган жок.
Эч кандай слайс талдоо → региондордо/провайдерлерде жашыруун деградация.
20) Жыйынтык
Моделдин сапаты этикеткалардын сапаты менен башталат. Катуу онтология, мисалдар менен көрсөтмөлөр, пункту-in-time тартип, QA-контурлар жана ката наркын эске метрика, - iGaming ойнотулган ML негизи. Бул тажрыйбаларды маалымат конвейерине жана MLOps киргизип, сиз күтүлбөгөн жерден бизнес натыйжаларын жакшыртуучу туруктуу, этикалык жана комплаенс моделдерин аласыз.