Маалыматтарды белгилөө жана моделдердин сапаты

1) Максаты жана принциптери

Максаты: лейкеджсиз жана комплаенс эске алуу менен кайталануучу этикеткаларды жана өлчөнүүчү сапаттагы моделдерди алуу.

Принциптери:

Schema-first: формалдуу онтологиялар, класстык сөздүктөр жана критерийлер.
Point-in-time: этикеткалар чечим учурда жеткиликтүү болгон маалыматтардан турат.
Quality-as-code: инструкциялар, тесттер, чек баракчалары жана үлгүлөрү - сактагычта.
Privacy-by-design: PII минималдаштыруу, DSAR/RTBF, жашаган.
Cost-aware: Биз белгилөө жана туура эмес чечимдерди (expected cost) наркын карап.

2) Онтология жана этикеткалар схемасы

Белгилөө объектисин, класстарды, өзгөчөлүктөрдү жана чындыктын булактарын аныктаңыз: Мисал (AML/Antifrod):

Объект: транзакция/сессия.
Классы: `legit`, `fraud_suspected`, `fraud_confirmed`, `unknown`.
өзгөчөлүктөр: chargeback эч кандай далил → 'unknown'.
Булактар: кейс-менеджмент, chargeback-реестрлер, провайдерлер/банк.

YAML схемасы:

yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) түшүндүрмө көрсөтмөлөрү (guidelines)

Түзүлүшү:

1. Милдет жана бизнес контексттин сүрөттөлүшү.

2. Оң/терс мисалдар жана чек ара учурлары менен класстарды аныктоо.

3. Булактардын артыкчылыктуу эрежелери (чындык> эвристика> пикир).

4. Критерийлер 'unknown' жана эскалация.

5. Купуялык саясаты (жашыруу, ID ордуна токендер).

6. FAQ жана чек тизмеси.

Көрсөтмөлөрдүн фрагменти:

'fraud _ confirmed': далилденген chargeback/жабык case тег FRAUD.
'fraud _ suspected': ≥ 3 депозиттик
'legit': 60 күндүк терезеде желектер жана тастыкталган учурлар жок.
'unknown': карама-каршы белгилер же жетишсиз маалыматтар.

4) Лейблдердин булактары жана point-in-time эрежелери

Auto-лейблдер: эрежелер/учурларда, chargeback, өзүн-өзү жоюу (RG), outcome коюмдар.
Граунд-трут: иликтөөнүн/жөнгө салуучу натыйжалардын натыйжасы.
Point-in-time: чечим кийин окуяларды колдонууга тыюу салынат (t0).
кечигүү: Мисалы, chargeback 45-90 күндөн кийин пайда болот → этикеткасы "жетилген".

SQL "келечеги жок" үлгүсү:

sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Үлгүлөр: стратификация жана баланс

Сейрек окуялар: use stratified sampling рыноктор/провайдерлер/даталар боюнча; сейрек класстарды же focal loss oversampling.
Валидация катмарлары: жумалар/базарлар/тенанттар боюнча кармап туруу.
Санкциялар/PII: окутуу топтомдорунан түз идентификаторлору бар талааларды алып салыңыз.

Үлгүнүн жылышын көзөмөлдөө:

sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) шайкештиги белгилөө (IRR)

Cohen's κ (2 аннотатор )/Krippendorff's α (N аннотатор, шкаланын ар кандай түрү).

Болжолдуу маалыматтар:

κ < 0. 4 - начар ырааттуулук → нускамаларды/мисалдарды кайра карап чыгуу.

0. 4–0. 6 - татаал тапшырмалар үчүн алгылыктуу;> 0. 6 - жакшы;> 0. 8 - мыкты.

Сапаттуу белгилөө картасы:

камтуу (канча белгиленген), κ/ α класстары жана тилкелери боюнча, үлүшү 'unknown', орточо убакыт, жогорку каталар.

7) QA-контур жана алтын стандарттары

Алтын комплект: 1-5% белгиленген - кош текшерүү менен эталон.
Honey-pot тапшырмалар: тапшырмалардын агымында жашыруун белгилүү учурлар.
Экинчи көз караш: эскалация/талаш мисалдар боюнча арбитраждык.
Регрессиялык белгилөө тесттери: гиддерди жаңырткандан кийин кайталап валидациялоо.

8) активдүү, алсыз жана жарым-контролдук окутуу

Active Learning: "белгисиз" мисалдарды тандоо (максималдуу энтропия/ар түрдүү).
Weak Supervision: evristics/distant supervision + этикеткалар үчүн ызы-модель.
Жарым-Supervised: температура босогосу жана кийинки текшерүү менен psevdolables.

Pipeline (эскиз):

python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Анти-лейкедж жана убакыт контролдоо

Point-in-time join for fich and label.
Келечектен лейбл/фич тыюу салуу ('asof' кийин).
Трансформациянын эквиваленттүүлүгүн сыноо менен онлайн/оффлайн өзүнчө бөлүштүрүү.
Берилиштер жана логика версиясы ('logic _ version', 'data _ version', 'asof _ date').

10) Сапаттуу моделдер Метрика

Бизнес-наркы каталар үчүн метрика тандоо:

Классификация: PR-AUC/ROC-AUC, F1 @k, Recall @k, expected cost (FP/FN салмагы).
Тобокелдик эсеби: KS/ROC-AUC, Brier, калибрлөө (ECE), PSI/CSI дрейф үчүн.
Сунуштар: NDCG/MAP @K, coverage/diversity, жаңылык.
Аномалиялар: Precision @k, AUCPR синтетикалык/алтын топтому боюнча.

Expected-Cost (псевдокод):

python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Слайс-талдоо жана fairness

Слайддар: базар, провайдер, аппарат/ASN, эсеп жашы, депозиттин өлчөмү, сутканын убактысы.
Fairness: disparate impact (ratio), equalized odds (разница FPR/TPR).
Иш-аракеттер: fich кайра тандоо, слайстарды калибрлөө, босоголорду кайра карап чыгуу, салмакты үйрөтүү.

12) Production-сапатын мониторинг

Маалыматтар/божомолдор Drift: PSI/KL phices/cloths.
калибрлөө: ECE, reliability-диаграммалар.
Босогонун туруктуулугу: эгерде expected cost ↑> X% же PR-AUC ↓.
Схемалар/контракттар: breaking changes (schema registry) кармоо.
Feedback loop: тез кол этикеткалар окуя (case-жабуу, RG-натыйжалары).

13) Купуялык, коопсуздук, комплаенс

PII-минималдаштыруу: псевдонимдер, өзүнчө корголгон mapping.
Резиденттүүлүк: өзүнчө пайплайндар/ачкычтар (EEA/UK/BR); негизсиз кросс-аймактык join's тыюу салуу.
DSAR/RTBF: эсептөө проекциялары жана тандоо редакторлору.
Legal Hold: WORM архивдери жана отчеттук пакеттер үчүн.
Журналдар: кирүү/экспорттун өзгөрүлбөгөн аудити.

14) белгилөө жараянын уюштуруу

Tools: task-tracker, үлгү кезеги, контекстти алдын ала көрүү, PII masking, ысык баскычтар.
ылдамдыгын жана сапатын контролдоо: KPI аннотатор (ылдамдыгы, алтын тактык), окутуу жана күбөлүк.
Версиялоо: 'guidelines _ version', 'annotator _ id', 'reviewer _ id', таймстемптер.
Документация: комплект картасы (owner, булак, терезелер, эрежелер, метрика).

15) үлгүлөрү мисалдар

Dataset Card (YAML):

yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"

QA белгилөө эрежелери:

yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true

Confusion matrix (SQL-идея):

sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Ишке ашыруунун жол картасы

MVP (2-4 жума):

1. Онтология жана көрсөтмөлөр v1, алтын топтому (доменге ≥ 1000 мисал).

2. PII-маскировкасы менен аннотациялык агым, жума сайын κ-метрика.

3. Негизги модель + offline-баа (PR-AUC, expected cost), пункту-жылы-убакыт үлгүлөрү.

4. Мониторинг дрейф/тез; датасеттер жана гайддардын версияларынын реестри.

2-этап (4-8 жума):

Active/weak-supervision конвейер, auto-triage 'unknown'.
Слайс-талдоо жана fairness-отчеттор, ыктымалдыгын калибрлөө.
Белгиленген топтомдор үчүн DSAR/RTBF жол-жоболору, Cases үчүн Legal Hold.

Этап 3 (8-12 жума):

Толук автоматташтыруу QA (алтын/honey-pots), регрессия тесттер белгилөө.
Маалыматтар жана карталар каталогу "сапаттуу модель"; expected-cost босого оркестр.
Chargeback маркировкалоо/Infenerce наркы боюнча, SLA лейблдер тактоо боюнча.

17) RACI

R (Responsible): Data Science (онтология, метрика), Label Ops (процесс/QA), Data Eng (үлгүлөрү/PII/сактоо).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/residency/DSAR), Risk/AML/RG (эрежелер), Security (KMS/аудит).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.

18) Азык-түлүктүн алдындагы чек-тизме

Ontology жана Gaydes бекитилген, версия жазылган.
Сапаттуу үлгү: катмарлануу, убакыт/рыноктор боюнча holdout.
κ/ α максаттуу босого ≥; алтын-accuracy сакталат.
Point-in-time fich жана лейблдер чогултуу; лейкедждин жоктугу боюнча тест өттү.
Metrics expected cost боюнча тандалып алынган, slays талдоо жана fairness аткарылган.
Мониторинг дрейф/калибрлөө киргизилген; Алерттер орнотулган.
PII/DSAR/RTBF жана Legal Hold саясаты сакталат; аудит киргизилген.

19) Анти-үлгүлөрү жана тобокелдиктер

так критерийлери жок белгилөө → төмөн κ, ызы-чуу этикеткалар.
Лейкедж келечектен (пост-фактум белгилери/лейблдер).
Балансталбаган үлгүлөр, наркы эске албаганда, метрика ROC-AUC.
Жок алтын/QA жана регрессия белгилөө тесттер.
PII datasetes жашырып жана жашаган жок.
Эч кандай слайс талдоо → региондордо/провайдерлерде жашыруун деградация.

20) Жыйынтык

Моделдин сапаты этикеткалардын сапаты менен башталат. Катуу онтология, мисалдар менен көрсөтмөлөр, пункту-in-time тартип, QA-контурлар жана ката наркын эске метрика, - iGaming ойнотулган ML негизи. Бул тажрыйбаларды маалымат конвейерине жана MLOps киргизип, сиз күтүлбөгөн жерден бизнес натыйжаларын жакшыртуучу туруктуу, этикалык жана комплаенс моделдерин аласыз.

Маалыматтарды белгилөө жана моделдердин сапаты

Биз менен байланышыңыз

Ыкчам байланыш

Видео жакында жаңыртылат

Азыр биз долбоорлор менен абдан алекпиз