Нишондиҳии маълумот ва сифати модел
1) Мақсад ва принсипҳо
Ҳадаф: ба даст овардани тамғакоғазҳои репродуктивӣ ва сифати андозагирии моделҳо бидуни лейкоз ва бо назардошти мувофиқат.
Принсипҳо:- Схема-аввал: онтологияҳои расмӣ, луғатҳои синфӣ ва меъёрҳо.
- Нуқтаи вақт: Тамғакоғазҳо аз маълумоте, ки ҳангоми қабули қарор мавҷуданд, сохта мешаванд.
- Сифати ҳамчун рамз: дастурҳо, санҷишҳо, рӯйхатҳо ва интихобҳо - дар анбор.
- Тарроҳии махфият: кам кардани PII, DSAR/RTBF, иқомат.
- Арзиши огоҳӣ: арзиши нишондиҳанда ва арзиши пешбинишударо ба назар гиред.
2) Нақшаи онтология ва нишона
Объекти аломатгузорӣ, синфҳо, истисноҳо ва манбаъҳои ҳақиқатро муайян кунед: Намуна (AML/Antifraud):- Объект: Амалиёт/Сессия.
- Классы: 'қонунӣ', 'қаллобӣ _ гумонбаршуда', 'қаллобӣ _ тасдиқ', 'номаълум'.
- Истисноҳо: баргардонидани барқ бидуни далел → 'номаълум'.
- Манбаъҳо: идоракунии парвандаҳо, бақайдгирии пардохт, провайдерҳо/бонк.
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"
3) Роҳнамо
Сохтор:1. Тавсифи вазифа ва заминаи корӣ.
2. Таърифҳои синф бо мисолҳои мусбат/манфӣ ва ҳолатҳои сарҳадӣ.
3. Қоидаҳои афзалиятноки манбаъ (дуруст> эвристикӣ> афкор).
4. 'Меъёрҳои густариши номаълум' ва.
5. Сиёсати махфият (ниқоб, нишонаҳо ба ҷои ID).
6. FAQ ва рӯйхати қайдҳо.
Қисмати дастурҳо (қаллобӣ):- 'fraud _ тасдиқ': парвандаи исботшуда/парвандаи пӯшида бо теги FRAUD.
- 'fraud _ боздошта': пасандоз ≥ 3
- 'legit': Дар равзанаи 60 рӯз ягон парчам ва ягон ҳолати тасдиқшуда мавҷуд нест.
- 'unknown': Хусусиятҳои ихтилофӣ ё маълумоти нокифоя.
4) Манбаъҳои тамғакоғазҳо ва қоидаҳои вақт
Тамғакоғазҳои худкор: қоидаҳо/ҳолатҳо, баргардонидан, худдорӣ (RG), гарави натиҷа.
Замин: натиҷаи натиҷаҳои тафтишот/танзим.
Point-in-Time-Ҳодисаҳоро пас аз нуқтаи қарор истифода набаред (t0).
Таъхирҳо: масалан, баргардонидани барқ пас аз 45-90 рӯз § нишони "камолот" пайдо мешавад.
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;
5) Намунаҳо: стратификатсия ва тавозун
Ҳодисаҳои нодир: аз интихоби бозор/провайдер/сана намунаҳои стратификатсияшударо истифода баред; аз ҳад зиёд синфҳои нодир ё талафоти фокусӣ.
Қабатҳои тасдиқкунӣ: нигоҳ доштани ҳафта/бозор/иҷорагир.
Санксияҳо/PII: Майдонҳои мустақими ID-ро аз маҷмӯи омӯзишҳо хориҷ кунед.
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;
6) Мувофиқати Tracer (IRR)
Созишномаи байниҳамдигариро чен кунед: Коэн (2 эзоҳдиҳанда )/Криппендорф (шарҳи N, намуди миқёси гуногун).
Нишонаҳо:- κ < 0. 4 - пайдарҳамии бад → аз нав дида баромадани дастурҳо/мисолҳо.
0. 4–0. 6 - барои вазифаҳои мураккаб қобили қабул аст;> 0. 6 - хуб;> 0. 8 аъло аст.
- Фарогирӣ (чанд ишора шудааст), κ/ α аз рӯи синф ва бурида, ҳиссаи 'номаълум', вақти миёна, хатогиҳои болоӣ.
7) Стандартҳои ноҳиявӣ ва тиллоӣ
Маҷмӯи тиллоӣ: 1-5% ишора шудааст - нишондиҳандаи дукарата санҷидашуда.
Вазифаҳои асал: ҳолатҳои пинҳоншуда дар ҷараёни вазифа.
Нигоҳи дуюм: авҷ гирифтан/ҳакамӣ дар намунаҳои баҳснок.
Қайд кардани санҷишҳои регрессия: таҷдиди пас аз навсозии дастурҳо.
8) Омӯзиши фаъол, заиф ва нимавтоматӣ
Омӯзиши фаъол: Интихоби намунаҳои "номуайян" (ҳадди аксар энтропия/гуногунрангӣ).
Назорати заиф: эвристика/назорати дур + модели садо барои тамғакоғазҳо.
Назорати нимсола: тамғакоғазҳои псевдо бо ҳадди ҳарорат ва санҷиши минбаъда.
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training
9) Назорати зидди лейкоз ва вақт
Нуқта-дар-вақт барои хусусиятҳо ва тамғакоғазҳо ҳамроҳ мешавад.
Манъи тамғакоғазҳо/хусусиятҳо аз оянда (пас аз 'asof').
Қубурҳои алоҳидаи онлайн/офлайнӣ бо санҷиши эквиваленти трансформатсия.
Таҳрири маълумот ва мантиқ ('мантиқ _ версия', 'data _ version', 'asof _ date').
10) Нишондиҳандаҳои сифатии модел
Ченакҳоро барои арзиши кории хатогиҳо интихоб кунед:- Таснифот: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, арзиши пешбинишуда (вазнҳои FP/FN).
- Баҳодиҳии хатарҳо: KS/ROC-AUC, Brier, калибрченкунӣ (ECE), PSI/CSI барои кашидан.
- Тавсияҳо: NDCG/MAP @ K, фарогирӣ/гуногунрангӣ, навоварӣ.
- Аномалияҳо: Precision @ k, AUCPR оид ба маҷмӯи синтетикӣ/тиллоӣ.
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))
11) Таҳлили бурида ва адолат
Иловаро: бозор, провайдер, дастгоҳ/ASN, синну соли ҳисоб, андозаи амонат, вақти рӯз.
Адолат: таъсири нобаробар (таносуб), эҳтимолияти баробаркардашуда (разница FPR/TPR).
Амалҳо: аз нав насб кардани хусусиятҳо, калибрченкунӣ бо иловаро, аз нав дида баромадани ҳудудҳо, вазнҳои омӯзишӣ.
12) Мониторинги сифати истеҳсолот
Пастшавии маълумот/пешгӯӣ: PSI/KL аз хусусиятҳо/нархҳо.
Калибрченкунӣ: ECE, диаграммаҳои эътимоднокӣ.
Устувории ҳадди ниҳоӣ: ҳушдор диҳед, ки агар арзиши интизорраванда15> X% ё PR-AUC ↓.
Схемаҳо/шартномаҳо: тағиротҳои шикастани сайд (феҳристи схема).
Давраи бозгашт: тамғакоғазҳои фаврии дастӣ (бастани парвандаҳо, натиҷаҳои RG).
13) Махфият, амният, мувофиқат
Кам кардани PII: тахаллусҳо, харитасозии алоҳидаи ҳифзшаванда.
Истиқомат: Қубурҳо/калидҳои алоҳида (EEA/UK/BR); манъ кардани пайвастшавии байниминтақавӣ бе сабаб.
DSAR/RTBF: пешгӯиҳои ҳисобшаванда ва таҳрирҳои интихобӣ.
Нигоҳдории ҳуқуқӣ: бойгонии WORM барои парвандаҳо ва бастаҳои ҳисоботӣ.
Гузоришҳо: аудити тағйирнопазири дастрасӣ/содирот.
14) Ташкили раванди аломатгузорӣ
Воситаҳо: пайгирии вазифа, навбати мисол, пешнамоиши контекст, ниқоби PII, hotkeys.
Назорати суръат ва сифат: KPI-и аннотатор (суръат, дақиқӣ дар тилло), омӯзиш ва сертификатсия.
Версия: 'роҳнамо _ версия', 'annotator _ id', 'revier _ id', вақтҳо.
Ҳуҷҷатгузорӣ: корт (соҳиб, манбаъ, тирезаҳо, қоидаҳо, ченакҳо).
15) Намунаҳои намуна
Корти додаҳо (YAML):yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Қоидаҳои аломатгузории QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Матритсаи нофаҳмо (идеяи SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;
16) Харитаи роҳсозӣ
MVP (2-4 ҳафта):1. Онтология ва дастурҳои v1, маҷмӯи тилло (≥ 1000 намуна барои як домен).
2. Ҷараёни эзоҳ бо ниқоби PII, барои ҳар ҳафта κ ченак.
3. Модели ибтидоӣ + сметаи офлайнӣ (PR-AUC, арзиши пешбинишуда), интихоби вақт дар вақт.
4. Мониторинги коҳиши хусусиятҳо/нархҳо; феҳристи маҷмӯаҳо ва версияҳои роҳнамо.
Марҳилаи 2 (4-8 ҳафта):- Лӯлаи фаъол/заиф-назоратӣ, худкори триаж 'номаълум'.
- Таҳлили бурида ва ҳисобот дар бораи адолат, калибрченкунии эҳтимолият.
- Тартиби DSAR/RTBF барои маҷмӯаҳои қайдшуда, Нигоҳдории ҳуқуқӣ барои парвандаҳо.
- Автоматизатсияи пурраи QA (зарфҳои тиллоӣ/асал), санҷишҳои регрессияи нишона.
- Феҳристи маҷмӯаҳо ва кортҳои "сифати модел"; ҳадди ниҳоии пешбинишуда.
- Пардохти барқ аз рӯи арзиши нишондиҳанда/хулоса, SLA аз рӯи навсозиҳои тамғакоғазҳо.
17) RACI
R (Масъул): Илми маълумот (онтология, ченакҳо), Label Ops (раванд/QA), Data Eng (намунаҳо/PII/анбор).
A (Ҳисоботдиҳанда): Роҳбари маълумот/CDO.
C (Машварат): Мувофиқат/DPO (PII/истиқомат/DSAR), Хавф/AML/RG (сиёсат), Амният (KMS/аудит).
I (Маълумот): Маҳсулот/Маркетинг/Амалиёт/Дастгирӣ.
18) Рӯйхати санҷиши пеш аз фурӯш
- Онтология ва роҳнамо тасдиқ карда шуданд, версияи собит.
- Намунаи сифатӣ: табақабандӣ, нигоҳдорӣ аз рӯи вақт/бозор.
- / ҳадди ниҳоии тиллоӣ риоя карда шудааст.
- Ҷамъоварии хусусиятҳо ва тамғакоғазҳо дар вақти муайян; санҷиш барои набудани лейкоз гузашт.
- Нишондиҳандаҳое, ки аз рӯи арзиши пешбинишуда, таҳлили бурида ва адолат интихоб карда мешаванд.
- Мониторинги дрифт/калибрченкунӣ; ҳушдорҳо муқаррар карда мешаванд.
- PII/DSAR/RTBF ва сиёсати нигоҳдории ҳуқуқӣ; аудит фаъол гардид.
19) Анти-намунаҳо ва хатарҳо
Нишондиҳанда бидуни меъёрҳои возеҳ → тамғакоғазҳои паст ва пурғавғо.
Кӯр аз оянда (аломатҳои пас аз воқеӣ/тамғакоғазҳо).
Намунаҳои нобаробар, метрикаи ROC-AUC, ба истиснои хароҷот.
Набудани санҷишҳои тиллоӣ/QA ва регрессияи регрессия.
PII дар маҷмӯаи маълумотҳои истифоданашуда ва истиқоматӣ.
Не таҳлили буридаи → таназзули пинҳонӣ дар минтақаҳо/провайдерҳо.
20) Сатри поён
Сифати модел аз сифати нишона оғоз меёбад. Онтологияи қатъӣ, дастурҳо бо мисолҳо, интизоми вақт, контурҳои QA ва ченакҳо, ки арзиши хатогиҳоро ба назар мегиранд, асоси ML-и такроршаванда дар IGaming мебошанд. Бо ворид кардани ин таҷрибаҳо дар лӯлаи маълумот ва MLO, шумо моделҳои устувор, ахлоқӣ ва мувофиқро пайдо мекунед, ки натиҷаҳои тиҷоратро бидуни ногаҳонӣ беҳтар мекунанд.