GH GambleHub

Нишондиҳии маълумот ва сифати модел

1) Мақсад ва принсипҳо

Ҳадаф: ба даст овардани тамғакоғазҳои репродуктивӣ ва сифати андозагирии моделҳо бидуни лейкоз ва бо назардошти мувофиқат.

Принсипҳо:
  • Схема-аввал: онтологияҳои расмӣ, луғатҳои синфӣ ва меъёрҳо.
  • Нуқтаи вақт: Тамғакоғазҳо аз маълумоте, ки ҳангоми қабули қарор мавҷуданд, сохта мешаванд.
  • Сифати ҳамчун рамз: дастурҳо, санҷишҳо, рӯйхатҳо ва интихобҳо - дар анбор.
  • Тарроҳии махфият: кам кардани PII, DSAR/RTBF, иқомат.
  • Арзиши огоҳӣ: арзиши нишондиҳанда ва арзиши пешбинишударо ба назар гиред.

2) Нақшаи онтология ва нишона

Объекти аломатгузорӣ, синфҳо, истисноҳо ва манбаъҳои ҳақиқатро муайян кунед: Намуна (AML/Antifraud):
  • Объект: Амалиёт/Сессия.
  • Классы: 'қонунӣ', 'қаллобӣ _ гумонбаршуда', 'қаллобӣ _ тасдиқ', 'номаълум'.
  • Истисноҳо: баргардонидани барқ ​ ​ бидуни далел → 'номаълум'.
  • Манбаъҳо: идоракунии парвандаҳо, бақайдгирии пардохт, провайдерҳо/бонк.
Диаграммаи YAML:
yaml task: aml_classification object: "payment_transaction"
labels:
- legit
- fraud_suspected
- fraud_confirmed
- unknown guidelines_version: "1. 3. 0"
positive_class: "fraud_confirmed"
exclusions:
- "dispute opened but no evidence -> unknown"
sources_of_truth:
- "case_system. resolution"
- "issuer. chargeback_code"

3) Роҳнамо

Сохтор:

1. Тавсифи вазифа ва заминаи корӣ.

2. Таърифҳои синф бо мисолҳои мусбат/манфӣ ва ҳолатҳои сарҳадӣ.

3. Қоидаҳои афзалиятноки манбаъ (дуруст> эвристикӣ> афкор).

4. 'Меъёрҳои густариши номаълум' ва.

5. Сиёсати махфият (ниқоб, нишонаҳо ба ҷои ID).

6. FAQ ва рӯйхати қайдҳо.

Қисмати дастурҳо (қаллобӣ):
  • 'fraud _ тасдиқ': парвандаи исботшуда/парвандаи пӯшида бо теги FRAUD.
  • 'fraud _ боздошта': пасандоз ≥ 3
  • 'legit': Дар равзанаи 60 рӯз ягон парчам ва ягон ҳолати тасдиқшуда мавҷуд нест.
  • 'unknown': Хусусиятҳои ихтилофӣ ё маълумоти нокифоя.

4) Манбаъҳои тамғакоғазҳо ва қоидаҳои вақт

Тамғакоғазҳои худкор: қоидаҳо/ҳолатҳо, баргардонидан, худдорӣ (RG), гарави натиҷа.
Замин: натиҷаи натиҷаҳои тафтишот/танзим.
Point-in-Time-Ҳодисаҳоро пас аз нуқтаи қарор истифода набаред (t0).
Таъхирҳо: масалан, баргардонидани барқ ​ ​ пас аз 45-90 рӯз § нишони "камолот" пайдо мешавад.

Қолаби SQL "оянда нест":
sql
SELECT e. id, e. event_time AS asof,
CASE WHEN EXISTS (
SELECT 1 FROM cases c
WHERE c. tx_id = e. id
AND c. decision_time <= e. event_time + INTERVAL '90' DAY
AND c. result = 'FRAUD_CONFIRMED'
) THEN 'fraud_confirmed'
ELSE 'legit'
END AS label
FROM silver. payments e;

5) Намунаҳо: стратификатсия ва тавозун

Ҳодисаҳои нодир: аз интихоби бозор/провайдер/сана намунаҳои стратификатсияшударо истифода баред; аз ҳад зиёд синфҳои нодир ё талафоти фокусӣ.
Қабатҳои тасдиқкунӣ: нигоҳ доштани ҳафта/бозор/иҷорагир.
Санксияҳо/PII: Майдонҳои мустақими ID-ро аз маҷмӯи омӯзишҳо хориҷ кунед.

Назорати ғаразноки интихоб:
sql
-- Verification of class shares by market
SELECT market, label, COUNT() FROM dataset GROUP BY market, label;

6) Мувофиқати Tracer (IRR)

Созишномаи байниҳамдигариро чен кунед: Коэн (2 эзоҳдиҳанда )/Криппендорф (шарҳи N, намуди миқёси гуногун).

Нишонаҳо:
  • κ < 0. 4 - пайдарҳамии бад → аз нав дида баромадани дастурҳо/мисолҳо.
  • 0. 4–0. 6 - барои вазифаҳои мураккаб қобили қабул аст;> 0. 6 - хуб;> 0. 8 аъло аст.

Ишора намудани корти сифат:
  • Фарогирӣ (чанд ишора шудааст), κ/ α аз рӯи синф ва бурида, ҳиссаи 'номаълум', вақти миёна, хатогиҳои болоӣ.

7) Стандартҳои ноҳиявӣ ва тиллоӣ

Маҷмӯи тиллоӣ: 1-5% ишора шудааст - нишондиҳандаи дукарата санҷидашуда.
Вазифаҳои асал: ҳолатҳои пинҳоншуда дар ҷараёни вазифа.
Нигоҳи дуюм: авҷ гирифтан/ҳакамӣ дар намунаҳои баҳснок.
Қайд кардани санҷишҳои регрессия: таҷдиди пас аз навсозии дастурҳо.

8) Омӯзиши фаъол, заиф ва нимавтоматӣ

Омӯзиши фаъол: Интихоби намунаҳои "номуайян" (ҳадди аксар энтропия/гуногунрангӣ).
Назорати заиф: эвристика/назорати дур + модели садо барои тамғакоғазҳо.
Назорати нимсола: тамғакоғазҳои псевдо бо ҳадди ҳарорат ва санҷиши минбаъда.

Қубур:
python
U = unlabeled_pool()
scores, conf = model. predict(U)
C = pick_top_k_by_uncertainty(U, conf, k=500)
labels = annotate (C) # person train (model, L ∪ labels) # additional training

9) Назорати зидди лейкоз ва вақт

Нуқта-дар-вақт барои хусусиятҳо ва тамғакоғазҳо ҳамроҳ мешавад.
Манъи тамғакоғазҳо/хусусиятҳо аз оянда (пас аз 'asof').
Қубурҳои алоҳидаи онлайн/офлайнӣ бо санҷиши эквиваленти трансформатсия.
Таҳрири маълумот ва мантиқ ('мантиқ _ версия', 'data _ version', 'asof _ date').

10) Нишондиҳандаҳои сифатии модел

Ченакҳоро барои арзиши кории хатогиҳо интихоб кунед:
  • Таснифот: PR-AUC/ROC-AUC, F1 @ k, Recall @ k, арзиши пешбинишуда (вазнҳои FP/FN).
  • Баҳодиҳии хатарҳо: KS/ROC-AUC, Brier, калибрченкунӣ (ECE), PSI/CSI барои кашидан.
  • Тавсияҳо: NDCG/MAP @ K, фарогирӣ/гуногунрангӣ, навоварӣ.
  • Аномалияҳо: Precision @ k, AUCPR оид ба маҷмӯи синтетикӣ/тиллоӣ.
Арзиши пешбинишуда (псевдокод):
python best_thr = argmin_thr(cost_fpFPR(thr) + cost_fnFNR(thr))

11) Таҳлили бурида ва адолат

Иловаро: бозор, провайдер, дастгоҳ/ASN, синну соли ҳисоб, андозаи амонат, вақти рӯз.
Адолат: таъсири нобаробар (таносуб), эҳтимолияти баробаркардашуда (разница FPR/TPR).
Амалҳо: аз нав насб кардани хусусиятҳо, калибрченкунӣ бо иловаро, аз нав дида баромадани ҳудудҳо, вазнҳои омӯзишӣ.

12) Мониторинги сифати истеҳсолот

Пастшавии маълумот/пешгӯӣ: PSI/KL аз хусусиятҳо/нархҳо.
Калибрченкунӣ: ECE, диаграммаҳои эътимоднокӣ.
Устувории ҳадди ниҳоӣ: ҳушдор диҳед, ки агар арзиши интизорраванда15> X% ё PR-AUC ↓.
Схемаҳо/шартномаҳо: тағиротҳои шикастани сайд (феҳристи схема).
Давраи бозгашт: тамғакоғазҳои фаврии дастӣ (бастани парвандаҳо, натиҷаҳои RG).

13) Махфият, амният, мувофиқат

Кам кардани PII: тахаллусҳо, харитасозии алоҳидаи ҳифзшаванда.
Истиқомат: Қубурҳо/калидҳои алоҳида (EEA/UK/BR); манъ кардани пайвастшавии байниминтақавӣ бе сабаб.
DSAR/RTBF: пешгӯиҳои ҳисобшаванда ва таҳрирҳои интихобӣ.
Нигоҳдории ҳуқуқӣ: бойгонии WORM барои парвандаҳо ва бастаҳои ҳисоботӣ.
Гузоришҳо: аудити тағйирнопазири дастрасӣ/содирот.

14) Ташкили раванди аломатгузорӣ

Воситаҳо: пайгирии вазифа, навбати мисол, пешнамоиши контекст, ниқоби PII, hotkeys.
Назорати суръат ва сифат: KPI-и аннотатор (суръат, дақиқӣ дар тилло), омӯзиш ва сертификатсия.
Версия: 'роҳнамо _ версия', 'annotator _ id', 'revier _ id', вақтҳо.
Ҳуҷҷатгузорӣ: корт (соҳиб, манбаъ, тирезаҳо, қоидаҳо, ченакҳо).

15) Намунаҳои намуна

Корти додаҳо (YAML):
yaml name: aml_tx_2025q1_pt owner: ml-risk asof_range: ["2024-10-01", "2024-12-31"]
positive_label: fraud_confirmed guidelines_version: "1. 3. 0"
feature_window: "[-30d, 0d)"
holdout: ["2024-12-15", "2024-12-31"]
pii_policy: "tokenized_user_ids; masked_pan; no_raw_ip"
Қоидаҳои аломатгузории QA:
yaml qa:
min_kappa: 0. 6 golden_accuracy_min: 0. 9 max_unknown_share: 0. 15 reannotation_on_disagreement: true
Матритсаи нофаҳмо (идеяи SQL):
sql
SELECT pred, label, COUNT() n
FROM eval_predictions
GROUP BY pred, label;

16) Харитаи роҳсозӣ

MVP (2-4 ҳафта):

1. Онтология ва дастурҳои v1, маҷмӯи тилло (≥ 1000 намуна барои як домен).

2. Ҷараёни эзоҳ бо ниқоби PII, барои ҳар ҳафта κ ченак.

3. Модели ибтидоӣ + сметаи офлайнӣ (PR-AUC, арзиши пешбинишуда), интихоби вақт дар вақт.

4. Мониторинги коҳиши хусусиятҳо/нархҳо; феҳристи маҷмӯаҳо ва версияҳои роҳнамо.

Марҳилаи 2 (4-8 ҳафта):
  • Лӯлаи фаъол/заиф-назоратӣ, худкори триаж 'номаълум'.
  • Таҳлили бурида ва ҳисобот дар бораи адолат, калибрченкунии эҳтимолият.
  • Тартиби DSAR/RTBF барои маҷмӯаҳои қайдшуда, Нигоҳдории ҳуқуқӣ барои парвандаҳо.
Марҳилаи 3 (8-12 ҳафта):
  • Автоматизатсияи пурраи QA (зарфҳои тиллоӣ/асал), санҷишҳои регрессияи нишона.
  • Феҳристи маҷмӯаҳо ва кортҳои "сифати модел"; ҳадди ниҳоии пешбинишуда.
  • Пардохти барқ ​ ​ аз рӯи арзиши нишондиҳанда/хулоса, SLA аз рӯи навсозиҳои тамғакоғазҳо.

17) RACI

R (Масъул): Илми маълумот (онтология, ченакҳо), Label Ops (раванд/QA), Data Eng (намунаҳо/PII/анбор).
A (Ҳисоботдиҳанда): Роҳбари маълумот/CDO.
C (Машварат): Мувофиқат/DPO (PII/истиқомат/DSAR), Хавф/AML/RG (сиёсат), Амният (KMS/аудит).
I (Маълумот): Маҳсулот/Маркетинг/Амалиёт/Дастгирӣ.

18) Рӯйхати санҷиши пеш аз фурӯш

  • Онтология ва роҳнамо тасдиқ карда шуданд, версияи собит.
  • Намунаи сифатӣ: табақабандӣ, нигоҳдорӣ аз рӯи вақт/бозор.
  • / ҳадди ниҳоии тиллоӣ риоя карда шудааст.
  • Ҷамъоварии хусусиятҳо ва тамғакоғазҳо дар вақти муайян; санҷиш барои набудани лейкоз гузашт.
  • Нишондиҳандаҳое, ки аз рӯи арзиши пешбинишуда, таҳлили бурида ва адолат интихоб карда мешаванд.
  • Мониторинги дрифт/калибрченкунӣ; ҳушдорҳо муқаррар карда мешаванд.
  • PII/DSAR/RTBF ва сиёсати нигоҳдории ҳуқуқӣ; аудит фаъол гардид.

19) Анти-намунаҳо ва хатарҳо

Нишондиҳанда бидуни меъёрҳои возеҳ → тамғакоғазҳои паст ва пурғавғо.
Кӯр аз оянда (аломатҳои пас аз воқеӣ/тамғакоғазҳо).
Намунаҳои нобаробар, метрикаи ROC-AUC, ба истиснои хароҷот.
Набудани санҷишҳои тиллоӣ/QA ва регрессияи регрессия.
PII дар маҷмӯаи маълумотҳои истифоданашуда ва истиқоматӣ.
Не таҳлили буридаи → таназзули пинҳонӣ дар минтақаҳо/провайдерҳо.

20) Сатри поён

Сифати модел аз сифати нишона оғоз меёбад. Онтологияи қатъӣ, дастурҳо бо мисолҳо, интизоми вақт, контурҳои QA ва ченакҳо, ки арзиши хатогиҳоро ба назар мегиранд, асоси ML-и такроршаванда дар IGaming мебошанд. Бо ворид кардани ин таҷрибаҳо дар лӯлаи маълумот ва MLO, шумо моделҳои устувор, ахлоқӣ ва мувофиқро пайдо мекунед, ки натиҷаҳои тиҷоратро бидуни ногаҳонӣ беҳтар мекунанд.

Contact

Тамос гиред

Барои саволҳо е дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Telegram
@Gamble_GC
Оғози интегратсия

Email — муҳим аст. Telegram е WhatsApp — ихтиерӣ.

Номи шумо ихтиерӣ
Email ихтиерӣ
Мавзӯъ ихтиерӣ
Паем ихтиерӣ
Telegram ихтиерӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиерӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.