Ғанисозии маълумот
1) Мақсад ва арзиши тиҷорат
Ғанисозӣ бо илова кардани матн ва аломатҳо рӯйдодҳои "хом" -ро ба далелҳои муфид табдил медиҳад:- Молия/ҳисоботдиҳӣ: fx-нормализатсияи миқдор, ҳатмӣ ба бозорҳо/меъёрҳои андоз, ҳисобкунии GGR/NGR.
- Мувофиқат/AML/RG: холҳои хатар, таҳримҳо/барчаспҳои PEP, маҳдудиятҳои RG, хусусиятҳои рафтор.
- Маркетинг/маҳсулот: манбаъҳои ҳаракат, сегментҳо, миссияҳо/супоришҳо, фардикунонӣ.
- SRE/амалиётҳо: geo/ASN барои трафик, навъи муштарӣ/дастгоҳ, парчамҳо ва релизҳо.
Натиҷаи асосӣ ин беҳтар шудани дақиқии моделҳо, сифати ҳисоботҳо ва суръати қабули қарорҳо мебошад.
2) Манбаъҳои ғанисозӣ (каталоги мисол)
Маълумотнома/каталогҳо: бозиҳо, провайдерҳо, бозорҳо/қаламравҳо, асъорҳо, ҷадвалҳои андоз, тақвими идона.
KYC/KYB/RG: сатҳи санҷиш, статусҳо, худдорӣ, маҳдудиятҳо, гурӯҳҳои синнусолӣ.
AML/санксияҳо/PEP: хитҳо, рӯйхатҳо, сатҳи хавфҳо.
Шабакаҳо ва дастгоҳҳо: IP → geo/ASN, дастгоҳ/OS/браузер, изи ангуштони дастгоҳ.
Таъминкунандагони пардохт (PSP): Ҷадвалҳо, усулҳо, MCC, барчаспҳои хавф.
FX/вақт: қурби асъор дар санаи чорабинӣ, минтақаҳои вақти маҳаллӣ/DST.
Мундариҷа ва маркетинг: манбаъҳо/маъракаҳо/UTM, филиалҳо, бахшҳо.
Моделҳо ва эвристика: баҳодиҳии пешакӣ омӯхташуда, ҷобаҷогузорӣ, харитасозии категориявӣ.
3) Намудҳои ғанисозӣ
Ҷустуҷӯи якҷоя: харитасозии нуқта аз рӯи калид (game_id, BIN, ip_range, user_pseudo_id).
Андозаи замима: замима кардани андозаҳо (хира.) Ба далелҳо.
Майдонҳои ҳосилшуда: сутунҳои ҳисобшуда (amount_base, local_time, tax_rate).
Агрегатҳо/суръат: ҳисобкунакҳо барои тирезаҳо (меъёри N/дақиқа, миқдори амонатҳо/соат).
Хусусиятҳои хавф/рафтор: "вақт аз ҳодисаи охирин", мубодилаи ҳамён, фаъолияти шабона.
Geo/ASN/Дастгоҳ: рамзи кишвар, минтақа, оператор, навъи дастгоҳ/браузер.
Харитасозии семантикӣ: таснифи провайдер/бозӣ, кластерҳои бозингар.
Хусусиятҳои ML барои моделсозии онлайн/офлайнӣ (Дӯкони хусусият)
4) Дар куҷо бой кардан: Batch vs Stream
Ҷараён (вақти воқеӣ): антифрауд, триггерҳои RG, огоҳиҳои SRE - p95 таъхир ≤ 2-5 s; ҷустуҷӯи кэшҳо (Редис/Скилла), дархостҳои асинхронӣ ба провайдерҳо бо танаффус.
Партия (микро-партия/ҳамарӯза): Намоишҳои тиллоӣ (GGR/RG/AML), оштӣ, гузоришҳо - устуворӣ ва пуррагӣ аз ниҳонӣ муҳимтаранд.
Гибрид: хусусияти фаврии онлайн + азнавсозии шабона (мусолиҳа/дақиқӣ).
5) Истинодҳои меъморӣ
1. Биринҷӣ - ҳодисаҳои хом (танҳо замима).
2. Нуқра (тоза/мутобиқат) - нормализатсия, калидҳо, ҷустуҷӯи ибтидоӣ 'ва (fx, geo, хира.).
3. Қабати ғанисозӣ - хусусиятҳои васеъ, агрегатҳои тиреза, тамғакоғазҳо.
4. Дӯкони хусусият - феҳристи хос (пайдарҳамии онлайн/офлайнӣ).
5. Тилло - намоишҳо барои BI/танзимкунанда/моделҳо; артефактҳои тағйирнопазир.
6. Хизматрасониҳо - API/GraphQL, содирот, огоҳиҳои воқеӣ гузориш доданд.
Компонентҳо: Кафка/Редпанда, Флинк/Spark/Beam, Редис/Скилла (ҷустуҷӯ), Click-House/Pinot (хониши зинда), Lakehouse (Delta/Iceberg/Hudi).
6) Шартномаҳо ва нақшаҳо
Схема-аввал: 'event _ time', 'schema _ version', калидҳои устувор (user_pseudo_id, game_id, transaction_id).
Бойгардонӣ нишон медиҳад: 'ғанисозӣ. версияи ',' ғанисозӣ. манбаъҳо ',' fx _ source ',' geo _ source ',' model _ version '.
Версия: хусусиятҳои нав ҳамчун беэътибор илова карда мешаванд; тағиротҳо - тавассути '/v2 'ва вуруди дугона.
7) Намунаҳои ғанисозӣ (SQL/псевдокод)
7. 1 Нормализатсияи FX ва вақти маҳаллӣ
sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;
7. 2 Geo/ASN аз ҷониби IP (псевдокод)
python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7. 3 Аломатҳои равзанаи суръати амонат (ҷараён)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7. 4 Робита бо маҳдудиятҳои RG
sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);
8) Сифати ғанисозӣ (DQ)
Қоидаҳои ҳадди аққал:- FX: 'fx _ rate _ used' на NULL, 'fx _ source' аз whitelist, ҳисобкардашудаи 'sature _ base ≥ 0'.
- Geo/ASN: ҳиссаи ҷустуҷӯҳои муваффақ ≥ 98% (аз рӯи бозор), 'кишвар' дар феҳрист.
- Тамғакоғазҳои RG/AML: 'дуруст _ аз/дуруст _ ба' (SCD II) буриш намекунанд; набудани "сӯрохиҳо" дар таърих.
- Агрегатҳо/тирезаҳо: дурустии тирезаҳо (ҳисобкунии дукарата), пуррагӣ ≥ 99. 5%.
- Версияҳои моделӣ: 'model _ version' ҳозира, назорати дрифт.
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9) Махфият ва риояи он
Кам кардани PII: ғанӣ кардани псевдо-ID, идентификаторҳои воқеӣ - дар ҳалқаи алоҳида.
Маҳаллисозӣ ва иқомат: масир аз рӯи минтақа (EEA/UK/BR), калидҳои алоҳидаи рамзгузорӣ.
DSAR/RTBF: пешгӯиҳои ғанишуда бояд "пинҳон "/редаксияро дастгирӣ кунанд; асоси қонуниро барои истисноҳо нигоҳ доранд.
Нигоҳдории ҳуқуқӣ: нест кардани артефактҳо/парвандаҳои гузоришшаванда.
10) Риоя ва насл
Linage: аз ҳодисаи хом → ҷустуҷӯ/агрегатҳо → намоишҳо/моделҳо; нусхаҳои манбаъро ислоҳ кунед ('fx _ source', 'geo _ source', 'bin _ source').
SLI/SLO: тару тоза p95 (нуқра) ≤ 15 мил; ҷустуҷӯи бомуваффақияти гео- ≥ 98%; Таносуби сабтҳо бо хусусиятҳои калидии анҷомёфта ≥ 99% таъхири ҷараёни p95 ≤ 2-5 s.
Панели панелҳо: пуррагии харитаи гармӣ аз рӯи манбаъҳо, харитаи версияҳои китобҳои истинодӣ/моделҳо, мониторинги ҳамроҳшавии "гарон", кашидани аломатҳо.
11) Арзиш ва нишондиҳандаҳо
Кэш/материализатсия: ҷустуҷӯи зуд-зуд 'ва дар Редис/Скилла; лаҳзаҳои даврӣ.
Аломатҳои паймон: агрегатҳои анбор (на рӯйхати "хом"); форматҳои Parquet/сутунро истифода баред.
Тақсимот: аз рӯи сана/бозор/иҷорагир; гурӯҳбандӣ бо майдонҳои зуд-зуд филтршуда.
Басомади мутобиқшавӣ: ҷойҳои кории бой - шабона; вақти воқеӣ - танҳо муҳим.
Пардохт: арзиш/дархост ва арзиш/баҳисобгирии ГБ аз рӯи гурӯҳ/хусусият.
12) Намунаҳо ва намунаҳои зидди
Намунаҳо:- Ҷустуҷӯи андоза + SCD II барои RG/KYC/провайдерҳо.
- Ғанисозии Async бо танаффус ва таназзул (нишони "номаълум" + такрор).
- Дӯкони хусусият бо гуфтушунидҳои онлайн/офлайнӣ ва санҷишҳои такрорӣ.
- Кодекси қоидаҳо барои ғанисозӣ (ҳадди ниҳоӣ/харитаҳои категориявӣ).
- Пайвастагии қатъӣ ба API-ҳои беруна дар роҳи гарм бидуни кэш.
- Версияҳои сарчашмаи номаълум ('fx _ source', 'geo _ source').
- Denormalization "ҳама чиз" дар Силвер (таркишҳои арзиш/мураккаб).
- Ворид намудани PII ба қабатҳои таҳлилӣ.
13) Равандҳо ва RACI
R (Масъул): Муҳандисии маълумот (қубурҳо ғанӣ/ҷараён), Соҳибони домейнҳо (семантикаи хос), MLOps (Store Feature).
A (Ҳисоботдиҳанда): Роҳбари маълумот/Сармутахассиси маълумот.
C (Машварат): Мувофиқат/Ҳуқуқӣ/DPO, Молия (FX/nalogi), Хавф (RG/AML), SRE.
I (Маълумот): BI/Маҳсулот/Маркетинг/Амалиёт.
14) Харитаи роҳсозӣ
MVP (2-4 ҳафта):1. Каталоги манбаи ғанисозӣ (fx, geo, бозорҳо, RG/KYC).
2. Нормализатсияи нуқра + ҷустуҷӯи асосӣ 'ва (fx/geo/dim.) .
3. Агрегатҳои аввал суръат (амонатҳо/меъёрҳо) мебошанд ва бой карда мешаванд. v1 ҷадвалҳо.
4. Пуррагӣ/тару тоза, нусхаҳои манбаъ.
Марҳилаи 2 (4-8 ҳафта):- Пайвасти таҳримҳо/PEP/BCL, ҷадвалҳои PSP BIN, изи ангуштони дастгоҳ.
- Дӯкони хусусият (хусусиятҳои асосӣ) + кэши онлайн, ғанисозии вақти воқеӣ Flink.
- Қоидаҳои DQ барои бой кардани қабат, насл ва моделҳои хушк.
- Фардикунонӣ (миссияҳо/супоришҳо) ва детекторҳои RG/AML онлайн.
- Идоракунии арзиш (квота, материализатсия, Z-фармоиш), бисёрминтақа.
- Тавлиди худкори ҳуҷҷатҳои хусусият ва каталог.
15) Рӯйхати сифат пеш аз фурӯш
- Калидҳо ва схемаҳои пайваста, версияҳои манбаъ имзо шудаанд.
- Қоидаҳои DQ оид ба fx/geo/RG/санксияҳо/тирезаҳо; огоҳиҳо ва SLO.
- Кэшҳо/танаффусҳо ва камбудиҳо барои ҷустуҷӯи беруна.
- Панели тахтаҳо ва хароҷот/иҷро.
- DSAR/RTBF/Тартиби нигоҳдории ҳуқуқӣ барои ҷадвалҳои бойкардашуда.
- Ҳуҷҷатгузории хусусиятҳо (соҳиб, формулаҳо, SLO, таъсир).
16) Хатогиҳои зуд-зуд ва чӣ гуна аз онҳо канорагирӣ кардан
Версияҳои истиноднашуда/моделӣ: Ҳамеша '_ source' ва 'model _ version' -ро ислоҳ кунед.
Ҳисоб кардани fx "retroactively": меъёрро дар вақти ҳодиса истифода баред; манбаи FX-ро нигоҳ доред.
Омезиши PII: Харитаҳоро токенизатсия ва ҷудо кунед.
Ҳисобкунии дукарата дар воҳидҳо: тирезаҳо ва тарҳҳоро тафтиш кунед.
Зангҳои берунаи синхронӣ бе кэш: ворид кунед async + cache/retrai.
Такрори хусусиятҳо вуҷуд надорад: як рамзи трансформатсияи онлайн/офлайн, санҷишҳои мутобиқат.
17) Луғат (мухтасар)
Замима/андозагирӣ - китоби истинодро ба факт бо калид замима кунед.
Дӯкони хусусият - бақайдгирии хусусиятҳо ва хидмат барои ML.
SCD II - таърихнигории андозагирӣ бо фосилаи эътибор.
FX - қурби асъор ва ба эътидол овардани миқдор.
ASN - системаи шабакаи автономӣ; барои қаллобӣ ва гео-таҳлил муфид аст.
18) Сатри поён
Ғанисозӣ ин интизоми табдил додани рӯйдодҳо ба дониш аст: калидҳо ва схемаҳои пайваста, ҷустуҷӯ ва маҷмӯаҳои назоратшаванда, манбаъҳои санҷидашуда, махфияти пешфарз, DQ ва мушоҳида. Бо риояи намунаҳои тавсифшуда, шумо намоишҳо ва аломатҳои репродуктивӣ, иқтисодӣ ва мувофиқро барои гузориш, фардикунонӣ ва детекторҳои хавф дар вақти воқеӣ мегиред.