Маалыматтарды байытуу
1) Максаты жана бизнес баалуулугу
Байытуу "чийки" окуяларды пайдалуу фактыларга айландырып, контекст жана белгилерди кошот:- Финансы/отчеттуулук: fx-суммаларды нормалдаштыруу, рынокторго/салык ставкаларына байлоо, GGR/NGR эсептөөсү.
- Комплаенс/AML/RG: тобокелдик эсептери, санкциялык/РЕР-белгилер, RG-лимиттер, жүрүм-турум белгилери.
- Маркетинг/продукт: трафик булактары, сегменттер, миссиялар/тапшырмалар, персоналдаштыруу.
- SRE/иш: гео/ASN үчүн трафик, кардар/түзмөк түрү, fichflags жана релиздер.
Негизги натыйжа - моделдердин тактыгын, отчеттордун сапатын жана чечим кабыл алуу ылдамдыгын жогорулатуу.
2) Байытуу булактары (болжолдуу каталог)
Референттер/каталогдор: оюндар, провайдерлер, базарлар/юрисдикциялар, валюталар, салык таблицалары, майрам календары.
KYC/KYB/RG: текшерүү деңгээл, статусу, өзүн-өзү четтетүү, чектөөлөрдү, курактык топтор.
AML/санкциялар/PEP: скрининг хиттери, тизмелер, тобокелдик деңгээли.
Тармактар жана түзмөктөр: IP → гео/ASN, түзмөк/OS/браузер, device fingerprint.
Төлөм провайдерлери (PSP): BIN-таблицалар, ыкмалар, MCC, тобокелдик белгилери.
FX/убакыт: иш-чаранын датасы боюнча алмашуу курсу, жергиликтүү убакыт алкактары/DST.
Контент жана маркетинг: булактар/кампаниялар/UTM, аффилиаттар, сегменттер.
Моделдер жана эвристиктер: алдын ала даярдалган скорингдер, эмбеддингдер, категориялык маппингдер.
3) байытуу түрлөрү
Lookup-джойн: ачкыч боюнча чекит салыштыруу (game_id, BIN, ip_range, user_pseudo_id).
Dimension attach: өлчөө кошулуу (dim.) фактыларга.
Derived fields: эсептелүүчү колонкалар (amount_base, local_time, tax_rate).
Aggregations/velocity: терезелер үчүн эсептегичтер (N чендер/мин, депозиттердин суммасы/саат).
Risk/behavioral features: "акыркы окуядан бери убакыт", share-of-wallet, түнкү активдүүлүк.
Geo/ASN/Device: өлкө коду, аймак, оператор, түзмөк/браузер түрү.
Semantic mappings: провайдерлердин/оюндардын классификациясы, оюнчулардын кластерлери.
ML Fiches: онлайн/оффлайн моделдөө үчүн белгилер (Feature Store).
4) Кайда байытуу: Batch vs Stream
Агым (реалдуу убакыт): антифрод, RG-триггерлер, SRE алерттери - p95 ≤ 2-5 с кечигүүлөр; кэш lookup (Redis/Scylla), убакыттын өтүшү менен провайдерлерге асинхрондук суроо.
Batch (микро-батчи/күн сайын): Gold (GGR/RG/AML), текшерүүлөр, отчеттор - туруктуулук жана толуктук жашыруун маанилүү.
Гибрид: тез онлайн белгиси + түнкү байытуу (reconciliation/accuracy).
5) Архитектуралык шилтеме
1. Bronze - чийки окуялар (append-only).
2. Silver (clean/conform) - нормалдашуу, ачкычтар, баштапкы lookup 'i (fx, geo, dim.) .
3. Enrichment Layer - кеңейтилген белгилер, терезе агрегаттары, тобокелдик белгилери.
4. Feature Store - белгилердин реестри (онлайн/оффлайн шайкештик).
5. Gold - BI/жөнгө салуучу/моделдердин астындагы витриналар; өзгөрүлбөс экспонаттар.
6. Кызматтар - API/GraphQL, отчеттук экспорттор, реалдуу убакыт тобокелдиктер.
Компоненттери: Kafka/Redpanda, Flink/Spark/Beam, Redis/Scylla (lookup), ClickHouse/Pinot (оперативдүү окуу), Lakehouse (Delta/Iceberg/Hudi).
6) Келишимдер жана схемалар
Schema-first: 'event _ time', 'schema _ version', туруктуу ачкычтар (user_pseudo_id, game_id, transaction_id).
Байытуу белгилери: 'enrichment. version`, `enrichment. sources`, `fx_source`, `geo_source`, `model_version`.
Версиялоо: жаңы белгилер nullable катары кошулат; breaking-өзгөртүүлөр - аркылуу '/v2 'жана кош жазуу.
7) Байытуу мисалдар (SQL/psevdocode)
7. 1 FX-нормалдаштыруу жана жергиликтүү убакыт
sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;
7. 2 Geo/ASN IP боюнча (псевдодокод)
python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7. 3 Депозиттердин ылдамдыгынын терезе белгилери (агым)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7. 4 RG-лимиттери менен шайкеш келтирүү
sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);
8) байытуу сапаты (DQ)
Минималдуу эрежелер:- FX: 'fx _ rate _ used' NULL эмес, 'fx _ source' whitelist, эсептешүү 'amount _ base ≥ 0'.
- Geo/ASN: ийгиликтүү lookups үлүшү ≥ 98% (рыноктордо), 'country' колдонмосунда.
- RG/AML белгилери: 'valid _ from/valid _ to' (SCD II) кесилишпейт; тарыхта "тешиктердин" жоктугу.
- Агрегаттар/терезелер: терезелердин тууралыгы (кош эсеп жок), completeness ≥ 99. 5%.
- моделдердин нускалары: 'model _ version' бар, белгилердин дрейф контролдоо.
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9) Купуялык жана комплаенс
PII минималдаштыруу: псевдо-ID боюнча байытуу, чыныгы идентификаторлор - өзүнчө контурда.
Гео-локализация жана резиденттүүлүк: аймак боюнча багыттоо (EEA/UK/BR), өзүнчө шифрлөө ачкычтары.
DSAR/RTBF: байытылган проекциялар "жашыруу "/редакцияны колдоого тийиш; өзгөчөлүктөр үчүн укуктук негизди сактаңыз.
Legal Hold: отчеттук артефакттар/учурлар үчүн өчүрүүлөрдү тоңдуруу.
10) Байкоо жана сызык
Сызык: чийки окуядан → lookup/агрегаттар → витриналар/моделдер; булактардын версияларын жазыңыз ('fx _ source', 'geo _ source', 'bin _ source').
SLI/SLO: freshness p95 (Silver) ≤ 15 мин; ийгиликтүү гео-lookups ≥ 98%; негизги белгилери толтурулган жазуулардын үлүшү ≥ 99%; latency enrich агымы p95 ≤ 2-5 б.
Дашборддор: булактары боюнча completeness жылуулук картасы, маалымдамалардын/моделдердин версияларынын картасы, "кымбат" join's монитору, белгилердин жылышы.
11) Наркы жана аткаруу
Кэш/материалдык: тез-тез lookup 'жана Redis/Scylla; мезгил-мезгили менен snapshot's.
Компакт белгилери: сактагыла агрегаттар (эмес, "чийки" тизмелери); Parquet/колонка форматтарын колдонуңуз.
Партиялаштыруу: датасы/рыногу/тенанты боюнча; көп чыпкалоочу талаалар боюнча кластерлештирүү.
Adaptive жыштыгы: оор enrich Jobs - түнкүсүн; realtime - критикалык гана.
Chargeback: эсепке алуу cost/query жана cost/GB буйруктары/fich.
12) үлгүлөрү жана анти-үлгүлөрү
Паттерндер:- RG/KYC/провайдерлер үчүн Dimension Lookup + SCD II.
- Async Enrichment менен убакыт жана fallback (белги "unknown" + кайталоо).
- Feature Store онлайн/оффлайн макулдашуу жана репродуктивдүү тесттер менен.
- Rule-as-Code байытуу үчүн (босого/категориялык карталар).
- кэш жок ысык жолдо тышкы API үчүн катуу байланыш.
- Булактын маркаланбаган версиялары ('fx _ source', 'geo _ source').
- Денормализация "баары менен" Silver (жарылуу наркы/татаалдыгы).
- Аналитикалык катмарларга PII киргизүү.
13) Процесстер жана RACI
R (Responsible): Data Engineering (enrich/stream пайплайндары), Domain Owners (белгилердин семантикасы), MLOps (Feature Store).
A (Accountable): Head of Data / Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Finance (FX/налоги), Risk (RG/AML), SRE.
I (Informed): BI/Продукт/Маркетинг/Операциялар.
14) Ишке ашыруунун жол картасы
MVP (2-4 жума):1. Байытуу булактарынын каталогу (fx, geo, markets, RG/KYC).
2. Silver-нормалдаштыруу + негизги lookup 'и (fx/geo/dim.) .
3. Биринчи агрегаттар velocity (депозиттер/чендер) жана enriched. v1 таблицалар.
4. Dashbord completeness/freshness, булактардын нускасы.
2-этап (4-8 жума):- жазалардын туташуу/RER/CUV, BIN-таблицалар PSP, device fingerprint.
- Feature Store (белгилердин өзөгү) + онлайн кэш, реалдуу Flink байытуу.
- DQ-эрежелери боюнча enrich-катмары, сызык жана "dry-run" симуляция.
- Персоналдаштыруу (миссиялар/тапшырмалар) жана RG/AML детекторлору онлайн.
- Чыгымдарды башкаруу (квота, материалдаштыруу, Z-order), көп аймак.
- Белгилердин жана каталогдун документтерин автогенерациялоо ("feature cards").
15) Азык-түлүк алдында сапатын текшерүү
- Макулдашылган ачкычтар жана схемалар, булактардын версиялары кол коюлган.
- DQ эрежелери боюнча fx/geo/RG/жазалоо/терезелер; аллергия жана SLO.
- Тышкы lookup үчүн кэш/тайм жана fallback.
- Linedge жана dashbord наркы/аткаруу.
- байытылган таблицалар үчүн DSAR/RTBF/Legal Hold жол-жоболору.
- Белгилерди документтештирүү (owner, формулалар, SLO, таасир).
16) Көп каталар жана аларды алдын алуу үчүн кантип
Колдонмолор/моделдердин белгиленбеген версиялары: ар дайым '_ source' жана 'model _ version' жазыңыз.
FX "артка" эсептөө: окуя учурунда курсу колдонуу; FX булагы сактоо.
PII аралаштыруу: токенизациялоо жана изоляциялоо mappings.
Агрегаттарда кош эсеп: терезелерди жана дедупту текшериңиз.
Кэшсиз синхрондуу тышкы чалуулар: async + кэш/ретраларды киргизиңиз.
Эч кандай түшүнүк: онлайн/оффлайн бирдиктүү трансформация коду, шайкештик тесттери.
17) Глоссарий (кыскача)
Lookup/Dimension attach - ачкыч боюнча чындыкка колдонмо кошуу.
Feature Store - ML үчүн белгилерди каттоо жана тейлөө.
SCD II - валиддик интервалдар менен өлчөөлөрдү тарыхтоо.
FX - алмашуу курсу жана суммаларды нормалдаштыруу.
ASN - автономдуу тармак системасы; антифрод жана гео-аналитика үчүн пайдалуу.
18) Жыйынтык
Байытуу - бул билимге айлантуунун дисциплинасы: макулдашылган ачкычтар жана схемалар, контролдонуучу lookup 'i жана агрегаттар, версияланган булактар, демейки купуялуулук, DQ жана байкоо. Сүрөттөлгөн үлгүлөрдү ээрчип, сиз кайталануучу, үнөмдүү жана компленттүү витриналарды жана отчеттуулукка, персоналдаштырууга жана реалдуу убакыт тобокелдик детекторлоруна даяр белгилерди аласыз.