Maglumatlary baýlaşdyrmak
1) Maksady we iş gymmaty
Baýlaşdyrmak "çig" wakalary peýdaly faktlara öwürýär, mazmuny we alamatlary goşýar:- Maliýe/hasabat: fx-summalaryň kadalaşmagy, bazarlara/salgyt stawkalaryna baglanyşyk, GGR/NGR hasaplamasy.
- Komplayens/AML/RG: töwekgelçilik skoringleri, sanksiýa/PER-bellikler, RG-çäkler, özüni alyp barşyň alamatlary.
- Marketing/önüm: trafik çeşmeleri, segmentler, missiýalar/gözlegler, şahsylaşdyrma.
- SRE/amallar: Trafik üçin geo/ASN, müşderiniň/enjamyň görnüşi, fiçflaglar we goýberişler.
Esasy netije - modelleriň takyklygyny, hasabatlaryň hilini we karar kabul etmegiň tizligini ýokarlandyrmak.
2) Baýlaşdyryjy çeşmeler (takmynan katalog)
Salgylanmalar/kataloglar: oýunlar, üpjün edijiler, bazarlar/ýurisdiksiýalar, walýutalar, salgyt tablisalary, baýramçylyklaryň senenamasy.
KYC/KYB/RG: barlag derejeleri, statuslar, öz-özüni aýyrmalar, çäkler, ýaş toparlary.
AML/sanksiýalar/PEP: skriningiň hitleri, sanawlar, töwekgelçilik derejeleri.
Torlar we enjamlar: IP → geo/ASN, enjam/OS/brauzer, device fingerprint.
Töleg üpjün edijileri (PSP): BIN-tablisalar, usullar, MCC, töwekgelçilik bellikleri.
FX/Wagt: Wakanyň senesindäki walýuta hümmeti, ýerli wagt zolaklary/DST.
Mazmun we marketing: çeşmeler/kampaniýalar/UTM, affiliates, segmentler.
Modeller we ewristika: öňünden öwrenilen skoringler, embeddingler, kategoriýa mappingleri.
3) Baýlaşdyrmagyň görnüşleri
Lookup-join: açar boýunça nokat deňeşdirmesi (game_id, BIN, ip_range, user_pseudo_id).
Dimension attach: Ölçeg goşulmasy (dim.) faktlara.
Derived fields: hasaplanan sütünler (amount_base, local_time, tax_rate).
Aggregations/velocity: penjireler üçin hasaplaýjylar (N stawkalar/min, goýumlaryň mukdary/sagat).
Risk/behavioral features: "soňky wakadan wagt", share-of-wallet, gijeki işjeňlik.
Geo/ASN/Device: ýurduň kody, sebit, operator, enjamyň/brauzeriň görnüşi.
Semantic mappings: üpjün edijileriň/oýunlaryň klassifikasiýasy, oýunçylaryň klasterleri.
ML-fiçalar: onlaýn/awtonom modellemek üçin alamatlar (Feature Store).
4) Nirede baýlaşdyrmaly: Batch vs Stream
Akym (real-time): antifrod, RG-triggerler, SRE alertleri - p95 ≤ 2-5 s gijikdirmeler; keş üçin lookup (Redis/Scylla), wagtlary bolan üpjün edijilere asinhron soraglar.
Batch (mikro-batçi/gündelik): Gold (GGR/RG/AML) penjireleri, deňeşdirmeler, hasabatlar - durnuklylyk we dolulyk gizlinlikden has möhümdir.
Gibrid: çalt onlaýn alamat + gijeki baýlaşdyrma (reconciliation/accuracy).
5) Binagärlik salgylanmasy
1. Bronze - çig wakalar (append-only).
2. Silver (clean/conform) - kadalaşma, açarlar, esasy lookup 'i (fx, geo, dim.) .
3. Enrichment Layer - giňeldilen alamatlar, penjire agregatlary, töwekgelçilik bellikleri.
4. Feature Store - alamatlaryň sanawy (onlaýn/awtonom utgaşdyrmak).
5. Gold - BI/sazlaýjy/model üçin penjireler; üýtgemeýän artefaktlar.
6. Hyzmatlar - API/GraphQL, hasabat eksportlary, real-time alertleri.
Komponentler: Kafka/Redpanda, Flink/Spark/Beam, Redis/Scylla (lookup), ClickHouse/Pinot (operatiw okamak), Lakehouse (Delta/Iceberg/Hudi).
6) Şertnamalar we shemalar
Schema-first: 'event _ time', 'schema _ version', durnukly açarlar (user_pseudo_id, game_id, transaction_id).
Baýlaşdyryş bellikleri: 'enrichment. version`, `enrichment. sources`, `fx_source`, `geo_source`, `model_version`.
Wersiýalaşdyrmak: täze alamatlar nullable hökmünde goşulýar; breaking-üýtgeşmeler - '/v2 'we goşa ýazgy arkaly.
7) Baýlaşdyrmagyň mysallary (SQL/psevdokod)
7. 1 FX-kadalaşma we ýerli wagt
sql
SELECT p. transaction_id,
p. amount_orig,
p. currency,
r. rate AS fx_rate_used,
p. amount_orig r. rate AS amount_base,
p. event_time,
convert_timezone(m. tz, 'UTC', p. event_time) AS local_time,
r. fx_source
FROM bronze. payment_events p
JOIN dim. fx_rates r
ON r. date = DATE(p. event_time) AND r. ccy_from = p. currency AND r. ccy_to = 'EUR'
JOIN dim. markets m ON m. code = p. market;
7. 2 IP boýunça Geo/ASN (psevdokod)
python geo = geo_db. lookup(ip)
asn = asn_db. lookup(ip)
record["geo_country"] = geo. country record["asn"] = asn. number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7. 3 Depozitleriň tizliginiň penjire alamatlary (akym)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver. payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7. 4 RG-çäkler bilen baglanyşyk
sql
SELECT b., r. daily_deposit_limit, r. self_exclusion
FROM silver. bets b
LEFT JOIN dim. rg_limits r USING (user_pseudo_id);
8) Baýlaşdyrmagyň hili (DQ)
Iň az düzgünler:- FX: 'fx _ rate _ used' NULL däl, 'fx _ source' whitelist-den, hasaplaşyk 'amount _ base ≥ 0'.
- Geo/ASN: üstünlikli lookups paýy ≥ 98% (bazarlar boýunça), gollanmada 'country'.
- RG/AML bellikleri: 'valid _ from/valid _ to (SCD II) kesişmeýär; taryhda "deşikleriň" ýoklugy.
- Agregatlar/penjireler: penjireleriň dogrulygy (goşa hasap ýok), completeness ≥ 99. 5%.
- Modelleriň wersiýalary: 'model _ version' bar, alamatlaryň süýşmegine gözegçilik.
yaml table: enriched. payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref. countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9) Gizlinlik we gabat gelmek
PII-ni minimallaşdyrmak: pseudo-ID boýunça baýlaşdyryň, hakyky kesgitleýjiler - aýratyn konturda.
Geo-lokalizasiýa we rezidentlik: sebit boýunça marşrut (EEA/UK/BR), aýratyn şifrlemek açarlary.
DSAR/RTBF: baýlaşdyrylan proýeksiýalar "gizlenmek "/redaksiýany goldamaly; kadadan çykmalar üçin hukuk esaslaryny saklaň.
Legal Hold: hasabat artefaktlary/wakalary üçin öçürmeleri doňdurmak.
10) Gözegçilik we lineage
Linage: çig wakadan → lookup/agregatlar → vitrinler/modeller; çeşmeleriň wersiýalaryny düzüň ('fx _ source', 'geo _ source', 'bin _ source').
SLI/SLO: freshness p95 (Silver) ≤ 15 мин; üstünlikli geo-lookups ≥ 98%; doldurylan esasy alamatlary bolan ýazgylaryň paýy ≥ 99%; latency enrich-streim p95 ≤ 2-5 s.
Daşbordlar: çeşmeler boýunça ýylylyk kartasy completeness, kataloglaryň/modelleriň wersiýalarynyň kartasy, "gymmat" join 'leriň monitory, alamatlaryň süýşmegi.
11) Bahasy we öndürijiligi
Nagt pullar/materializasiýa: Redis/Scylla-da ýygy-ýygydan lookup '; wagtal-wagtal snapshot 'lar.
Ykjam alamatlar: agregatlary saklaň ("çig" sanawlary däl); Parquet/sütün formatlaryny ulanyň.
Partiýa ýerleşdirilmegi: senesi/bazary/tenanty boýunça; ýygy-ýygydan süzülýän meýdanlar boýunça klaster.
Uýgunlaşma ýygylygy: agyr enrich joblary - gijelerine; realtime - diňe kritiki.
Çargeback: buýruklar/aýratynlyklar boýunça cost/query we cost/GB hasaby.
12) Patternler we anti-patternler
Pattern:- RG/KYC/üpjün edijiler üçin Dimension Lookup + SCD II.
- Taýmut we fallback bilen Async Enrichment ("unknown" belligi + gaýtalamak).
- "Feature Store" onlaýn/awtonom utgaşdyrmak we geçiş synaglary bilen.
- Baýlaşdyrmak üçin Rule-as-Code (çäk/kategoriýa kartlary).
- Gizlin ýolda daşarky API-e berk baglanyşyk.
- Çeşmeleriň belliksiz wersiýalary ('fx _ source', 'geo _ source').
- "Silver" -da "hemme zat bilen" denormalizasiýa (bahanyň/çylşyrymlylygyň partlamalary).
- PII-ni seljeriş gatlaklaryna getirmek.
13) Amallar we RACI
R (Responsible): Data Engineering (enrich/stream paýlaýynlary), Domain Owners (alamatlaryň semantikasy), MLOps (Feature Store).
A (Accountable): Head of Data / Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Finance (FX/налоги), Risk (RG/AML), SRE.
I (Informed): BI/Önüm/Marketing/Amallar.
14) Durmuşa geçirmegiň ýol kartasy
MVP (2-4 hepde):1. Baýlaşdyryjy çeşmeleriň katalogy (fx, geo, markets, RG/KYC).
2. Silver-normalization + basic lookup 'i (fx/geo/dim.) .
3. Ilkinji agregatlar velocity (depozitler/stawkalar) we enriched. v1 tablisalar.
4. Daşbord completeness/freshness, çeşmeleriň wersiýasy.
2-nji faza (4-8 hepde):- Sanksiýalary birikdirmek/RER/CUV, BIN-tablisalar PSP, device fingerprint.
- Feature Store (alamatlaryň özeni) + onlaýn keş, realtime-baýlaşdyrmak Flink.
- DQ düzgünleri enrich gatlagyna, lineage we "dry-run" simulýasiýalaryna degişlidir.
- Personalizasiýa (missiýalar/gözlegler) we RG/AML-detektorlar onlaýn.
- Gymmaty dolandyrmak (kwotalar, materiallaşdyrmak, Z-order), köp sebit.
- Alamatlaryň we katalogyň resminamalarynyň awtogenerasiýasy ("feature cards").
15) Azyk önüminden öň hil barlagy
- Ylalaşylan açarlar we shemalar, çeşmeleriň wersiýalaryna gol çekildi.
- fx/geo/RG/sanksiýalar/penjireler üçin DQ düzgünleri; alertler we SLO.
- Daşarky lookup üçin nagt pullar/wagtlar we fallback.
- Bahanyň/öndürijiligiň çyzgysy we daşbordlary.
- Baýlaşdyrylan tablisalar üçin DSAR/RTBF/Legal Hold amallary.
- Bellikleriň resminamalary (owner, formulalar, SLO, täsir).
16) Ýygy-ýygydan ýalňyşlyklar we olardan nädip gaça durmaly
Gollanmalar/modeller: elmydama '_ source' we 'model _ version' belläň.
fx "yzky gün" bilen hasaplamak: wakanyň pursatyndaky kursy ulanyň; FX çeşmesini saklaň.
PII garyşyk: mappingleri tokenleşdiriň we izolirläň.
Agregatlarda goşa hasap: penjireleri we baby barlaň.
Keshsiz sinhron daşarky jaňlar: async + kesh/retraini giriziň.
Gaýtalanma ýok: onlaýn/awtonom üýtgeşmeleriň bitewi kody, laýyklyk synaglary.
17) Sözlük (gysgaça)
Lookup/Dimension attach - gollanmanyň hakykata goşulmagy.
Feature Store - ML üçin alamatlaryň registri we hyzmaty.
SCD II - ölçeg taryhyny deňlik aralyklary bilen taryhlandyrmak.
FX - walýuta hümmeti we mukdaryň kadalaşmagy.
ASN - özbaşdak ulgam ulgamy; antifrod we geo-analitika üçin peýdalydyr.
18) Jemleýji
Baýlaşdyrmak - wakalary bilimlere öwürmegiň düzgün-nyzamydyr: utgaşdyrylan açarlar we shemalar, gözegçilik edilýän lookup 'i we agregatlar, wersiýa çeşmeleri, gizlinlik, DQ we gözegçilik etmek. Beýan edilen patternlere eýerip, hasabatlylyga, şahsylaşdyrmaga we real-time töwekgelçilik detektorlaryna taýýar bolan köpeldilýän, tygşytly we amatly penjireleri we alamatlary alarsyňyz.