GH GambleHub

Maʼlumotlar oqimi arxitekturasi

1) Vazifasi va prinsiplari

Maqsadlar: tahlil, hisobot, antifrod, personallashtirish va ML uchun to’g "ri, o’z vaqtida va komplayent ma’lumotlarni yetkazib berish.

Prinsiplar:
  • Data as a Product: aniq egalar, shartnomalar, SLO va versiyalash.
  • Schema-first: sxemalar majburiy; qoidalarga muvofiq evolyutsiya.
  • Privacy-by-Design: PII ni minimallashtirish, taxalluslashtirish, kirishni boshqarish.
  • Observability-by-Default: trastirovka, metrika, lineage, sifat profillari.
  • Cost-aware: tiered-storage, shovqinli voqealarni semplash, siqish.

2) Manbalar va hodisalar landshafti

Tranzaksion: depozitlar/xulosalar, stavkalar/to’lovlar, bonuslar, chargeback.
Foydalanuvchilar: sessiyalar, bosishlar, konversiyalar, RG-limitlar, KYC maqomlari.
Operatsion: ilovalar loglari, unumdorlik metrikasi, alertlar.
Provayderlar: PSP/KYC/sanksiyalar/oʻyin studiyalari (agregatorlar).
Referens: o’yinlar kataloglari, mamlakatlar/valyutalar ma’lumotnomalari, tariflar/soliqlar.

Hodisalarni tiplash (misol):
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3) Etalon arxitekturasi (high-level)

1. Ingest qatlam

Shlyuzlar (HTTP/gRPC), CDC konnektorlari (OLTP dan), navbatlar/shinalar (Kafka/Redpanda), telemetriya kollektorlari.
Validatsiya, normallashtirish, kirishda PII tahriri, contract enforcement.

2. Oqim qatlami

Akim joblari (Flink/Spark Structured Streaming/Beam) de-duplikatsiya, watermark, stateful agregatlari bilan.
Fan-aut omborxonalar va onlayn-xizmatlarga (fichestor, antifrod).

3. Batch qatlami

Orkestratsiya (Airflow/Dagster), inkremental yuklamalar, bektestlar va retro protsesslar, SCD turlari.

4. Saqlash (Lakehouse)

Bronze: xom voqealar (append-only, immutable).
Silver: tozalangan, sifatli va dedupli konformli jadvallar.
Gold: aniq keyslar ostidagi vitrinalar/martlar (BI/regulyator/ML).
ACID (Delta/Iceberg/Hudi) bilan jadval formatlari, issiq/issiq/sovuq qatlamlarga tarqalishi.

5. Serving va kirish

BI/SQL (Trino/Presto/DuckDB), semantik qatlam (metrics layer), API/GraphQL, onlayn/oflayn muvofiqlik uchun Feature Store.

6. Governans va xavfsizlik

Katalog/linedj, DQ qoidalari, foydalanishning siyosiy dvigateli (RBAC/ABAC), maskalash/Tokenization, hisobotlar uchun WORM arxivi.

4) Kontraktlar va sxemalar

Ma’lumotlar kontraktlari: OpenAPI/AsyncAPI/JSON Schema/Yevro.
Evolyutsiya: semantik versiyalar; backward-compatible oʻzgarishlar - nullable maydonlarini qoʻshish; breaking - faqat s ’/v2’va migratsiya davri uchun ikki baravar yozuv.
Registrlar: Schema Registry, domen katalogi (Payments, Gameplay, Marketing).

5) Integratsiya patternlari

CDC (Change Data Capture): OLTPdan shinaga (Debezium), domen kalitlari boʻyicha partiyalashtirish.
Outbox/Inbox: domen mantig’i hodisalarini kafolatlangan yetkazib berish.
Exactly-Once/Effectively-Once: steytdagi tranzaksiyalar, idempotent sink’i, deduplikatsiya kalitlari.
Late Data & Watermarks: kechikkan hodisalarni qayta ishlash; allowed lateness oynalari.
Reprocessing: idempotent payplaynlar, time-travel, snapshot-tuzatishlar.

6) Lakehouse modeli: bronze/silver/gold

Bronze (raw):
  • Vaqt (event_date) va bozor (jurisdiction) bo’yicha partiyalar.
  • Faqat qoʻshish; forenzika uchun boshlang’ich payloadni saqlash.
Silver (clean):
  • Me’yorlashtirilgan turlari, ma’lumotnomalari,’(event_id, event_time)’bo’yicha deduplikatsiyasi.
  • FK verifikatsiyasi, valyuta/taymzonlarni standartlashtirish, boyitish.
Gold (serve):
  • Denormallashtirilgan vitrinalar (GGR, RG-skoring, LTV, kogort jadvallari).
  • yangilanish uchun SLA, BI uchun agregatlar va hisobot.

7) Ma’lumotlar sifati (Data Quality)

Qoidalar: sxemali validatsiya, diapazonlar, noyoblik, to’liqlik, referential integrity.
Profillash: distribyutsiyalar, kardinallik, «dreyf» belgilari.
Monitoring: p50/p95 payplayn, drop-rate, error budget.
Degradation policy: avtomatik follback (oxirgi snapshot), alertlar va metrik t-testlar.

DQ-kontrakt (YAML) misoli:
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8) Maxfiylik va komplayens

PII-minimallashtirish va niqoblash: psevdo-ID saqlash, look-up mappinglarni ajratish.
Hududlashtirish: geo-lokal baketalar/kataloglar (EEA/UK/BR), «data residency».
Huquqiy operatsiyalar: DSAR/RTBF (hisoblab chiqiladigan proyeksiya va selektiv tahrirlash), Legal Hold, o’zgarmas hisobot arxivlari.
Foydalanishni loglash: «sezgir» jadvallarni o’qish auditi, break-glass va JIT-kirish.

9) Kuzatuv va boshqaruv

Linedj: manbaga bog’liqlikni vitrinagacha avtomatik traslash.
Payplaynlar metrikasi: throughput, lag, failure-rate, cost/GB, cost/query.
Trace (OTel):’trace _ id’dasturlaridan hodisalarga tashlanadi → so’rov yo’lini qurish.
Alertlar: SLO-budjetlar, yangilik/hajm/kardinallik anomaliyalari.

10) Foydalanish va xavfsizlik modeli

Maʼlumot toifalari: public/internal/confidential/restricted.
Siyosati: row/column-level security; dinamik niqoblash (PAN/IBAN/email).
Kalitlarni boshqarish: KMS/CMK, at-rest/in-transit shifrlash, rotatsiya.
Vazifalarni segregatsiya qilish: prod/analitik/admin/revyuer alohida rollari.

11) Data Mesh va mahsulot yondashuvi

Домены: Payments, Gameplay, Marketing, Risk, Compliance.
Data Product: egasi, SLA yangilik, dala lug’ati, testlar, versiyalar, iste’mol metrikasi.
Domenlar o’rtasidagi shartnomalar: versiyalashtiriladigan, backward-mos keladigan, iste’molchi testlar (consumer-driven).

12) Fichestor va ML-oqimlar

Feature registry: belgilar tavsifi, manbalar, transformatsiyalar, SLO.
Onlayn/oflayn muvofiqlik: bitta transformatsiya kodi, onlayn materiallashtirish kechikishi ≤ 200-500 ms.
Dreyf monitoringi: PSI/KS, avtoalertlar va modellarning orqaga qaytishi, PII nazorati.
Tajriba jurnali: meta maʼlumotlar, versiyalar, reproducibility, model xaritalari.

13) Finmodel va cost-optimallashtirish

Partiyalashtirish va tez-tez predikatlar bo’yicha Z-order/Cluster.
Foydalanilmayotgan jadvallar uchun sovuq saqlash va TTL, VACUUM.
Materialized views faqat barqaror soʻrov patternlari uchun.
Og’ir joblar uchun kvotalar va budjetlar; buyruqlar bo’yicha chargeback.

14) Mintaqaviy va ko’p tenant topologiya

Multi-region active-active: mavzular va jadvallarning replikatsiyasi, mustaqil pipeline-perimetrlar.
Failover/DR: RPO/RTO maqsadlari, orkestrator meta maʼlumotlari snapshotlari, tiklanishni tekshirish.
Multitenantlik: kataloglar/kalitlar/kvotalarni izolyatsiya qilish, tenant_id markalash.

15) Jarayonlar va RACI (qisqacha)

R: Data Platform (ingest, saqlash, orkestr), Data Engineering (transformatsiya).
A: Head of Data / Chief Data Officer.
C: Compliance/Legal/DPO, Arxitektura, SRE.
I: BI/Tahlil, Mahsulot, Marketing, Moliya.

16) Oqimlar uchun SLO/SLI

Yangilik (freshness): p95 kechikish Silver ≤ 15 min, Gold (daily) tayyor ≤ 06:00 lok. vaqt.

To’liqligi: 99 ≥. T. oynasidagi voqealarning 5%

Ishonchliligi: DQ <0. hajmining 5 foizi.
Servingdan foydalanish imkoniyati: ≥ 99. BI/Feature API uchun 9%.

17) Jadvallar va partiyalashtirish shablonlari

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18) Orkestr va DevX

Infra-as-Code: payplaynlar, testlar, revyu, GitOps.
Data Contracts CI: sxemalar linterlari, DQ testlari deploygacha.
Backfill-freymvork: R/W va idempotency cheklangan xavfsiz retroprotsesslar.
Kataloglar va namunalar: payplayn generatorlari (cookie-cutter), best-practices.

19) Joriy etish yo’l xaritasi

MVP (4-6 hafta):

1. Voqealar shinasi + 2-3 ta asosiy manbalardan iborat ingest (OLTP CDC, API-shlyuz).

2. Lakehouse Bronze/Silver, ACID formati, katalog va asosiy DQ qoidalari.

3. 1-2 Gold-vitrinalar (kundalik GGR va konversion huni).

4. Metrika lag/completeness, bazaviy lineage, RBAC va maskalash PII.

2-faza (6-12 hafta):
  • Streaming-agregatlar (p95 latency ≤ 5 min), Feature Store, RG/AML vitrinalar.
  • Metriklarning semantik qatlami, hisobot uchun SLA; cost-dashbordlar.
  • Hududlashtirish (EEA/UK), DSAR/RTBF protseduralari, artefaktlar uchun Legal Hold.
3-faza (12 + hafta):
  • Data Mesh: mahsulot domenlari, consumer-driven contracts.
  • Dreyf monitoringi bilan bog’liq ML-operatsiyalar, onlayn/oflayn avto-kelishuv.
  • Sxemalar o’zgarishining avtomatik simulyatsiyalari (impact analysis) va qiymat bo’yicha «what-if».

20) Tez - tez xatolar va ulardan qanday qochish mumkin

Sxemasiz xom payload’lar: schema-first, registr va CI-validatsiyani joriy etish.
Deduplikatsiya yo’qligi: Silver’dagi voqealar kalitlari va idempotent-sink.
PII ni analitika bilan aralashtirish: mappinglarni ajratish va maydonlarni yashirish.
Egasiz Gold: owner, SLO va isteʼmol metrikasini tayinlash.
Reprocessing strategiyasi yo’q: time-travel, mantiqni versiyalash, «ikki marta hisobga olish» nazorati.
Boshqarilmaydigan qiymat: partiyalar, kompresssiya, TTL, qiymatning kuzatilishi.

21) Lugʻat (qisqacha)

CDC - OLTP’dan oʻzgarishlarni olib tashlash.
Outbox - Biz domen voqealarini tranzaksion ravishda nashr etamiz.
Watermark - oynalar uchun oqimni toʻliq baholash.
Lakehouse - data lake + ACID jadvallari.
Data Product - egasi va SLO bilan mahsulot birligi.
Feature Store - ML belgilarini kelishilgan tarzda tarqatish.

22) Jami

Ma’lumotlar oqimi arxitekturasi - bu boshqariladigan kelishuv tizimi: aniq kontraktlar, kuzatuv, xavfsizlik va nazorat ostidagi qiymat. Ta’riflangan patternlardan (schema-first, bronze/silver/gold, CDC + Outbox, DQ va lineage, privacy-by-design) so’ng, platforma biznes, komplayens va MLni sifatli ma’lumotlar bilan ishonchli ta’minlaydi.

Contact

Biz bilan bog‘laning

Har qanday savol yoki yordam bo‘yicha bizga murojaat qiling.Doimo yordam berishga tayyormiz.

Telegram
@Gamble_GC
Integratsiyani boshlash

Email — majburiy. Telegram yoki WhatsApp — ixtiyoriy.

Ismingiz ixtiyoriy
Email ixtiyoriy
Mavzu ixtiyoriy
Xabar ixtiyoriy
Telegram ixtiyoriy
@
Agar Telegram qoldirilgan bo‘lsa — javob Email bilan birga o‘sha yerga ham yuboriladi.
WhatsApp ixtiyoriy
Format: mamlakat kodi va raqam (masalan, +998XXXXXXXX).

Yuborish orqali ma'lumotlaringiz qayta ishlanishiga rozilik bildirasiz.