Maʼlumotlar oqimi arxitekturasi
1) Vazifasi va prinsiplari
Maqsadlar: tahlil, hisobot, antifrod, personallashtirish va ML uchun to’g "ri, o’z vaqtida va komplayent ma’lumotlarni yetkazib berish.
Prinsiplar:- Data as a Product: aniq egalar, shartnomalar, SLO va versiyalash.
- Schema-first: sxemalar majburiy; qoidalarga muvofiq evolyutsiya.
- Privacy-by-Design: PII ni minimallashtirish, taxalluslashtirish, kirishni boshqarish.
- Observability-by-Default: trastirovka, metrika, lineage, sifat profillari.
- Cost-aware: tiered-storage, shovqinli voqealarni semplash, siqish.
2) Manbalar va hodisalar landshafti
Tranzaksion: depozitlar/xulosalar, stavkalar/to’lovlar, bonuslar, chargeback.
Foydalanuvchilar: sessiyalar, bosishlar, konversiyalar, RG-limitlar, KYC maqomlari.
Operatsion: ilovalar loglari, unumdorlik metrikasi, alertlar.
Provayderlar: PSP/KYC/sanksiyalar/oʻyin studiyalari (agregatorlar).
Referens: o’yinlar kataloglari, mamlakatlar/valyutalar ma’lumotnomalari, tariflar/soliqlar.
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3) Etalon arxitekturasi (high-level)
1. Ingest qatlam
Shlyuzlar (HTTP/gRPC), CDC konnektorlari (OLTP dan), navbatlar/shinalar (Kafka/Redpanda), telemetriya kollektorlari.
Validatsiya, normallashtirish, kirishda PII tahriri, contract enforcement.
2. Oqim qatlami
Akim joblari (Flink/Spark Structured Streaming/Beam) de-duplikatsiya, watermark, stateful agregatlari bilan.
Fan-aut omborxonalar va onlayn-xizmatlarga (fichestor, antifrod).
3. Batch qatlami
Orkestratsiya (Airflow/Dagster), inkremental yuklamalar, bektestlar va retro protsesslar, SCD turlari.
4. Saqlash (Lakehouse)
Bronze: xom voqealar (append-only, immutable).
Silver: tozalangan, sifatli va dedupli konformli jadvallar.
Gold: aniq keyslar ostidagi vitrinalar/martlar (BI/regulyator/ML).
ACID (Delta/Iceberg/Hudi) bilan jadval formatlari, issiq/issiq/sovuq qatlamlarga tarqalishi.
5. Serving va kirish
BI/SQL (Trino/Presto/DuckDB), semantik qatlam (metrics layer), API/GraphQL, onlayn/oflayn muvofiqlik uchun Feature Store.
6. Governans va xavfsizlik
Katalog/linedj, DQ qoidalari, foydalanishning siyosiy dvigateli (RBAC/ABAC), maskalash/Tokenization, hisobotlar uchun WORM arxivi.
4) Kontraktlar va sxemalar
Ma’lumotlar kontraktlari: OpenAPI/AsyncAPI/JSON Schema/Yevro.
Evolyutsiya: semantik versiyalar; backward-compatible oʻzgarishlar - nullable maydonlarini qoʻshish; breaking - faqat s ’/v2’va migratsiya davri uchun ikki baravar yozuv.
Registrlar: Schema Registry, domen katalogi (Payments, Gameplay, Marketing).
5) Integratsiya patternlari
CDC (Change Data Capture): OLTPdan shinaga (Debezium), domen kalitlari boʻyicha partiyalashtirish.
Outbox/Inbox: domen mantig’i hodisalarini kafolatlangan yetkazib berish.
Exactly-Once/Effectively-Once: steytdagi tranzaksiyalar, idempotent sink’i, deduplikatsiya kalitlari.
Late Data & Watermarks: kechikkan hodisalarni qayta ishlash; allowed lateness oynalari.
Reprocessing: idempotent payplaynlar, time-travel, snapshot-tuzatishlar.
6) Lakehouse modeli: bronze/silver/gold
Bronze (raw):- Vaqt (event_date) va bozor (jurisdiction) bo’yicha partiyalar.
- Faqat qoʻshish; forenzika uchun boshlang’ich payloadni saqlash.
- Me’yorlashtirilgan turlari, ma’lumotnomalari,’(event_id, event_time)’bo’yicha deduplikatsiyasi.
- FK verifikatsiyasi, valyuta/taymzonlarni standartlashtirish, boyitish.
- Denormallashtirilgan vitrinalar (GGR, RG-skoring, LTV, kogort jadvallari).
- yangilanish uchun SLA, BI uchun agregatlar va hisobot.
7) Ma’lumotlar sifati (Data Quality)
Qoidalar: sxemali validatsiya, diapazonlar, noyoblik, to’liqlik, referential integrity.
Profillash: distribyutsiyalar, kardinallik, «dreyf» belgilari.
Monitoring: p50/p95 payplayn, drop-rate, error budget.
Degradation policy: avtomatik follback (oxirgi snapshot), alertlar va metrik t-testlar.
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8) Maxfiylik va komplayens
PII-minimallashtirish va niqoblash: psevdo-ID saqlash, look-up mappinglarni ajratish.
Hududlashtirish: geo-lokal baketalar/kataloglar (EEA/UK/BR), «data residency».
Huquqiy operatsiyalar: DSAR/RTBF (hisoblab chiqiladigan proyeksiya va selektiv tahrirlash), Legal Hold, o’zgarmas hisobot arxivlari.
Foydalanishni loglash: «sezgir» jadvallarni o’qish auditi, break-glass va JIT-kirish.
9) Kuzatuv va boshqaruv
Linedj: manbaga bog’liqlikni vitrinagacha avtomatik traslash.
Payplaynlar metrikasi: throughput, lag, failure-rate, cost/GB, cost/query.
Trace (OTel):’trace _ id’dasturlaridan hodisalarga tashlanadi → so’rov yo’lini qurish.
Alertlar: SLO-budjetlar, yangilik/hajm/kardinallik anomaliyalari.
10) Foydalanish va xavfsizlik modeli
Maʼlumot toifalari: public/internal/confidential/restricted.
Siyosati: row/column-level security; dinamik niqoblash (PAN/IBAN/email).
Kalitlarni boshqarish: KMS/CMK, at-rest/in-transit shifrlash, rotatsiya.
Vazifalarni segregatsiya qilish: prod/analitik/admin/revyuer alohida rollari.
11) Data Mesh va mahsulot yondashuvi
Домены: Payments, Gameplay, Marketing, Risk, Compliance.
Data Product: egasi, SLA yangilik, dala lug’ati, testlar, versiyalar, iste’mol metrikasi.
Domenlar o’rtasidagi shartnomalar: versiyalashtiriladigan, backward-mos keladigan, iste’molchi testlar (consumer-driven).
12) Fichestor va ML-oqimlar
Feature registry: belgilar tavsifi, manbalar, transformatsiyalar, SLO.
Onlayn/oflayn muvofiqlik: bitta transformatsiya kodi, onlayn materiallashtirish kechikishi ≤ 200-500 ms.
Dreyf monitoringi: PSI/KS, avtoalertlar va modellarning orqaga qaytishi, PII nazorati.
Tajriba jurnali: meta maʼlumotlar, versiyalar, reproducibility, model xaritalari.
13) Finmodel va cost-optimallashtirish
Partiyalashtirish va tez-tez predikatlar bo’yicha Z-order/Cluster.
Foydalanilmayotgan jadvallar uchun sovuq saqlash va TTL, VACUUM.
Materialized views faqat barqaror soʻrov patternlari uchun.
Og’ir joblar uchun kvotalar va budjetlar; buyruqlar bo’yicha chargeback.
14) Mintaqaviy va ko’p tenant topologiya
Multi-region active-active: mavzular va jadvallarning replikatsiyasi, mustaqil pipeline-perimetrlar.
Failover/DR: RPO/RTO maqsadlari, orkestrator meta maʼlumotlari snapshotlari, tiklanishni tekshirish.
Multitenantlik: kataloglar/kalitlar/kvotalarni izolyatsiya qilish, tenant_id markalash.
15) Jarayonlar va RACI (qisqacha)
R: Data Platform (ingest, saqlash, orkestr), Data Engineering (transformatsiya).
A: Head of Data / Chief Data Officer.
C: Compliance/Legal/DPO, Arxitektura, SRE.
I: BI/Tahlil, Mahsulot, Marketing, Moliya.
16) Oqimlar uchun SLO/SLI
Yangilik (freshness): p95 kechikish Silver ≤ 15 min, Gold (daily) tayyor ≤ 06:00 lok. vaqt.
To’liqligi: 99 ≥. T. oynasidagi voqealarning 5%
Ishonchliligi: DQ <0. hajmining 5 foizi.
Servingdan foydalanish imkoniyati: ≥ 99. BI/Feature API uchun 9%.
17) Jadvallar va partiyalashtirish shablonlari
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18) Orkestr va DevX
Infra-as-Code: payplaynlar, testlar, revyu, GitOps.
Data Contracts CI: sxemalar linterlari, DQ testlari deploygacha.
Backfill-freymvork: R/W va idempotency cheklangan xavfsiz retroprotsesslar.
Kataloglar va namunalar: payplayn generatorlari (cookie-cutter), best-practices.
19) Joriy etish yo’l xaritasi
MVP (4-6 hafta):1. Voqealar shinasi + 2-3 ta asosiy manbalardan iborat ingest (OLTP CDC, API-shlyuz).
2. Lakehouse Bronze/Silver, ACID formati, katalog va asosiy DQ qoidalari.
3. 1-2 Gold-vitrinalar (kundalik GGR va konversion huni).
4. Metrika lag/completeness, bazaviy lineage, RBAC va maskalash PII.
2-faza (6-12 hafta):- Streaming-agregatlar (p95 latency ≤ 5 min), Feature Store, RG/AML vitrinalar.
- Metriklarning semantik qatlami, hisobot uchun SLA; cost-dashbordlar.
- Hududlashtirish (EEA/UK), DSAR/RTBF protseduralari, artefaktlar uchun Legal Hold.
- Data Mesh: mahsulot domenlari, consumer-driven contracts.
- Dreyf monitoringi bilan bog’liq ML-operatsiyalar, onlayn/oflayn avto-kelishuv.
- Sxemalar o’zgarishining avtomatik simulyatsiyalari (impact analysis) va qiymat bo’yicha «what-if».
20) Tez - tez xatolar va ulardan qanday qochish mumkin
Sxemasiz xom payload’lar: schema-first, registr va CI-validatsiyani joriy etish.
Deduplikatsiya yo’qligi: Silver’dagi voqealar kalitlari va idempotent-sink.
PII ni analitika bilan aralashtirish: mappinglarni ajratish va maydonlarni yashirish.
Egasiz Gold: owner, SLO va isteʼmol metrikasini tayinlash.
Reprocessing strategiyasi yo’q: time-travel, mantiqni versiyalash, «ikki marta hisobga olish» nazorati.
Boshqarilmaydigan qiymat: partiyalar, kompresssiya, TTL, qiymatning kuzatilishi.
21) Lugʻat (qisqacha)
CDC - OLTP’dan oʻzgarishlarni olib tashlash.
Outbox - Biz domen voqealarini tranzaksion ravishda nashr etamiz.
Watermark - oynalar uchun oqimni toʻliq baholash.
Lakehouse - data lake + ACID jadvallari.
Data Product - egasi va SLO bilan mahsulot birligi.
Feature Store - ML belgilarini kelishilgan tarzda tarqatish.
22) Jami
Ma’lumotlar oqimi arxitekturasi - bu boshqariladigan kelishuv tizimi: aniq kontraktlar, kuzatuv, xavfsizlik va nazorat ostidagi qiymat. Ta’riflangan patternlardan (schema-first, bronze/silver/gold, CDC + Outbox, DQ va lineage, privacy-by-design) so’ng, platforma biznes, komplayens va MLni sifatli ma’lumotlar bilan ishonchli ta’minlaydi.