Məlumat axını arxitekturası
1) Təyinat və prinsiplər
Məqsədlər: analitik, hesabat, antifrod, personalizasiya və ML üçün düzgün, vaxtında və komplayent məlumatları çatdırmaq.
Prinsiplər:- Data as a Product: aydın sahibləri, müqavilələr, SLO və versiyası.
- Schema-first: sxemlər məcburidir; qaydalarına görə təkamül.
- Privacy-by-Design: PII-nin minimuma endirilməsi, təxəllüsləşdirilməsi, giriş nəzarəti.
- Observability-by-Default: izlər, metriklər, lineage, keyfiyyət profilləri.
- Cost-aware: tiered-storage, səs-küylü hadisələrin toplanması, sıxılma.
2) Mənbələrin və hadisələrin mənzərəsi
Əməliyyat: depozitlər/nəticələr, dərəcələr/ödənişlər, bonuslar, chargeback.
Xüsusi: sessiyalar, kliklər, dönüşümlər, RG limitləri, KYC statusları.
Əməliyyat: proqram qeydləri, performans metrikası, risklər.
Provayderlər: PSP/KYC/sanksiyalar/oyun studiyaları (aqreqatorlar).
Referans: oyun kataloqu, ölkə/valyuta kataloqu, tariflər/vergilər.
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3) Etalon arxitekturası (high-level)
1. Ingest qat
Şlyuzlar (HTTP/gRPC), CDC konnektorları (OLTP-dən), növbələr/şinlər (Kafka/Redpanda), telemetriya kollektorları.
Validasiya, normallaşdırma, girişdə PII redaktə, contract enforcement.
2. Streaming qat
Deuplikasiya, watermark, stateful aqreqatları ilə axın jobları (Flink/Spark Structured Streaming/Beam).
Fan-out saxlama və onlayn xidmətlər (fichestor, antifrod).
3. Batch qat
Orkestrasiya (Airflow/Dagster), inkremental yükləmələr, backtest və retro proseslər, SCD növləri.
4. Saxlama (Lakehouse)
Bronze: xam hadisələr (append-only, immutable).
Silver: təmizlənmiş, keyfiyyətli və deduplu konform cədvəllər.
Gold: xüsusi hallarda vitrinlər/mart (BI/tənzimləyici/ML).
ACID (Delta/Iceberg/Hudi) ilə masa formatları, isti/isti/soyuq təbəqələrə yayılır.
5. Xidmət və giriş
BI/SQL (Trino/Presto/DuckDB), semantik təbəqə (metrics layer), API/GraphQL, online/oflayn uyğunluq üçün Feature Store.
6. Governance və Təhlükəsizlik
Kataloq/linedge, DQ qaydaları, siyasi giriş mühərriki (RBAC/ABAC), maskalanma/Tokenization, hesabatlar üçün WORM arxivi.
4) Müqavilələr və sxemlər
Məlumat müqavilələri: OpenAPI/AsyncAPI/JSON Schema/Avro.
Təkamül: semantik versiyalar; backward-compatible dəyişikliklər - nullable sahələri əlavə; breaking - yalnız s '/v2 'və miqrasiya dövrü üçün ikiqat qeyd.
Registrlər: Schema Registry, domen kataloqu (Payments, Gameplay, Marketing).
5) İnteqrasiya nümunələri
CDC (Change Data Capture): ALTP-dən şinə (Debezium), domen açarları ilə partizan.
Outbox/Inbox: Domain məntiq hadisələrinin zəmanətli çatdırılması.
Exactly-Once/Effectively-Once: state əməliyyatlar, idempotent sink ', deduplikasiya açarları.
Late Data & Watermarks: gecikmiş hadisələrin emalı; allowed lateness ilə pəncərələr.
Reprocessing: idempotent payplayns, time-travel, snapshot düzəlişlər.
6) Lakehouse modeli: bürünc/gümüş/qızıl
Bronze (raw):- Partisions vaxt (event_date) və bazar (jurisdiction).
- Yalnız əlavə; forensika üçün ilkin payload saxlamaq.
- Normallaşdırılmış tiplər, kataloqlar, '(event_id, event_time)' deduplikasiyası.
- FK verifikasiyası, valyuta/taymzon standartlaşdırılması, zənginləşdirmə.
- Denormallaşdırılmış vitrinlər (GGR, RG-skor, LTV, kohort cədvəllər).
- Yeniləmə üçün SLA, BI altında aqreqatlar və hesabat.
7) Məlumat keyfiyyəti (Data Quality)
Qaydalar: sxem validasiya, diapazonlar, unikallıq, tamlıq, referential integrity.
Profil: distribution, kardinallıq, «sürüklənmə» əlamətləri.
Monitorinq: p50/p95 paylayn gecikməsi, drop-rate, error budget.
Degradation policy: avtomatik fallback (son snapshot), alertlər və metrik t-testlər.
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8) Gizlilik və uyğunluq
PII-minimallaşdırma və maskalama: psevdo-ID saxlamaq, look-up mappings ayırmaq.
Regionlaşdırma: geo-lokal baketlər/kataloqlar (EEA/UK/BR), «data residency».
Hüquqi əməliyyatlar: DSAR/RTBF (hesablanabilir proyeksiyalar və seçici redaktələr), Legal Hold, dəyişməz hesabat arxivləri.
Giriş loqosu: «həssas» cədvəllərin oxunması, break-glass və JIT-giriş auditi.
9) Müşahidə və nəzarət
Linedge: mənbədən vitrinə asılılığın avtomatik izlənməsi.
Payplayn metrikası: throughput, lag, failure-rate, cost/GB, cost/query.
Tracking (OTel): 'trace _ id' proqramlardan hadisələrə atılır → sorğu yolu ilə qurulur.
Alertlər: SLO büdcələri, təzəlik/həcm/kardinallıq anomaliyaları.
10) Giriş və təhlükəsizlik modeli
Verilənlər kateqoriyası: public/internal/confidential/restricted.
Siyasət: row/column-level security; dinamik maskalama (PAN/IBAN/email).
Açarların idarə edilməsi: KMS/CMK, at-rest/in-transit şifrələmə, rotasiya.
Vəzifə seqreqasiyası: ayrı-ayrı prod/analitik/admin/revüer rolları.
11) Data Mesh və məhsul yanaşması
Домены: Payments, Gameplay, Marketing, Risk, Compliance.
Data Product: sahibi, SLA təravət, sahə lüğəti, testlər, versiyalar, istehlak metrikası.
Domenlər arasında müqavilələr: versiya edilə bilən, backward uyğunluğu ilə, istehlakçı testləri (consumer-driven).
12) Fichestor və ML axınları
Feature registry: xüsusiyyətləri təsviri, mənbələr, transformasiya, SLO.
Onlayn/oflayn uyğunluq: bir transformasiya kodu, onlayn materiallaşmanın gecikməsi ≤ 200-500 ms.
Drift monitorinqi: PSI/KS, avtoalertlər və modellərin geri çəkilməsi, PII nəzarəti.
Təcrübə jurnalı: metadata, versiyalar, reproducibility, model kartları.
13) Finmodel və cost-optimallaşdırma
Partizan və tez-tez predikatlara görə Z-order/Cluster.
Istifadə olunmayan cədvəllər üçün soyuq saxlama və TTL, VACUUM.
Materialized views yalnız davamlı sorğu nümunələri altında.
Ağır joblar üçün kvotalar və büdcələr; komanda chargeback.
14) Regional və multi-tenant topologiya
Multi-region active-active: mövzu və cədvəllərin replikasiyası, müstəqil pipeline-perimetrlər.
Failover/DR: RPO/RTO hədəfləri, orkestrator metadata snapshot, bərpa yoxlama.
Multi-tenant: kataloq/açar/kvota izolyasiyası, tenant_id etiketlənməsi.
15) Proseslər və RACI (qısaca)
R: Data Platform (ingest, saxlama, orkestr), Data Engineering (transformasiya).
A: Head of Data / Chief Data Officer.
C: Compliance/Legal/DPO, Memarlıq, SRE.
I: BI/Analitik, Məhsul, Marketinq, Maliyyə.
16) SLO/SLI axınlar üçün
Təravət (freshness): p95 gecikmə Silver ≤ 15 dəq, Gold (daily) 06:00 lok ≤ hazırdır. vaxt.
Doluluq: ≥ 99. T. pəncərəsində hadisələrin 5% -i.
Etibarlılıq: DQ <0. 5% həcminin.
Servinqin mövcudluğu: ≥ 99. BI/Feature API üçün 9%.
17) Cədvəl və Partizan Şablonları
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18) Orkestr və DevX
Infra-as-Code: payplayn anbarları, testlər, review, GitOps.
Data Contracts CI: sxem linterləri, deploi DQ testləri.
Backfill-framework: R/W və idempotency məhdudiyyəti ilə təhlükəsiz retro proseslər.
Kataloqlar və şablonlar: payplayn generatorları (cookie-cutter), best-practices.
19) Tətbiqi yol xəritəsi
MVP (4-6 həftə):1. Hadisə şini + 2-3 əsas mənbələrdən ingest (OLTP CDC, API-şlyuz).
2. Lakehouse Bronze/Silver, ACID formatı, kataloq və əsas DQ qaydaları.
3. 1-2 Gold vitrinlər (gündəlik GGR və konversiya hunisi).
4. lag/completeness metrik, baza lineage, RBAC və maskalama PII.
Faza 2 (6-12 həftə):- Streaming-aqreqatları (p95 latency ≤ 5 dəq), Feature Store, RG/AML vitrinlər.
- Metrik semantik təbəqə, hesabat üçün SLA; cost-dashboard.
- Regionallaşdırma (EEA/UK), DSAR/RTBF prosedurları, artefaktlar üçün Legal Hold.
- Data Mesh: qida domenləri, consumer-driven contracts.
- Sürüklənmə monitorinqi ilə ML əməliyyatları, onlayn/oflayn avtomatik koordinasiya.
- Avtomatik simulyasiya dəyişən sxemlər (impact analysis) və «what-if» dəyəri.
20) Tez-tez səhvlər və onlardan necə qaçmaq olar
Sxemsiz xam payloadlar: schema-first, registr və CI-validasiya tətbiq edin.
Deduplication yoxdur: Silver hadisələrin açarları və idempotent sink.
PII-nin analitika ilə qarışdırılması: mappinqləri ayırmaq və sahələri maskalamaq.
Sahibsiz Gold: owner, SLO və istehlak metrikasını təyin edin.
No reprocessing strategiyası: time-travel, məntiq versiyası, «ikiqat uçot» nəzarət.
Nəzarət olunmayan qiymət: partiyalar, sıxılma, TTL, dəyər müşahidə.
21) Lüğət (qısa)
CDC - ALTP-dən dəyişikliklərin tutulması.
Outbox - domen hadisələrini tranzaksiya şəklində dərc edirik.
Watermark - pəncərələr üçün axının tamlığının qiymətləndirilməsi.
Lakehouse - data lake + ACID cədvəlləri.
Data Product - sahibi və SLO ilə məhsul məlumat vahidi.
Feature Store - ML əlamətlərinin razılaşdırılmış paylanması.
22) Yekun
Məlumat axınının arxitekturası idarə olunan razılaşma sistemidir: dəqiq müqavilələr, müşahidə, təhlükəsizlik və nəzarət altında olan xərclər. Təsvir edilmiş nümunələri (schema-first, bronze/silver/gold, CDC + Outbox, DQ və lineage, privacy-by-design) izləyən platforma, proqnozlaşdırıla bilən SLO və başa düşülən sahiblik dəyəri ilə biznes, komplayens və ML keyfiyyət məlumatlarını etibarlı şəkildə təmin edir.