Maglumat akymynyň arhitekturasy
1) Bellenilmegi we ýörelgeleri
Maksatlar: seljerme, hasabat, antifrod, şahsylaşdyrma we ML üçin dogry, öz wagtynda we doly maglumatlary bermek.
Ýörelgeler:- Data as a Product: anyk eýeler, şertnamalar, SLO we wersiýalaşdyrmak.
- Schema-first: shemalar hökmanydyr; düzgünlere laýyklykda ewolýusiýa.
- Privacy-by-Design: PII-ni minimallaşdyrmak, lakamlaşdyrmak, elýeterliligi dolandyrmak.
- Observability-by-Default: yzarlamalar, metrikler, çyzgylar, hil profilleri.
- Cost-aware: tiered-storage, şowhunly wakalary düzmek, gysyş.
2) Çeşmeleriň we wakalaryň landşafty
Geleşik: goýumlar/netijeler, nyrhlar/tölegler, bonuslar, çargeback.
Ulanyjy: Sessiýalar, basmalar, öwrümler, RG-çäkleri, KYC statuslary.
Operasiýa: programma ýazgylary, öndürijilik metrikleri, aladalar.
Üpjün edijiler: PSP/KYC/sanksiýalar/oýun studiýalary (agregatorlar).
Salgylanmalar: oýunlaryň kataloglary, ýurtlaryň/walýutalaryň gollanmalary, nyrhlar/salgytlar.
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3) Salgylanma arhitekturasy (high-level)
1. Ingest gatlak
Şlýuzlar (HTTP/gRPC), CDC konnektorlary (OLTP-dan), nobatlar/tekerler (Kafka/Redpanda), telemetriýa kollektorlary.
Walidasiýa, kadalaşma, girelgede PII redaksiýa, contract enforcement.
2. Akym gatlagy
Akym joblary (Flink/Spark Structured Streaming/Beam)
Janköýer ammarlara we onlaýn hyzmatlara (fichestor, antifrod).
3. Batch gatlagy
Orkestrasiýa (Airflow/Dagster), inkremental ýüklemeler, bektestler we retro prosessler, SCD görnüşleri.
4. Ammar (Lakehouse)
Bronze: çig wakalar (append-only, immutable).
Kümüş: arassalanan, hilli we ýokary derejeli tablisalar.
Gold: aýratyn ýagdaýlar üçin penjireler/martlar (BI/düzgünleşdiriji/ML).
ACID (Delta/Iceberg/Hudi) bilen tablisa formatlary, gyzgyn/ýyly/sowuk gatlaklara ýaýrady.
5. Serwing we giriş
BI/SQL (Trino/Presto/DuckDB), semantik gatlak (metrics layer), API/GraphQL, onlaýn/oflayn sazlaşyk üçin Feature Store.
6. Howernans we howpsuzlyk
Katalog/linej, DQ düzgünleri, Syýasy giriş hereketlendirijisi (RBAC/ABAC), Maskalama/Tokenizasiýa, Hasabat üçin WORM arhiwi.
4) Şertnamalar we shemalar
Maglumat şertnamalary: OpenAPI/AsyncAPI/JSON Shema/Euro.
Ewolýusiýa: semantik wersiýalar; backward-compatible üýtgeşmeler - nullable meýdanlary goşmak; breaking - göçmek döwri üçin diňe '/v2 'we goşa ýazgy.
Registrler: Schema Registry, domen katalogy (Payments, Gameplay, Marketing).
5) Integrasiýa patternleri
CDC (Change Data Capture): OLTP-den tekere (Debezium), domen açarlary boýunça partizasiýa.
Outbox/Inbox: domen logikasynyň wakalaryny kepillendirilen eltip bermek.
Exactly-Once/Effectively-Once: döwletdäki amallar, idempotent sink 'i, deduplikasiýa açarlary.
Late Data & Watermarks: gijä galan wakalary bejermek; allowed lateness.
Reprocessing: idempotent payplayns, time-travel, snapshot-düzedişler.
6) Lakehouse modeli: bürünç/kümüş/altyn
Bronze (raw):- Wagt (event_date) we bazar (jurisdiction) boýunça partiýa.
- Diňe goşmak; forensika üçin asyl payload saklamak.
- Kadalaşan görnüşler, gollanmalar, '(event_id, event_time)' boýunça de-duplikasiýa.
- FK werifikasiýasy, walýuta/taýmzonlary standartlaşdyrmak, baýlaşdyrmak.
- Denormallaşdyrylan penjireler (GGR, RG-skoring, LTV, kogort tablisalary).
- Täzelenmek üçin SLA, BI we hasabat üçin agregatlar.
7) Maglumatlaryň hili (Data Quality)
Düzgünler: shema tassyklamasy, diapazonlary, özboluşlylygy, dolulygy, referential integrity.
Profillemek: paýlanmalar, kardinallyk, alamatlaryň "süýşmegi".
Gözegçilik: p50/p95 paýlaýjynyň gijä galmagy, drop-rate, error budget.
Degradation policy: awtomatiki follback (iň soňky snapshot), metrikler üçin alertler we t-synaglar.
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8) Gizlinlik we gabat gelmek
PII-iň minimallaşdyrylmagy we maskalanmagy: pseudo-ID-ni saklamak, look-up mappingleri bölmek.
Sebitleşdirmek: geo-lokal baketler/kataloglar (EEA/UK/BR), "data residency".
Hukuk amallary: DSAR/RTBF (hasaplap bolýan proýeksiýalar we saýlap redaktirlemeler), Legal Hold, üýtgewsiz hasabat arhiwleri.
Giriş loglary: "duýgur" tablisalary okamagyň barlagy, break-glass we JIT-giriş.
9) Gözegçilik we dolandyryş
Linedge: çeşmeden penjirä garaşlylygyň awtomatiki ýoly.
Paypline metrikleri: throughput, lag, failure-rate, cost/GB, cost/query.
Tracking (OTel): 'trace _ id' programmalardan hadysalara atylýar → Soragyň doly ýoluny gurýarys.
Alertler: SLO-býudjetler, täzeligiň/göwrümiň/kardinallygyň anomaliýalary.
10) Elýeterlilik we howpsuzlyk modeli
Maglumat kategoriýalary: public/internal/confidential/restricted.
Syýasatlar: row/column-level security; dinamiki gizlemek (PAN/IBAN/email).
Açarlary dolandyrmak: KMS/CMK, at-rest/in-transit şifrlemek, rotasiýa.
Borçlaryň bölünmegi: önümiň/analitigiň/dolandyryjynyň/dolandyryjynyň aýratyn rollary.
11) Data Mesh we önüm çemeleşmesi
Домены: Payments, Gameplay, Marketing, Risk, Compliance.
Data Product: eýesi, täzelik SLA, meýdan sözlügi, synaglar, wersiýalar, sarp ediş metrikasy.
Domenleriň arasyndaky şertnamalar: wersiýalanýan, backward-gabat gelýän, sarp ediji synaglary (consumer-driven).
12) Fichestor we ML akymlary
Feature registry: alamatlaryň beýany, çeşmeler, üýtgeşmeler, SLO.
Onlaýn/awtonom sazlaşyk: bir üýtgeşiklik kody, onlaýn materiallaşmagyň gijikdirilmegi ≤ 200-500 ms.
Dreýfiň gözegçiligi: PSI/KS, awtoalertler we modelleriň yza gaýdyp gelmegi, PII gözegçiligi.
Synagyň žurnaly: meta maglumatlar, wersiýalar, reproducibility, model kartalar.
13) Finmodel we cost-optimizasiýa
Partiýalaşdyrmak we Z-order/Cluster ýygy-ýygydan predikatlar boýunça.
Sowuk saklamak we ulanylmaýan tablisalar üçin TTL, VACUUM.
Materialized views diňe durnukly soraglar üçin.
Agyr joblar üçin kwotalar we býudjetler; buýruklar boýunça chargeback.
14) Sebit we köp tenant topologiýasy
Multi-region active-active: mowzuklaryň we tablisalaryň köpeldilmegi, garaşsyz pipeline-perimetrler.
Failover/DR: RPO/RTO maksatlary, orkestratoryň meta-maglumatlary, dikeldiş barlagy.
Köp tenantlyk: kataloglary/açarlary/kwotalary izolirlemek, tenant_id bellemek.
15) Amallar we RACI (gysgaça)
R: Data Platform (ingest, saklaýyş, orkestr), Data Engineering (transformasiýa).
A: Head of Data / Chief Data Officer.
C: Compliance/Legal/DPO, Arhitektura, SRE.
I: BI/Analitika, Önüm, Marketing, Maliýe.
16) Akymlar üçin SLO/SLI
Täzelik (freshness): p95 Kümüş gijä galmak ≤ 15 min, Gold (daily) taýýar ≤ 06:00 lok. wagt.
Doly: ≥ 99. T. penjiresiniň aňyrsyndaky wakalaryň 5% -i.
Dogrulygy: error-rate barlaglary DQ <0. Göwrümiň 5% -i.
Serwingiň elýeterliligi: ≥ 99. BI/Feature API üçin 9%.
17) Tablisalaryň we partiýa ýerlemegiň şablonlary
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18) Orkestr we DevX
Infra-as-Code: paypline ammarlary, synaglar, review, GitOps.
Data Contracts CI: shema linterleri, deploýdan öň DQ synaglary.
Backfill-framwork: R/W we idempotency çäkli howpsuz retro-prosessler.
Kataloglar we şablonlar: paypline generatorlary (cookie-cutter), best-practices.
19) Durmuşa geçirmegiň ýol kartasy
MVP (4-6 hepde):1. Wakalaryň tekeri + 2-3 esasy çeşmeden ingest (OLTP CDC, API-şlýuz).
2. Lakehouse Bronze/Silver, ACID formaty, katalog we esasy DQ düzgünleri.
3. 1-2 Altyn-vitrinler (gündelik GGR we konwersiýa hunisi).
4. lag/completeness metrikleri, esasy lineage, RBAC we gizlemek PII.
2-nji faza (6-12 hepde):- Akym-agregatlar (p95 latency ≤ 5 min), Feature Store, RG/AML penjireleri.
- Metrikleriň semantik gatlagy, hasabat üçin SLA; cost-dashboard.
- Sebitleşdirme (EEA/UK), DSAR/RTBF amallary, artefaktlar üçin kanuny Hold.
- Data Mesh: azyk domenleri, consumer-driven contracts.
- Sürüşme gözegçiligi bilen ML-amallar, awtomatiki utgaşdyrmak onlaýn/oflayn.
- Şemalaryň üýtgemeginiň awtomatiki simulýasiýalary (impact analysis) we bahasy boýunça "what-if".
20) Ýygy-ýygydan ýalňyşlyklar we olardan nädip gaça durmaly
Çig payload 'lar shemasyz: schema-first, registrini we CI-tassyklamasyny girizmek.
Derlemegiň ýoklugy: Silver-daky wakalaryň açarlary we idempotent-sink.
PII-ni analitika bilen garyşdyrmak: mappingleri aýyrmak we meýdanlary gizlemek.
Eýesiz altyn: owner, SLO we sarp ediş metrikasyny bellemek.
Reprocessing-strategiýasy ýok: wagt-syýahat, logikany wersiýalaşdyrmak, "goşa hasaby" dolandyrmak.
Dolandyrylmaýan bahasy: partiýa, gysyş, TTL, bahanyň syn edilmegi.
21) Sözlük (gysgaça)
CDC - ALTP-den üýtgeşmeleri ele almak.
Outbox - domen wakalaryny geleşik arkaly çap edýäris.
Watermark - penjireler üçin akymyň dolulygyna baha bermek.
Lakehouse - data lake + ACID tablisalary.
Data Product - eýesi we SLO bilen maglumatlaryň önüm birligi.
Feature Store - ML alamatlarynyň utgaşdyrylan paýlanyşy.
22) Jemleýji
Maglumat akymynyň arhitekturasy - ylalaşyklaryň dolandyrylýan ulgamy: anyk şertnamalar, gözegçilik, howpsuzlyk we gözegçilik astyndaky çykdajylar. Beýan edilen patternlerden (schema-first, bronze/silver/gold, CDC + Outbox, DQ we lineage, privacy-by-design) soň, platforma öňünden aýdyp boljak SLO we düşnükli eýeçilik bahasy bilen işewürligi, laýyklygy we ML-i ygtybarly üpjün edýär.