Veri akışı mimarisi
1) Amaç ve prensipler
Hedefler: Analitik, raporlama, dolandırıcılıkla mücadele, kişiselleştirme ve ML için doğru, zamanında ve uyumlu veriler sunmak.
İlkeler:- Ürün Olarak Veri: açık sahipler, sözleşmeler, SLO'lar ve sürümler.
- Şema-ilk: şemalar gereklidir; Kurallara göre evrim.
- Privacy-by-Design: PII minimizasyonu, aliasing, erişim kontrolü.
- Varsayılan Olarak Gözlem: izler, metrikler, soy, kalite profilleri.
- Maliyet bilincine sahip: katmanlı depolama, gürültülü olayları örnekleme, sıkıştırma.
2) Kaynak ve Olay Manzarası
İşlem: para yatırma/çekme, bahis/ödeme, bonus, geri ödeme.
Kullanıcı: oturumlar, tıklamalar, dönüşümler, RG sınırları, KYC durumları.
Çalışma: uygulama günlükleri, performans metrikleri, uyarılar.
Sağlayıcılar: PSP/KYC/yaptırımlar/oyun stüdyoları (toplayıcılar).
Referans: oyun katalogları, ülke/para birimi dizinleri, tarifeler/vergiler.
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3) Üst düzey referans mimarisi
1. Ingest katmanı
Ağ geçitleri (HTTP/gRPC), CDC konektörleri (OLTP'den), kuyruklar/veri yolları (Kafka/Redpanda), telemetri toplayıcıları.
Doğrulama, normalleştirme, girişte PII baskısı, sözleşme uygulaması.
2. Akış katmanı
Veri tekilleştirme, filigran, durumsal kümeler içeren akış jabları (Flink/Spark Structured Streaming/Beam).
Depolama ve çevrimiçi hizmetlere Fan-out (fichestore, anti-dolandırıcılık).
3. Toplu katmanı
Orkestrasyon (Airflow/Dagster), artımlı indirmeler, backtestler ve retroprocesses, SCD türleri.
4. Depolama (Lakehouse)
Bronz: ham olaylar (yalnızca ekle, değişmez).
Gümüş: temizlenmiş, kaliteli ve veri tekilleştirme ile uyumlu tablolar.
Altın: belirli durumlar için vitrinler/mart (BI/regülatör/ML).
ACID (Delta/Iceberg/Hudi), sıcak/sıcak/soğuk katmanlama ile tablo formatları.
5. Servis ve erişim
BI/SQL (Trino/Presto/DuckDB), anlamsal katman (metrik katmanı), API/GraphQL, çevrimiçi/çevrimdışı tutarlılık için Feature Store.
6. Yönetim ve güvenlik
Dizin/satır, DQ kuralları, politik erişim motoru (RBAC/ABAC), maskeleme/Tokenization, raporlar için WORM arşivi.
4) Sözleşmeler ve planlar
Veri sözleşmeleri: OpenAPI/AsyncAPI/JSON Schema/Avro.
Evrim: anlamsal versiyonlar; Geriye dönük uyumlu değişiklikler - geçersiz alanlar ekleme; Sadece'/v2'ile kırma ve geçiş dönemi için çift giriş.
Kayıtlar: Şema Kayıt Defteri, etki alanı dizini (Ödemeler, Oyun, Pazarlama).
5) Entegrasyon kalıpları
CDC (Change Data Capture): OLTP'den bus'a (Debezium), domain anahtar bölümleme.
Giden Kutusu/Gelen Kutusu: alan mantığı olaylarının garantili teslimatı.
Tam Olarak Bir Kez/Etkili Bir Kez: durum, idempotent lavabo, veri tekilleştirme anahtarlarındaki işlemler.
Geç Veri ve Filigranlar: geç olayları işleme; İzin verilen gecikmeli pencereler.
Yeniden işleme: idempotent boru hatları, zaman yolculuğu, anlık görüntü düzeltmeleri.
6) Lakehouse modeli: bronz/gümüş/altın
Bronz (ham):- Zaman (event_date) ve pazar (yargı) tarafları.
- Sadece ekleme; Adli tıp için orijinal yükün depolanması.
- Normalleştirilmiş türler, referans kitaplar, '(event_id, event_time)'ile veri tekilleştirme.
- FK doğrulaması, para birimi standardizasyonu/zaman dilimi, zenginleştirme.
- Denormalize vitrinler (GGR, RG puanlama, LTV, kohort tabloları).
- Güncelleme için SLA, BI için toplama ve raporlama.
7) Veri kalitesi
Kurallar: devre doğrulama, aralıklar, benzersizlik, bütünlük, referans bütünlüğü.
Profilleme: dağılım, kardinalite, işaretlerin "sürüklenmesi".
İzleme: p50/p95 boru hattı gecikmesi, drop-rate, hata bütçesi.
Bozulma politikası: otomatik geri dönüş (son anlık görüntü), uyarılar ve metrikler için t-testleri.
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8) Gizlilik ve uyumluluk
PII küçültme ve maskeleme: mağaza sözde kimliği, ayrı arama eşlemeleri.
Bölgeselleştirme: jeo-yerel kovalar/kataloglar (EEA/UK/BR), "veri ikametgahı".
Yasal işlemler: DSAR/RTBF (hesaplanabilir projeksiyonlar ve seçici düzenlemeler), Yasal Bekletme, değiştirilemez rapor arşivleri.
Erişim günlüğü: "hassas" tabloların, kırılma camlarının ve JIT erişiminin denetim okumaları.
9) Gözlemlenebilirlik ve yönetim
Linege-Otomatik olarak bağımlılıkları kaynaktan vitrine kadar izler.
Boru hattı metrikleri: iş hacmi, gecikme, arıza oranı, maliyet/GB, maliyet/sorgu.
Trace (OTel): Uygulamalardan gelen 'trace _ id' olaylara atılır - uçtan uca bir istek yolu oluştururuz.
Uyarılar: SLO bütçeleri, tazelik/hacim/kardinalite anomalileri.
10) Erişim ve güvenlik modeli
Veri kategorileri: public/internal/confidential/restricted.
Politikalar: satır/sütun düzeyinde güvenlik; Dinamik maskeleme (PAN/IBAN/e-posta).
Anahtar yönetimi: KMS/CMK, at-rest/in-transit şifreleme, rotasyon.
Görevlerin ayrımı: prod/analist/yönetici/gözden geçirenin ayrı rolleri.
11) Veri Ağı ve Ürün Yaklaşımı
Домены: Ödemeler, Oyun, Pazarlama, Risk, Uyum.
Veri Ürünü: sahibi, tazelik SLA, alan sözlüğü, testler, sürümler, tüketim metriği.
Etki alanları arasındaki sözleşmeler: sürüm, geriye dönük uyumlu, tüketici odaklı testler.
12) Fichestor ve ML akışları
Özellik kayıt defteri: özellik açıklaması, kaynaklar, dönüşümler, SLO.
Çevrimiçi/çevrimdışı tutarlılık: bir dönüşüm kodu, çevrimiçi materyalizasyon gecikmesi ≤ 200-500 ms.
Drift izleme: PSI/KS, otomatik uyarılar ve model geri dönüşleri, PII kontrolü.
Deney günlüğü: meta veriler, sürümler, tekrarlanabilirlik, model haritaları.
13) Finmodel ve maliyet optimizasyonu
Sık yüklemlerle bölümleme ve Z-order/Cluster.
Kullanılmayan masalar için soğuk hava deposu ve TTL, VAKUM.
Materyalize görünümler yalnızca kararlı sorgu desenleri için.
Ağır işler için kotalar ve bütçeler; Takıma göre ters ibraz.
14) Bölgesel ve çok kiracılı topoloji
Çok bölgeli aktif-aktif: temaların ve tabloların çoğaltılması, bağımsız boru hattı çevreleri.
Yük devretme/DR: RPO/RTO hedefleri, orkestratör meta verileri anlık görüntüleri, kurtarma kontrolü.
Çoklu kiracılık: dizin/anahtar/kota yalıtımı, tenant_id işaretleme.
15) Süreçler ve RACI (kısaca)
R: Veri Platformu (alım, depolama, orkestrasyon), Veri Mühendisliği (dönüşüm).
A: Veri Başkanı/Baş Veri Sorumlusu.
C: Uyumluluk/Yasal/DPO, Mimari, SRE.
I: BI/Analytics, Ürün, Pazarlama, Finans.
16) Akışlar için SLO/SLI
Tazelik: p95 gecikme Gümüş ≤ 15 dk, Altın (günlük) hazır ≤ 06:00 kilit. Zaman.
Bütünlük: ≥ 99. T penceresi başına olayların %5'i.
Geçerlilik: DQ kontrollerinin hata oranı <0. Hacmin %5'i.
Servis mevcudiyeti: ≥ 99. BI/Feature API için %9.
17) Tablo ve bölümleme şablonları
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18) Orkestrasyon ve DevX
Infra-as-Code: boru hattı depoları, testler, incelemeler, GitOps.
Veri Sözleşmeleri CI: devre bağlantıları, dağıtımdan önce DQ testleri.
Geri doldurma çerçevesi: R/W ve idempotency kısıtlamaları ile güvenli retro süreçleri.
Kataloglar ve şablonlar: çerez kesici jeneratörler, en iyi uygulamalar.
19) Uygulama Yol Haritası
MVP (4-6 hafta):1. Olay veriyolu + 2-3 anahtar kaynağın alımı (OLTP CDC, API ağ geçidi).
2. Lakehouse Bronz/Gümüş, ACID formatı, katalog ve temel DQ kuralları.
3. 1-2 Altın kasalar (günlük GGR ve dönüşüm hunisi).
4. Gecikme/tamlık metrikleri, temel soy, RBAC ve PII maskeleme.
Faz 2 (6-12 hafta):- Akış birimleri (p95 gecikme süresi ≤ 5 dakika), Özellik Mağazası, RG/AML vitrinleri.
- Metriklerin semantik katmanı, raporlama için SLA; maliyet panoları.
- Bölgeselleştirme (AÇA/İngiltere), DSAR/RTBF prosedürleri, Eserler için Yasal Bekletme.
- Data Mesh: ürün etki alanları, tüketici odaklı sözleşmeler.
- Sürüklenme izleme, çevrimiçi/çevrimdışı otomatik anlaşma ile ML işlemleri.
- Şema değişikliklerinin otomatik simülasyonu (etki analizi) ve maliyete göre'ne-eğer ".
20) Sık yapılan hatalar ve bunlardan nasıl kaçınılacağı
Şemalar olmadan ham yükler: şema-first, register ve CI doğrulaması uygulayın.
Veri tekilleştirme yok - Silver'da olay anahtarları ve idempotent synks.
PII'yi analitikle karıştırın - Haritalamaları ve maske alanlarını ayırın.
Sahibi olmayan altın: sahibi, SLO ve tüketim metriklerini atar.
Yeniden işleme stratejisi yoktur: zaman yolculuğu, mantık sürümü, "çift sayma" kontrolü.
Yönetilemeyen değer: gruplar, sıkıştırma, TTL, değerin gözlemlenebilirliği.
21) Sözlük (kısa)
CDC - OLTP'den değişiklikleri yakalayın.
Giden kutusu - etki alanı olaylarını işlemsel olarak yayınlıyoruz.
Filigran - pencereler için akış bütünlüğünün değerlendirilmesi.
Lakehouse - veri gölü + ACID tabloları.
Veri Ürünü - sahibi ve SLO ile veri ürün birimi.
Feature Store - ML özelliklerinin tutarlı dağılımı.
22) Alt satır
Veri akışı mimarisi yönetilebilir bir düzenleme sistemidir: açık sözleşmeler, gözlemlenebilirlik, güvenlik ve kontrol altındaki maliyet. Açıklanan kalıpları (şema-ilk, bronz/gümüş/altın, CDC + Outbox, DQ ve soy, gizlilik-tasarım) takiben, platform, öngörülebilir SLO'lar ve anlaşılabilir sahip olma maliyeti ile kaliteli verilerle güvenilir bir şekilde iş, uyumluluk ve ML sağlar.