GH GambleHub

Veri akışı mimarisi

1) Amaç ve prensipler

Hedefler: Analitik, raporlama, dolandırıcılıkla mücadele, kişiselleştirme ve ML için doğru, zamanında ve uyumlu veriler sunmak.

İlkeler:
  • Ürün Olarak Veri: açık sahipler, sözleşmeler, SLO'lar ve sürümler.
  • Şema-ilk: şemalar gereklidir; Kurallara göre evrim.
  • Privacy-by-Design: PII minimizasyonu, aliasing, erişim kontrolü.
  • Varsayılan Olarak Gözlem: izler, metrikler, soy, kalite profilleri.
  • Maliyet bilincine sahip: katmanlı depolama, gürültülü olayları örnekleme, sıkıştırma.

2) Kaynak ve Olay Manzarası

İşlem: para yatırma/çekme, bahis/ödeme, bonus, geri ödeme.
Kullanıcı: oturumlar, tıklamalar, dönüşümler, RG sınırları, KYC durumları.
Çalışma: uygulama günlükleri, performans metrikleri, uyarılar.
Sağlayıcılar: PSP/KYC/yaptırımlar/oyun stüdyoları (toplayıcılar).
Referans: oyun katalogları, ülke/para birimi dizinleri, tarifeler/vergiler.

Olay yazımı (örnek):
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3) Üst düzey referans mimarisi

1. Ingest katmanı

Ağ geçitleri (HTTP/gRPC), CDC konektörleri (OLTP'den), kuyruklar/veri yolları (Kafka/Redpanda), telemetri toplayıcıları.
Doğrulama, normalleştirme, girişte PII baskısı, sözleşme uygulaması.

2. Akış katmanı

Veri tekilleştirme, filigran, durumsal kümeler içeren akış jabları (Flink/Spark Structured Streaming/Beam).
Depolama ve çevrimiçi hizmetlere Fan-out (fichestore, anti-dolandırıcılık).

3. Toplu katmanı

Orkestrasyon (Airflow/Dagster), artımlı indirmeler, backtestler ve retroprocesses, SCD türleri.

4. Depolama (Lakehouse)

Bronz: ham olaylar (yalnızca ekle, değişmez).
Gümüş: temizlenmiş, kaliteli ve veri tekilleştirme ile uyumlu tablolar.
Altın: belirli durumlar için vitrinler/mart (BI/regülatör/ML).
ACID (Delta/Iceberg/Hudi), sıcak/sıcak/soğuk katmanlama ile tablo formatları.

5. Servis ve erişim

BI/SQL (Trino/Presto/DuckDB), anlamsal katman (metrik katmanı), API/GraphQL, çevrimiçi/çevrimdışı tutarlılık için Feature Store.

6. Yönetim ve güvenlik

Dizin/satır, DQ kuralları, politik erişim motoru (RBAC/ABAC), maskeleme/Tokenization, raporlar için WORM arşivi.

4) Sözleşmeler ve planlar

Veri sözleşmeleri: OpenAPI/AsyncAPI/JSON Schema/Avro.
Evrim: anlamsal versiyonlar; Geriye dönük uyumlu değişiklikler - geçersiz alanlar ekleme; Sadece'/v2'ile kırma ve geçiş dönemi için çift giriş.
Kayıtlar: Şema Kayıt Defteri, etki alanı dizini (Ödemeler, Oyun, Pazarlama).

5) Entegrasyon kalıpları

CDC (Change Data Capture): OLTP'den bus'a (Debezium), domain anahtar bölümleme.
Giden Kutusu/Gelen Kutusu: alan mantığı olaylarının garantili teslimatı.
Tam Olarak Bir Kez/Etkili Bir Kez: durum, idempotent lavabo, veri tekilleştirme anahtarlarındaki işlemler.
Geç Veri ve Filigranlar: geç olayları işleme; İzin verilen gecikmeli pencereler.
Yeniden işleme: idempotent boru hatları, zaman yolculuğu, anlık görüntü düzeltmeleri.

6) Lakehouse modeli: bronz/gümüş/altın

Bronz (ham):
  • Zaman (event_date) ve pazar (yargı) tarafları.
  • Sadece ekleme; Adli tıp için orijinal yükün depolanması.
Gümüş (temiz):
  • Normalleştirilmiş türler, referans kitaplar, '(event_id, event_time)'ile veri tekilleştirme.
  • FK doğrulaması, para birimi standardizasyonu/zaman dilimi, zenginleştirme.
Altın (servis):
  • Denormalize vitrinler (GGR, RG puanlama, LTV, kohort tabloları).
  • Güncelleme için SLA, BI için toplama ve raporlama.

7) Veri kalitesi

Kurallar: devre doğrulama, aralıklar, benzersizlik, bütünlük, referans bütünlüğü.
Profilleme: dağılım, kardinalite, işaretlerin "sürüklenmesi".
İzleme: p50/p95 boru hattı gecikmesi, drop-rate, hata bütçesi.
Bozulma politikası: otomatik geri dönüş (son anlık görüntü), uyarılar ve metrikler için t-testleri.

DQ sözleşmesi örneği (YAML):
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8) Gizlilik ve uyumluluk

PII küçültme ve maskeleme: mağaza sözde kimliği, ayrı arama eşlemeleri.
Bölgeselleştirme: jeo-yerel kovalar/kataloglar (EEA/UK/BR), "veri ikametgahı".
Yasal işlemler: DSAR/RTBF (hesaplanabilir projeksiyonlar ve seçici düzenlemeler), Yasal Bekletme, değiştirilemez rapor arşivleri.
Erişim günlüğü: "hassas" tabloların, kırılma camlarının ve JIT erişiminin denetim okumaları.

9) Gözlemlenebilirlik ve yönetim

Linege-Otomatik olarak bağımlılıkları kaynaktan vitrine kadar izler.
Boru hattı metrikleri: iş hacmi, gecikme, arıza oranı, maliyet/GB, maliyet/sorgu.
Trace (OTel): Uygulamalardan gelen 'trace _ id' olaylara atılır - uçtan uca bir istek yolu oluştururuz.
Uyarılar: SLO bütçeleri, tazelik/hacim/kardinalite anomalileri.

10) Erişim ve güvenlik modeli

Veri kategorileri: public/internal/confidential/restricted.
Politikalar: satır/sütun düzeyinde güvenlik; Dinamik maskeleme (PAN/IBAN/e-posta).
Anahtar yönetimi: KMS/CMK, at-rest/in-transit şifreleme, rotasyon.
Görevlerin ayrımı: prod/analist/yönetici/gözden geçirenin ayrı rolleri.

11) Veri Ağı ve Ürün Yaklaşımı

Домены: Ödemeler, Oyun, Pazarlama, Risk, Uyum.
Veri Ürünü: sahibi, tazelik SLA, alan sözlüğü, testler, sürümler, tüketim metriği.
Etki alanları arasındaki sözleşmeler: sürüm, geriye dönük uyumlu, tüketici odaklı testler.

12) Fichestor ve ML akışları

Özellik kayıt defteri: özellik açıklaması, kaynaklar, dönüşümler, SLO.
Çevrimiçi/çevrimdışı tutarlılık: bir dönüşüm kodu, çevrimiçi materyalizasyon gecikmesi ≤ 200-500 ms.
Drift izleme: PSI/KS, otomatik uyarılar ve model geri dönüşleri, PII kontrolü.
Deney günlüğü: meta veriler, sürümler, tekrarlanabilirlik, model haritaları.

13) Finmodel ve maliyet optimizasyonu

Sık yüklemlerle bölümleme ve Z-order/Cluster.
Kullanılmayan masalar için soğuk hava deposu ve TTL, VAKUM.
Materyalize görünümler yalnızca kararlı sorgu desenleri için.
Ağır işler için kotalar ve bütçeler; Takıma göre ters ibraz.

14) Bölgesel ve çok kiracılı topoloji

Çok bölgeli aktif-aktif: temaların ve tabloların çoğaltılması, bağımsız boru hattı çevreleri.
Yük devretme/DR: RPO/RTO hedefleri, orkestratör meta verileri anlık görüntüleri, kurtarma kontrolü.
Çoklu kiracılık: dizin/anahtar/kota yalıtımı, tenant_id işaretleme.

15) Süreçler ve RACI (kısaca)

R: Veri Platformu (alım, depolama, orkestrasyon), Veri Mühendisliği (dönüşüm).
A: Veri Başkanı/Baş Veri Sorumlusu.
C: Uyumluluk/Yasal/DPO, Mimari, SRE.
I: BI/Analytics, Ürün, Pazarlama, Finans.

16) Akışlar için SLO/SLI

Tazelik: p95 gecikme Gümüş ≤ 15 dk, Altın (günlük) hazır ≤ 06:00 kilit. Zaman.
Bütünlük: ≥ 99. T penceresi başına olayların %5'i.
Geçerlilik: DQ kontrollerinin hata oranı <0. Hacmin %5'i.
Servis mevcudiyeti: ≥ 99. BI/Feature API için %9.

17) Tablo ve bölümleme şablonları

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18) Orkestrasyon ve DevX

Infra-as-Code: boru hattı depoları, testler, incelemeler, GitOps.
Veri Sözleşmeleri CI: devre bağlantıları, dağıtımdan önce DQ testleri.
Geri doldurma çerçevesi: R/W ve idempotency kısıtlamaları ile güvenli retro süreçleri.
Kataloglar ve şablonlar: çerez kesici jeneratörler, en iyi uygulamalar.

19) Uygulama Yol Haritası

MVP (4-6 hafta):

1. Olay veriyolu + 2-3 anahtar kaynağın alımı (OLTP CDC, API ağ geçidi).

2. Lakehouse Bronz/Gümüş, ACID formatı, katalog ve temel DQ kuralları.

3. 1-2 Altın kasalar (günlük GGR ve dönüşüm hunisi).

4. Gecikme/tamlık metrikleri, temel soy, RBAC ve PII maskeleme.

Faz 2 (6-12 hafta):
  • Akış birimleri (p95 gecikme süresi ≤ 5 dakika), Özellik Mağazası, RG/AML vitrinleri.
  • Metriklerin semantik katmanı, raporlama için SLA; maliyet panoları.
  • Bölgeselleştirme (AÇA/İngiltere), DSAR/RTBF prosedürleri, Eserler için Yasal Bekletme.
Faz 3 (12 + hafta):
  • Data Mesh: ürün etki alanları, tüketici odaklı sözleşmeler.
  • Sürüklenme izleme, çevrimiçi/çevrimdışı otomatik anlaşma ile ML işlemleri.
  • Şema değişikliklerinin otomatik simülasyonu (etki analizi) ve maliyete göre'ne-eğer ".

20) Sık yapılan hatalar ve bunlardan nasıl kaçınılacağı

Şemalar olmadan ham yükler: şema-first, register ve CI doğrulaması uygulayın.
Veri tekilleştirme yok - Silver'da olay anahtarları ve idempotent synks.
PII'yi analitikle karıştırın - Haritalamaları ve maske alanlarını ayırın.
Sahibi olmayan altın: sahibi, SLO ve tüketim metriklerini atar.
Yeniden işleme stratejisi yoktur: zaman yolculuğu, mantık sürümü, "çift sayma" kontrolü.
Yönetilemeyen değer: gruplar, sıkıştırma, TTL, değerin gözlemlenebilirliği.

21) Sözlük (kısa)

CDC - OLTP'den değişiklikleri yakalayın.
Giden kutusu - etki alanı olaylarını işlemsel olarak yayınlıyoruz.
Filigran - pencereler için akış bütünlüğünün değerlendirilmesi.
Lakehouse - veri gölü + ACID tabloları.
Veri Ürünü - sahibi ve SLO ile veri ürün birimi.
Feature Store - ML özelliklerinin tutarlı dağılımı.

22) Alt satır

Veri akışı mimarisi yönetilebilir bir düzenleme sistemidir: açık sözleşmeler, gözlemlenebilirlik, güvenlik ve kontrol altındaki maliyet. Açıklanan kalıpları (şema-ilk, bronz/gümüş/altın, CDC + Outbox, DQ ve soy, gizlilik-tasarım) takiben, platform, öngörülebilir SLO'lar ve anlaşılabilir sahip olma maliyeti ile kaliteli verilerle güvenilir bir şekilde iş, uyumluluk ve ML sağlar.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.