GH GambleHub

Data Lake ve merkezi depolama

(Bölüm: Teknoloji ve Altyapı)

Kısa Özet

Data Lake, hammaddelerin ve konsolide veri kümelerinin merkezi depolanmasının temel katmanıdır. IGaming için, bahis/ödeme/oyun günlüğü olaylarını, bağlı kuruluş yüklemelerini, OLTP'den CDC'yi kabul eder ve bunları analitik, sahtekarlık karşıtı, CRM ve BI'ye verir. Modern uygulama - Lakehouse: açık sütun formatları + ACID tablo katmanı + tek dizin + işlemler/veri sürümleri. Başarının anahtarı, şemalar ve bölümleme, maliyet yönetimi, PII güvenliği ve sıkı bir çalışma kültürü (DQ, soy, DR) disiplinidir.

Data Lake'in iGaming Platformundaki Rolü

Analitik için tek bir hakikat noktası: Kaynak ve biçimden bağımsız olarak ham ve saflaştırılmış verilerin depolanması.
Esneklik: Toplu iş ve akış desteği (CDC/konektörler, olay akışları).
Evrim: ham Bronzdan konformal Gümüş ve Altın iş vakalarına.
Sorumluluk bölümü: üretim hizmetleri lastiğe/evrelemeye, analitiğe/ML'nin Lake katmanlarından tükettiği şeylere yazar.

Mimari modeller: Lake vs Lakehouse

Veri Gölü (S3/ADLS/GCS + Parke/ORC): şema-on-okuma, ucuz depolama, esnek formatlar.
Lakehouse (Delta/Iceberg/Hudi over Parquet): ACID işlemleri, upsert/birleştirme, zaman yolculuğu, kompakt dosyalar, vakum, indeksleme/kümeleme.
Uygulama: Lakehouse, ana katman olarak iGaming ve vitrinler ve özel motorlar olarak harici OLAP'ler (ClickHouse/BigQuery/Snowflake/Pinot) için faydalıdır.

Madalyon katmanı modeli

Bronz (Ham/Evreleme): Kaynaklardan ham dosyalar (CDC, günlük dökümleri, bağlı CSV, webhooks). Minimal doğrulama, "olduğu gibi".
Gümüş (Uyumlu): temizleme/dedup, para birimlerinin/zaman dilimlerinin normalleştirilmesi, yazma, SCD ölçümleri, tutarlı tuşlar.
Altın (Mart/Hizmet): GGR/NGR/LTV/Retention için agregalar, BI/CRM/anti-fraud için materyalize vitrinler.
TTL: Bronzda Agresif, Gümüşte Orta, Altın birimlerde Uzun Vadeli.

Biçimler ve tablo katmanları

Sütun: Parke (fiili standart), ORC.

Açık masa formatları (ACID):
  • Delta Lake - işlemler, 'MERGE', zaman yolculuğu, optimizasyon/vakum, Z-sırası.
  • Apache Iceberg - tezahür/anlık görüntüler, gizli bölümleme, 'MERGE/DELETE/UPDATE', zaman yolculuğu içeren tablolar.
  • Apache Hudi - copy-on-write/merge-on-read, upsert-optimization, artımlı ekstraksiyonlar.
  • Seçiminizi ekosisteme ve planların evriminin yükseltilmesi/akışı/esnekliği için gereksinimlere göre yapın.

Katalog ve metastor

Tek bir dizin (Hive Metastore/Unity/Glue/platform dizinleri) şemaları, tarafları, sürümleri, hakları saklar.
Gereksinimler: Bir tablo katmanı ile işlem tutarlılığı, birden fazla motor desteği (Spark, Trino/Presto, Flink, dbt), denetim/soy.

Şemalar ve evrim

Şema sözleşmesi: zorunlu alanları, türleri, semantikleri düzeltin; Sürüm kaynakları ('schema _ version').
Evrim: isteğe bağlı alanlar ekleme, göçler olmadan değişiklikleri kırmayı yasaklama; Boru hatlarında otomatik kontrol şemaları.
PII segmentasyonu: hassas alanlar - şifreleme ve ayrı haklara sahip ayrı sütunlar/tablolar halinde.

Veri bölümleme ve yerleştirme

Tarih/saat - etkinlikler için temel anahtar; İsteğe bağlı alanlar: 'ülke', 'ürün', 'kiracı _ id'.
Kovan tarzı путь: 's3 ://lake/bronze/payments/source = pspA/dt = 2025-11-05/hour = 13/part-0001. parke '.
Kümeleme/sıralama: Z-order/Sık filtrelenen alanlara (player_id, ülke) göre sıralama tuşları.
Dosya boyutu: 128-1024 MB için amaç; "küçük dosyalardan" kaçının (aşağıya bakın).
Gizli bölümleme için sanal sütunlar (Iceberg/Delta).

Küçük dosyalar ve sıkıştırma sorunu

Kaynaklar küçük parçalar akıyor - taramaların ve meta verilerin bozulması.
Çözüm: periyodik optimize/sıkıştırma (coalesce), sıkıştırma görev zamanlayıcısı, yutma üzerine toplu mikro paket, 'otomatik Optimize' (varsa).
Merge-on-read vs copy-on-write ilkesi, yazma gecikmesi ile okuma hızı arasındaki dengedir.

Enjest: toplu, akış, CDC

OLTP'den CDC (Debezium/konnektörler) - Bronz (dakika tazeliği).
Akış (Kafka/Flink/Spark Structured Streaming) - Gümüş/Altın aşamalı olarak (upsert/merge).
Toplu (ortak raporları/CSV/JSON) - manifestolar ile "alıcılar" aracılığıyla, sağlama toplamı ile kopyaların kontrolü.
Idempotency: anahtarlar (idempotency_key), dedup by (key, ts), daha sonra gelen kayıtlar için "filigranlar".

Veri kalitesi (DQ) ve soy

DQ kontrolleri: bütünlük, anahtarların benzersizliği, aralıklar, referans bütünlüğü (ülke/para birimi listeleri), iş kuralları (GGR ≥ 0).
Liniage: Rapordan kaynağa bağımlılıkların grafiği, model kodunun sürümü ve tablonun anlık görüntüsü.
Şema kontrolü: "kırma" değişikliklerini engelleyen otomatik geri/ileri-compat testleri.
Denetim indirmeleri: kim/ne zaman/kaç tane, reddedilen gruplar, geri alımlar.

Hizmet ve Erişim

SQL motorları: Ad-hoc ve dönüşümler için Spark/Trino/Presto; ELT modelleri için dbt.
Gerçek zamanlı/neredeyse gerçek zamanlı: Vitrin olarak Pinot/Druid/ClickHouse; Lakehouse artımlı lavabo yoluyla bir kaynaktır.
Veri Paylaşımı: Tabloları/anlık görüntüleri kopyalar olmadan harici komutlarla paylaşma (format tarafından destekleniyorsa).

Güvenlik, PII ve çoklu kiracılık

Şifreleme: At-rest (KMS) ve in-transit (TLS).
IAM/RBAC/ABAC: dizin/tablo/sütun/satır düzeyindeki roller (maskeleme, dinamik politikalar).
Bölgelere göre segmentasyon (AB/Türkiye/LatAm lokalizasyonu): kovaların ve bilgi işlem havuzlarının izolasyonu.
Çok kiracılık: ad alanı/dizinler ve yol önekleri, 'tenant _ id' filtreleri, isteğe bağlı - satır düzeyi ilkeleri.
Erişim denetimi: meta veriler okuma/değiştirme günlükleri, alıkoyma ve değiştirilemeyen günlükler.

Maliyet yönetimi

Depolama sınıfları: Standart bir sınıfta sıcak (genellikle okunabilir), arşiv - TTL politikaları ile soğuk/Buzul sınıflarında.
Bölümleme/kümeler taramaları azaltır - $ $'dan az.
Pahalı raporlar için materyalize vitrinler; BI sonuç önbelleği.
Sıkıştırma ve "doğru dosya boyutu" - daha az meta veri ve I/O.
Kotalar ve bütçeleme: hesaplama kümeleri/işleri üzerindeki sınırlar, veri kümesi/ekip üzerindeki maliyet raporları.
Çöp kaldırma: Tablo formatlarında 'VAKUM/REWRITE', TTL Bronz.

DR ve tekrarlanabilirlik

Zaman yolculuğu tablo sürümleri ve katalog anlık görüntüleri.
Kova ve meta verilerin bölgeler arası çoğaltılması.
PITR: Tablo işlem günlüklerinin (Delta/Iceberg/Hudi) ve boru hattı günlüklerinin depolanması.
Oyun günü: Düzenli kurtarma egzersizleri ve geçiş bölgeleri.

Gözlemlenebilirlik ve SLO

SLO tazeliği: Bronz ≤ 5 dk., Gümüş ≤ 15-30 dk., Altın ≤ 60 dk. (Örnek).
Metrikler: birim/dosya sayısı, ortalama parke dosya boyutu, tarama süresi, kaçırılan partilerin paylaşımı, sıkıştırma sıklığı, maliyet/tarih, DQ hataları, geç veriler.
Uyarılar: küçük dosyalar dalgalanma, maliyet artışı, p95/p99 bozulması, DQ/şema ihlali, akış-mavi gecikme.

Adlandırma Kuralları ve Yolları (şablon)


s3://<lake>/<layer>/<domain>/<dataset>/
source=<sys>/      # для Bronze dt=YYYY-MM-DD/
hour=HH/
country=XX/

Veri kümesi adları: 'bets _ raw', 'payments _ cdc', 'players _ silver', 'mart _ gr _ daily'.
Meta veri sütunları: 'ingest _ ts', 'source', 'schema _ version', 'trace _ id', 'tenant _ id'.

Örnekler (genelleştirilmiş)

1) Buzdağı: Tarihe göre gizli parti ile gümüş masa

sql
CREATE TABLE silver. bets (
bet_id    BIGINT,
player_id   BIGINT,
country    STRING,
stake     DECIMAL(18,2),
win      DECIMAL(18,2),
event_ts   TIMESTAMP,
ingest_ts   TIMESTAMP,
schema_version INT
)
PARTITIONED BY (days(event_ts))
TBLPROPERTIES ('format-version'='2');

2) Delta: CDC'den artan artış

sql
MERGE INTO silver. players t
USING bronze. players_cdc s
ON t. player_id = s. player_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;

3) Bronz için TTL politikası (fikir)


bronze/: keep 30 days silver/: keep 365 days (non-PII), 90 days (PII masked)
gold/marts/: keep 2–3 years (aggregated)

Uygulama kontrol listesi

1. Tablo formatını (Delta/Iceberg/Hudi) ve dizini seçin; Motorlarla hizalanır (Spark/Trino/Flink/dbt).
2. Madalyon katmanlarını, TTL kurallarını ve takım sorumluluğunu tanımlayın.
3. Şema sözleşmelerini, evrim kontrolünü, PII segmentasyonunu ve şifrelemeyi yakalayın.
4. Tasarım yerleşimi: parçalar, sıralama anahtarları, hedef dosya boyutu; sıkıştırmayı etkinleştir.
5. Insgest'i (CDC/stream/batch) idempotency ve veri tekilleştirme ile yapılandırın.
6. DQ/lineage, meta veri kataloğu ve denetimi etkinleştirin.
7. Tazelik/maliyet SLO'ları, metrik ve uyarı panolarını tanımlayın.
8. DR: Anlık görüntüler/replikasyon/kurtarma + düzenli egzersizler düzenleyin.
9. Adlandırma ve yolları, meta sütunları ('ingest _ ts', 'source', 'schema _ version') standartlaştırın.
10. Gold vitrinlerini ve gerçek zamanlı hizmeti doğru OLAP/RT motorlarına getirin.

Anti-desenler

Katmansız ve TTL olmayan ortak bir "çanta" - kaos ve maliyet patlaması.
Ülke/ürün hariç sadece zaman bölümleme - ağır taramalar.
Sıkıştırma olmadan binlerce küçük dosya/saat oluşturan iş parçacıkları.
Şemaların ve DQ'nun kontrolünün olmaması - değişikliklerin "kırılması've raporlara güvensizlik.
PII ile Gold vitrinleri maskeleme/hak ayrımı olmadan karıştırmak.
Dizin ve tablo ilkeleri yerine kova düzeyinde erişim hakları hardcode.

Özet

Modern Data Lake for iGaming, açık masa formatı, tek katalog ve madalyon modeli olan bir Lakehouse'dur. Şemaların/partilerin disiplini, küçük dosyalara karşı sıkıştırma, DQ/soy, PII güvenliği ve maliyet hijyeni, göl katmanını sürdürülebilir bir temele dönüştürür: saklanması ucuz, okunması hızlı, SLO'da öngörülebilir ve DR. için hazır Böyle bir temel, turnuva zirvelerine ölçeklenir ve hem toplu analizleri hem de gerçek zamanlı vitrinleri destekler.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.