Veri ambarları
1) DWH'nin iGaming'deki amacı ve rolü
DWH, raporlama, analiz, uyumluluk ve ML için merkezi veri konsolidasyonu ve hizmet katmanıdır. Şunları sağlar:- Yaygın metrik tanımlar (GGR/NGR, ARPPU, Retention, Churn).
- Düzenleyiciler ve iç paydaşlar için tekrarlanabilir raporlar.
- BI/işletim panelleri için hızlı vitrinler ve modeller için kaynaklar.
- Platform düzeyinde kalite kontrolü, soy ve güvenlik.
2) Mimari seçenekler
2. 1 Klasik DWH
ETL - DWH - BI.
Artıları: Yönetilebilir modeller, güçlü tutarlılık.
Eksileri: pahalı indirmeler, karmaşık dolgu, sınırlı esneklik.
2. 2 Lakehouse DWH
ACID tablolarında Bronz/Gümüş/Altın (Delta/Iceberg/Hudi) + SQL/MPP motoru.
Artıları: birleşik depolama, zaman yolculuğu, basit yeniden işleme.
Eksileri: katmanlar ve DQ, olgun orkestrasyon disiplin gerektirir.
2. 3 Hibrit
Bir "hakikat kaynağı'olarak Lakehouse (Bronz/Gümüş), yüksek hızlı okuma için MPP'de DWH-March (ClickHouse/Pinot/Druid/Cloud DWH).
Artıları: maliyet ve performans dengesi, esnek vitrinler.
Eksileri: Devreler ve paten için ikili destek, senkronizasyon gereklidir.
Öneri: iGaming için - Lakehouse + DWH-March (hibrit). Bronz/Gümüş - standardize, Altın/Gerçek zamanlı mart - okuma yükleri hizmet.
3) Veri modelleme
3. 1 Yıldız ve Kar Tanesi
Gerçek tabloları: dar, olay odaklı: 'fact _ bets', 'fact _ payouts', 'fact _ payments'.
Boyutlar:'dim _ users '(SCD),' dim _ games ',' dim _ providers ',' dim _ markets '.
Kar tanesi Gümüş (normalleştirme), Yıldız - Altın (okuma) uygundur.
3. 2 Veri Kasası 2. 0 (entegrasyon çekirdeği)
Hub'lar (iş anahtarları), Bağlantılar (ilişkiler), Uydular (bağlam/geçmiş).
Uzun ömürlü sağlayıcı/PSP entegrasyonları için Gümüş'e başvurun.
3. 3 SCD I/II/III
RG/KYC/kanallar ve oyun özellikleri (RTP/volatilite) için SCD II.
Sıkı aralıklar 'valid _ from/valid _ to', zaman içinde doğru birleşim.
4) Yük: ETL/ELT, CDC ve artışlar
ELT yaklaşımı: Silver'da yükleme - DWH'de dönüşüm.
CDC: OLTP'den debezium/log replikasyonu; Merzhi idempotenttir.
Artışlar: zaman suyu ('updated _ at> max_loaded_ts') ve/veya hash delta tarafından.
Dolgu/Yeniden İşleme: zaman yolculuğu, aralıklar, kotalar, kuru çalışma karşılaştırmaları.
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) Semantik katman ve metrikler
Metrikler Mağaza/Semantik Katman: tek tip formüller GGR/NGR/Dönüşüm/LTV.
Yeniden üretilebilirlik için sürüm metrikleri ve'as-of "hesaplaması.
Sözleşmeler metrik isimler, birimler, para birimi (temel EUR) ve 'fx _ source'dur.
6) Vitrinler ve Hizmet
Altın vitrinler: denormalize, SLA hazır (örneğin, 06:00 kilidine kadar.) .
Operasyonel Mart: 1-5 dakikalık paneller için ClickHouse/Pinot/Druid.
Dışa aktarma: CSV/JSON/PDF + karma; Düzenleyiciler için değişmez paketler (WORM).
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) Veri kalitesi (DQ) ve sözleşmeler
Şema-ilk: JSON/Avro kayıt defteri + uyumluluk testleri (tüketici odaklı).
DQ- как - код: tamlık/geçerlilik/teklik/FK/aralık/zamansal.
Reaksiyon politikaları: kritik + başarısız + DLQ; major/minor - etiket ve rapor.
DQ gözlemlenebilirlik: Tazelik/Bütünlük/Geçerlilik panoları, kayıp kayıt hunisi.
8) Güvenlik, gizlilik ve ikamet
PII minimizasyonu: pseudo-ID ile kullanıcılar; Ayrı ayrı eşleştirir.
RLS/CLS: Rol ve yargı yetkisine göre satır satır/tablo sonrası erişim.
Şifreleme: TLS transit; At-rest - rotasyonlu KMS/CMK.
Veri İkameti: EEA/UK/BR için ayrı dizinler ve anahtarlar; Bölgeler arası birleşmeleri sebepsiz yasaklamak.
DSAR/RTBF: hesaplanabilir projeksiyonlar ve seçici düzenlemeler; Eserleri bildirme konusunda Yasal Bekletme.
9) Performans ve Maliyet (Maliyet Mühendisliği)
Bölümleme: tarihe/pazara/kiracıya göre; Clustering/Z-order by 'market', 'provider _ id', 'game _ id', 'user _ pseudo _ id'.
Formatlar: Parke + istatistik ve sıkıştırma; Zamanlamaya göre OPTIMIZE/VAKUM.
Materyalizasyon: kararlı toplamlar ve özet tablolar; Anında "yağ" birleşmelerinden kaçının.
Kotalar/Ters ibraz: ağır istekler/tekrarlar için bütçeler; Maliyet/sorgu, maliyet/GB raporları.
Katmanlı depolama: sıcak/sıcak/soğuk; Net kurtarma SLA'ları.
10) Gözlemlenebilirlik ve yönetim
Boru hattı metrikleri: süre, hacimler, retrays, gecikmeler, hata toleransı.
DWH metrikleri: yanıt süresi/rekabet gücü/önbellek isabetleri/değeri.
Lineage: kaynaklardan raporlara grafik; değişiklikler üzerinde etki analizi.
SLO: Tazelik Gümüş p95 ≤ 15 мин; Günlük altın - 06:00'a kadar hazır; Geçerlilik ≥ 99. 9%; Bütünlük ≥ 99. 5%; kullanılabilirlik ≥ 99. 9%.
11) Çok kiracılık ve alan yalıtımı
Şemaya/veritabanına/kataloğa göre kiracıya/pazara bölünme.
Kotalar ve kaynak grupları; "Gürültülü komşuları sınırlamak".
Kiracılar arasındaki ihracat/ithalat politikaları, standartlaştırılmış sözleşmeler.
12) Veri kaydı ve belgeleri
Veri Kataloğu: sahibi, SLA, şema, örnekler, DQ kuralları, soy.
Metrikler/gösterge panoları: formülleri olan ve sorumlu olan kartlar.
Günlüğü Değiştir: mantık, göçler, etki sürümleri.
13) Süreçler ve RACI
R (Responsible): Veri Mühendisliği (modeller Silver/Gold, DAG'i), Veri Platformu (infra, registry, DQ).
A (Sorumlu): Veri/CDO Başkanı.
C (Consulted): Uyumluluk/Yasal/DPO, Finans (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (Bilgilendirilmiş): BI, Ürün, Pazarlama, Operasyonlar.
14) Uygulama Yol Haritası
MVP (4-6 hafta):1. Lakehouse Bronz/Gümüş (ACID tabloları), Ödemeler/Oyun için CDC/artışlar.
2. İlk Altın vitrinler (GGR Daily, dönüşüm), 06:00'a kadar SLA'lar.
3. DQ benzeri kod (10-15 kural) + Tazelik/Eksiksizlik panoları.
4. Veri kataloğu ve metriklerin temel semantik katmanı.
Faz 2 (6-12 hafta):- SCD II для kullanıcıları/oyunları/sağlayıcıları; Alan genişlemesi.
- Gerçek zamanlı/neredeyse gerçek zamanlı paneller için Çevrimiçi Mart (ClickHouse/Pinot).
- Soy/etki analizi, DSAR/RTBF prosedürleri, bölgeselleştirme (EEA/İngiltere).
- Değişikliklerin otomatik simülasyonu (kuru çalıştırma), tekrar oynatma ve metriklerin karşılaştırılması.
- Ters ibraz/kotalar, maliyet panoları; DR egzersizleri ve zaman yolculuğu kurtarma.
- Vitrin dokümantasyon ve metrik kartlarının otomatik üretimi.
15) SQL şablonlarına örnekler
Gerçek fiyatlar (Gümüş, 3NF):sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
SCD II'ye bağlantı (bahis sırasında RG durumunu alın):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
Piyasa tarafından bütünlük kontrolü:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) Satış öncesi kontrol listesi
- Kayıt defterindeki şemalar ve sözleşmeler, uyumluluk testleri yeşildir.
- CDC/artışları ve MERGE prosedürleri idempotenttir.
- Altın vitrinler SLA'lara sahiptir, metrik formüller sabittir.
- DQ kuralları aktiftir (kritik + başarısız + DLQ), Tazelik/Tamlık panoları.
- RBAC/ABAC, şifreleme, bölgeye göre ikamet, erişim günlükleri.
- Soy/etki etkin; Zaman yolculuğu/yedekleme/DR kontrol edildi.
- Kontrol altındaki maliyet: partiler, kümeleme, materyalizasyon, kotalar.
17) Anti-kalıplar ve riskler
"Katmansız bir yağ DWH": ham ve rapor edilen verilerin bir karışımı - kaos ve pahalı düzeltmeler.
Günlük gereksiz yere tam yeniden yükleme: artışları/CDC kullanın.
Sahibi ve formülleri olmayan altın: Gerçeğin tek bir versiyonunun eksikliği - anlaşmazlıklar ve regresyonlar.
Analitik katmanlarda PII: eşlemeleri ayrı tutun, CLS/RLS.
DQ/soy yok: Düzenleyiciler/denetim için kanıt yok.
Yönetilemez maliyet: partiler/optimizasyonlar/kotalar yok.
18) Sözlük (kısa)
DWH, konsolidasyon ve analitik için bir veri deposudur.
Lakehouse - veri gölü + ACID tabloları ve SQL motoru.
CDC - OLTP'den değişiklikleri yakalayın.
SCD - yavaşça değişen ölçümler (I/II/III).
Altın vitrin - tüketime hazır rapor sayfası/sunum.
Semantik Katman - metriklerin ve niteliklerin tekdüze tanımları.
19) Alt satır
IGaming için modern DWH "büyük bir masa'değil, yönetilebilir bir platformdur: Bronz/Gümüş/Altın katmanlar, katı sözleşmeler ve DQ, tek tip metrikler ve soy, gizlilik ve ikamet, performans ve verimlilik. Bir Lakehouse + DWH-March hibriti inşa ederek, denetim, ölçek ve yeni pazarlar için hızlı ve doğrulanabilir karar vermeye hazır olacaksınız.