Stream vs Batch analizi
1) Kısa özet
Akış - olayların saniyeler içinde sürekli işlenmesi: Dolandırıcılıkla mücadele/AML, RG tetikleyicileri, SLA uyarıları, operasyonel paneller.
Toplu - tam tekrarlanabilirlik ile periyodik yeniden hesaplama: düzenleyici raporlama (GGR/NGR), finansal belgeler, ML veri kümeleri.
Yer işaretleri: Akış p95 e2e 0. 5-5 s, D + 1 - 06:00 arası (kilit.) .
2) Seçim matrahı (TL; DR)
80/20 kuralı: Reaksiyon gerektirmeyen her şey <5 dakika - Toplu halde; Gerisi Stream'de, Batch gece doğrulaması ile.
3) Mimariler
3. 1 Lambda
Konsolidasyon için çevrimiçi + Batch için akış. Artı: esneklik. Eksi: iki mantık.
3. 2 Kappa
Her şey akarsu gibidir; Batch = "replay" log aracılığıyla. Artı: tek bir kod. Eksi: tekrarların karmaşıklığı/maliyet.
3. 3 Lakehouse-Hybrid (önerilir)
Stream online OLAP Mart (dakika) ve Bronz/Gümüş; Batch, Gold'u (D + 1) yeniden birleştirir ve raporlar yayınlar.
4) Veri ve zaman
Akış
Pencereler: yuvarlanma/atlama/oturum.
Filigranlar: 2-5 dk; Geç veriler işaretlenir ve karartılır.
Stateful: CEP, dedup, TTL.
Toplu
Artımlar/CDC: 'updated _ at', log replication.
SCD I/II/III: öznitelik geçmişi.
Anlık görüntüler: "as-of" için gün/ay katmanları.
5) iGaming'deki uygulama kalıpları
AML/Antifraud: Akış (hız/yapılanma) + Toplu mutabakatlar ve durumlar.
Sorumlu Oyun: Sınırların/kendi kendini dışlamaların akış kontrolü; Toplu raporlama kayıtları.
İşlemler/SRE: Akış uyarıları SLA; Olayların ve eğilimlerin toplu analizi.
Ürün/Pazarlama: Akış Kişiselleştirme/Görevler; Toplu kohortlar/LTV.
Finans/raporlar: Toplu (Gold D + 1, WORM paketleri), Akış - operasyonel paneller.
6) DQ, tekrarlanabilirlik, tekrar oynatma
Akış DQ: şemaların doğrulanması, dedup '(event_id, kaynak)', pencerenin bütünlüğü, geç oran, dup oranı; Kritik DLQ.
Toplu DQ: benzersizlik/FK/aralık/zamansal, OLTP/sağlayıcıları ile mutabakatlar; Kritik - başarısız iş + rapor.
- Akış: aralığa göre çoğaltma konuları + deterministik dönüşüm.
- Toplu: Zaman yolculuğu/mantık sürümleri ('logic _ version') + Altın anlık görüntüler.
7) Gizlilik ve ikamet
Akış: takma ad, çevrimiçi maskeleme, bölgesel boru hatları (EEA/UK/BR), harici PII aramalarına zaman aşımı.
Toplu: PII haritalama izolasyonu, RLS/CLS, DSAR/RTBF, Yasal Bekletme, WORM arşivleri.
8) Maliyet mühendisliği
Akış: "sıcak" tuşlardan (tuzlama) kaçının, async aramalarını, TTL durumlarını, ön toplamayı sınırlayın.
Toplu iş: bölümleme/kümeleme, küçük dosya sıkıştırma, kararlı kümelerin maddeleştirilmesi, kotalar/başlatma pencereleri.
9) Örnekler
9. 1 Akış - Flink SQL (10 dakikalık depozito hızı)
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
9. 2 Akış - CEP (AML sözde kodu)
python if count_deposits(10MIN) >= 3 and sum_deposits(10MIN) > THRESH \
and all(d. amount < REPORTING_LIMIT for d in window):
emit_alert("AML_STRUCTURING", user_id, snapshot())
9. 3 Toplu - MERGE (Gümüş artış)
sql
MERGE INTO silver. payments s
USING stage. delta_payments d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
9. 4 Toplu - Altın GGR (D + 1)
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) event_date,
b. market, g. provider_id,
SUM(b. stake_base) stakes_eur,
SUM(p. amount_base) payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
10) Metrikler ve SLO
Akış (yer işaretleri)
P95 ingest - uyarı ≤ 2-5 c bütünlük окна ≥ 99. 5%
şema hataları ≤ 0. 1%
Geç oran ≤ %1
kullanılabilirlik ≥ 99. 9%
Toplu (yer işaretleri)
Altın. Günlük saat 06:00 kilidine kadar hazırdır.
Bütünlük ≥ 99. 5%
Geçerlilik ≥ 99. 9%
MTTR DQ olayı ≤ 24-48 saat
11) Test ve sürümler
Sözleşmeler/planlar: tüketici odaklı testler; Back-compat CI.
Akış: kanarya kuralları, karanlık fırlatma, yeniden oynatma simülatörü.
Toplu: örnekler üzerinde kuru çalışma, metriklerin karşılaştırılması, mutabakat.
12) Anti-desenler
Yinelenen mantık: Formül hizalaması olmadan farklı Akış ve Toplu İş hesaplamaları.
Önbellek/zaman aşımı olmadan Stream etkin yolundaki eşzamanlı harici API'ler.
Artımlar yerine'her ihtimale karşı "tam yeniden yükleme.
Filigran/geç poliçe yok.
Analitik katmanlarda PII; CLS/RLS yok.
Altın, geriye dönük olarak "mutasyona uğradığını" gösterir.
13) Önerilen hibrit (oyun kitabı)
1. Stream-loop: ingest> bus> Flink/Beam (filigranlar, dedup, CEP)
1-5 dakikalık paneller için OLAP (ClickHouse/Pinot) + Bronz/Gümüş (ek).
2. Toplu Döngü: Artımlar/CDC - Gümüş Normalleştirme/SCD - Gold Günlük Görüntüler/Raporlar (WORM).
3. Eşleştirme: metriklerin tek bir semantik katmanı; Gece Stream↔Batch uzlaşma; Tutarsızlıklar> eşikler - biletler.
14) RACI
R (Responsible): Akış Platformu (Stream-info), Veri Mühendisliği (Batch modelleri), Alan Analizi (metrikler/kurallar), MLOps (özellikler/Özellik Deposu).
A (Sorumlu): Veri/CDO Başkanı.
C (Consulted): Uyumluluk/Yasal/DPO, Finans (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (Bilgilendirilmiş): BI/Ürün/Pazarlama/Operasyonlar.
15) Yol haritası
MVP (2-4 hafta):1. Kafka/Redpanda + 2 kritik konu ('ödemeler', 'auth').
2. Flink işi: filigran + dedup + 1 CEP kuralı (AML veya RG).
3. OLAP vitrin 1-5 dakika + gösterge panoları gecikme/geç/dup.
4. Lakehouse Silver (ACID), ilk altın. ggr_daily (D + 1 saat 06:00'ya kadar).
Faz 2 (4-8 hafta):- Etki alanına göre artışlar/CDC, SCD II, anlamsal metrikler katmanı.
- DQ akışı ve gece Stream↔Batch uzlaşma.
- Bölgeselleştirme (AÇA/İngiltere/BR), DSAR/RTBF, Yasal Koruma.
- Tekrar simülatörü, kanarya/A-B kurallar/metrikler bültenleri.
- Maliyet panoları ve kotalar; katmanlı depolama; DR öğretileri.
- Vitrin/metrik dokümantasyonu ve soyunun otomatik olarak oluşturulması.
16) Uygulama kontrol listesi
- Sicildeki Planlar/sözleşmeler; Back-compat testleri yeşil.
- Akış: filigranlar/izin verilen gecikme, дедуп, DLQ; Prod'daki OLAP panelleri.
- Toplu: artışlar/CDC, SCD II, WORM ihracatı ile Altın D + 1.
- Metriklerin tek semantik katmanı; Gece Stream↔Batch uzlaşma.
- Tazelik/Eksiksizlik/Geçerlilik DQ panoları; lag/late/dup uyarısı.
- RBAC/ABAC, şifreleme, ikamet; DSAR/RTBF/Yasal Bekletme.
- Kontrol altındaki maliyet (maliyet/GB, maliyet/sorgu, durum boyutu, tekrarlar kota tahsis edilir).
17) Alt satır
Stream ve Batch rakip değil, aynı sürücünün iki dişlisi. Akış, sabahları "burada ve şimdi" tepkisini, "Toplu - doğrulanabilir gerçeği" verir. Hibrid Lakehouse yaklaşımı, tek bir metrik katmanı ve DQ/soy disiplini, SLA ve maliyet açısından en uygun, hızlı, tekrarlanabilir ve uyumlu analitik konturlar oluşturmanıza olanak tanır.