GH GambleHub

Datenspeicher

1) Zweck und Rolle von DWH in iGaming

Die DWH ist die zentrale Schicht der Datenkonsolidierung und -serving für Reporting, Analytics, Compliance und ML. Es bietet:
  • Einheitliche Definitionen der Metriken (GGR/NGR, ARPPU, Retention, Churn).
  • Reproduzierbare Berichte für Regulierungsbehörden und interne Stakeholder.
  • Schnelle Vitrinen für BI/Bedienpanels und Quellen für Modelle.
  • Qualitätskontrolle, Lineage und Sicherheit auf Plattformebene.

2) Architektonische Optionen

2. 1 Classic DWH

ETL → DWH (Stern/Schneeflocke) → BI.
Vorteile: überschaubare Modelle, starke Konsistenz.
Nachteile: teure Downloads, aufwendiger Backfill, eingeschränkte Flexibilität.

2. 2 Lakehouse DWH

Bronze/Silber/Gold auf ACID-Tabellen (Delta/Iceberg/Hudi) + SQL/MPP-Engine.
Vorteile: Single-Storedge, Zeitreisen, einfaches Reprocessing.
Nachteile: erfordert Layer-Disziplin und DQ, ausgereifte Orchestrierung.

2. 3 Hybrid

Lakehouse als „Quelle der Wahrheit“ (Bronze/Silber), DWH-März in MPP (ClickHouse/Pinot/Druid/Cloud DWH) für High-Speed-Lesen.
Vorteile: Balance von Kosten und Leistung, flexible Schaufenster.
Nachteile: doppelte Unterstützung für Schaltungen und Rollen, Synchronisierung erforderlich.

Empfehlung: für iGaming - Lakehouse + DWH-März (Hybrid). Bronze/Silber - standardisiert, Gold/Echtzeit-Marts - dienen der Leselast.

3) Datenmodellierung

3. 1 Stern und Schneeflocke

Faktentabellen: eng, ereignisbezogen: 'fact _ bets',' fact _ payouts', 'fact _ payments'.
Maße: 'dim _ users' (SCD), 'dim _ games', 'dim _ providers', 'dim _ markets'.
Eine Schneeflocke ist in Silber (Normalisierung) angemessen, ein Stern in Gold (Lesen).

3. 2 Data Vault 2. 0 (Integrationskern)

Hubs (Geschäftsschlüssel), Links (Beziehungen), Satellites (Kontext/Geschichte).
In Silver für langlebige Provider/PSP-Integrationen anwenden.

3. 3 SCD I/II/III

SCD II für RG/KYC/Kanäle und Spielattribute (RTP/Volatilität).
Strikte Intervalle' valid _ from/valid _ to', korrekte Join-Zeiten.

4) Download: ETL/ELT, CDC und Inkremente

ELT-Ansatz: Upload in Silver → Transformation in DWH.
CDC: Debezium/Logreplikation aus OLTP; Merges sind idempotent.
Inkremente: durch das Wasser der Zeit ('updated _ at> max_loaded_ts') und/oder Hash-Delta.
Backfill/Reprocessing: Zeitreisen, Reichweiten, Quoten, Dry-Run-Vergleiche.

MERGE (Beispiel):
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;

5) Semantische Schicht und Metriken

Metrics Store/Semantic Layer: einheitliche Formeln GGR/NGR/Conversion/LTV.
Versionierung von Metriken und „as-of“ -Berechnungen für die Reproduzierbarkeit.
Konventionen: Namen der Metriken, Einheiten, Währung (Basis EUR) und 'fx _ source'.

6) Schaufenster und Serving

Gold-Vitrinen: denormalisiert, SLA-Bereitschaft (z.B. bis 06:00 Uhr Lok.) .
Einsatzmärze: ClickHouse/Pinot/Druid für 1- bis 5-minütige Tafeln.
Export: CSV/JSON/PDF + hash; Unveränderliche Pakete (WORM) für Regulatoren.

Beispiel GGR Daily:
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;

7) Datenqualität (DQ) und Verträge

Schema-first: JSON/Avro registry + Kompatibilitätstests (consumer-driven).
DQ-как-код: completeness/validity/uniqueness/FK/range/temporal.
Reaktionsrichtlinien: critical → fail + DLQ; major/minor → Tag und Bericht.
DQ-Beobachtbarkeit: Freshness/Completeness/Validity Dashboards, ein Trichter verlorener Datensätze.

8) Sicherheit, Privatsphäre und Wohnsitz

PII-Minimierung: Benutzer über Pseudo-ID; Muppings separat.
RLS/CLS: Zugriff Zeile für Zeile/Nach-Spalte nach Rollen und Jurisdiktionen.
Verschlüsselung: TLS in-transit; at-rest - KMS/CMK mit Rotation.
Datenresidenz: separate Verzeichnisse und Schlüssel für den EWR/UK/BR; Verbot regionalübergreifender Join's ohne Grund.
DSAR/RTBF: Berechenbare Projektionen und selektive Bearbeitungen; Legal Hold auf die gemeldeten Artefakte.

9) Leistung und Kosten (Cost Engineering)

Partitionierung: nach Datum/Markt/Tenant; Clustering/Z-Order nach 'market', 'provider _ id', 'game _ id', 'user _ pseudo _ id'.
Formate: Parkett + Statistiken und Kompression; OPTIMIZE/VACUUM nach Zeitplan.
Materialisierung: stabile Aggregate und Zusammenfassungstabellen; Vermeiden Sie „dicke“ Join's on the fly.
Quoten/Chargeback: Budgets für schwere Anfragen/Replays; Berichte cost/query, cost/GB.
Tiered storage: hot/warm/cold; klare SLA Erholung.

10) Beobachtbarkeit und Management

Pipeline-Metriken: Dauer, Volumen, Retrays, Lags, Fehlertoleranz.
DWH-Metriken: Antwortzeiten/Wettbewerbsfähigkeit/Cash-Hits/Kosten.
Lineage: Graph von den Quellen bis zu den Berichten; Impact-Analyse bei Änderungen.
SLO: Freshness Silver p95 ≤ 15 мин; Gold täglich - fertig bis 06:00; Validity ≥ 99. 9%; Completeness ≥ 99. 5%; Verfügbarkeit ≥ 99. 9%.

11) Multitenant und Domänenisolierung

Aufteilung nach Schema/Datenbank/Katalog in Tenant/Markt.
Kontingente und Ressourcengruppen; Einschränkung der „lärmenden Nachbarn“.
Export-/Importrichtlinien zwischen Tenanten, standardisierte Verträge.

12) Datenregister und Dokumentation

Datenkatalog: Eigentümer, SLA, Schema, Beispiele, DQ-Regeln, Lineage.
Metriken/Dashboards: Karten mit Formeln und Verantwortlichen.
Änderungsprotokoll: Versionen der Logik, Migrationen, Auswirkungen (Impact).

13) Prozesse und RACI

R (Responsible): Data Engineering (Silver/Gold Modelle, DAG's), Data Platform (infra, registry, DQ).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/Legal/DPO, Finance (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (Informed): BI, Produkt, Marketing, Operationen.

14) Fahrplan für die Umsetzung

MVP (4-6 Wochen):

1. Lakehouse Bronze/Silber (ACID-Tabellen), CDC/Inkremente für Zahlungen/Gameplay.

2. Erste Gold-Vitrinen (GGR Daily, Umbau), SLA bis 06:00 Uhr.

3. DQ-as-Code (10-15 Regeln) + Freshness/Completeness Dashboards.

4. Der Datenkatalog und die zugrunde liegende semantische Schicht der Metriken.

Phase 2 (6-12 Wochen):
  • SCD II для users/games/providers; Erweiterung von Domains.
  • Einsatzmärze (ClickHouse/Pinot) für Echtzeit/Near-Real-Time Panels.
  • Lineage/Impact-Analyse, DSAR/RTBF-Verfahren, Regionalisierung (EWR/UK).
Phase 3 (12 + Wochen):
  • Auto-Simulation von Änderungen (Dry-Run), Replikationen und Vergleich von Metriken.
  • Chargeback/Quoten, Kosten-Dashboards; DR-Übungen und Zeitreise Erholung.
  • Autogenerierung der Dokumentation von Schaufenstern und Metrikkarten.

15) Beispiele für SQL-Vorlagen

Wetten Tatsache (Silber, 3NF):
sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
Verbindung zu SCD II (RG-Status zum Zeitpunkt der Wette erhalten):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
Vollständigkeitskontrolle nach Märkten:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;

16) Checkliste vor dem Verkauf

  • Schemes and contracts in the register, compatibility tests green.
  • CDC/Inkremente und MERGE-Verfahren sind idempotent.
  • Gold-Vitrinen haben SLAs, die Formeln der Metriken sind festgelegt.
  • DQ-Regeln sind aktiv (critical → fail + DLQ), Freshness/Completeness Dashboards.
  • RBAC/ABAC, Verschlüsselung, Gebietsansässigkeit, Zugriffsprotokolle.
  • Lineage/impact enthalten; time-travel/backup/DR geprüft.
  • Kosten unter Kontrolle: Parteien, Clusterbildung, Materialisierung, Quoten.

17) Anti-Muster und Risiken

„One Fat DWH ohne Schichten“: eine Mischung aus Roh- und Meldedaten → Chaos und teure Korrekturen.
Volles Reload täglich ohne Not: Nutzen Sie die Increments/CDC.
Gold ohne Besitzer und Formeln: das Fehlen einer einzigen Version der Wahrheit → Streitigkeiten und Rückschritte.
PII in analytischen Schichten: Muppings getrennt halten, CLS/RLS.
Keine DQ/Lineage: keine Nachweisbarkeit für Regulatoren/Audits.
Unüberschaubare Kosten: keine Parties/Optimierungen/Quoten.

18) Glossar (kurz)

DWH ist ein Data Warehouse für Konsolidierung und Analyse.
Lakehouse - Datensee + ACID-Tabellen und SQL-Engine.
CDC - Erfassen Sie Änderungen von OLTP.
SCD sind langsam wechselnde Messungen (I/II/III).
Die Gold-Vitrine ist eine verbrauchsfertige Berichtstabelle/Darstellung.
Semantic Layer - einheitliche Definitionen von Metriken und Attributen.

19) Das Ergebnis

Die moderne DWH für iGaming ist keine „große Tabelle“, sondern eine überschaubare Plattform: Bronze/Silber/Gold-Schichten, strenge Verträge und DQs, einheitliche Metriken und Lineage, Privatsphäre und Wohnsitz, Leistung und Wirtschaftlichkeit. Durch den Aufbau eines Lakehouse + DWH-März-Hybrids erhalten Sie eine schnelle und überprüfbare Entscheidungsfindung, die für Audits, Skalen und neue Märkte bereit ist.

Contact

Kontakt aufnehmen

Kontaktieren Sie uns bei Fragen oder Support.Wir helfen Ihnen jederzeit gerne!

Telegram
@Gamble_GC
Integration starten

Email ist erforderlich. Telegram oder WhatsApp – optional.

Ihr Name optional
Email optional
Betreff optional
Nachricht optional
Telegram optional
@
Wenn Sie Telegram angeben – antworten wir zusätzlich dort.
WhatsApp optional
Format: +Ländercode und Nummer (z. B. +49XXXXXXXXX).

Mit dem Klicken des Buttons stimmen Sie der Datenverarbeitung zu.