Datenflussarchitektur

1) Zweck und Grundsätze

Ziele: Liefern Sie korrekte, zeitnahe und konforme Daten für Analysen, Reporting, Anti-Fraud, Personalisierung und ML.

Grundsätze:

Daten als Produkt: klare Eigentümer, Verträge, SLO und Versionierung.
Schema-first: Schemas sind obligatorisch; Evolution nach Regeln.
Privacy-by-Design: PII-Minimierung, Pseudonymisierung, Zugriffssteuerung.
Observability-by-Default: Traces, Metriken, Lineage, Qualitätsprofile.
Cost-aware: tiered-storage, sampling noise events, compression.

2) Die Landschaft der Quellen und Ereignisse

Transaktional: Ein-/Auszahlungen, Wetten/Auszahlungen, Boni, Chargeback.
Benutzerdefinierte: Sitzungen, Klicks, Conversions, RG-Limits, KYC-Status.
Operativ: Anwendungsprotokolle, Leistungsmetriken, Alerts.
Anbieter: PSP/KYC/Sanktionen/Spielestudios (Aggregatoren).
Referenz: Spielkataloge, Länder-/Währungsverzeichnisse, Tarife/Steuern.

Ereignistypisierung (Beispiel):

json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3) Referenzarchitektur (High-Level)

1. Ingest-Ebene

Gateways (HTTP/gRPC), CDC-Konnektoren (von OLTP), Warteschlangen/Busse (Kafka/Redpanda), Telemetriekollektoren.
Validierung, Normalisierung, PII-Revision am Eingang, Vertragsdurchsetzung.

2. Streaming-Ebene

Streaming-Jobs (Flink/Spark Structured Streaming/Beam) mit Deduplizierung, Wasserzeichen, stateful Aggregaten.
Fan-out zu Tresoren und Online-Diensten (Fichester, Fraud).

3. Batch-Schicht

Orchestrierung (Airflow/Dagster), inkrementelle Downloads, Backtests und Retroprozesse, SCD-Typen.

4. Lagerung (Lakehouse)

Bronze: rohe Ereignisse (append-only, immutable).
Silber: gereinigte, konforme Tische mit Qualität und Deduplex.
Gold: Vitrinen/Märze für spezifische Fälle (BI/Regulierungsbehörde/ML).
Tabellenformate mit ACID (Delta/Iceberg/Hudi), Abstand über heiße/warme/kalte Schichten.

5. Serving und Zugang

BI/SQL (Trino/Presto/DuckDB), Semantic Layer (Metrics Layer), API/GraphQL, Feature Store für Online-/Offline-Konsistenz.

6. Governance und Sicherheit

Verzeichnis/Verknüpfung, DQ-Regeln, Policy Access Engine (RBAC/ABAC), Masking/Tokenization, WORM-Archiv für Berichte.

4) Verträge und Regelungen

Datenverträge: OpenAPI/AsyncAPI/JSON Schema/Avro.
Evolution: semantische Versionen; backward-kompatible Änderungen - nullable Felder hinzufügen; breaking - nur mit '/v2 'und doppelter Schreibweise für den Zeitraum der Migration.
Register: Schema Registry, Domain-Verzeichnis (Zahlungen, Gameplay, Marketing).

5) Integrationsmuster

CDC (Change Data Capture): Von OLTP zu Bus (Debezium), Partitionierung über Domänenschlüssel.
Outbox/Inbox: garantierte Lieferung von Domänenlogik-Ereignissen.
Exactly-Once/Effectively-Once: Transaktionen im Stapel, idempotent sink 'und, Deduplizierungsschlüssel.
Late Data & Watermarks: Verarbeitung von verspäteten Ereignissen; Fenster mit erlaubter Latenz.
Reprocessing: idempotente Pipelines, Zeitreisen, Snapshot-Korrekturen.

6) Lakehouse-Modell: Bronze/Silber/Gold

Bronze (raw):

Parteien nach Zeit (event_date) und Markt (jurisdiction).
Nur hinzufügen; Speicherung der ursprünglichen payload für forensics.

Silver (clean):

Normalisierte Typen, Verzeichnisse, Deduplizierung nach'(event_id, event_time)'.
FK-Verifikation, Währungsstandardisierung/Zeitzone, Anreicherung.

Gold (serve):

Denormalisierte Vitrinen (GGR, RG-Scoring, LTV, Kohortentabellen).
SLAs für Updates, Aggregate unter BI und Reporting.

7) Datenqualität (Data Quality)

Regeln: schematische Validierung, Bereiche, Eindeutigkeit, Vollständigkeit, referentielle Integrität.
Profiling: Verteilung, Kardinalität, „Drift“ von Zeichen.
Überwachung: p50/p95 Pipelineverzögerung, Fallrate, Fehlerbudget.
Degradation policy: Automatischer Vollback (letzter Snapshot), Alerts und T-Tests für Metriken.

Beispiel für einen DQ-Vertrag (YAML):

yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8) Datenschutz und Compliance

PII-Minimierung und Maskierung: Pseudo-IDs speichern, Look-up-Muppings trennen.
Regionalisierung: Geo-local bakets/catalogues (EEA/UK/BR), „data residency“.
Legal Operations: DSAR/RTBF (berechenbare Projektionen und selektive Bearbeitungen), Legal Hold, unveränderliche Berichtsarchive.
Zugriffsprotokollierung: Prüfung der Lesungen von „sensiblen“ Tabellen, Break-Glass und JIT-Zugriff.

9) Beobachtbarkeit und Management

Linie: Automatische Verfolgung von Abhängigkeiten von der Quelle zum Schaufenster.
Pipeline-Metriken: throughput, lag, failure-rate, cost/GB, cost/query.
Trace (OTel): 'trace _ id' von Anwendungen wird in Ereignisse verschoben → wir erstellen einen End-to-End-Abfragepfad.
Alertas: SLO-Budgets, Frische/Volumen/Kardinalität Anomalien.

10) Zugangs- und Sicherheitsmodell

Die Kategorien der Daten: public / internal / confidential / restricted.
Richtlinien: row/column-level security; dynamische Maskierung (PAN/IBAN/E-Mail).
Schlüsselverwaltung: KMS/CMK, at-rest/in-transit Verschlüsselung, Rotation.
Segregation von Verantwortlichkeiten: getrennte Rollen von Prod/Analyst/Admin/Reviewer.

11) Data Mesh und Produktansatz

Домены: Payments, Gameplay, Marketing, Risk, Compliance.
Datenprodukt: Besitzer, Frische SLA, Feldwörterbuch, Tests, Versionen, Verbrauchsmetrik.
Verträge zwischen Domains: versionierbar, mit Backward-Kompatibilität, Consumer-Driven-Tests.

12) Fichester und ML-Ströme

Feature Registry: Beschreibung der Merkmale, Quellen, Transformationen, SLO.
Online/Offline-Konsistenz: Ein Transformationscode, Online-Materialisierungsverzögerung ≤ 200-500 ms.
Driftüberwachung: PSI/KS, Auto-Alerts und Modell-Rollbacks, PII-Steuerung.
Versuchstagebuch: Metadaten, Versionen, Reproduzierbarkeit, Modellkarten.

13) Finmodell und Kostenoptimierung

Partitionierung und Z-Order/Cluster nach häufigen Prädikaten.
Kühllager und TTL für ungenutzte Tische, VACUUM.
Materialisierte Ansichten nur unter nachhaltigen Anfragemustern.
Quoten und Budgets für schwere Jobs; Chargeback auf Befehl.

14) Regionale und multitenante Topologie

Multi-Region aktiv-aktiv: Replikation von Themen und Tabellen, unabhängige Pipeline-Perimeter.
Failover/DR: Ziel RPO/RTO, Metadaten-Snapshots des Orchestrators, Wiederherstellungsprüfung.
Multi-Tenant: Isolierung von Katalogen/Schlüsseln/Quoten, Kennzeichnung von tenant_id.

15) Prozesse und RACI (in Kürze)

R: Data Platform (Ingest, Storage, Orchestrierung), Data Engineering (Transformationen).
A: Head of Data / Chief Data Officer.
C: Compliance/Legal/DPO, Architektur, SRE.
I: BI/Analytik, Produkt, Marketing, Finanzen.

16) SLO/SLI für Streams

Frische (Frische): p95 Verzögerung Silber ≤ 15 min, Gold (täglich) bereit ≤ 06:00 Uhr Lok. Zeit.
Vollständigkeit: ≥ 99. 5% der Ereignisse pro T-Fenster.
Plausibilität: Fehlerrate der DQ-Prüfungen <0. 5% des Volumens.
Verfügbarkeit: ≥ 99. 9% für BI/Feature API.

17) Tabellenvorlagen und Partitionierung

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18) Orchestrierung und DevX

Infra-as-Code: Pipeline-Repositories, Tests, Reviews, GitOps.
Datenkontrakte CI: Schaltungslinter, DQ-Tests bis Deploy.
Backfill-Framework: sichere Retroprozesse mit R/W-Restriktion und Idempotency.
Kataloge und Vorlagen: Pipelinegeneratoren (Cookie-Cutter), Best-Practices.

19) Umsetzungsfahrplan

MVP (4-6 Wochen):

1. Ereignisbus + ingest aus 2-3 Schlüsselquellen (OLTP CDC, API-Gateway).

2. Lakehouse Bronze/Silber, Format mit ACID, Katalog und DQ-Grundregeln.

3. 1-2 Gold-Vitrinen (täglich GGR und Konversionstrichter).

4. Lag/completeness-Metriken, Basis-Lineage, RBAC und PII-Maskierung.

Phase 2 (6-12 Wochen):

Streaming-Einheiten (p95 latency ≤ 5 min), Feature Store, RG/AML-Vitrinen.
Semantische Schicht von Metriken, SLA auf Berichterstattung; Cost-Dashboards.
Regionalisierung (EEA/UK), DSAR/RTBF Verfahren, Legal Hold für Artefakte.

Phase 3 (12 + Wochen):

Data Mesh: Produktdomänen, verbrauchergetriebene Verträge.
ML-Betrieb mit Driftüberwachung, Selbstabstimmung online/offline.
Automatische Simulationen von Schaltplanänderungen (Impact-Analyse) und „what-if“ nach Kosten.

20) Häufige Fehler und wie man sie vermeidet

Rohe Payload's ohne Schemata: Einführung von Schema-First, Register und CI-Validierung.
Keine Deduplizierung: Ereignisschlüssel und idempotent-sync in Silver.
PII mit Analytik mischen: Muppings trennen und Felder maskieren.
Gold ohne Eigentümer: Weisen Sie Eigentümer, SLO und Verbrauchsmetriken zu.
Keine Reprocessing-Strategie: Zeitreise, Versionierung der Logik, Kontrolle der „doppelten Buchführung“.
Unüberschaubare Kosten: Parteien, Kompression, TTL, Wertbeobachtbarkeit.

21) Glossar (kurz)

CDC - Erfassen Sie Änderungen von OLTP.
Outbox - Wir veröffentlichen Domain-Events transaktional.
Watermark - Beurteilung der Vollständigkeit der Strömung für Fenster.
Lakehouse - Datensee + ACID-Tabellen.
Datenprodukt - Produktdateneinheit mit Eigentümer und SLO.
Feature Store - Vereinbarte Verteilung von ML-Merkmalen.

22) Ergebnis

Die Datenflussarchitektur ist ein verwaltetes System von Vereinbarungen: klare Verträge, Beobachtbarkeit, Sicherheit und Kosten unter Kontrolle. Nach den beschriebenen Mustern (schema-first, bronze/silver/gold, CDC + Outbox, DQ und Lineage, privacy-by-design) versorgt die Plattform Business, Compliance und ML zuverlässig mit hochwertigen Daten mit vorhersehbaren SLOs und nachvollziehbaren Cost of Ownership.

Datenflussarchitektur

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet