Datenflussarchitektur
1) Zweck und Grundsätze
Ziele: Liefern Sie korrekte, zeitnahe und konforme Daten für Analysen, Reporting, Anti-Fraud, Personalisierung und ML.
Grundsätze:- Daten als Produkt: klare Eigentümer, Verträge, SLO und Versionierung.
- Schema-first: Schemas sind obligatorisch; Evolution nach Regeln.
- Privacy-by-Design: PII-Minimierung, Pseudonymisierung, Zugriffssteuerung.
- Observability-by-Default: Traces, Metriken, Lineage, Qualitätsprofile.
- Cost-aware: tiered-storage, sampling noise events, compression.
2) Die Landschaft der Quellen und Ereignisse
Transaktional: Ein-/Auszahlungen, Wetten/Auszahlungen, Boni, Chargeback.
Benutzerdefinierte: Sitzungen, Klicks, Conversions, RG-Limits, KYC-Status.
Operativ: Anwendungsprotokolle, Leistungsmetriken, Alerts.
Anbieter: PSP/KYC/Sanktionen/Spielestudios (Aggregatoren).
Referenz: Spielkataloge, Länder-/Währungsverzeichnisse, Tarife/Steuern.
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3) Referenzarchitektur (High-Level)
1. Ingest-Ebene
Gateways (HTTP/gRPC), CDC-Konnektoren (von OLTP), Warteschlangen/Busse (Kafka/Redpanda), Telemetriekollektoren.
Validierung, Normalisierung, PII-Revision am Eingang, Vertragsdurchsetzung.
2. Streaming-Ebene
Streaming-Jobs (Flink/Spark Structured Streaming/Beam) mit Deduplizierung, Wasserzeichen, stateful Aggregaten.
Fan-out zu Tresoren und Online-Diensten (Fichester, Fraud).
3. Batch-Schicht
Orchestrierung (Airflow/Dagster), inkrementelle Downloads, Backtests und Retroprozesse, SCD-Typen.
4. Lagerung (Lakehouse)
Bronze: rohe Ereignisse (append-only, immutable).
Silber: gereinigte, konforme Tische mit Qualität und Deduplex.
Gold: Vitrinen/Märze für spezifische Fälle (BI/Regulierungsbehörde/ML).
Tabellenformate mit ACID (Delta/Iceberg/Hudi), Abstand über heiße/warme/kalte Schichten.
5. Serving und Zugang
BI/SQL (Trino/Presto/DuckDB), Semantic Layer (Metrics Layer), API/GraphQL, Feature Store für Online-/Offline-Konsistenz.
6. Governance und Sicherheit
Verzeichnis/Verknüpfung, DQ-Regeln, Policy Access Engine (RBAC/ABAC), Masking/Tokenization, WORM-Archiv für Berichte.
4) Verträge und Regelungen
Datenverträge: OpenAPI/AsyncAPI/JSON Schema/Avro.
Evolution: semantische Versionen; backward-kompatible Änderungen - nullable Felder hinzufügen; breaking - nur mit '/v2 'und doppelter Schreibweise für den Zeitraum der Migration.
Register: Schema Registry, Domain-Verzeichnis (Zahlungen, Gameplay, Marketing).
5) Integrationsmuster
CDC (Change Data Capture): Von OLTP zu Bus (Debezium), Partitionierung über Domänenschlüssel.
Outbox/Inbox: garantierte Lieferung von Domänenlogik-Ereignissen.
Exactly-Once/Effectively-Once: Transaktionen im Stapel, idempotent sink 'und, Deduplizierungsschlüssel.
Late Data & Watermarks: Verarbeitung von verspäteten Ereignissen; Fenster mit erlaubter Latenz.
Reprocessing: idempotente Pipelines, Zeitreisen, Snapshot-Korrekturen.
6) Lakehouse-Modell: Bronze/Silber/Gold
Bronze (raw):- Parteien nach Zeit (event_date) und Markt (jurisdiction).
- Nur hinzufügen; Speicherung der ursprünglichen payload für forensics.
- Normalisierte Typen, Verzeichnisse, Deduplizierung nach'(event_id, event_time)'.
- FK-Verifikation, Währungsstandardisierung/Zeitzone, Anreicherung.
- Denormalisierte Vitrinen (GGR, RG-Scoring, LTV, Kohortentabellen).
- SLAs für Updates, Aggregate unter BI und Reporting.
7) Datenqualität (Data Quality)
Regeln: schematische Validierung, Bereiche, Eindeutigkeit, Vollständigkeit, referentielle Integrität.
Profiling: Verteilung, Kardinalität, „Drift“ von Zeichen.
Überwachung: p50/p95 Pipelineverzögerung, Fallrate, Fehlerbudget.
Degradation policy: Automatischer Vollback (letzter Snapshot), Alerts und T-Tests für Metriken.
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8) Datenschutz und Compliance
PII-Minimierung und Maskierung: Pseudo-IDs speichern, Look-up-Muppings trennen.
Regionalisierung: Geo-local bakets/catalogues (EEA/UK/BR), „data residency“.
Legal Operations: DSAR/RTBF (berechenbare Projektionen und selektive Bearbeitungen), Legal Hold, unveränderliche Berichtsarchive.
Zugriffsprotokollierung: Prüfung der Lesungen von „sensiblen“ Tabellen, Break-Glass und JIT-Zugriff.
9) Beobachtbarkeit und Management
Linie: Automatische Verfolgung von Abhängigkeiten von der Quelle zum Schaufenster.
Pipeline-Metriken: throughput, lag, failure-rate, cost/GB, cost/query.
Trace (OTel): 'trace _ id' von Anwendungen wird in Ereignisse verschoben → wir erstellen einen End-to-End-Abfragepfad.
Alertas: SLO-Budgets, Frische/Volumen/Kardinalität Anomalien.
10) Zugangs- und Sicherheitsmodell
Die Kategorien der Daten: public / internal / confidential / restricted.
Richtlinien: row/column-level security; dynamische Maskierung (PAN/IBAN/E-Mail).
Schlüsselverwaltung: KMS/CMK, at-rest/in-transit Verschlüsselung, Rotation.
Segregation von Verantwortlichkeiten: getrennte Rollen von Prod/Analyst/Admin/Reviewer.
11) Data Mesh und Produktansatz
Домены: Payments, Gameplay, Marketing, Risk, Compliance.
Datenprodukt: Besitzer, Frische SLA, Feldwörterbuch, Tests, Versionen, Verbrauchsmetrik.
Verträge zwischen Domains: versionierbar, mit Backward-Kompatibilität, Consumer-Driven-Tests.
12) Fichester und ML-Ströme
Feature Registry: Beschreibung der Merkmale, Quellen, Transformationen, SLO.
Online/Offline-Konsistenz: Ein Transformationscode, Online-Materialisierungsverzögerung ≤ 200-500 ms.
Driftüberwachung: PSI/KS, Auto-Alerts und Modell-Rollbacks, PII-Steuerung.
Versuchstagebuch: Metadaten, Versionen, Reproduzierbarkeit, Modellkarten.
13) Finmodell und Kostenoptimierung
Partitionierung und Z-Order/Cluster nach häufigen Prädikaten.
Kühllager und TTL für ungenutzte Tische, VACUUM.
Materialisierte Ansichten nur unter nachhaltigen Anfragemustern.
Quoten und Budgets für schwere Jobs; Chargeback auf Befehl.
14) Regionale und multitenante Topologie
Multi-Region aktiv-aktiv: Replikation von Themen und Tabellen, unabhängige Pipeline-Perimeter.
Failover/DR: Ziel RPO/RTO, Metadaten-Snapshots des Orchestrators, Wiederherstellungsprüfung.
Multi-Tenant: Isolierung von Katalogen/Schlüsseln/Quoten, Kennzeichnung von tenant_id.
15) Prozesse und RACI (in Kürze)
R: Data Platform (Ingest, Storage, Orchestrierung), Data Engineering (Transformationen).
A: Head of Data / Chief Data Officer.
C: Compliance/Legal/DPO, Architektur, SRE.
I: BI/Analytik, Produkt, Marketing, Finanzen.
16) SLO/SLI für Streams
Frische (Frische): p95 Verzögerung Silber ≤ 15 min, Gold (täglich) bereit ≤ 06:00 Uhr Lok. Zeit.
Vollständigkeit: ≥ 99. 5% der Ereignisse pro T-Fenster.
Plausibilität: Fehlerrate der DQ-Prüfungen <0. 5% des Volumens.
Verfügbarkeit: ≥ 99. 9% für BI/Feature API.
17) Tabellenvorlagen und Partitionierung
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18) Orchestrierung und DevX
Infra-as-Code: Pipeline-Repositories, Tests, Reviews, GitOps.
Datenkontrakte CI: Schaltungslinter, DQ-Tests bis Deploy.
Backfill-Framework: sichere Retroprozesse mit R/W-Restriktion und Idempotency.
Kataloge und Vorlagen: Pipelinegeneratoren (Cookie-Cutter), Best-Practices.
19) Umsetzungsfahrplan
MVP (4-6 Wochen):1. Ereignisbus + ingest aus 2-3 Schlüsselquellen (OLTP CDC, API-Gateway).
2. Lakehouse Bronze/Silber, Format mit ACID, Katalog und DQ-Grundregeln.
3. 1-2 Gold-Vitrinen (täglich GGR und Konversionstrichter).
4. Lag/completeness-Metriken, Basis-Lineage, RBAC und PII-Maskierung.
Phase 2 (6-12 Wochen):- Streaming-Einheiten (p95 latency ≤ 5 min), Feature Store, RG/AML-Vitrinen.
- Semantische Schicht von Metriken, SLA auf Berichterstattung; Cost-Dashboards.
- Regionalisierung (EEA/UK), DSAR/RTBF Verfahren, Legal Hold für Artefakte.
- Data Mesh: Produktdomänen, verbrauchergetriebene Verträge.
- ML-Betrieb mit Driftüberwachung, Selbstabstimmung online/offline.
- Automatische Simulationen von Schaltplanänderungen (Impact-Analyse) und „what-if“ nach Kosten.
20) Häufige Fehler und wie man sie vermeidet
Rohe Payload's ohne Schemata: Einführung von Schema-First, Register und CI-Validierung.
Keine Deduplizierung: Ereignisschlüssel und idempotent-sync in Silver.
PII mit Analytik mischen: Muppings trennen und Felder maskieren.
Gold ohne Eigentümer: Weisen Sie Eigentümer, SLO und Verbrauchsmetriken zu.
Keine Reprocessing-Strategie: Zeitreise, Versionierung der Logik, Kontrolle der „doppelten Buchführung“.
Unüberschaubare Kosten: Parteien, Kompression, TTL, Wertbeobachtbarkeit.
21) Glossar (kurz)
CDC - Erfassen Sie Änderungen von OLTP.
Outbox - Wir veröffentlichen Domain-Events transaktional.
Watermark - Beurteilung der Vollständigkeit der Strömung für Fenster.
Lakehouse - Datensee + ACID-Tabellen.
Datenprodukt - Produktdateneinheit mit Eigentümer und SLO.
Feature Store - Vereinbarte Verteilung von ML-Merkmalen.
22) Ergebnis
Die Datenflussarchitektur ist ein verwaltetes System von Vereinbarungen: klare Verträge, Beobachtbarkeit, Sicherheit und Kosten unter Kontrolle. Nach den beschriebenen Mustern (schema-first, bronze/silver/gold, CDC + Outbox, DQ und Lineage, privacy-by-design) versorgt die Plattform Business, Compliance und ML zuverlässig mit hochwertigen Daten mit vorhersehbaren SLOs und nachvollziehbaren Cost of Ownership.