Datenlebenszyklus
1) Zweck und Grundsätze
Das Ziel: einen vorhersehbaren, konsistenten und kostengünstigen Datenfluss vom Zeitpunkt des Auftretens bis zur endgültigen Löschung zu ermöglichen, indem analytische, operative und regulatorische Szenarien unterstützt werden.
Grundprinzipien:- Daten als Produkt: Jeder Satz hat einen Besitzer, Vertrag, SLO, Dokumentation.
- Schema-first: Schemas sind obligatorisch; Veränderung durch Versionierung.
- Privacy-by-Design: PII-Minimierung, Pseudonymisierung, regionale Speicherung.
- Observability-by-Default: Metriken, Zugriffsprotokollierung, Lineage.
- Kosten: Lagerebenen, TTL, Sampling, Kompression.
2) Phasen des Lebenszyklus
2. 1 Erstellen und Sammeln (Create/Collect)
Quellen: Produkte (Web/Mobile), Backends, Zahlungen, KYC/AML-Anbieter, Spiele/Studios, Marketing, Betriebsprotokolle.
IDs: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
Verträge: JSON/Avro-Schema, AsyncAPI/OpenAPI.
Eingangsqualität: Validierung von Schemata, Pflichtfelder, Größenlimits, Anti-Duplikate.
Datenschutz: Tokenisierung sensibler Felder, Geo-Routing ingest (EEA/UK/BR).
2. 2 Empfang und primäre Speicherung (Ingest & Raw)
Transport: HTTP/gRPC → Edge → Bus (Kafka/Redpanda).
Raw-Schicht (Bronze): append-only, unveränderliche payload's (für forensica), Partitionierung nach Zeit/Markt/Tenant.
Richtlinien: Dedup durch'(event_id, Quelle)', DLQ für „gebrochene“ Ereignisse, Legal Hold-Tags.
2. 3 Behandlung und Reinigung (Refine)
Normalisierung (Silber): Typisierung, Deduplizierung, Verzeichnisse, FX/Zeitzonen, Anreicherung.
Qualität (DQ): Vollständigkeit/Eindeutigkeit/Bereiche/referenzielle Integrität.
Reprocessing: idempotente Pipelines, Zeitreisen, kontrollierte Backfill 's.
2. 4 Verbrauch und Serving (Serve/Use)
Gold-Vitrinen: BI/Reporting (GGR, RG, AML), Produkt- und Risikomodelle, Echtzeit-Vitrinen.
Zugriff: SQL/Trino, Semantic Metrics Layer, API/GraphQL, Feature Store.
SLA Frische: Zum Beispiel sind die Gold-Tagesvitrinen bis 06:00 Uhr Ortszeit fertig.
2. 5 Teilen und Verteilen (Teilen/Veröffentlichen)
Inländische Verbraucher: Analytik, Produkt, Risiko, Compliance, Marketing, Finanzen.
Externe Entladungen: Regulierungsbehörden, Partner/Anbieter; unveränderliche Pakete (PDF/CSV/JSON + Hash).
Kontrollierte Kanäle: signierte Artefakte, Download/Export-Audit.
2. 6 Archivierung und Speicherung (Archiv/Retain)
Aufbewahrungsrichtlinien: nach Art der Daten und Jurisdiktionen (z. B. regulatorisch - 5-7 Jahre).
Speicherebenen: hot/warm/cold, WORM/Object Lock für Unveränderlichkeit.
Archivindexierung: Kataloge, Versions-/Marktbeschriftungen, schnelle Metadatensuche.
2. 7 Löschen und Beenden (Dispose)
Übliche Entfernung: TTL/retention; sichere Reinigung, Aktualisierung der Indizes.
Rechtsgeschäfte: DSAR/RTBF (Recht auf Vergessenwerden), Ausnahmen von der gesetzlichen Aufbewahrungspflicht, Legal Hold (Einfrieren der Löschung).
Verifizierung: Löschberichte, Prüfprotokoll, Kontrolle von Cross-Replikaten.
3) Klassifizierung und Katalog
Die Kategorien der Sensibilität: public / internal / confidential / restricted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Datenverzeichnis: Beschreibung, Besitzer, SLA Frische, Schaltungen, Lineage, Zugriffsebenen.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Lakehouse-Modell und Diagramme
Bronze/Silber/Gold: Klare Regeln für Transformation und Verantwortung.
Formate: Parkett + Tabellenformat mit ACID (Delta/Iceberg/Hudi).
Die Entwicklung der Schemata: semantische Versionen, Longitude-Kompatibilität, Dual-Write-Migrationen für Breaking-Änderungen.
Registry: Schema Registry, CI-Validierung von Verträgen, verbrauchergetriebene Tests.
5) Datenqualität (DQ)
Qualitätskennzahlen:- Vollständigkeit: Anteil der tatsächlich empfangenen Ereignisse/Zeilen.
- Validität: Anteil der Datensätze, die einer schematischen Validierung unterzogen wurden.
- Uniqueness: Kontrolle von Duplikaten.
- Consistency: Konformität mit Referenzen und Verbindungen.
- Freshness: Verzögerung der Ankunft/Materialisierung.
- DQ-Regeln als Code (YAML/SQL-Tests), Dashboards, SLO-Alerts.
- Auto-Vollback beim Abbau (letzter korrekter Schnitt).
6) Datenschutz und Compliance
PII-Minimierung: Pseudo-IDs speichern, Muppings in eine isolierte Schleife bringen.
Maskierung und RLS/CLS: auf Spalten-/Zeilenebene; Dynamische Richtlinien.
Regionalisierung: Datenresidenz nach Märkten; getrennte Verzeichnisse/Verschlüsselungsschlüssel.
DSAR/RTBF: gesteuerte Projektionen, selektive Bearbeitungen, Audit-Ausgaben.
Legal Hold: Freeze-Tags, unveränderliche Archive, Zugangsprotokollierung.
7) Zugang und Sicherheit
Authentifizierung/Autorisierung: SSO, RBAC/ABAC, Jurisdiktions- und Rollenattribute.
Verschlüsselung: TLS in-transit; at-rest über KMS/CMK; Rotation der Schlüssel.
Zugriffsprotokolle: wer/was/wann/woher; Alerts für Massenexporte/Scans.
Aufgabenteilung: verschiedene Rollen für Prod/Analytics/Admins/Reviewer.
8) Linearität (Lineage) und Beobachtbarkeit
Technische Lineage: Von der Quelle der → Transformation → Vitrinen → Berichte.
Operative Lineage: Verknüpfungen zu Releases, Fichflags, Modellen, AML/RG-Regeln.
Plattform-Metriken: throughput, lag, failure-rate, cost/query, cost/GB.
Tracing: Übertragung von 'trace _ id' von Apps zu Vitrinen/Alerts.
9) Zeitmodelle und Retroprozesse
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill und Reprocessing: idempotente Pipelines, Zeitreisen, Kontrolle der „doppelten Buchführung“.
Erhaltung der Zustände: TTL, Schnappschüsse, Wiederherstellung nach Ausfällen.
10) Wirtschaft und Kostenkontrolle
Partitionierung (Datum/Markt/Tenant), Clustering/Z-Ordering.
Sampling für Hochfrequenzanalysen (nicht für Transaktionen/Compliance).
Mehrschichtige Lagerung (heiß/warm/kalt), automatische TTL.
Budget/Chargeback auf Befehle, Grenzen für schwere Anfragen und Backfill.
11) Prozesse und RACI
R (Responsible): Data Platform (ingest/storage/orchestration), Data Engineering (Transformationen), Domain Owner (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (konsultiert): Compliance/Legal/DPO, Architektur, SRE, Sicherheit.
I (Informiert): BI/Produkt/Marketing/Finanzen/Operations.
12) SLO/SLI (ungefähre Ziele)
13) Dashboards
Frische Heatmap nach Domains/Märkten.
Completeness/Validity nach Threads.
Kosten für Speicher und Abfragen (nach Ebenen und Befehlen).
Lineare Karte für kritische Berichte (Regulierungsbehörde, GGR, RG/AML).
DSAR/RTBF Warteschlangen, Legal Hold Status.
14) Aufbewahrungsrichtlinienvorlagen (Beispiel)
Die tatsächlichen Fristen werden durch Legal/DSB und lokales Recht bestimmt.
15) Dokumentation und Standards
Datenproduktseite: Besitzer, Zweck, SLA, Diagramme, DQ-Regeln, Kontakte.
Änderungsprotokoll: Schaltungs-/Logikversionen, Auswirkungen (Wirkungsanalyse), Migrationen.
Runbooks: Reprocessing, Backfill, Notfallszenarien, Friesenknopf.
16) Fahrplan für die Umsetzung
MVP (4-6 Wochen):1. Datenverzeichnis und Klassifizierung (Top-Domains), Basisschemata und Register.
2. Lakehouse Bronze/Silber, ingestion mit Validierung und Deduplizierung.
3. 1-2 Gold-Vitrinen (z.B. GGR und Conversion).
4. Minimale DQ-Regeln und Freshness/Completeness Dashboard.
5. Aufbewahrungs- und RBAC-Richtlinien für den Zugriff.
Phase 2 (6-12 Wochen):- Linie, semantische Schicht von Metriken, DSAR/RTBF-Verfahren.
- Regionalisierung (EWR/UK), WORM für regulatorische Artefakte, Legal Hold.
- Kostenoptimierung, SLO-Alerts, Budgetberichterstattung.
- Data Mesh (Domain-Produkte), verbrauchergetriebene Verträge und Tests.
- Automatische Impact-Simulation, wenn Schaltungen/Logik, Replikate geändert werden.
- Einheitliches Compliance-Panel (Regulatory, Access, DQ, Lineage).
17) Checkliste vor dem Verkauf
- Genehmigte Systeme, Verträge im Register, Interoperabilitätstests.
- DQ-Regeln sind aktiv, Alerts konfiguriert, SLOs gesetzt.
- RBAC/ABAC: Rollen geprüft, Zugriffsprotokolle aktiviert.
- Aufbewahrungs-/Lösch-/Archivierungsrichtlinien werden von Legal/DPO bestätigt.
- DSAR/RTBF/Legal Hold-Verfahren werden dokumentiert und getestet.
- Line/Metriken/Kosten werden in Dashboards angezeigt.
- Runbooks für Backfill/Reprocessing/DR sind fertig.
18) Häufige Fehler und wie man sie vermeidet
Keine einheitliche Klassifizierung und kein einheitlicher Katalog: Geben Sie die obligatorischen Datenproduktkarten ein.
Rohdaten ohne Schemata: schema-first + CI-Validierung.
Keine Entfernbarkeit: Gestalten Sie TTL und RTBF-Prozesse von Anfang an.
Mischung aus PII und Analytik: Muppings getrennt aufbewahren, Maskierung anwenden.
Gold ohne Besitzer und SLO: Weisen Sie Besitzer und Frischeziele zu.
Unüberschaubare Kosten: Parteien, Kompression, Tiered-Storage, Quoten.
19) Glossar (kurz)
DSAR/RTBF - Antrag der betroffenen Person/Recht auf Löschung.
Legal Hold - Einfrieren der Löschung aus rechtlichen Gründen.
Lineage - Rückverfolgbarkeit von Herkunft und Transformation.
Data Product ist eine verwaltete Produktdateneinheit mit SLA.
DQ - Regeln und Metriken für die Datenqualität.
Lakehouse ist eine Kombination aus Datensee und ACID-Tabellen.
20) Das Ergebnis
Der Datenlebenszyklus ist ein verwaltetes System von Vereinbarungen, nicht nur ein Dateilager. Klare Verträge und Schemata, Klassifizierung und Katalog, messbare Qualität, Privatsphäre und Sicherheit, eine kostengünstige Speicherarchitektur und eine transparente Lineage machen Daten zu einem zuverlässigen Asset, das Produkt, Compliance und Analytik ohne Überraschungen und „versteckte“ Risiken unterstützt.