Herkunft und Pfad der Daten
1) Was ist Data Lineage
Data Lineage ist die „Lebensgeschichte“ von Daten: vom Geburtsort (Quelle) über Transformationen und Transporte bis hin zu Schaufenstern, Berichten und Modellen. Linej beantwortet die Fragen:- Woher kommen die Zahlen im Bericht?
- Welche Tabellen/Felder sind von der Schemaänderung betroffen?
- Warum hat sich der KPI gestern um 21:00 Uhr geändert?
- Welche Daten sind in ein bestimmtes ML-Modell und eine bestimmte ML-Version eingeflossen?
Für iGaming ist dies aufgrund der Regulierung, der Finanzberichterstattung (GGR/NET), der Betrugsbekämpfung, des KYC/AML, des verantwortungsvollen Spiels und der hohen Geschwindigkeit des Produktwechsels kritisch.
2) Niveaus und Granularität der Linie
1. Business Line - Verknüpfung von Metriken und Geschäftsbegriffen (aus dem Glossar) mit Vitrinen/Formeln.
2. Technische Linie (tabellarisch) - Beziehungen zwischen Tabellen/Jobs/Transformationspaketen.
3. Spalte (Feld/Spalte-Ebene) - Welche Spalte der Quelle bildet die Zielspalte, mit Regeln.
4. Laufzeitlinie (operativ) - tatsächliche Durchläufe: Zeiten, Volumen, Code-/Schemaversionen, Hash-Artefakte.
5. End-to-End - Der End-to-End-Weg vom Anbieter/PSP/CRM zum Report/Dashboard/Model.
6. Cross-Domain/Mesh - Verbindungen zwischen Domain-Datenprodukten durch Verträge.
3) Schlüsselwert
Vertrauen und Audit: Erklärbarkeit von Berichten und Modellen, schnelle Untersuchung von Vorfällen.
Impact-Analyse: sichere Schaltungs-/Logikänderungen, Vorhersagbarkeit von Releases.
Onboarding-Geschwindigkeit: Neue Analysten und Ingenieure verstehen die Landschaft schneller.
Compliance: Rückverfolgbarkeit von PII, Legal Hold, Berichterstattung an die Aufsichtsbehörden.
Kostenoptimierung: Identifizierung von „toten“ Pipelines und doppelten Schaufenstern.
4) Objekte und Artefakte
Grafische Entitäten: Quelle (Spieleanbieter, PSP, CRM), Thema/Stream, Raw/Staging, Bronze/Silber/Gold, DWH, ML-fici, BI-Modell, Dashboard.
Links: Transformationen (SQL/ELT), Jobs (Airflow/DBT/...), Modelle (Version), Verträge (Avro/Proto/JSON Schema).
Attribute: Besitzer, Domäne, Klassifizierung, Schaltungsversion, Qualitätskontrolle, Frische, SLO/SLI.
5) Wahrheitsquellen für die Linie
Statisch: Parsen von SQL/Config (dbt, ETL) → konstruieren Abhängigkeiten.
Dynamic/Runtime: Sammeln von Metadaten zur Laufzeit (Operator im Orchestrator, Abfrageprotokolle).
Event: Lineage-Events beim Veröffentlichen/Lesen von Nachrichten im Bus (Kafka/Pulsar), Validierung von Verträgen.
Manuell (Minimum): Beschreibung einer komplexen Geschäftslogik, die nicht automatisch extrahiert wird.
6) Lineare und Datenverträge
Der Vertrag erfasst Schema, Semantik und SLA.
Kompatibilitätsprüfung (Sieben) und Idempotenz - obligatorisch.
Die Zeile speichert den Verweis auf den Vertrag/die Version und die Tatsache, dass die Prüfung bestanden wurde (CI/CD + Laufzeit).
7) Linie in iGaming: Domain-Beispiele
Gaming-Events → RTP-Aggregate, Volatilität, Retention, Showcase „Game Performance Gold“.
Zahlungen/Schlussfolgerungen/Charjbacks → GGR/NET-Berichte, Betrugsbekämpfungssignale.
KYC/AML → Status, Inspektionen, Alerts → Compliance-Vitrinen und Berichterstattung.
Responsible Gaming → Limits/Selbstausschluss → Risikoscoring und Interventionsauslöser.
Marketing/CRM → Kampagnen, Boni, Wetten → Auswirkungen auf LTV/ARPPU.
8) Visualisierung des Graphen
Empfehlungen:- Zwei Modi: „Landscape Map“ (Makro) und „Through Track“ (Mikro) von Feld zu Feld.
- Filter: nach Domäne, Eigentümer, Klassifizierung (PII), Umgebung (prod/stage), Zeit.
- Overlays: Frische, Volumen, DQ-Fehler, Schaltungsversionen.
- Schnelle Aktionen: "Abhängige anzeigen", "Wer verbraucht diese Spalte? ", "Der Weg zum KPI-Dashboard".
9) Impact Analyse und Change Management
Bevor Sie das Schema/die Logik ändern, führen Sie what-if aus: welche Jobs/Vitrinen/Dashboards/Modelle betroffen sind.
Automatische Generierung von Tickets an Besitzer abhängiger Artefakte.
Dual-Write/Blau-Grün-Muster für Schaufenster: v2 wird parallel gefüllt, Metriken vergleichen, umschalten.
Backfill-Playbooks: wie und wie man historische Daten einholt, wie man die Konsistenz überprüft.
10) Linearität und Datenqualität (DQ)
Verknüpfen Sie die DQ-Regeln mit den Knoten/Feldern des Graphen: Gültigkeit, Einzigartigkeit, Konsistenz, Aktualität.
Zeigen Sie bei Verstößen „rote Segmente“ auf den Gleisen an und heben Sie die Warnhinweise an die Besitzer.
Speichern Sie den Verlauf von DQ-Vorfällen und deren Auswirkungen auf KPIs.
11) Linie für ML/AI
Rückverfolgbarkeit: Dataset → Features → Trainingscode → Modell (Version) → Inferenz.
Commits, Trainingsparameter, Framework-Versionen, Validierungsdaten erfassen.
Die Linie hilft, Drift, Regression von Metriken zu untersuchen und Ergebnisse zu reproduzieren.
12) Linie und Privatsphäre/Compliance
Kennzeichnen Sie PII/Finanzfelder, Länder, Gesetz (DSGVO/lokal), Grundlage der Verarbeitung.
Markieren Sie die Knoten, bei denen Maskierung/Pseudonymisierung/Anonymisierung angewendet wird.
Für DSAR/Right to be forgotten verfolgen Sie, in welchen Vitrinen/Backups das Subjekt vorhanden ist.
13) Metriken (SLO/SLI) für die Linie
Abdeckung:% der Tabellen/Felder mit Säulenlinie.
Freshness SLI: Der Anteil der Knoten, die in ein SLA-Update passen.
DQ-Passrate: Anteil erfolgreicher Checks entlang kritischer Pfade.
MTTD/MTTR für Datenvorfälle.
Change lead time: Durchschnittliche Zeit für die Anpassung und sichere Freigabe des Schemas.
Tote Assets: Anteil der nicht beanspruchten Vitrinen/Jobs.
14) Werkzeuge (Kategorien)
Katalog/Glossar/Lineage: einzelner Metadatengraph, Import aus SQL/Orchestratoren/Bus.
Orchestrierung: Sammlung von Laufzeitmetadaten, Aufgabenstatus, SLA.
Schema Registry/Contracts: Kompatibilitätsprüfungen, Versionsrichtlinien.
DQ/Observability: Regeln, Anomalien, Frische, Volumen.
Sec/Access: PII-Tags, RBAC/ABAC, Audit.
ML Registry: Version von Modellen, Artefakten und Datasets.
15) Vorlagen (gebrauchsfertig)
15. 1 Linge-Knotenpass
Name/Domäne/Medium: Eigentümer/Steward:- Die Klassifikation: Public/Internal/Confidential/Restricted (PII)
- Quelle/Input: Tabellen/Topics + Vertragsversionen
- Transformation: SQL/Job/Repo + Commit
- Outputs/Konsumenten: Schaufenster/Dashboards/Modelle
- Beobachtbarkeitssignale: Frische, Volumen, Anomalien
- Historie der Vorfälle: Links zu Tickets/Post-Mortem
15. 2 Kommunikationskarte (Spaltenebene)
Aus dem Feld: schema. table. col (Typ, nullbar)
Im Feld: schema. table. col (Typ, nullbar)
Transformationsregel: Ausdruck/Funktion/Wörterbuch
Qualitätskontext: Prüfungen, Bereiche, Referenzen
15. 3 Playbook der Untersuchung des Vorfalls
1. Bestimmen Sie den betroffenen KPI/Dashboard → 2) Verfolgen Sie den Weg nach oben (Upstream) zur Quelle →
2. Überprüfen Sie die Frische/Volumen/DQ auf jedem Knoten → 4) Finden Sie die letzte Änderung des Codes/Schemas →
3. Vergleichen Sie prod/stage/gestern → 6) Weisen Sie Fixierung und backfill → 7) Post-mortem und Regel für die Zukunft.
16) Prozesse und Integrationen
On-Change: Jedes Merge in einem Repo, das das Schema/SQL ändert, löst eine Lineal-Reassemblierung und eine Impact-Analyse aus.
On-Run: Jeder erfolgreiche/gescheiterte Job schreibt Laufzeitmetadaten in einen Graph.
Access-hooks: Zugriffsanfragen weisen den Weg zur PII und den verantwortlichen Eigentümern.
Governance-Rituale: Wöchentliche Überprüfung kritischer Pfade, monatlicher SLO-Bericht.
17) Umsetzungsfahrplan
0-30 Tage (MVP)
1. Identifizieren Sie kritische KPIs/Dashboards und deren End-to-End-Pfade.
2. Verbinden Sie das SQL/Jobparsing für die Tabellenzeile.
3. Erstellen Sie ein Knoten-/Kommunikationsdatenblatt und minimale Frischemetriken.
4. Beschreiben Sie PII-Tags in Schlüsselpfaden (KYC, Zahlungen).
60-90 Tage
1. Gehe zum Spaltenniveau für Top-Schaufenster.
2. Integration der Laufzeitmetadaten des Orchestrators (Zeit, Lautstärke, Status).
3. DQ-Regeln mit Graph verknüpfen, Alerts aktivieren.
4. Visualisierung: Filter nach Domäne/Besitzer/PII, Overlay Frische.
3-6 Monate
1. Verträge und Schema-Register auf dem Event-Bus (Spiel-/Payment-Feeds).
2. Der komplette Track der ML-Linie (dannyye→fichi→model→inferens).
3. Die Impact-Analyse in CI → den Besitzern von Abhängigkeiten automatische Tickets.
4. Column-Level-Abdeckung ≥70% der aktiven Vitrinen; Berichterstattung über SLOs.
18) Muster und Anti-Muster
Muster:- Graph-first: ein einzelner Metadatengraph als „Kompass“ der Veränderung.
- Contract-aware-Linie: Verknüpfung mit Schemaversionen und Validierungsergebnissen.
- Observability overlay: Frische/Volumen/DQ über dem Graph.
- Produkt-Denken: Domain-Inhaber veröffentlichen zertifizierte „Datenprodukte“.
- „Bild für Bild“ ohne automatische Sammlung und Unterstützung.
- Manuelle Mind Maps statt Parsing und Laufzeitwahrheiten.
- Keine Säulendetails in kritischen KPI-Pfaden.
- Linge ohne Verknüpfung mit Access/PII und DSAR/Legal Hold Prozessen.
19) Praktische Checklisten
Vor der Freigabe der Datenänderung
- Vertrag aktualisiert, Kompatibilitätsprüfung bestanden
- Impact Analyse der Abhängigkeiten durchgeführt
- v2-Showcase parallel montiert, Vergleich der Metriken ok
- Backfill und Rollback Plan dokumentiert
Wochenrückblick
- Kritische Wege grün nach Frische
- Keine „verwaisten“ Job-/Schaufenster
- DQ-Vorfälle werden geschlossen und dokumentiert
- Abdeckung column-level> Zielschwelle
Ergebnis
Die Linie macht aus chaotischen Datenströmen eine überschaubare Geländekarte: Man sieht, woher was kam, wer antwortet, welche Risiken und wie man sicher wechselt. Für iGaming ist es die Basis für Vertrauen in KPIs, Experimentiergeschwindigkeit und ausgereifte Compliance.