GH GambleHub

Herkunft und Pfad der Daten

1) Was ist Data Lineage

Data Lineage ist die „Lebensgeschichte“ von Daten: vom Geburtsort (Quelle) über Transformationen und Transporte bis hin zu Schaufenstern, Berichten und Modellen. Linej beantwortet die Fragen:
  • Woher kommen die Zahlen im Bericht?
  • Welche Tabellen/Felder sind von der Schemaänderung betroffen?
  • Warum hat sich der KPI gestern um 21:00 Uhr geändert?
  • Welche Daten sind in ein bestimmtes ML-Modell und eine bestimmte ML-Version eingeflossen?

Für iGaming ist dies aufgrund der Regulierung, der Finanzberichterstattung (GGR/NET), der Betrugsbekämpfung, des KYC/AML, des verantwortungsvollen Spiels und der hohen Geschwindigkeit des Produktwechsels kritisch.

2) Niveaus und Granularität der Linie

1. Business Line - Verknüpfung von Metriken und Geschäftsbegriffen (aus dem Glossar) mit Vitrinen/Formeln.
2. Technische Linie (tabellarisch) - Beziehungen zwischen Tabellen/Jobs/Transformationspaketen.
3. Spalte (Feld/Spalte-Ebene) - Welche Spalte der Quelle bildet die Zielspalte, mit Regeln.
4. Laufzeitlinie (operativ) - tatsächliche Durchläufe: Zeiten, Volumen, Code-/Schemaversionen, Hash-Artefakte.
5. End-to-End - Der End-to-End-Weg vom Anbieter/PSP/CRM zum Report/Dashboard/Model.
6. Cross-Domain/Mesh - Verbindungen zwischen Domain-Datenprodukten durch Verträge.

3) Schlüsselwert

Vertrauen und Audit: Erklärbarkeit von Berichten und Modellen, schnelle Untersuchung von Vorfällen.
Impact-Analyse: sichere Schaltungs-/Logikänderungen, Vorhersagbarkeit von Releases.
Onboarding-Geschwindigkeit: Neue Analysten und Ingenieure verstehen die Landschaft schneller.
Compliance: Rückverfolgbarkeit von PII, Legal Hold, Berichterstattung an die Aufsichtsbehörden.
Kostenoptimierung: Identifizierung von „toten“ Pipelines und doppelten Schaufenstern.

4) Objekte und Artefakte

Grafische Entitäten: Quelle (Spieleanbieter, PSP, CRM), Thema/Stream, Raw/Staging, Bronze/Silber/Gold, DWH, ML-fici, BI-Modell, Dashboard.
Links: Transformationen (SQL/ELT), Jobs (Airflow/DBT/...), Modelle (Version), Verträge (Avro/Proto/JSON Schema).
Attribute: Besitzer, Domäne, Klassifizierung, Schaltungsversion, Qualitätskontrolle, Frische, SLO/SLI.

5) Wahrheitsquellen für die Linie

Statisch: Parsen von SQL/Config (dbt, ETL) → konstruieren Abhängigkeiten.
Dynamic/Runtime: Sammeln von Metadaten zur Laufzeit (Operator im Orchestrator, Abfrageprotokolle).
Event: Lineage-Events beim Veröffentlichen/Lesen von Nachrichten im Bus (Kafka/Pulsar), Validierung von Verträgen.
Manuell (Minimum): Beschreibung einer komplexen Geschäftslogik, die nicht automatisch extrahiert wird.

6) Lineare und Datenverträge

Der Vertrag erfasst Schema, Semantik und SLA.
Kompatibilitätsprüfung (Sieben) und Idempotenz - obligatorisch.
Die Zeile speichert den Verweis auf den Vertrag/die Version und die Tatsache, dass die Prüfung bestanden wurde (CI/CD + Laufzeit).

7) Linie in iGaming: Domain-Beispiele

Gaming-Events → RTP-Aggregate, Volatilität, Retention, Showcase „Game Performance Gold“.
Zahlungen/Schlussfolgerungen/Charjbacks → GGR/NET-Berichte, Betrugsbekämpfungssignale.
KYC/AML → Status, Inspektionen, Alerts → Compliance-Vitrinen und Berichterstattung.
Responsible Gaming → Limits/Selbstausschluss → Risikoscoring und Interventionsauslöser.
Marketing/CRM → Kampagnen, Boni, Wetten → Auswirkungen auf LTV/ARPPU.

8) Visualisierung des Graphen

Empfehlungen:
  • Zwei Modi: „Landscape Map“ (Makro) und „Through Track“ (Mikro) von Feld zu Feld.
  • Filter: nach Domäne, Eigentümer, Klassifizierung (PII), Umgebung (prod/stage), Zeit.
  • Overlays: Frische, Volumen, DQ-Fehler, Schaltungsversionen.
  • Schnelle Aktionen: "Abhängige anzeigen", "Wer verbraucht diese Spalte? ", "Der Weg zum KPI-Dashboard".

9) Impact Analyse und Change Management

Bevor Sie das Schema/die Logik ändern, führen Sie what-if aus: welche Jobs/Vitrinen/Dashboards/Modelle betroffen sind.
Automatische Generierung von Tickets an Besitzer abhängiger Artefakte.
Dual-Write/Blau-Grün-Muster für Schaufenster: v2 wird parallel gefüllt, Metriken vergleichen, umschalten.
Backfill-Playbooks: wie und wie man historische Daten einholt, wie man die Konsistenz überprüft.

10) Linearität und Datenqualität (DQ)

Verknüpfen Sie die DQ-Regeln mit den Knoten/Feldern des Graphen: Gültigkeit, Einzigartigkeit, Konsistenz, Aktualität.
Zeigen Sie bei Verstößen „rote Segmente“ auf den Gleisen an und heben Sie die Warnhinweise an die Besitzer.
Speichern Sie den Verlauf von DQ-Vorfällen und deren Auswirkungen auf KPIs.

11) Linie für ML/AI

Rückverfolgbarkeit: Dataset → Features → Trainingscode → Modell (Version) → Inferenz.
Commits, Trainingsparameter, Framework-Versionen, Validierungsdaten erfassen.
Die Linie hilft, Drift, Regression von Metriken zu untersuchen und Ergebnisse zu reproduzieren.

12) Linie und Privatsphäre/Compliance

Kennzeichnen Sie PII/Finanzfelder, Länder, Gesetz (DSGVO/lokal), Grundlage der Verarbeitung.
Markieren Sie die Knoten, bei denen Maskierung/Pseudonymisierung/Anonymisierung angewendet wird.
Für DSAR/Right to be forgotten verfolgen Sie, in welchen Vitrinen/Backups das Subjekt vorhanden ist.

13) Metriken (SLO/SLI) für die Linie

Abdeckung:% der Tabellen/Felder mit Säulenlinie.
Freshness SLI: Der Anteil der Knoten, die in ein SLA-Update passen.
DQ-Passrate: Anteil erfolgreicher Checks entlang kritischer Pfade.
MTTD/MTTR für Datenvorfälle.
Change lead time: Durchschnittliche Zeit für die Anpassung und sichere Freigabe des Schemas.
Tote Assets: Anteil der nicht beanspruchten Vitrinen/Jobs.

14) Werkzeuge (Kategorien)

Katalog/Glossar/Lineage: einzelner Metadatengraph, Import aus SQL/Orchestratoren/Bus.
Orchestrierung: Sammlung von Laufzeitmetadaten, Aufgabenstatus, SLA.
Schema Registry/Contracts: Kompatibilitätsprüfungen, Versionsrichtlinien.
DQ/Observability: Regeln, Anomalien, Frische, Volumen.
Sec/Access: PII-Tags, RBAC/ABAC, Audit.
ML Registry: Version von Modellen, Artefakten und Datasets.

15) Vorlagen (gebrauchsfertig)

15. 1 Linge-Knotenpass

Name/Domäne/Medium: Eigentümer/Steward:
  • Die Klassifikation: Public/Internal/Confidential/Restricted (PII)
  • Quelle/Input: Tabellen/Topics + Vertragsversionen
  • Transformation: SQL/Job/Repo + Commit
  • Outputs/Konsumenten: Schaufenster/Dashboards/Modelle
DQ-Regeln/SLO:
  • Beobachtbarkeitssignale: Frische, Volumen, Anomalien
Kritische Pfadabhängigkeiten für KPIs:
  • Historie der Vorfälle: Links zu Tickets/Post-Mortem

15. 2 Kommunikationskarte (Spaltenebene)

Aus dem Feld: schema. table. col (Typ, nullbar)

Im Feld: schema. table. col (Typ, nullbar)

Transformationsregel: Ausdruck/Funktion/Wörterbuch

Qualitätskontext: Prüfungen, Bereiche, Referenzen

15. 3 Playbook der Untersuchung des Vorfalls

1. Bestimmen Sie den betroffenen KPI/Dashboard → 2) Verfolgen Sie den Weg nach oben (Upstream) zur Quelle →

2. Überprüfen Sie die Frische/Volumen/DQ auf jedem Knoten → 4) Finden Sie die letzte Änderung des Codes/Schemas →

3. Vergleichen Sie prod/stage/gestern → 6) Weisen Sie Fixierung und backfill → 7) Post-mortem und Regel für die Zukunft.

16) Prozesse und Integrationen

On-Change: Jedes Merge in einem Repo, das das Schema/SQL ändert, löst eine Lineal-Reassemblierung und eine Impact-Analyse aus.
On-Run: Jeder erfolgreiche/gescheiterte Job schreibt Laufzeitmetadaten in einen Graph.
Access-hooks: Zugriffsanfragen weisen den Weg zur PII und den verantwortlichen Eigentümern.
Governance-Rituale: Wöchentliche Überprüfung kritischer Pfade, monatlicher SLO-Bericht.

17) Umsetzungsfahrplan

0-30 Tage (MVP)

1. Identifizieren Sie kritische KPIs/Dashboards und deren End-to-End-Pfade.
2. Verbinden Sie das SQL/Jobparsing für die Tabellenzeile.
3. Erstellen Sie ein Knoten-/Kommunikationsdatenblatt und minimale Frischemetriken.
4. Beschreiben Sie PII-Tags in Schlüsselpfaden (KYC, Zahlungen).

60-90 Tage

1. Gehe zum Spaltenniveau für Top-Schaufenster.
2. Integration der Laufzeitmetadaten des Orchestrators (Zeit, Lautstärke, Status).
3. DQ-Regeln mit Graph verknüpfen, Alerts aktivieren.
4. Visualisierung: Filter nach Domäne/Besitzer/PII, Overlay Frische.

3-6 Monate

1. Verträge und Schema-Register auf dem Event-Bus (Spiel-/Payment-Feeds).
2. Der komplette Track der ML-Linie (dannyye→fichi→model→inferens).
3. Die Impact-Analyse in CI → den Besitzern von Abhängigkeiten automatische Tickets.
4. Column-Level-Abdeckung ≥70% der aktiven Vitrinen; Berichterstattung über SLOs.

18) Muster und Anti-Muster

Muster:
  • Graph-first: ein einzelner Metadatengraph als „Kompass“ der Veränderung.
  • Contract-aware-Linie: Verknüpfung mit Schemaversionen und Validierungsergebnissen.
  • Observability overlay: Frische/Volumen/DQ über dem Graph.
  • Produkt-Denken: Domain-Inhaber veröffentlichen zertifizierte „Datenprodukte“.
Anti-Muster:
  • „Bild für Bild“ ohne automatische Sammlung und Unterstützung.
  • Manuelle Mind Maps statt Parsing und Laufzeitwahrheiten.
  • Keine Säulendetails in kritischen KPI-Pfaden.
  • Linge ohne Verknüpfung mit Access/PII und DSAR/Legal Hold Prozessen.

19) Praktische Checklisten

Vor der Freigabe der Datenänderung

  • Vertrag aktualisiert, Kompatibilitätsprüfung bestanden
  • Impact Analyse der Abhängigkeiten durchgeführt
  • v2-Showcase parallel montiert, Vergleich der Metriken ok
  • Backfill und Rollback Plan dokumentiert

Wochenrückblick

  • Kritische Wege grün nach Frische
  • Keine „verwaisten“ Job-/Schaufenster
  • DQ-Vorfälle werden geschlossen und dokumentiert
  • Abdeckung column-level> Zielschwelle

Ergebnis

Die Linie macht aus chaotischen Datenströmen eine überschaubare Geländekarte: Man sieht, woher was kam, wer antwortet, welche Risiken und wie man sicher wechselt. Für iGaming ist es die Basis für Vertrauen in KPIs, Experimentiergeschwindigkeit und ausgereifte Compliance.

Contact

Kontakt aufnehmen

Kontaktieren Sie uns bei Fragen oder Support.Wir helfen Ihnen jederzeit gerne!

Integration starten

Email ist erforderlich. Telegram oder WhatsApp – optional.

Ihr Name optional
Email optional
Betreff optional
Nachricht optional
Telegram optional
@
Wenn Sie Telegram angeben – antworten wir zusätzlich dort.
WhatsApp optional
Format: +Ländercode und Nummer (z. B. +49XXXXXXXXX).

Mit dem Klicken des Buttons stimmen Sie der Datenverarbeitung zu.