Kaynak ve veri yolu
1) Veri Soyu Nedir
Data Lineage, verilerin bir "yaşam öyküsü'dür: doğum yerinden (kaynak) dönüşümler ve transferlerden vitrinlere, raporlara ve modellere. Lineage soruları yanıtlıyor:- Rapordaki rakamlar nereden geliyor?
- Şema değişikliğinden hangi tablolar/alanlar etkilenecek?
- KPI dün akşam 9'da neden değişti?
- Hangi veriler belirli bir modele ve ML sürümüne girdi?
IGaming için bu, düzenleme, finansal raporlama (GGR/NET), dolandırıcılıkla mücadele, KYC/AML, sorumlu oyun ve ürün değişikliklerinin yüksek hızı nedeniyle kritik öneme sahiptir.
2) Soy seviyeleri ve granülerlik
1. İş soyu - metrikleri ve iş terimlerini (sözlükten) vitrinlere/formüllere bağlama.
2. Teknik hat (tablo) - tablolar/işler/dönüşüm paketleri arasındaki ilişkiler.
3. Alan/sütun düzeyi - hangi kaynak sütunu kuralları olan hedef sütunu oluşturur.
4. Runtime-lineage (operational) - gerçek çalışır: zamanlar, birimler, kod/şema sürümleri, karma eserler.
5. Uçtan uca - sağlayıcıdan/PSP/CRM'den rapor/gösterge tablosu/modele uçtan uca yol.
6. Çapraz etki alanı/Mesh - sözleşmeler kapsamında etki alanı veri ürünleri arasındaki bağlantılar.
3) Anahtar değeri
Güven ve denetim: Raporların ve modellerin açıklanabilirliği, olayların hızlı bir şekilde araştırılması.
Etki analizi: şemalarda/mantıkta güvenli değişiklikler, salımların öngörülebilirliği.
Onboarding hızı: Yeni analistler ve mühendisler manzarayı daha hızlı anlarlar.
Uyumluluk: PII izlenebilirliği, Yasal Bekletme, düzenleyicilere raporlama.
Maliyet optimizasyonu: Ölü boru hatlarının ve yinelenen vitrinlerin tanımlanması.
4) Nesneler ve eserler
Grafik varlıkları: Kaynak (oyun sağlayıcısı, PSP, CRM), Konu/Akış, Ham/Evreleme, Bronz/Gümüş/Altın, DWH, ML özellikleri, BI modeli, Dashboard.
İlişkiler: Dönüşümler (SQL/ELT), jabs (Airflow/DBT/...), modeller (sürüm), sözleşmeler (Avro/Proto/JSON Schema).
Nitelikler: sahibi, etki alanı, sınıflandırma, şema sürümü, kalite kontrolü, tazelik, SLO/SLI.
5) Soy için hakikat kaynakları
Statik: SQL/configs (dbt, ETL) - yapı bağımlılıklarını ayrıştırma.
Dinamik/Çalışma Zamanı - çalışma zamanında meta veri toplayın (orkestratördeki ifade, sorgu günlükleri).
Olay: Veriyolunda mesaj yayınlama/okuma sırasındaki soy olayları (Kafka/Pulsar), sözleşmelerin doğrulanması.
Manuel (minimum) - Otomatik olarak alınmayan karmaşık iş mantığını açıklar.
6) Soy ve Veri Sözleşmeleri
Sözleşme şema, semantik ve SLA'yı düzeltir.
Uyumluluk kontrolü (semver) ve idempotency gereklidir.
Linige, sözleşmeye/sürüme ve kontrolü geçme gerçeğine (CI/CD + çalışma zamanı) bir bağlantı tutar.
7) iGaming'de Lineage: Etki Alanı Örnekleri
Oyun etkinlikleri - RTP kümeleri, volatilite, tutma, Oyun Performansı Altın vitrin.
Ödemeler/çıktılar/ters ibrazlar - GGR/NET raporları, sahtekarlık karşıtı sinyaller.
KYC/AML - durumlar, kontroller, uyarılar - uyumluluk durumları ve raporlama.
Sorumlu Oyun - sınırlar/kendini dışlama - risk puanlama ve müdahale tetikleyicileri.
Pazarlama/CRM - kampanyalar, bonuslar, bahisler - LTV/ARPPU üzerindeki etkisi.
8) Grafik görselleştirme
Öneriler:- İki mod, tarladan tarlaya "manzara haritası" (makro) ve "iz" (mikro)'dir.
- Filtreler: etki alanına, sahibine, sınıflandırmaya (PII), çevreye (prod/stage), zamana göre.
- Kaplamalar: tazelik, hacimler, DQ hataları, şema sürümleri.
- Hızlı adımlar: "Bağımlıları göster", "Bu sütunu kim tüketiyor? ", "KPI panosuna giden yol".
9) Etki analizi ve değişim yönetimi
Şemayı/mantığı değiştirmeden önce, what-if'i çalıştırın: hangi jabs/showcases/dashboard'lar/modeller etkilenecektir.
Bağımlı eserlerin sahiplerine biletlerin otomatik olarak oluşturulması.
Vitrinler için çift yazma/mavi-yeşil desen: v2 paralel, metrik karşılaştırma, anahtarlama ile doldurulur.
Dolgu oyun kitapları: Geçmiş verilerin nasıl ve nasıl yükleneceği, tutarlılığın nasıl kontrol edileceği.
10) Linaj ve veri kalitesi (DQ)
DQ kurallarını grafik düğümleri/alanları ile ilişkilendirin: geçerlilik, benzersizlik, tutarlılık, zamanındalık.
İhlal durumunda, raylarda "kırmızı segmentler" görüntüleyin ve sahiplerine uyarı verin.
DQ olaylarının geçmişini ve KPI'lar üzerindeki etkilerini saklayın.
11) ML/AI için Linage
İzlenebilirlik - veri kümesi> Özellikler> Eğitim Kodu> Model (versiyon)> Çıkarım.
Fix commits, eğitim parametreleri, framework sürümleri, doğrulama verileri.
Lineage, sürüklenmeyi, metrik regresyonu araştırmaya ve sonuçları yeniden üretmeye yardımcı olur.
12) Linage ve Gizlilik/Uyumluluk
Etiket PII/finansal alanlar, ülkeler, hukuk (GDPR/yerel), işleme temeli.
Maskeleme/aliasing/anonimleştirmenin uygulandığı düğümleri işaretleyin.
DSAR/Unutulma hakkı için, konunun hangi pencerelerde/yedeklemelerde bulunduğunu takip edin.
13) Lineage için Metrikler (SLO/SLI)
Kapsama: Sütun linejet içeren tabloların/alanların %'si.
Tazelik SLI: SLA güncellemesine uyan düğümlerin oranı.
DQ geçiş hızı: Kritik yollara göre başarılı kontrollerin oranı.
Veri olayları için MTTD/MTTR.
Değişim teslim süresi: Bir şemayı müzakere etmek ve güvenli bir şekilde serbest bırakmak için ortalama süre.
Ölü varlıklar: sahipsiz vitrin/iş oranı.
14) Araçlar (kategoriler)
Katalog/Sözlük/Lineage: tek meta veri grafiği, SQL/orchestrators/bus'dan içe aktarma.
Orkestrasyon: çalışma zamanı meta verilerini, görev durumlarını, SLA'ları toplama.
Şema Kayıt Defteri/Sözleşmeler - uyumluluk kontrolleri, sürüm politikaları.
DQ/Gözlemlenebilirlik: kurallar, anomaliler, tazelik, hacimler.
Sec/Erişim: PII etiketleri, RBAC/ABAC, denetim.
ML Registry: Modellerin, artifaktların ve veri kümelerinin bir versiyonu.
15) Şablonlar (kullanıma hazır)
15. 1 Linja birimi pasaportu
Ad/Etki Alanı/Çevre: Sahibi/Sorumlusu:- Sınıflandırma: Genel/Dahili/Gizli/Kısıtlı (PII)
- Kaynak/Girdiler: Tablolar/Konular + Sözleşme Sürümleri
- Dönüşüm: SQL/job/repo + commit
- Çıktılar/Tüketiciler: vitrinler/gösterge tabloları/modeller
- Gözlemlenebilirlik sinyalleri: tazelik, hacim, anomaliler
- Olay geçmişi: Biletlere bağlantılar/post-mortem
15. 2 İletişim kartı (sütun düzeyinde)
Alandan: şema. masa. col (tip, nullable)
Alanında: şema. masa. col (tip, nullable)
Dönüşüm kuralı: ifade/işlev/sözlük
Kalite bağlamı: kontroller, aralıklar, referanslar
15. 3 Olay soruşturma Playbook
1. Etkilenen KPI/Gösterge Tablosunu Tanımlayın - 2) Kaynağa Yukarı Akış
2. Her düğümde tazeliği/hacimleri/DQ'yu kontrol edin - 4) Son kodu/şema değişikliğini bulun
3. Üretimi/sahneyi/dün 6) Saplantı ve geri doldurma atayın 7) Ölüm sonrası ve gelecek için kural.
16) Süreçler ve entegrasyonlar
On-change: Şema/SQL'i değiştiren repoya her birleştirme, bir soy yeniden oluşturma ve etki analizini tetikler.
On-run: her başarılı/başarısız iş, çalışma zamanı meta verilerini bir grafiğe yazar.
Access-hooks: Erişim istekleri PII ve sorumlu sahiplerine giden yolu gösterir.
Yönetişim ritüelleri: Kritik yolların haftalık incelemesi, SLO hakkında aylık rapor.
17) Uygulama Yol Haritası
0-30 gün (MVP)
1. Kritik KPI'ları/panoları ve bunların uçtan uca yollarını belirleyin.
2. Tablolar için SQL ayrıştırma/işleri bağlayın.
3. Düğüm/iletişim pasaportunu ve minimum tazelik metriklerini girin.
4. Anahtar yollardaki PII etiketlerini açıklayın (KYC, ödemeler).
60-90 gün
1. Üst vitrinler için sütun seviyesine gidin.
2. Orkestratör çalışma zamanı meta verilerini (zaman, hacim, durumlar) tümleştirin.
3. DQ kurallarını bir grafikle ilişkilendirin, uyarılar ekleyin.
4. Görselleştirme: alan/sahip/PII tarafından filtreler, tazelik kaplamaları.
3-6 ay
1. Etkinlik otobüsündeki planların sözleşmeleri ve kayıtları (oyun/ödeme beslemeleri).
2. Tam parça ML-soy (dannyye ^ fichi ^ model ^ inferens).
3. CI'da etki analizi - bağımlılık sahiplerine otomatik biletler.
4. Sütun düzeyinde kapsam ≥70 Aktif vitrinlerin %'si; SLO rapor veriyor.
18) Desenler ve anti-desenler
Desenler:- Graph-first: Değişikliklerin "pusulası'olarak tek bir meta veri grafiği.
- Sözleşmeye duyarlı soy: şema sürümleri ve doğrulama sonuçları ile ilişki.
- Gözlem yerleşimi: tazelik/hacimler/DQ over graph.
- Ürün düşüncesi: Alan sahipleri sertifikalı "veri ürünleri" yayınlar.
- Otomatik toplama ve destek olmadan "resim uğruna resim".
- Ayrıştırma ve runtime-truth yerine elde tutulan zihin haritaları.
- Kritik KPI yollarında sütun detaylandırma eksikliği.
- Erişimler/PII ve DSAR/Legal Hold süreçleri ile bağlayıcı olmayan Linage.
19) Pratik kontrol listeleri
Veri değişikliklerini yayınlamadan önce
- Sözleşme güncellendi, uyumluluk geçti
- Bağımlılık etkisi analizi tamamlandı
- v2-vitrin paralel olarak toplandı, metriklerin karşılaştırılması
- Geri doldurma ve geri alma planı belgelendi
Haftalık inceleme
- Kritik yollar tazelikte yeşildir
- Hiçbir yetim iş/vitrinler
- DQ olayları kapatıldı ve belgelendi
- Sütun seviyesi> hedef eşiğin kapsamı
Sonuç
Lineage, kaotik veri akışlarını bölgenin yönetilebilir bir haritasına dönüştürür: neyin nereden geldiğini, kimin sorumlu olduğunu, hangi riskleri ve nasıl güvenli bir şekilde değişeceğini görebilirsiniz. IGaming için bu, KPI'lara, deneylerin hızına ve olgun uyumluluğa duyulan güvenin temelidir.