GH GambleHub

Veri yaşam döngüsü

1) Amaç ve prensipler

Amaç, verilerin başlangıçtan nihai kullanıma kadar öngörülebilir, uyumlu ve uygun maliyetli bir şekilde hareket etmesini sağlamak, analitik, operasyonel ve düzenleyici senaryoları desteklemektir.

Temel prensipler:
  • Ürün Olarak Veri: Her setin bir sahibi, sözleşmesi, SLO'su, belgeleri vardır.
  • Şema-ilk: şemalar gereklidir; Değişiklikler - sürüm oluşturma yoluyla.
  • Privacy-by-Design: PII minimizasyonu, takma isimlendirme, bölgesel depolama.
  • Observation-by-Default: metrics, access logging, lineage.
  • Maliyet bilincinde: depolama seviyeleri, TTL, örnekleme, sıkıştırma.

2) Yaşam döngüsü aşamaları

2. 1 Oluştur/Topla

Kaynaklar: ürünler (web/mobil), arka uçlar, ödemeler, KYC/AML sağlayıcıları, oyunlar/stüdyolar, pazarlama, işletme günlükleri.
Tanımlayıcılar: 'event _ id', 'user. pseudo_id', 'session _ id', 'trace _ id'.
Sözleşmeler: JSON/Avro şemaları, AsyncAPI/OpenAPI.
Giriş kalitesi: şemaların doğrulanması, zorunlu alanlar, boyut sınırları, anti-kopyalar.
Gizlilik: hassas alanların tokenizasyonu, coğrafi yönlendirme alımı (EEA/UK/BR).

2. 2 Ingest & Raw

Taşıma: HTTP/gRPC - Kenar - veri yolu (Kafka/Redpanda).
Ham katman (Bronz): Sadece eklenebilir, değişmez yükler (adli tıp için), zamana/pazara/kiracıya göre bölümleme.
Politikacılar: '(event_id, kaynak)'ile dedup, "kırık" olaylar için DLQ, Legal Hold etiketleri.

2. 3 İşleme ve temizlik (Rafine)

Normalleştirme (Gümüş): yazma, veri tekilleştirme, dizinler, FX/saat dilimleri, zenginleştirme.
Kalite (DQ): bütünlük/benzersizlik/aralıklar/referans bütünlüğü.
Yeniden işleme: idempotent konveyörler, zaman yolculuğu, kontrollü arka dolgular.

2. 4 Servis/Kullanım

Altın vitrinler: BI/raporlama (GGR, RG, AML), ürün ve risk modelleri, gerçek zamanlı vitrinler.
Erişim: SQL/Trino, anlamsal metrikler katmanı, API/GraphQL, Feature Store.
SLA tazeliği: Örneğin, Gold-günlük vitrinler yerel saatle 06:00'a kadar hazırdır.

2. 5 Paylaş ve Yayınla

İç tüketiciler: Analitik, Ürün, Risk, Uyum, Pazarlama, Finans.
Dış yükler: düzenleyiciler, ortaklar/sağlayıcılar; Değişmez paketler (PDF/CSV/JSON + karma).
İzlenen kanallar: imzalı eserler, denetim indirmeleri/dışa aktarmaları.

2. 6 Arşiv/Koru

Saklama politikaları: veri türüne ve yargı yetkisine göre (örn. Düzenleyici - 5-7 yıl).
Depolama katmanları: sıcak/sıcak/soğuk, değişmezlik için WORM/Nesne Kilidi.
Arşiv dizini oluşturma: dizinler, sürüm/pazar etiketleri, hızlı meta veri araması.

2. 7 Kaldır ve Bitir (Atın)

Ortak kaldırma: TTL/tutma; Güvenli temizlik, indekslerin güncellenmesi.
Yasal işlemler: DSAR/RTBF (unutulma hakkı), yasal depolama yükümlülükleri için istisnalar, Yasal Bekletme (dondurma kaldırma).
Doğrulama: silme raporları, denetim günlüğü, çapraz kopya kontrolü.

3) Sınıflandırma ve katalog

Duyarlılık kategorileri: public/internal/confidential/restricted.
Домены: Ödemeler, Oyun, Uyumluluk/AML, RG, Pazarlama, Ops, Finans.
Veri kataloğu: açıklama, sahip, tazelik SLA, şemalar, soy, erişim seviyeleri.
Теги: 'jurisdiction', 'tenant', 'pii _ class', 'retention _ class', 'legal _ hold'.

4) Lakehouse modeli ve şemaları

Bronz/Gümüş/Altın: Dönüşüm ve sorumluluk için açık kurallar.
Formatlar: Parke + ACID'li masa formatı (Delta/Iceberg/Hudi).
Şemaların evrimi: anlamsal versiyonlar, uzunlamasına uyumluluk, değişiklikleri kırmak için çift girişli geçişler.
Registry: Schema Registry, sözleşmelerin CI-doğrulaması, tüketici odaklı testler.

5) Veri kalitesi (DQ)

Kalite metrikleri:
  • Tamlık - Gerçekte alınan olayların/satırların yüzdesi.
  • Geçerlilik: Şema doğrulamasını geçen kayıtların oranı.
  • Benzersizlik: yinelenen denetim.
  • Tutarlılık: referans kitaplarına ve bağlantılara uygunluk.
  • Tazelik: gecikmiş varış/gerçekleşme.
Uygulamalar:
  • Kod olarak DQ kuralları (YAML/SQL testleri), panolar, SLO uyarıları.
  • Bozulma sırasında otomatik geri dönüş (son doğru kesim).

6) Gizlilik ve uyumluluk

PII minimizasyonu: pseudo-ID'yi depolayın, eşlemeleri izole bir döngüye alın.
Maskeleme ve RLS/CLS: sütun/satır düzeyinde; dinamik politikalar.
Bölgeselleştirme: pazara göre veri ikametgahı; Ayrı dizinler/şifreleme anahtarları.
DSAR/RTBF: kontrollü projeksiyonlar, seçici düzenlemeler, denetim sorunları.
Yasal Bekletme: dondurma işaretleri, değişmeyen arşivler, erişim günlüğü.

7) Erişim ve güvenlik

Kimlik doğrulama/yetkilendirme: SSO, RBAC/ABAC, yetki alanlarının ve rollerin nitelikleri.
Şifreleme: TLS transit; KMS/CMK üzerinden at-rest; Anahtar rotasyon.
Erişim günlükleri: kim/ne/ne zaman/nerede; Toplu ihracat/taramalar için uyarılar.
Görev ayrımı: prod/analytics/admins/reviewers için farklı roller.

8) Soy ve gözlemlenebilirlik

Teknik soy: kaynaktan - dönüşüm - vitrinler - raporlar.
Operasyonel soy: sürümlerle bağlantılar, özellik bayrakları, modeller, AML/RG kuralları.
Platform metrikleri: iş hacmi, gecikme, hata oranı, maliyet/sorgu, maliyet/GB.
İzleme: Uygulamalardan vitrinlere/uyarılara 'trace _ id' aktarımı.

9) Zaman modelleri ve retro işlemler

Event-time vs Processing-time: приоритет event-time, filigranlar/izin verilen gecikme süresi.
Dolgu ve yeniden işleme: idempotent boru hatları, zaman yolculuğu, "çift sayma" kontrolü.
Kaydetme durumları: TTL, anlık görüntüler, felaket kurtarma.

10) Ekonomi ve maliyet kontrolü

Bölümleme (tarih/pazar/kiracı), kümeleme/Z-sipariş.
Yüksek frekanslı analizler için örnekleme (işlemler/uyumluluk için değil).
Çok katmanlı depolama (sıcak/sıcak/soğuk), otomatik TTL.
Bütçe/takıma göre geri ödeme, ağır talepler ve geri doldurma sınırları.

11) Süreçler ve RACI

R (Sorumlu): Veri Platformu (alım/depolama/orkestrasyon), Veri Mühendisliği (dönüşüm), Alan adı sahipleri (Sözleşmeler/DQ/SLO).
A (Sorumlu): Veri Başkanı/Baş Veri Sorumlusu.
C (Consulted): Uyumluluk/Yasal/DPO, Mimari, SRE, Güvenlik.
I (Informed): BI/Продукт/Маркетинг/Финансы/Операции.

12) SLO/SLI (örnek hedefler)

GöstergeAmaç
Tazelik Gümüş p95≤ 15 dakika
Altın günlük vitrinler06:00 kilidine kadar. zaman
T за bütünlüğü≥ 99. 5%
Geçerlilik (şemalar)≥ 99. 9%
Sörf kullanılabilirliği≥ 99. 9%
DSAR yanıt süresi≤ 30 gün (yerel yasalarla daha katı)

13) Panolar

Etki alanına/pazara göre tazelik ısı haritası.
Bütünlük/Geçerlilik iş parçacığı ile.
Depolama ve sorguların maliyeti (katman ve komut ile).
Kritik raporlar için lineage haritası (düzenleyici, GGR, RG/AML).
DSAR/RTBF kuyrukları, Legal Hold durumları.

14) Saklama politikası şablonları (örnek)

Veri sınıfıSıcakSıcakArşiv (WORM)Toplam TTL
Ödeme işlemleri7 d60 d7 yıl7 yıl
Oyun Etkinlikleri (Analytics)3 d30 d1-2 yıl1-2 yıl
Uyumluluk/AML Artifacts14 d90 d5-7 yıl5-7 yıl
Çalışma günlükleri3 d30 d1 yıl1 yıl

Gerçek tarihler Yasal/DPO ve yerel yasalar tarafından belirlenir.

15) Dokümantasyon ve standartlar

Veri Ürün sayfası: sahibi, hedef, SLA, şemalar, DQ kuralları, kişiler.
Günlüğü değiştir: şema/mantık sürümleri, etki analizi, geçişler.
Runbooks: yeniden işleme, dolgu, acil durum senaryoları, friz düğmesi.

16) Uygulama Yol Haritası

MVP (4-6 hafta):

1. Veri kataloğu ve sınıflandırma (üst alan adları), temel şemalar ve kayıt.

2. Lakehouse Bronz/Gümüş, doğrulama ve veri tekilleştirme ile yutma.

3. 1-2 Altın kasalar (örn. GGR ve dönüşüm).

4. Minimum DQ kuralları ve Tazelik/Bütünlük panosu.

5. Saklama politikaları ve RBAC'lere erişim.

Faz 2 (6-12 hafta):
  • Linaj, metriklerin anlamsal katmanı, DSAR/RTBF prosedürleri.
  • Bölgeselleştirme (EEA/İngiltere), düzenleyici eserler için WORM, Legal Hold.
  • Maliyet optimizasyonu, SLO uyarıları, bütçe raporlaması.
Faz 3 (12 + hafta):
  • Data Mesh (domain ürünleri), tüketici odaklı sözleşmeler ve testler.
  • Şemaları/mantığı değiştirirken etkinin otomatik simülasyonu, tekrarlar.
  • Tek uyumluluk paneli (düzenleyici, erişim, DQ, soy).

17) Satış öncesi kontrol listesi

  • Onaylanan şemalar, kayıt sözleşmeleri, uyumluluk testleri.
  • DQ kuralları etkindir, uyarılar yapılandırılır, SLO'lar ayarlanır.
  • RBAC/ABAC rolleri kontrol edildi, erişim günlükleri etkinleştirildi.
  • Saklama/silme/arşiv politikaları Legal/DPO tarafından doğrulanmıştır.
  • DSAR/RTBF/Legal Hold prosedürleri belgelenmiş ve test edilmiştir.
  • Lineage/metrics/cost panolarda görüntülenir.
  • Geri doldurma/yeniden işleme/DR için Runbook'lar hazır.

18) Sık yapılan hatalar ve bunlardan nasıl kaçınılacağı

Tek bir sınıflandırma ve dizin yoktur: zorunlu Veri Ürünü kartlarını girin.
Şemaları olmayan ham veriler: şema-ilk + CI doğrulama.
Taşınabilirlik yok: TTL'leri ve RTBF süreçlerini baştan tasarlayın.
PII ve analitik karışımı: haritaları ayrı ayrı saklayın, maskeleme uygulayın.
Sahibi ve SLO olmadan altın: Sahibi ve tazelik hedeflerini atayın.
Yönetilmeyen maliyet: partiler, sıkıştırma, katmanlı depolama, kotalar.

19) Sözlük (kısa)

DSAR/RTBF - veri konusu isteği/silme hakkı.
Yasal Tutma - yasal nedenlerle kaldırma dondurma.
Lineage - menşe ve dönüşümlerin izlenebilirliği.
Data Product, SLA'larla yönetilen bir ürün birimidir.
DQ - veri kalitesi kuralları ve metrikleri.
Lakehouse - veri gölü ve ACID tablolarını birleştiriyor.

20) Alt satır

Veri yaşam döngüsü, yalnızca bir dosya deposu değil, yönetilen bir düzenleme sistemidir. Açık sözleşmeler ve planlar, sınıflandırma ve katalog, ölçülebilir kalite, gizlilik ve güvenlik, uygun maliyetli depolama mimarisi ve şeffaf soy, verileri ürün, uyumluluk ve analitiği sürprizler ve gizli riskler olmadan destekleyen güvenilir bir varlık haline getirir.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.