Veri yaşam döngüsü
1) Amaç ve prensipler
Amaç, verilerin başlangıçtan nihai kullanıma kadar öngörülebilir, uyumlu ve uygun maliyetli bir şekilde hareket etmesini sağlamak, analitik, operasyonel ve düzenleyici senaryoları desteklemektir.
Temel prensipler:- Ürün Olarak Veri: Her setin bir sahibi, sözleşmesi, SLO'su, belgeleri vardır.
- Şema-ilk: şemalar gereklidir; Değişiklikler - sürüm oluşturma yoluyla.
- Privacy-by-Design: PII minimizasyonu, takma isimlendirme, bölgesel depolama.
- Observation-by-Default: metrics, access logging, lineage.
- Maliyet bilincinde: depolama seviyeleri, TTL, örnekleme, sıkıştırma.
2) Yaşam döngüsü aşamaları
2. 1 Oluştur/Topla
Kaynaklar: ürünler (web/mobil), arka uçlar, ödemeler, KYC/AML sağlayıcıları, oyunlar/stüdyolar, pazarlama, işletme günlükleri.
Tanımlayıcılar: 'event _ id', 'user. pseudo_id', 'session _ id', 'trace _ id'.
Sözleşmeler: JSON/Avro şemaları, AsyncAPI/OpenAPI.
Giriş kalitesi: şemaların doğrulanması, zorunlu alanlar, boyut sınırları, anti-kopyalar.
Gizlilik: hassas alanların tokenizasyonu, coğrafi yönlendirme alımı (EEA/UK/BR).
2. 2 Ingest & Raw
Taşıma: HTTP/gRPC - Kenar - veri yolu (Kafka/Redpanda).
Ham katman (Bronz): Sadece eklenebilir, değişmez yükler (adli tıp için), zamana/pazara/kiracıya göre bölümleme.
Politikacılar: '(event_id, kaynak)'ile dedup, "kırık" olaylar için DLQ, Legal Hold etiketleri.
2. 3 İşleme ve temizlik (Rafine)
Normalleştirme (Gümüş): yazma, veri tekilleştirme, dizinler, FX/saat dilimleri, zenginleştirme.
Kalite (DQ): bütünlük/benzersizlik/aralıklar/referans bütünlüğü.
Yeniden işleme: idempotent konveyörler, zaman yolculuğu, kontrollü arka dolgular.
2. 4 Servis/Kullanım
Altın vitrinler: BI/raporlama (GGR, RG, AML), ürün ve risk modelleri, gerçek zamanlı vitrinler.
Erişim: SQL/Trino, anlamsal metrikler katmanı, API/GraphQL, Feature Store.
SLA tazeliği: Örneğin, Gold-günlük vitrinler yerel saatle 06:00'a kadar hazırdır.
2. 5 Paylaş ve Yayınla
İç tüketiciler: Analitik, Ürün, Risk, Uyum, Pazarlama, Finans.
Dış yükler: düzenleyiciler, ortaklar/sağlayıcılar; Değişmez paketler (PDF/CSV/JSON + karma).
İzlenen kanallar: imzalı eserler, denetim indirmeleri/dışa aktarmaları.
2. 6 Arşiv/Koru
Saklama politikaları: veri türüne ve yargı yetkisine göre (örn. Düzenleyici - 5-7 yıl).
Depolama katmanları: sıcak/sıcak/soğuk, değişmezlik için WORM/Nesne Kilidi.
Arşiv dizini oluşturma: dizinler, sürüm/pazar etiketleri, hızlı meta veri araması.
2. 7 Kaldır ve Bitir (Atın)
Ortak kaldırma: TTL/tutma; Güvenli temizlik, indekslerin güncellenmesi.
Yasal işlemler: DSAR/RTBF (unutulma hakkı), yasal depolama yükümlülükleri için istisnalar, Yasal Bekletme (dondurma kaldırma).
Doğrulama: silme raporları, denetim günlüğü, çapraz kopya kontrolü.
3) Sınıflandırma ve katalog
Duyarlılık kategorileri: public/internal/confidential/restricted.
Домены: Ödemeler, Oyun, Uyumluluk/AML, RG, Pazarlama, Ops, Finans.
Veri kataloğu: açıklama, sahip, tazelik SLA, şemalar, soy, erişim seviyeleri.
Теги: 'jurisdiction', 'tenant', 'pii _ class', 'retention _ class', 'legal _ hold'.
4) Lakehouse modeli ve şemaları
Bronz/Gümüş/Altın: Dönüşüm ve sorumluluk için açık kurallar.
Formatlar: Parke + ACID'li masa formatı (Delta/Iceberg/Hudi).
Şemaların evrimi: anlamsal versiyonlar, uzunlamasına uyumluluk, değişiklikleri kırmak için çift girişli geçişler.
Registry: Schema Registry, sözleşmelerin CI-doğrulaması, tüketici odaklı testler.
5) Veri kalitesi (DQ)
Kalite metrikleri:- Tamlık - Gerçekte alınan olayların/satırların yüzdesi.
- Geçerlilik: Şema doğrulamasını geçen kayıtların oranı.
- Benzersizlik: yinelenen denetim.
- Tutarlılık: referans kitaplarına ve bağlantılara uygunluk.
- Tazelik: gecikmiş varış/gerçekleşme.
- Kod olarak DQ kuralları (YAML/SQL testleri), panolar, SLO uyarıları.
- Bozulma sırasında otomatik geri dönüş (son doğru kesim).
6) Gizlilik ve uyumluluk
PII minimizasyonu: pseudo-ID'yi depolayın, eşlemeleri izole bir döngüye alın.
Maskeleme ve RLS/CLS: sütun/satır düzeyinde; dinamik politikalar.
Bölgeselleştirme: pazara göre veri ikametgahı; Ayrı dizinler/şifreleme anahtarları.
DSAR/RTBF: kontrollü projeksiyonlar, seçici düzenlemeler, denetim sorunları.
Yasal Bekletme: dondurma işaretleri, değişmeyen arşivler, erişim günlüğü.
7) Erişim ve güvenlik
Kimlik doğrulama/yetkilendirme: SSO, RBAC/ABAC, yetki alanlarının ve rollerin nitelikleri.
Şifreleme: TLS transit; KMS/CMK üzerinden at-rest; Anahtar rotasyon.
Erişim günlükleri: kim/ne/ne zaman/nerede; Toplu ihracat/taramalar için uyarılar.
Görev ayrımı: prod/analytics/admins/reviewers için farklı roller.
8) Soy ve gözlemlenebilirlik
Teknik soy: kaynaktan - dönüşüm - vitrinler - raporlar.
Operasyonel soy: sürümlerle bağlantılar, özellik bayrakları, modeller, AML/RG kuralları.
Platform metrikleri: iş hacmi, gecikme, hata oranı, maliyet/sorgu, maliyet/GB.
İzleme: Uygulamalardan vitrinlere/uyarılara 'trace _ id' aktarımı.
9) Zaman modelleri ve retro işlemler
Event-time vs Processing-time: приоритет event-time, filigranlar/izin verilen gecikme süresi.
Dolgu ve yeniden işleme: idempotent boru hatları, zaman yolculuğu, "çift sayma" kontrolü.
Kaydetme durumları: TTL, anlık görüntüler, felaket kurtarma.
10) Ekonomi ve maliyet kontrolü
Bölümleme (tarih/pazar/kiracı), kümeleme/Z-sipariş.
Yüksek frekanslı analizler için örnekleme (işlemler/uyumluluk için değil).
Çok katmanlı depolama (sıcak/sıcak/soğuk), otomatik TTL.
Bütçe/takıma göre geri ödeme, ağır talepler ve geri doldurma sınırları.
11) Süreçler ve RACI
R (Sorumlu): Veri Platformu (alım/depolama/orkestrasyon), Veri Mühendisliği (dönüşüm), Alan adı sahipleri (Sözleşmeler/DQ/SLO).
A (Sorumlu): Veri Başkanı/Baş Veri Sorumlusu.
C (Consulted): Uyumluluk/Yasal/DPO, Mimari, SRE, Güvenlik.
I (Informed): BI/Продукт/Маркетинг/Финансы/Операции.
12) SLO/SLI (örnek hedefler)
13) Panolar
Etki alanına/pazara göre tazelik ısı haritası.
Bütünlük/Geçerlilik iş parçacığı ile.
Depolama ve sorguların maliyeti (katman ve komut ile).
Kritik raporlar için lineage haritası (düzenleyici, GGR, RG/AML).
DSAR/RTBF kuyrukları, Legal Hold durumları.
14) Saklama politikası şablonları (örnek)
Gerçek tarihler Yasal/DPO ve yerel yasalar tarafından belirlenir.
15) Dokümantasyon ve standartlar
Veri Ürün sayfası: sahibi, hedef, SLA, şemalar, DQ kuralları, kişiler.
Günlüğü değiştir: şema/mantık sürümleri, etki analizi, geçişler.
Runbooks: yeniden işleme, dolgu, acil durum senaryoları, friz düğmesi.
16) Uygulama Yol Haritası
MVP (4-6 hafta):1. Veri kataloğu ve sınıflandırma (üst alan adları), temel şemalar ve kayıt.
2. Lakehouse Bronz/Gümüş, doğrulama ve veri tekilleştirme ile yutma.
3. 1-2 Altın kasalar (örn. GGR ve dönüşüm).
4. Minimum DQ kuralları ve Tazelik/Bütünlük panosu.
5. Saklama politikaları ve RBAC'lere erişim.
Faz 2 (6-12 hafta):- Linaj, metriklerin anlamsal katmanı, DSAR/RTBF prosedürleri.
- Bölgeselleştirme (EEA/İngiltere), düzenleyici eserler için WORM, Legal Hold.
- Maliyet optimizasyonu, SLO uyarıları, bütçe raporlaması.
- Data Mesh (domain ürünleri), tüketici odaklı sözleşmeler ve testler.
- Şemaları/mantığı değiştirirken etkinin otomatik simülasyonu, tekrarlar.
- Tek uyumluluk paneli (düzenleyici, erişim, DQ, soy).
17) Satış öncesi kontrol listesi
- Onaylanan şemalar, kayıt sözleşmeleri, uyumluluk testleri.
- DQ kuralları etkindir, uyarılar yapılandırılır, SLO'lar ayarlanır.
- RBAC/ABAC rolleri kontrol edildi, erişim günlükleri etkinleştirildi.
- Saklama/silme/arşiv politikaları Legal/DPO tarafından doğrulanmıştır.
- DSAR/RTBF/Legal Hold prosedürleri belgelenmiş ve test edilmiştir.
- Lineage/metrics/cost panolarda görüntülenir.
- Geri doldurma/yeniden işleme/DR için Runbook'lar hazır.
18) Sık yapılan hatalar ve bunlardan nasıl kaçınılacağı
Tek bir sınıflandırma ve dizin yoktur: zorunlu Veri Ürünü kartlarını girin.
Şemaları olmayan ham veriler: şema-ilk + CI doğrulama.
Taşınabilirlik yok: TTL'leri ve RTBF süreçlerini baştan tasarlayın.
PII ve analitik karışımı: haritaları ayrı ayrı saklayın, maskeleme uygulayın.
Sahibi ve SLO olmadan altın: Sahibi ve tazelik hedeflerini atayın.
Yönetilmeyen maliyet: partiler, sıkıştırma, katmanlı depolama, kotalar.
19) Sözlük (kısa)
DSAR/RTBF - veri konusu isteği/silme hakkı.
Yasal Tutma - yasal nedenlerle kaldırma dondurma.
Lineage - menşe ve dönüşümlerin izlenebilirliği.
Data Product, SLA'larla yönetilen bir ürün birimidir.
DQ - veri kalitesi kuralları ve metrikleri.
Lakehouse - veri gölü ve ACID tablolarını birleştiriyor.
20) Alt satır
Veri yaşam döngüsü, yalnızca bir dosya deposu değil, yönetilen bir düzenleme sistemidir. Açık sözleşmeler ve planlar, sınıflandırma ve katalog, ölçülebilir kalite, gizlilik ve güvenlik, uygun maliyetli depolama mimarisi ve şeffaf soy, verileri ürün, uyumluluk ve analitiği sürprizler ve gizli riskler olmadan destekleyen güvenilir bir varlık haline getirir.