GH GambleHub

DataOps ve Veri Yönetimi

1) DataOps nedir ve neden gereklidir?

DataOps, verilerle çalışmayı tekrarlanabilir ve yönetilebilir bir boru hattına dönüştüren bir dizi uygulama, süreç ve araçtır: şemaların oluşturulması ve değiştirilmesinden veri ürünlerinin ve metriklerinin yayınlanmasına kadar. Amaç, tüketicilere (ürün, analitik, risk, ML) kaliteli verileri daha hızlı ve daha güvenli bir şekilde sunarken, uyumluluğu ve optimum maliyeti korumaktır.

Önemli sonuçlar:
  • Verilere göre öngörülebilir SLA'lar (uygunluk, eksiksizlik, doğruluk).
  • Hızlı ve güvenli değişiklikler (veri için CI/CD/CT).
  • Veri soyu ve mülkiyeti.
  • TCO'nun azaltılması (depolama, bilgi işlem, veri aktarımı).

2) Mimari desenler

Data Lake (nesne depolama, hammadde): ucuz, esnek, ancak sıkı DataOps'a ihtiyacınız var.
Depo (OLAP/SQL, modelleme): hızlı vitrinler, katı şema.
Lakehouse (tablo formatları + ACID: Delta/Iceberg/Hudi): göl ve depo birleşimi, zaman yolculuğu, uppert/birleştirme.

Madalyon katmanları:
  • Bronz - Gümüş - Altın.
  • Servis katmanları: DWH/OLAP (BigQuery/ClickHouse/Snowflake, vb.), API/graph, özellik deposu, önbellek.

Öneri: Katman başına tam olarak bir "gerçek kaynağı've dönüşümleri saklayın - sürüm ve testlerle kod olarak.

3) Alan modeli ve veri ürünleri

Data Mesh yaklaşımı: alan adı ekipleri tarafından veri sahipliği; Veri ürünü sahibi, veri ürününün kalitesinden ve SLO'sundan sorumludur.
Veri sözleşmeleri: şemalar, semantik, SLA/SLO (örneğin, "işlem tablosu 08:00 UTC'ye kadar 99 doğrulukla kullanılabilir. %5 ve artışlarla 10 dakikadan fazla olmayan bir gecikme").
Arayüzler: SQL tabloları/kar fırtınaları, CDC konuları, API/GraphQL. Açık sürüm oluşturma ve amortisman politikası.

4) Entegrasyon: kaynaklar ve indirme kalıpları

ETL/ELT-Stretch - fold - transform (DWH/Lake'e). ELT, güçlü OLAP ile tercih edilir.
CDC (Veri Yakalama Değişikliği): akış değişiklikleri (Debezium, vb.) - Düşük gecikme süresi ve doğru artışlar.
Batch vs Stream: Hibrit - "sıcak" olaylar için akış, sayımlar ve arka dolgular için toplu.
Teslimat semantiği: en az bir kez + idempotent merzhi; anahtar/zaman dede; İşlemsel formatlar aracılığıyla tam olarak bir kez gibi.

5) Devre yönetimi ve evrimi

Şema Kayıt Defteri ve sözleşme testleri: alanları yıkıcı olmayan bir şekilde ekleyin, yeni bir sürüm olmadan değişiklikleri kırmayı yasaklayın.
Sürüm oluşturma (V1 - V2): paralel yayın, geçiş penceresi, tüketicilere uyarılar.
Ölçüm türlerinin ve birimlerinin politikaları: para birimleri, zaman dilimleri, idempotency anahtarları.

6) Veri Kalitesi (DQ)

Anahtar boyutlar: bütünlük, doğruluk, tutarlılık, benzersizlik, geçerlilik, tazelik/alaka düzeyi, kopyaların yokluğu.

Uygulamalar:
  • Kod olarak kalite testleri: benzersiz anahtarlar, aralıklar, referans listeleri, iş kuralları (örneğin, alt dizelerin toplamı = toplam).
  • Her katmanda (Bronz/Gümüş/Altın) ve CI'da Sözleşme/Beklenti testleri.
  • Karantina bölgeleri: kontrolleri geçmeyen veriler Altına düşmez.
  • Tazelik anlaşmaları: açık tazelik SLA ve gecikme durumunda yanma oranı uyarıları.

7) Veri gözlemlenebilirliği

Verilere göre SLI: geçerli hatların payı, artışların gecikmesi, boşlukların payı, dönem için şemalardaki değişikliklerin sayısı.
Lineage (uçtan uca izleme): Y tablosunu tüketen X alanının hangi kaynaktan; Bağımlılık grafiği görselleştirmesi.
Anomali izleme: hacim/dağıtım eğilimleri, ani sıfırlar/zirveler, kategorik özelliklerin sürüklenmesi.
Politikacıları uyarın: kısa pencere (felaketler) + uzun (sürünen bozulma), veri ürünleri sahiplerine tırmanma.

8) Güvenlik ve gizlilik

Veri sınıflandırması: PII/finansal/hassas/kamu. Sütunlardaki ve kümelerdeki etiketler.
Erişim kontrolü: RBAC/ABAC, sıra/sütun düzeyinde güvenlik, maskeleme, dinamik tanımlama.
Kriptografi: at-rest/in-transit şifreleme; PII için tokenization ve pseudonymization.
Depolama cetvelleri: sıcak/sıcak/soğuk; Saklama politikaları ve "unutulma hakkı".
Denetim ve değişmezlik: Okuyan/değiştiren; Eser imza günlüğü; düzenleyiciler için eserler ihraç ediyor.

9) Orkestrasyon, CI/CD/CT ve Değişim Yönetimi

Orkestrasyon: Hava akışı/Argo/Kedro, vb.; Bildirimsel DAG'ler/bağımlılıkları ve idempotent görevleri olan iş parçacıkları.
CI/CD/CT (Sürekli Test): SQL/Python linters, birim dönüşüm testleri, izole numunelerde entegrasyon testleri, birleştirmeden önce veri testleri.
Çevre promosyonu: dev ^ sahne ^ prod; Özdeş manifestolar; özellik bayraklarının/dizinlerinin kontrolü.

Backfills: Sınırlı kaynaklara ve açık bir pencereye sahip'ağır "operasyonlar; Idempotency ve veri tekilleştirmeyi kontrol edin

10) Maliyet Yönetimi (Veri FinOps)

Maliyet modelleri: depolama (hacim × sınıf), taramalar/istekler, çıkış, uzun vadeli arka dolgular.
Optimizasyon: Bölümleme/kümeleme, Z sıralaması/sıralama, zamanlama, sonuç paketlerinin materyalizasyonu, sıkıştırma ve sütun formatları.
Birim veri ekonomisi: Altın $/1 milyon satır, $/bir rapor, ML için $/özellik.
SLO-bilinçli tazelik: "Alışkanlık dışında her 5 dakikada bir'değil, ürünün gerektirdiği sıklıkta yeniden hesaplayın.

11) Ana Veri Yönetimi (MDM) ve Referans Kitapları

Altın kayıtlar: müşteri/tüccar alımları, hesap hiyerarşilerinin ortadan kaldırılması.
Referans kitapları/referanslar: para birimleri, ülkeler, BIN listeleri, sağlayıcı listeleri - sürümleri ve eylem pencereleri ile.
Tanımlayıcılar: kararlı anahtarlar, çapraz sistem kimliği anlaşması, çok-bir eşleme.

12) ML özellikleri ve analitik vitrinler

Özellik Mağazası: özellik sürümleri, zaman yolculuğu, çevrimiçi/çevrimdışı tutarlılık.
DS/ML ile Veri Sözleşmeleri: Tazelik/sürüklenme ile SLA'lar; şemalar ve kabul edilebilir aralıklar.
BI vitrinleri: testlerle önemli metriklerin (DAU/GMV/ARPPU, vb.) "yalnızca sürümleri" doğrulandı.

13) Olay Süreçleri ve Veriler için RCA'lar

Algılama: geçerlilikte düşüş, yük gecikmeleri, ilan edilmeden programlarda değişiklik, dağıtım anomalileri.
Eskalasyon: veri ürünü sahibi - orkestratör/platform - kaynak/sağlayıcı.
Hafifletici eylemler: yayınların frizi, son dönüşümün geri alınması, önceki'iyi "sürümün yayınlanması, verilerin durum sayfasındaki işaretler.
RCA (veri odağı): kökler - şema/sözleşme arızaları, kaynak gecikmeleri, yanlış iş kuralları, sürüklenme.
CAPA'lar: şema kontrolleri, yeni testler, tarama sınırları, sürüm ek açıklamaları, eğitim.

14) Roller ve Sorumluluklar (RACI)

Veri Ürünü Sahibi: SLA/SLO, önceliklendirme, yol haritası.
Veri Mühendisi/Analitik Mühendisi: boru hatları, modelleme, testler, optimizasyon.
Platform/Infra: orkestrasyon, göl/depo, güvenlik ve erişim.
Yönetişim/Steward: katalog, nitelikler, sınıflandırma, uyumluluk.
Sec/Uyumluluk: Gizlilik, Denetim, Düzenleyici Raporlama.
Metriklerin işletme sahipleri: Göstergelerin "gerçeğini" belirlemek ve kontrol etmek.

15) Katalog ve meta veriler

Veri Kataloğu: tabloların/alanların, sahiplerin, etiketlerin (PII/finans) açıklaması, istek örnekleri, kalite seviyeleri.
Aktif Meta Veriler: otomatik doldurma soyu, sorguların popülerliği, kullanım önerileri.
Sözlük (iş sözlüğü) - anahtar rakamlar ve hesaplama kuralları, sürüm ve sahibi tanımları.

16) DataOps panoları (minimum set)

Boru hattı sağlığı: başarı/görev hatası, DAG gecikmesi, ortalama yürütme süresi, kuyruklar.
Kalite ve tazelik: testlerde geçerlilik, Bronz/Gümüş/Altın katmanlarda gecikme, karantina payı.

Lineage View: Falling Table X'in Y Tüketicilerine Etkisi

Finans: $ depolama ve taramalar, "pahalı" sorgular/modeller, materyalizasyondan tasarruf.
Değişiklikler: dönüşümler bültenleri, şema değişiklikleri, sözleşme uyarıları.

17) Kontrol listesi "Veri ürününün hazır olması"

  • Açıklanan giriş/çıkışlar, sahibi ve SLA/SLO (tazelik/eksiksizlik/doğruluk).
  • Depodaki şemalar ve sözleşmeler, kalite testleri dahil (geçerlilik eşiği).
  • Yapılandırılmış soy ve dizin; PII etiketleri/sınıflandırma uygulanır.
  • RBAC/ABAC erişir, maskeleme, ve tutma politikaları.
  • Orkestrasyon ve uyarılar: kısa ve uzun pencereler, eskalasyon kanalları.
  • Arka dolgular idempotent; bir geri dönüş planı ve karantina var.
  • Değer optimizasyonu: bölümler/kümeleme/materyalizasyon.
  • Metrik belgeleri ve örnek sorgular.

18) Anti-desenler

"Veri bataklığı": şemaları/dizin/sahipleri olmayan göl - kullanılmayan ve pahalı veriler.
Basamaklı olaylar - "sessiz'bir kaynak şeması.
Sadece prod testleri - geç algılama, pahalı düzeltmeler.
Tüm alanlar için dönüşümlerin ortak bir "gümüş çekici".
Karantina eksikliği: evlilik Gold ve BI'ye düşer.
Sınırsız taramalar/sevinçler'iyi şanslar için "- bir maliyet patlaması.
Günlüklerde/örneklerde PII, tutma ve maskeleme eksikliği.

19) Mini şablonlar

Veri Ürünü için SLA Şablonu

Tazelik: T + 10 dakikadan daha geç olmamak üzere %99 artış; Tam yeniden sayım - 08:00 UTC D + 1.
Bütünlük: ≥ 99. Kayıtların %7'si kaynaklara karşı; Anahtarların eşikleri.
Hassasiyet - Kontrol metriği ≤ 0 ile tutarsızlık. 3%.
Kullanılabilirlik: SQL uç noktaları/bakış açıları 99 ≥ mevcuttur. %9 (28 gün).
Yükseltme kanalı, sahibi, destek penceresi.

Şema sürüm politikası

Minör: isteğe bağlı alanlar ekleme, geri uyumlu.
Major: sil/yeniden adlandırma; Paralel yayın V1/V2 ≥ N hafta; İşaretlemeleri kaldırır.

Dolgu planı

Kaynak, tarih aralığı, maliyet/zaman tahmini, idempotency, başlatma penceresi, başarı kriterleri, geri alma.

20) DataOps uygulama yol haritası (örnek 8-12 hafta)

1. Ned. 1-2: kaynak envanter, etki alanı haritası, Lakehouse/OLAP seçimi, dizin.
2. Ned. 3-4: şema/sözleşme standartları, CI/CD/CT iskeleti, temel DQ testleri.
3. Ned. 5-6: soy ve tazelik uyarıları, karantina, ilk SLA veri ürünleri.
4. Ned. 7-8: FinOps optimizasyonu (bölümler/materyalizasyonlar), şablona göre arka dolgular.
5. Ned. 9-12: MDM/referanslar, RBAC/maskeleme, veri olayları için RCA uygulaması, olgunluk KPI'ları.

21) Alt satır

DataOps bir veri işletim sistemidir: etki alanı sorumluluğu, sözleşmeler ve testler, değişim otomasyonu, gözlemlenebilirlik ve güvenlik, ekonomi ve olay süreçleri. Bu yaklaşımla, veriler güvenilir bir ürün haline gelir: karar verme, raporlama ve ML'de sürüm haline getirilebilir, ölçülebilir, ölçeklendirilebilir ve güvenle kullanılabilir.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.