Verilənlərin həyat dövrü
1) Təyinat və prinsiplər
Məqsəd: analitik, əməliyyat və tənzimləyici ssenariləri dəstəkləyərək məlumatların göründüyü andan son silinməsinə qədər proqnozlaşdırıla bilən, komplayent və qənaətli hərəkəti təmin etmək.
Əsas prinsiplər:- Data as a Product: Hər dəstin sahibi, müqaviləsi, SLO, sənədləri var.
- Schema-first: sxemlər məcburidir; dəyişikliklər - version vasitəsilə.
- Privacy-by-Design: PII-nin minimuma endirilməsi, təxəllüsləşdirilməsi, regional saxlama.
- Observability-by-Default: metrika, giriş loqosu, lineage.
- Cost-aware: saxlama səviyyələri, TTL, sempling, sıxılma.
2) Həyat dövrü fazaları
2. 1 Yaradın və yığın (Create/Collect)
Mənbələr: məhsullar (veb/mobile), backends, ödənişlər, KYC/AML provayderləri, oyunlar/studiyalar, marketinq, əməliyyat qeydləri.
ID: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
Müqavilələr: JSON/Avro sxemləri, AsyncAPI/OpenAPI.
Giriş keyfiyyəti: sxemlərin validasiyası, məcburi sahələr, ölçü limitləri, anti-dublikatlar.
Gizlilik: həssas sahələrin tokenizasiyası, ingest geo-marşrutlaşdırılması (EEA/UK/BR).
2. 2 Qəbul və ilkin saxlama (Ingest & Raw)
Nəqliyyat: HTTP/gRPC → Edge → Şina (Kafka/Redpanda).
Raw-layer (Bronze): append-only, dəyişməz payload '(forensics üçün), vaxt/bazar/tenant partizan.
Siyasətçilər: dedup '(event_id, source)', DLQ «sınıq» hadisələr üçün, Legal Hold etiketlər.
2. 3 Emal və təmizləmə (Təmiz)
Normallaşma (Silver): Tipifikasiya, deduplikasiya, kataloqlar, FX/taymzonlar, zənginləşdirmə.
Keyfiyyət (DQ): tamlıq/unikallıq/diapazonlar/istinad bütövlüyü.
Reprocessing: idempotent konveyerlər, time-travel, nəzarət backfill '.
2. 4 İstehlak və xidmət (Serve/Use)
Gold-vitrinlər: BI/hesabat (GGR, RG, AML), ərzaq və risk modelləri, real vaxt vitrinləri.
Giriş: SQL/Trino, metrik semantik təbəqə, API/GraphQL, Feature Store.
SLA təravəti: məsələn, Gold-gündəlik vitrinlər yerli vaxtla 06: 00-a qədər hazırdır.
2. 5 Paylaşım və Yayım (Share/Publish)
Daxili istehlakçılar: Analitika, Məhsul, Risk, Komplayens, Marketinq, Maliyyə.
Xarici boşaltmalar: tənzimləyicilər, tərəfdaşlar/provayderlər; dəyişməz paket (PDF/CSV/JSON + hash).
Nəzarət olunan kanallar: imzalanmış artefaktlar, yükləmə/ixrac auditi.
2. 6 Arxivləşdirmə və saxlama (Archive/Retain)
Saxlama siyasəti: məlumat növləri və yurisdiksiyalara görə (məsələn, tənzimləyici - 5-7 il).
Saxlama qatları: hot/warm/cold, dəyişməzlik üçün WORM/Object Lock.
Arxivin indeksləşdirilməsi: kataloqlar, versiya/bazar etiketləri, meta məlumatların sürətli axtarışı.
2. 7 Aradan qaldırılması və final (Dispose)
Adi çıxarılması: TTL/retenshn; təhlükəsiz təmizləmə, indekslərin yenilənməsi.
Hüquqi əməliyyatlar: DSAR/RTBF (unudulmaq hüququ), qanuni saxlama öhdəliyi istisna, Legal Hold (çıxarılması dondurma).
Verifikasiya: silinmə hesabatları, audit jurnalı, xaç replikalarına nəzarət.
3) Təsnifat və kataloq
Həssaslıq kateqoriyaları: public/internal/confidential/restricted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Məlumat kataloqu: təsviri, sahibi, SLA təravəti, sxemləri, lineage, giriş səviyyələri.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Lakehouse modeli və sxemləri
Bronze/Silver/Gold: transformasiya və məsuliyyət aydın qaydaları.
Formatlar: Parquet + ACID (Delta/Iceberg/Hudi) ilə tablo formatı.
Sxemlərin təkamülü: semantik versiyalar, uzunmüddətli uyğunluq, breaking-dəyişikliklər üçün ikiqat qeydli miqrasiyalar.
Registry: Schema Registry, CI-validasiya müqavilələri, consumer-driven tests.
5) Məlumat keyfiyyəti (DQ)
Keyfiyyət metrləri:- Completeness (dolğunluq): faktiki olaraq alınan hadisələrin/sətirlərin payı.
- Validity: sxem validasiyasından keçmiş qeydlərin payı.
- Uniqueness: təkrarlanan nəzarət.
- Consistency: referans və əlaqələrə uyğunluq.
- Freshness: qəbulun/materiallaşmanın gecikməsi.
- Kod kimi DQ qaydaları (YAML/SQL testləri), daşbordlar, SLO həyəcanları.
- Deqradasiya zamanı avto-follbek (son düzgün kəsik).
6) Gizlilik və uyğunluq
PII-nin minimallaşdırılması: psevdo-ID saxlamaq, mappinqləri təcrid olunmuş dövrə çıxarmaq.
Maskalama və RLS/CLS: sütun/sətir səviyyəsində; dinamik siyasətlər.
Regionlaşdırma: bazarlar üzrə data residency; ayrı kataloqlar/şifrələmə açarları.
DSAR/RTBF: idarə olunan proyeksiyalar, seçici redaktələr, emissiya auditi.
Legal Hold: dondurma etiketləri, dəyişməz arxivlər, giriş protokolları.
7) Giriş və təhlükəsizlik
Autentifikasiya/avtorizasiya: SSO, RBAC/ABAC, yurisdiksiya və rolların atributları.
Şifrələmə: TLS in-tranzit; KMS/CMK vasitəsilə at-rest; açarların rotasiyası.
Giriş jurnalları: kim/nə/nə vaxt/haradan; kütləvi ixrac/skan üçün alert.
Vəzifələrin ayrılması: Prod/analitik/administrator/reviewers üçün müxtəlif rollar.
8) Lineage (lineage) və müşahidə
Texniki lineage: mənbədən → transformasiya → vitrinlər → hesabatlar.
Əməliyyat lineage: relizlər, fiçflaglar, modellər, AML/RG qaydaları ilə əlaqələr.
Platformanın metrikası: throughput, lag, failure-rate, cost/query, cost/GB.
Trace: 'trace _ id' proqramlarından vitrinlərə/alertlərə köçürülməsi.
9) Zaman modelləri və retro proseslər
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill və reprocessing: idempotent boru kəmərləri, time-travel, «ikiqat uçot» nəzarəti.
Vəziyyətlərin qorunması: TTL, snapshots, uğursuzluqlardan sonra bərpa.
10) İqtisadiyyat və cost-nəzarət
Partizanlaşdırma (tarix/bazar/tenant), klasterləşdirmə/Z-ordering.
Yüksək tezlikli analitika üçün sempleme (əməliyyatlar/komplayens üçün deyil).
Çox qatlı saxlama (hot/warm/cold), avtomatik TTL.
Budget/chargeback komandalar, ağır sorğular və backfill limitləri.
11) Proseslər və RACI
R (Responsible): Data Platform (ingest/saxlama/orkestr), Data Engineering (transformasiya), Domen sahibləri (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Memarlıq, SRE, Təhlükəsizlik.
I (Informed): BI/Məhsul/Marketinq/Maliyyə/Əməliyyatlar.
12) SLO/SLI (təxmini hədəflər)
13) Daşbordlar
Domenlər/bazarlar üzrə təravət istilik kartı.
Axınlar üzrə Completeness/Validity.
Saxlama və sorğu dəyəri (laylar və komandalar üzrə).
Kritik hesabatlar üçün lineage kartı (tənzimləyici, GGR, RG/AML).
DSAR/RTBF növbələri, Legal Hold statusları.
14) Saxlama siyasəti şablonları (nümunə)
Faktiki müddətlər Qanuni/DPO və yerli hüquq tərəfindən müəyyən edilir.
15) Sənədləşmə və standartlar
Data Product page: sahibi, təyinatı, SLA, sxemləri, DQ qaydaları, əlaqə.
Change log: sxemlər/məntiq versiyaları, təsir (impact analysis), miqrasiya.
Runbooks: reprocessing, backfill, təcili ssenarilər, freeze düyməsi.
16) Tətbiqi yol xəritəsi
MVP (4-6 həftə):1. Verilənlər kataloqu və təsnifatı (top-domenlər), əsas sxemlər və registr.
2. Lakehouse Bronze/Silver, validasiya və dedup ilə ingestion.
3. 1-2 Gold vitrinlər (məsələn, GGR və dönüşüm).
4. Minimum DQ qaydaları və dashboard Freshness/Completeness.
5. Saxlama siyasəti və RBAC giriş.
Faza 2 (6-12 həftə):- Linedge, metrik semantik təbəqə, DSAR/RTBF prosedurları.
- Regionallaşdırma (EEA/UK), tənzimləyici artefaktlar üçün WORM, Legal Hold.
- Dəyər optimallaşdırılması, SLO alertləri, büdcə hesabatları.
- Data Mesh (domen məhsulları), consumer-driven contracts və testlər.
- Sxemlərin/məntiqin, repleylərin dəyişdirilməsi zamanı impact avtomatik simulyasiyası.
- Vahid uyğunluq paneli (tənzimləyici, giriş, DQ, lineage).
17) Satış öncəsi yoxlama siyahısı
- Sxemlər təsdiq, registrdə müqavilələr, uyğunluq testləri.
- DQ qaydaları aktivdir, alertlər konfiqurasiya olunur, SLO təyin olunur.
- RBAC/ABAC: rollar yoxlanılır, giriş jurnalları daxildir.
- Saxlama/silmə/arxiv siyasətləri Qanuni/DPO tərəfindən təsdiqlənmişdir.
- DSAR/RTBF/Legal Hold prosedurları sənədləşdirilmiş və sınaqdan keçirilmişdir.
- Linedge/metrik/qiymət dashboard göstərilir.
- backfill/reprocessing/DR üçün Runbooks hazırdır.
18) Tez-tez səhvlər və onlardan necə qaçmaq olar
Vahid təsnifat və kataloq yoxdur: məcburi Data Product kartlarını daxil edin.
Sxemsiz xam məlumatlar: schema-first + CI-validasiya.
Silinmə yoxdur: TTL və RTBF proseslərini əvvəldən layihələndirin.
PII və analitiklərin qarışdırılması: mappinqləri ayrıca saxlayın, maskalamaq tətbiq edin.
Sahibi və SLO olmadan Gold: owner və təzəlik hədəflərini təyin edin.
Nəzarət olunmayan qiymət: partiyalar, sıxılma, tiered-storage, kvotalar.
19) Lüğət (qısa)
DSAR/RTBF - məlumat subyektinin sorğusu/silinmə hüququ.
Legal Hold - qanuni əsaslarla silinmənin dondurulması.
Lineage - mənşə və transformasiyanın izlənməsi.
Data Product - SLA ilə idarə olunan məhsul məlumat vahidi.
DQ - məlumat keyfiyyətinin qaydaları və metrikası.
Lakehouse - məlumat lake və ACID cədvəllərinin birləşməsi.
20) Yekun
Verilənlərin həyat dövrü sadəcə bir fayl anbarı deyil, idarə olunan bir razılaşma sistemidir. Dəqiq müqavilələr və sxemlər, təsnifat və kataloq, ölçülə bilən keyfiyyət, məxfilik və təhlükəsizlik, qənaətcil saxlama arxitekturası və şəffaf lineage məlumatları məhsulu, uyğunluğu və analitikanı sürprizlər və «gizli» risklər olmadan dəstəkləyən etibarlı aktivə çevirir.