Maʼlumotlar hayot sikli
1) Vazifasi va prinsiplari
Maqsad: tahliliy, operatsion va tartibga soluvchi stsenariylarni qo’llab-quvvatlagan holda ma’lumotlar paydo bo’lgan paytdan boshlab ularni butunlay olib tashlashgacha prognoz qilinadigan, komplayent va tejamkor harakatlanishni ta’minlash.
Asosiy tamoyillar:- Data as a Product: har bir to’plam egasi, kontrakt, SLO, hujjatlarga ega.
- Schema-first: sxemalar majburiy; o’zgartirishlar - versiyalash orqali.
- Privacy-by-Design: PII ni minimallashtirish, taxalluslashtirish, mintaqaviy saqlash.
- Observability-by-Default: metrika, loging, lineage.
- Cost-aware: saqlash darajasi, TTL, semplash, siqish.
2) Hayot sikli fazalari
2. 1 Yaratish va yigʻish (Create/Collect)
Manbalar: mahsulotlar (veb/mobayl), backendlar, to’lovlar, KYC/AML provayderlari, o’yinlar/studiyalar, marketing, operatsion loglar.
Identifikatorlari:’event _ id’,’user. pseudo_id`, `session_id`, `trace_id`.
Kontraktlar: JSON/Yevro sxemalari, AsyncAPI/OpenAPI.
Kirish joyidagi sifat: sxemalar validatsiyasi, majburiy maydonlar, o’lcham limitlari, dublikatlarga qarshi.
Maxfiylik: sezgir maydonlarni tokenlashtirish, ingest geo-marshrutlash (EEA/UK/BR).
2. 2 Qabul qilish va birlamchi saqlash (Ingest & Raw)
Transport: HTTP/gRPC → Edge → shina (Kafka/Redpanda).
Raw-qatlam (Bronze): append-only, o’zgarmas payload’lar (forensika uchun), vaqt/bozor/tenant bo’yicha partiyalashtirish.
Siyosatchilar:’(event_id, source)’uchun dedup, «singan» voqealar uchun DLQ, Legal Hold belgilari.
2. 3 Qayta ishlash va tozalash (Refine)
Normallashtirish (Silver): tiplash, deduplikatsiya, ma’lumotnomalar, FX/taymzonlar, boyitish.
Sifat (DQ): to’liqlik/noyoblik/diapazonlar/referent yaxlitlik.
Reprocessing: idempotent konveyerlar, time-travel, nazorat qilinadigan backfill’lar.
2. 4 Iste’mol va serving (Serve/Use)
Gold-vitrinalar: BI/hisobot (GGR, RG, AML), mahsulot va tavakkalchilik modellari, real-time vitrinalar.
Kirish: SQL/Trino, metriklarning semantik qatlami, API/GraphQL, Feature Store.
SLA yangilik: masalan, Gold-kundalik vitrinalar mahalliy vaqt bilan soat 06:00 gacha tayyor.
2. 5 Almashish va tarqatish (Share/Publish)
Ichki iste’molchilar: Tahlil, Mahsulot, Xavf, Komplayens, Marketing, Moliya.
Tashqi yuklar: regulyatorlar, sheriklar/provayderlar; o’zgarmas paketlar (PDF/CSV/JSON + hash).
Nazorat qilinadigan kanallar: imzolangan artefaktlar, yuklash/eksport auditi.
2. 6 Arxivlash va saqlash (Archive/Retain)
Saqlash siyosati: ma’lumotlar turlari va yurisdiksiyalar bo’yicha (masalan, tartibga soluvchi - 5-7 yil).
Saqlash qatlamlari: hot/warm/cold, WORM/Object Lock.
Arxivni indekslash: kataloglar, versiya/bozor belgilari, meta ma’lumotlarni tez qidirish.
2. 7 Olib tashlash va final (Dispose)
Oddiy olib tashlash: TTL/retenshn; xavfsiz tozalash, indekslarni yangilash.
Huquqiy operatsiyalar: DSAR/RTBF (unutish huquqi), saqlashning qonuniy majburiyati bo’yicha istisnolar, Legal Hold (olib tashlashni muzlatish).
Verifikatsiya: olib tashlash to’g "risidagi hisobotlar, audit jurnali, kross-replikalarni nazorat qilish.
3) Tasniflash va katalog
Sezuvchanlik toifalari: public/internal/confidential/restricted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Maʼlumotlar katalogi: tavsif, egasi, yangi SLA, sxemalar, lineage, kirish darajalari.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Lakehouse modeli va sxemalari
Bronze/Silver/Gold: oʻzgarish va javobgarlikning aniq qoidalari.
Formatlar: ACID (Delta/Iceberg/Hudi) bilan Parquet + jadval formati.
Sxemalar evolyutsiyasi: semantik versiyalar, longitud mosligi, breaking-o’zgarishlar uchun ikki yozuvli migratsiyalar.
Registry: Schema Registry, CI-validatsiya kontraktlari, consumer-driven tests.
5) Ma’lumotlar sifati (DQ)
Sifat metrikasi:- Completeness (to’liqlik): haqiqatda olingan voqealar/satrlar ulushi.
- Validity: sxema validatsiyasidan oʻtgan yozuvlar ulushi.
- Uniqueness: dublikatlarni nazorat qilish.
- Consistency: maʼlumotlar va aloqalarga muvofiqlik.
- Freshness: tushish/materiallashtirish kechikishi.
- DQ qoidalari kod sifatida (YAML/SQL-testlar), dashbordlar, SLO alertlari.
- Degradatsiyada avto-follbek (oxirgi to’g "ri kesim).
6) Maxfiylik va komplayens
PII ni minimallashtirish: psevdo-IDni saqlash, mappinglarni izolyatsiya qilingan konturga chiqarish.
RLS/CLS maskalash: ustun/satr darajasida; dinamik siyosat.
Hududlashtirish: bozorlar bo’yicha data residency; alohida kataloglar/shifrlash kalitlari.
DSAR/RTBF: boshqariladigan proyeksiyalar, selektiv tahrirlashlar, berishlar auditi.
Legal Hold: muzlatish belgilari, oʻzgarmas arxivlar, kirish protokollari.
7) Foydalanish va xavfsizlik
Autentifikatsiya/avtorizatsiya: SSO, RBAC/ABAC, yurisdiksiya va rollar atributlari.
Shifrlash: TLS in-transit; KMS/CMK orqali at-rest; kalitlarni rotatsiya qilish.
Kirish daftarlari: kim/nima/qachon/qaerdan; ommaviy eksport/skanerlar uchun alertlar.
Vazifalar bo’linishi: mahsulotlar/tahlilchilar/ma’murlar/revyuerlar uchun turli rollar.
8) Chiziqlilik (lineage) va kuzatish
Texnik lineage: manbadan → transformatsiya → vitrinalar → hisobotlar.
Operatsion lineage: relizlar, fichflaglar, modellar, AML/RG qoidalari bilan aloqalar.
Platforma metrikasi: throughput, lag, failure-rate, cost/query, cost/GB.
Treysing:’trace _ id’dasturidan vitrin/alertgacha.
9) Vaqt va retro protsessning modellari
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill va reprocessing: idempotent pipeline’lar, time-travel, «ikki marta hisobga olish» nazorati.
TTL, snapshotlar va nosozliklar holatlarini saqlash.
10) Iqtisodiyot va cost-nazorat
Partiyalashtirish (sana/bozor/tenant), klasterlashtirish/Z-ordering.
Yuqori chastotali tahlillar uchun semplash (tranzaksiya/komplayens uchun emas).
Koʻp qatlamli saqlash (hot/warm/cold), avtomatik TTL.
Budget/chargeback jamoalar bo’yicha, og’ir so’rovlar limitlari va backfill.
11) Jarayonlar va RACI
R (Responsible): Data Platform (ingest/saqlash/orkestr), Data Engineering (transformatsiyalar), Domen egalari (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Arxitektura, SRE, Security.
I (Informed): BI/Mahsulot/Marketing/Moliya/Operatsiyalar.
12) SLO/SLI (taxminiy maqsadlar)
13) Dashbordlar
Domen/bozorlar bo’yicha yangilik issiqlik xaritasi.
Oqimlar boʻyicha Completeness/Validity.
Saqlash va so’rovlar qiymati (qatlamlar va buyruqlar bo’yicha).
Tanqidiy hisobotlar uchun lineage xaritasi (regulyator, GGR, RG/AML).
DSAR/RTBF navbatlari, Legal Hold maqomi.
14) Saqlash siyosati namunalari (misol)
Haqiqiy muddatlar Legal/DPO va mahalliy huquq bilan belgilanadi.
15) Hujjatlar va standartlar
Data Product page: egasi, vazifasi, SLA, sxemalari, DQ qoidalari, aloqalari.
Change log: sxema/mantiq, taʼsir (impact analysis), migratsiya versiyalari.
Runbooks: reprocessing, backfill, avariya stsenariylari, friz tugmasi.
16) Joriy etish yo’l xaritasi
MVP (4-6 hafta):1. Ma’lumotlar katalogi va tasnifi (top-domenlar), bazaviy sxemalar va registr.
2. Lakehouse Bronze/Silver, ingestion validatsiya va dedup bilan.
3. 1-2 Gold-vitrinalar (masalan, GGR va konversiya).
4. Freshness/Completeness minimal DQ qoidalari va dashbord.
5. Saqlash siyosati va foydalanish uchun RBAC.
2-faza (6-12 hafta):- Linedj, metriklarning semantik qatlami, DSAR/RTBF protseduralari.
- Hududlashtirish (EEA/UK), tartibga soluvchi artefaktlar uchun WORM, Legal Hold.
- Qiymatni optimallashtirish, SLO alertlari, budjet bo’yicha hisobot.
- Data Mesh (domen mahsulotlari), consumer-driven contracts va testlar.
- Sxemalar/mantiqni oʻzgartirganda impact avtosimulyatsiyasi.
- Yagona muvofiqlik paneli (regulyator, kirish, DQ, lineage).
17) Sotishdan oldingi chek-varaq
- Sxemalar tasdiqlandi, registrdagi kontraktlar, muvofiqlik testlari.
- DQ qoidalari faol, alertlar konfiguratsiyalangan, SLOlar belgilangan.
- RBAC/ABAC: rollar tekshirildi, kirish daftarlari yoqildi.
- Saqlash/olib tashlash/arxiv siyosati Legal/DPO tomonidan tasdiqlangan.
- DSAR/RTBF/Legal Hold protseduralari hujjatlashtirilgan va sinovdan o’tkazilgan.
- Linedj/metriklar/narx dashbordlarda ko’rsatiladi.
- Runbooks uchun backfill/reprocessing/DR tayyor.
18) Tez - tez xatolar va ulardan qanday qochish mumkin
Yagona tasniflash yoki katalog mavjud emas: majburiy Data Product kartochkalarini kiriting.
Sxemasiz xom ma’lumotlar: schema-first + CI-validatsiya.
Oʻchirish imkoniyati yoʻq: TTL va RTBF jarayonlarini boshidanoq loyihalashtiring.
PII va analitikani aralashtirish: mappinglarni alohida saqlang, niqoblang.
Egasiz Gold va SLO: owner va yangilik maqsadlarini belgilang.
Boshqarilmaydigan qiymat: partiyalar, kompresssiya, tiered-storage, kvotalar.
19) Lugʻat (qisqacha)
DSAR/RTBF - ma’lumotlar subyektining so’rovi/olib tashlash huquqi.
Legal Hold - yuridik asoslar bo’yicha olib tashlashni muzlatish.
Lineage - kelib chiqishi va transformatsiyalarning kuzatilishi.
Data Product - SLA bilan boshqariladigan mahsulot birligi.
DQ - ma’lumotlar sifati qoidalari va metrikasi.
Lakehouse - data lake va ACID jadvallar birlashmasi.
20) Jami
Ma’lumotlarning hayot sikli shunchaki fayllar ombori emas, balki kelishuvlarning boshqariladigan tizimidir. Aniq kontraktlar va sxemalar, tasniflash va katalog, oʻlchanadigan sifat, maxfiylik va xavfsizlik, tejamkor saqlash arxitekturasi va shaffof lineage maʼlumotlarni mahsulot, komplayens va tahlilni kutilmagan hodisalar va «yashirin» xatarlarsiz qoʻllab-quvvatlaydigan ishonchli aktivga aylantiradi.