Ciclul de viață al datelor
1) Scop și principii
Scopul este de a permite circulația previzibilă, conformă și rentabilă a datelor de la început la dispoziția finală, sprijinind scenariile analitice, operaționale și de reglementare.
Principii de bază:- Date ca produs: fiecare set are un proprietar, contract, SLO, documentație.
- Schema-first: sunt necesare sisteme; modificări - prin versionare.
- Privacy-by-Design: minimizare PII, pseudonimizare, stocare regională.
- Observație în mod implicit: valori, logare de acces, descendență.
- Cost-conștient: niveluri de stocare, TTL, eșantionare, compresie.
2) Fazele ciclului de viață
2. 1 Creare/Colectare
Surse: produse (web/mobile), backend, plăți, furnizori KYC/AML, jocuri/studiouri, marketing, jurnale de operare.
Identificatori: 'event _ id',' user. pseudo_id', 'session _ id',' trace _ id'.
Contracte: scheme JSON/Avro, AsyncAPI/OpenAPI.
Calitate intrare: validarea schemelor, câmpuri obligatorii, limite de dimensiune, anti-duplicate.
Confidențialitate: tokenizarea câmpurilor sensibile, ingerarea geo-rutării (SEE/UK/BR).
2. 2 Ingera & Raw
Transport: HTTP/gRPC → Edge → autobuz (Kafka/Redpanda).
Strat brut (bronz): sarcini utile imuabile (pentru criminalistică), partiționarea în funcție de timp/piață/chiriaș.
Politicieni: dedup by '(event_id, sursa)', DLQ pentru evenimente „rupte”, etichete Legal Hold.
2. 3 Prelucrare și curățare (Rafinare)
Normalizare (argint): tastare, deduplicare, directoare, FX/fus orar, îmbogățire.
Calitate (DQ): integritate/unicitate/intervale/integritate de referință.
Reprocesare: transportoare idempotente, călătorii în timp, rambursări controlate.
2. 4 Service/Utilizare
Vitrine de aur: BI/raportare (GGR, RG, AML), modele de produse și riscuri, vitrine în timp real.
Acces: SQL/Trino, strat metric semantic, API/GraphQL, Feature Store.
Prospețimea SLA: de exemplu, vitrinele zilnice de aur sunt gata până la ora locală 06:00.
2. 5 Partajați și publicați
Consumatori interni: Analytics, Product, Risk, Compliance, Marketing, Finance.
Descărcări externe: autorități de reglementare, parteneri/furnizori; pachete imuabile (PDF/CSV/JSON + hash).
Canale monitorizate: artefacte semnate, descărcări/exporturi de audit.
2. 6 Arhivă/Reține
Politici de păstrare: în funcție de tipul și jurisdicția datelor (de ex. reglementare - 5-7 ani).
Straturi de depozitare: cald/cald/rece, WORM/Object Lock pentru imutabilitate.
Indexarea arhivelor: directoare, etichete versiune/piață, căutare rapidă a metadatelor.
2. 7 Scoateți și terminați (Eliminați)
Îndepărtarea frecventă: TTL/retenție; curățare în condiții de siguranță, actualizarea indici.
Tranzacții juridice: DSAR/RTBF (dreptul de a fi uitat), excepții pentru obligațiile legale de stocare, Legal Hold (eliminarea prin îngheț).
Verificare: rapoarte de ștergere, jurnal de audit, cross-replica de control.
3) Clasificare și catalog
Categorii de sensibilitate: public/intern/confidențial/restricționat.
Домены: Plăți, Gameplay, Conformitate/AML, RG, Marketing, Ops, Finanțe.
Catalog de date: descriere, proprietar, prospețime SLA, scheme, descendență, niveluri de acces.
Теги: 'jurisdicţie', 'chiriaş', 'pii _ class',' retenţie _ clasă ',' legal _ hold'.
4) Modelul și schemele Lakehouse
Bronz/Argint/Aur: reguli clare pentru transformare și responsabilitate.
Formate: Parchet + format de masă cu ACID (Delta/Iceberg/Hudi).
Evoluția schemelor: versiuni semantice, compatibilitate longitudinală, migrații cu intrare dublă pentru schimbări de rupere.
Registru: Schema Registry, CI-validarea contractelor, teste bazate pe consumatori.
5) Calitatea datelor (DQ)
Valori de calitate:- Completitudine - Procentul de evenimente/rânduri primite efectiv.
- Valabilitate: proporția înregistrărilor care au trecut de validarea schemei.
- Unicitate: control duplicat.
- Coerență: respectarea cărților de referință și a link-urilor.
- Prospețime: sosire/materializare întârziată.
- Reguli DQ ca cod (teste YAML/SQL), tablouri de bord, alerte SLO.
- Auto-rezervă în timpul degradării (ultima tăiere corectă).
6) Confidențialitate și conformitate
Minimizarea PII: stocați pseudo-ID, luați mapări într-o buclă izolată.
Mascare și RLS/CLS: la nivelul coloanei/rândului; politici dinamice.
Regionalizare: rezidență de date pe piață; directoare separate/chei de criptare.
DSAR/RTBF: proiecții controlate, editări selective, probleme de audit.
Legal Hold: mărci de congelare, arhive neschimbate, logare acces.
7) Acces și securitate
Autentificare/autorizare: SSO, RBAC/ABAC, atribute ale jurisdicțiilor și roluri.
Criptare: TLS în tranzit; în repaus prin KMS/CMK; rotație cheie.
Jurnalele de acces: cine/ce/când/unde; alerte pentru export/scanare în masă.
Separarea sarcinilor: roluri diferite pentru prod/analytics/admins/reviewers.
8) Lineage și observabilitate
Descendență tehnică: de la sursă → transformare → vitrine → rapoarte.
Descendență operațională: legături cu versiuni, steaguri de caracteristici, modele, reguli AML/RG.
Valorile platformei: debit, decalaj, rata de eșec, cost/interogare, cost/GB.
Urmărire: transferul "trace _ id' de la aplicații la storefronturi/alerte.
9) Modelele de timp și retroprocesele
Event-time vs Processing-time: приоритет eveniment-time, filigrane/lateness permise.
Rambursare și reprocesare: conducte idempotente, călătorie în timp, controlul „dublei numărători”.
State de salvare: TTL, instantanee, recuperare în caz de dezastru.
10) Economie și controlul costurilor
Partiționare (dată/piață/chiriaș), clustering/Z-ordering.
Eșantionare pentru analize de înaltă frecvență (nu pentru tranzacții/conformitate).
Depozitare multi-strat (cald/cald/rece), TTL automat.
Buget/chargeback pe echipe, limite pe cereri grele și rambursare.
11) Procese și RACI
R (Responsabil): Platforma de date (ingerare/stocare/orchestrare), Ingineria datelor (transformare), Proprietarii de domenii (Contracte/DQ/SLO).
A (Responsabil): șef de date/responsabil cu datele.
C (Consultat): Conformitate/Legal/DPO, Arhitectură, SRE, Securitate.
I (Informat): BI/Продукт/Маркетинг/Финансы/Операции.
12) SLO/SLI (obiective de probă)
13) Tablouri de bord
Prospețime hartă de căldură de domeniu/piață.
Completitudine/Valabilitate prin fir.
Costul de stocare și interogări (prin strat și comandă).
Harta liniei pentru rapoartele critice (reglementare, GGR, RG/AML).
Cozi DSAR/RTBF, statusuri legale Hold.
14) Șabloane de politică de păstrare (exemplu)
Datele reale sunt determinate de legislația juridică/DPO și locală.
15) Documentație și standarde
Data Pagina produsului: proprietar, destinație, SLA, scheme, reguli DQ, contacte.
Schimbare jurnal: versiuni schemă/logică, analiza impactului, migrații.
Runbooks: reprelucrare, backfill, scenarii de urgență, buton friza.
16) Foaia de parcurs privind implementarea
MVP (4-6 săptămâni):1. Catalog de date și clasificare (domenii de top), scheme de bază și registru.
2. Lakehouse Bronze/Silver, ingestie cu validare și eliminare a duplicatelor.
3. 1-2 Cazuri de aur (ex. RGG și conversie).
4. Reguli DQ minime și tabloul de bord Prospețime/Completitudine.
5. Politici de retenție și acces la RBAC.
Faza 2 (6-12 săptămâni):- Linage, strat semantic de metrică, proceduri DSAR/RTBF.
- Regionalizarea (SEE/UK), WORM pentru artefacte de reglementare, Legal Hold.
- Optimizarea costurilor, alerte SLO, raportarea bugetului.
- Date Mesh (produse de domeniu), contracte și teste conduse de consumatori.
- Simularea automată a impactului la schimbarea schemelor/logicii, reluări.
- Panou unic de conformitate (reglementare, acces, DQ, descendență).
17) Lista de verificare pre-vânzare
- Scheme aprobate, contracte în registru, teste de compatibilitate.
- Regulile DQ sunt active, alertele sunt configurate, SLO-urile sunt setate.
- Roluri RBAC/ABAC verificate, busteni de acces activat.
- Politicile de păstrare/ștergere/arhivare au fost validate de Legal/DPO.
- Procedurile DSAR/RTBF/Legal Hold sunt documentate și testate.
- Lineage/metrics/cost sunt afișate în tablouri de bord.
- Runbooks pentru backfill/reprocesare/DR sunt gata.
18) Greșeli frecvente și cum să le evitați
Nu există o singură clasificare și un singur director: introduceți cardurile de date obligatorii.
Date brute fără scheme: validare schema-first + CI.
Fără detașabilitate: TTL-uri de proiectare și procese RTBF de la început.
PII și mixul de analiză: stocați mapări separat, aplicați mascarea.
Aur fără proprietar și SLO: Atribuiți proprietarului și obiectivele de prospețime.
Cost fără administrare: loturi, compresie, stocare pe niveluri, cote.
19) Glosar (scurt)
DSAR/RTBF - solicitarea/ștergerea dreptului persoanei vizate.
Legal Hold - eliminarea înghețării din motive legale.
Descendență - trasabilitatea originii și a transformărilor.
Data Product este o unitate de date gestionată cu SLA.
DQ - reguli și valori ale calității datelor.
Lakehouse - combinarea lac de date și tabele ACID.
20) Linia de jos
Ciclul de viață al datelor este un sistem de aranjament gestionat, nu doar un depozit de fișiere. Contractele și schemele clare, clasificarea și catalogul, calitatea măsurabilă, confidențialitatea și securitatea, arhitectura de stocare rentabilă și descendența transparentă fac din date un activ fiabil care susține produsul, conformitatea și analiza fără surprize și riscuri ascunse.