Ciclo di vita dei dati
1) Assegnazione e principi
Obiettivo: garantire un movimento dei dati prevedibile, completo ed economico, dalla data di arrivo alla loro eliminazione finale, supportando scenari analitici, operativi e regolatori.
Principi di base:- Data as a Product: ogni set ha proprietario, contratto, SLO, documentazione.
- Schema-first: schemi obbligatori; modifiche tramite versioning.
- Privacy-by-Design: minimizzazione del PII, alias, conservazione regionale.
- Osservabilità-by-Default: metriche, logica di accesso, lineage.
- Cost-aware - Livelli di storage, TTL, semilibertà, compressione.
2) Fasi del ciclo di vita
2. 1 Creazione e raccolta (Create/Collect)
Sorgenti: prodotti (web/mobile), backend, pagamenti, provider KYC/AML, giochi/studio, marketing, servizi operativi.
Identificatori: «event _ id», «user». pseudo_id`, `session_id`, `trace_id`.
Contratti JSON/Avro schemi, AsyncAPI/OpenAPI.
Qualità in ingresso: convalida degli schemi, campi obbligatori, limiti di dimensione, anti-duplicati.
Privacy: tornizzazione dei campi sensibili, geo-instradamento ingest (EEA/UK/BR).
2. 2 Accezione e storage primario (Ingest & Raw)
Trasporti: Edge pneumatico (Kafka/Redpanda).
Livello raw (Bronze): append-only, payload invariabili (forensico), partizionamento tempo/mercato/tenante.
Criteri: DLQ per «(event _ id, source)», DLQ per gli eventi «battuti», etichette Legali Hold.
2. 3 Elaborazione e pulizia (Refine)
Normalizzazione (Silver) - Tipizzazione, deduplicazione, riferimenti, FX/Timsons, arricchimento.
Qualità (DQ) - Completezza/univocità/intervalli/integrità di riferimento.
Replicessing: linee di montaggio idompotenti, time-travel controllate da backfill.
2. 4 Consumo e cerving (Serve/Usa)
Vetrine Gold: BI/Report (GGR, RG, AML), modelli alimentari e di rischio, vetrine real-time.
Accesso: SQL/Trino, livello semantico delle metriche, API/GraphQL, Feature Store.
SLA freschezza: ad esempio, le vetrine Gold-giornaliere sono pronte fino alle 6:00 locali.
2. 5 Scambio e distribuzione (Share/Publish)
Consumatori interni: Analista, Prodotto, Rischio, Complaens, Marketing, Finanza.
Scarichi esterni: regolatori, partner/provider; pacchetti invariati (PDF/CSV/JSON + hash).
Canali controllati: manufatti firmati, controllo dei download/esportazioni.
2. 6 Archiviazione e archiviazione (Archive/Retain)
Regole di conservazione per tipo di dati e giurisdizione (ad esempio, regolatori per 5-7 anni).
Livelli di storage: hot/warm/cold, WORM/Object Lock per l'immutabilità.
Indicizzazione dell'archivio: directory, etichette di versione/mercato, ricerca rapida dei metadati.
2. 7 Eliminazione e finale (Dispose)
Rimozione normale: TTL/Retensh; pulizia sicura, aggiornamento degli indici.
Operazioni legali: DSAR/RTBF (diritto all'oblio), eccezioni per legittimo obbligo di conservazione, legale hold (congelamento della rimozione).
Verifica: report di eliminazione, registro di verifica, controllo delle repliche crociate.
3) Classificazione e directory
Categorie di sensibilità: public/internal/confidential/restringted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Catalogo dati: descrizione, proprietario, SLA freschezza, schemi, lineage, livelli di accesso.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Modello Lakehouse e schemi
Bronze/Silver/Gold - Regole chiare per la trasformazione e la responsabilità.
Formati: Parquet + formato tabella con ACID (Delta/Iceberg/Hudi).
Evoluzione dei diagrammi: versioni semantiche, compatibilità lunga, migrazioni a doppia voce per modifiche breaking.
Registry: Schema Registry, ICI-convalida dei contratti, consumer-driven test.
5) Qualità dati (DQ)
Metriche di qualità:- Completezza: percentuale di eventi/righe effettivamente ricevuti.
- Validity: percentuale di record sottoposti a convalida schematica.
- Uniqueness - Controllo dei duplicati.
- Consistency, corrispondenza tra manuali e relazioni.
- Freshness: ritardo di ricezione/materializzazione.
- Regole DQ come codice (test YAML/SQL), dashboard, alert SLO.
- Follback automatico in caso di degrado (ultimo taglio corretto).
6) Privacy e compliance
Minimizzazione PII - Conservare lo pseudo-ID, trascinare i mapping in un tracciato isolato.
Maschera e RLS/CLS a livello di colonne/righe; criteri dinamici.
Regionalizzazione: data residency per i mercati; directory/chiavi di crittografia separate.
DSAR/RTBF: proiezioni gestite, modifiche selettive, verifiche di emissione.
Legale Hold: etichette di congelamento, archivi invariati, protocolli di accesso.
7) Accesso e sicurezza
Autenticazione/autorizzazione: SSO, RBAC/ABAC, attributi di giurisdizioni e ruoli.
Crittografia: TLS in-transit; at-rest tramite KMS/CMK; rotazione delle chiavi.
Registri di accesso: chi/cosa/quando/da dove; alert per l'esportazione/scan di massa.
Separazione dei compiti: ruoli diversi per prod/analisti/ammiragli/revivers.
8) Linearità (lineage) e osservabilità
Lineage tecnico: dalla fonte della trasformazione , la vetrina i rapporti.
Lineage operativo: collegamenti con release, fitchflag, modelli, regole AML/RG.
Le metriche della piattaforma sono throughput, lag, failure-rate, cost/query, cost/GB.
Tracing: trasmettere «trace _ id» dalle applicazioni alle vetrine/alert.
9) Modelli di tempo e retroprocessi
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill e reprocessing: pipeline idipotente, time-travel, controllo «doppia contabilità».
Salvataggio degli stati: TTL, Snapshot, Disaster Recovery.
10) Economia e cost-control
Partizionamento (data/mercato/tenante), clustering/Z-ordering.
Sempilamento per gli analisti ad alta frequenza (non per le transazioni/compilation).
Storage a più livelli (hot/warm/cold), TTL automatici.
Budget/mandeback per comando, limiti per richieste pesanti e backfill.
11) Processi e RACI
R (Respontible): Data Platform (ingest/storage/orchestrazione), Data Engineering (Trasformazioni), Proprietari di dominio (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legale/DPO, Architettura, SRE, Sicurezza.
I (Informed): BI/Prodotto/Marketing/Finanza/Operazioni.
12) SLO/SLI (target approssimativo)
13) Dashboard
Mappa termica della freschezza dei domini/mercati.
Completeness/Validity per flusso.
Costi di archiviazione e query (per livello e comando).
Mappa lineage per report critici (regolatore, GGR, RG/AML).
Code DSAR/RTBF, Stato Legale Hold.
14) Modelli di criteri di storage (esempio)
I tempi effettivi sono definiti da Legale/DPO e diritto locale.
15) Documentazione e standard
Data Product Page: proprietario, destinazione, SLA, schemi, regole DQ, contatti.
Change log - Versioni di diagrammi/logiche, impatto (impact analysis), migrazioni.
Runbooks: reprocessing, backfill, script di emergenza, pulsante freeze.
16) Road map di implementazione
MVP (4-6 settimane):1. Catalogo dei dati e classificazione (top domini), diagrammi di base e minuscole.
2. Lakehouse Bronze/Silver, ingestione con validazione e deduplicazione.
3. 1-2 vetrine Gold (ad esempio GGR e conversione).
4. Regole DQ minime e dashboard Freshness/Completeness.
5. Regole di archiviazione e RBAC per l'accesso.
Fase 2 (6-12 settimane):- Linage, livello semantico delle metriche, procedura DSAR/RTBF.
- Regionalizzazione (EEA/UK), WORM per gli artefatti regolatori, Legale Hold.
- Ottimizzazione dei costi, alert SLO, rendicontazione del budget.
- Data Mesh (prodotti di dominio), consumer-driven contracts e test.
- Controllo automatico dell'impatto quando i diagrammi o la logica cambiano, replica.
- Un unico pannello di corrispondenza (regolatore, accesso, DQ, lineage).
17) Foglio di assegno prima della vendita
- Schemi approvati, contratti nel registro, test di compatibilità.
- Le regole DQ sono attive, gli alert sono configurati e le regole SLO sono state impostate.
- RBAC/ABAC: ruoli verificati e registri di accesso attivati.
- I criteri di conservazione/rimozione/archivio sono confermati da Legale/DPO.
- Le procedure DSAR/RTBF/Legale Hold sono state documentate e testate.
- Linegge/metriche/valore vengono visualizzati nei dashboard.
- Runbooks per backfill/reprocessing/DR sono pronti.
18) Errori frequenti e come evitarli
Nessuna classificazione e directory. Immettere le schede di Data Product obbligatorie.
Dati crudi senza schemi: schema-first + convalida CI.
Nessuna eliminazione: progettare TTL e processi RTBF fin dall'inizio.
Combinazione di PII e analisi: conserva i mupping separatamente, applica il masking.
Gold senza proprietario e SLO: assegnare owner e obiettivi di freschezza.
Costo fuori controllo: partiture, compressione, tiered-storage, quote.
19) Glossario (breve)
DSAR/RTBF - Richiesta del soggetto dati/diritto di eliminazione.
Legale Hold - Congelamento della cancellazione per motivi legali.
Lineage è la tracciabilità di origine e trasformazione.
Data Product è un prodotto gestito con SLA.
DQ - regole e metriche di qualità dei dati.
Lakehouse - Unisce data lake e tabelle ACID.
20) Totale
Il ciclo di vita dei dati è un sistema di accordo gestito, non solo un archivio di file. Contratti e schemi chiari, classificazione e catalogo, qualità misurabile, privacy e sicurezza, architettura di storage a basso costo e lineage trasparenti rendono i dati un bene affidabile che supporta il prodotto, la compilazione e l'analisi senza sorprese o rischi «nascosti».