Ciclo di vita dei dati

1) Assegnazione e principi

Obiettivo: garantire un movimento dei dati prevedibile, completo ed economico, dalla data di arrivo alla loro eliminazione finale, supportando scenari analitici, operativi e regolatori.

Principi di base:

Data as a Product: ogni set ha proprietario, contratto, SLO, documentazione.
Schema-first: schemi obbligatori; modifiche tramite versioning.
Privacy-by-Design: minimizzazione del PII, alias, conservazione regionale.
Osservabilità-by-Default: metriche, logica di accesso, lineage.
Cost-aware - Livelli di storage, TTL, semilibertà, compressione.

2) Fasi del ciclo di vita

2. 1 Creazione e raccolta (Create/Collect)

Sorgenti: prodotti (web/mobile), backend, pagamenti, provider KYC/AML, giochi/studio, marketing, servizi operativi.
Identificatori: «event _ id», «user». pseudo_id`, `session_id`, `trace_id`.
Contratti JSON/Avro schemi, AsyncAPI/OpenAPI.
Qualità in ingresso: convalida degli schemi, campi obbligatori, limiti di dimensione, anti-duplicati.
Privacy: tornizzazione dei campi sensibili, geo-instradamento ingest (EEA/UK/BR).

2. 2 Accezione e storage primario (Ingest & Raw)

Trasporti: Edge pneumatico (Kafka/Redpanda).
Livello raw (Bronze): append-only, payload invariabili (forensico), partizionamento tempo/mercato/tenante.
Criteri: DLQ per «(event _ id, source)», DLQ per gli eventi «battuti», etichette Legali Hold.

2. 3 Elaborazione e pulizia (Refine)

Normalizzazione (Silver) - Tipizzazione, deduplicazione, riferimenti, FX/Timsons, arricchimento.
Qualità (DQ) - Completezza/univocità/intervalli/integrità di riferimento.
Replicessing: linee di montaggio idompotenti, time-travel controllate da backfill.

2. 4 Consumo e cerving (Serve/Usa)

Vetrine Gold: BI/Report (GGR, RG, AML), modelli alimentari e di rischio, vetrine real-time.
Accesso: SQL/Trino, livello semantico delle metriche, API/GraphQL, Feature Store.
SLA freschezza: ad esempio, le vetrine Gold-giornaliere sono pronte fino alle 6:00 locali.

2. 5 Scambio e distribuzione (Share/Publish)

Consumatori interni: Analista, Prodotto, Rischio, Complaens, Marketing, Finanza.
Scarichi esterni: regolatori, partner/provider; pacchetti invariati (PDF/CSV/JSON + hash).
Canali controllati: manufatti firmati, controllo dei download/esportazioni.

2. 6 Archiviazione e archiviazione (Archive/Retain)

Regole di conservazione per tipo di dati e giurisdizione (ad esempio, regolatori per 5-7 anni).
Livelli di storage: hot/warm/cold, WORM/Object Lock per l'immutabilità.
Indicizzazione dell'archivio: directory, etichette di versione/mercato, ricerca rapida dei metadati.

2. 7 Eliminazione e finale (Dispose)

Rimozione normale: TTL/Retensh; pulizia sicura, aggiornamento degli indici.
Operazioni legali: DSAR/RTBF (diritto all'oblio), eccezioni per legittimo obbligo di conservazione, legale hold (congelamento della rimozione).
Verifica: report di eliminazione, registro di verifica, controllo delle repliche crociate.

3) Classificazione e directory

Categorie di sensibilità: public/internal/confidential/restringted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Catalogo dati: descrizione, proprietario, SLA freschezza, schemi, lineage, livelli di accesso.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.

4) Modello Lakehouse e schemi

Bronze/Silver/Gold - Regole chiare per la trasformazione e la responsabilità.
Formati: Parquet + formato tabella con ACID (Delta/Iceberg/Hudi).
Evoluzione dei diagrammi: versioni semantiche, compatibilità lunga, migrazioni a doppia voce per modifiche breaking.
Registry: Schema Registry, ICI-convalida dei contratti, consumer-driven test.

5) Qualità dati (DQ)

Metriche di qualità:

Completezza: percentuale di eventi/righe effettivamente ricevuti.
Validity: percentuale di record sottoposti a convalida schematica.
Uniqueness - Controllo dei duplicati.
Consistency, corrispondenza tra manuali e relazioni.
Freshness: ritardo di ricezione/materializzazione.

Pratiche:

Regole DQ come codice (test YAML/SQL), dashboard, alert SLO.
Follback automatico in caso di degrado (ultimo taglio corretto).

6) Privacy e compliance

Minimizzazione PII - Conservare lo pseudo-ID, trascinare i mapping in un tracciato isolato.
Maschera e RLS/CLS a livello di colonne/righe; criteri dinamici.
Regionalizzazione: data residency per i mercati; directory/chiavi di crittografia separate.
DSAR/RTBF: proiezioni gestite, modifiche selettive, verifiche di emissione.
Legale Hold: etichette di congelamento, archivi invariati, protocolli di accesso.

7) Accesso e sicurezza

Autenticazione/autorizzazione: SSO, RBAC/ABAC, attributi di giurisdizioni e ruoli.
Crittografia: TLS in-transit; at-rest tramite KMS/CMK; rotazione delle chiavi.
Registri di accesso: chi/cosa/quando/da dove; alert per l'esportazione/scan di massa.
Separazione dei compiti: ruoli diversi per prod/analisti/ammiragli/revivers.

8) Linearità (lineage) e osservabilità

Lineage tecnico: dalla fonte della trasformazione , la vetrina i rapporti.
Lineage operativo: collegamenti con release, fitchflag, modelli, regole AML/RG.
Le metriche della piattaforma sono throughput, lag, failure-rate, cost/query, cost/GB.
Tracing: trasmettere «trace _ id» dalle applicazioni alle vetrine/alert.

9) Modelli di tempo e retroprocessi

Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill e reprocessing: pipeline idipotente, time-travel, controllo «doppia contabilità».
Salvataggio degli stati: TTL, Snapshot, Disaster Recovery.

10) Economia e cost-control

Partizionamento (data/mercato/tenante), clustering/Z-ordering.
Sempilamento per gli analisti ad alta frequenza (non per le transazioni/compilation).
Storage a più livelli (hot/warm/cold), TTL automatici.
Budget/mandeback per comando, limiti per richieste pesanti e backfill.

11) Processi e RACI

R (Respontible): Data Platform (ingest/storage/orchestrazione), Data Engineering (Trasformazioni), Proprietari di dominio (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legale/DPO, Architettura, SRE, Sicurezza.
I (Informed): BI/Prodotto/Marketing/Finanza/Operazioni.

12) SLO/SLI (target approssimativo)

Indicatore	Obiettivo
Freshness Silver p95	15 minuti
Vetrine gold-giornaliere	fino alle 6:00. ora
Completeness за T	≥ 99. 5%
Validity (diagrammi)	≥ 99. 9%
Disponibilità del cerving	≥ 99. 9%
Tempo di risposta DSAR	30 giorni (più severo di diritto locale)

13) Dashboard

Mappa termica della freschezza dei domini/mercati.
Completeness/Validity per flusso.
Costi di archiviazione e query (per livello e comando).
Mappa lineage per report critici (regolatore, GGR, RG/AML).
Code DSAR/RTBF, Stato Legale Hold.

14) Modelli di criteri di storage (esempio)

Classe dati	Hot	Warm	Archive (WORM)	TTL totale
Transazioni di pagamento	7 d	60 d	7 anni	7 anni
Eventi di gioco (analisi)	3 d	30 d	1-2 anni	1-2 anni
Componenti composti/AML	14 d	90 d	5-7 anni	5-7 anni
Logi operativi	3 d	30 d	1 anno	1 anno

I tempi effettivi sono definiti da Legale/DPO e diritto locale.

15) Documentazione e standard

Data Product Page: proprietario, destinazione, SLA, schemi, regole DQ, contatti.
Change log - Versioni di diagrammi/logiche, impatto (impact analysis), migrazioni.
Runbooks: reprocessing, backfill, script di emergenza, pulsante freeze.

16) Road map di implementazione

MVP (4-6 settimane):

1. Catalogo dei dati e classificazione (top domini), diagrammi di base e minuscole.

2. Lakehouse Bronze/Silver, ingestione con validazione e deduplicazione.

3. 1-2 vetrine Gold (ad esempio GGR e conversione).

4. Regole DQ minime e dashboard Freshness/Completeness.

5. Regole di archiviazione e RBAC per l'accesso.

Fase 2 (6-12 settimane):

Linage, livello semantico delle metriche, procedura DSAR/RTBF.
Regionalizzazione (EEA/UK), WORM per gli artefatti regolatori, Legale Hold.
Ottimizzazione dei costi, alert SLO, rendicontazione del budget.

Fase 3 (12 + settimane):

Data Mesh (prodotti di dominio), consumer-driven contracts e test.
Controllo automatico dell'impatto quando i diagrammi o la logica cambiano, replica.
Un unico pannello di corrispondenza (regolatore, accesso, DQ, lineage).

17) Foglio di assegno prima della vendita

Schemi approvati, contratti nel registro, test di compatibilità.
Le regole DQ sono attive, gli alert sono configurati e le regole SLO sono state impostate.
RBAC/ABAC: ruoli verificati e registri di accesso attivati.
I criteri di conservazione/rimozione/archivio sono confermati da Legale/DPO.
Le procedure DSAR/RTBF/Legale Hold sono state documentate e testate.
Linegge/metriche/valore vengono visualizzati nei dashboard.
Runbooks per backfill/reprocessing/DR sono pronti.

18) Errori frequenti e come evitarli

Nessuna classificazione e directory. Immettere le schede di Data Product obbligatorie.
Dati crudi senza schemi: schema-first + convalida CI.
Nessuna eliminazione: progettare TTL e processi RTBF fin dall'inizio.
Combinazione di PII e analisi: conserva i mupping separatamente, applica il masking.
Gold senza proprietario e SLO: assegnare owner e obiettivi di freschezza.
Costo fuori controllo: partiture, compressione, tiered-storage, quote.

19) Glossario (breve)

DSAR/RTBF - Richiesta del soggetto dati/diritto di eliminazione.
Legale Hold - Congelamento della cancellazione per motivi legali.
Lineage è la tracciabilità di origine e trasformazione.
Data Product è un prodotto gestito con SLA.
DQ - regole e metriche di qualità dei dati.
Lakehouse - Unisce data lake e tabelle ACID.

20) Totale

Il ciclo di vita dei dati è un sistema di accordo gestito, non solo un archivio di file. Contratti e schemi chiari, classificazione e catalogo, qualità misurabile, privacy e sicurezza, architettura di storage a basso costo e lineage trasparenti rendono i dati un bene affidabile che supporta il prodotto, la compilazione e l'analisi senza sorprese o rischi «nascosti».

Ciclo di vita dei dati

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti