GH GambleHub

Ciclo di vita dei dati

1) Assegnazione e principi

Obiettivo: garantire un movimento dei dati prevedibile, completo ed economico, dalla data di arrivo alla loro eliminazione finale, supportando scenari analitici, operativi e regolatori.

Principi di base:
  • Data as a Product: ogni set ha proprietario, contratto, SLO, documentazione.
  • Schema-first: schemi obbligatori; modifiche tramite versioning.
  • Privacy-by-Design: minimizzazione del PII, alias, conservazione regionale.
  • Osservabilità-by-Default: metriche, logica di accesso, lineage.
  • Cost-aware - Livelli di storage, TTL, semilibertà, compressione.

2) Fasi del ciclo di vita

2. 1 Creazione e raccolta (Create/Collect)

Sorgenti: prodotti (web/mobile), backend, pagamenti, provider KYC/AML, giochi/studio, marketing, servizi operativi.
Identificatori: «event _ id», «user». pseudo_id`, `session_id`, `trace_id`.
Contratti JSON/Avro schemi, AsyncAPI/OpenAPI.
Qualità in ingresso: convalida degli schemi, campi obbligatori, limiti di dimensione, anti-duplicati.
Privacy: tornizzazione dei campi sensibili, geo-instradamento ingest (EEA/UK/BR).

2. 2 Accezione e storage primario (Ingest & Raw)

Trasporti: Edge pneumatico (Kafka/Redpanda).
Livello raw (Bronze): append-only, payload invariabili (forensico), partizionamento tempo/mercato/tenante.
Criteri: DLQ per «(event _ id, source)», DLQ per gli eventi «battuti», etichette Legali Hold.

2. 3 Elaborazione e pulizia (Refine)

Normalizzazione (Silver) - Tipizzazione, deduplicazione, riferimenti, FX/Timsons, arricchimento.
Qualità (DQ) - Completezza/univocità/intervalli/integrità di riferimento.
Replicessing: linee di montaggio idompotenti, time-travel controllate da backfill.

2. 4 Consumo e cerving (Serve/Usa)

Vetrine Gold: BI/Report (GGR, RG, AML), modelli alimentari e di rischio, vetrine real-time.
Accesso: SQL/Trino, livello semantico delle metriche, API/GraphQL, Feature Store.
SLA freschezza: ad esempio, le vetrine Gold-giornaliere sono pronte fino alle 6:00 locali.

2. 5 Scambio e distribuzione (Share/Publish)

Consumatori interni: Analista, Prodotto, Rischio, Complaens, Marketing, Finanza.
Scarichi esterni: regolatori, partner/provider; pacchetti invariati (PDF/CSV/JSON + hash).
Canali controllati: manufatti firmati, controllo dei download/esportazioni.

2. 6 Archiviazione e archiviazione (Archive/Retain)

Regole di conservazione per tipo di dati e giurisdizione (ad esempio, regolatori per 5-7 anni).
Livelli di storage: hot/warm/cold, WORM/Object Lock per l'immutabilità.
Indicizzazione dell'archivio: directory, etichette di versione/mercato, ricerca rapida dei metadati.

2. 7 Eliminazione e finale (Dispose)

Rimozione normale: TTL/Retensh; pulizia sicura, aggiornamento degli indici.
Operazioni legali: DSAR/RTBF (diritto all'oblio), eccezioni per legittimo obbligo di conservazione, legale hold (congelamento della rimozione).
Verifica: report di eliminazione, registro di verifica, controllo delle repliche crociate.

3) Classificazione e directory

Categorie di sensibilità: public/internal/confidential/restringted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Catalogo dati: descrizione, proprietario, SLA freschezza, schemi, lineage, livelli di accesso.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.

4) Modello Lakehouse e schemi

Bronze/Silver/Gold - Regole chiare per la trasformazione e la responsabilità.
Formati: Parquet + formato tabella con ACID (Delta/Iceberg/Hudi).
Evoluzione dei diagrammi: versioni semantiche, compatibilità lunga, migrazioni a doppia voce per modifiche breaking.
Registry: Schema Registry, ICI-convalida dei contratti, consumer-driven test.

5) Qualità dati (DQ)

Metriche di qualità:
  • Completezza: percentuale di eventi/righe effettivamente ricevuti.
  • Validity: percentuale di record sottoposti a convalida schematica.
  • Uniqueness - Controllo dei duplicati.
  • Consistency, corrispondenza tra manuali e relazioni.
  • Freshness: ritardo di ricezione/materializzazione.
Pratiche:
  • Regole DQ come codice (test YAML/SQL), dashboard, alert SLO.
  • Follback automatico in caso di degrado (ultimo taglio corretto).

6) Privacy e compliance

Minimizzazione PII - Conservare lo pseudo-ID, trascinare i mapping in un tracciato isolato.
Maschera e RLS/CLS a livello di colonne/righe; criteri dinamici.
Regionalizzazione: data residency per i mercati; directory/chiavi di crittografia separate.
DSAR/RTBF: proiezioni gestite, modifiche selettive, verifiche di emissione.
Legale Hold: etichette di congelamento, archivi invariati, protocolli di accesso.

7) Accesso e sicurezza

Autenticazione/autorizzazione: SSO, RBAC/ABAC, attributi di giurisdizioni e ruoli.
Crittografia: TLS in-transit; at-rest tramite KMS/CMK; rotazione delle chiavi.
Registri di accesso: chi/cosa/quando/da dove; alert per l'esportazione/scan di massa.
Separazione dei compiti: ruoli diversi per prod/analisti/ammiragli/revivers.

8) Linearità (lineage) e osservabilità

Lineage tecnico: dalla fonte della trasformazione , la vetrina i rapporti.
Lineage operativo: collegamenti con release, fitchflag, modelli, regole AML/RG.
Le metriche della piattaforma sono throughput, lag, failure-rate, cost/query, cost/GB.
Tracing: trasmettere «trace _ id» dalle applicazioni alle vetrine/alert.

9) Modelli di tempo e retroprocessi

Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill e reprocessing: pipeline idipotente, time-travel, controllo «doppia contabilità».
Salvataggio degli stati: TTL, Snapshot, Disaster Recovery.

10) Economia e cost-control

Partizionamento (data/mercato/tenante), clustering/Z-ordering.
Sempilamento per gli analisti ad alta frequenza (non per le transazioni/compilation).
Storage a più livelli (hot/warm/cold), TTL automatici.
Budget/mandeback per comando, limiti per richieste pesanti e backfill.

11) Processi e RACI

R (Respontible): Data Platform (ingest/storage/orchestrazione), Data Engineering (Trasformazioni), Proprietari di dominio (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legale/DPO, Architettura, SRE, Sicurezza.
I (Informed): BI/Prodotto/Marketing/Finanza/Operazioni.

12) SLO/SLI (target approssimativo)

IndicatoreObiettivo
Freshness Silver p9515 minuti
Vetrine gold-giornalierefino alle 6:00. ora
Completeness за T≥ 99. 5%
Validity (diagrammi)≥ 99. 9%
Disponibilità del cerving≥ 99. 9%
Tempo di risposta DSAR30 giorni (più severo di diritto locale)

13) Dashboard

Mappa termica della freschezza dei domini/mercati.
Completeness/Validity per flusso.
Costi di archiviazione e query (per livello e comando).
Mappa lineage per report critici (regolatore, GGR, RG/AML).
Code DSAR/RTBF, Stato Legale Hold.

14) Modelli di criteri di storage (esempio)

Classe datiHotWarmArchive (WORM)TTL totale
Transazioni di pagamento7 d60 d7 anni7 anni
Eventi di gioco (analisi)3 d30 d1-2 anni1-2 anni
Componenti composti/AML14 d90 d5-7 anni5-7 anni
Logi operativi3 d30 d1 anno1 anno

I tempi effettivi sono definiti da Legale/DPO e diritto locale.

15) Documentazione e standard

Data Product Page: proprietario, destinazione, SLA, schemi, regole DQ, contatti.
Change log - Versioni di diagrammi/logiche, impatto (impact analysis), migrazioni.
Runbooks: reprocessing, backfill, script di emergenza, pulsante freeze.

16) Road map di implementazione

MVP (4-6 settimane):

1. Catalogo dei dati e classificazione (top domini), diagrammi di base e minuscole.

2. Lakehouse Bronze/Silver, ingestione con validazione e deduplicazione.

3. 1-2 vetrine Gold (ad esempio GGR e conversione).

4. Regole DQ minime e dashboard Freshness/Completeness.

5. Regole di archiviazione e RBAC per l'accesso.

Fase 2 (6-12 settimane):
  • Linage, livello semantico delle metriche, procedura DSAR/RTBF.
  • Regionalizzazione (EEA/UK), WORM per gli artefatti regolatori, Legale Hold.
  • Ottimizzazione dei costi, alert SLO, rendicontazione del budget.
Fase 3 (12 + settimane):
  • Data Mesh (prodotti di dominio), consumer-driven contracts e test.
  • Controllo automatico dell'impatto quando i diagrammi o la logica cambiano, replica.
  • Un unico pannello di corrispondenza (regolatore, accesso, DQ, lineage).

17) Foglio di assegno prima della vendita

  • Schemi approvati, contratti nel registro, test di compatibilità.
  • Le regole DQ sono attive, gli alert sono configurati e le regole SLO sono state impostate.
  • RBAC/ABAC: ruoli verificati e registri di accesso attivati.
  • I criteri di conservazione/rimozione/archivio sono confermati da Legale/DPO.
  • Le procedure DSAR/RTBF/Legale Hold sono state documentate e testate.
  • Linegge/metriche/valore vengono visualizzati nei dashboard.
  • Runbooks per backfill/reprocessing/DR sono pronti.

18) Errori frequenti e come evitarli

Nessuna classificazione e directory. Immettere le schede di Data Product obbligatorie.
Dati crudi senza schemi: schema-first + convalida CI.
Nessuna eliminazione: progettare TTL e processi RTBF fin dall'inizio.
Combinazione di PII e analisi: conserva i mupping separatamente, applica il masking.
Gold senza proprietario e SLO: assegnare owner e obiettivi di freschezza.
Costo fuori controllo: partiture, compressione, tiered-storage, quote.

19) Glossario (breve)

DSAR/RTBF - Richiesta del soggetto dati/diritto di eliminazione.
Legale Hold - Congelamento della cancellazione per motivi legali.
Lineage è la tracciabilità di origine e trasformazione.
Data Product è un prodotto gestito con SLA.
DQ - regole e metriche di qualità dei dati.
Lakehouse - Unisce data lake e tabelle ACID.

20) Totale

Il ciclo di vita dei dati è un sistema di accordo gestito, non solo un archivio di file. Contratti e schemi chiari, classificazione e catalogo, qualità misurabile, privacy e sicurezza, architettura di storage a basso costo e lineage trasparenti rendono i dati un bene affidabile che supporta il prodotto, la compilazione e l'analisi senza sorprese o rischi «nascosti».

Contact

Mettiti in contatto

Scrivici per qualsiasi domanda o richiesta di supporto.Siamo sempre pronti ad aiutarti!

Telegram
@Gamble_GC
Avvia integrazione

L’Email è obbligatoria. Telegram o WhatsApp — opzionali.

Il tuo nome opzionale
Email opzionale
Oggetto opzionale
Messaggio opzionale
Telegram opzionale
@
Se indichi Telegram — ti risponderemo anche lì, oltre che via Email.
WhatsApp opzionale
Formato: +prefisso internazionale e numero (ad es. +39XXXXXXXXX).

Cliccando sul pulsante, acconsenti al trattamento dei dati.