Archivi dati
1) Assegnazione e ruolo DWH nel iGaming
DWH è uno strato centrale di consolidamento e cerving dei dati per report, analisi, compilation e ML. Fornisce:- Definizioni di metriche uniche (GGR/NGR, ARPPU, Retention, Churn).
- Rapporti riconducibili a regolatori e stakeholder interni.
- Vetrine veloci per pannelli operativi BI e sorgenti per modelli.
- Controllo qualità, lineage e sicurezza a livello di piattaforma.
2) Opzioni architettoniche
2. 1 Classic DWH
ETL-DWH (stella/fiocco di neve) BI.
Più: modelli guidati, forte consistenza.
Svantaggi: download costosi, backfill complicato, flessibilità limitata.
2. 2 Lakehouse DWH
Bronze/Silver/Gold sulle tabelle ACID (Delta/Iceberg/Hudi) + motore SQL/MPP.
I vantaggi sono un unico storage, time-travel, semplice reprocessing.
Contro: richiede disciplina dei livelli e DQ, un'orchestra matura.
2. 3 Ibrido
Lakehouse come «fonte di verità» (Bronze/Silver), DWH-marzo in MPP (ClickHouse/Pinot/Druid/Cloud DWH) per la lettura ad alta velocità.
Vantaggi: bilanciamento dei costi e delle prestazioni, vetrine flessibili.
Contro: doppio supporto per diagrammi e rotaie, è necessario sincronizzare.
Raccomandazione per il iGaming - Lakehouse + DWH-marzo (ibrido). Bronze/Silver - standardizzano, Gold/Real-time mars - mantengono i carichi di lettura.
3) Simulazione dei dati
3. 1 Stella e fiocco di neve
I dati di tabella sono stretti, eventi: fact _ bets, fact _ payouts, fact _ payments.
Misure: dim _ users (SCD), dim _ games, dim _ provider, dim _ markets.
Il fiocco di neve è appropriato in Silver (normalizzazione), la stella in Gold (lettura).
3. 2 Data Vault 2. 0 (kernel di integrazione)
Hubs (chiavi aziendali), Links (relazioni), Satellites (contesto/storia).
Applica in Silver per le integrazioni a lunga vita dei provider/PSP.
3. 3 SCD I/II/III
SCD II per RG/KYC/canali e attributi di gioco (RTP/volatilità).
Intervalli rigorosi'valid _ from/valid _ to ', corretti in base al tempo.
4) Download: ETL/ELT, CDC e incarichi
Approccio ELT: download in Silver per la trasformazione in DWH.
CDC: Debezium/loga-replica da OLTP; Gli insetti sono idipotenti.
Incrementi sull'acqua del tempo ('updated _ at> max _ loaded _ ts') e/o hash-delt.
Backfill/Reprocessing: time-travel, intervalli, quote, dry-run confronto.
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) Livello semantico e metriche
Metrics Store/Semantic Layer è un'unica formula GGR/NGR/Conversion/LTV.
Versioning delle metriche e calcolo «as-of» per la riproduzione.
Gli accordi sono nomi di metriche, unità, valuta (base EUR) e «fx _ source».
6) Vetrine e cerving
Vetrine Gold: denormalizzate, pronte a SLA (ad esempio, fino alle 6:00) .
per pannelli di 1-5 minuti.
Esportazione: CSV/JSON/PDF + hash; pacchetti invariati (WORM) per i regolatori.
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) Qualità dei dati (DQ) e contratti
Schema-first: JSON/Avro registry + test di compatibilità (consumer-driven).
DQ-как-код: completeness/validity/uniqueness/FK/range/temporal.
Criteri di reazione: critical fail + DLQ; maggiore/minore → tag e report.
Osservabilità DQ: dashboard Freshness/Completeness/Validity, vortice di record persi.
8) Sicurezza, privacy e residenza
Riduzioni PII: utenti tramite pseudo-ID mupping separati.
Accesso RLS/CLS per ruoli e giurisdizioni.
Crittografia: TLS in-transit; at-rest - KMS/CMK con rotazione.
Data Residency: cataloghi e chiavi separati per EEA/UK/BR; Vietare i join'ov crocifissori senza fondamento.
DSAR/RTBF: proiezioni calcolate e modifiche selettive Legale Hold per gli artefatti.
9) Prestazioni e costi (Cost Engineering)
Partitura per data/mercato/tenante; clustering/Z-order per «market», «provider _ id», «game _ id», «user _ pseudo _ id».
Formati: Parquet + statistiche e compressione; OTTIMIZE/VACUUM pianificato.
Materializzazione: unità stabili e tabelle summary; Evitate i "grassi" join "al volo.
Quote/Marceback: budget per richieste/repliche pesanti; Report cost/query, cost/GB.
Tiered storage: hot/warm/cold; chiari i ripristini SLA.
10) Osservabilità e controllo
Metriche di pipline: durata, volumi, retrai, laghe, tolleranza di errore.
Metriche DWH: tempo di risposta/concorrenza/cache-successo/costo.
Lineage: grafico dalle origini ai report Analisi impact in caso di modifiche.
SLO: Freshness Silver p95 ≤ 15 мин; Gold daily - pronto entro le 6:00; Validity ≥ 99. 9%; Completeness ≥ 99. 5%; Disponibilità ≥ 99. 9%.
11) Molteplicità e isolamento di dominio
Suddivisione per schema/database/catalog per tenante/mercato.
Quote e resource groups; Limitare i vicini rumorosi.
Criteri di esportazione/importazione tra tenenti, contratti standardizzati.
12) Registro dati e documentazione
Data Catalog: owner, SLA, schema, esempi, regole DQ, lineage.
Metriche/dashboard: schede con formule e responsabili.
Change Log: versioni logiche, migrazioni, influencer.
13) Processi e RACI
R (Responsibile) - Data Engineering (Silver/Gold, DAG 'e), Data Platform (Infra, Registry, DQ).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/Legal/DPO, Finance (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (Informed) - BI, Prodotto, Marketing, Operazioni.
14) Road map di implementazione
MVP (4-6 settimane):1. Lakehouse Bronze/Silver (ACID-Tabelle), CDC/Incrementi per Payments/Gameplay.
2. Prime vetrine Gold (GGR Daily, conversione), SLA fino alle 6:00.
3. DQ-come (10-15 regole) + dashboard Freshness/Completeness.
4. Catalogo dati e livello semantico base delle metriche.
Fase 2 (6-12 settimane):- SCD II для users/games/providers; Estensione dei domini.
- Firme operative (ClickHouse/Pinot) per i pannelli real-time/near-real-time.
- Lineage/impatto-analisi, procedure DSAR/RTBF, regionalizzazione (EEA/UK).
- Controllo automatico delle modifiche (dry-run), repliche e confronto delle metriche.
- Chargeback/quote, cost-dashboard; Esercitazioni DR e time-travel di ripristino.
- Generazione automatica della documentazione delle vetrine e delle schede delle metriche.
15) Modelli SQL di esempio
Dato delle scommesse (Silver, 3NF):sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
Connessione a SCD II (ottenere lo stato RG al momento della puntata):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
Controllo della completezza dei mercati:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) Foglio di assegno prima della vendita
- Schemi e contratti nel registro, test di compatibilità verde.
- Le procedure CDC/incarnate e MERGE sono idipotenti.
- Le vetrine gold hanno SLA, le formule sono fissate.
- Le regole DQ sono attive (critical → fail + DLQ), i dashboard Freshness/Completeness.
- RBAC/ABAC, crittografia, residenza per regione, registri di accesso.
- Lineage/impatto sono inclusi; time-travel/backup/DR verificati.
- Il costo è sotto controllo: partenze, clustering, materializzazione, quote.
17) Anti-pattern e rischi
«Un DWH grasso senza strati», una miscela di dati crudi e resoconti, il caos e le correzioni costose.
Full reload quotidianamente, senza necessità: usa gli incarichi/CDC.
Gold senza proprietario e senza formula, l'assenza di una sola versione della verità, il dibattito e la regressione.
PII nei livelli analitici: tenete separati i muppings, CLS/RLS.
Nessun DQ/lineage: nessuna prova per i regolatori/verifiche.
Costo fuori controllo: nessuna partitura/ottimizzazione/quota.
18) Glossario (breve)
Data storage DWH per il consolidamento e gli analisti.
Lakehouse - data lake + tabelle ACID e motore SQL.
CDC - Cattura modifiche da OLTP.
SCD - Dimensioni che cambiano lentamente (I/II/III).
La vetrina Gold è un report/visualizzazione pronto per il consumo.
Semantic Layer è un'unica definizione di metriche e attributi.
19) Totale
Il moderno DWH per i iGaming non è una grande tabella, ma una piattaforma gestibile: livelli Bronze/Silver/Gold, contratti rigorosi e DQ, metriche e lineage unificate, privacy e residenza, prestazioni e convenienza. Costruendo un ibrido Lakehouse + DWH-marzo, si ottiene un processo decisionale rapido e collaudabile, pronto per l'ispezione, la scala e i nuovi mercati.