Depozite de date
1) Scopul și rolul DWH în iGaming
DWH este nivelul central de consolidare și servire a datelor pentru raportare, analiză, conformitate și ML. Acesta prevede:- Definiții metrice comune (GGR/NGR, ARPPU, retenție, Churn).
- Rapoarte reproductibile pentru autoritățile de reglementare și părțile interesate interne.
- Vitrine rapide pentru panouri BI/operare si surse pentru modele.
- Controlul calității la nivel de platformă, descendență și siguranță.
2) Opțiuni arhitecturale
2. 1 Clasic DWH
ETL → DWH → BI.
Pro: Modele ușor de gestionat, consistență puternică.
Contra: descărcări scumpe, rambursare complexă, flexibilitate limitată.
2. 2 Lakehouse DWH
Bronz/Argint/Aur pe tabele ACID (Delta/Iceberg/Hudi) + motor SQL/MPP.
Pro: stocare unificată, călătorie în timp, reprocesare simplă.
Contra: necesită disciplină de straturi și DQ, orchestrație matură.
2. 3 Hibrid
Lakehouse ca „sursă de adevăr” (Bronze/Silver), DWH-martie în MPP (ClickHouse/Pinot/Druid/Cloud DWH) pentru citire de mare viteză.
Argumente pro: echilibrul costurilor și performanței, vitrine flexibile.
Contra: este nevoie de suport dual pentru circuite și patinaj, sincronizare.
Recomandare: pentru iGaming - Lakehouse + DWH-martie (hibrid). Bronz/Argint - standardiza, Aur/Marte în timp real - servi sarcini de lectură.
3) Modelarea datelor
3. 1 stea și fulg de zăpadă
Tabele de fapte: înguste, bazate pe evenimente: 'fact _ bet', 'fact _ payouts',' fact _ payments'.
Dimensiuni: 'dim _ users' (SCD), 'dim _ games', 'dim _ providers',' dim _ markets'.
Fulg de zăpadă este potrivit în argint (normalizare), Steaua - în aur (lectură).
3. 2 Data Vault 2. 0 (miez de integrare)
Hub-uri (chei de afaceri), Legături (relații), Sateliți (context/istorie).
Aplicați în Silver pentru integrarea furnizorului/PSP cu durată lungă de viață.
3. 3 SCD I/II/III
SCD II pentru RG/KYC/canale și atribute de joc (RTP/volatilitate).
Intervale stricte 'valid _ from/valid _ to', corect join in time.
4) sarcină: ETL/ELT, CDC și trepte
Abordare ELT: încărcare în Silver → transformare în DWH.
CDC: Replicarea Debezium/jurnal de la OLTP; Merzhi sunt idempotente.
Incremente: prin apa de timp ('update _ at> max_loaded_ts') și/sau delta hash.
Backfill/Reprocesare: călătorie în timp, intervale, cote, comparații uscate.
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) Strat semantic și măsurători
Metrics Store/Semantic Layer: formule uniforme GGR/NGR/Conversion/LTV.
Versioning metrics and „as-of” computation for reproductibility.
Convențiile sunt nume metrice, unități, valută (baza EUR) și 'fx _ source'.
6) Vitrine și servire
Vitrine de aur: denormalizate, SLA gata (de exemplu, până la 06:00 blocare.) .
Marte operationale: ClickHouse/Pinot/Druid pentru panouri de 1-5 minute.
Export: CSV/JSON/PDF + hash; pachete imuabile (WORM) pentru autoritățile de reglementare.
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) Calitatea datelor (DQ) și contractele
Schema-first: JSON/Avro registry + teste de compatibilitate (bazate pe consum).
DQ- как - код: completitudine/valabilitate/unicitate/FK/interval/temporal.
Politici de reacție: → critice eșuează + DLQ; etichetă → majoră/minoră și raport.
DQ observabilitate: prospețime/completitudine/tablouri de bord de valabilitate, pâlnie de înregistrări pierdute.
8) Securitate, confidențialitate și rezidență
Minimizare PII: utilizatori prin pseudo-ID; mapări separate.
RLS/CLS: Acces linie cu linie/post-tabel în funcție de rol și jurisdicție.
Criptare: TLS în tranzit; în repaus - KMS/CMK cu rotație.
Rezidența datelor: directoare și chei separate pentru SEE/UK/BR; interzicerea intrărilor transregionale fără motiv.
DSAR/RTBF: proiecții calculabile și modificări selective; Legal Hold pe artefacte de raportare.
9) Performanță și cost (Cost Engineering)
Partiționare: după dată/piață/chiriaș; clustering/Z-order by 'market', 'provider _ id',' game _ id', 'user _ pseudo _ id'.
Formate: Parchet + statistici și compresie; OPTIMIZAȚI/VACUUM conform programului.
Materializare: agregate stabile și tabele sumare; evita „grăsime” se alătură pe zbor.
Cote/Chargeback: bugete pentru cereri grele/reluări; rapoarte cost/interogare, cost/GB.
Depozitare pe niveluri: cald/cald/rece; SLA-uri clare de recuperare.
10) Observabilitate și management
Măsurători de conducte: durată, volume, retribuții, decalaje, toleranță la erori.
Măsurători DWH: timp de răspuns/competitivitate/hit-uri cache/valoare.
Descendență: grafic de la surse la rapoarte; analiza impactului asupra schimbărilor.
SLO: Prospețime Argint p95 ≤ 15 мин; Aur zilnic - gata până la ora 06:00; Valabilitatea ≥ 99. 9%; Integralitatea ≥ 99. 5%; disponibilitate ≥ 99. 9%.
11) Multi-chirie și de izolare a domeniului
Împărțirea pe scheme/baze de date/catalog în chiriaș/piață.
Cote și grupuri de resurse; limitarea „vecinilor zgomotoşi”.
Politici de export/import între chiriași, contracte standardizate.
12) Registrul de date și documentația
Catalog de date: proprietar, SLA, schema, exemple, reguli DQ, descendență.
Metrici/tablouri de bord: carduri cu formule și responsabile.
Change Log: versiuni de logică, migrații, impact.
13) Procese și RACI
R (Responsabil): Ingineria datelor (modele Silver/Gold, DAG 'i), Platforma de date (infra, registry, DQ).
A (Responsabil): șef de date/CDO.
C (Consultat): Compliance/Legal/DPO, Finance (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (Informat): BI, Produs, Marketing, Operațiuni.
14) Foaia de parcurs privind implementarea
MVP (4-6 săptămâni):1. Lakehouse Bronze/Silver (tabele ACID), CDC/incremente pentru plăți/Gameplay.
2. Primele vitrine Gold (GGR Daily, conversie), SLA-uri până la ora 06:00.
3. DQ-like-code (10-15 reguli) + tablouri de bord prospețime/completitudine.
4. Catalog de date și strat semantic de bază de valori.
Faza 2 (6-12 săptămâni):- SCD II для utilizatori/jocuri/furnizori; extinderea domeniului.
- Martie online (ClickHouse/Pinot) pentru panouri în timp real/aproape în timp real.
- Analiza liniei/impactului, proceduri DSAR/RTBF, regionalizare (SEE/UK).
- Auto-simularea modificărilor (uscat-run), reluarea și compararea metricii.
- Chargeback/cote, cost-tablouri de bord; Exerciții DR și recuperarea călătoriei în timp.
- Generarea automată a documentației de prezentare și a cardurilor metrice.
15) Exemple de șabloane SQL
Tarifele efective (Silver, 3NF):sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
Conectarea la SCD II (obțineți statutul RG la momentul pariului):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
Controlul integralității pe piață:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) Lista de verificare pre-vânzare
- Scheme și contracte în registru, testele de compatibilitate sunt verzi.
- CDC/incremente și procedurile MERGE sunt idempotente.
- Vitrinele de aur au SLA-uri, formulele metrice sunt fixe.
- Regulile DQ sunt active (critice → fail + DLQ), tablouri de bord Freshness/Completeness.
- RBAC/ABAC, criptare, rezidență pe regiuni, jurnale de acces.
- Lineage/impact activat; timp de călătorie/backup/DR verificat.
- Costul sub control: partide, grupare, materializare, cote.
17) Anti-modele și riscuri
„Un DWH gras fără straturi”: un amestec de date brute și raportate → haos și remedieri costisitoare.
Reîncărcați complet zilnic inutil: utilizați incremente/CDC.
Aur fără proprietar și formule: lipsa unei singure versiuni a adevărului → dispute și regresii.
PII în straturi analitice: păstrați mapări separate, CLS/RLS.
Nu există DQ/descendență: nu există dovezi pentru autoritățile de reglementare/audit.
Cost imposibil de gestionat: fără loturi/optimizări/cote.
18) Glosar (scurt)
DWH este un depozit de date pentru consolidare și analiză.
Lakehouse - lac de date + tabele ACID și motor SQL.
CDC - Modificări de captură de la OLTP.
SCD - măsurători cu schimbare lentă (I/II/III).
Vitrina de aur - foaie de raport gata de consum/prezentare.
Strat semantic - definiții uniforme ale metricii și atributelor.
19) Linia de jos
DWH modern pentru iGaming nu este o „masă mare”, ci o platformă ușor de gestionat: straturi de bronz/argint/aur, contracte stricte și DQ, metrici uniforme și descendență, intimitate și rezidență, performanță și eficiență. Prin construirea unui hibrid Lakehouse + DWH-martie, veți avea decizii rapide și verificabile gata pentru audit, scară și noi piețe.