Деректер қоймасы
1) iGaming-дегі DWH қызметі мен рөлі
DWH - есептілік, талдау, комплаенс және ML үшін деректерді шоғырландыру мен сервингтің орталық қабаты. Ол:- Метриктердің бірыңғай анықтамалары (GGR/NGR, ARPPU, Retention, Churn).
- Реттегіштер мен ішкі стейкхолдерлер үшін репродукцияланатын есептер.
- BI/операциялық панельдерге арналған жылдам сөрелер және модельдерге арналған көздер.
- Платформа деңгейінде сапаны, сызықты және қауіпсіздікті бақылау.
2) Сәулеттік нұсқалар
2. 1 Classic DWH
ETL → DWH (жұлдыз/қар бүршігі) → BI.
Артықшылықтары: басқарылатын модельдер, күшті консистенттілік.
Кемшіліктері: қымбат жүктеулер, күрделі backfill, шектеулі икемділік.
2. 2 Lakehouse DWH
Bronze/Silver/Gold ACID-кестелерінде (Delta/Iceberg/Hudi) + SQL/MPP қозғалтқышы.
Артықшылықтары: бірыңғай сторедж, time-travel, қарапайым reprocessing.
Кемшіліктері: қабаттар мен DQ тәртібін, жетілген оркестрді талап етеді.
2. 3 Гибрид
Lakehouse «ақиқат көзі» ретінде (Bronze/Silver), DWH-наурыз жоғары жылдамдықты оқу үшін MPP (ClickHouse/Pinot/Druid/Cloud DWH).
Артықшылықтары: құн мен өнімділік теңгерімі, икемді сөрелер.
Кемшіліктері: схемалар мен каталдарды екі рет қолдау, синхрондау қажет.
Ұсыным: iGaming үшін - Lakehouse + DWH-наурыз (гибрид). Bronze/Silver - стандартталады, Gold/Real-time marts - оқу жүктемесіне қызмет көрсетеді.
3) Деректерді модельдеу
3. 1 Жұлдыз және қар бүршігі
Факт-кестелер: тар, оқиғалы: 'fact _ bets', 'fact _ payouts', 'fact _ payments'.
Өлшемдері: 'dim _ users' (SCD), 'dim _ games', 'dim _ providers', 'dim _ markets'.
Қар бүршігі Silver (қалыпқа келтіру), Жұлдыз - Gold (оқу).
3. 2 Data Vault 2. 0 (интеграция ядросы)
Hubs (бизнес кілттері), Links (қатынас), Satellites (контекст/тарих).
Silver бағдарламасында провайдерлердің/PSP ұзақ мерзімді интеграциялары үшін қолдану.
3. 3 SCD I/II/III
RG/KYC/арналар және ойын атрибуттары үшін SCD II (RTP/құбылмалылық).
Қатаң интервалдар 'valid _ from/valid _ to', уақыт бойынша дұрыс join-дер.
4) Жүктеу: ETL/ELT, CDC және инкременттер
ELT-тәсіл: Silver → DWH түрлендіру жүктеу.
CDC: ALTP-ден Debezium/лог-репликация; мергендер іспеттес.
Инкременттер: уақыт суы ('updated _ at> max_loaded_ts') және/немесе хэш-делт бойынша.
Backfill/Reprocessing: time-travel, диапазондар, квоталар, dry-run салыстыру.
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) Семантикалық қабат және метрика
Metrics Store/Semantic Layer: GGR/NGR/Conversion/LTV бірыңғай формулалары.
Қайталануға арналған метриктер мен «as-of» есептеулерін нұсқалау.
Келісімдер: метрикалардың аттары, өлшем бірліктері, валюта (base EUR) және 'fx _ source'.
6) Витриналар және сервинг
Gold-витриналар: денормализацияланған, дайын SLA (мысалы, 06:00 лок.) .
Жедел наурыз: 1-5 минуттық панельдер үшін ClickHouse/Pinot/Druid.
Экспорт: CSV/JSON/PDF + hash; реттегіштер үшін өзгертілмейтін пакеттер (WORM).
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) Деректер сапасы (DQ) және келісімшарттар
Schema-first: JSON/Euro registry + үйлесімділік тестілері (consumer-driven).
DQ-как-код: completeness/validity/uniqueness/FK/range/temporal.
Реакция саясаты: critical → fail + DLQ; major/minor → тег және есеп.
DQ бақылануы: Freshness/Completeness/Validity дашбордтары, жоғалған жазбалардың құйғышы.
8) Қауіпсіздік, құпиялылық және резиденттік
PII-азайту: псевдо-ID арқылы пайдаланушылар; маппингтер жеке.
RLS/CLS: рөлдер мен юрисдикциялар бойынша жолма-жол/постолбцово қатынау.
Шифрлау: TLS in-transit; at-rest - ротациямен KMS/CMK.
Data Residency: EEA/UK/BR үшін жеке каталогтар мен кілттер; негізсіз кросс-өңірлік join 'oларға тыйым салу.
DSAR/RTBF: есептелетін проекциялар және селективті редакциялау; Есептік артефактілерге Legal Hold.
9) Өнімділік және құн (Cost Engineering)
Партиялануы: күні/нарығы/теңгерімі бойынша; кластерлеу/Z-order бойынша 'market', 'provider _ id', 'game _ id', 'user _ pseudo _ id'.
Форматтар: Parquet + статистика және компрессия; OPTIMIZE/VACUUM кесте бойынша.
Материалдандыру: тұрақты агрегаттар және summary-кестелер; ұшу кезінде «қалың» join 'олардан аулақ болыңыз.
Квоталар/Chargeback: ауыр сұраныстарға/реплеяларға арналған бюджеттер; cost/query, cost/GB есептері.
Tiered storage: hot/warm/cold; нақты SLA қалпына келтіру.
10) Бақылау және басқару
Пайплайндар метрикасы: ұзақтығы, көлемі, ретраялары, лагтары, істен шығуға төзімділігі.
DWH өлшемдері: жауап уақыты/бәсекелестік/кэш-хит/құн.
Lineage: көздерден есептерге дейінгі бағандар; өзгерістер кезіндегі impact-талдау.
SLO: Freshness Silver p95 ≤ 15 мин; Gold daily - 06:00 дейін дайын; Validity ≥ 99. 9%; Completeness ≥ 99. 5%; қол жетімділік ≥ 99. 9%.
11) Мультитенанттық және домендік оқшаулау
schema/database/catalog бойынша тенантқа/нарыққа бөлу.
Квоталар және resource groups; «шулы көршілерді» шектеу.
Теңге арасындағы экспорт/импорт саясаты, стандартталған келісімшарттар.
12) Деректер тізілімі және құжаттама
Data Catalog: owner, SLA, схема, мысалдар, DQ-ережелер, lineage.
Метриктер/дашбордтар: формулалары және жауапкершілігі бар карточкалар.
Change Log: логика, көші-қон, әсер (impact) нұсқалары.
13) Процестер және RACI
R (Responsible): Data Engineering (Silver/Gold, DAG 'и модельдері), Data Platform (инфра, registry, DQ).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/Legal/DPO, Finance (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (Informed): BI, Өнім, Маркетинг, Операциялар.
14) Енгізу жол картасы
MVP (4-6 апта):1. Lakehouse Bronze/Silver (ACID-кестелер), CDC/Payments/Gameplay үшін инкременттер.
2. Бірінші Gold-витриналар (GGR Daily, конверсия), SLA 06:00 дейін.
3. DQ-код ретінде (10-15 ереже) + Freshness/Completeness дашбордтары.
4. Деректер каталогы және метриканың негізгі семантикалық қабаты.
2-фаза (6-12 апта):- SCD II для users/games/providers; домендерді кеңейту.
- Real-time/near-real-time панельдері үшін жедел наурыз (ClickHouse/Pinot).
- Lineage/impact-талдау, DSAR/RTBF рәсімдері, аймақтандыру (EEA/UK).
- Өзгерістерді (dry-run), реплтерді автосимуляциялау және метриктерді салыстыру.
- Chargeback/квоталар, cost-дашбордтар; DR-жаттығулар және time-travel қалпына келтіру.
- Витриналар мен метрика карточкалары құжаттамасының автогенерациясы.
15) SQL үлгілерінің үлгілері
Ставкалар фактісі (Silver, 3НФ):sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
SCD II-мен қосылу (мөлшерлеме сәтінде RG-мәртебесін алу):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
Мыналар бойынша толықтықты бақылау:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) Азық-түлік алдындағы чек-парағы
- Тізілімдегі схемалар мен келісімшарттар, үйлесімділік тестілері жасыл.
- CDC/инкременттер және MERGE рәсімдері іспеттес.
- Gold-витриналарда SLA бар, метрикалық формулалар тіркелген.
- DQ ережелері белсенді (critical → fail + DLQ), Freshness/Completeness дашбордтары.
- RBAC/ABAC, шифрлау, өңірлер бойынша резиденттік, кіру журналдары.
- Lineage/impact қосылған; time-travel/backup/DR тексерілді.
- Құны бақылауда: партия, кластерлеу, материалдандыру, квоталар.
17) Анти-паттерндер және тәуекелдер
«Қабаттарсыз бір майлы DWH»: шикі және есептік деректердің қоспасы → хаос және қымбат түзетулер.
Толық reload күнделікті қажетсіз: инкременттерді/CDC пайдаланыңыз.
Иесіз және формуласыз Gold: шындықтың бірыңғай нұсқасының болмауы → даулар мен регрессиялар.
PII аналитикалық қабаттарда: маппингтерді бөлек ұстаңыз, CLS/RLS.
DQ/lineage жоқ: реттегіштер/аудит үшін дәлелдеу жоқ.
Басқарылмайтын құн: партия/оңтайландыру/квота жоқ.
18) Глоссарий (қысқаша)
DWH - шоғырландыруға және талдауға арналған деректер қоймасы.
Lakehouse - data lake + ACID-кестелер және SQL-қозғалтқыш.
CDC - OLTP өзгертулерін басып алу.
SCD - баяу өзгеретін өлшемдер (I/II/III).
Gold-витрина - тұтынуға дайын есептік кесте/ұсыным.
Semantic Layer - өлшемдер мен атрибуттардың бірыңғай анықтамалары.
19) Қорытынды
iGaming үшін қазіргі заманғы DWH - бұл «үлкен кесте» емес, басқарылатын платформа: Bronze/Silver/Gold қабаттары, қатаң келісімшарттар және DQ, бірыңғай метриктер және lineage, жеке және резиденттік, өнімділік және үнемділік. Lakehouse + DWH-наурыз гибридін құру арқылы сіз аудитке, масштабқа және жаңа нарықтарға дайын жылдам және тексерілетін шешімдер аласыз.