Տվյալների իրականացումը
1) iGaming-ում MSH նշանակումն ու դերը
MSH-ը տվյալների կենտրոնական շերտն է, հաշվետվությունների, վերլուծությունների, կոմպլենսների և ML-ի համար։ Այն ապահովում է
Մետրիկի միասնական սահմանումները (GGR/NGR, ARPPU, Retention, Churn)։
Վերականգնվող զեկույցները կարգավորողների և ներքին սթեյքհոլդների համար։
Արագ վիտրինները BI/վիրահատական կոդերի և մոդելների աղբյուրների համար։
Որակի վերահսկումը, lineage և անվտանգությունը պլատֆորմի մակարդակում։
2) Ճարտարապետական տարբերակները
2. 1 Classic DWH
ETL-ը NPH-ն է (աստղ/ձյուն) BI-ն։
Պլյուսներ 'կառավարվող մոդելներ, ուժեղ հետևողականություն։
Մինուսները 'թանկ բեռնումներ, բարդ backfill, սահմանափակ ճկունություն։
2. 2 Lakehouse DWH
Bronze/Silver/Gold-ի վրա (Delta/Iceberg/Hudi) + SQL/MPP շարժիչը։
Պլյուսներ 'մեկ կանգնած, time-travel, պարզ reprocessing։
Մինուսները 'պահանջում են շերտերի կարգապահություններ և DQ, հասուն նվագախմբեր։
2. 3 Հիբրիդ
Lakehouse-ը որպես «ճշմարտության աղբյուրը» (Bronze/Silver), CSH-մարթը MPP-ում (ClickHouse/Pinot/Winuid/Cloud SNH) արագ կարդալու համար։
Պլյուսներ 'արժեքի և արտադրողականության հավասարակշռություն, ճկուն վիտրիններ։
Մինուսները 'սխեմաների և սահադաշտի կրկնակի աջակցություն, պետք է համաժամեցվեն։
Առաջարկություն ՝ iGaming-ի համար 'Lakehouse + MSH-մարտ (հիբրիդ)։ Bronze/Silver-ը, Gold/Real-Time-ը, ծառայում են ընթերցանության բեռը։
3) Տվյալների մոդելավորում
3. 1 Աստղ և Սնեժինկա
@-@ աղյուսակի փաստը 'նեղ, իրադարձական' «fact _ bets», «fact _ payouts», «fact _ payments»։
Չափումներ ՝ «dom _ users» (SCD), «dult _ games», «dice _ providers», «dice _ markets»։
Ձյունը տեղին է Silver-ում (նորմալացում), Աստղը 'Gold-ում (կարդալ)։
3. 2 Data Vault 2. 0 (միջուկը)
Hubs (բիզնես բանալիներ), Links (հարաբերություններ), Satellites (ենթատեքստը/պատմությունը)։
Օգտագործել Silver-ում պրովայդերների/PSA-ի երկարատև ինտեգրման համար։
3. 3 SCD I/II/III
SCD II-ը RG/KYC/ալիքների և խաղային ատրիբուտների համար (RTP/անկայունություն)։
«Valid _ from/valid _ to» խիստ ընդմիջումները, ժամանակի ճիշտ join-ները։
4) Բեռնումը ՝ ETL/ELT, CDC և reprements
ELT-մոտեցումը 'Silver-ում բեռնումը MSH-ում։
CDC: Debez.ru/log կրկնօրինակումը OLTP-ից; merzi impotent.
Redrects: Ժամանակի ջրի վրա («contated _ at> max _ loaded _ ts») և/կամ ծանր դելտա։
Backfill/Reprocessing: Time-travel, միջակայքը, քվոտաները, www.y-run համեմատությունները։
MERGE (օրինակ)
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) Սեմանտիկ շերտը և մետրերը
Metrance Store/Semantic Layer: GGR/NGR/Conversion/LTV միասնական բանաձևեր։
Մեթրիկի տարբերակումը և վերարտադրման համար «as-of» հաշվարկները։
Համաձայնագրեր ՝ մետրի անունները, չափման միավորները, արժույթը (bull CSR) և «fx _ source»։
6) Վիտրինները և սերվինգը
Gold-vitrins: դենորմալիզացված, SLA պատրաստակամություն (օրինակ, մինչև 06:00 լոկ) .
Ռուսական կիսագունդները ՝ ClickHouse/Pinot/Druid 1-5 րոպեանոց խաղերի համար։
Էքսպորտը ՝ CSV/JSON/PDF + hash; անփոփոխ փաթեթներ (WORM) կարգավորողների համար։
GGR Daily-ի օրինակ
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) Տվյալների որակը (DQ) և պայմանագրերը
Schema-first: JSON/Avro registry + փորձարկումներ 2019 (consumer-driven)։
DQ-как-код: completeness/validity/uniqueness/FK/range/temporal.
Արձագանքի քաղաքական գործիչները ՝ critical medfail + DLQ; major/minor teg և զեկույց։
Դիտարկումը DQ 'Freshness/Completeness/Validity, կորած ձայնագրությունների ձագը։
8) Անվտանգություն, սեփականատիրություն և բնակավայր
PII-նվազեցումը 'օգտագործողները կեղծ-ID-ի միջոցով։ mapings առանձին.
RSA/CLS-ը 'կառուցվածքային/հետբոլբցոյի հասանելիությունը դերերով և հայտարարություններով։
Կոդավորումը ՝ TMS in-transit; at-rest - KFC/CMK ռոտացիայի հետ։
Windows Residency: Առանձին կոմպոզիցիաներ և բանալիներ EFC/UK/IV համար; cross-տարածաշրջանային ջոինի արգելքը առանց հիմքերի։
DSAR/RTBF 'հաշվարկային պրոյեկտներ և ընտրովի խմբագրություններ։ Legal Hold-ը հաշվետվական արտեֆակտների վրա։
9) Արտադրողականությունը և արժեքը (Cost Engineering)
Կուսակցությունը 'ամսաթվով/շուկա/տենանտա; կլաստերիզացիա/Z-order համաձայն 'market', «provider _ id», «game _ id», «user _ pseudo _ id»։
Մոսկվա: Parquet + վիճակագրությունը և ագրեսիան; OPTIMIZE/VACUUM ժամանակացույցով։
Նյութականացում 'կայուն ագրեգատներ և summary աղյուսակներ։ խուսափեք «հաստ» join-ից ամռանը։
Քվոտա/Chargeback: բյուջեներ ծանր հարցումների/ակնարկների համար։ cost/query, cost/GB։
Tiered storage: hot/warm/cold; պարզ SLA վերականգնումը։
10) Դիտողությունն ու կառավարումը
Metricks plins 'տևողություն, ծավալներ, retray, lagi, անկայունություն։
MSH-ի մետրերը 'պատասխանների/մրցակցության/քեշ-հիթերի/արժեքը։
Lineage: Գրաֆը աղբյուրներից մինչև 2019; impact-վերլուծություն փոփոխությունների ժամանակ։
SLO: Freshness Silver p95 ≤ 15 мин; Gold daily-ը պատրաստ է մինչև 06:00; Validity ≥ 99. 9%; Completeness ≥ 99. 5%; հասանելիությունը 3699 է։ 9%.
11) Multitenanty-ը և երկրորդային մեկուսացումը
Schema/www.ab.ru/catalog բաժանումը ստենանտ/շուկա։
Քվոտաներ և resource delups; «աղմկոտ հարևանների սահմանափակումը»։
Էքսպորտի քաղաքականությունը/տենանտների միջև, ստանդարտ պայմանագրերը։
12) Տվյալների և ռեգիստրի գրանցում
Catalog: owner, SLA, սխեմա, օրինակներ, DQ կանոնները, lineage։
Metriki/dashbords 'քարտեր բանաձևերով և պատասխանատու։
Change Log: Տրամաբանության տարբերակներ, ստանդարտ, ազդեցություն (impact)։
13) Գործընթացներ և RACI
R (Responsible): Windows Engineering (մոդելներ Silver/Gold, DAG 'i), Pro Platform (infra, registry, DQ)։
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/Legal/DPO, Finance (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (Informed): BI, արտադրանք, Մարքեթինգ, Վիրահատություն։
14) Ճանապարհային քարտեզը
MVP (4-6 շաբաթ)
1. Lakehouse Bultze/Silver (ACID աղյուսակներ), CDC/rements Payments/Gameplay-ի համար։
2. Առաջին Gold-վիտրինները (GGR Daily, կոնվերսիա), SLA մինչև 06: 00։
3. DQ-ի կոդը (10-15 կանոններ) + Freshness/Completeness dashbords։
4. Տվյալների կատալոգը և հիմնական սեմանտիկ շերտը։
Aleksanda 2 (6-12 շաբաթ)
SCD II для users/games/providers; ածխաջրածինների ընդլայնումը։
Ռուսական թողարկումները (ClickHouse/Pinot) real-time/near-real-time-ի համար։
Lineage/impact-վերլուծություն, DSAR/RTBF ընթացակարգեր, (EFC/UK)։
Բրազիլիա 3 (12 + շաբաթ)
Փոփոխությունների ավտոսիմուլյացիան (wwww.y-run), էքսպլեյը և համեմատությունը։
Chargeback/քվոտա, cost-dashbords; DR ուսուցումները և Time-travel վերականգնումը։
Փաստաթղթերի ավտոմատ արտադրությունը վիտրինն է և պիտակը։
15) SQL ձևանմուշների օրինակներ
Մրցույթի փաստը (Silver, 3NF)
sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
Կապը SCD II-ի հետ (ստանալ RG կարգավիճակը տոկոսադրույքի պահին)
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
Ամբողջ շուկայի վերահսկումը
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) Չեկ թուղթ մինչև վաճառելը
- Սխեմաները և պայմանագրերը գրանցամատյանում, թեստերը կանաչ են։
- CDC/wwww.rems և MERGE ընթացակարգերը idempotent են։
- Gold-վիտրինները ունեն SLA, արձանագրված են մետրիկ բանաձևերով։
- DQ կանոնները ակտիվ են (critical defail + DLQ), Freshness/Completeness։
- RBAC/ABAC, ծածկագրում, նստավայր տարածաշրջաններում, հասանելիության ամսագրեր։
- Lineage/impact ներառվում է; Time travel/backup/DR ստուգված են։
- Վերահսկման արժեքը 'կուսակցություն, կլաստերիզացիա, նյութականացում, քվոտաներ։
17) Anti-patterns և ռիսկեր
«Մեկ ճարպային CPH առանց շերտերի», հում և հաշվետվական տվյալների խառնուրդ, քաոս և թանկ ուղղումներ։
Fultreload-ը ամեն օր առանց կարիքների 'օգտագործեք rements/CDC-ը։
Գոլդը առանց սեփականատիրոջ և բանաձևի 'ճշմարտության միասնական տարբերակի բացակայությունը բանավեճերն ու ռեգրեսիաները։
PII վերլուծական շերտերում 'պահեք mapings առանձին, CLS/RTS։
DQ/lineage-ի բացակայությունը 'կարգավորողների/կարգավորողների համար ապացույց չկա։
Չկառավարվող արժեք 'ոչ մի կուսակցություն/օպտիմիզացում/քվոտ։
18) Գլոսարիա (հակիրճ)
MSH-ն տվյալների պահեստ է ռուսական և վերլուծաբանների համար։
Lakehouse-ը www.lake + ACID աղյուսակն է և SQL շարժիչը։
CDC-ը OLTP-ից փոփոխությունների գրավումն է։
SCD-ը դանդաղ փոփոխվող չափումներ են (I/II/III)։
Gold-vitrina-ը, որը պատրաստվում է սպառման համար, հաշվետվական ստանդարտ/ներկայացում է։
Semantic Layer-ը մեթրիկի և ատրիբուտների միասնական սահմանումներ է։
19) Արդյունքը
Ժամանակակից MSH-ը iGaming-ի համար «մեծ ստանդարտ» չէ, այլ կառավարվող պլատֆորմը ՝ Bronze/Silver/Gold շերտերը, խիստ պայմանագրերը և DQ-ը, միասնական մետրերը և lineage, գաղտնիությունը և բնակությունը, արտադրողականությունը և տնտեսությունը։ Կառուցելով Lakehouse + MSH-մարտ հիբրիդ, դուք կստանաք արագ և ստուգված որոշումներ, որոնք պատրաստ են արտահանման, մասշտաբների և նոր շուկաների։