მონაცემთა საცავი
1) DWH დანიშვნა და როლი iGaming- ში
DWH არის კონსოლიდაციისა და მონაცემთა სერვინგის ცენტრალური ფენა ანგარიშგების, ანალიტიკოსების, შესაბამისობისა და ML. ის უზრუნველყოფს:- მეტრიკის ერთიანი განმარტებები (GGR/NGR, ARPU, Retention, Churn).
- რეპროდუქციული მოხსენებები რეგულატორებისა და შიდა სტეიკერების შესახებ.
- სწრაფი ფანჯრები BI/ოპერაციული პანელებისთვის და მოდელების წყაროებისთვის.
- ხარისხის კონტროლი, ხაზოვანი და უსაფრთხოება პლატფორმის დონეზე.
2) არქიტექტურული ვარიანტები
2. 1 Classic DWH
ETL - DWH (ვარსკვლავი/ფიფქია) - BI.
დადებითი: კონტროლირებადი მოდელები, ძლიერი თანმიმდევრულობა.
უარყოფითი მხარეები: ძვირადღირებული ჩამოტვირთვა, რთული ზურგჩანთა, შეზღუდული მოქნილობა.
2. 2 Lakehouse DWH
Bronze/Silver/Gold ACID ცხრილებზე (Delta/Iceberg/Hudi) + SQL/MPP ძრავა.
უპირატესობები: ერთი დგუშის, დროის მოგზაურობის, მარტივი რეპროდუქციის.
უარყოფითი მხარეები: მოითხოვს ფენების დისციპლინებს და DQ, სექსუალურ ორკესტრებს.
2. 3 ჰიბრიდი
Lakehouse, როგორც „ჭეშმარიტების წყარო“ (Bronze/Silver), DWH მარტი MPP- ში (ClickHouse/Pinot/Druid/Cloud DWH) მაღალსიჩქარიანი კითხვისთვის.
უპირატესობები: ღირებულებისა და შესრულების ბალანსი, მოქნილი ფანჯრები.
უარყოფითი მხარეები: სქემების ორმაგი მხარდაჭერა და კატალი, საჭიროა სინქრონიზაცია.
რეკომენდაცია: iGaming - Lakehouse + DWH-mart (ჰიბრიდი). Bronze/Silver - სტანდარტიზებული, Gold/Real marts - ემსახურება კითხვის დატვირთვას.
3) მონაცემთა მოდელირება
3. 1 ვარსკვლავი და თოვლი
ფაქტი ცხრილი: ვიწრო, მოვლენა: 'fact _ bets', 'fact _ payouts', 'fact _ payments'.
გაზომვები: 'dim _ users' (SCD), 'dim _ games', 'dim _ providers', 'dim _ barkets'.
ფიფქია შესაფერისია Silver- ში (ნორმალიზაცია), ვარსკვლავი - გოლდში (კითხვა).
3. 2 Data Vault 2. 0 (ინტეგრაციის ბირთვი)
Hubs (ბიზნეს გასაღებები), Links (ურთიერთობები), Satellites (კონტექსტი/ისტორია).
გამოიყენეთ Silver- ში პროვაიდერების/PSP გრძელვადიანი ინტეგრაციისთვის.
3. 3 SCD I/II/III
SCD II RG/KYC/არხებისთვის და თამაშის ატრიბუტებისთვის (RTP/ცვალებადობა).
მკაცრი ინტერვალები 'valid _ from/valid _ to', დროულად სწორი join-s.
4) ჩატვირთვა: ETL/ELT, CDC და ნიშნები
ELT მიდგომა: Silver- ში გადატვირთვა DWH- ში.
CDC: Debezium/ლოგიკური რეპლიკაცია OLTP- დან; მუწუკები იდემპოტენტურია.
ნიშნები: დროის წყლის შესახებ ('განახლება _ at> max _ loaded _ ts') და/ან hash-delta.
Backfill/Reprocessing: time-travel, დიაპაზონი, კვოტები, dry-run შედარებები.
sql
MERGE INTO silver. payments s
USING stage. payments_delta d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
5) სემანტიკური ფენა და მეტრიკა
Metrics Store/Semantic Layer: ერთიანი ფორმულები GGR/NGR/Conversion/LTV.
რეპროდუქციისთვის მეტრიკის და „as-of“ გამოთვლების ვერსია.
ხელშეკრულებები: მეტრიკის სახელები, გაზომვის ერთეულები, ვალუტა (base EUR) და 'fx _ source'.
6) ვიტრინები და სერვინგი
ოქროს ფანჯრები: დენორმალიზებული, SLA მზადყოფნა (მაგალითად, 06:00 საათამდე) .
ოპერაციული მარტი: ClickHouse/Pinot/Druid 1-5 წუთიანი პანელებისთვის.
ექსპორტი: CSV/JSON/PDF + hash; რეგულატორებისთვის უცვლელი პაკეტები (WORM).
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) AS event_date,
b. market,
g. provider_id,
SUM(b. stake_base) AS stakes_eur,
SUM(p. amount_base) AS payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) AS ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
7) მონაცემთა ხარისხი (DQ) და კონტრაქტები
Schema-first: JSON/Avro registry + თავსებადობის ტესტები (consumer-driven).
DQ-как-код: completeness/validity/uniqueness/FK/range/temporal.
რეაქციის პოლიტიკოსები: კრიტიკული fail + DLQ; major/minor - ჭდე და მოხსენება.
DQ დაკვირვება: დაშბორდები Freshness/Completeness/Validity, დაკარგული ჩანაწერების ძაბრი.
8) უსაფრთხოება, კონფიდენციალურობა და რეზიდენცია
PII მინიმიზაცია: მომხმარებლები ფსევდო-ID- ის საშუალებით; ცალკე mappings.
RLS/CLS: წვდომა ხაზოვანი/პოსტჰოლცურია როლებისა და იურისდიქციების შესაბამისად.
დაშიფვრა: TLS in-transit; at-rest - KMS/CMK როტაციით.
მონაცემთა კვლევა: ცალკეული კატალოგები და გასაღებები EEA/UK/BR; ჯვარედინი რეგიონალური join '- ის აკრძალვა უსაფუძვლოა.
DSAR/RTBF: გამოთვლილი პროექციები და შერჩევითი რედაქტორები; იურიდიული ჰოლდი საანგარიშო არტეფაქტებისთვის.
9) პროდუქტიულობა და ღირებულება (Cost Engineering)
განაწილება: თარიღი/ბაზარი/ტენანტი; კლასტერიზაცია/Z შეკვეთა 'market', 'provider _ id', 'game _ id', 'user _ pseudo _ id'.
ფორმატები: Parquet + სტატისტიკა და კომპრესია; OPTIMIZE/VACUUM გრაფიკის მიხედვით.
მატერიალიზაცია: სტაბილური დანაყოფები და სენსორული ცხრილი; თავიდან აიცილეთ სქელი join ფრენის დროს.
კვოტები/Chargeback: მძიმე მოთხოვნების/მიმღების ბიუჯეტები; Cost/query, cost/GB.
Tiered storage: hot/warm/cold; მკაფიო SLA აღდგენა.
10) დაკვირვება და კონტროლი
Payplines- ის მეტრიკა: ხანგრძლივობა, მოცულობა, retrais, lages, წინააღმდეგობა.
DWH მეტრიკა: პასუხის დრო/კონკურენტუნარიანობა/ქეში ჰიტები/ღირებულება.
ხაზები: გრაფიკი წყაროებიდან მოხსენებამდე; impact ანალიზი ცვლილებების დროს.
SLO: Freshness Silver p95 ≤ 15 мин; Gold daily - მზად არის 06:00 საათამდე; Validity ≥ 99. 9%; Completeness ≥ 99. 5%; ხელმისაწვდომობა 99. 9%.
11) მულტფილმი და დომენის იზოლაცია
schema/database/catalog დაყოფა ჩრდილში/ბაზარზე.
კვოტები და სარეზერვო ჯგუფები; „ხმაურიანი მეზობლების“ შეზღუდვა.
ექსპორტის/იმპორტის პოლიტიკოსები ტენანტებს შორის, სტანდარტიზებული კონტრაქტები.
12) მონაცემთა რეესტრი და დოკუმენტაცია
Data Catalog: owner, SLA, სქემა, მაგალითები, DQ წესები, ხაზები.
მეტრიკი/დაშბორდები: ბარათები ფორმულებით და პასუხისმგებლობით.
Change Log: ლოგიკის, მიგრაციის, გავლენის ვერსიები (impact).
13) პროცესები და RACI
R (Responsible): მონაცემთა ინჟინერია (მოდელები Silver/Gold, DAG 'და), Data Platform (infre, registry, DQ).
A (Accountable): Head of Data/CDO.
C (Consulted): Compliance/Legal/DPO, Finance (FX/GGR), Risk (RG/AML), SRE (SLO/стоимость).
I (ინფორმირებული): BI, პროდუქტი, მარკეტინგი, ოპერაციები.
14) გზის განხორციელების რუკა
MVP (4-6 კვირა):1. Lakehouse Bronze/Silver (ACID ცხრილი), CDC/ნიშნები Payments/Gameplay.
2. პირველი ოქროს ფანჯრები (GGR Daily, კონვერტაცია), SLA 06:00 საათამდე.
3. DQ-როგორც კოდი (10-15 წესი) + დაშბორდები Freshness/Completeness.
4. მონაცემთა კატალოგი და ძირითადი სემანტიკური მეტრიკის ფენა.
ეტაპი 2 (6-12 კვირა):- SCD II для users/games/providers; დომენების გაფართოება.
- ოპერაციული მარტი (ClickHouse/Pinot) რეალურ დროში/რეალურ დროში პანელებისთვის.
- Lineage/impact ანალიზი, DSAR/RTBF პროცედურები, რეგიონალიზაცია (EEA/UK).
- ცვლილებების ავტომატური სიმულაცია (dry-run), ფრჩხილები და მეტრული შედარება.
- Chargeback/კვოტები, cost dashboards; DR- სავარჯიშოები და აღდგენის დრო.
- ფანჯრებისა და მეტრიკის ბარათების დოკუმენტაციის ავტომატური წარმოება.
15) SQL შაბლონების მაგალითები
განაკვეთების ფაქტი (Silver, 3NF):sql
CREATE TABLE silver. fact_bets (
bet_id STRING PRIMARY KEY,
user_pseudo_id STRING NOT NULL,
game_id STRING NOT NULL,
stake_ccy DECIMAL(18,2) NOT NULL,
currency CHAR(3) NOT NULL,
stake_base DECIMAL(18,2) NOT NULL,
market CHAR(2) NOT NULL,
event_time TIMESTAMP NOT NULL
);
კავშირი SCD II- სთან (მიიღე RG სტატუსი განაკვეთის დროს):
sql
SELECT b. bet_id, u. rg_status
FROM silver. fact_bets b
JOIN dim. users_scd u
ON u. user_pseudo_id = b. user_pseudo_id
AND b. event_time >= u. valid_from
AND (u. valid_to IS NULL OR b. event_time < u. valid_to);
ბაზრის სისრულის კონტროლი:
sql
SELECT market, DATE(event_time) d, COUNT() n
FROM silver. fact_bets
GROUP BY market, DATE(event_time)
HAVING n = 0;
16) ჩეკის სია გაყიდვამდე
- სქემები და კონტრაქტები რეესტრში, თავსებადობის ტესტები მწვანეა.
- CDC/ნიშნები და MERGE პროცედურები იდემპოტენტურია.
- ოქროს ფანჯრებს აქვთ SLA, ჩაწერილია მეტრული ფორმულები.
- DQ წესები აქტიურია (critical - fail + DLQ), Freshness/Completeness დაშბორდები.
- RBAC/ABAC, დაშიფვრა, რეგიონებში რეზიდენცია, წვდომის ჟურნალები.
- Lineage/impact შედის; შემოწმებულია time-travel/backup/DR.
- ღირებულება კონტროლდება: წვეულება, კლასტერიზაცია, მატერიალიზაცია, კვოტები.
17) ანტი შაბლონები და რისკები
„ერთი ცხიმოვანი DWH ფენების გარეშე“: ნედლეული და საანგარიშო მონაცემების ნაზავი - ქაოსი და ძვირადღირებული კორექტირება.
Full reload ყოველდღიურად საჭიროების გარეშე: გამოიყენეთ ნიშნები/CDC.
ოქროს მფლობელის და ფორმულების გარეშე: სიმართლის ერთიანი ვერსიის არარსებობა - დავა და რეგრესია.
PII ანალიტიკურ ფენებში: შეინახეთ mappings ცალკე, CLS/RLS.
DQ/lineage- ის არარსებობა: რეგულატორების/აუდიტის მტკიცებულება არ არსებობს.
უკონტროლო ღირებულება: არ არსებობს წვეულებები/ოპტიმიზაცია/კვოტები.
18) გლოსარიუმი (მოკლედ)
DWH არის კონსოლიდაციისა და ანალიტიკის მონაცემთა საცავი.
Lakehouse არის მონაცემთა lake + ACID ცხრილი და SQL ძრავა.
CDC არის OLTP- ში ცვლილებების მიღება.
SCD - ნელა იცვლება გაზომვები (I/II/III).
ოქროს ვიტრინა - საანგარიშო ცხრილი/სპექტაკლი მზადაა მოხმარებისთვის.
Semantic Layer არის მეტრიკისა და ატრიბუტების ერთიანი განმარტებები.
19) შედეგი
IGaming- ისთვის თანამედროვე DWH არ არის „დიდი ცხრილი“, არამედ კონტროლირებადი პლატფორმა: Bronze/Silver/Gold ფენები, მკაცრი კონტრაქტები და DQ, ერთი მეტრი და ხაზოვანი, კონფიდენციალურობა და რეზიდენცია, პროდუქტიულობა და ეკონომიურობა. Lakehouse + DWH მარტის ჰიბრიდის აშენებით, თქვენ მიიღებთ სწრაფ და გადამოწმებულ გადაწყვეტილებას აუდიტის, მასშტაბებისა და ახალი ბაზრებისთვის.