GH GambleHub

Кӯли маълумот ва нигаҳдории мутамарказ

(Қисм: Технология ва инфрасохтор)

Хулосаи мухтасар

Кӯли маълумот қабати асосии нигаҳдории мутамаркази ашёи хом ва маҷмӯаҳои маҷмӯӣ мебошад. Барои IGaming, он чорабиниҳои букмекерӣ/пардохт/сабти бозӣ, боркуниҳои шарикӣ, CDC аз OLTP-ро қабул мекунад ва ба таҳлил, зидди қаллобӣ, CRM ва BI медиҳад. Амалияи муосир - Lakehouse: форматҳои кушодаи сутун + қабати ҷадвали ACID + феҳристи ягона + амалиёт/версияҳои маълумот. Калиди муваффақият интизоми схемаҳо ва тақсимот, идоракунии хароҷот, амнияти PII ва фарҳанги қатъии амалиётӣ (DQ, насл, DR) мебошад.

Нақши Лейк маълумот дар платформаи IGaming

Нуқтаи ягонаи ҳақиқат барои таҳлил: нигоҳ доштани маълумоти хом ва тозашуда новобаста аз манбаъ ва формат.
Тағйирпазирӣ: дастгирии партия ва ҷараён (CDC/пайвасткунакҳо, ҷараёнҳои ҳодиса).
Эволютсия: аз биринҷии хом то парвандаҳои тиҷорати нуқра ва тиллоӣ.
Тақсимоти масъулият: хадамоти истеҳсолӣ ба шина/марҳила менависанд, таҳлил/ML аз қабатҳои кӯл истеъмол мекунад.

Моделҳои меъморӣ: Лейк vs Лейкхаус

Кӯли маълумот (S3/ADLS/GCS + Parquet/ORC): нақшаи хондан, нигоҳдории арзон, форматҳои фасеҳ.
Lakehouse (Delta/Iceberg/Hudi over Parquet): Амалиётҳои ACID, боло/якҷоя, вақти сафар, файлҳои паймон, вакуум, индексатсия/кластерӣ.

Амалия: Lakehouse барои IGaming ҳамчун қабати асосӣ ва OLAP-ҳои беруна (Click

Модели қабати Medallion

Биринҷӣ (Raw/Staging): файлҳои хом аз манбаъҳо (CDC, партовгоҳҳо, шӯъбаи CSV, webhooks). Санҷиши ҳадди аққал, "тавре ки ҳаст".
Нуқра (Мутобиқшуда): тоза кардан/нигоҳ доштан, ба эътидол овардани асъор/минтақаҳои вақт, чопкунӣ, андозагирии SCD, калидҳои пайваста.
Gold (Marts/Serving): агрегатҳо барои GGR/NGR/LTV/Нигоҳдорӣ, мағозаҳо барои BI/CRM/зидди қаллобӣ.
TTL: хашмгин ба биринҷӣ, мӯътадил дар нуқра, дарозмуддат дар воҳидҳои тиллоӣ.

Форматҳо ва қабатҳои ҷадвал

Сутун: Parquet (стандарти де-факто), ORC.

Форматҳои мизи кушод (ACID):
  • Кӯли Делта - амалиётҳо, 'MERGE', вақти сафар, оптимизатсия/вакуум, Z-фармоиш.
  • Apache Iceberg - ҷадвалҳо бо зуҳурот/лаҳзаҳо, тақсимоти пинҳон, 'MERGE/DELETE/UPDATE', вақти сафар.
  • Apache Hudi - нусхабардорӣ дар навиштан/merge-on-read, upsert-оптимизатсия, истихроҷи афзоянда.
  • Интихоби худро дар асоси экосистема ва талабот барои боло рафтан/ҷараён/тағйирпазирии эволютсияи схемаҳо анҷом диҳед.

Каталог ва метастор

Феҳристи ягона (Феҳристи Hive Metastore/Unity/Glue/платформа) схемаҳо, ҳизбҳо, версияҳо, ҳуқуқҳоро нигоҳ медорад.
Талабот: мувофиқати транзаксионӣ бо қабати миз, дастгирии муҳаррикҳои сершумор (Spark, Trino/Presto, Flink, dbt), аудит/насл.

Нақшаҳо ва таҳаввулот

Шартномаи схема: ислоҳ кардани майдонҳои ҳатмӣ, намудҳо, семантика; манбаъҳои версия ('schema _ version').
Эволютсия: илова кардани майдонҳои ихтиёрӣ, манъ кардани тағирот бидуни муҳоҷират; схемаҳои санҷиши автоматӣ дар қубурҳо.
Тақсимоти PII: майдонҳои ҳассос - ба сутунҳо/ҷадвалҳои алоҳида бо рамзгузорӣ ва ҳуқуқҳои алоҳида.

Тақсимоти маълумот ва тартиб додани он

Сана/соат - калиди асосӣ барои рӯйдодҳо; майдонҳои ихтиёрӣ: 'кишвар', 'маҳсулот', 'иҷорагир _ ид'.
Путь-услуби занбӯри асал: 's3 ://lake/bronze/payments/source = psp' A/dt = 2025-11-05/hour = 13/part-0001. паркет '.
Гурӯҳбандӣ/гурӯҳбандӣ: Z-фармоиш/Ҷудо кардани калидҳо аз рӯи майдонҳои зуд филтршуда (player_id, кишвар).
Андозаи файл: Мақсад барои 128-1024 МБ; аз "файлҳои хурд" канорагирӣ кунед (ба зер нигаред).
Сутунҳои виртуалӣ (Iceberg/Delta) барои тақсимоти пинҳон.

Файлҳои хурд ва мушкилоти фишурда

Манбаъҳо қисмҳои хурдро дар бораи таназзули сканҳо ва метамаълумот ҷараён медиҳанд.
Ҳал: оптимизатсияи даврӣ/фишурдасозӣ (coalesce), банақшагирии вазифаҳои фишурдасозӣ, бастаи бастаи хурд оид ба воридкунӣ, 'auto-Optimize' (агар дастрас бошад).
Сиёсати муттаҳидшавӣ-хондан ва нусхабардорӣ дар навиштан мувозинати байни таъхири навиштан ва суръати хондан аст.

Injest: партия, ҷараён, CDC

CDC аз OLTP (Debezium/пайвасткунакҳо) → биринҷӣ (тару тозаи дақиқа).
Сюзан (Kafka/Flink/Spark Structured Structured Streaming) → нуқра/тилло тадриҷан (боло/якҷоя).
Партия (гузоришҳои шарикӣ/CSV/JSON) - тавассути "қабулкунакҳо" бо зуҳурот, назорати нусхабардорӣ аз ҷониби checksum.
Idempotency: калидҳо (idempotency_key), dedup by (калид, ts), "нишонаҳои обӣ" барои сабтҳои баъдӣ.

Сифати маълумот (DQ) ва насл

Санҷишҳои DQ: мукаммалӣ, беҳамтоии калидҳо, диапазонҳо, тамомияти истинод (рӯйхати кишварҳо/асъорҳо), қоидаҳои тиҷорат (GGR ≥ 0).
Liniage: графикаи вобастагӣ аз гузориш то манбаъ, версияи рамзи модел ва тасвири ҷадвал.
Назорати схема: санҷишҳои автоматии бозгашт/форвард-компат, ки тағироти "шикастан" -ро бозмедоранд.
Зеркашиҳои аудит: кӣ/кай/чанд, партияҳоро рад кард, бозпас мегирад.

Хизматрасонӣ ва дастрасӣ

Муҳаррикҳои SQL: Spark/Trino/Presto барои ad-hoc ва дигаргуниҳо; dbt барои моделҳои ELT.
Вақти воқеӣ/дар вақти воқеӣ: Pinot/Druid/Click Lakehouse сарчашма тавассути танӯраи афзоянда мебошад.
Мубодилаи маълумот: мубодилаи ҷадвалҳо/лаҳзаҳо ба фармонҳои беруна бидуни нусха (агар бо формат дастгирӣ карда шавад).

Амният, PII ва бисёрҳуҷрагӣ

Рамзгузорӣ: ҳангоми истироҳат (KMS) ва транзит (TLS).
IAM/RBAC/ABAC: нақшҳо дар каталог/ҷадвал/сутун/сатр (ниқоб, сиёсати динамикӣ).
Ҷудосозӣ аз рӯи минтақа (маҳаллисозии ИА/Туркия/Latam): ҷудокунии сатилҳо ва ҳавзҳои ҳисоббарорӣ.
Иҷораи бисёрҷониба: фосила/феҳристҳо ва префиксҳои роҳ, филтрҳо аз ҷониби 'иҷорагир _ ид', ихтиёрӣ - сиёсати сатр.
Аудити дастрасӣ: гузоришҳои хондан/тағир додани метамаълумот, нигоҳдорӣ ва гузоришҳои тағирнопазир.

Идоракунии хароҷот

Синфҳои нигоҳдорӣ: гарм (аксар вақт қобили хондан) дар синфи стандартӣ, бойгонӣ - дар синфҳои хунук/пирях бо сиёсати TTL.
Тақсимот/кластерҳо сканро аз $ камтар $ кам мекунанд.
Дӯконҳои материализатсияшуда барои ҳисоботҳои гарон; Натиҷаҳои BI кэш.
Фишурдасозӣ ва "андозаи файли дуруст" - метамаълумоти камтар ва I/O.
Квотаҳо ва буҷет: маҳдудиятҳо барои кластерҳо/ҷойҳои корӣ, ҳисобот дар бораи хароҷот дар маҷмӯа/гурӯҳ.
Бартараф кардани партовҳо: 'VACUUM/REWRITE' дар форматҳои миз, TTL биринҷӣ.

DR ва такрористеҳсолкунӣ

Версияи ҷадвали вақт ва каталогҳо.
Такрори байниминтақавии сатилҳо ва метамаълумотҳо.
PITR: нигоҳдории гузоришҳои муомилоти миз (Delta/Iceberg/Hudi) ва гузоришҳои қубурӣ.
Рӯзи бозӣ: машқҳои мунтазами барқарорсозӣ ва минтақаҳои гузариш.

Мушоҳида ва SLO

Тару тозаи SLO: биринҷӣ ≤ 5 дақиқа, нуқра ≤ 15-30 дақиқа, тилло ≤ 60 дақиқа (масалан).
Нишондиҳандаҳо: ҳаҷм/шумораи файлҳо, андозаи миёнаи файли паркет, вақти скан, ҳиссаи партияҳои партофташуда, басомади фишурда, арзиш/сана, хатогиҳои DQ, маълумоти дер.
Огоҳиҳо: афзоиши файлҳои хурд, афзоиши хароҷот, таназзули p95/p99, вайронкунии DQ/схема, ақибмонии кабуд.

Конвенсияҳо ва роҳҳои номгузорӣ (қолаб)


s3://<lake>/<layer>/<domain>/<dataset>/
source=<sys>/      # для Bronze dt=YYYY-MM-DD/
hour=HH/
country=XX/

Номҳои маълумот: 'bets _ raw', 'payments _ cdc', 'players _ silver', 'mart _ ggr _ daily'.
Сутунҳои метамаълумотӣ: 'infest _ ts', 'манбаъ', 'schema _ version', 'trace _ id', 'иҷорагир _ id'.

Намунаҳо (умумӣ)

1) Айсберг: Ҷадвали нуқра бо ҳизби пинҳон аз рӯи сана

sql
CREATE TABLE silver. bets (
bet_id    BIGINT,
player_id   BIGINT,
country    STRING,
stake     DECIMAL(18,2),
win      DECIMAL(18,2),
event_ts   TIMESTAMP,
ingest_ts   TIMESTAMP,
schema_version INT
)
PARTITIONED BY (days(event_ts))
TBLPROPERTIES ('format-version'='2');

2) Delta: Афзоиши афзоянда аз CDC

sql
MERGE INTO silver. players t
USING bronze. players_cdc s
ON t. player_id = s. player_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;

3) Сиёсати TTL барои биринҷӣ (ғоя)


bronze/: keep 30 days silver/: keep 365 days (non-PII), 90 days (PII masked)
gold/marts/: keep 2–3 years (aggregated)

Рӯйхати назоратии татбиқ

1. Формати ҷадвалро интихоб кунед (Delta/Iceberg/Hudi) ва феҳрист; ҳамоҳанг бо муҳаррикҳо (Spark/Trino/Flink/dbt).
2. Қабатҳои медалҳо, қоидаҳои TTL ва масъулияти гурӯҳро муайян кунед.
3. Гирифтани шартномаҳои схема, назорати эволютсия, сегментатсияи PII ва рамзгузорӣ.
4. Тарҳбандӣ: қисмҳо, навъҳо, андозаи файли мақсаднок; фишурдаро фаъол созед.
5. Танзимоти воридкунӣ (CDC/ҷараён/партия) бо idempotency ва deduplication.
6. Даргиронидани DQ/lineage, каталоги метамаълумот ва аудит.
7. SLO-ҳои тару тоза/арзиш, панели ченакҳо ва огоҳиҳоро муайян кунед.
8. Ташкил кардани DR: лаҳзаҳо/нусхабардорӣ/барқарорсозӣ + машқҳои мунтазам.
9. Стандартикунонии номгузорӣ ва пайраҳаҳо, сутунҳои мета ('infest _ ts', 'манбаъ', 'schema _ version').
10. Намоишҳои тиллоӣ ва вақти воқеиро ба муҳаррикҳои рости OLAP/RT биёред.

Анти-намунаҳо

Як "халта" -и маъмулӣ бидуни қабат ва TTL → бетартибӣ ва таркиши арзиш.
Тақсимоти вақт танҳо ба истиснои кишвар/маҳсулот → сканҳои вазнин.
Риштаҳое, ки ҳазорҳо файлҳои хурд/соатро бе фишурда эҷод мекунанд.
Набудани назорати схемаҳо ва DQ → тағиротҳои "шикастан" ва нобоварӣ ба гузоришҳо.
Омезиши PII бо намоиши тиллоӣ бидуни ҷудошавӣ/ҳуқуқҳо.
Хардкоди ҳуқуқи дастрасӣ дар сатҳи сатил ба ҷои феҳрист ва сиёсати ҷадвалӣ.

Хулоса

Кӯли муосири додаҳо барои IGaming як Lakehouse бо формати мизи кушод, каталоги ягона ва модели медалионӣ мебошад. Интизоми схемаҳо/тарафҳо, муқоиса бо файлҳои хурд, DQ/насл, амнияти PII ва гигиенаи хароҷот қабати кӯлро ба таҳкурсии устувор табдил медиҳанд: арзон барои нигоҳдорӣ, зуд хондан, пешгӯишаванда дар SLO ва омода ба DR. Чунин миқёси таҳкурсӣ ба қуллаҳои мусобиқа ва ҳам таҳлили партия ва ҳам дар вақти воқеӣ дастгирӣ мекунад мағозаҳо.

Contact

Тамос гиред

Барои саволҳо е дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Оғози интегратсия

Email — муҳим аст. Telegram е WhatsApp — ихтиерӣ.

Номи шумо ихтиерӣ
Email ихтиерӣ
Мавзӯъ ихтиерӣ
Паем ихтиерӣ
Telegram ихтиерӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиерӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.