GH GambleHub

Берилиштер агымынын архитектурасы

1) Максаты жана принциптери

Максаттары: аналитика, отчеттуулук, антифрод, персоналдаштыруу жана ML үчүн туура, өз убагында жана комплаенттүү маалыматтарды жеткирүү.

Принциптери:
  • Data as a Product: так ээлери, келишимдер, SLO жана чыгаруу.
  • Schema-биринчи: схемалар милдеттүү болуп саналат; эрежелер боюнча эволюция.
  • Privacy-by-Design: PII минималдаштыруу, псевдонимдештирүү, жетүү башкаруу.
  • Observability-by-Default: Tracking, метрика, сызык, сапат профилдери.
  • Cost-aware: tiered-storage, ызы-чуу окуялар, кысуу.

2) Булактардын жана окуялардын ландшафты

Транзакциялар: депозиттер/корутундулар, коюмдар/төлөмдөр, бонустар, chargeback.
Колдонуучу: сессиялар, чыкылдатуу, конверсия, RG-чеги, KYC статусу.
Операциялык: колдонмолор, аткаруу метрикасы, алерталар.
Провайдерлер: PSP/KYC/санкциялар/оюн студиялары (агрегаторлор).
Референттик: оюндардын каталогдору, өлкөлөрдүн/валюталардын каталогдору, тарифтер/салыктар.

Окуяларды типтештирүү (мисал):
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3) Эталондук архитектура (жогорку деңгээл)

1. Ингест катмары

Шлюздар (HTTP/gRPC), CDC коннекторлору (OLTPден), кезек/шиналар (Kafka/Redpanda), телеметрия коллекторлору.
Валидация, нормалдаштыруу, кире бериштеги PII редакциясы, contract enforcement.

2. Агым катмары

Агымдык Jobs (Flink/Spark Structured Streaming/Beam) менен дедупликация, watermark, stateful агрегаттар.
Сактоочу жайларга жана онлайн кызматтарга күйөрман (фичестор, антифрод).

3. Batch катмары

Оркестр (Airflow/Dagster), инкременталдык жүктөмөлөр, backtests жана retroprosesses, SCD түрлөрү.

4. Сактоо (Lakehouse)

Bronze: чийки окуялар (append-only, immutable).
Silver: тазаланган, сапаты жана дедуп менен conformation стол.
Алтын: конкреттүү учурларда үчүн көргөзмө/март (BI/жөнгө салуучу/ML).
ACID (Delta/Iceberg/Hudi) менен стол форматтары, ысык/жылуу/муздак катмарларга таратуу.

5. Тейлөө жана кирүү

BI/SQL (Trino/Presto/DuckDB), семантикалык катмар (metrics layer), API/GraphQL, онлайн/оффлайн ырааттуулук үчүн Feature Store.

6. Говернанс жана коопсуздук

Каталог/сызык, DQ-эрежелери, Саясий жетүү кыймылдаткычы (RBAC/ABAC), Masking/Tokenization, WORM-Archive for Reports.

4) Келишимдер жана схемалар

Маалымат келишимдери: OpenAPI/AsyncAPI/JSON схемасы/Евро.
Эволюция: семантикалык версиялар; backward-compatible өзгөртүүлөр - nullable талааларды кошуу; breaking - гана с '/v2 'жана кош жазуу көчүрүү мезгилинде.
Registry: Schema Registry, домен каталогу (Payments, Gameplay, Marketing).

5) Интеграция үлгүлөрү

CDC (Change Data Capture): OLTPден дөңгөлөккө (Debezium), домен ачкычтары боюнча партиялаштыруу.
Outbox/Inbox: домендик логика окуяларды кепилденген жеткирүү.
Exactly-Once/Effectively-Once: Стейттеги бүтүмдөр, idempotent sink 'i, дедупликация ачкычтары.
Late Data & Watermarks: кечигип иш-чараларды иштеп чыгуу; allowed lateness менен терезелер.
Reprocessing: Idempotent payplayns, time-travel, snapshot-түзөтүүлөр.

6) Lakehouse модели: коло/күмүш/алтын

Bronze (raw):
  • Партия убакыт (event_date) жана базар (jurisdiction).
  • Гана кошуу; forensics үчүн баштапкы payload сактоо.
Silver (clean):
  • Нормалдаштырылган түрлөрү, маалымдамалар, дедупликация боюнча '(event_id, event_time)'.
  • FK текшерүү, акча/Таймзон стандартташтыруу, байытуу.
Gold (serve):
  • Денормализацияланган витриналар (GGR, RG-скоринг, LTV, когорт таблицалары).
  • жаңыртуу үчүн SLA, BI жана отчеттуулук боюнча агрегаттар.

7) Маалымат сапаты (Data Quality)

Эрежелер: схемалык валидация, диапазондор, уникалдуулук, толуктук, referential integrity.
Профилирование: дистрибуция, кардиналдуулук, "дрейф" белгилери.
Мониторинг: p50/p95 pipline кечигүү, drop-rate, error budget.
Degradation саясат: Automatic fallback (акыркы Snapshot), Алерт жана T-метрикалык тесттер.

DQ-келишим (YAML) Мисалы:
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8) Купуялык жана комплаенс

PII-минималдаштыруу жана камуфляж: psevdo-ID сактоо, көрүү-up mappings бөлүп.
Регионализация: Гео-локалдык бакеттер/каталогдор (EEA/UK/BR), "data residency".
Юридикалык иш: DSAR/RTBF (эсептелинген проекцияларды жана тандалма редакторлорду), Legal Hold, өзгөрүлбөс отчеттордун архивдери.
Кирүү логикасы: "сезгич" таблицаларды окуу аудити, break-glass жана JIT кирүү.

9) Байкоо жана башкаруу

Сызык: Терезеге көз карандылыкты автоматтык жол.
Пайплайн метрикасы: throughput, lag, failure-rate, cost/GB, cost/query.
Tracking (OTel): 'trace _ id' колдонмолордон окуяларга ыргытылат → суроо-талаптын толук жолун куруп.
Alerty: SLO-бюджеттер, сергектик/көлөм/кардиналдык аномалиялар.

10) Кирүү жана коопсуздук модели

Маалымат категориялары: public/internal/confidential/restricted.
Саясат: row/column-level security; динамикалык маска (PAN/IBAN/email).
Ачкычтарды башкаруу: KMS/CMK, ат-rest/in-transit шифрлөө, ротация.
Милдеттерди сегрегациялоо: прод/аналитика/админ/ревьюердин өзүнчө ролдору.

11) Маалымат Mesh жана продукт ыкмасы

Домены: Payments, Gameplay, Marketing, Risk, Compliance.
Data Product: ээси, SLA сергектик, талаа сөздүгү, тесттер, версиялар, керектөө метрикасы.
Домендердин ортосундагы келишимдер: версиялануучу, backward шайкештиги менен, керектөөчү тесттер (consumer-driven).

12) Fichestor жана ML агымдары

Feature registry: белгилердин сүрөттөлүшү, булактар, трансформациялар, SLO.
Онлайн/оффлайн шайкештиги: бир трансформация коду, онлайн материалдаштыруунун кечеңдеши ≤ 200-500 мс.
Drift Мониторинг: PSI/KS, AutoAlerts жана Rolls моделдер, PII көзөмөл.
Experiments Journal: мета-маалыматтар, нускалары, reproducibility, моделдик карталар.

13) Finmodel жана cost-оптималдаштыруу

Партиялаштыруу жана Z-order/Cluster тез-тез предикаттар боюнча.
пайдаланылбаган таблицалар үчүн муздак сактоо жана TTL, VACUUM.
Materialized views гана боюнча туруктуу суроолор үлгүлөрү.
Квоталар жана бюджеттер оор союлдар үчүн; командалар боюнча chargeback.

14) Аймактык жана көп тенанттык топология

Multi-аймак active-active: темалардын жана таблицалардын репликациялары, көз карандысыз түтүк периметрлери.
Failover/DR: RPO/RTO максаттары, Snapshot метадерилери, калыбына келтирүү текшерүү.
Көп тенанттуулук: каталогдорду/ачкычтарды/квоталарды изоляциялоо, tenant_id белгилөө.

15) Процесстер жана RACI (кыскача)

R: Data Platform (ingest, сактоо, оркестр), Data Engineering (өзгөртүү).
A: Head of Data / Chief Data Officer.
C: Compliance/Юридикалык/DPO, Архитектура, SRE.
I: BI/Аналитика, Продукт, Маркетинг, Каржы.

16) SLO/SLI агымдары үчүн

Freshness: p95 кечигүү Silver ≤ 15 мин, Gold (daily) даяр ≤ 06:00 лок. убакыт.
Толук: ≥ 99. 5% T терезеден окуялар.
Ишенимдүүлүк: DQ <0. көлөмүнүн 5%.
Servwing мүмкүнчүлүгү: ≥ 99. 9% BI/Feature API үчүн.

17) Таблицалардын жана партиялаштыруунун үлгүлөрү

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18) Оркестр жана DevX

Infra-as-Code: Пайплайн сактоо, тесттер, Review, GitOps.
Data Contracts CI: linters схемалар, DQ-тесттер deploi чейин.
Backfill-Framework: R/W жана idempotency чектөө менен коопсуз retroprosesses.
Каталогдор жана шаблондор: пайплайн генераторлору (cookie-cutter), best-practices.

19) Ишке ашыруунун жол картасы

MVP (4-6 жума):

1. 2-3 негизги булактардан (OLTP CDC, API-шлюз) шина окуялар + ingest.

2. Lakehouse Bronze/Silver, ACID менен формат, каталог жана негизги DQ эрежелери.

3. 1-2 Gold Showrooms (күнүмдүк GGR жана Conversion Huni).

4. lag/completeness, негизги сызык, RBAC жана PII маскировкалоо.

2-этап (6-12 жума):
  • Streaming-агрегаттар (p95 latency ≤ 5 мин), Feature Store, RG/AML Display.
  • Метриктердин семантикалык катмары, отчеттуулук үчүн SLA; cost-dashboard.
  • Регионалдаштыруу (EEA/UK), DSAR/RTBF жол-жоболору, артефакттар үчүн мыйзамдуу кармап.
Этап 3 (12 + жума):
  • Data Mesh: азык-түлүк домендер, consumer-driven contracts.
  • ML-дрейф мониторинг, онлайн/оффлайн auto макулдашуу.
  • Автоматтык схемаларды өзгөртүү симуляциялары (impact analysis) жана наркы боюнча "what-if".

20) Көп каталар жана аларды качуу үчүн кантип

Чийки схемалар жок payload's: schema-first, реестр жана CI-валидациясын киргизүү.
Жок deduplication: Silver окуялар жана idempotent-синк ачкычтары.
аналитика менен PII аралаштыруу: Mappings бөлүп, талааларды жаап.
ээси жок Алтын: owner дайындоо, SLO жана керектөө метрика.
Жок reprocessing стратегиясы: убакыт-саякат, логика чыгаруу, "кош эсеп" башкаруу.
башкарылбаган наркы: партия, кысуу, TTL, наркы байкоо.

21) Глоссарий (кыскача)

CDC - OLTP өзгөрүүлөрдү басып алуу.
Outbox - домендик окуяларды транзакциялык түрдө жарыялайбыз.
Watermark - терезелер үчүн агымдын толук баалоо.
Lakehouse - маалымат lake + ACID таблицалар.
Data Product - ээси жана SLO менен продукт бирдиги.
Feature Store - ML белгилерин макулдашылган бөлүштүрүү.

22) Жыйынтык

Маалыматтар агымынын архитектурасы - бул макулдашуулардын башкарылуучу системасы: так келишимдер, байкоо жүргүзүү, коопсуздук жана контролдоодогу нарк. Сүрөттөлгөн үлгүлөрдү (schema-first, bronze/silver/gold, CDC + Outbox, DQ жана lineage, privacy-by-design) ээрчип, платформа ишенимдүү алдын ала SLO жана түшүнүктүү ээлик наркы менен бизнес, комплаенс жана ML сапаттуу маалыматтарды камсыз кылат.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.