GH GambleHub

Տվյալների հոսքի ճարտարապետությունը

1) Նշանակումներ և սկզբունքներ

Նպատակները 'ճիշտ, ժամանակին և հաճոյախոսական տվյալներ տալ վերլուծաբանների, հաշվետվությունների, հակաֆրոդի, կերպարների և ML-ի համար։

Սկզբունքները

Delas a Not: հստակ սեփականատերեր, պայմանագրեր, SLO և տարբերակումը։

Schema-first: սխեմաները պարտադիր են։ էվոլյուցիան կանոններով։

Privacy-by-Design: PII-ի նվազեցումը, կեղծանունացումը, հասանելիության կառավարումը։

Observability-by-Express-ը 'հետքեր, մետրեր, lineage, որակի պրոֆիլներ։

Cost-a.ru: tiered-storage, աղմկոտ իրադարձությունների սերմնացում, ագրեսիա։

2) Աղբյուրների և իրադարձությունների լանդշաֆտը

Գործարքային 'ավանդներ/եզրակացություններ, տոկոսադրույքներ/վճարումներ, բոնուսներ, chargeback։

Օգտագործողները 'նստարաններ, տեսահոլովակներ, փոխադարձություններ, RG-limits, KYC կարգավիճակներ։

Վիրահատական 'ծրագրերի լոգներ, արտադրողականության չափումներ, ալերտներ։

Պրովայդերներ ՝ PMS/KYC/սանկցիաներ/խաղային ստուդիաներ (ագրեգատորներ)։

Հանրաքվեներ ՝ միգրանտներ և խաղեր, երկրների տեղեկատու/արժույթ, սակագներ/հարկեր։

Իրադարձությունների տիպիզացիա (օրինակ)

json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3) Ստանդարտ ճարտարապետությունը (high-level)

1. Ingest շերտ

Դարպասները (HTTP/gRPC), CDC կոնեկտորները (OLTP), հերթերը/անվադողերը (Kafka/Redpanda), հեռուստացույցի հավաքածուները։

Վալիդացիան, նորմալացումը, PII խմբագրությունը մուտքի վրա, www.ract enforc.ru։

2. Streaming շերտ

Հոսքային ջոբները (Flink/Spark Structured Streaming/Beam) դեդուպլիկացիայի, watermark, stateful ագրեգատների հետ։

Ֆան-աութը ռուսական և առցանց ծառայություններում (ֆիչեստոր, հակաֆրոդ)։

3. Batch շերտ

Օրկեստրացիան (Airflow/Dagster), էքսպրեսենտալ բեռնումներ, բակտերիաներ և ռետրոսուսներ, SCD տեսակներ։

4. Պահեստավորում (Lakehouse)

Bronze: հում իրադարձություններ (append-only, immutable)։

Silver 'մաքրված, կոնֆորմալ սեղաններ որակով և պապով։

Gold: վիտրիններ/սուլֆատներ կոնկրետ կետերի տակ (BI/կարգավորիչ/ML)։

ACID (Delta/Iceberg/Hudi), տաք/տաք/սառը շերտերով։

5. Սերվինգը և հասանելիությունը

BI/SQL (Trino/Presto/DuckDB), սեմանտիկ շերտը (metrantlayer), API/GraphQL, Feature Store-ը առցանց/օֆլեյնի համար։

6. Գովերնանսը և անվտանգությունը

Կատալոգ/լինեժը, DQ կանոնները, քաղաքական հասանելիության շարժիչը (RBAC/ABAC), դիմակավորում/Tokenization, WORM արխիվը մրցույթի համար։

4) Պայմանագրեր և սխեմաներ

Տվյալների պայմանագրերը ՝ OpenAPI/AsyncAPI/JSON Schema/Avro։

Էվոլյուցիա 'սեմանական տարբերակներ; backward-compatible փոփոխությունը nullable դաշտերի ավելացումն է։ breaking-ը միայն «/v2 »և կրկնակի ձայնագրությունն է մրցույթի ժամանակահատվածի համար։

Գրանցումներ ՝ Schema Registry, կոդերի կատալոգ (Payments, Gameplay, Marketing)։

5) Patterns

CDC (Change Windows Capture) 'OLTP-ից անվադողերի (Debezae), տիրույթի մասերի խմբակցությունը։

Medibox/Inbox: երաշխավորված առաքում մետրոպոլիտենի տրամաբանության իրադարձությունների համար։

Exactly-Once/Effectively-Once-ը 'գործարքներ state, idempotent sink "և, dedupliation բանալիները։

Late Express & Watermarks 'ազդանշանային իրադարձությունների վերամշակում։ պատուհաններ allowed lateness.

Reprocessing 'idempotent plines, time-travel, wwww.apshot-ուղղման։

6) Lakehouse: bensze/silver/gold մոդել

Bronze (raw):
  • Ժամանակի կուսակցությունը (event _ date) և շուկան (jurisdiction)։
  • Միայն ավելացումը; ամրացված payload ֆորուլոադի համար։
Silver (clean):
  • Նորմալացված տեսակներ, գրողներ, deduplication '(event _ id, event _ time) "։
  • FK-ի վերիֆիկացումը, արժույթների/թայմզոնի ստանդարտացումը, հարստացումը։
Gold (serve):
  • Դենորմալիզացված վիտրինները (GGR, RG սկորինգը, LTV, կոորդինային սեղաններ)։
  • SLA նորարարության, BI-ի և հաշվետվությունների համար։

7) Տվյալների որակը (Windows Quality)

Կանոնները 'սխալի վալիդացիա, միջակայքներ, եզակիություն, ամբողջականություն, referential integrity։

Ավելացումը 'բաշխումը, կարդինալությունը, նշանների «դրեյֆը»։

Տե՛ ս ՝ p50/p95 ուշացում, drop-rate, error budget։

Degradation policy: ավտոմատ ֆոլբեքը (վերջին Snepshot), ալտերտերը և t-թեստերը մետրերի վրա։

DQ պայմանագրի (YAML) օրինակ

yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8) Գաղտնիությունը և կոմպլենսը

PII-նվազեցումը և դիմակավորումը 'կեղծ-ID պահել, առանձնացնել look-up-up-mappings։

Ռեգիոնալացում ՝ գեո-տեղական բաքեր/108 և (EFC/UK/III), «ռուսական residency»։

Իրավական վիրահատությունները ՝ DSAR/RTBF (հաշվարկված պրոյեկտներ և ընտրական խմբագրություններ), Legal Hold, անփոփոխ արխիվներ։

Մուտքի տրամաբանությունը '«զգայուն» սեղանների, break-glass և JIT հասանելիությունը։

9) Դիտողությունն ու կառավարումը

Լինեջը 'կախվածության ավտոմատ ուղին աղբյուրից մինչև վիտրինը։

Metriks plins: throughput, lag, failure-rate, cost/GB, cost/query։

Ուղեղը (OTel) '«trace _ id» դիմումներից գնում է իրադարձությունների մեջ, որոնք մենք կառուցում ենք հարցման միջոցով։

Ալերտներ ՝ SLO բյուջեներ, թարմության/կարդինալության անոմալիաներ։

10) Հասանելիություն և անվտանգության մոդել

Տվյալների կատեգորիաները ՝ public/ental/www.idential/restricted։

Քաղաքական գործիչները ՝ row/column-level։ դինամիկ դիմակավորում (PAN/IBAN/email)։

Բաների կառավարումը ՝ KFC/CMK, at-rest/in-transit կոդավորումը, լուծումը։

Պարտականությունների տարանջատումը 'առանձին դերեր prod/վերլուծություն/admin/revuer։

11) MediMesh-ը և սննդի մոտեցումը

Домены: Payments, Gameplay, Marketing, Risk, Compliance.

Direct 'սեփականատեր, SLA թարմ, դաշտերի բառարանը, թեստերը, տարբերակները, սպառման մետրը։

Մրցույթների միջև պայմանագրերը 'տարբերակված, backward-համատեղելիությամբ, սպառողական թեստեր (consumer-driven)։

12) Ֆիչեստորը և ML հոսքերը

Feature registry: Նշանների նկարագրություն, աղբյուրներ, փոխակերպումներ, SLO։

Առցանց/օֆլայնային համաձայնություն 'փոխակերպման մեկ կոդը, առցանց նյութականացման հետաձգումը 200-500 մզ։

Դելդրեյֆը ՝ PSI/KS, ավտոմեքենաների և մոդելների արձագանքները, PII վերահսկողությունը։

Փորձերի ամսագիր 'մետատվյալներ, տարբերակներ, reproducibility, մոդելային քարտեզներ։

13) Ֆինմոդելը և cost-օպտիմիզացումը

Կուսակցությունը և Z-order/Cluster հաճախակի նախադրյալներով։

Սառը պահպանումը և TTL-ը չօգտագործված աղյուսակների համար, VACUUM-ը։

Materialized views-ը միայն դիմումների կայուն արտոնագրերի տակ է։

Քվոտաները և բյուջեները ծանր ջոբների համար։ chargeback թիմերում։

14) Ուղղանկյուն և մուլտֆիլմ-տենանտային տեղաբանություն

Multi-region action-ը 'թեմաների և սեղանների վերարտադրումը, անկախ pipeline-պարիմետրերը։

Failover/DR: RPO/RTO նպատակները, մետատվական նվագարկչի սարքավորումը, վերականգնման ստուգումը։

Multi-tenanty 'ածխաջրածինների մեկուսացում/108/քվոտ, tenom _ id մակնշումը։

15) Գործընթացներ և RACI (կարճ)

R: Windows Platform (ingest, պահեստավորում, նվագախումբ), E. Engineering (փոխակերպումներ)։

A: Head of Data / Chief Data Officer.

C: Compliance/Legal/DPO, Ճարտարապետություն, MSE։

I: BI/Վերլուծություն, արտադրանք, Մարքեթինգ, Ֆինանսներ։

16) SLO/SLI հոսքերի համար

Թարմ (freshness): p95 Silver 3515 րոպե, Gold (daily) պատրաստ է 2406:00 լոկ։ ժամանակը։

Լիխտա ՝ 3699։ T. պատուհանի համար իրադարձությունների հինգ տոկոսը։

Հուսալիությունը 'error-rate ստուգումներ DQ <0։ ծավալի հինգ տոկոսը։

Սերվինգի հասանելիությունը 3699 է։ 9 տոկոսը BI/Feature API-ի համար։

17) Աղյուսակների և նվագակցման օրինակներ

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18) Օրկեստրացիան և DevX-ը

Infra-as-Code 'plines, թեստեր, հեղափոխություն, GitOps։

Medracom CI-ը 'սխեմաների ոսպնյակներ, DQ թեստեր մինչև deploy։

Backfill-fremork 'անվտանգ ռետրոտեզներ, որոնք սահմանափակվում են R/W և idempotency-ով։

Պիտերբին և ձևանմուշները 'plines (cookie-cutter), best-pract.ru։

19) Ճանապարհային քարտեզը

MVP (4-6 շաբաթ)

1. Իրադարձությունների շարքը + ingest 2-3 հիմնական աղբյուրներից (OLTP CDC, API-դարպաս)։

2. Lakehouse Bultze/Silver, ձևաչափը ACID-ից, կատալոգը և հիմնական DQ կանոնները։

3. 1-2 Gold-վիտրիններ (ամենօրյա GGR և ծրարի ձագը)։

4. Lag/completeness, հիմնական lineage, RBAC և PII դիմակավորում։

Aleksanda 2 (6-12 շաբաթ)

Streaming-ագրեգատները (p95 latency 355 րոպե), Feature Store, RG/AML վիտրիններ։

Սեմանտիկ շերտը մետրիկ է, SLA հաշվետվությունների վրա։ cost dashbords.

Ռեգիոնալացում (EFC/UK), DSAR/RTBF ընթացակարգերը, Legal Hold արտեֆակտների համար։

Բրազիլիա 3 (12 + շաբաթ)

SysteMesh: Ապրանքային ածխաջրածիններ, consumer-driven driven dracae։

ML վիրահատությունները դրեյֆի մոնիտորինգի հետ, առցանց/օֆլայնային։

Սխեմաների ավտոմատ սիմուլյացիան (impact anensis) և «what-if» արժեքով։

20) Հաճախակի սխալներ և ինչպես խուսափել դրանցից

Հում payload's առանց սխեմաների 'ներդնել schema-first, գրանցամատյան և CI-valivation։

Դեդուպլյացիայի բացակայությունը 'իրադարձությունների բանալիները և idempotent-սինքը Silver-ում։

PII-ի խառնուրդը վերլուծության հետ 'առանձնացնել մապինգները և քողարկել դաշտերը։

Gold առանց սեփականատիրոջ 'նշանակել owner, SLO և սպառման չափումներ։

Չկա reprocessing-ռազմավարություն 'time-travel, տրամաբանության տարբերակումը, «կրկնակի հաշվարկի» վերահսկումը։

Չկառավարվող արժեքը 'կուսակցություն, ագրեսիա, TTL, արժեքի դիտարկումը։

21) Գլոսարիա (հակիրճ)

CDC-ը OLTP-ից փոփոխությունների գրավումն է։

Medibox-ը գործարքային իրադարձություններ է հրապարակում։

Watermark-ը պատուհանների հոսքի ամբողջական գնահատումն է։

Lakehouse-ը www.lake + ACID աղյուսակն է։

Intel Prott-ը տվյալների ապրանքային միավորն է սեփականատիրոջ և SLO-ի հետ։

Feature Store-ը ML նշանների համաձայնեցված բաշխումն է։

22) Արդյունքը

Տվյալների հոսքի ճարտարապետությունը պայմանագրերի կառավարվող համակարգն է 'հստակ պայմանագրեր, դիտարկումներ, անվտանգություն և արժեքներ վերահսկողության տակ։ Հետևելով նկարագրված փամփուշտներին (schema-first, bronze/silver/gold, CDC + Disbox, DQ և lineage, privacy-by-design), պլատֆորմը հուսալիորեն մատակարարում է բիզնեսը, կոմպլենսը և ML որակավոր տվյալները կանխատեսելի SLLO և հասկանալի սեփականության արժեքը։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։