GH GambleHub

Տվյալների հարստացում

1) Նշանակումը և բիզնեսի արժեքը

Հարստացումը վերածում է «հում» իրադարձությունները օգտակար փաստերի, ավելացնելով համատեքստը և նշանները

Ֆինանսներ/հաշվետվություններ ՝ գումարների fx-նորմալացում, կապված շուկաների/հարկային տոկոսադրույքների հետ, GGR/NGR հաշվարկը։

Կոմպլանսը/AML/RG 'ռիսկի, սանկցիոն/RER-2019, RG-limits, վարքագծային նշաններ։

Մարքեթինգը/ապրանքը 'աղբյուրներ, հատվածներ, առաքելություններ/որոնումներ, կերպարներ։

SYE/վիրահատություն ՝ geo/ASN հաճախորդի, հաճախորդի/սարքի, ֆիչֆլագի և ալյումինի տեսակը։

Հիմնական արդյունքը մոդելների ճշգրտության բարձրացումն է, կոդավորման որակը և որոշումների կայացման արագությունը։


2) Հարստացնող աղբյուրներ (օրինակելի կատալոգ)

Հանրաքվեն/2019 և 'խաղեր, պրովայդերներ, շուկաներ/իրավասություններ, արժույթներ, հարկային սեղաններ, արձակուրդների օրացույց։

KYC/KYB/RG-ն 'ստուգման մակարդակներ, կարգավիճակներ, ինքնախաբեություններ, լիմիտներ, տարիքային խմբեր։

AML/սանկցիաներ/PEP 'սքրինգի հիթեր, ցուցակներ, ռիսկի մակարդակներ։

Ցանցեր և սարքեր ՝ IP wwww.go/ASN, սարք/OS/զննարկիչ, device fingerprint։

Հիբրիդային պրովայդերներ (PSA) 'BIN աղյուսակներ, մեթոդներ, MCC, ռիսկի-կոդեր։

FX/ժամանակը 'արժեթղթերի դասընթացները իրադարձության ամսաթվով, տեղական ժամացույցի գոտիները/DST։

Բովանդակությունը և մարքեթինգը 'աղբյուրներ/քարոզարշավներ/UTM, աֆֆիլիատներ, հատվածներ։

Մոդելներ և էվրիստիաներ 'նախատիպային կարբինգներ, սաղմեդդինգներ, կատեգորիկ մապինգներ։


3) Հարստացման տեսակներ

Lookup-joyn: կետային համեմատություն բանալին (game _ id, BIN, ip _ range, user _ pseudo _ id)։

Dimension attach 'միացում (dance) փաստերի։

Derived fields: հաշվարկված սյունակները (amount _ bert, demental _ time, tax _ rate)։

Aggreg.ru/velocity: Պատուհանների հաշվիչներ (N 210/րոպե, ավանդների գումարը/ժամ)։

Risk/behavioral features: «ժամանակը վերջին իրադարձությունից», 71-of-wallet, գիշերային ակտիվություն։

Geo/ASN/Device: Երկրի կոդը, տարածքը, օպերատորը, սարքի/զննարկչի տեսակը։

Semantic mappings-ը 'պրովայդերների/խաղերի դասակարգումը, խաղացողների կլաստերները։

ML ֆիչին 'նշաններ առցանց/մոդելավորման համար (Feature Store)։


4) Որտե՞ ղ հարստացնել ՝ Batch vs Stream

Stream (real-time) 'հակաֆրոդ, RG-stugers, SNE-ի ալտերտերը' p95-2-5-ը։ lookup kashi (Redis/Scylla), ասինխրոն հարցումներ թայմաուտների հետ պրովայդերների համար։

Batch (mikro-batchi/ամեն օր): Gold (GGR/RG/AML) վիտրինները, ծալքերը, զեկույցները - 108 և լիարժեքությունը ավելի կարևոր են, քան լատինականությունը։

Հիբրիդ 'արագ առցանց նշանը + գիշերային տաքացումը (reconciliation/accuracy)։


5) Ճարտարապետական հանրաքվե

1. Bronze-ը հում իրադարձություններ են (append-only)։

2. Silver (clean/www.orm) - նորմալացում, բանալիներ, առաջնային lookup "և (fx, geo, dance)։ .

3. Enrichae Layer-ը ընդլայնված նշաններ է, պատուհանների ագրեգատներ, ռիսկի կոդեր։

4. Feature Store-ը նշանների գրանցումն է (առցանց/օֆլայնային համաձայնություն)։

5. Gold - վիտրիններ BI/կարգավորող/մոդելի տակ; անփոփոխ արտեֆակտներ։

6. Ծառայություններ - API/GraphQL, զեկույցները, real-time ալերտները։

Բաղադրիչները ՝ Kafka/Redpanda, Flink/Spark/Beam, Redis/Scyla (lookup), ClickHouse/Pinot (կանոնավոր ընթերցում), Lakehouse (Delta/Iceberg/Hudi)։


6) Պայմանագրեր և սխեմաներ

Schema-first: «event _ time», «schema _ version», կայուն բանալիներ (user _ pseudo _ id, game _ id, transaction _ id)։

Հարստացման նշանները '"enrich.ru։ version`, `enrichment. sources`, `fx_source`, `geo_source`, `model_version`.

Տարբերակումը 'նոր նշանները ավելացվում են որպես nullable; breaking-փոփոխությունները '«/v2 »և կրկնակի ձայնագրությամբ։


7) հարստացման օրինակներ (SQL/կեղծ)

7. 1 FX-նորմալացում և տեղական ժամանակ

sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate   AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;

7. 2 Geo/ASN IP (կեղծ)

python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"

7. 3 Պատուհանի նշաններ ավանդների արագության (stream)

sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);

7. 4 RG-limits

sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);

8) Հարստացման որակը (DQ)

Նվազագույն կանոնները

FX: «fx _ rate _ used» -ը NMS չէ, «fx _ source» - ից, որը հաշվարկվում է «amount _ bert _ bert _ 0»։

Geo/ASN 'հաջողակ lookups-ի մասնաբաժինը 98 տոկոսն է (շուկաներում), «country» գրացուցակում։

RG/AML 24: «valid _ from/valid _ to» (SCD II) չեն հատվում. «անցքերի» բացակայությունը պատմության մեջ։

Ագրեգատները/պատուհանները 'պատուհանների ճիշտ (կրկնակի հաշվարկ չկա), completeness 2499։ 5%.

Մոդելների տարբերակները '«model _ version» -ը առկա է, նշանների dreeft վերահսկումը։

YAML-կանոնների օրինակ

yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major

9) Գաղտնիությունը և կոմպլենսը

PII-ի նվազեցումը 'հարստացեք կեղծ-ID-ով, իրական բաղադրիչները' առանձին կոնտեքստում։

Geo-տեղայնացումը և բնակությունը 'տարածաշրջանի միկրոօրգանիզացումը (EFC/UK/RF), հաճախականության առանձին բանալիները։

DSAR/RTBF 'հարստացված պրոյեկտները պետք է աջակցեն «թաքցնում «/խմբագրություն։ պահեք իրավական հիմքը բացառման համար։

Legal Hold: Հեռացման սառեցում հաշվետվական արտեֆակտների/դեպքերի համար։


10) Դիտարկումը և lineage

Լինեջը 'հում իրադարձությունից www.lookup/ագրեգատներ wwww.orline/մոդել; գրանցեք աղբյուրների տարբերակները («fx _ source», «geo _ source», «bin _ source»)։

SLI/SLO: freshness p95 (Silver) ≤ 15 мин; հաջողակ geo-lookups 2498%; ձայնագրությունների մասնաբաժինը, որոնք լցված են հիմնական նշաններով 3699%; latency enrich-strim p95-2-5 C

Dashbords: completeness-ի ջերմային քարտեզը ըստ աղբյուրների, գրացուցակների/մոդելների տարբերակների քարտեզը, "թանկ" join "մոնիտորը, նշանների դրաֆը։


11) Արժեքը և արտադրողականությունը

Կոմպակտ նշաններ 'պահեք ագրեգատները (ոչ թե «հում» ցուցակները); Օգտագործեք parquet/gonnet։

Կուսակցությունը 'ամսաթվով/շուկա/տենանտա; կլաստերիզացիա հաճախակի ֆիլտրված ֆոսմ։

Հարմարվողական հաճախականությունը 'ծանր enrich-job - գիշեր; realtime-ը միայն քննադատական է։

Քեշի/նյութականացում 'հաճախակի lookup "և Redis/Scylla; պարբերական diapshot 'a.

Chargeback: wwww.cost/query և cost/GB թիմերում/ֆիգուրներում։


12) Patterns և anti-patterns

Patterns

Dimention Lookup + SCD II-ի համար RG/KYC/պրովայդերների համար։

Async Enrichae-ը թայմաուտներով և fallback-ով («unknown»)։

Feature Store-ը on.ru/www.com-ի հետ և հոսանքի թեստերի հետ։

Rule-as-Code-ը հարստացման համար (շեմի/կատեգորիկ քարտեր)։

Anti-patterns

Արտաքին API-ի կոշտ կապումը տաք ճանապարհով առանց քեշի։

Աղբյուրների չհրապարակված տարբերակները («fx _ source», «geo _ source»)։

Դենորմալիզացիան «ամեն ինչի հետ» Silver-ում (արժեքի/բարդության պայթյուններ)։

PII-ի բերումը վերլուծական շերտերին։


13) Գործընթացներ և RACI

R (Responsible): Windows Enrich/stream), Domain Owners (նշանների սեմանտիկա), MLOps (Feature Store)։

A (Accountable): Head of Data / Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Finance (FX/налоги), Risk (RG/AML), SRE.

I (Informed): BI/ապրանք/Մարքեթինգ/Վիրահատություն։


14) Ճանապարհային քարտեզը

MVP (2-4 շաբաթ)

1. Հարստացնող աղբյուրների կատալոգը (fx, geo, markets, RG/KYC)։

2. Silver-նորմալացում + հիմնական lookup 'և (fx/geo/dance.) .

3. Առաջին velocity (ավանդներ/տոկոսադրույքներ) և enriched-ը։ v1 աղյուսակներ։

4. Dashbord completeness/freshness, աղբյուրների տարբերակները։

Aleksanda 2 (4-8 շաբաթ)

Միացումը/RER/KUV, BIN աղյուսակները PSA, device fingerprint։

Feature Store (նշանների միջուկը) + առցանց քեշը, Flink-ի realtime-հարստացումը։

DQ կանոնները enrich շերտի, lineage և «www.y-run» սիմուլյացիայի վրա։

Բրազիլիա 3 (8-12 շաբաթ)

Կերպարացում (առաքելություններ/որոնումներ) և RG/AML դետեկտորներ առցանց։

Արժեքի կառավարումը (քվոտաներ, նյութականացում, Z-order), մուլտֆիլմի տարածքը։

Փաստաթղթերի և նշանների ավտոմատ արտադրությունը («feature cards»)։


15) Որակի թուղթ մինչև վաճառելը

  • Ստալինի բանալիները և սխեմաները, աղբյուրների տարբերակները ստորագրվել են։
  • DQ կանոնները fx/geo/RG/սանկցիաներ/պատուհաններ; ալերտներ և SLO։
  • Քեշի/թայմաուտներ և fallback արտաքին lookup's.
  • Linege և dashbords արժեքի/արտադրողականության։
  • DSAR/RTBF/Legal Hold-ի ընթացակարգերը հարստացված աղյուսակների համար։
  • Նշաններ (owner, բանաձևեր, SLO, ազդեցություն)։

16) Հաճախակի սխալներ և ինչպես խուսափել դրանցից

Գրացուցակների/մոդելների աննկատ տարբերակները 'միշտ արձանագրել «_ source» և «model _ version»։

Fx-ի հաշվարկը հետևյալն է. Օգտագործեք դասընթացը իրադարձության պահին։ պահպանեք FX աղբյուրը։

PII-ի խառնուրդը 'ցնցեք և իզոլիրացրեք մապինգները։

Կրկնակի փոխանցումը ագրեգատներում 'ստուգեք պատուհանները և դեդուպը։

Համաժամանակյա արտաքին մարտահրավերներ առանց քեշի 'ներդրեք async + kash/retrai։

Ոչ մի անցողականություն չկա. Մեկ կոդ ՝ on.ru/www.ru տրանսֆորմացիաների, թեստերի համար։


17) Գլոսարիա (հակիրճ)

Lookup/Dimension attach-ը բանալին գրողի միացումն է։

Feature Store-ը ML-ի նշանների գրանցումն ու սերվինգն է։

SCD II-ը պարամետրերի պատմությունն է, որը կապված է վալիդիզմի ընդմիջումների հետ։

FX - արժույթների դասընթացները և գումարների նորմալացումը։

ASN-ը ցանցի ինքնավար համակարգ է։ օգտակար է հակաֆրոդի և գեո վերլուծաբանների համար։


18) Արդյունքը

Հարստացումը գիտելիքի մեջ իրադարձությունների փոխակերպման կարգապահությունն է 'lookup-ի վերահսկվող բանալիները և սխեմաները, տարբերակված աղբյուրները, լռելյայն, DQ-ը և դիտարկումը։ Դուք կստանաք վերարտադրված, տնտեսական և հաճոյախոսական ցուցանակներ, որոնք պատրաստ են հաշվետվություններին, կերպարներին և ռիսկի դետեկտորներին։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։