Տվյալների հարստացում
1) Նշանակումը և բիզնեսի արժեքը
Հարստացումը վերածում է «հում» իրադարձությունները օգտակար փաստերի, ավելացնելով համատեքստը և նշանները
Ֆինանսներ/հաշվետվություններ ՝ գումարների fx-նորմալացում, կապված շուկաների/հարկային տոկոսադրույքների հետ, GGR/NGR հաշվարկը։
Կոմպլանսը/AML/RG 'ռիսկի, սանկցիոն/RER-2019, RG-limits, վարքագծային նշաններ։
Մարքեթինգը/ապրանքը 'աղբյուրներ, հատվածներ, առաքելություններ/որոնումներ, կերպարներ։
SYE/վիրահատություն ՝ geo/ASN հաճախորդի, հաճախորդի/սարքի, ֆիչֆլագի և ալյումինի տեսակը։
Հիմնական արդյունքը մոդելների ճշգրտության բարձրացումն է, կոդավորման որակը և որոշումների կայացման արագությունը։
2) Հարստացնող աղբյուրներ (օրինակելի կատալոգ)
Հանրաքվեն/2019 և 'խաղեր, պրովայդերներ, շուկաներ/իրավասություններ, արժույթներ, հարկային սեղաններ, արձակուրդների օրացույց։
KYC/KYB/RG-ն 'ստուգման մակարդակներ, կարգավիճակներ, ինքնախաբեություններ, լիմիտներ, տարիքային խմբեր։
AML/սանկցիաներ/PEP 'սքրինգի հիթեր, ցուցակներ, ռիսկի մակարդակներ։
Ցանցեր և սարքեր ՝ IP wwww.go/ASN, սարք/OS/զննարկիչ, device fingerprint։
Հիբրիդային պրովայդերներ (PSA) 'BIN աղյուսակներ, մեթոդներ, MCC, ռիսկի-կոդեր։
FX/ժամանակը 'արժեթղթերի դասընթացները իրադարձության ամսաթվով, տեղական ժամացույցի գոտիները/DST։
Բովանդակությունը և մարքեթինգը 'աղբյուրներ/քարոզարշավներ/UTM, աֆֆիլիատներ, հատվածներ։
Մոդելներ և էվրիստիաներ 'նախատիպային կարբինգներ, սաղմեդդինգներ, կատեգորիկ մապինգներ։
3) Հարստացման տեսակներ
Lookup-joyn: կետային համեմատություն բանալին (game _ id, BIN, ip _ range, user _ pseudo _ id)։
Dimension attach 'միացում (dance) փաստերի։
Derived fields: հաշվարկված սյունակները (amount _ bert, demental _ time, tax _ rate)։
Aggreg.ru/velocity: Պատուհանների հաշվիչներ (N 210/րոպե, ավանդների գումարը/ժամ)։
Risk/behavioral features: «ժամանակը վերջին իրադարձությունից», 71-of-wallet, գիշերային ակտիվություն։
Geo/ASN/Device: Երկրի կոդը, տարածքը, օպերատորը, սարքի/զննարկչի տեսակը։
Semantic mappings-ը 'պրովայդերների/խաղերի դասակարգումը, խաղացողների կլաստերները։
ML ֆիչին 'նշաններ առցանց/մոդելավորման համար (Feature Store)։
4) Որտե՞ ղ հարստացնել ՝ Batch vs Stream
Stream (real-time) 'հակաֆրոդ, RG-stugers, SNE-ի ալտերտերը' p95-2-5-ը։ lookup kashi (Redis/Scylla), ասինխրոն հարցումներ թայմաուտների հետ պրովայդերների համար։
Batch (mikro-batchi/ամեն օր): Gold (GGR/RG/AML) վիտրինները, ծալքերը, զեկույցները - 108 և լիարժեքությունը ավելի կարևոր են, քան լատինականությունը։
Հիբրիդ 'արագ առցանց նշանը + գիշերային տաքացումը (reconciliation/accuracy)։
5) Ճարտարապետական հանրաքվե
1. Bronze-ը հում իրադարձություններ են (append-only)։
2. Silver (clean/www.orm) - նորմալացում, բանալիներ, առաջնային lookup "և (fx, geo, dance)։ .
3. Enrichae Layer-ը ընդլայնված նշաններ է, պատուհանների ագրեգատներ, ռիսկի կոդեր։
4. Feature Store-ը նշանների գրանցումն է (առցանց/օֆլայնային համաձայնություն)։
5. Gold - վիտրիններ BI/կարգավորող/մոդելի տակ; անփոփոխ արտեֆակտներ։
6. Ծառայություններ - API/GraphQL, զեկույցները, real-time ալերտները։
Բաղադրիչները ՝ Kafka/Redpanda, Flink/Spark/Beam, Redis/Scyla (lookup), ClickHouse/Pinot (կանոնավոր ընթերցում), Lakehouse (Delta/Iceberg/Hudi)։
6) Պայմանագրեր և սխեմաներ
Schema-first: «event _ time», «schema _ version», կայուն բանալիներ (user _ pseudo _ id, game _ id, transaction _ id)։
Հարստացման նշանները '"enrich.ru։ version`, `enrichment. sources`, `fx_source`, `geo_source`, `model_version`.
Տարբերակումը 'նոր նշանները ավելացվում են որպես nullable; breaking-փոփոխությունները '«/v2 »և կրկնակի ձայնագրությամբ։
7) հարստացման օրինակներ (SQL/կեղծ)
7. 1 FX-նորմալացում և տեղական ժամանակ
sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;
7. 2 Geo/ASN IP (կեղծ)
python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7. 3 Պատուհանի նշաններ ավանդների արագության (stream)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7. 4 RG-limits
sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);
8) Հարստացման որակը (DQ)
Նվազագույն կանոնները
FX: «fx _ rate _ used» -ը NMS չէ, «fx _ source» - ից, որը հաշվարկվում է «amount _ bert _ bert _ 0»։
Geo/ASN 'հաջողակ lookups-ի մասնաբաժինը 98 տոկոսն է (շուկաներում), «country» գրացուցակում։
RG/AML 24: «valid _ from/valid _ to» (SCD II) չեն հատվում. «անցքերի» բացակայությունը պատմության մեջ։
Ագրեգատները/պատուհանները 'պատուհանների ճիշտ (կրկնակի հաշվարկ չկա), completeness 2499։ 5%.
Մոդելների տարբերակները '«model _ version» -ը առկա է, նշանների dreeft վերահսկումը։
YAML-կանոնների օրինակ
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9) Գաղտնիությունը և կոմպլենսը
PII-ի նվազեցումը 'հարստացեք կեղծ-ID-ով, իրական բաղադրիչները' առանձին կոնտեքստում։
Geo-տեղայնացումը և բնակությունը 'տարածաշրջանի միկրոօրգանիզացումը (EFC/UK/RF), հաճախականության առանձին բանալիները։
DSAR/RTBF 'հարստացված պրոյեկտները պետք է աջակցեն «թաքցնում «/խմբագրություն։ պահեք իրավական հիմքը բացառման համար։
Legal Hold: Հեռացման սառեցում հաշվետվական արտեֆակտների/դեպքերի համար։
10) Դիտարկումը և lineage
Լինեջը 'հում իրադարձությունից www.lookup/ագրեգատներ wwww.orline/մոդել; գրանցեք աղբյուրների տարբերակները («fx _ source», «geo _ source», «bin _ source»)։
SLI/SLO: freshness p95 (Silver) ≤ 15 мин; հաջողակ geo-lookups 2498%; ձայնագրությունների մասնաբաժինը, որոնք լցված են հիմնական նշաններով 3699%; latency enrich-strim p95-2-5 C
Dashbords: completeness-ի ջերմային քարտեզը ըստ աղբյուրների, գրացուցակների/մոդելների տարբերակների քարտեզը, "թանկ" join "մոնիտորը, նշանների դրաֆը։
11) Արժեքը և արտադրողականությունը
Կոմպակտ նշաններ 'պահեք ագրեգատները (ոչ թե «հում» ցուցակները); Օգտագործեք parquet/gonnet։
Կուսակցությունը 'ամսաթվով/շուկա/տենանտա; կլաստերիզացիա հաճախակի ֆիլտրված ֆոսմ։
Հարմարվողական հաճախականությունը 'ծանր enrich-job - գիշեր; realtime-ը միայն քննադատական է։
Քեշի/նյութականացում 'հաճախակի lookup "և Redis/Scylla; պարբերական diapshot 'a.
Chargeback: wwww.cost/query և cost/GB թիմերում/ֆիգուրներում։
12) Patterns և anti-patterns
Patterns
Dimention Lookup + SCD II-ի համար RG/KYC/պրովայդերների համար։
Async Enrichae-ը թայմաուտներով և fallback-ով («unknown»)։
Feature Store-ը on.ru/www.com-ի հետ և հոսանքի թեստերի հետ։
Rule-as-Code-ը հարստացման համար (շեմի/կատեգորիկ քարտեր)։
Anti-patterns
Արտաքին API-ի կոշտ կապումը տաք ճանապարհով առանց քեշի։
Աղբյուրների չհրապարակված տարբերակները («fx _ source», «geo _ source»)։
Դենորմալիզացիան «ամեն ինչի հետ» Silver-ում (արժեքի/բարդության պայթյուններ)։
PII-ի բերումը վերլուծական շերտերին։
13) Գործընթացներ և RACI
R (Responsible): Windows Enrich/stream), Domain Owners (նշանների սեմանտիկա), MLOps (Feature Store)։
A (Accountable): Head of Data / Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Finance (FX/налоги), Risk (RG/AML), SRE.
I (Informed): BI/ապրանք/Մարքեթինգ/Վիրահատություն։
14) Ճանապարհային քարտեզը
MVP (2-4 շաբաթ)
1. Հարստացնող աղբյուրների կատալոգը (fx, geo, markets, RG/KYC)։
2. Silver-նորմալացում + հիմնական lookup 'և (fx/geo/dance.) .
3. Առաջին velocity (ավանդներ/տոկոսադրույքներ) և enriched-ը։ v1 աղյուսակներ։
4. Dashbord completeness/freshness, աղբյուրների տարբերակները։
Aleksanda 2 (4-8 շաբաթ)
Միացումը/RER/KUV, BIN աղյուսակները PSA, device fingerprint։
Feature Store (նշանների միջուկը) + առցանց քեշը, Flink-ի realtime-հարստացումը։
DQ կանոնները enrich շերտի, lineage և «www.y-run» սիմուլյացիայի վրա։
Բրազիլիա 3 (8-12 շաբաթ)
Կերպարացում (առաքելություններ/որոնումներ) և RG/AML դետեկտորներ առցանց։
Արժեքի կառավարումը (քվոտաներ, նյութականացում, Z-order), մուլտֆիլմի տարածքը։
Փաստաթղթերի և նշանների ավտոմատ արտադրությունը («feature cards»)։
15) Որակի թուղթ մինչև վաճառելը
- Ստալինի բանալիները և սխեմաները, աղբյուրների տարբերակները ստորագրվել են։
- DQ կանոնները fx/geo/RG/սանկցիաներ/պատուհաններ; ալերտներ և SLO։
- Քեշի/թայմաուտներ և fallback արտաքին lookup's.
- Linege և dashbords արժեքի/արտադրողականության։
- DSAR/RTBF/Legal Hold-ի ընթացակարգերը հարստացված աղյուսակների համար։
- Նշաններ (owner, բանաձևեր, SLO, ազդեցություն)։
16) Հաճախակի սխալներ և ինչպես խուսափել դրանցից
Գրացուցակների/մոդելների աննկատ տարբերակները 'միշտ արձանագրել «_ source» և «model _ version»։
Fx-ի հաշվարկը հետևյալն է. Օգտագործեք դասընթացը իրադարձության պահին։ պահպանեք FX աղբյուրը։
PII-ի խառնուրդը 'ցնցեք և իզոլիրացրեք մապինգները։
Կրկնակի փոխանցումը ագրեգատներում 'ստուգեք պատուհանները և դեդուպը։
Համաժամանակյա արտաքին մարտահրավերներ առանց քեշի 'ներդրեք async + kash/retrai։
Ոչ մի անցողականություն չկա. Մեկ կոդ ՝ on.ru/www.ru տրանսֆորմացիաների, թեստերի համար։
17) Գլոսարիա (հակիրճ)
Lookup/Dimension attach-ը բանալին գրողի միացումն է։
Feature Store-ը ML-ի նշանների գրանցումն ու սերվինգն է։
SCD II-ը պարամետրերի պատմությունն է, որը կապված է վալիդիզմի ընդմիջումների հետ։
FX - արժույթների դասընթացները և գումարների նորմալացումը։
ASN-ը ցանցի ինքնավար համակարգ է։ օգտակար է հակաֆրոդի և գեո վերլուծաբանների համար։
18) Արդյունքը
Հարստացումը գիտելիքի մեջ իրադարձությունների փոխակերպման կարգապահությունն է 'lookup-ի վերահսկվող բանալիները և սխեմաները, տարբերակված աղբյուրները, լռելյայն, DQ-ը և դիտարկումը։ Դուք կստանաք վերարտադրված, տնտեսական և հաճոյախոսական ցուցանակներ, որոնք պատրաստ են հաշվետվություններին, կերպարներին և ռիսկի դետեկտորներին։