GH GambleHub

Կյանքի տվյալների ցիկլը

1) Նշանակումներ և սկզբունքներ

Նպատակը 'ապահովել կանխատեսելի, կոմպլեկտիվ և տնտեսական տվյալների շարժումը մինչև դրանց ավելացումը, աջակցելով վերլուծական, վիրահատական և կարգավորող սցենարները։

Հիմնական սկզբունքները

Delas a Not: Յուրաքանչյուր հավաքածու ունի սեփականատեր, պայմանագիր, SLO, ռուսական։

Schema-first: սխեմաները պարտադիր են։ փոփոխությունները տարբերակման միջոցով են։

Privacy-by-Design: PII-ի նվազեցումը, կեղծանունացումը, պահեստավորումը։

Observability-by-Express-ը ՝ մետրիկներ, մուտքի տրամաբանություն, lineage։

Cost-a.ru: Պահեստավորման մակարդակներ, TTL, սեմպլացիա, ագրեսիա։

2) Կյանքի ցիկլի փուլերը

2. 1 Ստեղծում և հավաքում (Create/Collect)

Աղբյուրները ՝ ապրանքներ (web/windaill), backends, վճարումներ, KYC/AML պրովայդերներ, խաղեր/ստուդիաներ, մարքեթինգ, վիրահատական լոգներ։

Բաղադրիչները ՝ "event _ id", "user. pseudo_id`, `session_id`, `trace_id`.

Պայմանագրեր ՝ JSON/Avro սխեմաներ, AsyncAPI/OpenAPI։

Մուտքի որակը 'սխեմաների վալիդացիա, պարտադիր դաշտեր, չափի լիմիտներ, անտի կրկնօրինակներ։

Գաղտնիությունը 'զգայուն դաշտերի խառնուրդը, ingest (EFC/UK/IV) գեո-միկրոակտիվացումը։

2. 2 Ընդունումը և առաջնային պահպանումը (Ingest & Rance)

Տրանսպորտը ՝ HTTP/gRPC www.Edge china (Kafka/Redpanda)։

Rox-շերտը (Bultze) 'append-only, անփոփոխ payload' a (ֆորոիդիկայի համար), ժամանակի/շուկայի/tenantu։

Քաղաքական գործիչները '«(event _ id, source)», DLQ-ը «բիթային» իրադարձությունների համար, Legal Hold-ը։

2. 3 Վերամշակումը և մաքրումը (Refine)

Նորմալացում (Silver) 'տիպիզացիա, deduplication, տեղեկատու, FX/timzons, հարստացում։

Որակը (DQ) 'ամբողջականություն/եզակիություն/միջակայք/ռելֆերենտ ամբողջականություն։

Reprocessing 'idempotent փոխակրիչներ, time-travel, որոնք վերահսկվում են backfill' a։

2. 4 Սպառում և սերվինգ (Serve/Use)

Gold-վիտրիններ ՝ BI/հաշվետվություններ (GGR, RG, AML), ապրանքային և ռիսկային մոդելներ, real-time վիտրիններ։

Հասանելիություն ՝ SQL/Trino, սեմանտիկ շերտ, API/GraphQL, Feature Store։

SLA թարմություն. Օրինակ, Gold-ամենօրյա վիտրինները պատրաստ են մինչև 06: 00 ռուբլիներ։

2. 5 Փոխանակում և տարածում (Մոսկվա/Publish)

Ներքին սպառողները 'Վերլուծություն, ապրանք, ռիսկ, Կոմպլենսը, Մարքեթինգը, Ֆինանսները։

Արտաքին արտանետումները 'կարգավորիչներ, գործընկերներ/պրովայդերներ; անփոփոխ փաթեթներ (PDF/CSV/JSON + hash)։

Վերահսկվող ալիքները 'ստորագրված արտեֆակտներ, բեռնման/խառնուրդի աուդիտ։

2. 6 Արխիվացում և պահեստավորում (Archive/Retain)

Պահեստավորման քաղաքականությունները 'տվյալների և հայտարարությունների տեսակները (օրինակ, կարգավորող' 5-7 տարի)։

Պահեստավորման շերտերը ՝ hot/warm/cold, WORM/Object Prok անփոփոխ։

Արխիվի ինդեքսավորումը 'ստանդարտ և, նշված տարբերակները/շուկաները, մետատվյալների արագ որոնումը։

2. 7 Հեռացում և եզրափակիչ (Dispose)

Սովորական հեռացում ՝ TTL/retenshn; անվտանգ մաքրում, ինդեքսների նորացում։

Իրավական վիրահատություններ ՝ DSAR/RTBF (մոռացման իրավունք), բացառություններ պահեստավորման օրինական պարտավորությամբ, Legal Hold (սառեցում)։

Վերիֆիկացիան 'հեռացման հաշվետվությունները, խմբագրության ամսագիրը, քրոսեքսային վերահսկումը։

3) Դասակարգումը և կատալոգը

Զգայունության կատեգորիաները ՝ public/ental/www.idential/restricted։

Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.

Տվյալների կատալոգ 'նկարագրություն, սեփականատեր, SLA թարմ, սխեմաներ, lineage, հասանելիության մակարդակներ։

Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.

4) Lakehouse մոդելը և սխեմաները

Bronze/Silver/Gold: փոխակերպման և պատասխանատվության հստակ կանոնները։

Մոսկվա: Parquet + պլաստիկ ձևաչափը ACID (Delta/Iceberg/Hudi) հետ։

Սխեմաների էվոլյուցիան 'սեմանտիկ տարբերակներ, լոնգիտուդային համատեղելիություն, որը համապատասխանում է կրկնակի ձայնագրությանը breaking-փոփոխության համար։

Registry: Schema Registry, CI-valivation 2019, consumer-driven tes.ru։

5) Տվյալների որակը (DQ)

Որակի մետրերը

Completeness (ամբողջական), իրականում նշված իրադարձությունների/տողերի մասը։

Validity: Ձայնագրությունների մի մասը, որոնք անցել են սխեմատիկ վալիդացիան։

Uniqueness 'կրկնօրինակների վերահսկում։

Consistency: Համապատասխանում է գրողներին և կապերին։

Freshness 'ընդունման/նյութականացման ուշացում։

Պրակտիկա

DQ կանոնները որպես կոդ (YAML/SQL թեստեր), dashbords, SLO ալտերտեր։

Auto-follback-ը քայքայման ժամանակ (վերջին ճիշտ կտրվածքը)։

6) Գաղտնիությունը և կոմպլենսը

PII-ի նվազեցումը 'կեղծ-ID պահել, մապինգներ դնել մեկուսացված բջիջներում։

Դիմակավորում և RFC/CLS 'սյունակի/տողերի մակարդակում; դինամիկ քաղաքականություններ։

Ռեգիոնալացում: Ռուսական residency շուկաներում; առանձին բջիջներ և/բանալիներ։

DSAR/RTBF 'կառավարվող պրոյեկտներ, ընտրովի խմբագրումներ, աուդիտ։

Legal Hold: 105 սառեցում, անփոփոխ արխիվներ, հասանելիության պրոտոկոլացիա։

7) Հասանելիություն և անվտանգություն

Վավերացում/հեղինակացում ՝ SSO, RBAC/ABAC, խմբակցությունների և դերերի ատրիբուտներ։

Կոդավորումը ՝ TMS in-transit; at-rest KFC/CMK-ի միջոցով; միգրացիայի վերացումը։

Մուտքի ամսագրեր ՝ ով/ինչ/երբ/որտեղից; ալտերտներ զանգվածային էքսպորտների/սկանների համար։

Պարտականությունների տարանջատումը 'տարբեր դերեր/վերլուծաբաններ/ադմիններ/ռևուերներ։

8) Գծայնությունը (lineage) և դիտարկումը

Interneage: Ռուսական փոխակերպման աղբյուրից նշված է զեկույցները։

Վիրահատական lineage 'հաղորդագրությունների, ֆիչֆլագների, մոդելների, AML/RG կանոնների հետ կապերը։

Պլատֆորմի մետրերը ՝ throughput, lag, failure-rate, cost/query, cost/GB։

Թրեյսինգը '«trace _ id» փոխանցումը ծրագրերից մինչև վիտրինը/ալերտները։

9) Ժամանակի և ռետրոտացիայի մոդելները

Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.

Backfill-ը և reprocessing-ը 'idempotent pipeline' a, time-travel, «կրկնակի հաշվարկի» վերահսկողությունը։

Պետության պահպանումը 'TTL, դիպուկահարներ, վերականգնումը ձախողումներից հետո։

10) Տնտեսագիտություն և վերահսկողություն

Կուսակցությունը (/շուկա/տենանտ), կլաստերիզացիա/Z-ordering։

Բարձր հաճախականության վերլուծության համար սեմպիլացիա (ոչ գործարքների/կոմպլանսի համար)։

Բազմաշերտ պահպանումը (hot/warm/cold), ավտոմատ TTL։

Budget/chargeback թիմերում, սահմանափակումներ ծանր հարցումների և backfill-ի համար։

11) Գործընթացներ և RACI

R (Responsible): Windows Platform (Ingest/world/նվագախումբ), E. Ingineering (փոխակերպումներ), Medracom (Medracom/DQ/SLO)։

A (Accountable): Head of Data/Chief Data Officer.

C (Consensed): Compliant/Legal/DPO, Ճարտարապետություն, DRE, Մոսկվա։

I (Informed): BI/ապրանք/Մարքեթինգ/Ֆինանսներ/Վիրահատություն։

12) SLO/SLI (մոտավոր նպատակներ)

ՑուցանիշըՆպատակը
Freshness Silver p9515 րոպե
Gold-ամենօրյա վիտրիններմինչև 06:00 լոկ։ ժամանակ
Completeness за T≥ 99. 5%
Validity (սխեմաներ)≥ 99. 9%
Սերվինգի հասանելիությունը≥ 99. 9%
DSAR արձագանքի ժամանակը30 օր (կառուցվում է տեղական օրենսդրությամբ)

13) Դաշբորդի

Ջերմային քարտեզը թարմ է ածխաջրածիններով/շուկաներով։

Completeness/Validity հոսքով։

Պահեստավորման և հարցումների արժեքը (շերտերով և թիմերով)։

Lineage քարտեզը կրիտիկական պարամետրերի համար (կարգավորիչ, GGR, RG/AML)։

DSAR/RTBF-ի տողերը, Legal Hold արձանները։

14) Պահեստավորման քաղաքականությունը (օրինակ)

Տվյալների դասHotWarmArchive (WORM)TTL ընդհանուր
Վճարումների գործարքներ7 d60 dՅոթ տարիՅոթ տարի
Խաղի իրադարձությունները (վերլուծություն)3 d30 d1-2 տարի1-2 տարի
Complaens/AML արտեֆակտներ14 d90 d5-7 տարեկան5-7 տարեկան
Վիրահատական լոգներ3 d30 d1 տարի1 տարի

Իրական ժամանակահատվածները որոշվում են Legal/DPO և տեղական իրավունք։

15) Մոսկվան և ստանդարտները

International page: սեփականատերը, նշանակումը, SLA, սխեմաները, DQ կանոնները, կոնտակտները։

Change log: սխեմաների/տրամաբանության տարբերակներ, ազդեցություն (impact anporsis), ռուսական։

Runbooks: reprocessing, backfill, արտակարգ սցենարներ, ֆրիզային կոճակ։

16) Իրականացման ճանապարհային քարտեզը

MVP (4-6 շաբաթ)

1. Տվյալների կատալոգը և դասակարգումը (առաջին օրինակները), հիմնական սխեմաները և գրանցումները։

2. Lakehouse Bultze/Silver, ingestion և Dedup։

3. 1-2 Gold-վիտրիններ (օրինակ, GGR և հակադարձումը)։

4. Նվազագույն DQ կանոնները և Freshness/Completeness-ը։

5. Պահեստավորման քաղաքականությունը և RBAC հասանելիությունը։

Aleksanda 2 (6-12 շաբաթ)

Լինեջը, սեմանտիկ շերտը, DSAR/RTBF ընթացակարգերը։

Ռեգիոնալացում (EFC/UK), WORM կարգավորող արտեֆակտների համար, Legal Hold։

Արժեքի օպտիմիզացումը, SLO-ի ալերտները, տեղեկատվության հաշվետվությունները։

Բրազիլիա 3 (12 + շաբաթ)

SysteMesh (էքսպորտային ապրանքներ), consumer-driven edracom և թեստեր։

Impact-ի ավտոսիմուլյացիան, երբ փոխում են սխեմաները/տրամաբանությունները, ակնոցները։

Միասնական կոդավորման վահանակ (կարգավորիչ, հասանելիություն, DQ, lineage)։

17) Չեկ թուղթ մինչև վաճառելը

  • Սխեմաները պնդվում են, պայմանագրերը գրանցամատյանում, համատեղելիության թեստերը։
  • DQ կանոնները ակտիվ են, ալտերտերը ծրագրավորված են, SLO-ն տեղադրված է։
  • RBAC/ABAC: դերերը ստուգված են, մուտքի ամսագրերը ներառված են։
  • Պահեստային քաղաքականությունները/105/արխիվները ապացուցված են Legal/DPO-ի կողմից։
  • DSAR/RTBF/Legal Hold-ի ընթացակարգերը փաստաթղթավորված և փորձարկվել են։
  • Linege/metriks/արժեքը ցուցադրվում է dashbords-ում։
  • Runbooks backfill/reprocessing/DR պատրաստ են։

18) Հաճախակի սխալներ և ինչպես խուսափել դրանցից

Չկա միասնական դասակարգում և ստանդարտ 'մուտքագրեք Peter Prott-ի պարտադիր քարտերը։

Հում տվյալները առանց սխեմաների 'schema-first + CI-validation։

Հեռացման բացակայությունը 'նախագծեք TTL-ը և RTBF գործընթացները հենց սկզբից։

PII-ի խառնուրդը և վերլուծաբանները 'պահեք մապինգները առանձին, կիրառեք դիմակավորում։

Gold առանց սեփականատիրոջ և SLO 'նշանակեք owner և թարմ նպատակներ։

Չկառավարվող արժեք 'կուսակցություն, ագրեսիա, tiered-storage, քվոտաներ։

19) Գլոսարիա (հակիրճ)

DSAR/RTBF-ը տվյալների օբյեկտի հարցումն է/հեռացման իրավունքը։

Legal Hold-ը իրավաբանական հիմունքներով մրցույթի սառեցումն է։

Lineage-ը ծագման և փոխակերպման հետքն է։

Direct-ը SLA-ի հետ կառավարվող տվյալների միավորն է։

DQ-ը տվյալների որակի կանոններն ու չափումներն են։

Lakehouse-ը www.lake և ACID աղյուսակների միավորումն է։

20) Արդյունքը

Տվյալների կյանքի ցիկլը պայմանագրերի կառավարվող համակարգ է, ոչ միայն ֆայլերի պահեստ։ Հստակ պայմանագրերը և սխեմաները, դասակարգումը և կատալոգը, չափելի որակը, գաղտնիությունը և անվտանգությունը, տնտեսական պահեստավորման ճարտարապետությունը և թափանցիկ lineage-ը տվյալներ են դարձնում, որոնք աջակցում են ապրանքը, կոմպլանսը և վերլուծությունը առանց անակնկալների և «թաքնված» ռիսկերի։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։