Կյանքի տվյալների ցիկլը
1) Նշանակումներ և սկզբունքներ
Նպատակը 'ապահովել կանխատեսելի, կոմպլեկտիվ և տնտեսական տվյալների շարժումը մինչև դրանց ավելացումը, աջակցելով վերլուծական, վիրահատական և կարգավորող սցենարները։
Հիմնական սկզբունքները
Delas a Not: Յուրաքանչյուր հավաքածու ունի սեփականատեր, պայմանագիր, SLO, ռուսական։
Schema-first: սխեմաները պարտադիր են։ փոփոխությունները տարբերակման միջոցով են։
Privacy-by-Design: PII-ի նվազեցումը, կեղծանունացումը, պահեստավորումը։
Observability-by-Express-ը ՝ մետրիկներ, մուտքի տրամաբանություն, lineage։
Cost-a.ru: Պահեստավորման մակարդակներ, TTL, սեմպլացիա, ագրեսիա։
2) Կյանքի ցիկլի փուլերը
2. 1 Ստեղծում և հավաքում (Create/Collect)
Աղբյուրները ՝ ապրանքներ (web/windaill), backends, վճարումներ, KYC/AML պրովայդերներ, խաղեր/ստուդիաներ, մարքեթինգ, վիրահատական լոգներ։
Բաղադրիչները ՝ "event _ id", "user. pseudo_id`, `session_id`, `trace_id`.
Պայմանագրեր ՝ JSON/Avro սխեմաներ, AsyncAPI/OpenAPI։
Մուտքի որակը 'սխեմաների վալիդացիա, պարտադիր դաշտեր, չափի լիմիտներ, անտի կրկնօրինակներ։
Գաղտնիությունը 'զգայուն դաշտերի խառնուրդը, ingest (EFC/UK/IV) գեո-միկրոակտիվացումը։
2. 2 Ընդունումը և առաջնային պահպանումը (Ingest & Rance)
Տրանսպորտը ՝ HTTP/gRPC www.Edge china (Kafka/Redpanda)։
Rox-շերտը (Bultze) 'append-only, անփոփոխ payload' a (ֆորոիդիկայի համար), ժամանակի/շուկայի/tenantu։
Քաղաքական գործիչները '«(event _ id, source)», DLQ-ը «բիթային» իրադարձությունների համար, Legal Hold-ը։
2. 3 Վերամշակումը և մաքրումը (Refine)
Նորմալացում (Silver) 'տիպիզացիա, deduplication, տեղեկատու, FX/timzons, հարստացում։
Որակը (DQ) 'ամբողջականություն/եզակիություն/միջակայք/ռելֆերենտ ամբողջականություն։
Reprocessing 'idempotent փոխակրիչներ, time-travel, որոնք վերահսկվում են backfill' a։
2. 4 Սպառում և սերվինգ (Serve/Use)
Gold-վիտրիններ ՝ BI/հաշվետվություններ (GGR, RG, AML), ապրանքային և ռիսկային մոդելներ, real-time վիտրիններ։
Հասանելիություն ՝ SQL/Trino, սեմանտիկ շերտ, API/GraphQL, Feature Store։
SLA թարմություն. Օրինակ, Gold-ամենօրյա վիտրինները պատրաստ են մինչև 06: 00 ռուբլիներ։
2. 5 Փոխանակում և տարածում (Մոսկվա/Publish)
Ներքին սպառողները 'Վերլուծություն, ապրանք, ռիսկ, Կոմպլենսը, Մարքեթինգը, Ֆինանսները։
Արտաքին արտանետումները 'կարգավորիչներ, գործընկերներ/պրովայդերներ; անփոփոխ փաթեթներ (PDF/CSV/JSON + hash)։
Վերահսկվող ալիքները 'ստորագրված արտեֆակտներ, բեռնման/խառնուրդի աուդիտ։
2. 6 Արխիվացում և պահեստավորում (Archive/Retain)
Պահեստավորման քաղաքականությունները 'տվյալների և հայտարարությունների տեսակները (օրինակ, կարգավորող' 5-7 տարի)։
Պահեստավորման շերտերը ՝ hot/warm/cold, WORM/Object Prok անփոփոխ։
Արխիվի ինդեքսավորումը 'ստանդարտ և, նշված տարբերակները/շուկաները, մետատվյալների արագ որոնումը։
2. 7 Հեռացում և եզրափակիչ (Dispose)
Սովորական հեռացում ՝ TTL/retenshn; անվտանգ մաքրում, ինդեքսների նորացում։
Իրավական վիրահատություններ ՝ DSAR/RTBF (մոռացման իրավունք), բացառություններ պահեստավորման օրինական պարտավորությամբ, Legal Hold (սառեցում)։
Վերիֆիկացիան 'հեռացման հաշվետվությունները, խմբագրության ամսագիրը, քրոսեքսային վերահսկումը։
3) Դասակարգումը և կատալոգը
Զգայունության կատեգորիաները ՝ public/ental/www.idential/restricted։
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Տվյալների կատալոգ 'նկարագրություն, սեփականատեր, SLA թարմ, սխեմաներ, lineage, հասանելիության մակարդակներ։
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Lakehouse մոդելը և սխեմաները
Bronze/Silver/Gold: փոխակերպման և պատասխանատվության հստակ կանոնները։
Մոսկվա: Parquet + պլաստիկ ձևաչափը ACID (Delta/Iceberg/Hudi) հետ։
Սխեմաների էվոլյուցիան 'սեմանտիկ տարբերակներ, լոնգիտուդային համատեղելիություն, որը համապատասխանում է կրկնակի ձայնագրությանը breaking-փոփոխության համար։
Registry: Schema Registry, CI-valivation 2019, consumer-driven tes.ru։
5) Տվյալների որակը (DQ)
Որակի մետրերը
Completeness (ամբողջական), իրականում նշված իրադարձությունների/տողերի մասը։
Validity: Ձայնագրությունների մի մասը, որոնք անցել են սխեմատիկ վալիդացիան։
Uniqueness 'կրկնօրինակների վերահսկում։
Consistency: Համապատասխանում է գրողներին և կապերին։
Freshness 'ընդունման/նյութականացման ուշացում։
Պրակտիկա
DQ կանոնները որպես կոդ (YAML/SQL թեստեր), dashbords, SLO ալտերտեր։
Auto-follback-ը քայքայման ժամանակ (վերջին ճիշտ կտրվածքը)։
6) Գաղտնիությունը և կոմպլենսը
PII-ի նվազեցումը 'կեղծ-ID պահել, մապինգներ դնել մեկուսացված բջիջներում։
Դիմակավորում և RFC/CLS 'սյունակի/տողերի մակարդակում; դինամիկ քաղաքականություններ։
Ռեգիոնալացում: Ռուսական residency շուկաներում; առանձին բջիջներ և/բանալիներ։
DSAR/RTBF 'կառավարվող պրոյեկտներ, ընտրովի խմբագրումներ, աուդիտ։
Legal Hold: 105 սառեցում, անփոփոխ արխիվներ, հասանելիության պրոտոկոլացիա։
7) Հասանելիություն և անվտանգություն
Վավերացում/հեղինակացում ՝ SSO, RBAC/ABAC, խմբակցությունների և դերերի ատրիբուտներ։
Կոդավորումը ՝ TMS in-transit; at-rest KFC/CMK-ի միջոցով; միգրացիայի վերացումը։
Մուտքի ամսագրեր ՝ ով/ինչ/երբ/որտեղից; ալտերտներ զանգվածային էքսպորտների/սկանների համար։
Պարտականությունների տարանջատումը 'տարբեր դերեր/վերլուծաբաններ/ադմիններ/ռևուերներ։
8) Գծայնությունը (lineage) և դիտարկումը
Interneage: Ռուսական փոխակերպման աղբյուրից նշված է զեկույցները։
Վիրահատական lineage 'հաղորդագրությունների, ֆիչֆլագների, մոդելների, AML/RG կանոնների հետ կապերը։
Պլատֆորմի մետրերը ՝ throughput, lag, failure-rate, cost/query, cost/GB։
Թրեյսինգը '«trace _ id» փոխանցումը ծրագրերից մինչև վիտրինը/ալերտները։
9) Ժամանակի և ռետրոտացիայի մոդելները
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill-ը և reprocessing-ը 'idempotent pipeline' a, time-travel, «կրկնակի հաշվարկի» վերահսկողությունը։
Պետության պահպանումը 'TTL, դիպուկահարներ, վերականգնումը ձախողումներից հետո։
10) Տնտեսագիտություն և վերահսկողություն
Կուսակցությունը (/շուկա/տենանտ), կլաստերիզացիա/Z-ordering։
Բարձր հաճախականության վերլուծության համար սեմպիլացիա (ոչ գործարքների/կոմպլանսի համար)։
Բազմաշերտ պահպանումը (hot/warm/cold), ավտոմատ TTL։
Budget/chargeback թիմերում, սահմանափակումներ ծանր հարցումների և backfill-ի համար։
11) Գործընթացներ և RACI
R (Responsible): Windows Platform (Ingest/world/նվագախումբ), E. Ingineering (փոխակերպումներ), Medracom (Medracom/DQ/SLO)։
A (Accountable): Head of Data/Chief Data Officer.
C (Consensed): Compliant/Legal/DPO, Ճարտարապետություն, DRE, Մոսկվա։
I (Informed): BI/ապրանք/Մարքեթինգ/Ֆինանսներ/Վիրահատություն։
12) SLO/SLI (մոտավոր նպատակներ)
13) Դաշբորդի
Ջերմային քարտեզը թարմ է ածխաջրածիններով/շուկաներով։
Completeness/Validity հոսքով։
Պահեստավորման և հարցումների արժեքը (շերտերով և թիմերով)։
Lineage քարտեզը կրիտիկական պարամետրերի համար (կարգավորիչ, GGR, RG/AML)։
DSAR/RTBF-ի տողերը, Legal Hold արձանները։
14) Պահեստավորման քաղաքականությունը (օրինակ)
Իրական ժամանակահատվածները որոշվում են Legal/DPO և տեղական իրավունք։
15) Մոսկվան և ստանդարտները
International page: սեփականատերը, նշանակումը, SLA, սխեմաները, DQ կանոնները, կոնտակտները։
Change log: սխեմաների/տրամաբանության տարբերակներ, ազդեցություն (impact anporsis), ռուսական։
Runbooks: reprocessing, backfill, արտակարգ սցենարներ, ֆրիզային կոճակ։
16) Իրականացման ճանապարհային քարտեզը
MVP (4-6 շաբաթ)
1. Տվյալների կատալոգը և դասակարգումը (առաջին օրինակները), հիմնական սխեմաները և գրանցումները։
2. Lakehouse Bultze/Silver, ingestion և Dedup։
3. 1-2 Gold-վիտրիններ (օրինակ, GGR և հակադարձումը)։
4. Նվազագույն DQ կանոնները և Freshness/Completeness-ը։
5. Պահեստավորման քաղաքականությունը և RBAC հասանելիությունը։
Aleksanda 2 (6-12 շաբաթ)
Լինեջը, սեմանտիկ շերտը, DSAR/RTBF ընթացակարգերը։
Ռեգիոնալացում (EFC/UK), WORM կարգավորող արտեֆակտների համար, Legal Hold։
Արժեքի օպտիմիզացումը, SLO-ի ալերտները, տեղեկատվության հաշվետվությունները։
Բրազիլիա 3 (12 + շաբաթ)
SysteMesh (էքսպորտային ապրանքներ), consumer-driven edracom և թեստեր։
Impact-ի ավտոսիմուլյացիան, երբ փոխում են սխեմաները/տրամաբանությունները, ակնոցները։
Միասնական կոդավորման վահանակ (կարգավորիչ, հասանելիություն, DQ, lineage)։
17) Չեկ թուղթ մինչև վաճառելը
- Սխեմաները պնդվում են, պայմանագրերը գրանցամատյանում, համատեղելիության թեստերը։
- DQ կանոնները ակտիվ են, ալտերտերը ծրագրավորված են, SLO-ն տեղադրված է։
- RBAC/ABAC: դերերը ստուգված են, մուտքի ամսագրերը ներառված են։
- Պահեստային քաղաքականությունները/105/արխիվները ապացուցված են Legal/DPO-ի կողմից։
- DSAR/RTBF/Legal Hold-ի ընթացակարգերը փաստաթղթավորված և փորձարկվել են։
- Linege/metriks/արժեքը ցուցադրվում է dashbords-ում։
- Runbooks backfill/reprocessing/DR պատրաստ են։
18) Հաճախակի սխալներ և ինչպես խուսափել դրանցից
Չկա միասնական դասակարգում և ստանդարտ 'մուտքագրեք Peter Prott-ի պարտադիր քարտերը։
Հում տվյալները առանց սխեմաների 'schema-first + CI-validation։
Հեռացման բացակայությունը 'նախագծեք TTL-ը և RTBF գործընթացները հենց սկզբից։
PII-ի խառնուրդը և վերլուծաբանները 'պահեք մապինգները առանձին, կիրառեք դիմակավորում։
Gold առանց սեփականատիրոջ և SLO 'նշանակեք owner և թարմ նպատակներ։
Չկառավարվող արժեք 'կուսակցություն, ագրեսիա, tiered-storage, քվոտաներ։
19) Գլոսարիա (հակիրճ)
DSAR/RTBF-ը տվյալների օբյեկտի հարցումն է/հեռացման իրավունքը։
Legal Hold-ը իրավաբանական հիմունքներով մրցույթի սառեցումն է։
Lineage-ը ծագման և փոխակերպման հետքն է։
Direct-ը SLA-ի հետ կառավարվող տվյալների միավորն է։
DQ-ը տվյալների որակի կանոններն ու չափումներն են։
Lakehouse-ը www.lake և ACID աղյուսակների միավորումն է։
20) Արդյունքը
Տվյալների կյանքի ցիկլը պայմանագրերի կառավարվող համակարգ է, ոչ միայն ֆայլերի պահեստ։ Հստակ պայմանագրերը և սխեմաները, դասակարգումը և կատալոգը, չափելի որակը, գաղտնիությունը և անվտանգությունը, տնտեսական պահեստավորման ճարտարապետությունը և թափանցիկ lineage-ը տվյալներ են դարձնում, որոնք աջակցում են ապրանքը, կոմպլանսը և վերլուծությունը առանց անակնկալների և «թաքնված» ռիսկերի։