მონაცემთა სასიცოცხლო ციკლი
1) დანიშვნა და პრინციპები
მიზანი: უზრუნველყოს პროგნოზირებადი, კომპოზიციური და ეკონომიური მონაცემთა მოძრაობის უზრუნველყოფა გამოჩენის მომენტიდან მათი საბოლოო ამოღებამდე, ანალიტიკური, ოპერაციული და მარეგულირებელი სცენარების მხარდასაჭერად.
ძირითადი პრინციპები:- Datas a Product: თითოეულ კომპლექტს აქვს მფლობელი, კონტრაქტი, SLO, დოკუმენტაცია.
- Schema-first: სქემები სავალდებულოა; ცვლილებები - ვერსირების გზით.
- Privacy-by-Design: შემცირება PII, ფსევდონიზაცია, რეგიონალური შენახვა.
- Observability-by-Default: მეტრიკა, წვდომის ლოგიკა, ხაზები.
- Cost-aware: შენახვის დონე, TTL, ნიმუში, კომპრესია.
2) სასიცოცხლო ციკლის ფაზები
2. 1 შექმნა და შეგროვება (Create/Collect)
წყაროები: პროდუქტები (ვებ/მობილური), ზურგჩანთები, გადახდები, KYC/AML პროვაიდერები, თამაშები/სტუდიები, მარკეტინგი, ოპერაციული ლოგოები.
იდენტიფიკატორები: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
კონტრაქტები: JSON/Avro სქემები, AsyncAPI/OpenAPI.
შეყვანის ხარისხი: სქემების შესაბამისობა, სავალდებულო ველები, ზომების ლიმიტები, ანტი-დუბლიკატები.
კონფიდენციალურობა: მგრძნობიარე ველების ტოქსიკაცია, ინგესტის გეო-მარშრუტიზაცია (EEA/UK/BR).
2. 2 მიღება და პირველადი შენახვა (Ingest & Raw)
ტრანსპორტი: HTTP/gRPC - Edge საბურავი (Kafka/Redpanda).
Raw ფენა (Bronze): append-only, უცვლელი payload's (საყრდენისთვის), დროის/ბაზრის/ტენანტის განაწილება.
პოლიტიკოსები: დედაპლატი '(event _ id, წყარო)', DLQ „გატეხილი“ მოვლენებისთვის, Legal Hold ეტიკეტები.
2. 3 დამუშავება და გაწმენდა
ნორმალიზაცია (სილვერი): ტიპიზაცია, დედაპლიკაცია, საცნობარო წიგნები, FX/ტაიმზონები, გამდიდრება.
ხარისხი (DQ): სისრულე/უნიკალურობა/დიაპაზონი/რეფერენტი მთლიანობა.
Reprocessing: idempotent კონვეიერები, time-travel, რომელსაც აკონტროლებს backfill.
2. 4 მოხმარება და სერვინგი (Serve/Use)
ოქროს ფანჯრები: BI/ანგარიშგებები (GGR, RG, AML), საკვები და რისკის მოდელები, რეალური დროის ფანჯრები.
წვდომა: SQL/Trino, მეტრის სემანტიკური ფენა, API/GraphQL, Feature Store.
SLA სიახლე: მაგალითად, ოქროს ყოველდღიური ფანჯრები მზად არის ადგილობრივი დროის 06:00 საათამდე.
2. 5 გაცვლა და განაწილება (Share/Publish)
შიდა მომხმარებლები: ანალიტიკა, პროდუქტი, რისკი, შესაბამისობა, მარკეტინგი, ფინანსები.
გარე გადმოტვირთვები: რეგულატორები, პარტნიორები/პროვაიდერები; უცვლელი პაკეტები (PDF/CSV/JSON + hash).
კონტროლირებადი არხები: ხელმოწერილი არტეფაქტები, დატვირთვის/ექსპორტის აუდიტი.
2. 6 არქივი და შენახვა
შენახვის პოლიტიკა: მონაცემთა ტიპებისა და იურისდიქციების მიხედვით (მაგ., მარეგულირებელი - 5-7 წელი).
შენახვის ფენები: ცხელი/warm/cold, WORM/Object Lock უცვლელი.
არქივის ინდექსაცია: კატალოგები, ვერსიების/ბაზრების ეტიკეტები, მეტამონაცემების სწრაფი ძებნა.
2. 7 მოცილება და ფინალი (Dispose)
ჩვეულებრივი მოცილება: TTL/ჭრა; უსაფრთხო გაწმენდა, ინდექსების განახლება.
იურიდიული ოპერაციები: DSAR/RTBF (დავიწყების უფლება), შენახვის სამართლებრივი პასუხისმგებლობის გამონაკლისი, იურიდიული ჰოლდი (მოცილების გაყინვა).
გადამოწმება: მოხსენებები წაშლის შესახებ, აუდიტის ჟურნალი, ჯვარედინი რეპლიკების კონტროლი.
3) კლასიფიკაცია და კატალოგი
მგრძნობელობის კატეგორიები: public/internal/confidential/restricted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
მონაცემთა კატალოგი: აღწერა, მფლობელი, SLA სიახლე, სქემები, ხაზები, წვდომის დონე.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4) Lakehouse მოდელი და სქემები
Bronze/Silver/Gold: ტრანსფორმაციისა და პასუხისმგებლობის მკაფიო წესები.
ფორმატები: Parquet + ფირფიტის ფორმატი ACID- ით (Delta/Iceberg/Hudi).
სქემების ევოლუცია: სემანტიკური ვერსიები, გრძელი თავსებადობა, ორმაგი ჩაწერის მიგრაცია breaking ცვლილებებისთვის.
რეგისტრი: Schema Registry, CI ხელშეკრულებების შესაბამისობა, consumer-driven tests.
5) მონაცემთა ხარისხი (DQ)
ხარისხის მეტრიკა:- Completeness (სისრულე): ფაქტობრივად მიღებული მოვლენების/ხაზების წილი.
- Validity: ჩანაწერების წილი, რომლებმაც გაიარეს სქემა.
- Uniqueness: დუბლიკატების კონტროლი.
- Consistence: შესაბამისობა საცნობარო წიგნებთან და ურთიერთობებთან.
- ფრეშნესი: შემოსავლის/მატერიალიზაციის შეფერხება.
- DQ წესები, როგორც კოდი (YAML/SQL ტესტები), დაშბორდები, SLO ალერტები.
- დეგრადაციის დროს Auto Fallback (ბოლო სწორი მონაკვეთი).
6) კონფიდენციალურობა და შესაბამისობა
PII- ის მინიმიზაცია: ფსევდო-ID- ის შენახვა, მაპინგების იზოლირებულ წრეში გადაყვანა.
შენიღბვა და RLS/CLS: სვეტების/სტრიქონების დონეზე; დინამიური პოლიტიკოსები.
რეგიონალიზაცია: მონაცემთა აღდგენა ბაზრებზე; ცალკეული კატალოგები/დაშიფვრის გასაღებები.
DSAR/RTBF: კონტროლირებადი პროექციები, შერჩევითი რედაქტორები, ემისიების აუდიტი.
Legal Hold: გაყინვის ეტიკეტები, უცვლელი არქივები, დაშვების პროტოკოლი.
7) წვდომა და უსაფრთხოება
ავთენტიფიკაცია/ავტორიზაცია: SSO, RBAC/ABAC, იურისდიქციებისა და როლების ატრიბუტები.
დაშიფვრა: TLS in-transit; at-rest KMS/CMK საშუალებით; კლავიშების როტაცია.
წვდომის ჟურნალები: ვინ/რა/როდის/საიდან; ალერტები მასობრივი ექსპორტისთვის/სკანირებისთვის.
პასუხისმგებლობის გამიჯვნა: სხვადასხვა როლები პროდ/ანალიტიკოსებისთვის/ადმინებისთვის/რევერისთვის.
8) ხაზოვანი (ხაზოვანი) და დაკვირვება
ტექნიკური ხაზები: წყარო - ფანჯრები - მოხსენებები.
ოპერაციული ხაზები: კომუნიკაციები გამოშვებებთან, ფიჩფლაგებთან, მოდელებთან, AML/RG- ის წესებთან.
პლატფორმის მეტრიკა: throughput, lag, failure-rate, cost/query, cost/GB.
ტრეისი: 'trace _ id' პროგრამა ფანჯარაში/alerts.
9) დროისა და რეტროპროცესების მოდელები
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill და reprocessing: idempotent pipeline's, time-travel, „ორმაგი აღრიცხვის“ კონტროლი.
სახელმწიფოების შენარჩუნება: TTL, Snaphots, აღდგენა წარუმატებლობის შემდეგ.
10) ეკონომიკა და კოდირების კონტროლი
განაწილება (თარიღი/ბაზარი/ტენანტი), კლასტერიზაცია/Z-ordering.
მაღალი სიხშირის ანალიტიკის ნიმუშები (არა გარიგების/შესაბამისობისთვის).
მრავალ ფენიანი შენახვა (ცხელი/warm/cold), ავტომატური TTL.
Budget/chargeback გუნდებისთვის, მძიმე მოთხოვნების შეზღუდვები და backfill.
11) პროცესები და RACI
R (Responsible): Data Platform (ingest/საცავი/ორკესტრი), Data Engineering (ტრანსფორმაციები), დომენის მფლობელები (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): კომპლექსი/ლეგალური/DPO, არქიტექტურა, SRE, უსაფრთხოება.
I (ინფორმირებული): BI/პროდუქტი/მარკეტინგი/ფინანსები/ოპერაციები.
12) SLO/SLI (სავარაუდო მიზნები)
13) დაშბორდი
ახალი თერმული ბარათი დომენების/ბაზრების მიხედვით.
Completeness/Validity ნაკადები.
შენახვისა და მოთხოვნის ღირებულება (ფენებისა და ბრძანებების მიხედვით).
ხაზის რუკა კრიტიკული მოხსენებისთვის (მარეგულირებელი, GGR, RG/AML).
ხაზები DSAR/RTBF, Legal Hold სტატუსები.
14) შენახვის პოლიტიკის შაბლონები (მაგალითი)
ფაქტობრივი ვადები განისაზღვრება ლეგალური/DPO და ადგილობრივი კანონით.
15) დოკუმენტაცია და სტანდარტები
მონაცემთა წარმოება: მფლობელი, დანიშნულება, SLA, სქემები, DQ წესები, კონტაქტები.
Change log: სქემების/ლოგიკის ვერსიები, გავლენა (impact analysis), მიგრაცია.
Runbooks: reprocessing, backfill, გადაუდებელი სცენარები, ფრიზის ღილაკი.
16) გზის განხორციელების რუკა
MVP (4-6 კვირა):1. მონაცემთა კატალოგი და კლასიფიკაცია (ტოპ დომენები), ძირითადი სქემები და რეესტრი.
2. Lakehouse Bronze/Silver, ინვესტიცია მოქმედი და ბაბუით.
3. 1-2 ოქროს ფანჯარა (მაგალითად, GGR და კონვერტაცია).
4. მინიმალური DQ წესები და Freshness/Completeness დაშბორდი.
5. შენახვის პოლიტიკა და RBAC წვდომისთვის.
ეტაპი 2 (6-12 კვირა):- Linege, მეტრიკის სემანტიკური ფენა, DSAR/RTBF პროცედურები.
- რეგიონალიზაცია (EEA/UK), WORM მარეგულირებელი არტეფაქტებისთვის, იურიდიული ჰოლდი.
- ღირებულების ოპტიმიზაცია, SLO ალერტები, ბიუჯეტის ანგარიშგება.
- Data Mesh (დომენის პროდუქტები), consumer-driven კონტრაქტები და ტესტები.
- impact- ის ავტომატური სიმულაცია სქემების/ლოგიკის, რეპლიკების შეცვლისას.
- შესაბამისობის ერთიანი პანელი (მარეგულირებელი, წვდომა, DQ, ხაზოვანი).
17) ჩეკის სია გაყიდვამდე
- დამტკიცებულია სქემები, რეესტრში კონტრაქტები, თავსებადობის ტესტები.
- DQ წესები აქტიურია, ალერტები კონფიგურირებულია, SLO მოცემულია.
- RBAC/ABAC: როლები შემოწმებულია, წვდომის ჟურნალები შედის.
- შენახვის/მოცილების/არქივის პოლიტიკა დადასტურებულია Legal/DPO.
- DSAR/RTBF/Legal Hold პროცედურები დოკუმენტირებულია და ტესტირებულია.
- Linege/მეტრიკა/ღირებულება ნაჩვენებია დაშბორდში.
- Runbooks backfill/reprocessing/DR მზად არის.
18) ხშირი შეცდომები და როგორ მოვერიდოთ მათ
არ არსებობს ერთიანი კლასიფიკაცია და კატალოგები: შეიყვანეთ Data Product სავალდებულო ბარათები.
ნედლეული მონაცემები სქემების გარეშე: schema-first + CI სავალდებულო.
მოცილების ნაკლებობა: შეიმუშავეთ TTL და RTBF პროცესები თავიდანვე.
PII ნაზავი და ანალიტიკოსები: შეინახეთ მაპინგები ცალკე, გამოიყენეთ შენიღბვა.
ოქრო მფლობელის გარეშე და SLO: დანიშნეთ owner და სიახლის მიზნები.
უკონტროლო ღირებულება: წვეულებები, კომპრესია, tiered-storage, კვოტები.
19) გლოსარიუმი (მოკლედ)
DSAR/RTBF - მონაცემთა სუბიექტის მოთხოვნა/მოხსნის უფლება.
Legal Hold - იურიდიული საფუძველზე მოცილების გაყინვა.
ხაზები - წარმოშობისა და ტრანსფორმაციების კვალი.
Data Product არის კონტროლირებადი პროდუქტის ერთეული SLA- სთან.
DQ - მონაცემთა ხარისხის წესები და მეტრიკა.
Lakehouse არის მონაცემთა ლაიქისა და ACID ცხრილების ასოციაცია.
20) შედეგი
მონაცემთა სასიცოცხლო ციკლი არის შეთანხმებების კონტროლირებადი სისტემა და არა მხოლოდ ფაილების საწყობი. მკაფიო კონტრაქტები და სქემები, კლასიფიკაცია და კატალოგი, გაზომილი ხარისხი, კონფიდენციალურობა და უსაფრთხოება, ეკონომიკური შენახვის არქიტექტურა და გამჭვირვალე ხაზები მონაცემებს საიმედო აქტივად აქცევს, რომელიც მხარს უჭერს პროდუქტს, შესაბამისობას და ანალიტიკას სიურპრიზებისა და „ფარული“ რისკების გარეშე.