მონაცემთა წარმოშობა და გზა
1) რა არის Data Lineage
Data Lineage არის მონაცემთა „ცხოვრების ისტორია“: დაბადების ადგილიდან (წყარო) ტრანსფორმაციებისა და გადაცემების საშუალებით, ფანჯრებზე, მოხსენებებზე და მოდელებზე. ხაზოვანი პასუხობს კითხვებს:- საიდან გაჩნდა მონაცემები მოხსენებაში?
- რომელი ცხრილი/ველები იმოქმედებს სქემის ცვლილებაზე?
- რატომ შეიცვალა KPI გუშინ, 21:00 საათზე?
- რა მონაცემები შედის კონკრეტულ მოდელში და ML ვერსიაში?
IGaming- ისთვის ეს კრიტიკულია მარეგულირებლის, ფინანსური ანგარიშგების (GGR/NET), ანტიფროდის, KYC/AML- ის, პასუხისმგებლობის თამაშის და პროდუქციის ცვლილების მაღალი სიჩქარის გამო.
2) ხაზის დონე და მარცვალი
1. ბიზნეს ხაზი არის მეტრიკისა და ბიზნეს ტერმინების კავშირი (გლოსარიუმიდან) ფანჯრებთან/ფორმულებთან.
2. ტექნიკური ხაზი (ფირფიტა) - კავშირები ცხრილებს/ჯობებს/ტრანსფორმაციის პაკეტებს შორის.
3. სვეტი (ველი/სვეტი-ხაზი) - რომელი წყაროს სვეტი ქმნის დანიშნულების სვეტს, წესებით.
4. Runtime ხაზი (ოპერაციული) - ფაქტობრივი გრუნტები: დრო, მოცულობა, კოდის/სქემების ვერსიები, ჰეშის არტეფაქტები.
5. End-to-end - მიმწოდებლისგან/PSP/CRM- დან მოხსენებამდე/დაშბორდის/მოდელის გავლით.
6. Cross-domain/Mesh - კავშირები ხელშეკრულებებით გათვალისწინებული მონაცემთა დომენის პროდუქტებს შორის.
3) მთავარი ღირებულება
ნდობა და აუდიტი: მოხსენებებისა და მოდელების ახსნა, ინციდენტების სწრაფი გამოძიება.
გავლენის ანალიზი: სქემების/ლოგიკის უსაფრთხო ცვლილებები, გამოშვების პროგნოზირება.
ონბორდის სიჩქარე: ახალი ანალიტიკოსები და ინჟინრები უფრო სწრაფად ესმით ლანდშაფტი.
მოთხოვნების დაცვა: PII, Legal Hold კვალიფიკაცია, რეგულატორებისთვის მოხსენებები.
ხარჯების ოპტიმიზაცია: „მკვდარი“ შეღავათების იდენტიფიცირება და სარეზერვო ფანჯრები.
4) ობიექტები და ნივთები
გრაფიკის არსებები: წყარო (თამაშების პროვაიდერი, PSP, CRM), Topic/Stream, Raw/Staging, Bronze/Silver/Gold, DWH, ML ფიჩი, BI მოდელი, დაშბორდი.
კავშირები: ტრანსფორმაციები (SQL/ELT), ჯობი (Airflow/DBT/...), მოდელები (ვერსია), კონტრაქტები (Avro/Proto/JSON Schema).
ატრიბუტები: მფლობელი, დომენი, კლასიფიკაცია, სქემის ვერსია, ხარისხის კონტროლი, სიახლე, SLO/SLI.
5) ხაზის ჭეშმარიტების წყაროები
სტატიკური: SQL/ჩამორთმევის პარსინგი (dbt, ETL), ჩვენ ვქმნით დამოკიდებულებას.
დინამიური/Runtime: მეტამონაცემების შეგროვება შესრულების დროს (ოპერატორი ორკესტრში, query logs).
ღონისძიება: საბურავის შეტყობინებების გამოქვეყნებისას/წაკითხვისას (Kafka/Pulsar), ხელშეკრულებების შესაბამისობა.
სახელმძღვანელო (მინიმალური): რთული ბიზნეს ლოგიკის აღწერა, რომელიც ავტომატურად არ არის ამოღებული.
6) ხაზოვანი და მონაცემთა კონტრაქტები
კონტრაქტი აფიქსირებს სქემას, სემანტიკას და SLA.
თავსებადობის შემოწმება (სემერი) და იდემპოტენტობა სავალდებულოა.
ხაზოვანი ინახავს ხელშეკრულებას/ვერსიას და გადამოწმების ფაქტს (CI/CD + runtime).
7) ხაზოვანი iGaming: დომენის მაგალითები
თამაშის მოვლენები - RTP დანაყოფები, ცვალებადობა, შენარჩუნება, თამაშის შესრულების ოქროს ვიტრინა.
გადახდა/დასკვნები/ჩარჟბეკი - GGR/NET ანგარიშები, ანტიფროდიული სიგნალები.
KYC/AML - სტატუსები, შემოწმებები, ალერტები, შესაბამისობის ფანჯრები და მოხსენებები.
Responsible Gaming - შეზღუდვები/თვითდაზიანება, რისკების შემცირება და ინტერვენციის გამომწვევი მიზეზები.
მარკეტინგი/CRM - კამპანიები, პრემიები, გადაბირება - გავლენა LTV/ARPPU- ზე.
8) გრაფიკის ვიზუალიზაცია
რეკომენდაციები:- ორი რეჟიმი: „ლანდშაფტის ბარათი“ (მაკრო) და „ბილიკი“ (მიკრო) ველიდან ველამდე.
- ფილტრები: დომენის მიხედვით, მეპატრონე, კლასიფიკაცია (PII), გარემო (stage/stage), დრო.
- ოვერლეი: ახალი, მოცულობა, DQ შეცდომები, სქემების ვერსიები.
- სწრაფი მოქმედებები: "აჩვენეთ დამოკიდებული", "ვინ მოიხმარს ამ სვეტს? ""გზა დაშბორდისკენ KPI".
9) გავლენის ანალიზი და ცვლილების მენეჯმენტი
სქემის/ლოგიკის შეცვლამდე დაიწყეთ what-if: რა ჯობი/ფანჯრები/დაშბორდები/მოდელები იმოქმედებს.
ტიკეტების ავტომატური წარმოება დამოკიდებული არტეფაქტების მფლობელებისთვის.
ორმაგი-write/blue-green შაბლონების ნიმუში: v2 პარალელურად ივსება, მეტრული შედარება, გადართვა.
Backfill playbuks: როგორ და რა უნდა გადატვირთოთ ისტორიული მონაცემები, როგორ შეამოწმოთ კომპოზიცია.
10) ხაზოვანი და მონაცემთა ხარისხი (DQ)
დააკავშირეთ DQ წესები გრაფიკის კვანძებთან/სფეროებთან: შესაბამისობა, უნიკალურობა, კოორდინაცია, დროულობა.
დარღვევების შემთხვევაში, აჩვენეთ „წითელი სეგმენტები“ ბილიკებზე და აიღეთ ალერტები მფლობელებს.
შეინახეთ DQ ინციდენტების ისტორია და მათი გავლენა KPI- ზე.
11) ხაზოვანი ML/AI
კვალიფიკაციის ამაღლება: dataset - features - training code - model (ვერსია) - inference.
ჩაწერეთ კომუნები, სასწავლო პარამეტრები, ჩარჩოების ვერსიები, ვალიდაციის მონაცემები.
ხაზოვანი ხელს უწყობს დრიფტის, რეგრესიის მეტრიკის და შედეგების რეპროდუქციას.
12) ხაზოვანი და კონფიდენციალურობა/შესაბამისობა
შეაფასეთ PII/ფინანსური ველები, ქვეყნები, კანონი (GDPR/ადგილობრივი), დამუშავების საფუძველი.
აღნიშნეთ კვანძები, სადაც გამოიყენება შენიღბვა/ფსევდონიმიზაცია/ანონიმიზაცია.
DSAR/Right to forgotten trika- სთვის, რა საგანი არსებობს ფანჯრები/ზურგჩანთები.
13) მეტრიკა (SLO/SLI) ხაზისთვის
Coverage:% ცხრილი/ველები სვეტის ხაზით.
Freshness SLI: SLA განახლების კვანძების წილი.
DQ pass-rate: წარმატებული გადამოწმების წილი კრიტიკულ მარშრუტებზე.
MTTD/MTTR მონაცემთა ინციდენტებისთვის.
Change lead time: საშუალო კოორდინაციის დრო და სქემის უსაფრთხო გამოშვება.
Dead assets: უგულებელყოფილი ფანჯრების/ჯობის წილი.
14) ინსტრუმენტები (კატეგორიები)
Catalog/Glossary/Lineage: ერთი მეტამონაცემების გრაფიკი, იმპორტი SQL/ორკესტრებიდან/საბურავებიდან.
Orchestration: runtime მეტამონაცემების შეგროვება, დავალებების სტატუსი, SLA.
Schema Registry/Contracts: თავსებადობის შემოწმება, ვერსიის პოლიტიკა.
DQ/Observability: წესები, ანომალიები, სიახლე, მოცულობა.
Sec/Access: ეტიკეტები PII, RBAC/ABAC, აუდიტი.
ML Registry: მოდელების, არტეფაქტების და Datasets- ის ვერსია.
15) შაბლონები (გამოსაყენებლად მზად)
15. 1 ხაზის პასპორტი
სახელი/დომენი/გარემო: მფლობელი/სტიუარდი:- კლასიფიკაცია: Public/Internal/Confidential/Restricted (PII)
- წყარო/შესასვლელი: ცხრილები/ტოპები + კონტრაქტების ვერსიები
- ტრანსფორმაცია: SQL/Job/repo + commit
- გასასვლელი/მომხმარებლები: ფანჯრები/დაშბორდები/მოდელები
- სადამკვირვებლო სიგნალები: სიახლე, მოცულობა, ანომალიები
- ინციდენტების ისტორია: ბმულები თიკეტებზე/პოსტ-შურისმაძიებლები
15. 2 საკომუნიკაციო ბარათი
მინდორიდან: სქემა. table. col (ტიპი, nullable)
მინდორში: სქემა. table. col (ტიპი, nullable)
ტრანსფორმაციის წესი: გამოხატულება/ფუნქცია/ლექსიკონი
ხარისხის კონტექსტი: შემოწმება, დიაპაზონი, რეფერენდუმი
15. 3 პლეიბუკი ინციდენტის გამოძიებას
1. KPI/Dashboard დაზარალებული გზის (Upstream) წყაროზე თვალყურის დევნება
2. შეამოწმეთ ახალი/მოცულობა/DQ თითოეულ კვანძზე - 4) იპოვეთ კოდის/სქემის ბოლო ცვლილება
3. შეადარეთ prod/stage/გუშინ - 6) დანიშნეთ ფიქსაცია და backfill (7) Post-mortem და მომავლის წესი.
16) პროცესები და ინტეგრაცია
On-change: რეპოში თითოეული მერგი, რომელიც ცვლის სქემას/SQL, იწყებს ხაზის გადაკეთებას და გავლენის ანალიზს.
On-run: ყველა წარმატებული/ჩავარდნილი ჯობი წერს გრაფიკზე runtime მეტამონაცემებს.
Access-hooks: წვდომის მოთხოვნები აჩვენებს PII და პასუხისმგებელ მფლობელებს.
მთავრობის რიტუალები: კრიტიკული გზების ყოველკვირეული მიმოხილვა, ყოველთვიური ანგარიში SLO- ს შესახებ.
17) საგზაო რუკა
0-30 დღე (MVP)
1. განსაზღვრეთ კრიტიკული KPI/დაშბორდები და მათი დასასრული.
2. დააკავშიროთ პარსინგი SQL/ჯობი ფირფიტის ხაზისთვის.
3. დაიწყეთ კვანძის/საკომუნიკაციო პასპორტი და სიახლის მინიმალური მეტრიკა.
4. აღწერეთ PII ეტიკეტები საკვანძო მარშრუტებში (KYC, გადახდები).
60-90 დღე
1. გადადით column-level- ზე საუკეთესო ფანჯრებისთვის.
2. ორკესტრის რუნტიმის მეტამონაცემების ინტეგრირება (დრო, მოცულობა, სტატუსი).
3. დააკავშირეთ DQ წესები გრაფიკთან, ჩართეთ ალერტები.
4. ვიზუალიზაცია: ფილტრები დომენების/მფლობელების/PII, ახალი ოვერლეები.
3-6 თვე
1. ხელშეკრულებები და სქემების რეესტრი ღონისძიების საბურავზე (თამაშის/გადახდის ფიდები).
2. სრული ML ხაზის ტრეკი (მონაცემები - ფიჩები - მოდელის ინვესტიცია).
3. გავლენის ანალიზი CI- ში არის ავტომატური თიკეტები დამოკიდებულების მფლობელებისთვის.
4. column-level- ის დაფარვა - აქტიური ფანჯრების 70%; SLO ანგარიში.
18) პატერნები და ანტი-ნიმუშები
ნიმუშები:- Graph-first: მეტამონაცემების ერთი გრაფიკი, როგორც ცვლილებების „კომპასი“.
- Contract-aware ხაზი: კავშირი სქემების ვერსიებთან და შესაბამისობის შედეგებთან.
- Observability overlay: ახალი/მოცულობა/DQ გრაფიკის თავზე.
- Product-thinking: დომენის მფლობელები აქვეყნებენ სერტიფიცირებულ „მონაცემთა პროდუქტებს“.
- „სურათი სურათისთვის“ ავტომატური შეგროვებისა და მხარდაჭერის გარეშე.
- სახელმძღვანელო მაინდი პარსინგისა და რუნთიმის ჭეშმარიტების ნაცვლად.
- კრიტიკულ გზებში სვეტის დეტალების არარსებობა KPI.
- ხაზოვანი წვდომის გარეშე/PII და DSAR/Legal Hold პროცესები.
19) პრაქტიკული შემოწმების ფურცლები
მონაცემების შეცვლამდე
- კონტრაქტი განახლდა, თავსებადობის შემოწმება დასრულდა
- დამოკიდებულების გავლენის ანალიზი დასრულდა
- v2 - ვიტრინა შეგროვებულია პარალელურად, მეტრული შედარება
- backfill გეგმა და გამოტოვება დოკუმენტირებულია
ყოველკვირეული მიმოხილვა
- კრიტიკული გზები მწვანეა სიახლის მიხედვით
- არ არსებობს „ობოლი“ ჯობი/ფანჯარა
- DQ ინციდენტები დახურულია და დოკუმენტირებულია
- column-level> სამიზნე ბარიერი
შედეგი
ხაზოვანი ქაოტური მონაცემების ნაკადებს ტერიტორიის კონტროლირებად რუქად აქცევს: ხედავთ, საიდან მოდის, ვინ პასუხობს, რა რისკებს და რამდენად უსაფრთხოა შეცვლა. IGaming- ისთვის ეს არის KPI- ს ნდობის საფუძველი, ექსპერიმენტების სიჩქარე და სექსუალურ კომპოზიციაზე.