ანალიტიკური მონაცემების სინქრონიზაცია
1) რატომ არის ეკოსისტემა ანალიტიკის სინქრონიზაცია
ქსელი აერთიანებს ოპერატორებს, სტუდიებს/RGS, აფილატებს, PSP/APM, KYC/AML პროვაიდერებს და მედიას. ერთიანი სურათის სანახავად (ძაბვები CR - FTD, ARPU/LTV, RG/შესაბამისობა, SLO ტრანსპორტი, ფინანსები/RevShare), ეკოსისტემას სჭირდება კანონიკური, დროული და დადასტურებული მონაცემების სინქრონიზაცია ჯაჭვებსა და ფანჯრებს შორის - „ორი ჭეშმარიტების“ გარეშე, მკაფიქსური ცვლილებების ისტორია და ღირებულების კონტროლი.
2) ონტოლოგია და მონაცემთა კონტრაქტები
Сущности: `eventId`, `traceId`, `participantId`, `role` (operator/studio/affiliate/psp/kyc/stream), `jurisdiction`, `brandId`, `campaignId`, `apmRouteId`, `gameId`, `tableId`, `currency`, `schemaVersion`, `formulaVersion`.
კანონიკური მოვლენები (მინიმალური):- `click`, `session_start`, `registration`, `kyc_status`, `deposit`, `ftd`, `bet/spin`, `reward_granted`, `withdrawal`, `postback_sent/received`, `rg_guardrail_hit`, `stream_sli`.
- სქემები Schema Registry- ში (სემერი, ველების თავსებადობა);
- მფლობელები, აგრეგაციის ფანჯრები, SLA ახალი და სისრულე;
- შეცდომის პოლიტიკა (არაკომერციული/დანამატები), საცნობარო წიგნები (ვალუტები, იდაყვები, RTP პროფილები).
Metric Store: ფორმულების ვერსიები (GGR/NetRev/CR/ARPU/LTV, K- ფაქტორები), მათი მფლობელები და შესვლის თარიღი - ფორმულა ყოველთვის ბრუნავს მოხსენებაში.
3) დროებითი სემანტიკა და ფანჯრები
Event Time vs Processing Time: აგრეგატები უნდა დაეყრდნოს ღონისძიების დროს და არა დამუშავებას.
Watermarks: „გვიანდელი“ მოვლენების გასაკონტროლებლად; დამატებითი პოლიტიკა (მაგალითად, T + 24h).
ფანჯრები: მოცურების/კალენდარული, გადაცემათა კოლოფი დატვირთვის დროს.
შეფერხება, როგორც მეტრიკა: ქვეყნდება 'ingest _ lag' და 'publish _ lag' თითოეული ფანჯრისთვის.
4) ტრანსპორტი და სინქრონიზაციის რეჟიმები
1. CDC/ნაკადი (ნამდვილი დრო):
მოვლენების ავტობუსი (EDA), „TraceID/participantID“ წვეულება;
„ზუსტად ერთხელ მნიშვნელობით“ მომხმარებლებისა და ჰეშის იდემპოტენტურობით;
ზედამხედველი ტოპიკები: ნედლეული მოვლენები, ნორმალიზებული, აგრეგატები/ორაკულები.
2. Butch/mikrobatch:
კადრების პაგინაციით შეჩერებული გადმოტვირთვები (დროებითი/ლოგიკური კურსორები);
ფორმატები: Parquet/Avro სქემით; პარტიის მანიფესტები.
3. API/ვებჰუკი:
'/vN/events 'კურსორებით და' Idempotency-Key ';
ვებჰუკები გაფორმებულია (JWS/HMAC), რეპლიკის რეესტრი, backoff + gitter.
4. Asset-Sink:
საცნობარო წიგნები/ლოკალები/თამაშების კატალოგები, როგორც ვერსირებული ბანდლები (ჰეში, TTL).
5) Idempotence, dedup და გვიანდელი მოვლენები
Idempotency-Key და სხეულის ჰესი კრიტიკულ ბილიკებზე (გადახდები/პოსტბეკები).
დედუპლიკაცია: ფანჯარა ± 5 წუთი/watermark; „ხილული“ ჰეშების შენახვა.
მოგვიანებით მოვლენები: upsert/შემცირების პოლიტიკა; changelog witrin.
Exactly-once ბიზნეს მნიშვნელობის თვალსაზრისით: ჩვენ არ მოვითხოვთ „ბროკერის ჯადოქრობას“, მოვითხოვთ მომხმარებელთა idempotence და სქემების დეტერმინაციას.
6) ატრიბუტისა და ფორმულების კოორდინაცია
ატრიბუტი: ბოლო eligible touch წესი ფანჯრებით არხებით/იურისდიქციებით, ჯვარედინი მოწყობილობებით - მხოლოდ ნიშნების საშუალებით (ნედლეული PDN- ის გარეშე).
მეტრიკის ფორმულები: თითოეული ჩანაწერი ეხება 'Crash Version'; MAJOR ცვლილებები ქვეყნდება, როგორც მოვლენები „მონაცემთა _ formula _ change“.
Backfill წესების შესაბამისად: ფორმულის შეცვლისას ნებადართულია ორმაგი გამოქვეყნება (ძველი/ახალი) გარდამავალ პერიოდში (frozen-period).
7) მონაცემთა Quality: SLI/SLO და კონფორმირების ტესტები
SLI მონაცემთა ხარისხი:- სიახლე (publish _ lag p95),
- სისრულე (მოვლენების წილი სტანდარტში),
- უნიკალურობა (დუბლიკატების წილი),
- კოორდინაცია (ვალუტა/ლოკალი/ID),
- სიზუსტე (მაკონტროლებელი თანხები/ორაკულები),
- დროის ხაზოვანი (დერეფანში გვიანდელი მოვლენები).
- publish _ lag p95-1-5 წმ (ოპერაციული პანელები), 15 წუთი (ფინ. აგრეგატები);
- სისრულე 99. 5% T + 15 წუთში, 99 ევრო. 9% T + 24h;
- დუბლიკატები 0. 1‰; შეუსაბამობა ორაკულთან - 0. 1–0. 3%.
Conformance ტესტები: სქემები, სავალდებულო ველები, საცნობარო წიგნები, ვებჰუკების ხელმოწერები, კადრების გადმოტვირთვის გარეშე.
8) ხაზები, აუდიტი და ორაკულები
ხაზები: ფანჯრიდან/დაშბორდიდან პირველადი კომპლექტებამდე (სქემები/ვერსიები/მფლობელები).
WORM აუდიტი: სქემების/ფორმულების/გასაღებების/გამონაკლისების უცვლელი ჟურნალები.
ორაკულები (ხელმოწერილი ცნობები): GGR/NetRev/SLO/RG ერთად 'hash', 'hash (inputs)', 'kid', 'traceId' არის ჭეშმარიტების წყარო ინვოისებისა და გასაჩივრებისთვის.
საცდელი „სავაჭრო პაკეტები“: SLA 60-90 s P1/P2 ინციდენტებისთვის.
9) კონფიდენციალურობა, ლოკალიზაცია და უსაფრთხოება
PII მინიმიზაცია: tockenization 'playerId', PDN აკრძალვა ლოგოებში/ფანჯრებში, დეტოქსიკაცია მხოლოდ სეიფის ზონებში.
ლოკალიზაცია: იურისდიქციის რუქები (სადაც ჩვენ ვიცავთ/ვამუშავებთ მონაცემთა კლასებს).
Zero Trust: mTLS, მოკლემეტრაჟიანი ნიშნები, egress-allow-list, გასაღების როტაცია/JWKS.
ABAC/ReBAC/SoD: წვდომა „ვხედავ ჩემს და შეთანხმებულ“; „გაზომვა, გავლენა, შეცვლა“.
10) ფინანსური აღრიცხვა და გამოთვლები
კანონი Net Revenue (გამარტივებული):[
NetRev = GGR - BonusCost - Jackpot/PoolShare - PaymentFees - Chargebacks - Tax/Levy - FraudLosses
]
კრეკი:
- კადრების გადმოტვირთვები, „ორები“ (ხელმოწერილი დანაყოფები), საკონტროლო თანხები;
- მეომრების სტატუსები, განსხვავებები და SLA ანალიზები;
- FX წესები, NET7/14/30, Hills და claw backs.
11) სინქრონიზაციის მენეჯმენტი
კარდინალური პოლიტიკოსები: აკრძალვა 'userId '/ნედლეული URL ეტიკეტებში; ნებადართულია 'routeId/campagenId'.
Downsampling/roll-ups: 1с→1м→5м; RAW მონაცემები მოკლედ ცხოვრობენ, აგრეგატები უფრო მეტხანს.
Adaptive sampling ტრეკები: ძირითადი პროცენტი + პრიორიტეტი შეცდომების/ნელი გზების/ახალი ვერსიებისთვის.
SLO-first: ჩვენ აგროვებთ მხოლოდ იმას, რაც მხარს უჭერს გადაწყვეტილებებს (SLO/ფინანსები/RG).
12) დაშბორდის სინქრონიზაცია
Data Sync Overview: publish _ lag, completeness, duplicates, late ratio, schema drift, კონფორმირების შეცდომები.
Attribution Health: პოსტბეკების დროულობა, დედაპლატის ფანჯრები, საკამათო შემთხვევები.
Finance/Oracle: აგრეგატების შეუსაბამობა ორაკულებთან, ინვოისის სტატუსები.
Jurisdiction Map: PDN- ის ლოკალიზაცია/ნაკადები, DPA/DPIA შესაბამისობა.
13) ოპერაციები, ინციდენტები, RCA
ალერტები: სიახლის/სისრულის მიხედვით, სქემების დრიფტი, დუბლიკატების ზრდა.
War-room: მზა playbook საბურავები/webhuk/CDC/witrin; გაჩერების ღილაკები აგრეგაციებისთვის/ფორმულირებისთვის.
RCA „დამნაშავეების ჩხრეკის გარეშე“: ის ფაქტი, რომ ჰიპოთეზა - ექსპერიმენტი, დასკვნა, მოქმედება; post-mortem SLO.
14) ანტი შაბლონები
„ორი ჭეშმარიტება“ მეტრიკის/ფორმულების და შესვლის თარიღების მიხედვით.
ისტორიის ოფსეტური პაგინაცია დატვირთვის ქვეშ (მხოლოდ კურსორები).
ყველი PDn ლოგოებში/ფანჯრებში; ტოკენიზაციის არარსებობა.
პოსტბეკების ზოოპარკი ხელმოწერების გარეშე და იდემპოტენტობა - დუბლი/ხვრელები.
Event/Processing Time აგრეგატებში.
არ არსებობს გვიანდელი მოვლენების watermarks და პოლიტიკა.
ხელით (Excel/სახელმძღვანელო გადმოტვირთვის) კოორდინაცია ორაკულების ნაცვლად.
ერთი დიდი ცხრილი, ეტიკეტის შეუზღუდავი კარდინალობით.
15) ჩეკის ფურცლები
დიზაინი
- ონტოლოგია, სქემა რეგისტრი, მფლობელები, საცნობარო წიგნები.
- Metric Store с `formulaVersion` и frozen-period для MAJOR.
- დროებითი სემანტიკა (ღონისძიების დრო, watermarks), გვიანდელი მოვლენების პოლიტიკა.
- ტრანსპორტი: EDA/CDC, API/webhuks ხელმოწერებით, კურსორები, იდემპოტენტობა.
- Data Quality SLI/SLO, conformance ტესტები, ალერტები.
- Privacy/Localization (DPIA/DPA), Zero Trust, ABAC/ReBAC/SoD.
- ორაკულები და ჩანაწერების წესები.
გაშვება
- ქვიშის ყუთი და დატვირთვა/ავტობუსის ქაოსი/ფანჯრები.
- კანარის სინქრონიზაცია 1% - 5% - 25% - 50% - 100% guardrails- ით.
- დაშბორდები publish _ lag/completeness/duplicates/drift.
- შესვლის ფორმულებისა და თარიღების დოკუმენტაცია; release-notes `data_formula_change`.
ოპერაცია
ყოველკვირეული ანგარიში DQ; SLO/guardrails გადასინჯვა.
- სქემების/ფორმულების/წვდომის ყოველთვიური ჩეინჯოლოგები.
- რეგულარული DR/xaoc ბროკერისთვის/ინგესტორებისთვის/ფანჯრებისთვის.
16) სიმწიფის გზის რუკა
v1 (ფონდი): ერთიანი სქემები, ძირითადი CDC/batch, კურსორები, DQ-SLI, სახელმძღვანელო ჩანართი.
v2 (Integration): watermarks და გვიანდელი მოვლენების პოლიტიკა, ორაკულები, სინქრონიზაციის დაშბორდები, ავტოკატასტროფა ჯიტერთან.
v3 (Automation): ახალი/სისრულის წინასწარი მონიტორინგი, smart-reconciliation, ავტომატური გადაკეთება, ადაპტირებული sampling.
v4 (ქსელის მთავრობა): ორაკულის/ხარისხის სიგნალების ინტერჯგუფური გაცვლა, ფორმულების და გამჭვირვალე ხაზინის DAO წესები.
17) წარმატების მეტრიკა
მონაცემთა ხარისხი: publish _ lag p95, completeness%, duplicate, late%, schema drift.
ერთგვაროვნება: ჩაწერილი '- ვერსიის "ანგარიშების წილი, MAJOR- ის რაოდენობა ინციდენტების გარეშე.
ფინანსები: შეუსაბამობა ორაკულებთან, მანქანის რეკონსტრუქციის წილი, საკამათო <X%.
ოპერაციები: MTTD/MTTR სინქრონიზაციის ინციდენტები, მანქანის გაჩერებების/როლბეკების წილი.
შესაბამისობა: 0 PDN გაჟონვა, წარმატებული DPIA/DPA შემოწმება, WORM ლოგოების ხელმისაწვდომობა 100%.
დაკვირვების ეკონომიკა: Cost-to-Sync rps/event, კარდინალობა.
მოკლე რეზიუმე
ანალიტიკური მონაცემების სინქრონიზაცია არ არის ცხრილების კოპირება, არამედ ნდობისა და დროის პროტოკოლი: სქემებისა და ფორმულების კანონი, ღონისძიების დრო watermarks- ით, კურსორები და idempotence, დედაპლატა და გვიანდელი მოვლენები, DQ-SLO და ორაკულები, კონფიდენციალურობა და ლოკალიზაცია. ამ ჩარჩოს შემდეგ, ეკოსისტემა იღებს ერთ, ახალ და დადასტურებულ ანალიტიკას - საფუძველი სწრაფი გადაწყვეტილებების, გულწრფელი გათვლებით და ქსელის მასშტაბური ზრდისთვის.