GH GambleHub

დაკვირვება და მდგომარეობის კონტროლი

1) მიზნები და პრინციპები

მიზანი: რეალურ დროში იმის გაგება, თუ რა ხდება და რატომ, ინციდენტების თავიდან ასაცილებლად და სწრაფად გამოჯანმრთელებისთვის, SLO- ს დარღვევის გარეშე და OPEX- ის გახსნის გარეშე.
პრინციპები: SLO-first, „ოქროს სიგნალები“ (latence, traffic, errors, saturation), ერთი ტელემეტრიული სტანდარტი (OpenTelemetry), მინიმალური საკმარისი დეტალები, ახსნა, კოდის დაკვირვება.

2) დაკვირვება

1. მეტრიკა: დანაყოფები SLI/SLO, capacity და ტენდენციები (RED/USE მოდელები).
2. ტრეისი: მიზეზობრივი საგამოძიებო შეკითხვა, გადახდა და თამაშის გარიგებები.
3. Logs/Ivents: დეტალური კონტექსტი და ოპერატორების/სერვისების მოქმედებების აუდიტი.
4. სინთეზური (შავი ყუთი): API/ვებ - ბილიკების გარე შემოწმება, PSP/KYC hels pings.
5. RUM (ნამდვილი მომხმარებელი): წინა მეტრიკა (TTFB, LCP, JS შეცდომები), ჭრის გეო/მოწყობილობა.
6. დაბალი დონის ტელემეტრია: eBPF/CPU/IO/alloc პროფილირება, ქსელის პერცენტილის შეფერხება.

3) SLI ნაკრები და ოქროს სიგნალები

Latency: p50/p95/p99 კრიტიკულ მარშრუტებზე (ლოგინი, ანაბარი, ფსონი, დასკვნა).
Errors: წილი 5xx/timeout/decline (პროვაიდერების/ბანკების ნორმალიზაციით).
Traffic/Throughput: RPS/TPS, აქტიური სესიები, მოვლენები/წმ.
Saturation: CPU/RAM/IO დატვირთვა, რიგების სიღრმე, აუზი, გადაკეთება.
ბიზნეს SLI: წარმატებული ანაბრები/განაკვეთები% ფანჯრისთვის, KYC/PSP კონვერტაციის გადახრები, chargeback- ის წილი.

4) ტელემეტრიული არქიტექტურა

სტანდარტიზებული ინჟესტი: OpenTelemetry SDK/collector - ნორმალიზაცია, ნიმუში, კერძო ფილტრები და საცავი (TSDB, ტრეკები, ლოგები).
კორელაცია: trace-id/spans-id ლოგოებში და მეტრიკებში (exemplars); ერთიანი correlation id გადახდები/თამაშის მოვლენებისთვის.
ტოპოლოგია: სამსახურის გრაფიკი, დამოკიდებული გარე პროვაიდერები ცოცხალი SLI- ით.
ღირებულების კონტროლი: გადაკეთების დონე, აგრეგაცია, დინამიური ნიმუში, ცხელი/ცივი შენახვის კლასები.

5) მეტრიკა: დიზაინი და კარდინალი

წესები: ეტიკეტების მცირე რაოდენობა, აკრძალვა მაღალი სტანდარტული (userID, sessionID) დროის სერიებში; ასეთი დეტალები მხოლოდ გზატკეცილზე/ლოგებშია.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors ინფრასტრუქტურისთვის.
Exemplars: მაღალი წინსვლის დაკავშირება კონკრეტულ ტრეკზე.
ბიზნეს მეტრიკა: $/RPS, PSP ბანკების კონვერტაცია/GEO, პროვაიდერების უკმარისობა.

6) ტრეისი: სიღრმე და შუალედი

კონტექსტი: ჩვენ გადავდივართ ტრასის კონტექსტს წინა პლანზე - API - ბროკერები - ვარჯიშები BD/PSP.
სემპლინგი: ძირითადი 1-10%, ანომალიით - წესების დინამიური ზრდა (tail-based).
ფოკუსი: გადახდის ფლეშ (init-auth, capture/settle), თამაშის გარიგებები (bet-settle), KYC (init-verify).
პრეზენტაციები: PSP პასუხის კოდი, Bank-BIN/issuer კატეგორია, რეგიონი, რისკი.

7) ლოგები და აუდიტი

სტრუქტურირებული ლოგოები: JSON, პროფილის დონე (INFO გაყიდვაში, DEBUG გამართვაში).
კონფიდენციალურობის ფილტრები: PII შენიღბვა, ნედლეული KYC დოკუმენტების აკრძალვა ლოგებში.
აუდიტის მოვლენები: ვინ/რა/სად/როდის/რატომ, ID თიკეტი, pre/post მნიშვნელობა მაღალი რისკის ოპერაციებისთვის (პრემია, ლიმიტები, PSP როუტინგი).
შეუსაბამობა: WORM/immutable, ხელმოწერა, პოლიტიკის მიმოხილვა.

8) ჯანმრთელობის კონტროლი

Liveness/Readonness/Startup: სწორი ნიმუშები (არ შეამოწმოთ გარე დამოკიდებულებები liveness- ში).
Degraded mode: სამსახურის დეგრადაციის აშკარა დროშები ისე, რომ ალერტები და სტატუსის გვერდი შეთანხმდნენ.
Budget health: შეცდომების ბიუჯეტის ბურნი (სწრაფი/ნელი ფანჯარა), რესურსებისა და რიგების headroom.

9) ალერტინგი და ადრეული გაფრთხილება

SLO-Alerty: შეცდომების ბიუჯეტი (4-საათიანი და 1-საათიანი ფანჯრები) ნაცვლად „ნედლეული“ p95.
ანომალიები: STL/IQR/ონლაინ დეტექტორები 5xx ადიდებისთვის, PSP ავტორიზაციების ვარდნა კონკრეტულ GEO/ბანკში.
Root-cause hints: ჩვენ ალერტებს ვუკავშირებთ უახლეს გამოშვებებს/ficeflages/დაგეგმილი სამუშაოები.
Runbooks: თითოეულ ალერტს აქვს playbook, გრაფიკა, სწრაფი შემოწმება.

10) დაშბორდი (ვინ ხედავს და რას)

Exec: აფთიაქი/SLO, burn-rate, წარმატებული ანაბრები/განაკვეთები, პროვაიდერების სტატუსი, კონტეინერის პროგნოზი და/RPS.
SRE/პლატფორმა: RED/USE სერვისების, რიგის/lag, pool-usage, რეპლიკა lag, CDN/WAF, eBPF პროფილები.
Payments/Risk: PSP/ბანკების/GEO, soft/hard declines, დრო KYC, chargeback early-signals.
მხარდაჭერა/CS: ინციდენტების სტატუსის პანელი, პასუხების SLA, FAQ მაკროები.

11) FinOps-Observability

Retenshn: 7-14 დღე „ნედლეული“ მარშრუტებისთვის, აგრეგატები უფრო გრძელი; შერჩევით - ცხელი სერვისები.
სამპლინგი/აგრეგაცია: დინამიური სემპლინგი ანომალიებში, ძველი რიგების დაშლა.
Ingest Polytion: მოწყვეტილი ხმაური (Health pings, ჭარბი logs), კვოტები მაღალი კადრების მეტრებისთვის.
KPI ღირებულება: $/GB ingest ,/trace ,/SLI dashbord; ტოპ გამყიდველების პერიოდული შურისძიება.

12) კონფიდენციალურობა და შესაბამისობა

PII/ფინანსები: შენიღბვა, ტოკენიზაცია, მონაცემების მინიმიზაცია ტელემეტრიაში.
გეო-ლოკალიზაცია: იურისდიქციის შენახვა და დამუშავება; ლოგის ექსპორტი - მხოლოდ დამტკიცებული დაშიფვრის workflow- ით და TTL- ით.
ტელემეტრიული წვდომის აუდიტი: RBAC/ABAC, SoD გადმოტვირთვისთვის, მოთხოვნის ჟურნალი.

13) ინტეგრაცია ინციდენტის მენეჯმენტთან და გამოშვებასთან

სტატუსის გვერდი: Apdate- ის ავტომატური ფიდი ინციდენტის ბარათიდან.
გამოშვება კარიბჭე: კანარის ანალიზი SLI- სთვის, გასასვლელი მანქანების გაჩერება burn-rate> ბარიერი.
Post-mortem: ბილიკების/ლოგების დრო, ფაქტობრივი SLI და დარღვევის ფანჯრები.

14) განხორციელების პრაქტიკული ტექნიკა (8-12 კვირა)

ნვე. 1-2: კრიტიკული ბილიკების ინვენტარიზაცია და SLI; დასტის არჩევანი (OTel, TSDB, ლოგოები, ბილიკები); დამოკიდებულების რუკა.
ნვე. 3-4: OTel- ის დანერგვა 3-5 საკვანძო სერვისში (ლოგინი/ანაბარი/განაკვეთი), ძირითადი RED/USE, სავაჭრო კონტექსტი ლოგოებში.
ნვე. 5-6: SLO და burn-rate-alerts; სინთეზური PSP/KYC; პირველი runbooks; RUM ვებ/მობილური.
ნვე. 7-8: დინამიური sempling, exemplars, mapa მომსახურება; დაშბორდები Exec/SRE/Payments.
ნვე. 9-10: eBPF/ცხელი ვიწრო ადგილების პროფილირება; პირადი ფილტრები; კვოტები/რეპეტიციები.
ნვე. 11-12: კარიბჭის გამოშვება და ავტომობილი-როლბაკი SLI- სთვის; სტატუს გვერდთან ინტეგრაცია; tabletop სწავლებები.

15) არტეფაქტების შაბლონები

სერვისის SLO ბარათი: SLI, მიზნები, ფანჯრები, შეცდომების ბიუჯეტი, ალერტები, მფლობელები.
Alert Spec: მეტრიკა/პირობა, ბარიერები, დედაპლატა/დუმილი, მიმღები, runbook.
Dashboard Spec: აუდიტორია, კითხვები, 6-8 ვიჯეტი, მონაცემთა წყარო, განახლების სიხშირე.
Telemetry Policy: რომელი სფეროები მისაღებია/აკრძალულია, რეტენინგი, შენიღბვა, ექსპორტი.
Cost Review Pack: ტოპ სერია/ლოგიკური ნაკადები, ერთჯერადი შეთავაზება/TTL, მოსალოდნელი დაზოგვა.

16) KPI დაკვირვების ფუნქცია

MTTA/MTTR (გაუმჯობესება SLO ალერტინგის შემოღების შემდეგ).
სინთეზის/SLI- ს მიერ აღმოჩენილი ინციდენტების% მომხმარებლების პრეტენზიებამდე.
SLI- ს კარიბჭის გაშვებული გამოშვების წილი ხელით ჩარევის გარეშე.
ტელემეტრიაზე აშშ დოლარის/RPS- ის შემცირება დიაგნოზის შენარჩუნებისას.
კრიტიკული ბილიკების დაფარვა (> 90%).
„სტატუსის განახლება - ფაქტობრივი SLI“ კორელაციის სიზუსტე.

17) ანტიპატერები

„ჩვენ ყველაფერს ვაწარმოებთ“ - ფასის აფეთქება და ხმაური.
ალერტები „ნედლეული“ მეტრიკის ნაცვლად SLO/burn-rate - pager-fatigue.
მეტრიკის (userId) მაღალი კარდინალობა არის TSDB ქარიშხალი.
ბიზნესის კონტექსტის გარეშე ტრეისი (PSP/bank/GEO) არ არის ინსაითი.
არ არსებობს დაკვირვება რელიზებთან/ინციდენტებთან, ტელემეტრია ცალკე ცხოვრობს.

შედეგი

დაკვირვება და სტატუსის კონტროლი არ არის ინსტრუმენტების ერთობლიობა, არამედ კონტროლირებადი სისტემა: რეგულარული SLI/SLO - სტანდარტიზებული ტელემეტრია და კორელაცია SLO-alerting და runbooks- ის კორელაცია, განთავისუფლებისა და სტატუსის კომუნიკაციასთან ინტეგრაცია - cost-aware და კონფიდენციალობა. ასეთი წრე იძლევა ადრეულ სიგნალებს, სწრაფ RCA- ს და ბიზნესის სტაბილურობას ექსტრემალური ტრაფიკის მწვერვალებშიც კი.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

Telegram
@Gamble_GC
ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.