დაკვირვება და მდგომარეობის კონტროლი
1) მიზნები და პრინციპები
მიზანი: რეალურ დროში იმის გაგება, თუ რა ხდება და რატომ, ინციდენტების თავიდან ასაცილებლად და სწრაფად გამოჯანმრთელებისთვის, SLO- ს დარღვევის გარეშე და OPEX- ის გახსნის გარეშე.
პრინციპები: SLO-first, „ოქროს სიგნალები“ (latence, traffic, errors, saturation), ერთი ტელემეტრიული სტანდარტი (OpenTelemetry), მინიმალური საკმარისი დეტალები, ახსნა, კოდის დაკვირვება.
2) დაკვირვება
1. მეტრიკა: დანაყოფები SLI/SLO, capacity და ტენდენციები (RED/USE მოდელები).
2. ტრეისი: მიზეზობრივი საგამოძიებო შეკითხვა, გადახდა და თამაშის გარიგებები.
3. Logs/Ivents: დეტალური კონტექსტი და ოპერატორების/სერვისების მოქმედებების აუდიტი.
4. სინთეზური (შავი ყუთი): API/ვებ - ბილიკების გარე შემოწმება, PSP/KYC hels pings.
5. RUM (ნამდვილი მომხმარებელი): წინა მეტრიკა (TTFB, LCP, JS შეცდომები), ჭრის გეო/მოწყობილობა.
6. დაბალი დონის ტელემეტრია: eBPF/CPU/IO/alloc პროფილირება, ქსელის პერცენტილის შეფერხება.
3) SLI ნაკრები და ოქროს სიგნალები
Latency: p50/p95/p99 კრიტიკულ მარშრუტებზე (ლოგინი, ანაბარი, ფსონი, დასკვნა).
Errors: წილი 5xx/timeout/decline (პროვაიდერების/ბანკების ნორმალიზაციით).
Traffic/Throughput: RPS/TPS, აქტიური სესიები, მოვლენები/წმ.
Saturation: CPU/RAM/IO დატვირთვა, რიგების სიღრმე, აუზი, გადაკეთება.
ბიზნეს SLI: წარმატებული ანაბრები/განაკვეთები% ფანჯრისთვის, KYC/PSP კონვერტაციის გადახრები, chargeback- ის წილი.
4) ტელემეტრიული არქიტექტურა
სტანდარტიზებული ინჟესტი: OpenTelemetry SDK/collector - ნორმალიზაცია, ნიმუში, კერძო ფილტრები და საცავი (TSDB, ტრეკები, ლოგები).
კორელაცია: trace-id/spans-id ლოგოებში და მეტრიკებში (exemplars); ერთიანი correlation id გადახდები/თამაშის მოვლენებისთვის.
ტოპოლოგია: სამსახურის გრაფიკი, დამოკიდებული გარე პროვაიდერები ცოცხალი SLI- ით.
ღირებულების კონტროლი: გადაკეთების დონე, აგრეგაცია, დინამიური ნიმუში, ცხელი/ცივი შენახვის კლასები.
5) მეტრიკა: დიზაინი და კარდინალი
წესები: ეტიკეტების მცირე რაოდენობა, აკრძალვა მაღალი სტანდარტული (userID, sessionID) დროის სერიებში; ასეთი დეტალები მხოლოდ გზატკეცილზე/ლოგებშია.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors ინფრასტრუქტურისთვის.
Exemplars: მაღალი წინსვლის დაკავშირება კონკრეტულ ტრეკზე.
ბიზნეს მეტრიკა: $/RPS, PSP ბანკების კონვერტაცია/GEO, პროვაიდერების უკმარისობა.
6) ტრეისი: სიღრმე და შუალედი
კონტექსტი: ჩვენ გადავდივართ ტრასის კონტექსტს წინა პლანზე - API - ბროკერები - ვარჯიშები BD/PSP.
სემპლინგი: ძირითადი 1-10%, ანომალიით - წესების დინამიური ზრდა (tail-based).
ფოკუსი: გადახდის ფლეშ (init-auth, capture/settle), თამაშის გარიგებები (bet-settle), KYC (init-verify).
პრეზენტაციები: PSP პასუხის კოდი, Bank-BIN/issuer კატეგორია, რეგიონი, რისკი.
7) ლოგები და აუდიტი
სტრუქტურირებული ლოგოები: JSON, პროფილის დონე (INFO გაყიდვაში, DEBUG გამართვაში).
კონფიდენციალურობის ფილტრები: PII შენიღბვა, ნედლეული KYC დოკუმენტების აკრძალვა ლოგებში.
აუდიტის მოვლენები: ვინ/რა/სად/როდის/რატომ, ID თიკეტი, pre/post მნიშვნელობა მაღალი რისკის ოპერაციებისთვის (პრემია, ლიმიტები, PSP როუტინგი).
შეუსაბამობა: WORM/immutable, ხელმოწერა, პოლიტიკის მიმოხილვა.
8) ჯანმრთელობის კონტროლი
Liveness/Readonness/Startup: სწორი ნიმუშები (არ შეამოწმოთ გარე დამოკიდებულებები liveness- ში).
Degraded mode: სამსახურის დეგრადაციის აშკარა დროშები ისე, რომ ალერტები და სტატუსის გვერდი შეთანხმდნენ.
Budget health: შეცდომების ბიუჯეტის ბურნი (სწრაფი/ნელი ფანჯარა), რესურსებისა და რიგების headroom.
9) ალერტინგი და ადრეული გაფრთხილება
SLO-Alerty: შეცდომების ბიუჯეტი (4-საათიანი და 1-საათიანი ფანჯრები) ნაცვლად „ნედლეული“ p95.
ანომალიები: STL/IQR/ონლაინ დეტექტორები 5xx ადიდებისთვის, PSP ავტორიზაციების ვარდნა კონკრეტულ GEO/ბანკში.
Root-cause hints: ჩვენ ალერტებს ვუკავშირებთ უახლეს გამოშვებებს/ficeflages/დაგეგმილი სამუშაოები.
Runbooks: თითოეულ ალერტს აქვს playbook, გრაფიკა, სწრაფი შემოწმება.
10) დაშბორდი (ვინ ხედავს და რას)
Exec: აფთიაქი/SLO, burn-rate, წარმატებული ანაბრები/განაკვეთები, პროვაიდერების სტატუსი, კონტეინერის პროგნოზი და/RPS.
SRE/პლატფორმა: RED/USE სერვისების, რიგის/lag, pool-usage, რეპლიკა lag, CDN/WAF, eBPF პროფილები.
Payments/Risk: PSP/ბანკების/GEO, soft/hard declines, დრო KYC, chargeback early-signals.
მხარდაჭერა/CS: ინციდენტების სტატუსის პანელი, პასუხების SLA, FAQ მაკროები.
11) FinOps-Observability
Retenshn: 7-14 დღე „ნედლეული“ მარშრუტებისთვის, აგრეგატები უფრო გრძელი; შერჩევით - ცხელი სერვისები.
სამპლინგი/აგრეგაცია: დინამიური სემპლინგი ანომალიებში, ძველი რიგების დაშლა.
Ingest Polytion: მოწყვეტილი ხმაური (Health pings, ჭარბი logs), კვოტები მაღალი კადრების მეტრებისთვის.
KPI ღირებულება: $/GB ingest ,/trace ,/SLI dashbord; ტოპ გამყიდველების პერიოდული შურისძიება.
12) კონფიდენციალურობა და შესაბამისობა
PII/ფინანსები: შენიღბვა, ტოკენიზაცია, მონაცემების მინიმიზაცია ტელემეტრიაში.
გეო-ლოკალიზაცია: იურისდიქციის შენახვა და დამუშავება; ლოგის ექსპორტი - მხოლოდ დამტკიცებული დაშიფვრის workflow- ით და TTL- ით.
ტელემეტრიული წვდომის აუდიტი: RBAC/ABAC, SoD გადმოტვირთვისთვის, მოთხოვნის ჟურნალი.
13) ინტეგრაცია ინციდენტის მენეჯმენტთან და გამოშვებასთან
სტატუსის გვერდი: Apdate- ის ავტომატური ფიდი ინციდენტის ბარათიდან.
გამოშვება კარიბჭე: კანარის ანალიზი SLI- სთვის, გასასვლელი მანქანების გაჩერება burn-rate> ბარიერი.
Post-mortem: ბილიკების/ლოგების დრო, ფაქტობრივი SLI და დარღვევის ფანჯრები.
14) განხორციელების პრაქტიკული ტექნიკა (8-12 კვირა)
ნვე. 1-2: კრიტიკული ბილიკების ინვენტარიზაცია და SLI; დასტის არჩევანი (OTel, TSDB, ლოგოები, ბილიკები); დამოკიდებულების რუკა.
ნვე. 3-4: OTel- ის დანერგვა 3-5 საკვანძო სერვისში (ლოგინი/ანაბარი/განაკვეთი), ძირითადი RED/USE, სავაჭრო კონტექსტი ლოგოებში.
ნვე. 5-6: SLO და burn-rate-alerts; სინთეზური PSP/KYC; პირველი runbooks; RUM ვებ/მობილური.
ნვე. 7-8: დინამიური sempling, exemplars, mapa მომსახურება; დაშბორდები Exec/SRE/Payments.
ნვე. 9-10: eBPF/ცხელი ვიწრო ადგილების პროფილირება; პირადი ფილტრები; კვოტები/რეპეტიციები.
ნვე. 11-12: კარიბჭის გამოშვება და ავტომობილი-როლბაკი SLI- სთვის; სტატუს გვერდთან ინტეგრაცია; tabletop სწავლებები.
15) არტეფაქტების შაბლონები
სერვისის SLO ბარათი: SLI, მიზნები, ფანჯრები, შეცდომების ბიუჯეტი, ალერტები, მფლობელები.
Alert Spec: მეტრიკა/პირობა, ბარიერები, დედაპლატა/დუმილი, მიმღები, runbook.
Dashboard Spec: აუდიტორია, კითხვები, 6-8 ვიჯეტი, მონაცემთა წყარო, განახლების სიხშირე.
Telemetry Policy: რომელი სფეროები მისაღებია/აკრძალულია, რეტენინგი, შენიღბვა, ექსპორტი.
Cost Review Pack: ტოპ სერია/ლოგიკური ნაკადები, ერთჯერადი შეთავაზება/TTL, მოსალოდნელი დაზოგვა.
16) KPI დაკვირვების ფუნქცია
MTTA/MTTR (გაუმჯობესება SLO ალერტინგის შემოღების შემდეგ).
სინთეზის/SLI- ს მიერ აღმოჩენილი ინციდენტების% მომხმარებლების პრეტენზიებამდე.
SLI- ს კარიბჭის გაშვებული გამოშვების წილი ხელით ჩარევის გარეშე.
ტელემეტრიაზე აშშ დოლარის/RPS- ის შემცირება დიაგნოზის შენარჩუნებისას.
კრიტიკული ბილიკების დაფარვა (> 90%).
„სტატუსის განახლება - ფაქტობრივი SLI“ კორელაციის სიზუსტე.
17) ანტიპატერები
„ჩვენ ყველაფერს ვაწარმოებთ“ - ფასის აფეთქება და ხმაური.
ალერტები „ნედლეული“ მეტრიკის ნაცვლად SLO/burn-rate - pager-fatigue.
მეტრიკის (userId) მაღალი კარდინალობა არის TSDB ქარიშხალი.
ბიზნესის კონტექსტის გარეშე ტრეისი (PSP/bank/GEO) არ არის ინსაითი.
არ არსებობს დაკვირვება რელიზებთან/ინციდენტებთან, ტელემეტრია ცალკე ცხოვრობს.
შედეგი
დაკვირვება და სტატუსის კონტროლი არ არის ინსტრუმენტების ერთობლიობა, არამედ კონტროლირებადი სისტემა: რეგულარული SLI/SLO - სტანდარტიზებული ტელემეტრია და კორელაცია SLO-alerting და runbooks- ის კორელაცია, განთავისუფლებისა და სტატუსის კომუნიკაციასთან ინტეგრაცია - cost-aware და კონფიდენციალობა. ასეთი წრე იძლევა ადრეულ სიგნალებს, სწრაფ RCA- ს და ბიზნესის სტაბილურობას ექსტრემალური ტრაფიკის მწვერვალებშიც კი.