GH GambleHub

რეალურ დროში ალერტები

1) მიზანი და პრინციპები

მიზანი: დროულად, ზუსტად და მიზანმიმართულად აცნობოს საჭირო ადამიანებს/სისტემებს SLO- ს, შემოსავალსა და შესაბამისობას საფრთხის წინაშე მყოფი მოვლენების შესახებ და დაიწყოს სწორი მოქმედებები (სახელმძღვანელო/ავტომატური).
პრინციპები: SLO-first, ხმაურის შემცირება, ახსნა, კონტექსტი, ბიზნეს გავლენის პრიორიტეტი, „ერთი სიგნალი - ერთი გასაგები მოქმედება“.


2) სიგნალების ტაქსონომია

SLO სიგნალები: შეცდომების ბიუჯეტის შემცირება კრიტიკულ მარშრუტებზე (ლოგინი, ანაბარი, განაკვეთი, დასკვნა).
KRI: ადრეული რისკის ინდიკატორები (auth-success ვარდნა PSP ბანკში/GEO, ზრდა consumer-lag, p99).
ღონისძიება: დამოკიდებულების ფარები, failover, ხელით გადართვა, დაცვა (rate-limit, WAF).
უსაფრთხოება/შესაბამისობა: მგრძნობიარე ოპერაციების ზრდა, PII ექსპორტი, SoD დარღვევები.


3) დონის და SLA შეტყობინებები

დონემაგალითიარხირეაქციაSLA პირველი პასუხი
P1ანაბრები/განაკვეთები რეგიონში მიუწვდომელია, PII გაჟონვაPager (ზარი/Push), მოვალეობის შემსრულებელი var-rumდაუყოვნებელი ავტო მოქმედებები + on-call5 წუთზე მეტი ხნის წინ
P2P99 ძლიერი დეგრადაცია, PSP პრობლემა ზოგიერთ ბანკშიPager/პრიორიტეტული ჩატიფანჯარაში ჩარევა15 წუთზე მეტი ხნის წინ
P3არსებობს ადგილობრივი დეგრადაცია/გზაChat/tiketდაგეგმილი შესწორება60 წუთი-ზე მეტი
P4შეტყობინებები/ტენდენციებითიკეტი/ფოსტაანალიზი/გეგმაგრაფიკის მიხედვით

4) კონტექსტის წყაროები და კორელაცია

ტელემეტრია: მეტრიკა/ტრეისი/ლოგები, სინთეზური და RUM.
კატალოგები: CMDB/mapa სერვისი, მფლობელები, დამოკიდებულებები.
ცვლილებები: გამოშვებები, ფიჩფლაგები, მიგრაცია, დაგეგმილი სამუშაოები.
გარე პროვაიდერები: PSP/KYC/თამაშის სტუდიები/CDN/WAF სტატუსები.
თითოეული ალერტი გამდიდრდება: რა შეიცვალა იქ? (გამოშვება/ფიჩფლაგი), რა დამოკიდებულებებია წითელ?, რა სეგმენტი იმოქმედებს? (GEO/PSP/ბანკი/ტენანტი).


5) SLO ალერტინგის წესები (ბირთვი)

Burn-rate: ორი ფანჯარა (სწრაფი 1.3 და ნელი 6-24 საათი). პეიჯერი - მხოლოდ ერთდროულად ჭარბი რაოდენობით.
Guardrails: p99/error-rate- ის ბარიერები ემსახურება მხოლოდ კონტექსტური ანალიზის გამომწვევ საშუალებებს, არ შეცვლის SLO.
გავლენიანი: შეფასება „ფულის/წთ × რეგულატორის აუდიტორიის წილი“ - დონე P1-P4.


6) ხმაურის ჩახშობა

დედუპლიკაცია: სამსახური/ტენანტი/მიზეზი; ათობით სიგნალის ნაცვლად ერთი ინციდენტი ჩავატარეთ.
ჰისტერეზი: დადასტურებების N-M, ანომალიის მინიმალური ხანგრძლივობა.
Dawns/Mutts: დაგეგმილი სამუშაოები, ცნობილი ინციდენტები, „follow-the-sun“ ფანჯრები.
Rhite limites და კვოტები: წყარო/ეტიკეტი/ტენანტი; დაცვა „ქარიშხლისგან“.
კარდინალობის დაქვეითება: აკრძალულია userID/sessionID ალერტულ ეტიკეტებში.


7) მარშრუტიზაცია და ესკალაცია

კონტექსტში Routing: დომენი (Payments/Games/Core), გარემოცვა (mish/stage), რეგიონი, სიმძიმე.
ესკალაცია: t0 - on-call L1; t0 + X - L2/დომენის მფლობელი; t0 + Y - IC/სახელმძღვანელო. დრო X/Y დამოკიდებულია P1-P3- ზე.
არხების დუბლირება: pager + chat P1- ზე; Chat/ticket P3- ზე.
ცვლის შეცვლა: კონტექსტის ავტომატური გადაცემა (timeline, შესრულებული მოქმედებები, ჰიპოთეზები).


8) ავტო მოქმედებები (ავტო-რემედიაცია)

გადახდები: PSP გადართვა health × fee × conversion, შეზღუდვა ბანკების/მეთოდების, retray ერთად jitter.
თამაშები/ფსონები: ჩართეთ ქეში-wedge/შეზღუდეთ write ოპერაციები, queue-page/waiting-room წინა მხარეს.
ინფრა: ტრაფიკის ევაკუაცია, დამანგრეველი ვორკერების გადატვირთვა, მასშტაბის მასშტაბები.
უსაფრთხოება/შესაბამისობა: დროებით დახურეთ PII ექსპორტი, შემოიღეთ ორმაგი კონტროლი P1 ოპერაციებისთვის.
ნებისმიერი მანქანის მოქმედება - დაბრუნების პოლიტიკით და დაბრუნების კრიტერიუმებით.


9) პირველი გამოცდილება

თითოეული ალერტი ასოცირდება runbook- სთან: მიზანი, სწრაფი დიაგნოზი (3-5 შემოწმება), ფაქსის/გამოტოვების ნაბიჯები, საკონტაქტო პირები, დაშბორდის ბმულები და სტატუსის გვერდი. ჩეთ რუმში/პეიჯერში ჩვენ ვაჩვენებთ მოკლე მოქმედების ბარათს.


10) პოლიტიკა

როტაცია 24 × 7, დომენის საფარი (Payments/Game Core/SRE).
„მეორე ზარი“ P1- სთვის, ორი ადამიანის წესი Var-rum- ში.
Quiet-hours და მორიგე ფანჯრები ზონებში (follow-the-sun).
ტრენინგი: კვარტალური სწავლებები (tabletop/game-day), shadow ცვლა.
პოსტ-ინციდენტის სესხები (comp-time), რათა არ მოხდეს დამწვრობა.


11) ინტეგრაცია

ინციდენტის მენეჯმენტი: ბარათების შექმნა, აფდეიტის ფირზე, IC/CL- ის როლი, ტაიმერები.
სტატუსის გვერდი: პუბლიკაცია P1/P2 (Comms Lead- ის საშუალებით) შაბლონებითა და ლოკალიზაციით.
გამოშვებები: release-gates SLI, Auto-stop/rollback ალერტებზე.
კატალოგები: მფლობელები, CMDB, პროვაიდერების კონტაქტები.


12) ალერტის მაგალითები (iGaming)

1. Auth-success PSP-1- ში TR- ში 25% -ით 10 წუთში

P2 - P1, როდესაც მოიცავს> 30% გარიგებას.
ავტო მოქმედება: PSP-2/3 ტრაფიკის გადანაწილება; ჩართეთ გამარტივებული 3DS; ალერტის პარტიის მენეჯერი.

2. p99 „განაკვეთი საშუალო“> 3 × ნორმა EU- ში

მიზეზები: რეპლიკაციის lag, ვორკერების რიგი.
ავტო მოქმედება: სკალ-out ქურდები, warmup ქეში, დროებით გამორთეთ არაკრიტიკული ფიჩები.

3. Export PII spikes

P1 თიკეტის/დამტკიცების არარსებობის შემთხვევაში.
ავტო მოქმედება: გადმოტვირთვის განყოფილება, კომუნიკაციის შეტყობინება, SoD შემოწმება.


13) ალერტინგის ხარისხის მეტრიკა (KPI/KRI)

MTTA-Comms/MTTA-Ops: რეაქციის/პირველი მოქმედების დრო.
Precision/Recall (ალერტი - ინციდენტი), False Alarm Rate.
Lead დრო SLO დარღვევამდე, TTD (აღმოჩენის დრო).
Pager fatigue: ალერტები/ადამიანი/კვირა., ღამის გამოწვევები, „დუმების“ პროცენტი.
Auto-fix rate: პრობლემების წილი, რომელიც დახურულია მანქანის რეაქციით პირის გარეშე.
Aging: ჩამოკიდებული P3/P4> X დღის წილი.


14) ღირებულების მენეჯმენტი

ალერტის/წყაროების კვოტები, ჭარბი ეტიკეტების მოწყვეტა.
Downsampling და მეტრიკის აგრეგაცია, ბილიკების ნიმუშები; კლასების რეტენციები.
რეგულარული cost მიმოხილვა: $/ალერტი ,/SLI დაშბორდი, „მძიმე“ სერია.


15) კონფიდენციალურობა და შესაბამისობა

PII- ის გარეშე ალერტებისა და ეტიკეტების ტექსტში; იდენტიფიკატორების ტოქსიკაცია.
წვდომის პოლიტიკოსები (RBAC/ABAC), SoD ალერტის კონფიგურაციაზე.
წესების ცვლილების აუდიტი, ვერსია, ტესტები და ტესტები.


16) განხორციელების გზის რუკა (6-10 კვირა)

ნვე. 1-2: SLI/KRI კატალოგი, მფლობელთა რუკა, P1-P4 დონე, პირველი SLO წესები (burn-rate).
ნვე. 3-4: ბაბუა/ჰისტესეზი/დუმილი, ინციდენტის სისტემასთან ინტეგრაცია და ჩეთები, runbook ლიგატები.
ნვე. 5-6: მანქანები Payments/Queues, release-gates, სტატუსის გვერდი fids.
ნვე. 7-8: კონტექსტები (გამოშვებები/ფიჩფლაგები/პროვაიდერები), PSP × ბანკი × GEO სითბოს ბარათები, P1/P2 სწავლებები.
ნვე. 9-10: FinOps Alerting, KPI Dashboards, ბარიერების და კვოტების გადასინჯვა, en-coll ტრენინგი.


17) არტეფაქტები და შაბლონები

Alert Spec: მეტრიკა/პირობა, ფანჯრები, ჩახშობა, მფლობელი, runbook, ავტო მოქმედებები.
Routing Map: დომენი - ესკალაციის არხი, სარეზერვო კონტაქტები.
Silence Policy: Myut- ის წესები (დაგეგმილი/ცნობილი ინციდენტები), რომლებიც შეიძლება შეიცავდეს.
On-call Handbook: როტაცია, ცვლის შეცვლა, P1/P2 ჩეკის ფურცლები, არხები.
Post-Incident Pack: ალერტების/დროებითი ხაზების გადმოტვირთვა, სიგნალის ხარისხის ანალიზი.


18) ანტიპატერები

პეიჯერი „ნედლეული“ p95/p99 SLO- ს გარეშე არის ხმაური და დაღლილობა.
ათობით სიგნალი ერთსა და იმავეს შესახებ (არ არსებობს ბაბუა/კორელაცია).
runbook- ის ან ალერტის მფლობელის ნაკლებობა.
ბარიერი „ქვაში“ სეზონური/სეგმენტის გარეშე (GEO/PSP/ბანკი/საათი).
მანქანის მოქმედებების შემდეგ დაბრუნების გარეშე (არ არსებობს roll-back კრიტერიუმები).
PII და userId- ის ეტიკეტებმა რისკები და რადიკალური აფეთქება მოახდინეს.


შედეგი

ნამდვილად სასარგებლო ალერტინგი არის SLO-centric კონვეიერი: კონტექსტური წესები burn-rate- ით, ჭკვიანი ხმაურის ჩახშობა, მკაფიო როუტინგი და ესკალაცია, runbook პირველი გამოცდილება და უსაფრთხო მანქანები. ასეთი წრე იჭერს კრიტიკულ მოვლენებს მომხმარებლების წინაშე, ამცირებს MTTR- ს, იცავს შემოსავალს და, ამავე დროს, აფრთხილებს მას „პეიჯერ-ჯოჯოხეთის“ რუტინისგან.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.