რეალურ დროში ალერტები
1) მიზანი და პრინციპები
მიზანი: დროულად, ზუსტად და მიზანმიმართულად აცნობოს საჭირო ადამიანებს/სისტემებს SLO- ს, შემოსავალსა და შესაბამისობას საფრთხის წინაშე მყოფი მოვლენების შესახებ და დაიწყოს სწორი მოქმედებები (სახელმძღვანელო/ავტომატური).
პრინციპები: SLO-first, ხმაურის შემცირება, ახსნა, კონტექსტი, ბიზნეს გავლენის პრიორიტეტი, „ერთი სიგნალი - ერთი გასაგები მოქმედება“.
2) სიგნალების ტაქსონომია
SLO სიგნალები: შეცდომების ბიუჯეტის შემცირება კრიტიკულ მარშრუტებზე (ლოგინი, ანაბარი, განაკვეთი, დასკვნა).
KRI: ადრეული რისკის ინდიკატორები (auth-success ვარდნა PSP ბანკში/GEO, ზრდა consumer-lag, p99).
ღონისძიება: დამოკიდებულების ფარები, failover, ხელით გადართვა, დაცვა (rate-limit, WAF).
უსაფრთხოება/შესაბამისობა: მგრძნობიარე ოპერაციების ზრდა, PII ექსპორტი, SoD დარღვევები.
3) დონის და SLA შეტყობინებები
4) კონტექსტის წყაროები და კორელაცია
ტელემეტრია: მეტრიკა/ტრეისი/ლოგები, სინთეზური და RUM.
კატალოგები: CMDB/mapa სერვისი, მფლობელები, დამოკიდებულებები.
ცვლილებები: გამოშვებები, ფიჩფლაგები, მიგრაცია, დაგეგმილი სამუშაოები.
გარე პროვაიდერები: PSP/KYC/თამაშის სტუდიები/CDN/WAF სტატუსები.
თითოეული ალერტი გამდიდრდება: რა შეიცვალა იქ? (გამოშვება/ფიჩფლაგი), რა დამოკიდებულებებია წითელ?, რა სეგმენტი იმოქმედებს? (GEO/PSP/ბანკი/ტენანტი).
5) SLO ალერტინგის წესები (ბირთვი)
Burn-rate: ორი ფანჯარა (სწრაფი 1.3 და ნელი 6-24 საათი). პეიჯერი - მხოლოდ ერთდროულად ჭარბი რაოდენობით.
Guardrails: p99/error-rate- ის ბარიერები ემსახურება მხოლოდ კონტექსტური ანალიზის გამომწვევ საშუალებებს, არ შეცვლის SLO.
გავლენიანი: შეფასება „ფულის/წთ × რეგულატორის აუდიტორიის წილი“ - დონე P1-P4.
6) ხმაურის ჩახშობა
დედუპლიკაცია: სამსახური/ტენანტი/მიზეზი; ათობით სიგნალის ნაცვლად ერთი ინციდენტი ჩავატარეთ.
ჰისტერეზი: დადასტურებების N-M, ანომალიის მინიმალური ხანგრძლივობა.
Dawns/Mutts: დაგეგმილი სამუშაოები, ცნობილი ინციდენტები, „follow-the-sun“ ფანჯრები.
Rhite limites და კვოტები: წყარო/ეტიკეტი/ტენანტი; დაცვა „ქარიშხლისგან“.
კარდინალობის დაქვეითება: აკრძალულია userID/sessionID ალერტულ ეტიკეტებში.
7) მარშრუტიზაცია და ესკალაცია
კონტექსტში Routing: დომენი (Payments/Games/Core), გარემოცვა (mish/stage), რეგიონი, სიმძიმე.
ესკალაცია: t0 - on-call L1; t0 + X - L2/დომენის მფლობელი; t0 + Y - IC/სახელმძღვანელო. დრო X/Y დამოკიდებულია P1-P3- ზე.
არხების დუბლირება: pager + chat P1- ზე; Chat/ticket P3- ზე.
ცვლის შეცვლა: კონტექსტის ავტომატური გადაცემა (timeline, შესრულებული მოქმედებები, ჰიპოთეზები).
8) ავტო მოქმედებები (ავტო-რემედიაცია)
გადახდები: PSP გადართვა health × fee × conversion, შეზღუდვა ბანკების/მეთოდების, retray ერთად jitter.
თამაშები/ფსონები: ჩართეთ ქეში-wedge/შეზღუდეთ write ოპერაციები, queue-page/waiting-room წინა მხარეს.
ინფრა: ტრაფიკის ევაკუაცია, დამანგრეველი ვორკერების გადატვირთვა, მასშტაბის მასშტაბები.
უსაფრთხოება/შესაბამისობა: დროებით დახურეთ PII ექსპორტი, შემოიღეთ ორმაგი კონტროლი P1 ოპერაციებისთვის.
ნებისმიერი მანქანის მოქმედება - დაბრუნების პოლიტიკით და დაბრუნების კრიტერიუმებით.
9) პირველი გამოცდილება
თითოეული ალერტი ასოცირდება runbook- სთან: მიზანი, სწრაფი დიაგნოზი (3-5 შემოწმება), ფაქსის/გამოტოვების ნაბიჯები, საკონტაქტო პირები, დაშბორდის ბმულები და სტატუსის გვერდი. ჩეთ რუმში/პეიჯერში ჩვენ ვაჩვენებთ მოკლე მოქმედების ბარათს.
10) პოლიტიკა
როტაცია 24 × 7, დომენის საფარი (Payments/Game Core/SRE).
„მეორე ზარი“ P1- სთვის, ორი ადამიანის წესი Var-rum- ში.
Quiet-hours და მორიგე ფანჯრები ზონებში (follow-the-sun).
ტრენინგი: კვარტალური სწავლებები (tabletop/game-day), shadow ცვლა.
პოსტ-ინციდენტის სესხები (comp-time), რათა არ მოხდეს დამწვრობა.
11) ინტეგრაცია
ინციდენტის მენეჯმენტი: ბარათების შექმნა, აფდეიტის ფირზე, IC/CL- ის როლი, ტაიმერები.
სტატუსის გვერდი: პუბლიკაცია P1/P2 (Comms Lead- ის საშუალებით) შაბლონებითა და ლოკალიზაციით.
გამოშვებები: release-gates SLI, Auto-stop/rollback ალერტებზე.
კატალოგები: მფლობელები, CMDB, პროვაიდერების კონტაქტები.
12) ალერტის მაგალითები (iGaming)
1. Auth-success PSP-1- ში TR- ში 25% -ით 10 წუთში
P2 - P1, როდესაც მოიცავს> 30% გარიგებას.
ავტო მოქმედება: PSP-2/3 ტრაფიკის გადანაწილება; ჩართეთ გამარტივებული 3DS; ალერტის პარტიის მენეჯერი.
2. p99 „განაკვეთი საშუალო“> 3 × ნორმა EU- ში
მიზეზები: რეპლიკაციის lag, ვორკერების რიგი.
ავტო მოქმედება: სკალ-out ქურდები, warmup ქეში, დროებით გამორთეთ არაკრიტიკული ფიჩები.
3. Export PII spikes
P1 თიკეტის/დამტკიცების არარსებობის შემთხვევაში.
ავტო მოქმედება: გადმოტვირთვის განყოფილება, კომუნიკაციის შეტყობინება, SoD შემოწმება.
13) ალერტინგის ხარისხის მეტრიკა (KPI/KRI)
MTTA-Comms/MTTA-Ops: რეაქციის/პირველი მოქმედების დრო.
Precision/Recall (ალერტი - ინციდენტი), False Alarm Rate.
Lead დრო SLO დარღვევამდე, TTD (აღმოჩენის დრო).
Pager fatigue: ალერტები/ადამიანი/კვირა., ღამის გამოწვევები, „დუმების“ პროცენტი.
Auto-fix rate: პრობლემების წილი, რომელიც დახურულია მანქანის რეაქციით პირის გარეშე.
Aging: ჩამოკიდებული P3/P4> X დღის წილი.
14) ღირებულების მენეჯმენტი
ალერტის/წყაროების კვოტები, ჭარბი ეტიკეტების მოწყვეტა.
Downsampling და მეტრიკის აგრეგაცია, ბილიკების ნიმუშები; კლასების რეტენციები.
რეგულარული cost მიმოხილვა: $/ალერტი ,/SLI დაშბორდი, „მძიმე“ სერია.
15) კონფიდენციალურობა და შესაბამისობა
PII- ის გარეშე ალერტებისა და ეტიკეტების ტექსტში; იდენტიფიკატორების ტოქსიკაცია.
წვდომის პოლიტიკოსები (RBAC/ABAC), SoD ალერტის კონფიგურაციაზე.
წესების ცვლილების აუდიტი, ვერსია, ტესტები და ტესტები.
16) განხორციელების გზის რუკა (6-10 კვირა)
ნვე. 1-2: SLI/KRI კატალოგი, მფლობელთა რუკა, P1-P4 დონე, პირველი SLO წესები (burn-rate).
ნვე. 3-4: ბაბუა/ჰისტესეზი/დუმილი, ინციდენტის სისტემასთან ინტეგრაცია და ჩეთები, runbook ლიგატები.
ნვე. 5-6: მანქანები Payments/Queues, release-gates, სტატუსის გვერდი fids.
ნვე. 7-8: კონტექსტები (გამოშვებები/ფიჩფლაგები/პროვაიდერები), PSP × ბანკი × GEO სითბოს ბარათები, P1/P2 სწავლებები.
ნვე. 9-10: FinOps Alerting, KPI Dashboards, ბარიერების და კვოტების გადასინჯვა, en-coll ტრენინგი.
17) არტეფაქტები და შაბლონები
Alert Spec: მეტრიკა/პირობა, ფანჯრები, ჩახშობა, მფლობელი, runbook, ავტო მოქმედებები.
Routing Map: დომენი - ესკალაციის არხი, სარეზერვო კონტაქტები.
Silence Policy: Myut- ის წესები (დაგეგმილი/ცნობილი ინციდენტები), რომლებიც შეიძლება შეიცავდეს.
On-call Handbook: როტაცია, ცვლის შეცვლა, P1/P2 ჩეკის ფურცლები, არხები.
Post-Incident Pack: ალერტების/დროებითი ხაზების გადმოტვირთვა, სიგნალის ხარისხის ანალიზი.
18) ანტიპატერები
პეიჯერი „ნედლეული“ p95/p99 SLO- ს გარეშე არის ხმაური და დაღლილობა.
ათობით სიგნალი ერთსა და იმავეს შესახებ (არ არსებობს ბაბუა/კორელაცია).
runbook- ის ან ალერტის მფლობელის ნაკლებობა.
ბარიერი „ქვაში“ სეზონური/სეგმენტის გარეშე (GEO/PSP/ბანკი/საათი).
მანქანის მოქმედებების შემდეგ დაბრუნების გარეშე (არ არსებობს roll-back კრიტერიუმები).
PII და userId- ის ეტიკეტებმა რისკები და რადიკალური აფეთქება მოახდინეს.
შედეგი
ნამდვილად სასარგებლო ალერტინგი არის SLO-centric კონვეიერი: კონტექსტური წესები burn-rate- ით, ჭკვიანი ხმაურის ჩახშობა, მკაფიო როუტინგი და ესკალაცია, runbook პირველი გამოცდილება და უსაფრთხო მანქანები. ასეთი წრე იჭერს კრიტიკულ მოვლენებს მომხმარებლების წინაშე, ამცირებს MTTR- ს, იცავს შემოსავალს და, ამავე დროს, აფრთხილებს მას „პეიჯერ-ჯოჯოხეთის“ რუტინისგან.