ინციდენტების ესკალაცია
1) მიზანი და პრინციპები
ინციდენტების ესკალაცია არის კონტროლირებადი პროცესი სწორი როლებისა და რესურსების სწრაფი მოზიდვის მიზნით, მომხმარებლებზე და ბიზნეს მეტრებზე გავლენის შემცირების მიზნით.
ძირითადი პრინციპები:- სიჩქარე უფრო მნიშვნელოვანია, ვიდრე იდეალურობა. უმჯობესია ინციდენტის ადრე გამოცხადება და დეესკალაცია, ვიდრე გვიან.
- ერთი ბრძანება. გადაწყვეტილების პასუხისმგებელი ერთი არის Incident Commander (IC).
- გამჭვირვალეობა. მკაფიო სტატუსები და საკომუნიკაციო არხები შიდა და გარე სტეიკჰოლდერებისთვის.
- დოკუმენტაცია. ყველა ნაბიჯი, გადაწყვეტილება და დრო ფიქსირდება აუდიტის და გაუმჯობესებისთვის.
2) სერიოზულობის გრადაცია (SEV/P- დონე)
მასშტაბის მაგალითი (ადაპტირებული დომენი/იურისდიქცია):- SEV-0/P0 (კრიტიკული) - საკვანძო ფუნქციის სრული მიუწვდომლობა (ლოგინი/გადახდა), მონაცემთა გაჟონვა, იურიდიული რისკი. მთლიანი ბირთვის დაუყოვნებელი პეიჯი on-call, freeze გამოშვებები.
- SEV-1/P1 (მაღალი) არის p95/p99 დეგრადაცია, საკვანძო პროცესში შეცდომების/წარუმატებლობის გაზრდა, რეგიონის/პროვაიდერის მიუწვდომლობა.
- SEV-2/P2 (საშუალო) - ნაწილობრივი დეგრადაცია შეზღუდული კოჰორტისთვის (რეგიონი, პროვაიდერი), არის გზა.
- SEV-3/P3 (დაბალი) არ არის კრიტიკული მომხმარებლისთვის, მაგრამ მოითხოვს ყურადღებას (ETL ფონის შეფერხება, ვადაგადაცილებული ანგარიში).
- დაზიანების სხივი (რამდენი მომხმარებელი/ბრუნვა) × მგრძნობელობა (მარეგულირებელი/PR) არის SEV დონე.
3) KPI პროცესი
MTTD (აღმოჩენის დრო) - ინციდენტის დაწყებიდან პირველ სიგნალამდე.
MTTA (მიღების დრო) - სიგნალიდან IC- ის დადასტურებამდე.
MTTR (აღდგენის დრო) - SLO/ფუნქციის აღდგენამდე.
Escalation Latency - დადასტურებიდან სწორი როლის/გუნდის დასაკავშირებლად.
Reopen Rate არის ინციდენტების წილი, რომელიც ხელახლა გაიხსნა „გადაწყვეტის“ შემდეგ.
Comm SLA - გარე/შიდა აფდეიტების ინტერვალების დაცვა.
4) როლები და პასუხისმგებლობა (RACI)
Incident Commander (IC): გადაწყვეტილების მფლობელი, ადგენს დონეს, გეგმას, უფასო, ესკალაციას, დეესკალაციას. არ წერს ფიქრებს.
Tech Lead (TL): ტექნიკური დიაგნოზი, ჰიპოთეზა, ინჟინრების კოორდინაცია.
Comms Lead (CL): სტატუსის გვერდები, კლიენტი და შიდა კომუნიკაცია, კოორდინაცია ლეგალთან/PR- სთან.
Scribe: ფაქტების ზუსტი დაფიქსირება, დრო, მიღებული გადაწყვეტილებები.
Liaisons (დაკავშირებული): გარე პროვაიდერების/გუნდების წარმომადგენლები (გადახდები, KYC, ჰოსტინგი).
On-call ინჟინრები: გეგმის შესრულება, playbooks/გამოტოვების დაწყება.
დანიშნეთ მორიგე გრაფიკები და ქუდები თითოეული როლისთვის.
5) არხები და არტეფაქტები
War-room არხი (ChatOps): ერთი საკოორდინაციო წერტილი (Slack/Teams) მანქანის პრეზენტაციების შაბლონით (ვერსიები, დროშები, კანარები).
ვიდეო ხიდი SEV-1 +.
ინციდენტის თიკეტი (ერთი პაგერი): ID, SEV, IC, მონაწილეები, ჰიპოთეზა/დიაგნოზი, ნაბიჯები, ETA, სტატუსი, გავლენა, გრაფიკის ბმულები.
სტატუსის გვერდი: საჯარო/შიდა; რეგულარული აფდიტების გრაფიკი (მაგალითად, ყოველ 15-30 წუთში SEV-1 +).
6) დროის ყუთები და სტანდარტული ინტერვალები
T0 (წუთი 0-5): IC დაინიშნა, SEV დაინიშნა, უფასო გამოშვებები (საჭიროების შემთხვევაში), ომი-ოთახი ღიაა.
T + 15 წუთი: პირველი საჯარო/შიდა შეტყობინება (რაც გავლენას ახდენს, workaround, შემდეგი აფთიაქის ფანჯარა).
T + 30/60 წუთი: შემდეგი დონის ესკალაცია (პლატფორმა/BD/უსაფრთხოება/პროვაიდერები), თუ არ არსებობს სტაბილური დინამიკა.
რეგულარული აპდეიტები: SEV-0: ყოველ 15 წუთში; SEV-1: ყოველ 30 წუთში; SEV-2 +: ყოველ საათში.
7) მანქანის ესკალაციის წესები (მუშაობის პოლიტიკა)
ისინი იწერება როგორც კოდი და უკავშირდება მონიტორინგს/ალერტინგს:- შეცდომების ბიუჯეტის გამკაცრება უფრო მაღალია, ვიდრე მოკლე და გრძელი ფანჯრების ზღურბლზე.
- გარე ნიმუშების კვორუმი: 2 რეგიონი აფიქსირებს HTTP/TLS/DNS- ის დეგრადაციას.
- ბიზნეს SLI (გადახდების/რეგისტრაციის წარმატება) SLO- ს ქვემოთ ეცემა.
- უსაფრთხოების ხელმოწერები: გაჟონვის/კომპრომისის ეჭვი.
- Provider სიგნალი: ვებჰუკი სტატუსის „მაიორი გარედან“.
8) აღმოჩენის პროცესი
1. ინციდენტის დეკლარაცია (IC): SEV, გაშუქება, უფასო, პლეიბუკების გაშვება.
2. დიაგნოზი (TL): ჰიპოთეზები, რადიუსის იზოლაცია (რეგიონი, პროვაიდერი, ფიკა), შემოწმება (DNS/TLS/CDN/BD/ქეში/საბურავი).
3. მიტინგების მოქმედებები (სწრაფი გამარჯვებები): გამოტოვება/კანარი, დეგრადაციის ფიკა-დროშა, მომწოდებლის მომწოდებელი, საბაზო-ლიმიტი, ქეშის აურზაური.
4. კომუნიკაცია (CL): სტატუსის გვერდი, მომხმარებლები/პარტნიორები, იურიდიული/PR, გრაფიკის განახლებები.
5. აღდგენის დადასტურება: გარე სინთეზური + რეალური მეტრიკა (SLI), freeze ამოღება.
6. deescalation: SEV შემცირება, დაკვირვებაზე გადასვლა N წუთი/საათი.
7. დახურვა და RCA: პოსტ-mortem- ის მომზადება, მოქმედება items, მფლობელები და ვადები.
9) გარე პროვაიდერთან მუშაობა
საკუთარი ნიმუშები პროვაიდერებისთვის რამდენიმე რეგიონიდან + მოთხოვნის/შეცდომების სარკისებური ლოგიკური მაგალითები.
ესკალაციის ხელშეკრულებები (კონტაქტები, SLA პასუხი, პრიორიტეტი, ვებჰუკები სტატუსის შესახებ).
ავტომატური failover/გადაადგილება პროვაიდერის SLO- ს საშუალებით.
მტკიცებულებათა ბაზა: დრო, შეკითხვა/პასუხები, ლატენტობის/შეცდომების გრაფიკი, პროვაიდერის პირადობის მოწმობა.
10) მარეგულირებელი, უსაფრთხოება და PR
უსაფრთხოება/P0: იზოლაცია, არტეფაქტების შეგროვება, დემონტაჟის შემცირება, სავალდებულო შეტყობინებები (შიდა/გარე/რეგულატორი).
ლეგალი: საგარეო აფდიტების ფორმულირების კოორდინაცია, სახელშეკრულებო SLA/ჯარიმების აღრიცხვა.
PR/კლიენტის სერვისი: მზა პასუხის შაბლონები, Q&A, კომპენსაცია/სესხები (თუ გამოიყენება).
11) შეტყობინებების შაბლონები
პირველადი (T + 15):- "ჩვენ იძიებთ ინციდენტს SEV-1, რომელიც გავლენას ახდენს [ფუნქციაზე/რეგიონში]. სიმპტომები: [მოკლედ]. ჩვენ გავააქტიურეთ გზა [აღწერა]. შემდეგი განახლება [დროა]"
- "დიაგნოზი: [ჰიპოთეზა/დადასტურება]. მოქმედებები: [შეიცვალა პროვაიდერი/გამოტოვა გამოშვება/მოიცავდა დეგრადაციას]. ზემოქმედება შემცირდა [პროცენტი/კოჰორტი]. შემდეგი აპდეიტია [დრო]"
- "SEV-1 ინციდენტი მოგვარდა. მიზეზი: [ფესვი]. აღდგენის დრო: [MTTR]. შემდეგი ნაბიჯები: [ფიქსი/შემოწმება/საათების დაკვირვება]. პოსტ-mortem - [როდის/სად]"
12) Playbooks (სავარაუდო)
გადახდის წარმატების ვარდნა: პროვაიდერის A წილის შემცირება, X% B გადაცემა; ჩართეთ „degrade-payments-UX“; ჩართეთ რეტრაები ლიმიტებში; აცნობეთ ფინის გუნდს.
P99 API- ის ზრდა: ახალი ვერსიის კანარის შემცირება; გამორთეთ მძიმე ფიჩები; გაზარდეთ cash-TTL; შეამოწმეთ BD ინდექსები/კონექტორები.
DNS/TLS/CDN პრობლემა: სერთიფიკატების/ჯაჭვის შემოწმება; ჩანაწერის განახლება; გადასვლა სარეზერვო CDN- ში; გადახედეთ ქეშს.
უსაფრთხოების ეჭვი: კვანძების იზოლაცია, საკვანძო როტაცია, mTLS სახელურების ჩართვა, არტეფაქტების შეგროვება, ლეგალური შეტყობინება.
13) დეესკალაცია და კრიტერიუმები „გადაწყდა“
ინციდენტი უფრო დაბალ დონეზე გადადის, თუ:- SLI/SLO სტაბილურია მწვანე ზონაში N ინტერვალებით;
- შესრულდა მიტინგები და დაკვირვება - რეგრესიის გარეშე;
- უსაფრთხოების კლასისთვის - დადასტურებულია ვექტორების დახურვა, კლავიშები/საიდუმლოებები.
დახურვა - მხოლოდ დროის დაფიქსირების შემდეგ, მოქმედების items- ის მფლობელები და ვადები.
14) Post-mortem (არაკონტროლირებადი)
სტრუქტურა:1. ფაქტები (დრო, რაც მომხმარებლებმა დაინახეს/მეტრიკა).
2. ფესვის მიზეზი (ტექნიკური/პროცესორი).
3. რაც მუშაობდა/არ მუშაობდა ესკალაციაში.
4. პრევენციული ზომები (ტესტები, ალერტები, ლიმიტები, არქიტექტურა).
5. სამოქმედო გეგმა ვადებითა და მფლობელებით.
6. კავშირი error budget- თან და SLO/პროცესების გადასინჯვასთან.
15) პროცესის სიმწიფის მეტრიკა
მომხმარებელთა საჩივრებამდე გამოცხადებული ინციდენტების წილი.
MTTA SEV დონეზე; დრო სწორი როლის დასაკავშირებლად.
Apdate- ის ინტერვალების დაცვა (Comm SLA).
Playbucks- ის მიერ გადაწყვეტილი ინციდენტების პროცენტი სახელმძღვანელო „კრეატიულობის“ გარეშე.
მოქმედების items- ის შესრულება პოსტ - mortem- დან დროულად.
16) ანტი შაბლონები
„ვინმემ რამე გააკეთოს“ - არა IC/როლები.
პოლიფონიური ომი - კამათი ვერსიების შესახებ ქმედებების ნაცვლად.
გვიან დეკლარაცია არის ხალხის შეგროვების დროის დაკარგვა.
არ არსებობს უფასო და გამოშვების სურათები - პარალელური ცვლილებები მიზეზს შენიღბავს.
გარე კომუნიკაციის არარსებობა - საჩივრების ესკალაცია/PR რისკი.
პოსტმორტემისა და მოქმედებების გარეშე დახურვა იგივე შეცდომებს იმეორებს.
17) IC ჩეკის სია (ჯიბის ბარათი)
- დაავალეთ SEV და გახსნათ ომის ოთახი.
- დანიშნეთ TL, CL, Scribe, შეამოწმეთ on-call.
- ჩართეთ განთავისუფლება (SEV-1 +).
- დაადასტუროს ჭეშმარიტების წყაროები: SLI dashbords, სინთეზური, ლოგოები, ტრეისი.
- მიიღეთ სწრაფი მიტინგების მოქმედებები (გამოტოვება/დროშები/failover).
- უზრუნველყოს რეგულარული აფდეიტები გრაფიკით.
- დააფიქსირეთ Criteria for Resolve და დაკვირვება აღდგენის შემდეგ.
- დაიწყეთ პოსტ-შურისმაძიებლები და დანიშნეთ აქციის მფლობელები.
18) ყოველდღიური ოპერაცია
ტრენინგი (თამაშის დღეები): სიმულაციები ძირითადი სცენარების მიხედვით.
პლეიბუკების კატალოგი: ვერსირებული, ტესტირებული, პარამეტრებით.
ინსტრუმენტები: ChatOps ბრძანებები „/declare “, „/page“, „/status “, „/rollback“.
ინტეგრაცია: ticeting, სტატუსის გვერდი, პოსტ-mortema, CMDB/სერვისის კატალოგი.
კოორდინაცია SLO/Error Budget- სთან: მანქანის ესკალაციის გამომწვევები და უფასო წესები.
19) შედეგი
ესკალაცია არის ოპერაციული დისციპლინა და არა მხოლოდ მოვალეობის შემსრულებლის ზარი. IC- ის მიერ დანიშნული SEV- ის მკაფიო დონეები, მზა ფლეიბუკები, დროის განახლებისა და ინტეგრაციის ყუთები SLO და Budget პოლიტიკოსებთან ერთად ქაოტური ხანძარი გადააქცევს კონტროლირებად პროცესს პროგნოზირებადი შედეგით - სწრაფი სერვისის აღდგენა, მინიმალური PR/მარეგულირებელი რისკი და სისტემური გაუმჯობესება თითოეული ინციდენტის შემდეგ.