ინციდენტების მეტრიკა
1) რატომ უნდა გავზომოთ ინციდენტები?
ინციდენტების მეტრიკა ქაოტურ მოვლენებს კონტროლირებად პროცესად აქცევს: ისინი ხელს უწყობენ რეაქციისა და აღდგენის დროის შემცირებას, მიზეზების განმეორების შემცირებას, SLO/ხელშეკრულებების შესრულების დამტკიცებას და ავტომატიზაციის წერტილების პოვნას. კარგი მეტრიკის ნაკრები მოიცავს მთელ ციკლს: გამოვლენა, კლასიფიკაცია, ესკალაცია, მიტინგები, აღდგენა და ანალიზი CAPA.
2) ძირითადი განმარტებები და ფორმულები
ღონისძიების ინტერვალები
MTTD (Mean Time To Detect) = საშუალო დრო T0- დან (გავლენის ფაქტობრივი დასაწყისი) პირველ სიგნალამდე/გამოვლენამდე.
MTTA (Mean Time To Acknowledge) = საშუალო დრო პირველი სიგნალიდან ack on-call.
MTTM (Mean Time To Mitigate) = საშუალო დრო SLO ბარიერის ქვემოთ გავლენის შემცირებამდე (ხშირად = დრო UX- ის გადასაჭრელად/დეგრადაციამდე).
MTTR (Mean To Recover) = საშუალო დრო სამიზნე SLI- ს სრულ აღდგენამდე.
MTBF (Mean Time Between Failures) = საშუალო ინტერვალი შესაბამის ინციდენტებს შორის.
ოპერაციული დრო
დრო Declare - T0- დან SEV/ინციდენტის დონის ოფიციალურ გამოცხადებამდე.
Time to Comms - რეკლამიდან დაწყებული SLA- ს პირველი საჯარო/შიდა განახლება.
დრო შტატში - ხანგრძლივობა თითოეულ ეტაპზე (triage/diag/fix/verify).
სიხშირე და წილი
Incident Count - ინციდენტების რაოდენობა პერიოდისთვის.
Incident Rate - 1k/10k/100k- ზე წარმატებული გარიგებები ან მოთხოვნები (ნორმალიზაცია).
SEV Mix - სიმძიმის განაწილება (SEV-0... SEV-3).
SLA Breach Count/Rate - გარე SLA- ს დარღვევების რაოდენობა/წილი.
Change Failure Rate - ცვლილებების შედეგად გამოწვეული ინციდენტების% (გამოშვებები/ჩამორთმევა/მიგრაცია).
სიგნალებისა და პროცესების ხარისხი
% Actionable Pages არის პეიჯების წილი, რამაც გამოიწვია პლეიბუკის მნიშვნელოვანი მოქმედება.
False Positive (Pages) - ყალბი სამუშაოების წილი.
Detection Coverage არის ავტომატიზაციის მიერ აღმოჩენილი ინციდენტების წილი (და არა მომხმარებლები/მხარდაჭერა).
Reopen Rate არის განმეორებითი ინციდენტების წილი, იგივე ფესვის მიზეზით, 90 დღის განმავლობაში.
CAPA Completion - მაკორექტირებელი/გამაფრთხილებელი მოქმედებების% დროულად დახურული.
Comms SLA Adherence არის საჭირო სიხშირით გამოქვეყნებული აფდიტების წილი.
3) მეტრიკის რუკა ინციდენტის ეტაპზე
4) ნორმალიზაცია და სეგმენტი
მრიცხველების ნორმალიზება მოცულობისთვის (ტრაფიკი, წარმატებული ოპერაციები, აქტიური მომხმარებლები).
სეგმენტი: რეგიონი/ტენანტი, პროვაიდერი (PSP/KYC/CDN), ცვლილების ტიპი (კოდი/კონფისკაცია/ინფო), დღის დრო (დღე/ღამე), დეტექტივის წყარო (სინთეტიკური/RUM/infra/support).
ბიზნესისთვის მნიშვნელოვანია ბიზნეს SLI (გადახდების, რეგისტრაციების, შევსების წარმატება) - ინციდენტების მეტრიკა უკავშირდება მათ დეგრადაციას.
5) ბარიერი მიზნები (სახელმძღვანელოები, ადაპტირებული დომენი)
MTTD: 5 წუთი Tier-0, 10-15 წუთი Tier-1- ისთვის.
MTTA: 5 წუთი (24/7), 10 წუთი (follow-the-sun).
MTTM: 15 წუთი (Tier-0), 30-60 წუთი (Tier-1).
MTTR: 60 წუთი (Tier-0), 4 საათი (Tier-1).
Detection Coverage: 85% ევრო ავტომატიზაცია.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (დროულად): 85% ევრო.
6) მიზეზების აღნიშვნა და ცვლილებების გავლენა
თითოეულ ინციდენტს დაენიშნეთ პრიმერული სახლი (კოდი/Config/Infra/Provider/Security/Data/Capacity) და trigger (release ID, კონფიგურაციის ცვლილება, მიგრაცია, გარე ფაქტორი).
ჩაატარეთ Change-linked MTTR/Count - რამდენად წვლილი შეაქვს გამოშვებებს და კონფისკაციებს (ბაზა კარიბჭის/კანარის პოლიტიკოსისთვის).
ცალკე გაითვალისწინეთ Provider-caused ინციდენტები (PSP/KYC/CDN/Cloud) მარშრუტების და კონტრაქტების გასაკონტროლებლად.
7) კომუნიკაციები და კლიენტის გავლენა
დრო პირველი საზოგადოებრივი განახლება და განახლება (მაგალითად, ყოველ 15/30 წუთში).
Complaint Rate - თიკეტები/საჩივრები 1 ინციდენტის შესახებ, ტენდენცია.
Status Accuracy არის საზოგადოებრივი აფდეიტების წილი რეტრაქციის გარეშე.
Post-Incident NPS (ძირითადი მომხმარებლების მიხედვით) მოკლე იმპულსია SEV-1/0 შემდეგ.
8) ალერტინგის ხარისხის მეტრიკა ინციდენტების გარშემო
Page Storm Index - ინციდენტის დროს პეიჯების რაოდენობა/საათის განმავლობაში ერთ on-call- ზე (median/p95).
Dedup Efficiency არის ჩახშული დუბლიკატების წილი.
É rum Confirmation Rate არის ინციდენტების წილი, სადაც მუშაობდა ზონდის კვორუმი (2 დამოუკიდებელი წყარო).
Shadow - Canary - ახალი წესების კონვერტაცია (Alert as-Code).
9) დაშბორდი (მინიმალური ნაკრები)
1. აღმასრულებელი (28 დღე): ინციდენტების რაოდენობა, SEV განაწილება, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: ინციდენტების წილი, რომლებიც დაკავშირებულია გამოშვებასთან/ჩამორთმევასთან, MTTR change ინციდენტებისთვის, vs ინციდენტების სერვისის ფანჯრები.
4. Providers: ინციდენტები პროვაიდერზე, დეგრადაციის დრო, მარშრუტების გადართვა, ხელშეკრულების SLA.
5. სერვისების/რეგიონების Heatmap: ინციდენტები და MTTR 1k გარიგებისთვის.
დააკავშიროთ SLI/SLO გრაფიკები გამოშვებისა და SEV- ის ნიშნით.
10) ინციდენტის სქემა (რეკომენდებულია)
ბარათის/ცხრილის მინიმალური ველები:
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) გამოთვლების მაგალითები (SQL იდეა)
MTTR პერიოდისთვის (საშუალო):sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 დღეში):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) კავშირი SLO- სთან და შეცდომების ბიუჯეტებთან
ჩაწერეთ SLO burn minutes ინციდენტისთვის - ეს არის მოვლენის მთავარი „წონა“.
პრიორიტეტულია CAPA მთლიანი burn და SEV წონა და არა ინციდენტების რაოდენობა.
შეკერეთ burn ფინანსური იმპაქტით (მაგალითი: $/წუთი დგომა ან/დაკარგული გარიგება).
13) პროცესის სიმწიფის მეტრიკა (program level)
Postmortem Lead Time: შუამავალი ინციდენტის დახურვიდან მოხსენების გამოქვეყნებამდე.
Evidence Completeness: დროის ანგარიშების წილი, SLI გრაფიკები, ლოგოები, ბმულები PR/კომსზე.
Alert Hygiene Score: განუყოფელი ინდექსი actionable/FP/dedup/quorum.
Handover Defects: ცვლის წილი, სადაც აქტიური ინციდენტების კონტექსტი დაიკარგა.
Training Coverage:% on-call, რომელმაც გაიარა სიმულაცია კვარტლისთვის.
14) მეტრიკის დანერგვის სიის სია
- განისაზღვრება ინციდენტის მოვლენების ერთიანი დროებითი ეტიკეტები (UTC) და კონტრაქტი.
- მიღებულია SEV ლექსიკონი, მიზეზები (root cause taxonomy) და დეტექტივის წყაროები.
- მეტრიკა ნორმალიზდება მოცულობით (ტრაფიკი/წარმატებული ოპერაციები).
- მზად არის 3 დაშბორდი: აღმასრულებელი, ოპერაციები, Change Impact.
- Alert-as-Code: თითოეულ Page წესს აქვს playbook და მფლობელი.
- Post-mortem SLA (მაგალითად, პროექტი - 72ch, ფინალი - 5 მონა. დღეები).
- CAPA ტრიალებს KPI ეფექტით და თარიღებით D + 14/D + 30.
- ყოველკვირეული ინკლუზიური მიმოხილვა: ტენდენციები, ტოპ მიზეზები, CAPA სტატუსი.
15) ანტი შაბლონები
მხოლოდ MTTR- ის დათვლა MTTD/MTTA/MTTM გარეშე, ადრეული ფაზების კონტროლის დაკარგვა.
არ არის ნორმალიზებული მოცულობით „დიდი სერვისები“ უარესია.
არასისტემური SEV - ინციდენტების შეუსაბამობა.
Evidence- ის არარსებობა არის დავა გაუმჯობესების ნაცვლად.
ყურადღება გამახვილებულია ინციდენტების რაოდენობაზე, burn/SLO გავლენის ნაცვლად.
რეოპენისა და CAPA- ს უგულებელყოფა მარადიული რეციდივაა.
„მეტრიკა Excel- ში“ ტელემეტრიიდან/ITSM ავტომატური გადმოტვირთვის გარეშე.
16) მინი შაბლონები
ინციდენტის ბარათი (აბრ.)
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
აღმასრულებელი ანგარიში (28 დღეში, ძირითადი ხაზები)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) საგზაო რუკა (4-6 კვირა)
1. ნვე. 1: დროის/ველების ეტიკეტების სტანდარტი, SEV ლექსიკონი/მიზეზები; ინციდენტების ძირითადი ფანჯარა.
2. ნვე. 2: MTTD/MTTA/MTTM/MTTR გამოთვლები, ნორმალიზაცია და SEV დაშბორდი.
3. ნვე. 3: თაიგული გამოშვებებთან/კონფისკაციებთან, დეტალებთან და ალერტ ჰიგენესთან.
4. ნვე. 4: აღმასრულებელი ანგარიში, SLA პოსტ-mortems, CAPA ტრეკერი.
5. ნვე. 5-6: პროვაიდერის მოხსენებები, burn finmodel - $, კვარტალური მიზნები და კვარტალური Incident Review.
18) შედეგი
ინციდენტების მეტრიკა არ არის მხოლოდ რიცხვი, არამედ ოპერაციული საიმედოობის მოწყობა. როდესაც თქვენ გაზომავთ მთელ ნაკადს (აღმოჩენიდან CAPA- მდე), დააკავშირეთ ინდიკატორები, დააკავშირეთ ისინი SLO- სთან და ცვლილებებთან და რეგულარულად ჩაატარეთ მიმოხილვები, ორგანიზაცია პროგნოზირებულად ამცირებს რეაქციის დროს, ინციდენტების ღირებულებას და განმეორებას - და მომხმარებლები ხედავენ სტაბილურ მომსახურებას.