ინციდენტების მეტრიკა

1) რატომ უნდა გავზომოთ ინციდენტები?

ინციდენტების მეტრიკა ქაოტურ მოვლენებს კონტროლირებად პროცესად აქცევს: ისინი ხელს უწყობენ რეაქციისა და აღდგენის დროის შემცირებას, მიზეზების განმეორების შემცირებას, SLO/ხელშეკრულებების შესრულების დამტკიცებას და ავტომატიზაციის წერტილების პოვნას. კარგი მეტრიკის ნაკრები მოიცავს მთელ ციკლს: გამოვლენა, კლასიფიკაცია, ესკალაცია, მიტინგები, აღდგენა და ანალიზი CAPA.

2) ძირითადი განმარტებები და ფორმულები

ღონისძიების ინტერვალები

MTTD (Mean Time To Detect) = საშუალო დრო T0- დან (გავლენის ფაქტობრივი დასაწყისი) პირველ სიგნალამდე/გამოვლენამდე.
MTTA (Mean Time To Acknowledge) = საშუალო დრო პირველი სიგნალიდან ack on-call.
MTTM (Mean Time To Mitigate) = საშუალო დრო SLO ბარიერის ქვემოთ გავლენის შემცირებამდე (ხშირად = დრო UX- ის გადასაჭრელად/დეგრადაციამდე).
MTTR (Mean To Recover) = საშუალო დრო სამიზნე SLI- ს სრულ აღდგენამდე.
MTBF (Mean Time Between Failures) = საშუალო ინტერვალი შესაბამის ინციდენტებს შორის.

ოპერაციული დრო

დრო Declare - T0- დან SEV/ინციდენტის დონის ოფიციალურ გამოცხადებამდე.
Time to Comms - რეკლამიდან დაწყებული SLA- ს პირველი საჯარო/შიდა განახლება.
დრო შტატში - ხანგრძლივობა თითოეულ ეტაპზე (triage/diag/fix/verify).

სიხშირე და წილი

Incident Count - ინციდენტების რაოდენობა პერიოდისთვის.
Incident Rate - 1k/10k/100k- ზე წარმატებული გარიგებები ან მოთხოვნები (ნორმალიზაცია).
SEV Mix - სიმძიმის განაწილება (SEV-0... SEV-3).
SLA Breach Count/Rate - გარე SLA- ს დარღვევების რაოდენობა/წილი.
Change Failure Rate - ცვლილებების შედეგად გამოწვეული ინციდენტების% (გამოშვებები/ჩამორთმევა/მიგრაცია).

სიგნალებისა და პროცესების ხარისხი

% Actionable Pages არის პეიჯების წილი, რამაც გამოიწვია პლეიბუკის მნიშვნელოვანი მოქმედება.
False Positive (Pages) - ყალბი სამუშაოების წილი.
Detection Coverage არის ავტომატიზაციის მიერ აღმოჩენილი ინციდენტების წილი (და არა მომხმარებლები/მხარდაჭერა).
Reopen Rate არის განმეორებითი ინციდენტების წილი, იგივე ფესვის მიზეზით, 90 დღის განმავლობაში.
CAPA Completion - მაკორექტირებელი/გამაფრთხილებელი მოქმედებების% დროულად დახურული.
Comms SLA Adherence არის საჭირო სიხშირით გამოქვეყნებული აფდიტების წილი.

3) მეტრიკის რუკა ინციდენტის ეტაპზე

ეტაპი	ძირითადი მეტრიკა	კითხვა
აღმოჩენა	MTTD, Detection Coverage, Source Mix (monitoring vs users)	რამდენად სწრაფად და ვინ ავლენს პრობლემას?
რეაქცია	MTTA, Time to Declare, Page-to-Ack %, Escalation Latency	რამდენად სწრაფად ახდენს გუნდი მობილიზებას და ენიჭება SEV?
მიტინგი	MTTM, Workaround Success %, Change Freeze Latency	რამდენად სწრაფად იკლებს გავლენა უსაფრთხო დონეზე?
აღდგენა	MTTR, SLO Burn Stopped Time, Residual Risk Window	როდის დაბრუნდა მომსახურება ნორმალურად?
კომუნები	Time to Comms, Comms SLA Adherence, Sentiment/Complaints	რამდენად ხარისხიანი და დროულად ვუკავშირდებით?
ტრენინგი	Postmortem Lead Time, CAPA Completion/Overdue, Reopen Rate	ვსწავლობთ თუ არა და ვხურავთ მარყუჟს?

4) ნორმალიზაცია და სეგმენტი

მრიცხველების ნორმალიზება მოცულობისთვის (ტრაფიკი, წარმატებული ოპერაციები, აქტიური მომხმარებლები).
სეგმენტი: რეგიონი/ტენანტი, პროვაიდერი (PSP/KYC/CDN), ცვლილების ტიპი (კოდი/კონფისკაცია/ინფო), დღის დრო (დღე/ღამე), დეტექტივის წყარო (სინთეტიკური/RUM/infra/support).
ბიზნესისთვის მნიშვნელოვანია ბიზნეს SLI (გადახდების, რეგისტრაციების, შევსების წარმატება) - ინციდენტების მეტრიკა უკავშირდება მათ დეგრადაციას.

5) ბარიერი მიზნები (სახელმძღვანელოები, ადაპტირებული დომენი)

MTTD: 5 წუთი Tier-0, 10-15 წუთი Tier-1- ისთვის.
MTTA: 5 წუთი (24/7), 10 წუთი (follow-the-sun).
MTTM: 15 წუთი (Tier-0), 30-60 წუთი (Tier-1).
MTTR: 60 წუთი (Tier-0), 4 საათი (Tier-1).
Detection Coverage: 85% ევრო ავტომატიზაცია.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (დროულად): 85% ევრო.

6) მიზეზების აღნიშვნა და ცვლილებების გავლენა

თითოეულ ინციდენტს დაენიშნეთ პრიმერული სახლი (კოდი/Config/Infra/Provider/Security/Data/Capacity) და trigger (release ID, კონფიგურაციის ცვლილება, მიგრაცია, გარე ფაქტორი).
ჩაატარეთ Change-linked MTTR/Count - რამდენად წვლილი შეაქვს გამოშვებებს და კონფისკაციებს (ბაზა კარიბჭის/კანარის პოლიტიკოსისთვის).
ცალკე გაითვალისწინეთ Provider-caused ინციდენტები (PSP/KYC/CDN/Cloud) მარშრუტების და კონტრაქტების გასაკონტროლებლად.

7) კომუნიკაციები და კლიენტის გავლენა

დრო პირველი საზოგადოებრივი განახლება და განახლება (მაგალითად, ყოველ 15/30 წუთში).
Complaint Rate - თიკეტები/საჩივრები 1 ინციდენტის შესახებ, ტენდენცია.
Status Accuracy არის საზოგადოებრივი აფდეიტების წილი რეტრაქციის გარეშე.
Post-Incident NPS (ძირითადი მომხმარებლების მიხედვით) მოკლე იმპულსია SEV-1/0 შემდეგ.

8) ალერტინგის ხარისხის მეტრიკა ინციდენტების გარშემო

Page Storm Index - ინციდენტის დროს პეიჯების რაოდენობა/საათის განმავლობაში ერთ on-call- ზე (median/p95).
Dedup Efficiency არის ჩახშული დუბლიკატების წილი.
É rum Confirmation Rate არის ინციდენტების წილი, სადაც მუშაობდა ზონდის კვორუმი (2 დამოუკიდებელი წყარო).
Shadow - Canary - ახალი წესების კონვერტაცია (Alert as-Code).

9) დაშბორდი (მინიმალური ნაკრები)

1. აღმასრულებელი (28 დღე): ინციდენტების რაოდენობა, SEV განაწილება, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: ინციდენტების წილი, რომლებიც დაკავშირებულია გამოშვებასთან/ჩამორთმევასთან, MTTR change ინციდენტებისთვის, vs ინციდენტების სერვისის ფანჯრები.
4. Providers: ინციდენტები პროვაიდერზე, დეგრადაციის დრო, მარშრუტების გადართვა, ხელშეკრულების SLA.
5. სერვისების/რეგიონების Heatmap: ინციდენტები და MTTR 1k გარიგებისთვის.

დააკავშიროთ SLI/SLO გრაფიკები გამოშვებისა და SEV- ის ნიშნით.

10) ინციდენტის სქემა (რეკომენდებულია)

ბარათის/ცხრილის მინიმალური ველები:


incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) გამოთვლების მაგალითები (SQL იდეა)

MTTR პერიოდისთვის (საშუალო):

sql
SELECT PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');

Detection Coverage:

sql
SELECT 100. 0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

Change Failure Rate (28 დღეში):

sql
SELECT 100. 0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) კავშირი SLO- სთან და შეცდომების ბიუჯეტებთან

ჩაწერეთ SLO burn minutes ინციდენტისთვის - ეს არის მოვლენის მთავარი „წონა“.
პრიორიტეტულია CAPA მთლიანი burn და SEV წონა და არა ინციდენტების რაოდენობა.
შეკერეთ burn ფინანსური იმპაქტით (მაგალითი: $/წუთი დგომა ან/დაკარგული გარიგება).

13) პროცესის სიმწიფის მეტრიკა (program level)

Postmortem Lead Time: შუამავალი ინციდენტის დახურვიდან მოხსენების გამოქვეყნებამდე.
Evidence Completeness: დროის ანგარიშების წილი, SLI გრაფიკები, ლოგოები, ბმულები PR/კომსზე.
Alert Hygiene Score: განუყოფელი ინდექსი actionable/FP/dedup/quorum.
Handover Defects: ცვლის წილი, სადაც აქტიური ინციდენტების კონტექსტი დაიკარგა.
Training Coverage:% on-call, რომელმაც გაიარა სიმულაცია კვარტლისთვის.

14) მეტრიკის დანერგვის სიის სია

განისაზღვრება ინციდენტის მოვლენების ერთიანი დროებითი ეტიკეტები (UTC) და კონტრაქტი.
მიღებულია SEV ლექსიკონი, მიზეზები (root cause taxonomy) და დეტექტივის წყაროები.
მეტრიკა ნორმალიზდება მოცულობით (ტრაფიკი/წარმატებული ოპერაციები).
მზად არის 3 დაშბორდი: აღმასრულებელი, ოპერაციები, Change Impact.
Alert-as-Code: თითოეულ Page წესს აქვს playbook და მფლობელი.
Post-mortem SLA (მაგალითად, პროექტი - 72ch, ფინალი - 5 მონა. დღეები).
CAPA ტრიალებს KPI ეფექტით და თარიღებით D + 14/D + 30.
ყოველკვირეული ინკლუზიური მიმოხილვა: ტენდენციები, ტოპ მიზეზები, CAPA სტატუსი.

15) ანტი შაბლონები

მხოლოდ MTTR- ის დათვლა MTTD/MTTA/MTTM გარეშე, ადრეული ფაზების კონტროლის დაკარგვა.
არ არის ნორმალიზებული მოცულობით „დიდი სერვისები“ უარესია.
არასისტემური SEV - ინციდენტების შეუსაბამობა.
Evidence- ის არარსებობა არის დავა გაუმჯობესების ნაცვლად.
ყურადღება გამახვილებულია ინციდენტების რაოდენობაზე, burn/SLO გავლენის ნაცვლად.
რეოპენისა და CAPA- ს უგულებელყოფა მარადიული რეციდივაა.
„მეტრიკა Excel- ში“ ტელემეტრიიდან/ITSM ავტომატური გადმოტვირთვის გარეშე.

16) მინი შაბლონები

ინციდენტის ბარათი (აბრ.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3. 6% to SLO, burn = 18 min)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

აღმასრულებელი ანგარიში (28 დღეში, ძირითადი ხაზები)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 min; Median MTTD: 4 min; MTTA: 3 min; MTTM: 17 min
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3. 2%
Change Failure Rate: 33% (4/12) - 3 related to config
Reopen(90d): 1/12 (8. 3%); CAPA Completion: 82% (2 overdue)
Top Root Causes: provider(4), config(3), capacity(2)

17) საგზაო რუკა (4-6 კვირა)

1. ნვე. 1: დროის/ველების ეტიკეტების სტანდარტი, SEV ლექსიკონი/მიზეზები; ინციდენტების ძირითადი ფანჯარა.
2. ნვე. 2: MTTD/MTTA/MTTM/MTTR გამოთვლები, ნორმალიზაცია და SEV დაშბორდი.
3. ნვე. 3: თაიგული გამოშვებებთან/კონფისკაციებთან, დეტალებთან და ალერტ ჰიგენესთან.
4. ნვე. 4: აღმასრულებელი ანგარიში, SLA პოსტ-mortems, CAPA ტრეკერი.
5. ნვე. 5-6: პროვაიდერის მოხსენებები, burn finmodel - $, კვარტალური მიზნები და კვარტალური Incident Review.

18) შედეგი

ინციდენტების მეტრიკა არ არის მხოლოდ რიცხვი, არამედ ოპერაციული საიმედოობის მოწყობა. როდესაც თქვენ გაზომავთ მთელ ნაკადს (აღმოჩენიდან CAPA- მდე), დააკავშირეთ ინდიკატორები, დააკავშირეთ ისინი SLO- სთან და ცვლილებებთან და რეგულარულად ჩაატარეთ მიმოხილვები, ორგანიზაცია პროგნოზირებულად ამცირებს რეაქციის დროს, ინციდენტების ღირებულებას და განმეორებას - და მომხმარებლები ხედავენ სტაბილურ მომსახურებას.

ინციდენტების მეტრიკა

ოპერაციული დრო

სიხშირე და წილი

სიგნალებისა და პროცესების ხარისხი

აღმასრულებელი ანგარიში (28 დღეში, ძირითადი ხაზები)

დაგვიკავშირდით

სწრაფი კავშირი

ვიდეო მალე განახლდება

ჩვენ ახლა ძალიან დაკავებული ვართ პროექტებით