Pomiary incydentów
1) Dlaczego incydenty pomiarowe
Metryki incydentów przekształcają chaotyczne zdarzenia w możliwy do opanowania proces: pomagają skrócić czas reakcji i odzyskiwania, skrócić przyczynę nawrotu, udowodnić spełnienie SLO/kontraktu i znaleźć punkty automatyzacji. Dobry zestaw mierników obejmuje cały cykl: wykrywanie → klasyfikacja → eskalacja → działania łagodzące → odzyskiwanie → parsing CAPA →.
2) Podstawowe definicje i wzory
Przerwy między zdarzeniami
MTTD (Mean Time To Detect) = średni czas od T0 (rzeczywisty początek wpływu) do pierwszego sygnału/wykrywania.
MTTA (Mean Time To Acknowledge) = średni czas od pierwszego sygnału do dyżuru ack.
MTTM (Mean Time To Mitigate) = średni czas do osiągnięcia redukcji poniżej progu SLO (często = czas do pracy/degradacji UX).
MTTR (Mean Time To Recover) = średni czas na całkowite odzyskanie docelowych SLIs.
MTBF (średni czas między niepowodzeniami) = średni odstęp pomiędzy istotnymi incydentami.
Czas pracy
Czas do ogłoszenia - od T0 do oficjalnego ogłoszenia poziomu SEV/incydentu.
Czas do Comms - od ogłoszenia do pierwszej publicznej/wewnętrznej aktualizacji SLA.
Czas w stanie - czas trwania na każdym etapie (triage/diag/fix/verify).
Częstotliwość i frakcja
Liczba incydentów - liczba incydentów na okres.
Wskaźnik incydentów - przy 1k/10k/100k udanych transakcji lub żądań (normalizacja).
SEV Mix - rozkład według ciężkości (SEV-0... SEV-3).
SLA Breach Count/Rate - liczba/udział naruszeń zewnętrznych SLA.
Zmiana wskaźnika awarii -% incydentów spowodowanych zmianami (zwolnienia/konfiguracje/migracje).
Jakość sygnałów i procesów
% Actionable Pages - odsetek stron, które doprowadziły do znaczących działań playbook.
False Positive Rate (Strony) - odsetek fałszywych pozytywów.
Zasięg wykrywania - odsetek incydentów wykrytych przez automatyzację (nie klienci/wsparcie).
Szybkość ponownego otwarcia - odsetek powtarzających się incydentów o tej samej przyczynie korzeniowej ≤ 90 dni.
CAPA Completion -% działań naprawczych/zapobiegawczych zamkniętych na czas.
Comms SLA Adherence - odsetek aktualizacji publikowanych według wymaganej częstotliwości.
3) Mapa map według etapu incydentu
4) Normalizacja i segmentacja
Normalizacja liczników do głośności (ruch, sukces, aktywni użytkownicy).
Segment według: region/najemca, dostawca (PSP/KYC/CDN), rodzaj zmiany (kod/config/infra), godzina dnia (dzień/noc), źródło wykrywania (syntetyczne/RUM/infra/support).
Business SLIs (sukces płatności, rejestracji, uzupełnienia) są ważne dla biznesu - powiązanie metryki incydentów z ich degradacją.
5) Cele progowe (punkty orientacyjne, dostosowanie do domeny)
MTTD: ≤ 5 min dla Tier-0, ≤ 10-15 min dla Tier-1.
MTTA: ≤ 5 min (24/7), ≤ 10 min (śledzenie słońca).
MTTM: ≤ 15 min (Tier-0), ≤ 30-60 min (Tier-1).
MTTR: ≤ 60 min (Tier-0), ≤ 4 h (Tier-1).
Zasięg wykrywania: ≥ 85% automatyzacji.
% działających stron: ≥ 80-90%; Strony FP: ≤ 5%.
Szybkość ponownego otwarcia (90): ≤ 5-10%.
Zakończenie badania CAPA (na czas): ≥ 85%.
6) Przypisanie przyczyn i wpływu zmian
Przypisz przyczynę podstawową (Kod/Config/Infra/Provider/Security/Data/Capacity) i wyzwalacz (identyfikator wydania, zmiana konfiguracji, migracja, czynnik zewnętrzny) do każdego incydentu.
Zachowaj MTTR/Count - ile przyczyniają się wersje i konfiguracje (baza dla zasad bramek/kanarów).
Osobno należy rozważyć incydenty spowodowane przez dostawcę (PSP/KYC/CDN/Cloud) w celu zarządzania trasami i umowami.
7) Komunikacja i wpływ na klienta
Czas na pierwszą publiczną aktualizację i aktualizację kadencji (na przykład co 15/30 minut).
Stawka reklamacji - bilety/reklamacje o 1 incydencie, trend.
Dokładność statusu - udział publicznych aktualizacji bez wycofywania.
Post-incydent NPS (przez klienta klucza) - krótki impuls po SEV-1/0.
8) Ostrzeganie o wskaźnikach jakości wokół incydentów
Page Storm Index - liczba stron/godzina na dyżur podczas incydentu (mediana/p95).
Dedup Efficiency - odsetek tłumionych duplikatów.
Wskaźnik potwierdzenia kworum - odsetek incydentów, w których wywołano kworum sond (≥ 2 niezależne źródła).
Cień → Kanaryjski → Prod konwersja nowych zasad (Alert-as-Code).
9) Deski rozdzielcze (minimalny zestaw)
1. Wykonawczy (28 dni): liczba incydentów, dystrybucja SEV, MTTR/MTTM, przerwy SLA, Reopen, CAPA.
2. Operacje SRE: MTTD/MTTA маса,/стенаz, Page Storm, Actionable%, Detection Coverage, Time to Declare/Comms.
3. Zmiana wpływu: udział incydentów uwalniania/konfiguracji, MTTR w przypadku incydentów związanych ze zmianą, okna konserwacyjne vs incydenty.
4. Dostawcy: incydenty według dostawcy, czas degradacji, przełączniki tras, umowne SLA.
5. Heatmap według usługi/region: incydenty i MTTR na 1k transakcji.
Połączyć grafikę SLI/SLO z adnotacjami wydania i znakami SEV.
10) Diagram danych incydentu (zalecane)
Minimalne pola kart/stołów:
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) Przykłady obliczeń (idea SQL)
MTTR w czasie (mediana):sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Zasięg wykrywania:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Zmiana wskaźnika awarii (w ciągu 28 dni):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) Powiązanie z budżetami SLO i błędów
Rekord SLO spalić minuty na incydent - jest to główna „waga” wydarzenia.
Priorytet CAPA przez całkowite oparzenie i wagę SEV zamiast liczby incydentów.
Stitch razem oparzenia z wpływem finansowym (przykład: $/minutę przestoju lub $/utraconą transakcję).
13) Mierniki poziomu programu
Postmortem Lead Time: Mediana od zamknięcia incydentu do publikacji raportu.
Kompletność dowodów: udział raportów z linią czasu, wykresami SLI, dziennikami, linkami do PR/comms.
Alert Hygiene Score: composite index by actionable/FP/dedup/quorum.
Handover Defects: odsetek przesunięć w przypadku utraty kontekstu zdarzeń aktywnych.
Zasięg szkolenia:% dyżurów symulowanych w kwartale.
14) Lista kontrolna wdrażania metryk
- Zdefiniowano jednolite znaczniki czasowe (UTC) i umowę dotyczącą zdarzeń incydentalnych.
- SEV, podstawowa przyczyna taksonomii i źródła wykrywania przyjęte.
- Metryki są znormalizowane do objętości (ruch/sukces).
- Gotowe 3 deski rozdzielcze: Executive, Operations, Change Impact.
- Alert-as-Code: Each Page rule has a playbook and an owner.
- Pośmiertnie SLA (np. draft ≤ 72ch, final ≤ 5 slave. dni).
- CAPA są śledzone z datami KPI i D + 14/D + 30.
- Tygodniowy przegląd incydentów: trendy, najważniejsze przyczyny, status CAPA.
15) Anty-wzory
Należy rozważyć tylko MTTR bez MTTD/MTTA/MTTM → utrata kontroli wczesnych faz.
Nie normalizować w głośności → duże usługi „wydają się” gorsze.
Niesystemowe SEV → różne incydenty.
Brak dowodów → kontrowersje zamiast ulepszeń.
Skupienie się na liczbie incydentów zamiast wpływu spalania/SLO.
Ignoruj wznowienie i CAPA → wieczne nawroty.
Metryki w programie Excel bez automatycznego przesyłania z systemu Telemetry/ITSM.
16) Mini szablony
Karta incydentu (abbr.)
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
Sprawozdanie wykonawcze (28 dni, linie kluczowe)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) Plan działania (4-6 tygodni)
1. Ned. 1-Timestamp/field standard, SEV/powód słownik podstawowe incydent pokazać.
2. Ned. 2: Obliczenia MTTD/MTTA/MTTM/MTTR, normalizacja i deska rozdzielcza SEV.
3. Ned. 3: pakiet z wersjami/konfigurami, zasięgiem wykrywania i higieną ostrzegania.
4. Ned. 4: Raport wykonawczy, pośmiertnie SLA, tracker CAPA.
5. Ned. 5-6: dostawca raportów, spalić → $ model finansowy, kwartalne cele i kwartalny przegląd incydentów.
18) Najważniejsze
Metryki incydentów to nie tylko liczby, ale również historia niezawodności operacyjnej. Kiedy mierzysz cały przepływ (od wykrywania do CAPA), normalizujesz mierniki, kojarzisz je ze SLO i zmianami, a następnie regularnie przeglądasz, organizacja przewidywalnie skraca czas reakcji, koszty i częstotliwość incydentów - a użytkownicy widzą stabilną usługę.