Pomiary incydentów

1) Dlaczego incydenty pomiarowe

Metryki incydentów przekształcają chaotyczne zdarzenia w możliwy do opanowania proces: pomagają skrócić czas reakcji i odzyskiwania, skrócić przyczynę nawrotu, udowodnić spełnienie SLO/kontraktu i znaleźć punkty automatyzacji. Dobry zestaw mierników obejmuje cały cykl: wykrywanie → klasyfikacja → eskalacja → działania łagodzące → odzyskiwanie → parsing CAPA →.

2) Podstawowe definicje i wzory

Przerwy między zdarzeniami

MTTD (Mean Time To Detect) = średni czas od T0 (rzeczywisty początek wpływu) do pierwszego sygnału/wykrywania.
MTTA (Mean Time To Acknowledge) = średni czas od pierwszego sygnału do dyżuru ack.
MTTM (Mean Time To Mitigate) = średni czas do osiągnięcia redukcji poniżej progu SLO (często = czas do pracy/degradacji UX).
MTTR (Mean Time To Recover) = średni czas na całkowite odzyskanie docelowych SLIs.
MTBF (średni czas między niepowodzeniami) = średni odstęp pomiędzy istotnymi incydentami.

Czas pracy

Czas do ogłoszenia - od T0 do oficjalnego ogłoszenia poziomu SEV/incydentu.
Czas do Comms - od ogłoszenia do pierwszej publicznej/wewnętrznej aktualizacji SLA.
Czas w stanie - czas trwania na każdym etapie (triage/diag/fix/verify).

Częstotliwość i proporcjonalna

Liczba incydentów - liczba incydentów na okres.
Wskaźnik incydentów - przy 1k/10k/100k udanych transakcji lub żądań (normalizacja).
SEV Mix - rozkład według ciężkości (SEV-0... SEV-3).
SLA Breach Count/Rate - liczba/udział naruszeń zewnętrznych SLA.
Zmiana wskaźnika awarii -% incydentów spowodowanych zmianami (zwolnienia/konfiguracje/migracje).

Jakość sygnałów i procesów

% Actionable Pages - odsetek stron, które doprowadziły do znaczących działań playbook.
False Positive Rate (Strony) - odsetek fałszywych pozytywów.
Zasięg wykrywania - odsetek incydentów wykrytych przez automatyzację (nie klienci/wsparcie).
Szybkość ponownego otwarcia - odsetek powtarzających się incydentów o tej samej przyczynie korzeniowej ≤ 90 dni.
CAPA Completion -% działań naprawczych/zapobiegawczych zamkniętych na czas.
Comms SLA Adherence - odsetek aktualizacji publikowanych według wymaganej częstotliwości.

3) Mapa map według etapu incydentu

Etap	Kluczowe mierniki	Pytanie
Wykrywanie	MTTD, Zasięg wykrywania, Mix źródłowy (monitoring vs users)	Jak szybko i kto identyfikuje problem?
Reakcja	MTTA, Czas na deklarację, Page-to-Ack%, Opóźnienie eskalacji	Jak szybko zespół mobilizuje i przypisuje SEV?
Łagodzące	MTTM, sukces podczas pracy%, zmiana opóźnienia zamrożenia	Jak szybko wpływ zmniejsza się do bezpiecznego poziomu?
Przywrócenie	MTTR, czas wstrzymania spalania SLO, okno ryzyka rezydualnego	Kiedy serwis w pełni powrócił do normy?
Komunikaty pokładowe	Czas do komunikowania, Koms SLA Adherence, Sentyment/Skargi	Jak dobrze i na czas się porozumiewamy?
Szkolenia	Postmortem Lead Time, CAPA Completion/Overdue, Reopen Rate	Czy uczymy się i zamykamy pętlę ulepszeń?

4) Normalizacja i segmentacja

Normalizacja liczników do głośności (ruch, sukces, aktywni użytkownicy).
Segment według: region/najemca, dostawca (PSP/KYC/CDN), rodzaj zmiany (kod/config/infra), godzina dnia (dzień/noc), źródło wykrywania (syntetyczne/RUM/infra/support).
Business SLIs (sukces płatności, rejestracji, uzupełnienia) są ważne dla biznesu - powiązanie metryki incydentów z ich degradacją.

5) Cele progowe (punkty orientacyjne, dostosowanie do domeny)

MTTD: ≤ 5 min dla Tier-0, ≤ 10-15 min dla Tier-1.
MTTA: ≤ 5 min (24/7), ≤ 10 min (śledzenie słońca).
MTTM: ≤ 15 min (Tier-0), ≤ 30-60 min (Tier-1).
MTTR: ≤ 60 min (Tier-0), ≤ 4 h (Tier-1).
Zasięg wykrywania: ≥ 85% automatyzacji.
% działających stron: ≥ 80-90%; Strony FP: ≤ 5%.
Szybkość ponownego otwarcia (90): ≤ 5-10%.
Zakończenie badania CAPA (na czas): ≥ 85%.

6) Przypisanie przyczyn i wpływu zmian

Przypisz przyczynę podstawową (Kod/Config/Infra/Provider/Security/Data/Capacity) i wyzwalacz (identyfikator wydania, zmiana konfiguracji, migracja, czynnik zewnętrzny) do każdego incydentu.
Zachowaj MTTR/Count - ile przyczyniają się wersje i konfiguracje (baza dla zasad bramek/kanarów).
Osobno należy rozważyć incydenty spowodowane przez dostawcę (PSP/KYC/CDN/Cloud) w celu zarządzania trasami i umowami.

7) Komunikacja i wpływ na klienta

Czas na pierwszą publiczną aktualizację i aktualizację kadencji (na przykład co 15/30 minut).
Stawka reklamacji - bilety/reklamacje o 1 incydencie, trend.
Dokładność statusu - udział publicznych aktualizacji bez wycofywania.
Post-incydent NPS (przez klienta klucza) - krótki impuls po SEV-1/0.

8) Ostrzeganie o wskaźnikach jakości wokół incydentów

Page Storm Index - liczba stron/godzina na dyżur podczas incydentu (mediana/p95).
Dedup Efficiency - odsetek tłumionych duplikatów.
Wskaźnik potwierdzenia kworum - odsetek incydentów, w których wywołano kworum sond (≥ 2 niezależne źródła).
Cień → Kanaryjski → Prod konwersja nowych zasad (Alert-as-Code).

9) Deski rozdzielcze (minimalny zestaw)

1. Wykonawczy (28 dni): liczba incydentów, dystrybucja SEV, MTTR/MTTM, przerwy SLA, Reopen, CAPA.
2. Operacje SRE: MTTD/MTTA маса,/стенаz, Page Storm, Actionable%, Detection Coverage, Time to Declare/Comms.
3. Zmiana wpływu: udział incydentów uwalniania/konfiguracji, MTTR w przypadku incydentów związanych ze zmianą, okna konserwacyjne vs incydenty.
4. Dostawcy: incydenty według dostawcy, czas degradacji, przełączniki tras, umowne SLA.
5. Heatmap według usługi/region: incydenty i MTTR na 1k transakcji.

Połączyć grafikę SLI/SLO z adnotacjami wydania i znakami SEV.

10) Diagram danych incydentu (zalecane)

Minimalne pola kart/stołów:


incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Przykłady obliczeń (idea SQL)

MTTR w czasie (mediana):

sql
SELECT PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');

Zasięg wykrywania:

sql
SELECT 100. 0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

Zmiana wskaźnika awarii (w ciągu 28 dni):

sql
SELECT 100. 0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) Powiązanie z budżetami SLO i błędów

Rekord SLO spalić minuty na incydent - jest to główna „waga” wydarzenia.
Priorytet CAPA przez całkowite oparzenie i wagę SEV zamiast liczby incydentów.
Stitch razem oparzenia z wpływem finansowym (przykład: $/minutę przestoju lub $/utraconą transakcję).

13) Mierniki poziomu programu

Postmortem Lead Time: Mediana od zamknięcia incydentu do publikacji raportu.
Kompletność dowodów: udział raportów z linią czasu, wykresami SLI, dziennikami, linkami do PR/comms.
Alert Hygiene Score: composite index by actionable/FP/dedup/quorum.
Handover Defects: odsetek przesunięć w przypadku utraty kontekstu zdarzeń aktywnych.
Zasięg szkolenia:% dyżurów symulowanych w kwartale.

14) Lista kontrolna wdrażania metryk

Zdefiniowano jednolite znaczniki czasowe (UTC) i umowę dotyczącą zdarzeń incydentalnych.
SEV, podstawowa przyczyna taksonomii i źródła wykrywania przyjęte.
Metryki są znormalizowane do objętości (ruch/sukces).
Gotowe 3 deski rozdzielcze: Executive, Operations, Change Impact.
Alert-as-Code: Each Page rule has a playbook and an owner.
Pośmiertnie SLA (np. draft ≤ 72ch, final ≤ 5 slave. dni).
CAPA są śledzone z datami KPI i D + 14/D + 30.
Tygodniowy przegląd incydentów: trendy, najważniejsze przyczyny, status CAPA.

15) Anty-wzory

Należy rozważyć tylko MTTR bez MTTD/MTTA/MTTM → utrata kontroli wczesnych faz.
Nie normalizować w głośności → duże usługi „wydają się” gorsze.
Niesystemowe SEV → różne incydenty.
Brak dowodów → kontrowersje zamiast ulepszeń.
Skupienie się na liczbie incydentów zamiast wpływu oparzeń/SLO.
Ignoruj wznowienie i CAPA → wieczne nawroty.
Metryki w programie Excel bez automatycznego przesyłania z systemu Telemetry/ITSM.

16) Mini szablony

Karta incydentu (abbr.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3. 6% to SLO, burn = 18 min)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Raport wykonawczy (28 dni, linie kluczowe)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 min; Median MTTD: 4 min; MTTA: 3 min; MTTM: 17 min
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3. 2%
Change Failure Rate: 33% (4/12) - 3 related to config
Reopen(90d): 1/12 (8. 3%); CAPA Completion: 82% (2 overdue)
Top Root Causes: provider(4), config(3), capacity(2)

17) Plan działania (4-6 tygodni)

1. Ned. 1-Timestamp/field standard, SEV/powód słownik podstawowe incydent pokazać.
2. Ned. 2: Obliczenia MTTD/MTTA/MTTM/MTTR, normalizacja i deska rozdzielcza SEV.
3. Ned. 3: pakiet z wersjami/konfigurami, zasięgiem wykrywania i higieną ostrzegania.
4. Ned. 4: Raport wykonawczy, pośmiertnie SLA, tracker CAPA.
5. Ned. 5-6: dostawca raportów, spalić → $ model finansowy, kwartalne cele i kwartalny przegląd incydentów.

18) Najważniejsze

Metryki incydentów to nie tylko liczby, ale również historia niezawodności operacyjnej. Kiedy mierzysz cały przepływ (od wykrywania do CAPA), normalizujesz mierniki, kojarzisz je ze SLO i zmianami, a następnie regularnie przeglądasz, organizacja przewidywalnie skraca czas reakcji, koszty i częstotliwość incydentów - a użytkownicy widzą stabilną usługę.

Pomiary incydentów

Czas pracy

Częstotliwość i proporcjonalna

Jakość sygnałów i procesów

Raport wykonawczy (28 dni, linie kluczowe)

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami