Olay metrikleri

1) Neden olayları ölçer

Olay metrikleri kaotik olayları yönetilebilir bir sürece dönüştürür: yanıt ve kurtarma sürelerini azaltmaya yardımcı olur, neden tekrarını azaltır, SLO/sözleşme yerine getirilmesini kanıtlar ve otomasyon noktalarını bulur. İyi bir metrik seti tüm döngüyü kapsar: Algılama - sınıflandırma - eskalasyon - hafifletici eylemler - kurtarma - ayrıştırma CAPA -.

2) Temel tanımlar ve formüller

Olay aralıkları

MTTD (Mean Time To Detection) = T0'dan (gerçek etki başlangıcı) ilk sinyal/algılamaya kadar geçen ortalama süre.
MTTA (Mean Time To Accept) = İlk sinyalden ack on-call'a kadar geçen ortalama süre.
MTTM (Ortalama Hafifletme Süresi) = SLO eşiğinin (genellikle = UX geçici çözümüne/bozulmasına kadar geçen süre) altında azaltmayı etkileyecek ortalama süre.
MTTR (Ortalama Kurtarma Süresi) = hedef SLI'ların kurtarılmasını tamamlamak için ortalama süre.
MTBF (Mean Time Between Failures): Arızalar arasındaki ortalama süre.

Çalışma süreleri

Beyan Zamanı - T0'dan SEV/olay seviyesinin resmi duyurusuna kadar.
İletişim Zamanı - duyurudan ilk genel/dahili SLA güncellemesine kadar.
Durum Süresi - her aşamada süre (triyaj/diag/düzeltme/doğrulama).

Frekans ve orantılı

Olay Sayısı - periyot başına düşen olay sayısı.
Olay Oranı - 1k/10k/100k başarılı işlem veya isteklerde (normalleştirme).
SEV Mix - ciddiyete göre dağılım (SEV-0... SEV-3).
SLA İhlal Sayısı/Oranı - harici SLA'ların ihlallerinin sayısı/payı.
Değişiklik Hatası Oranı - Değişikliklerin neden olduğu olayların yüzdesi (yayınlar/yapılandırmalar/geçişler).

Sinyallerin ve süreçlerin kalitesi

% Actionable Pages - Anlamlı playbook eylemlerine yol açan sayfaların oranı.
Yanlış Pozitif Oran (Sayfalar) - yanlış pozitiflerin oranı.
Algılama Kapsamı - otomasyon tarafından tespit edilen olayların oranı (müşteriler/destek değil).
Yeniden Açma Oranı - ≤90 günlerde aynı kök nedene sahip tekrarlanan olayların oranı.
CAPA Tamamlama - Düzeltici/önleyici faaliyetlerin %'si zamanında kapatıldı.
Comms SLA Adherance - gerekli sıklıkta yayınlanan güncellemelerin oranı.

3) Olay Aşamasına Göre Metrik Haritası

Sahne Alanı	Temel metrikler	Soru
Algılama	MTTD, Algılama Kapsamı, Kaynak Karışımı (kullanıcılara karşı izleme)	Sorunu ne kadar hızlı ve kim tespit ediyor?
Reaksiyon	MTTA, Bildirme Zamanı, Sayfadan Ack'a %, Yükseltme Gecikmesi	Ekip, SEV'leri ne kadar hızlı harekete geçirir ve atar?
Hafifletici	MTTM, Geçici Başarı %, Donma Gecikmesini Değiştir	Etki ne kadar sürede güvenli bir seviyeye indirilir?
Restorasyon	MTTR, SLO Yanık Durmuş Zaman, Artık Risk Penceresi	Servis ne zaman tamamen normale döndü?
İletişim	İletişim Zamanı, Comms SLA Bağlılık, Duygu/Şikayetler	Ne kadar iyi ve zamanında iletişim kuruyoruz?
Eğitim	Postmortem Kurşun Zamanı, CAPA Tamamlama/Gecikmiş, Yeniden Açma Oranı	Gelişme döngüsünü öğreniyor ve kapatıyor muyuz?

4) Normalleştirme ve segmentasyon

Sayaçları hacme göre normalleştirin (trafik, başarı, aktif kullanıcılar).
Segmente göre: bölge/kiracı, sağlayıcı (PSP/KYC/CDN), değişim türü (kod/yapılandırma/infra), günün saati (gündüz/gece), algılama kaynağı (sentetik/RUM/infra/destek).
İş SLI'ları (ödemelerin başarısı, kayıtlar, yenileme) iş için önemlidir - olay metriklerini bozulmalarına bağlar.

5) Eşik hedefleri (yer işaretleri, alana uyum sağlar)

MTTD: ≤ için Tier-0 5 dakika ≤ Tier-1 için 10-15 dakika.
MTTA: ≤ 5 dk (24/7), ≤ 10 dk (güneşi takip et).
MTTM: ≤ 15 dakika (Seviye-0), ≤ 30-60 dakika (Seviye-1).
MTTR: ≤ 60 dakika (Seviye-0), ≤ 4 saat (Seviye-1).
Algılama Kapsamı: ≥ %85 otomasyon.
% İşlem Yapılabilir Sayfalar: ≥ %80-90; FP Sayfaları: ≤ %5.
Yeniden Açma Oranı (90д): ≤ %5-10.
CAPA Tamamlama (zamanında): ≥ %85.

6) Nedenlerin ilişkilendirilmesi ve değişikliklerin etkisi

Her bir olaya birincil bir neden (Kod/Yapılandırma/İnfra/Sağlayıcı/Güvenlik/Veri/Kapasite) ve tetikleyici (serbest bırakma kimliği, yapılandırma değişikliği, geçiş, dış faktör) atayın.
Keep Change-linked MTTR/Count - ne kadar sürümler ve yapılandırmalar katkıda bulunur (geçit/kanarya politikaları için temel).
Ayrı olarak, rotaları ve sözleşmeleri yönetmek için Sağlayıcı kaynaklı olayları (PSP/KYC/CDN/Cloud) düşünün.

7) İletişim ve Müşteri Etkisi

İlk Genel Güncelleme ve Güncelleme Zamanı (örneğin, her 15/30 dakikada bir).
Şikayet Oranı - 1 olay hakkında biletler/şikayetler, trend.
Durum Doğruluğu - geri çekilmeden genel güncellemelerin paylaşımı.
Olay Sonrası NPS (anahtar müşteri tarafından) - SEV-1/0 sonra kısa bir destek.

8) Olaylar etrafında kalite metriklerini uyarmak

Sayfa Fırtına İndeksi - bir olay sırasında çağrı başına sayfa/saat sayısı (medyan/p95).
Dedup Verimliliği - bastırılmış kopyaların oranı.
Quorum Confirmation Rate - probların (≥2 bağımsız kaynakların) yeterli çoğunluğunun tetiklendiği olayların oranı.
Gölge - Kanarya - Yeni kuralların (Alert-as-Code) Prod dönüşümü.

9) Gösterge Panoları (minimum set)

1. Executive (28 gün): olay sayısı, SEV dağıtımı, MTTR/MTTM, SLA sonları, Yeniden aç, CAPA.
2. SRE İşlemleri: MTTD/MTTA по часам/сменам, Sayfa Fırtınası, İşlem Yapılabilir %, Algılama Kapsamı, Bildirim/İletişim Zamanı.
3. Değişim Etkisi: serbest bırakma/yapılandırma olaylarının paylaşımı, değişiklik olayları için MTTR, bakım pencereleri ve olaylar.
4. Sağlayıcılar: Sağlayıcıya göre olaylar, bozulma süresi, rota anahtarları, sözleşmeli SLA'lar.
5. Hizmete/Bölgeye Göre Isı Haritası: 1k işlem başına olay ve MTTR.

SLI/SLO grafiklerini sürüm ek açıklamaları ve SEV işaretleri ile birleştirin.

10) Olay Veri Diyagramı (önerilir)

Minimum kart/tablo alanları:


incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Hesaplama örnekleri (SQL fikri)

Zamanla MTTR (medyan):

sql
SELECT PERCENTILE_CONT(0. 5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');

Algılama kapsamı:

sql
SELECT 100. 0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

Hata Oranını Değiştirme (28 gün içinde):

sql
SELECT 100. 0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) SLO ve hata bütçelerine bağlantı

Olay başına SLO yazma dakikalarını kaydedin - bu, olayın ana "ağırlığı'dır.
CAPA'yı olay sayısından ziyade toplam yanık ve SEV ağırlığına göre önceliklendirin.
Finansal etkiye sahip bir yanığı bir araya getirin (örnek: $/dakika kesinti süresi veya $/kayıp işlem).

13) Program düzeyinde metrikler

Postmortem Kurşun Süresi: Olayın kapanmasından raporun yayınlanmasına kadar medyan.
Kanıt Tamlığı: Raporların zaman çizelgesi, SLI çizelgeleri, günlükleri, PR/iletişim bağlantıları ile paylaşılması.
Uyarı Hijyen Puanı: Eyleme geçirilebilir/FP/dedup/quorum ile bileşik endeks.
Devir Kusurları: Aktif olayların bağlamının kaybolduğu kaymaların oranı.
Eğitim Kapsamı: Çeyrekte simüle edilen % on-call.

14) Metrikler uygulama kontrol listesi

Tek tip zaman damgaları (UTC) ve olay olay sözleşmesi tanımlanmıştır.
SEV, kök nedeni taksonomi ve tespit kaynakları kabul edildi.
Metrikler hacme göre normalleştirilir (trafik/başarı).
Hazır 3 panoları: Yönetici, Operasyonlar, Değişim Etkisi.
Kod Olarak Uyarı: Her Sayfa kuralının bir oynatma kitabı ve bir sahibi vardır.
SLA post-mortem (örn. Taslak ≤72ch, son ≤5 köle. Günler).
CAPA'lar etkili KPI'lar ve D + 14/D + 30 tarihleriyle izlenir.
Haftalık Olay İnceleme: Eğilimler, En Nedenleri, CAPA Durumu.

15) Anti-desenler

MTTD/MTTA/MTTM olmadan sadece MTTR'yi düşünün - erken aşamaların kontrol edilebilirliği kaybı.
Hacimde normalleşmemek - büyük hizmetler "Daha kötü görünüyor".
Sistematik olmayan SEV - farklı olaylar.
Kanıt eksikliği - gelişmeler yerine tartışma.
Yanık/SLO etkisi yerine olay sayısına odaklanın.
Ignore Reopenda ve CAPA - sonsuz tekrarlar.
Telemetri/ITSM'den otomatik yükleme olmadan Excel'deki metrikler.

16) Mini şablonlar

Olay Kartı (abbr.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3. 6% to SLO, burn = 18 min)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Yönetici raporu (28 gün, anahtar çizgiler)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 min; Median MTTD: 4 min; MTTA: 3 min; MTTM: 17 min
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3. 2%
Change Failure Rate: 33% (4/12) - 3 related to config
Reopen(90d): 1/12 (8. 3%); CAPA Completion: 82% (2 overdue)
Top Root Causes: provider(4), config(3), capacity(2)

17) Yol haritası (4-6 hafta)

1. Ned. 1-Timestamp/field standart, SEV/sebep sözlüğü temel olay vitrini.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hesaplamaları, normalleştirme ve SEV-kontrol paneli.
3. Ned. 3: bültenleri/yapılandırmaları, Algılama Kapsamı ve Uyarı Hijyeni ile paket.
4. Ned. 4: Yönetici raporu, ölüm sonrası SLA, CAPA takipçisi.
5. Ned. 5-6: sağlayıcı raporları, yakıcı finansal model, üç aylık hedefler ve üç aylık Olay İncelemesi.

18) Alt satır

Olay metrikleri sadece sayılar değil, operasyonel güvenilirliğin bir storyboard'udur. Tüm akışı ölçtüğünüzde (algılamadan CAPA'ya kadar), metrikleri normalleştirdiğinizde, bunları SLO'lar ve değişikliklerle ilişkilendirdiğinizde ve düzenli olarak gözden geçirdiğinizde, kuruluş yanıt süresini, maliyeti ve olay sıklığını tahmin edilebilir şekilde azaltır - ve kullanıcılar istikrarlı bir hizmet görür.

Olay metrikleri

Çalışma süreleri

Frekans ve orantılı

Sinyallerin ve süreçlerin kalitesi

Yönetici raporu (28 gün, anahtar çizgiler)

Bizimle iletişime geçin

Hızlı iletişim

Video yakında güncellenecek

Şu anda projelerle çok meşgulüz