Olay metrikleri
1) Neden olayları ölçer
Olay metrikleri kaotik olayları yönetilebilir bir sürece dönüştürür: yanıt ve kurtarma sürelerini azaltmaya yardımcı olur, neden tekrarını azaltır, SLO/sözleşme yerine getirilmesini kanıtlar ve otomasyon noktalarını bulur. İyi bir metrik seti tüm döngüyü kapsar: Algılama - sınıflandırma - eskalasyon - hafifletici eylemler - kurtarma - ayrıştırma CAPA -.
2) Temel tanımlar ve formüller
Olay aralıkları
MTTD (Mean Time To Detection) = T0'dan (gerçek etki başlangıcı) ilk sinyal/algılamaya kadar geçen ortalama süre.
MTTA (Mean Time To Accept) = İlk sinyalden ack on-call'a kadar geçen ortalama süre.
MTTM (Ortalama Hafifletme Süresi) = SLO eşiğinin (genellikle = UX geçici çözümüne/bozulmasına kadar geçen süre) altında azaltmayı etkileyecek ortalama süre.
MTTR (Ortalama Kurtarma Süresi) = hedef SLI'ların kurtarılmasını tamamlamak için ortalama süre.
MTBF (Mean Time Between Failures): Arızalar arasındaki ortalama süre.
Çalışma süreleri
Beyan Zamanı - T0'dan SEV/olay seviyesinin resmi duyurusuna kadar.
İletişim Zamanı - duyurudan ilk genel/dahili SLA güncellemesine kadar.
Durum Süresi - her aşamada süre (triyaj/diag/düzeltme/doğrulama).
Frekans ve fraksiyonel
Olay Sayısı - periyot başına düşen olay sayısı.
Olay Oranı - 1k/10k/100k başarılı işlem veya isteklerde (normalleştirme).
SEV Mix - ciddiyete göre dağılım (SEV-0... SEV-3).
SLA İhlal Sayısı/Oranı - harici SLA'ların ihlallerinin sayısı/payı.
Değişiklik Hatası Oranı - Değişikliklerin neden olduğu olayların yüzdesi (yayınlar/yapılandırmalar/geçişler).
Sinyallerin ve süreçlerin kalitesi
% Actionable Pages - Anlamlı playbook eylemlerine yol açan sayfaların oranı.
Yanlış Pozitif Oran (Sayfalar) - yanlış pozitiflerin oranı.
Algılama Kapsamı - otomasyon tarafından tespit edilen olayların oranı (müşteriler/destek değil).
Yeniden Açma Oranı - ≤90 günlerde aynı kök nedene sahip tekrarlanan olayların oranı.
CAPA Tamamlama - Düzeltici/önleyici faaliyetlerin %'si zamanında kapatıldı.
Comms SLA Adherance - gerekli sıklıkta yayınlanan güncellemelerin oranı.
3) Olay Aşamasına Göre Metrik Haritası
4) Normalleştirme ve segmentasyon
Sayaçları hacme göre normalleştirin (trafik, başarı, aktif kullanıcılar).
Segmente göre: bölge/kiracı, sağlayıcı (PSP/KYC/CDN), değişim türü (kod/yapılandırma/infra), günün saati (gündüz/gece), algılama kaynağı (sentetik/RUM/infra/destek).
İş SLI'ları (ödemelerin başarısı, kayıtlar, yenileme) iş için önemlidir - olay metriklerini bozulmalarına bağlar.
5) Eşik hedefleri (yer işaretleri, alana uyum sağlar)
MTTD: ≤ için Tier-0 5 dakika ≤ Tier-1 için 10-15 dakika.
MTTA: ≤ 5 dk (24/7), ≤ 10 dk (güneşi takip et).
MTTM: ≤ 15 dakika (Seviye-0), ≤ 30-60 dakika (Seviye-1).
MTTR: ≤ 60 dakika (Seviye-0), ≤ 4 saat (Seviye-1).
Algılama Kapsamı: ≥ %85 otomasyon.
% İşlem Yapılabilir Sayfalar: ≥ %80-90; FP Sayfaları: ≤ %5.
Yeniden Açma Oranı (90д): ≤ %5-10.
CAPA Tamamlama (zamanında): ≥ %85.
6) Nedenlerin ilişkilendirilmesi ve değişikliklerin etkisi
Her bir olaya birincil bir neden (Kod/Yapılandırma/İnfra/Sağlayıcı/Güvenlik/Veri/Kapasite) ve tetikleyici (serbest bırakma kimliği, yapılandırma değişikliği, geçiş, dış faktör) atayın.
Keep Change-linked MTTR/Count - ne kadar sürümler ve yapılandırmalar katkıda bulunur (geçit/kanarya politikaları için temel).
Ayrı olarak, rotaları ve sözleşmeleri yönetmek için Sağlayıcı kaynaklı olayları (PSP/KYC/CDN/Cloud) düşünün.
7) İletişim ve Müşteri Etkisi
İlk Genel Güncelleme ve Güncelleme Zamanı (örneğin, her 15/30 dakikada bir).
Şikayet Oranı - 1 olay hakkında biletler/şikayetler, trend.
Durum Doğruluğu - geri çekilmeden genel güncellemelerin paylaşımı.
Olay Sonrası NPS (anahtar müşteri tarafından) - SEV-1/0 sonra kısa bir destek.
8) Olaylar etrafında kalite metriklerini uyarmak
Sayfa Fırtına İndeksi - bir olay sırasında çağrı başına sayfa/saat sayısı (medyan/p95).
Dedup Verimliliği - bastırılmış kopyaların oranı.
Quorum Confirmation Rate - probların (≥2 bağımsız kaynakların) yeterli çoğunluğunun tetiklendiği olayların oranı.
Gölge - Kanarya - Yeni kuralların (Alert-as-Code) Prod dönüşümü.
9) Gösterge Panoları (minimum set)
1. Executive (28 gün): olay sayısı, SEV dağıtımı, MTTR/MTTM, SLA sonları, Yeniden aç, CAPA.
2. SRE İşlemleri: MTTD/MTTA по часам/сменам, Sayfa Fırtınası, İşlem Yapılabilir %, Algılama Kapsamı, Bildirim/İletişim Zamanı.
3. Değişim Etkisi: serbest bırakma/yapılandırma olaylarının paylaşımı, değişiklik olayları için MTTR, bakım pencereleri ve olaylar.
4. Sağlayıcılar: Sağlayıcıya göre olaylar, bozulma süresi, rota anahtarları, sözleşmeli SLA'lar.
5. Hizmete/Bölgeye Göre Isı Haritası: 1k işlem başına olay ve MTTR.
SLI/SLO grafiklerini sürüm ek açıklamaları ve SEV işaretleri ile birleştirin.
10) Olay Veri Diyagramı (önerilir)
Minimum kart/tablo alanları:
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) Hesaplama örnekleri (SQL fikri)
Zamanla MTTR (medyan):sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Algılama kapsamı:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Hata Oranını Değiştirme (28 gün içinde):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) SLO ve hata bütçelerine bağlantı
Olay başına SLO yazma dakikalarını kaydedin - bu, olayın ana "ağırlığı'dır.
CAPA'yı olay sayısından ziyade toplam yanık ve SEV ağırlığına göre önceliklendirin.
Finansal etkiye sahip bir yanığı bir araya getirin (örnek: $/dakika kesinti süresi veya $/kayıp işlem).
13) Program düzeyinde metrikler
Postmortem Kurşun Süresi: Olayın kapanmasından raporun yayınlanmasına kadar medyan.
Kanıt Tamlığı: Raporların zaman çizelgesi, SLI çizelgeleri, günlükleri, PR/iletişim bağlantıları ile paylaşılması.
Uyarı Hijyen Puanı: Eyleme geçirilebilir/FP/dedup/quorum ile bileşik endeks.
Devir Kusurları: Aktif olayların bağlamının kaybolduğu kaymaların oranı.
Eğitim Kapsamı: Çeyrekte simüle edilen % on-call.
14) Metrikler uygulama kontrol listesi
- Tek tip zaman damgaları (UTC) ve olay olay sözleşmesi tanımlanmıştır.
- SEV, kök nedeni taksonomi ve tespit kaynakları kabul edildi.
- Metrikler hacme göre normalleştirilir (trafik/başarı).
- Hazır 3 panoları: Yönetici, Operasyonlar, Değişim Etkisi.
- Kod Olarak Uyarı: Her Sayfa kuralının bir oynatma kitabı ve bir sahibi vardır.
- SLA post-mortem (örn. Taslak ≤72ch, son ≤5 köle. Günler).
- CAPA'lar etkili KPI'lar ve D + 14/D + 30 tarihleriyle izlenir.
- Haftalık Olay İnceleme: Eğilimler, En Nedenleri, CAPA Durumu.
15) Anti-desenler
MTTD/MTTA/MTTM olmadan sadece MTTR'yi düşünün - erken aşamaların kontrol edilebilirliği kaybı.
Hacimde normalleşmemek - büyük hizmetler "Daha kötü görünüyor".
Sistematik olmayan SEV - farklı olaylar.
Kanıt eksikliği - gelişmeler yerine tartışma.
Yanık/SLO etkisi yerine olay sayısına odaklanın.
Ignore Reopenda ve CAPA - sonsuz tekrarlar.
Telemetri/ITSM'den otomatik yükleme olmadan Excel'deki metrikler.
16) Mini şablonlar
Olay Kartı (abbr.)
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
Yönetici raporu (28 gün, kilit çizgiler)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) Yol haritası (4-6 hafta)
1. Ned. 1-Timestamp/field standart, SEV/sebep sözlüğü temel olay vitrini.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hesaplamaları, normalleştirme ve SEV-kontrol paneli.
3. Ned. 3: bültenleri/yapılandırmaları, Algılama Kapsamı ve Uyarı Hijyeni ile paket.
4. Ned. 4: Yönetici raporu, ölüm sonrası SLA, CAPA takipçisi.
5. Ned. 5-6: sağlayıcı raporları, yakıcı finansal model, üç aylık hedefler ve üç aylık Olay İncelemesi.
18) Alt satır
Olay metrikleri sadece sayılar değil, operasyonel güvenilirliğin bir storyboard'udur. Tüm akışı ölçtüğünüzde (algılamadan CAPA'ya kadar), metrikleri normalleştirdiğinizde, bunları SLO'lar ve değişikliklerle ilişkilendirdiğinizde ve düzenli olarak gözden geçirdiğinizde, kuruluş yanıt süresini, maliyeti ve olay sıklığını tahmin edilebilir şekilde azaltır - ve kullanıcılar istikrarlı bir hizmet görür.