GH GambleHub

Olay metrikleri

1) Neden olayları ölçer

Olay metrikleri kaotik olayları yönetilebilir bir sürece dönüştürür: yanıt ve kurtarma sürelerini azaltmaya yardımcı olur, neden tekrarını azaltır, SLO/sözleşme yerine getirilmesini kanıtlar ve otomasyon noktalarını bulur. İyi bir metrik seti tüm döngüyü kapsar: Algılama - sınıflandırma - eskalasyon - hafifletici eylemler - kurtarma - ayrıştırma CAPA -.


2) Temel tanımlar ve formüller

Olay aralıkları

MTTD (Mean Time To Detection) = T0'dan (gerçek etki başlangıcı) ilk sinyal/algılamaya kadar geçen ortalama süre.
MTTA (Mean Time To Accept) = İlk sinyalden ack on-call'a kadar geçen ortalama süre.
MTTM (Ortalama Hafifletme Süresi) = SLO eşiğinin (genellikle = UX geçici çözümüne/bozulmasına kadar geçen süre) altında azaltmayı etkileyecek ortalama süre.
MTTR (Ortalama Kurtarma Süresi) = hedef SLI'ların kurtarılmasını tamamlamak için ortalama süre.
MTBF (Mean Time Between Failures): Arızalar arasındaki ortalama süre.

Çalışma süreleri

Beyan Zamanı - T0'dan SEV/olay seviyesinin resmi duyurusuna kadar.
İletişim Zamanı - duyurudan ilk genel/dahili SLA güncellemesine kadar.
Durum Süresi - her aşamada süre (triyaj/diag/düzeltme/doğrulama).

Frekans ve fraksiyonel

Olay Sayısı - periyot başına düşen olay sayısı.
Olay Oranı - 1k/10k/100k başarılı işlem veya isteklerde (normalleştirme).
SEV Mix - ciddiyete göre dağılım (SEV-0... SEV-3).
SLA İhlal Sayısı/Oranı - harici SLA'ların ihlallerinin sayısı/payı.
Değişiklik Hatası Oranı - Değişikliklerin neden olduğu olayların yüzdesi (yayınlar/yapılandırmalar/geçişler).

Sinyallerin ve süreçlerin kalitesi

% Actionable Pages - Anlamlı playbook eylemlerine yol açan sayfaların oranı.
Yanlış Pozitif Oran (Sayfalar) - yanlış pozitiflerin oranı.
Algılama Kapsamı - otomasyon tarafından tespit edilen olayların oranı (müşteriler/destek değil).
Yeniden Açma Oranı - ≤90 günlerde aynı kök nedene sahip tekrarlanan olayların oranı.
CAPA Tamamlama - Düzeltici/önleyici faaliyetlerin %'si zamanında kapatıldı.
Comms SLA Adherance - gerekli sıklıkta yayınlanan güncellemelerin oranı.


3) Olay Aşamasına Göre Metrik Haritası

Sahne AlanıTemel metriklerSoru
AlgılamaMTTD, Algılama Kapsamı, Kaynak Karışımı (kullanıcılara karşı izleme)Sorunu ne kadar hızlı ve kim tespit ediyor?
ReaksiyonMTTA, Bildirme Zamanı, Sayfadan Ack'a %, Yükseltme GecikmesiEkip, SEV'leri ne kadar hızlı harekete geçirir ve atar?
HafifleticiMTTM, Geçici Başarı %, Donma Gecikmesini DeğiştirEtki ne kadar sürede güvenli bir seviyeye indirilir?
RestorasyonMTTR, SLO Yanık Durmuş Zaman, Artık Risk PenceresiServis ne zaman tamamen normale döndü?
İletişimİletişim Zamanı, Comms SLA Bağlılık, Duygu/ŞikayetlerNe kadar iyi ve zamanında iletişim kuruyoruz?
EğitimPostmortem Kurşun Zamanı, CAPA Tamamlama/Gecikmiş, Yeniden Açma OranıGelişme döngüsünü öğreniyor ve kapatıyor muyuz?

4) Normalleştirme ve segmentasyon

Sayaçları hacme göre normalleştirin (trafik, başarı, aktif kullanıcılar).
Segmente göre: bölge/kiracı, sağlayıcı (PSP/KYC/CDN), değişim türü (kod/yapılandırma/infra), günün saati (gündüz/gece), algılama kaynağı (sentetik/RUM/infra/destek).
İş SLI'ları (ödemelerin başarısı, kayıtlar, yenileme) iş için önemlidir - olay metriklerini bozulmalarına bağlar.


5) Eşik hedefleri (yer işaretleri, alana uyum sağlar)

MTTD: ≤ için Tier-0 5 dakika ≤ Tier-1 için 10-15 dakika.
MTTA: ≤ 5 dk (24/7), ≤ 10 dk (güneşi takip et).
MTTM: ≤ 15 dakika (Seviye-0), ≤ 30-60 dakika (Seviye-1).
MTTR: ≤ 60 dakika (Seviye-0), ≤ 4 saat (Seviye-1).
Algılama Kapsamı: ≥ %85 otomasyon.
% İşlem Yapılabilir Sayfalar: ≥ %80-90; FP Sayfaları: ≤ %5.
Yeniden Açma Oranı (90д): ≤ %5-10.
CAPA Tamamlama (zamanında): ≥ %85.


6) Nedenlerin ilişkilendirilmesi ve değişikliklerin etkisi

Her bir olaya birincil bir neden (Kod/Yapılandırma/İnfra/Sağlayıcı/Güvenlik/Veri/Kapasite) ve tetikleyici (serbest bırakma kimliği, yapılandırma değişikliği, geçiş, dış faktör) atayın.
Keep Change-linked MTTR/Count - ne kadar sürümler ve yapılandırmalar katkıda bulunur (geçit/kanarya politikaları için temel).
Ayrı olarak, rotaları ve sözleşmeleri yönetmek için Sağlayıcı kaynaklı olayları (PSP/KYC/CDN/Cloud) düşünün.


7) İletişim ve Müşteri Etkisi

İlk Genel Güncelleme ve Güncelleme Zamanı (örneğin, her 15/30 dakikada bir).
Şikayet Oranı - 1 olay hakkında biletler/şikayetler, trend.
Durum Doğruluğu - geri çekilmeden genel güncellemelerin paylaşımı.
Olay Sonrası NPS (anahtar müşteri tarafından) - SEV-1/0 sonra kısa bir destek.


8) Olaylar etrafında kalite metriklerini uyarmak

Sayfa Fırtına İndeksi - bir olay sırasında çağrı başına sayfa/saat sayısı (medyan/p95).
Dedup Verimliliği - bastırılmış kopyaların oranı.
Quorum Confirmation Rate - probların (≥2 bağımsız kaynakların) yeterli çoğunluğunun tetiklendiği olayların oranı.
Gölge - Kanarya - Yeni kuralların (Alert-as-Code) Prod dönüşümü.


9) Gösterge Panoları (minimum set)

1. Executive (28 gün): olay sayısı, SEV dağıtımı, MTTR/MTTM, SLA sonları, Yeniden aç, CAPA.
2. SRE İşlemleri: MTTD/MTTA по часам/сменам, Sayfa Fırtınası, İşlem Yapılabilir %, Algılama Kapsamı, Bildirim/İletişim Zamanı.
3. Değişim Etkisi: serbest bırakma/yapılandırma olaylarının paylaşımı, değişiklik olayları için MTTR, bakım pencereleri ve olaylar.
4. Sağlayıcılar: Sağlayıcıya göre olaylar, bozulma süresi, rota anahtarları, sözleşmeli SLA'lar.
5. Hizmete/Bölgeye Göre Isı Haritası: 1k işlem başına olay ve MTTR.

SLI/SLO grafiklerini sürüm ek açıklamaları ve SEV işaretleri ile birleştirin.


10) Olay Veri Diyagramı (önerilir)

Minimum kart/tablo alanları:

incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Hesaplama örnekleri (SQL fikri)

Zamanla MTTR (medyan):
sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Algılama kapsamı:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Hata Oranını Değiştirme (28 gün içinde):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) SLO ve hata bütçelerine bağlantı

Olay başına SLO yazma dakikalarını kaydedin - bu, olayın ana "ağırlığı'dır.
CAPA'yı olay sayısından ziyade toplam yanık ve SEV ağırlığına göre önceliklendirin.
Finansal etkiye sahip bir yanığı bir araya getirin (örnek: $/dakika kesinti süresi veya $/kayıp işlem).


13) Program düzeyinde metrikler

Postmortem Kurşun Süresi: Olayın kapanmasından raporun yayınlanmasına kadar medyan.
Kanıt Tamlığı: Raporların zaman çizelgesi, SLI çizelgeleri, günlükleri, PR/iletişim bağlantıları ile paylaşılması.
Uyarı Hijyen Puanı: Eyleme geçirilebilir/FP/dedup/quorum ile bileşik endeks.
Devir Kusurları: Aktif olayların bağlamının kaybolduğu kaymaların oranı.
Eğitim Kapsamı: Çeyrekte simüle edilen % on-call.


14) Metrikler uygulama kontrol listesi

  • Tek tip zaman damgaları (UTC) ve olay olay sözleşmesi tanımlanmıştır.
  • SEV, kök nedeni taksonomi ve tespit kaynakları kabul edildi.
  • Metrikler hacme göre normalleştirilir (trafik/başarı).
  • Hazır 3 panoları: Yönetici, Operasyonlar, Değişim Etkisi.
  • Kod Olarak Uyarı: Her Sayfa kuralının bir oynatma kitabı ve bir sahibi vardır.
  • SLA post-mortem (örn. Taslak ≤72ch, son ≤5 köle. Günler).
  • CAPA'lar etkili KPI'lar ve D + 14/D + 30 tarihleriyle izlenir.
  • Haftalık Olay İnceleme: Eğilimler, En Nedenleri, CAPA Durumu.

15) Anti-desenler

MTTD/MTTA/MTTM olmadan sadece MTTR'yi düşünün - erken aşamaların kontrol edilebilirliği kaybı.
Hacimde normalleşmemek - büyük hizmetler "Daha kötü görünüyor".
Sistematik olmayan SEV - farklı olaylar.
Kanıt eksikliği - gelişmeler yerine tartışma.
Yanık/SLO etkisi yerine olay sayısına odaklanın.
Ignore Reopenda ve CAPA - sonsuz tekrarlar.
Telemetri/ITSM'den otomatik yükleme olmadan Excel'deki metrikler.


16) Mini şablonlar

Olay Kartı (abbr.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Yönetici raporu (28 gün, kilit çizgiler)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)

17) Yol haritası (4-6 hafta)

1. Ned. 1-Timestamp/field standart, SEV/sebep sözlüğü temel olay vitrini.
2. Ned. 2: MTTD/MTTA/MTTM/MTTR hesaplamaları, normalleştirme ve SEV-kontrol paneli.
3. Ned. 3: bültenleri/yapılandırmaları, Algılama Kapsamı ve Uyarı Hijyeni ile paket.
4. Ned. 4: Yönetici raporu, ölüm sonrası SLA, CAPA takipçisi.
5. Ned. 5-6: sağlayıcı raporları, yakıcı finansal model, üç aylık hedefler ve üç aylık Olay İncelemesi.


18) Alt satır

Olay metrikleri sadece sayılar değil, operasyonel güvenilirliğin bir storyboard'udur. Tüm akışı ölçtüğünüzde (algılamadan CAPA'ya kadar), metrikleri normalleştirdiğinizde, bunları SLO'lar ve değişikliklerle ilişkilendirdiğinizde ve düzenli olarak gözden geçirdiğinizde, kuruluş yanıt süresini, maliyeti ve olay sıklığını tahmin edilebilir şekilde azaltır - ve kullanıcılar istikrarlı bir hizmet görür.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.