Olay sonrası bilgilendirmeler
1) Olay sonrası ayrıştırma neden gereklidir?
Olay sonrası bilgilendirme (post-mortem/AAR), bir başarısızlıktan sonra bir organizasyonu eğitmek için yapılandırılmış bir süreçtir. Amaç, suçlama bulmak değil, kök ve katkıda bulunan nedenleri belirlemek ve tekrarlama riskini ve olayların maliyetini azaltan, SLO, MTTR ve müşteri/düzenleyici güvenini artıran ölçülebilir eylemleri (CAPA'lar) birleştirmektir.
2) İlkeler (Sadece Kültür)
Suçlama olmadan: Sistemleri, kararları ve bağlamı analiz ederiz, kişilikleri değil.
Gerçekler görüşlerden daha önemlidir: zaman çizelgesi, günlükler, metrikler, izler, değişikliklerin eserleri.
E2E görünüm: müşteri üzerindeki belirtilerden iç bağımlılıklara ve dış sağlayıcılara.
Doğrulanabilirlik: Her hipotez deney/veri ile desteklenir.
Loop closure: CAPA'nın ayrıştırılması - kontrol noktaları - yeniden testler.
3) Ayrıştırma ne zaman çalıştırılır ve hangi formatlar
Gerekli: SEV-0/1; SLA/düzenleyici gerekliliklerin ihlali; veri sızıntısı; Önemli PR riski.
Hızlandırılmış (hafif): Gözle görülür etkisi veya tekrarlayan semptomları olan SEV-2.
İletişim AAR: Hata durum sayfasını/desteğini etkiliyorsa, güncellemelerin SLA'larını ve mesajların kalitesini kontrol ederiz.
Şartlar: 48-72 saat için taslak, son sürüm - 5 iş gününe kadar (aksi kararlaştırılmadıkça).
4) Roller ve sorumluluklar
RCA Lead: Süreci organize eder, toplantıyı yönetir, raporun ve CAPA'nın kalitesinden sorumludur.
Olay Komutanı (IC): Olay gerçekleri ve çözümleri sağlar.
Tech Leads (by Systems): Eserleri doğrulayan neden analizi.
İletişim/Destek/Yasal: iletişim ve uyumluluk gereksinimlerinin değerlendirilmesi.
Scribe: protokol, kanıt toplama, yapıya uyum.
Ürün/İş Paydaşları - Müşteri Etkisi/Ciro, CAPA Önceliklendirme
5) Hazırlık: Toplantıdan önce toplanması gerekenler
Zaman çizgisi (UTC): T0 algılama - Tn kurtarma; Bültenleri/özellik bayrakları/yapılandırmaları, sağlayıcıların durumu.
Gözlemlenebilirlik verileri: SLI/SLO grafikleri, hata oranı, yüzdelikler, günlükler, izler, ekran görüntüleri.
Değişikliklerin bağlamı: PR/dağıtım bağlantıları, DB geçişleri, özellik bayrakları, çalışma planları.
Etki: etkilenen kohortlar/bölgeler/sağlayıcılar, kesinti dakikaları, SLA kredileri.
İletişim: Durum sayfasındaki taslaklar/yayınlar, destek cevapları, dahili duyurular.
Politikacılar/Oyun Kitapları: Sapmaların Olduğu Süreçte Olması Gerekenler
6) Analitik prosedürler (kombinasyon seçin)
5 Neden: Nedensel zincirin hızlı otopsisi (risk - aşırı basitleştirme).
Fishbone Chart: İnsanlar/Süreç/Platform/Politika/Ortak/Ürün.
Hata Ağacı Analizi (FTA) - Olaydan çoklu nedenlere (AND/OR) kesinti.
Değişim Analizi: Olay sırasında stabil duruma karşı ne değişti?
Nedensel Grafik: Karmaşık mikro hizmetler ve dış bağımlılıklar için nedensel grafik.
İnsan Faktörleri İncelemesi: Yorgunluk, bilgi gürültüsü, alakasız runbooks've.
7) Rapor yapısı (şablon)
1. Yönetici Özeti - Ne, ne zaman, kim etkilendi, nihai durum.
2. Etki: SLI/SLO, kullanıcılar, bölgeler/sağlayıcılar, min kesinti süresi, finansal/düzenleyici etkiler.
3. Zaman Çizelgesi (UTC): önemli olaylar, sürümler, IC çözümleri, iletişim.
4. Gözlemler ve veriler: grafikler, günlükler, izler, yapılandırmaların/şemaların dağılımları.
5. Hipotezler ve testler: kabul edilen/reddedilen, deneylere/simülasyonlara referanslar.
6. Kök nedenler: sistem/süreç/teknik (açık ifadeler).
7. Katkıda bulunan faktörler: neden daha önce fark edilmedi/durdurulmadı.
8. İşe yarayan/yaramayan: süreçler, araçlar, insanlar.
9. CAPA: Sahipler/son tarihler/başarı metrikleri ile düzeltici ve önleyici faaliyetler.
10. Doğrulama planı: D + 14/D + 30 kontrol noktaları, kapanış kriterleri.
11. Harici sürümler: istemci/düzenleyici (hassas veri yok).
12. Uygulamalar: eserler, biletlere/PR'ye bağlantılar, gösterge tablolarının ekran görüntüleri.
8) CAPA'lar: eylemler nasıl çalışır
Her eylemin bir sahibi, son tarihi ve bir etki KPI'sı vardır (örneğin, % X'lik bir değişim-başarısızlık oranı düşüşü, 90 günlük sıfır tekrarlama, ani artışlarda yanma oranı azalması).
Ayrı Düzeltici ve Önleyici Tedbirler.
Kod olarak ilkeye bağlantı: uyarılar, SLO kapıları, otomatik ölçeklendirme/sınırlar, GitOps.
CAPA, haftalık operasyonel toplantılardaki incelemelerle kamu birikimine girer.
9) Etki kontrolü ve kapatma
Kontrol noktaları: D + 7 (orta), D + 14/D + 30 (ana), D + 90 (toplam).
Doğrulama: testler/simülasyonlar (oyun günü), gölge trafik, gözlemlenebilirlik (yeşil bölgede kararlı SLI'lar), relaps yok.
Kapatma işlemi yalnızca tamamlanmış CAPA'lar ve doğrulanmış metriklerle mümkündür.
10) İletişim ve Uyumluluk
Dahili: Ürün/destek/yönetim için açık durum, SLA güncellemeleri karşılanır.
Harici: durum sayfası, müşterilere/ortaklara postalar; Suçsuz dil, açık bir önleme planı.
Düzenleyici: bildirim son tarihleri, örneklerin kişiliksizleştirilmesi, raporların ve eserlerin değiştirilemez şekilde saklanması.
11) Süreç Olgunluk Metrikleri
Rapor yayın süresi: gerçek vs SLA (örneğin ≤5 iş günü).
CAPA tamamlanma oranı: Faaliyetlerin %'si son tarihte kapandı.
Yeniden açılma oranı: 90 gün içinde tekrarlanan olayların oranı.
Sistemik nedenlerin oranı vs "insan hatası".
Uyarı hijyeni: yanlış sayfalarda bir azalma, runbook'larla kaplı uyarıların büyümesi.
DORA metrikleri değişimi: MTTR, önce/sonra değişim-başarısızlık oranı.
12) Kontrol listeleri
Ayrıştırmadan önce
- RCA sahibi ve üyeliği tanımlanmıştır.
- Toplanan zaman çizelgesi ve eserler (günlükler/grafikler/sürümler/bayraklar).
- Kohort/bölge/sağlayıcı tarafından değerlendirilen etki.
- Etki ve Zaman Çizelgesi bölümlerinin taslakları hazırlanmıştır.
- İlgili politikalar/oyun kitapları gerçek eylemlerle eşleştirilir.
Sırasında
- Kabul edilen/reddedilen hipotezler ve gerekçeler kaydedildi.
- Kök ve katkıda bulunan nedenler tanımlanmıştır.
- KPI'lar ve son tarihler içeren bir CAPA planı oluşturuldu.
- Dış taraflar için rapor versiyonları kabul edilir (gerekirse).
Sonra
- Zamanında yayınlanan rapor, role göre erişim.
- CAPA'lar kaydedilir, sahipler onaylanır.
- Test noktaları ve mini simülasyon doğrulama için atanır.
- Güncellenmiş çalışma kitabı/SOP/uyarılar/belgeler.
13) Anti-desenler
"Suçlu adam X" - tekrarlayın - sistemik nedenler olmadan.
CAPA olmadan veya sahipsiz/son tarihler olmadan rapor edin - kağıt için kağıt.
Gerçekler/eserler yok - duyumlar üzerine sonuçlar.
Belirli değişiklikler olmadan çok yaygın dil ("veritabanı aşırı yüklemesi").
İletişimin ve uyumun göz ardı edilmesi itibar riskidir.
Etki testi olmadan kapanma - haftalar sonra nükseder.
14) Mini şablonlar
Rapor başlığı
Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring
Kök neden formülasyonu (örnek)
CAPA (parça)
PSP-A'ya kanarya yönlendirmeyi etkinleştirin (%1 - %5 - %25), sahibi: @ payments-tl, until: 2025-11-07, KPI: Sağlayıcılar 30 gün serbest bıraktığında sıfır P1 olayı.
Toplam ≤ SLA süresi 800 ms olan zaman aşımlarını/geri almayı yeniden yapılandırın, sahip: @ platform-sre, up: 2025-11-05, KPI: p99 <600 ms under load N.
BIN Kohort tarafından İş SLI ekleyin, Sahibi: @ data-lead, için: 2025-11-10, KPI: Degradation Detection <5 dk.
15) Günlük pratiğe gömme
Haftalık RCA incelemeleri: CAPA durumu, yeni dersler, süreç güncellemeleri.
Etiketler (hizmet, SEV, nedenler) ve arama ile wiki post-mortems dizini.
Önlemleri doğrulamak için 2-4 hafta içinde olaya dayalı simülasyonlar.
Çağrı üzerine onboarding dersleri ve eğitim senaryolarının güncellenmesi dahil.
16) Alt satır
Olay sonrası ayrıştırma, sistemik iyileştirme için bir mekanizmadır. Gerçekler toplandığında, nedensellik kanıtlanır, eylemler ölçülebilir ve doğrulanır, kuruluş güvenilirlik işletme sermayesi biriktirir: MTTR ve tekrarlanan olaylar düşer, salım öngörülebilirliği ve müşteri güveni artar.