GH GambleHub

Olay sonrası bilgilendirmeler

1) Olay sonrası ayrıştırma neden gereklidir?

Olay sonrası bilgilendirme (post-mortem/AAR), bir başarısızlıktan sonra bir organizasyonu eğitmek için yapılandırılmış bir süreçtir. Amaç, suçlama bulmak değil, kök ve katkıda bulunan nedenleri belirlemek ve tekrarlama riskini ve olayların maliyetini azaltan, SLO, MTTR ve müşteri/düzenleyici güvenini artıran ölçülebilir eylemleri (CAPA'lar) birleştirmektir.

2) İlkeler (Sadece Kültür)

Suçlama olmadan: Sistemleri, kararları ve bağlamı analiz ederiz, kişilikleri değil.
Gerçekler görüşlerden daha önemlidir: zaman çizelgesi, günlükler, metrikler, izler, değişikliklerin eserleri.
E2E görünüm: müşteri üzerindeki belirtilerden iç bağımlılıklara ve dış sağlayıcılara.
Doğrulanabilirlik: Her hipotez deney/veri ile desteklenir.
Loop closure: CAPA'nın ayrıştırılması - kontrol noktaları - yeniden testler.

3) Ayrıştırma ne zaman çalıştırılır ve hangi formatlar

Gerekli: SEV-0/1; SLA/düzenleyici gerekliliklerin ihlali; veri sızıntısı; Önemli PR riski.
Hızlandırılmış (hafif): Gözle görülür etkisi veya tekrarlayan semptomları olan SEV-2.
İletişim AAR: Hata durum sayfasını/desteğini etkiliyorsa, güncellemelerin SLA'larını ve mesajların kalitesini kontrol ederiz.

Şartlar: 48-72 saat için taslak, son sürüm - 5 iş gününe kadar (aksi kararlaştırılmadıkça).

4) Roller ve sorumluluklar

RCA Lead: Süreci organize eder, toplantıyı yönetir, raporun ve CAPA'nın kalitesinden sorumludur.
Olay Komutanı (IC): Olay gerçekleri ve çözümleri sağlar.
Tech Leads (by Systems): Eserleri doğrulayan neden analizi.
İletişim/Destek/Yasal: iletişim ve uyumluluk gereksinimlerinin değerlendirilmesi.
Scribe: protokol, kanıt toplama, yapıya uyum.

Ürün/İş Paydaşları - Müşteri Etkisi/Ciro, CAPA Önceliklendirme

5) Hazırlık: Toplantıdan önce toplanması gerekenler

Zaman çizgisi (UTC): T0 algılama - Tn kurtarma; Bültenleri/özellik bayrakları/yapılandırmaları, sağlayıcıların durumu.
Gözlemlenebilirlik verileri: SLI/SLO grafikleri, hata oranı, yüzdelikler, günlükler, izler, ekran görüntüleri.
Değişikliklerin bağlamı: PR/dağıtım bağlantıları, DB geçişleri, özellik bayrakları, çalışma planları.
Etki: etkilenen kohortlar/bölgeler/sağlayıcılar, kesinti dakikaları, SLA kredileri.
İletişim: Durum sayfasındaki taslaklar/yayınlar, destek cevapları, dahili duyurular.

Politikacılar/Oyun Kitapları: Sapmaların Olduğu Süreçte Olması Gerekenler

6) Analitik prosedürler (kombinasyon seçin)

5 Neden: Nedensel zincirin hızlı otopsisi (risk - aşırı basitleştirme).
Fishbone Chart: İnsanlar/Süreç/Platform/Politika/Ortak/Ürün.
Hata Ağacı Analizi (FTA) - Olaydan çoklu nedenlere (AND/OR) kesinti.
Değişim Analizi: Olay sırasında stabil duruma karşı ne değişti?
Nedensel Grafik: Karmaşık mikro hizmetler ve dış bağımlılıklar için nedensel grafik.
İnsan Faktörleri İncelemesi: Yorgunluk, bilgi gürültüsü, alakasız runbooks've.

7) Rapor yapısı (şablon)

1. Yönetici Özeti - Ne, ne zaman, kim etkilendi, nihai durum.
2. Etki: SLI/SLO, kullanıcılar, bölgeler/sağlayıcılar, min kesinti süresi, finansal/düzenleyici etkiler.
3. Zaman Çizelgesi (UTC): önemli olaylar, sürümler, IC çözümleri, iletişim.
4. Gözlemler ve veriler: grafikler, günlükler, izler, yapılandırmaların/şemaların dağılımları.
5. Hipotezler ve testler: kabul edilen/reddedilen, deneylere/simülasyonlara referanslar.
6. Kök nedenler: sistem/süreç/teknik (açık ifadeler).
7. Katkıda bulunan faktörler: neden daha önce fark edilmedi/durdurulmadı.
8. İşe yarayan/yaramayan: süreçler, araçlar, insanlar.
9. CAPA: Sahipler/son tarihler/başarı metrikleri ile düzeltici ve önleyici faaliyetler.
10. Doğrulama planı: D + 14/D + 30 kontrol noktaları, kapanış kriterleri.
11. Harici sürümler: istemci/düzenleyici (hassas veri yok).
12. Uygulamalar: eserler, biletlere/PR'ye bağlantılar, gösterge tablolarının ekran görüntüleri.

8) CAPA'lar: eylemler nasıl çalışır

Her eylemin bir sahibi, son tarihi ve bir etki KPI'sı vardır (örneğin, % X'lik bir değişim-başarısızlık oranı düşüşü, 90 günlük sıfır tekrarlama, ani artışlarda yanma oranı azalması).
Ayrı Düzeltici ve Önleyici Tedbirler.
Kod olarak ilkeye bağlantı: uyarılar, SLO kapıları, otomatik ölçeklendirme/sınırlar, GitOps.
CAPA, haftalık operasyonel toplantılardaki incelemelerle kamu birikimine girer.

9) Etki kontrolü ve kapatma

Kontrol noktaları: D + 7 (orta), D + 14/D + 30 (ana), D + 90 (toplam).
Doğrulama: testler/simülasyonlar (oyun günü), gölge trafik, gözlemlenebilirlik (yeşil bölgede kararlı SLI'lar), relaps yok.
Kapatma işlemi yalnızca tamamlanmış CAPA'lar ve doğrulanmış metriklerle mümkündür.

10) İletişim ve Uyumluluk

Dahili: Ürün/destek/yönetim için açık durum, SLA güncellemeleri karşılanır.
Harici: durum sayfası, müşterilere/ortaklara postalar; Suçsuz dil, açık bir önleme planı.
Düzenleyici: bildirim son tarihleri, örneklerin kişiliksizleştirilmesi, raporların ve eserlerin değiştirilemez şekilde saklanması.

11) Süreç Olgunluk Metrikleri

Rapor yayın süresi: gerçek vs SLA (örneğin ≤5 iş günü).
CAPA tamamlanma oranı: Faaliyetlerin %'si son tarihte kapandı.
Yeniden açılma oranı: 90 gün içinde tekrarlanan olayların oranı.
Sistemik nedenlerin oranı vs "insan hatası".
Uyarı hijyeni: yanlış sayfalarda bir azalma, runbook'larla kaplı uyarıların büyümesi.
DORA metrikleri değişimi: MTTR, önce/sonra değişim-başarısızlık oranı.

12) Kontrol listeleri

Ayrıştırmadan önce

  • RCA sahibi ve üyeliği tanımlanmıştır.
  • Toplanan zaman çizelgesi ve eserler (günlükler/grafikler/sürümler/bayraklar).
  • Kohort/bölge/sağlayıcı tarafından değerlendirilen etki.
  • Etki ve Zaman Çizelgesi bölümlerinin taslakları hazırlanmıştır.
  • İlgili politikalar/oyun kitapları gerçek eylemlerle eşleştirilir.

Sırasında

  • Kabul edilen/reddedilen hipotezler ve gerekçeler kaydedildi.
  • Kök ve katkıda bulunan nedenler tanımlanmıştır.
  • KPI'lar ve son tarihler içeren bir CAPA planı oluşturuldu.
  • Dış taraflar için rapor versiyonları kabul edilir (gerekirse).

Sonra

  • Zamanında yayınlanan rapor, role göre erişim.
  • CAPA'lar kaydedilir, sahipler onaylanır.
  • Test noktaları ve mini simülasyon doğrulama için atanır.
  • Güncellenmiş çalışma kitabı/SOP/uyarılar/belgeler.

13) Anti-desenler

"Suçlu adam X" - tekrarlayın - sistemik nedenler olmadan.
CAPA olmadan veya sahipsiz/son tarihler olmadan rapor edin - kağıt için kağıt.
Gerçekler/eserler yok - duyumlar üzerine sonuçlar.
Belirli değişiklikler olmadan çok yaygın dil ("veritabanı aşırı yüklemesi").
İletişimin ve uyumun göz ardı edilmesi itibar riskidir.
Etki testi olmadan kapanma - haftalar sonra nükseder.

14) Mini şablonlar

Rapor başlığı


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

Kök neden formülasyonu (örnek)

💡 Kombinasyon: (1) kart doğrulayıcısının p95 ↑ 1'e değiştirilmesi. 2 c, (2) bütçeli geri ödemeler olmadan PSP-A 1 c'ye zaman aşımı, (3) sağlayıcı için kanarya yok. Bu, büyük zaman aşımlarına ve ödemelerin başarısında bir düşüşe yol açtı.

CAPA (parça)

PSP-A'ya kanarya yönlendirmeyi etkinleştirin (%1 - %5 - %25), sahibi: @ payments-tl, until: 2025-11-07, KPI: Sağlayıcılar 30 gün serbest bıraktığında sıfır P1 olayı.
Toplam ≤ SLA süresi 800 ms olan zaman aşımlarını/geri almayı yeniden yapılandırın, sahip: @ platform-sre, up: 2025-11-05, KPI: p99 <600 ms under load N.
BIN Kohort tarafından İş SLI ekleyin, Sahibi: @ data-lead, için: 2025-11-10, KPI: Degradation Detection <5 dk.

15) Günlük pratiğe gömme

Haftalık RCA incelemeleri: CAPA durumu, yeni dersler, süreç güncellemeleri.
Etiketler (hizmet, SEV, nedenler) ve arama ile wiki post-mortems dizini.
Önlemleri doğrulamak için 2-4 hafta içinde olaya dayalı simülasyonlar.
Çağrı üzerine onboarding dersleri ve eğitim senaryolarının güncellenmesi dahil.

16) Alt satır

Olay sonrası ayrıştırma, sistemik iyileştirme için bir mekanizmadır. Gerçekler toplandığında, nedensellik kanıtlanır, eylemler ölçülebilir ve doğrulanır, kuruluş güvenilirlik işletme sermayesi biriktirir: MTTR ve tekrarlanan olaylar düşer, salım öngörülebilirliği ve müşteri güveni artar.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.