GH GambleHub

Olay simülasyonları

1) Neden simülasyonlar yapın

Olay simülasyonları, ekibin gerçek oyun kitaplarını kullanarak tespit, teşhis, tırmanma ve kurtarma üzerinde çalıştığı güvenli egzersizlerdir. Olanlar:
  • Düşük MTTD/MTTA/MTTR, geri tepme ve fylovers güven artırmak;
  • Süreç boşluklarını (tırmanma, iletişim) ve mimari zayıflıkları tanımlar;
  • RCA-CAPA'ya bir girdi olarak hizmet eder ve belgeleri geliştirir (runbook/SOP);
  • SLA/düzenleyici/denetim gereksinimlerine hazır olduğunuzu onaylayın.

2) Simülasyon formatları

Masa üstü (masa üstü) - tahtada/sohbette konuşma senaryosu: ucuz, hızlı, rolleri ve iletişimi uygulamak için harika.
Oyun Günü (sahnede egzersizler/kısıtlamalarla satış) - oyun kitapları için pratik adımlar; Satışta - sadece güvenli, geri dönüşümlü, açık kapılı eylemler.
Kaos Mühendisliği - stabiliteyi ve SLO kapılarını kontrol etmek için kontrollü arızalar (bağımlılıkların/ağların/düğümlerin kesilmesi).
DR egzersizleri (Felaket Kurtarma) - AZ/bölge hatası, yedeklemelerden kurtarma, sağlayıcıları değiştirme.
Comms-drill - tamamen iletişim: durum sayfası, mesaj şablonları, PR/Yasal.

3) Roller ve sorumluluklar

Olay Komutanı (IC) - kararlar alır, bir plan yönetir, gerilimi azaltır.
Tech Lead (TL) - teşhis, teknik "enjeksiyonlar've hipotezler.
Comms Lead (CL) - dahili/harici güncellemeler, durum sayfası.
Scribe - protokol (zaman çizelgesi, eylemler, kararlar, eserler).
Gözlemciler/Değerlendiriciler - metrikleri ve prosedürlere uygunluğu kaydedin.
Kırmızı Takım (isteğe bağlı) - beklenmedik "enjeksiyonlar" sunar.

💡 Roller savaş olaylarıyla çakışır - maksimum beceri transferi.

4) Simülasyon başarı metrikleri

MTTD/MTTA/MTTR sentetik olay tarafından.
Comm SLA: Güncelleştirmelerin güncelliği ve kalitesi.
SLO-korkuluklar: yanma hızına doğru reaksiyon, harici örneklerin çoğunluğu.
Runbook sadakati: Belge başına tamamlanan adımların yüzdesi, doğaçlama yok.
Yükseltme gecikmesi - istenen rolü/sağlayıcıyı bağlama hızı.
Kontrol listeleri geçiş hızı: "hazır/kabul edilmiş/kapalı'ile uyumluluk.
Gürültü ve Yorgunluk: ekstra uyarılar, çağrı üzerine aşırı yük.
CAPA tamamlama: simülasyondan sonra tamamlanan eylemlerin yüzdesi.

5) Hazırlık: Başlamadan önce ihtiyacınız olan şey

Amaç ve hipotezler: kontrol ettiklerimiz (süreçler, mimari, insanlar).
Senaryo ve "enjeksiyonlar": zamanlamaları olan semptomların/olayların sırası.
Güvenlik kısıtlamaları: geri dönüşü olmayan değişikliklerin yasaklanması; Geri alma noktaları.
Veri ve standlar: sentetik trafik, bozulma özelliği bayraklar, güvenli anahtarlar.
Belgeler: runbook/SOP bağlantıları, eskalasyon, sağlayıcıların kişi listesi.
Gözlemlenebilirlik: önceden işaretlenmiş panolar/uyarılar, test kanaryaları.
Lojistik: Zaman/süre, katılımcılar, savaş odası kanalı, kayıt.

6) Simülasyon yürütme: aşamalar

1. Özet (5-10 dk): IC hedeflere, rollere, güvenlik kurallarına, tamamlama kriterlerine benzer.
2. T0 - Semptomların enjeksiyonu: uyarı (lar), iş SLI'sında düşüş, sağlayıcının dış durumu.
3. Triyaj ve tırmanma: SEV atama, salımları dondurma, gerekli rolleri bağlama.
4. Tanılama: hipotezler, DNS/TLS/CDN/DB/önbellek/veri yolu kontrolü, sürüm ek açıklamaları.
5. Hafifletici eylemler: otkat/kanareyka↓, bozulma bayrakları, sağlayıcı yük devretme, sınırlar/retras.
6. İletişim: Düzenli güncellemeler (format: Impakt ^ Diagnostika ^ Deystviya ^ Sled. ) güncelleyin.
7. Kurtarma ve doğrulama: dış sentetikler + yeşil bölge N aralıklarında SLI.
8. Debrief (AAR): 15-30 dakika - gerçekler, sonuçlar, CAPA.

7) Örnek senaryolar (katalog)

Düşen ödeme başarısı: Sağlayıcı A bir ülkede düşer; Beklenen eylemler - trafik yeniden dağıtımı, basitleştirilmiş UX, iletişim.
DNS hatası: yazma/TTL hatası, bazı kullanıcılar etki alanını çözmüyor; Beklenen adımlar - düzeltmeler/folback, CDN temizleme, durum güncellemeleri.
Süresi dolmuş TLS sertifikası: eski müşteriler için el sıkışma molaları; acil uzatma ve zincir kontrol beklemede.
Kafka lag: KYC/AML olaylarında artan gecikme; Beklentiler - tüketicileri ölçeklendirmek, üreticileri sınırlamak.
Veritabanı p99 ↑ ve büyüme 5xx: dar indeksler, bağlantı sınırı; Beklentiler - özellik bayrakları, limitler, düzeltme/geri alma.
Bölgesel başarısızlık: AZ/PoP kapatma; Bekleme - GSLB/Anycast anahtarlama, veri doğrulama ve SLO.
İletişim Matkabı: Her şey'yeşil'dir, ancak kalıpları, aralıkları ve Yasal/PR ile koordinasyonu kontrol ederiz.

8) Şablon "enjeksiyon" (kart)


ID: INJ-2025-11-01-01
Purpose: Verification of failover payments and comms SLA
Trigger T0: 30% reduction in transaction success in the TR region (alert SLI + burn rate)
Signals: 5xx growth in payment API, external status PSP-A = partial outage
Expected actions: reduction of the share on PSP-A to 30%, inclusion of degrade-payments-UX, status update 15 min
Success criteria: success of payments ≥ 98% in 30 minutes, two green SLI intervals
NOTAM (security): prohibition of direct database edits; flags/routing only

9) Güvenlik ve uyumluluk

Üretim simülasyonları - sadece tersine çevrilebilir: özellik bayrakları, küçük kesirlerde trafiği değiştirme, okuma için açıklamalar, "gölge trafik".
Erişim kontrolü/denetimi: ChatOps/pipeline aracılığıyla yapılan tüm işlemler; Değiştirilemeyen depolama alanında oturum açar.
PII/sırlar - eğitim eserlerinde kullanılmaz; veriler kişiliksizleştirildi.
Düzenleyici: simülasyon müşteri iletişimini etkiliyorsa - özel kanallarda "öğretme" işareti; Kamu görevleri taklit edilmez.

10) Değerlendirme ve AAR - RCA - CAPA

AAR (After Action Review) - egzersizden hemen sonra: beklenen/görülen, işe yarayan/yaramayan.
RCA - RCA şablonuna göre önemli arızalar için (örneğin, yükseltme işe yaramadı).
CAPA - sahipler/son tarihler/etki metrikleri (oyun kitaplarındaki değişiklikler, uyarılar, mimari) içeren eylemlerin listesi.
Kontrol noktaları - D + 14/D + 30: Uygulamanın doğrulanması, hassas noktalarda tekrarlanan mini tatbikatlar.

11) Dokümantasyon ve eserler

Simülasyon planı: hedefler, senaryo, enjeksiyonlar, katılımcılar, pencereler, başarı kriterleri.
Zaman çizgisi (UTC): T0...Tn, IC çözümleri, teknik adımlar, güncellemeler.
Panoların/günlüklerin resimleri, uyarıların ve durumların özetleri.

Özet Raporu - Metrikler, Playbook Tutarsızlıkları, CAPA'lar

Dokümantasyon güncellemeleri: runbook/SOP/contact düzenlemeleri, yeni panolara bağlantılar.

12) Frekans ve kapsama alanı

Masa üstü: Ayda 2-4 kez (anahtar akışları ve rolleri ile).
Sahnede Oyun Günleri: Ayda 1-2 kez.
Kaos vakaları (prod-light): üç ayda bir, kesinlikle kapılarla.
DR egzersizleri: Gerçek anahtarlama ile yılda 1-2 kez.
Comms-drill: aylık olarak şablonları ve SLA güncellemelerini eğitmek için.

13) Kontrol listeleri

Simülasyondan önce

  • Senaryo, "enjeksiyonlar", başarı kriterleri, güvenlik pencereleri.
  • Roller, kanallar, şablonların durumu tutarlıdır.
  • Standların/bayrakların/panoların kullanılabilirliği kontrol edildi.
  • Geri çekilme ve geri döndürülebilirlik planı belgelenmiştir.
  • Riskler ve değerlendirilen SLO/müşteriler üzerindeki etkisi.

Sırasında

  • SEV atandı, sürümleri dondurun (gerekirse).
  • Bir programda iletişim, format tutarlıdır.
  • Denetim araçları aracılığıyla tüm eylemler.
  • Yazıcı bir protokol tutar, eserler toplar.
  • Güvenlik: Yasaklara/kısıtlamalara riayet edilir.

Sonra

  • AAR gönderildi, rapor kaydedildi.
  • RCA (arıza durumunda) başlatılır.
  • CAPA'lar sahipler/son tarihler ile verilir.
  • Güncellenmiş çalışma kitabı/SOP/kişiler.
  • Güvenlik açıklarının yeniden test edilmesi planlanmaktadır.

14) Anti-desenler

"Plan yerine doğaçlama" - başarı için senaryo ve kriter yoktur.
Kapılar ve iptal planı olmayan riskler - egzersizler bir olaya dönüşür.
İletişim ve tırmanma olmadan sadece ekipman çalışıyor.
AAR/RCA eksikliği - takım öğrenmiyor.
Gözlemlenebilirlik ve SLO-gardrails olmadan prod-kaos.
Opak haklar: prod'da gizli el kitabı düzenlemeleri.

15) Mini şablonlar

Oyun Günü Gündemi (60-90 dk)

1. Kısa (5 dk) - Hedefler, roller, güvenlik.
2. Senaryo T0 (5 dk) - Semptomların sunumu.
3. Triyaj/tırmanma (10 dakika).
4. Teşhis + eylemler (30-45 dakika) - 1-2 "enjeksiyon".
5. Kurtarma ve doğrulama (10 dk).
6. AAR (15 dk) - sonuçlar, CAPA.

AAR Şablonu (Kısa)


What was expected:
What happened:
What worked:
What didn't work:
Solutions and why:
Actions (CAPA) with deadlines:
Responsible persons:
Retest Date:

16) Alt satır

Olay simülasyonları insanlar, süreçler ve mimari için bir "simülatör'dür. Düzenli, güvenli ve ölçülebilir egzersizler krizleri bir rutine dönüştürür: Ekip daha hızlı tepki verir, oyun kitapları gerçekten çalışır, mimari daha istikrarlıdır ve düzenleyici ve müşteriler operasyonel fonksiyonun olgunluğunu görür. Ana şey net hedefler, güvenli kapılar, iyi metrikler ve zorunlu AAR - RCA - CAPA.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.