GH GambleHub

Olay ve kaza yanıtı

(Bölüm: Operasyonlar ve Yönetim)

1) Tanımlar ve hedefler

Olay - SLO/güvenlik/uyumluluğu ihlal eden veya müşteriler, para, veri, itibar için risk oluşturan bir olay.
Reaksiyonun hedefleri: hizmeti hızlı bir şekilde geri yüklemek, hasarı en aza indirmek, kanıtları düzeltmek, şeffaf bir şekilde iletişim kurmak ve tekrarlamayı önlemek.

Temel ilkeler

Önce güvenlik: Özellikleri üzerinden insanları/verileri/parayı korumak.
Boğulacak bir boğaz: Tek bir Olay Komutanı (IC) karar verir.
Şimdi harekete geçirilebilir: Her hipotezi bir test/eylem izler.
Kanıt önemlidir: her şey kaydedilir, eserler imzalanır, zaman çizelgesi detaylandırılır.

2) Sınıflandırma (önem ve öncelik)

SEVİşaretlerMTTR amacıÖrnekler
P1/ SEV-0Büyük kullanılabilirlik/para kaybı/PII sızıntısı≤ 60 dakikaÖdeme başarısız olur; Kişisel veri sızıntısı; Yanlış yazmalar
P2/ SEV-1Şiddetli bozulma/kısmi bölge≤ 4 saatGecikme webhooks, senkronize fiyatlar dışında; yüksek sağlayıcı hataları
P3/ SEV-2Yerel bozulma/hata artışı≤ 24 saatOrtak kuyruğu aşırı yüklenmesi; Dolandırıcılık sinyallerinin sıçraması
P4/ SEV-3Küçük hatalar/trend riskiPlana göreMetrik sapmaları, eski sertifikalar

Tetik: SLO ihlali, uyarı kuralı, manuel rapor, yasal olay (DPO/CCO).

3) Roller ve Sorumluluklar (RACI)

Olay Komutanı (A) - olay lideri, görev ayarı, karar verme, uzun olaylar için IC değişiklikleri.
Teknik Kurşun (R) - teknik teşhis/düzeltmeler, SRE/mühendislik koordinasyonu.
Comms Lead (R) - durum güncellemelerini (içeride/dışarıda), durum sayfasının sahibini yazar.
Scribe (R) - protokol, zaman çizelgesi, eserlerin toplanması.
Güvenlik/Yasal (güvenlik davaları için C/A) - risk değerlendirmesi, zorunlu bildirimler.
Müşteri Desteği (C) - yanıt şablonları, bilet yönlendirme.
Ortak İrtibat (C) - sağlayıcılar/kiracılar ile iletişim.
Yönetim (I) - bilgi, iş kararları (krediler/tazminatlar).

4) İlk 15 dakika (şablon)

1. Bir IC atayın ve bir olay kartı açın (sohbet kanalı, video köprüsü, Jira/Tracker).
2. Bir SEV atayın ve SLO semptomunu düzeltin (tam olarak ihlal edilen şey).

3. Stabilize edin:
  • runbook'ları/rünleri içerir: devre kesiciler, kısma, rota değiştirme, duraklatma promosyonu;
  • Uzlaşma durumunda - hassas işlevleri öldür-değiştir.
  • 4. Komutlar: Teknik Kurşun - teşhis; İletişim - "teknik bekletme" (10-15 dakika içinde - ilk güncelleme).
  • 5. Hipotezleri tanımlayın (maksimum üç), sahipleri atayın, doğrulama için zamanlayıcıları ayarlayın (5-10 dakika).
  • 6. Artefaktları toplayın: metriklerin anlık görüntüleri, yapılandırmalar, serbest bırakma karmaları, 'trace _ id' içeren günlükler, makbuzlar.

5) İlk saat (şablon)

İletişim v1 (15-20 dakika): gerçek, erişim, semptomlar, ne yaptığımız, bir sonraki güncelleme. Spekülasyon yok.
Olay sınırları: Hangi bölgelerin/kiracıların/kanalların/sürümlerin etkilendiği.
Hasar kontrolü: geçici kapaklar/kısıtlamalar, "gürültülü" entegrasyonların bağlantısının kesilmesi, bozulma modunun etkinleştirilmesi.
Adli tıp: günlük rotasyonlarını dondurun, eserleri koruyun (WORM/imzalar).
Kurtarma yol haritası: Kontrol noktaları ile T + 30/T + 60.

6) İletişim ve durum sayfası

İç aralıklar: P1 - her 15 dakikada bir, P2 - 30-60 dk.
Dış: durum sayfası/kiracılar/SLA ortakları.

İleti şablonu:
  • Ne görebilirsiniz: "X: YY UTC ile, AB bölgesinde ödeme hatalarındaki artış (p95> 250 ms)"
  • Etkilenen: "A/B/C operatörleri trafiğin %40'ını ~"
  • Ne yapıyoruz: "alternatif bir rota, kısma promo dahil; Tedarikçi ile çalışıyoruz" PSP-1
  • Veri/son tarihler: "15 dakika içinde bir sonraki güncelleme"
  • Tazminatlar: "olayın kapanmasından sonra SLA'ya göre kredi notları uygulayın"

7) Playbooks (iGaming/fintech için referanslar)

PriceMismatch (vitrin ≠ ödeme): önbellek kuvveti sakatlığı, 'fx _ version/tax _ rule _ version' mutabakatı, dinamik promosyon dondurma, politika tutarsızlık telafisi.
WebhookLag (ortaklar/bağlı kuruluşlar): çalışanları ölçeklendirme, artan parti, öncelikli geri ödemeler, yeni aboneliklerde geçici üst sınır.
Ödemeler Kesintisi/PSP bozulması: Yedek bir PSP'ye geçiş, istemci zaman aşımlarını azaltma, manuel sıra temizleme, karantinada gri işlemler.
RTP Drift: bonus duraklatma, paytable/sürüm kontrolü, izleme penceresi uzantısı, RTP profil geri dönüşü.
Dolandırıcılık Spike: hız/sınırları sıkın, ek KYC kontrolü dahil, şüpheli kohortları izole edin, yüksek kazançları manuel olarak gözden geçirin.
Veri/PII Maruziyeti: sistem izolasyonu, DPO/Yasal bildirim, etkilenen kayıtların envanteri, zaman çizelgesine göre düzenleyici bildirimler.

8) Araçlar ve rünler (otomatik işlemler)

Кнопки: Promosyonu Duraklat, Yeniden Yönlendir, Sınırı Yükselt, Geri Al, Önbelleği Temizle, Web Kitaplarını Devre Dışı Bırak, Güvenli Modu Etkinleştir.
Koruma rayları: "eyer'e karşı koruma - geri dönüşler sınırlıdır, günlükler imzalanır, her eylem IC/Scribe ↔.
Kanıtlanabilirlik: DSSE imzaları, anlık görüntü karmaları, Merkle günlük kaydı dilimleri.

9) Olayın sonu

Kriterler: SLO geri yüklendi, sıra itfa edildi, veri/para uzlaştırıldı, riskler kapatıldı, iletişim gönderildi.
Kapanış ritüeli: son durum güncellemesi, sabit zaman çizelgesi, etkilerin listesi, nedenlerin ön hipotezleri, ölüm sonrası tarih atanır.

10) Ölüm sonrası (ücret yok)

Dönem: P1 - 3 iş günü içinde; P2 - 5 iş günü.
İçerik: gerçekler/zaman çizelgesi, kök nedenler (5 Whys/FRAM), etki (SLO, finans, müşteriler), neyin işe yaradığı/yaramadığı, eylem öğeleri (sahip, terim, ölçülebilir etki).
Etkinlik kontrolü: 30-60 gün sonra - performans ve metriklerin gözden geçirilmesi (tekrarlanabilirlik, MTTR, uyarı gürültüsü).

11) Olay Yönetimi Metrikleri ve SLO'lar

MTTD/MTTA/MTTR, Değişim Hatası Oranı, İletişim Süresi v1, % otomatik izin verilen (rünler).
Uyarı Gürültüsü: Alakasız sinyallerin yüzdesi, çağrı üzerine vardiya başına sayfalar.
Tekrarlayan Olaylar: 90 gün içinde tekrarların oranı.
Ölüm sonrası SLA: Zamanında tamamlanan/kapatılan oran.
SLO reaksiyonları: P1 - 15 dakika ≤ ilk iletişim; MTTR ≤ 60 dk; Artefakt tamlığı = %100.

12) Yasa/Uyum/Gizlilik

Yasal uyarılar: Sızıntılar/olaylar için yerel düzenleyicilerin zamanlaması.
PII minimizasyonu: yalnızca onaylanmış jablar aracılığıyla birincil erişim; tokenization/maskeleme.
Artifact depolama: WORM günlükleri, yargı yetkisine göre saklama süresi; Erişim kontrolü (RBAC/ABAC, JIT).
Karşı taraflar: sözleşmeli SLA'lar, tırmanma süreci, işlem makbuzları.

13) Görev ve tırmanma organizasyonu

24 × 7 on-call: role göre rotasyon (SRE, Uygulama, Veri, Güvenlik, Ödemeler).
Eskalasyon matrisi: bölgeler/ürünler/sağlayıcılar için kim; Yinelenen kişiler (sohbet/ses/SMS).
Alıştırmalar (GameDays): simülasyonlar - PSP düşüşü, yeniden ödeme çığ, fiyat yanlış hizalama, anahtar uzlaşma, bölge hatası.

14) Olayların panoları

Isı (şimdi): SLO durumu, p95/p99, bölgelerin/kiracıların haritası, görev kuyruğu, toplanan/toplanmayan eserler.
Geçmiş: olay türüne göre eğilimler, rünlerin verimliliği, tekrarlamaya neden olur.
Kalite kontrolü: zaman çizelgesi bütünlüğü, post-mortemlerin "kapsamı", SLA iletişimi.

15) Uygulama kontrol listesi

  • SEV ölçeğini ve SLO tetikleyicilerini onaylayın.
  • Rolleri (IC/Tech/Comms/Scribe/Sec/Legal) ve rotasyonları 7 × 24 atayın.
  • Tek bir olay kartı şablonu ve durum sayfası başlatın.
  • Oyun kitaplarını tanımlayın (PriceMismatch/WebhookLag/Payments/RTP/Fraud/PII).
  • Denetim ve kırmızı düğme ile rünleri uygulayın.
  • WORM/Signatures/Artifact Collection'ı etkinleştir.
  • İletişim Prosedürü (dahili/harici), SLA güncellemeleri.
  • Ölüm sonrası süreç ve şablonlar; Eylem öğeleri yürütme KPI.
  • GameDays aylık; Olay eğilimlerinin üç ayda bir gözden geçirilmesi.
  • Dashboard IR metrikleri (MTTA/MTTR/Gürültü/Tekrar/Comms SLA).

16) SSS

Neden "IC tek başına"?
Tek bir karar noktası kaosu ortadan kaldırır ve tepkileri hızlandırır.

Ne zaman halka duyurulur?
Teyit edilmiş bir gerçek ve bir istikrar planı olduğunda. Düzenleyici süreleri değerlendirin.

Hangisi daha önemli - bir düzeltme mi yoksa bir rapor mu?
İlk olarak, kurtarma ve güvenlik. Paralel olarak - eserlerin toplanması. Rapor - stabilizasyondan sonra.

Her şeyi otomatikleştirmek mümkün mü?
Hayır, ama rünler "sık ve basit" adımları kapatır. Gerisi açık oyun kitapları ve egzersizlerle.

Özet: Güçlü Olay Yanıtı sadece PagerDuty ve sohbet kanalı ile ilgili değildir. Bu bir roller disiplini, hızlı ilk 15 dakika, kontrollü rünler, şeffaf iletişim, kanıtlanabilirliği olan adli tıp ve zorunlu post-mortem. Bu devre ile MTTR'yi azaltır, para ve verileri korur ve müşteri ve düzenleyici güvenini artırırsınız.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.