GH GambleHub

Olay yönetimi

(Bölüm: Teknoloji ve Altyapı)

Kısa Özet

Olay yönetimi, kullanıcı değerini hızlı bir şekilde geri yüklemek ve iş hasarını en aza indirmek için tekrarlanabilir bir süreçtir. Destek - net roller (Olay Yöneticisi, Teknik Kurşun, İletişim), SLO kapıları, yükselmeler, ChatOps süreçleri, hazırlanan çalışma kitapları ve ölçülebilir eylem öğeleri ile ayrıştırma "zararsız" olay sonrası.

1) Hedefler ve ilkeler

Hız ve güvenlik: hızlı tanı - güvenli stabilizasyon - sürekli iyileşme.
Tek Sahip - Atanan Olay Yöneticisi (IM) süreç kararları alır.
Ürün olarak iletişim: Paydaşlar ve kullanıcılar için öngörülebilir güncellemeler.
Veri> görüşler: SLO/metrikler/izler/günlükler gerçeğin kaynağıdır.
Suçsuz: kişisel suçlamalar olmadan nedenlerin analizi; Sistem iyileştirmelerine odaklanın.

2) Olayların sınıflandırılması (Şiddet/Etki/Aciliyet)

Önem derecesi (örnek):
  • SEV1 (kritik): gelir/TTW/ödemelerde ciddi hasar, kullanıcıların veya tüm bölgelerin> %20'si; SLA bozulmuş/PII tehdidi.
  • SEV2 (yüksek): anahtar akışlarının kısmi bozulması (para yatırma/bahis/oyunların başlatılması), etki %5-20.
  • SEV3 (orta): ikincil hizmetlerin gözle görülür şekilde bozulması, bir baypas var.
  • SEV4 (düşük): küçük, sınırlı etki, SLO/SLA üzerinde etkisi yoktur.

Etki: kim etkilenir (tüm/bölge/kiracı/kanal). Aciliyet: bozulma oranı (hata bütçesinde hızlı yanma/yavaş yanma).

3) Olay yaşam döngüsü

1. Algılama - uyarılar/SLO/sentetikler/raporlardan sinyal.
2. Onayla - çağrı üzerine alımı onaylar, IM atar.
3. Triyaj - SEV/Etki puanı, hipotez toplama, Savaş Odası keşfi.
4. Hafifletme - stabilizasyon (geri alma/rota değiştirme/phicheflags/ölçeklendirme).
5. İletişim - düzenli durum güncellemeleri (içeride/dışarıda).
6. Kurtarma - Tam SLO/iş metrikleri kurtarma.
7. Kapat - kronolojinin kaydedilmesi, eserlerin toplanması, PIR (RCA + eylem öğeleri).

4) Roller ve Sorumluluklar (RACI)

Olay Yöneticisi (IM) - süreç sahibi, roller atar, zamanı izler, süreç kararları verir (R).
Teknik Kurşun (TL) - teşhis/hipotez/düzeltmeler yapar, mühendisleri koordine eder (A/R).
İletişim (İletişim) - durum güncellemeleri, destek/iş/PR ile bağlantı, durum sayfası (R).
Scribe - protokol (zaman çizelgesi, alınan kararlar, bağlantılar, eserler) (R).
Paydaşlar - Ürün/Ödemeler/Oyun Sağlayıcıları/Güvenlik (C/I).

SEV1 başına minimum: IM + TL + Comms + Scribe. SEV2 üzerindeki rollerin birleştirilmesine izin verilir.

5) Savaş Odası и ChatOps

Bireysel kanallar: '# incident-warroom- <id>' (çalışıyor), '# incident-status' (yalnızca güncelleştirmeler).
Şablon komutları:'/incident start ','/status update','/call <owner> ','/rollback','/freeze ','/scale + N'.
Bot bağlamı yukarı çeker: son sürümler, gösterge panoları, ilgili uyarılar, iz örnekleri, bağımlılık şemaları.
İletişim kuralları: Kısaca, gerçekler üzerine, bir konuşmacı (TL), IM ılımlılar.

6) Tetikleyiciler ve kapılar

SLO kapıları: hızlı/yavaş yanma, ödeme dönüştürme düşüşü, TTW p95> eşiği, p99 API ↑, ödeme kuyrukları yanıyor.
Otomatik eylemler: kanaryayı durdurmak, geri almak, bozunma modunu etkinleştirmek (işlevleri sınırlamak), yüksek frekanslı sentetikleri etkinleştirmek.
Freeze: Stabilizasyon ve PIR öncesi tüm salımlar/ayak geçişleri.

7) Tipik senaryolar (runabook desenleri)

A) Ödemeler: PSP'de zaman aşımlarında/arızalarda artış

1. Ödeme döngüsü sürümlerini tanıtmayı ve dondurmayı durdurun.
2. PSP rotasını bekleme moduna geçirin, zaman aşımını yükseltin/politikaya göre yeniden ödeme yapın.
3. Tamamlanmamış işlemlerin uzlaştırılması, idempotent anahtarlarla tekrarlanması.
4. İletişim iletişimi - destek: rezerv çalışıyor musunuz? TAHMINI VARIŞ ZAMANI.

B) API p99↑ ve serbest bırakıldıktan sonra 5xx

1. Geri dönüş (mavi-yeşil/kanarya - kararlı).
2. Önbellek isabetini, kuyruk derinliğini, veritabanı/oyun sağlayıcı etkin noktalarını kontrol edin.
3. Geçici ölçeklendirme, özellik bayrakları aracılığıyla ağır özellikleri sınırlama.

C) Oyun sağlayıcı kullanılamıyor

1. Trafiği mevcut stüdyolara/oyunlara geçirin, bir durum banner'ı gösterin.
2. Her 30-60 saniyede bir sentetik kontrolleri açın.
3. Tazminat/bonuslar üzerinde anlaşın (politikaya göre) - PIR'ye ekleyin.

D) Kaçak/şüpheli PII

1. Bileşen izolasyonu, anahtar/belirteç iptali, günlük toplama (WORM).
2. Yasal iletişim/düzenleyici uyum.
3. Olay sonrası eylemler: gizli rotasyon, maskeleme, erişim.

8) İletişim (iç/dış)

Güncelleme sıklığı: SEV1 - her 15-30 dakikada bir, SEV2 - 30-60 dakika.

Dahili durum şablonu:
  • Ne kırık: "PSP-X üzerinden Mevduat: Timeouts Yükselişi".
  • Etkilenen: "TR/BR, akış kullanıcılarının ~ %18'i".
  • Ne zaman başladı: "12:07 EET, SEV1."
  • Ne yapıyoruz: "PSP-Y'ye geçiş rotası, retrayes/rate cap etkin".
  • Sonraki güncelleme: "20 dakika içinde".
  • İletişim: "IM @ duty-im, TL @ oncall-pay".

Genel durum (sayfa/sosyal ağlar) - kısaltılmış, PII ve gereksiz ayrıntılar olmadan, ETA ve daha fazla güncelleme için bir bağlantı ile.

9) Eser toplama ve denetleme

Olay zaman çizelgesi (dakika doğruluğu), servis sürümleri, özellik bayrakları, yapılandırma değişiklikleri.
Panoların resimleri, yaklaşık yollar (trace_id),'önce/sırasında/sonra "günlükleri.
Biletlere bağlantılar, halkla ilişkiler, bültenler, runabooks.
İletişim raporu (ne zaman/ne/ne için).
Hepsi bir olay kartına eklenir.

10) Kapatma ve PIR (Olay Sonrası İnceleme)

PIR formatı (kısa):
  • Özet: Ne oldu, ölçek, süre, SEV.
  • Etki: Kullanıcılar/bölgeler, SLO/SLA, Fin. etkisi.
  • Zaman Çizelgesi: ayrıntılı olarak, dakika.
  • Kök Neden: teknik + organizasyonel (neden daha önce tespit edilmedi).
  • Algılamalar ve Savunmalar: Neyin yardım ettiği/başarısız olduğu (uyarılar, sentetikler, phicheflags).
  • Eylem Öğeleri: belirli görevler, sahipler, son tarihler (ve etkinin nasıl kontrol edileceği).
  • Öğrenilen Dersler: Süreç/mimari/gözlemlenebilirlikte neleri değiştiriyoruz?

Kurallar: hiçbir ücret, maksimum gerçekler, tamamlanan öğeleri kontrol 2-4 hafta sonra zorunlu takip.

11) Süreç Güvenilirliği Metrikleri

MTTD - Ortalama Algılama Süresi

MTTA (... Kabul) - on-call onay önce.
MTTR (... Restore) - SLO geri yüklenene kadar.
Değişim Hatası Oranı - olaylarla sonuçlanan sürümlerin yüzdesi.
SEV'e göre Olay Oranı, alana göre dağılım (Payments/Games/Infra).
Uyarı Kalitesi: Gürültülü/yanlış oranı, uyarıdan sonra harekete geçme zamanı.
Comm-SLA: Durum güncellemelerinin sıklığına uygunluk.

12) SLO ve sürümlerle entegrasyon

CD'deki Kapılar: Yalnızca yeşil SLO proxy'leriyle kanarya promosyonu (kullanılabilirlik, p95, conv, TTW).
Dondurma prosedürleri: fast-burn/SEV1 olduğunda - PIR'den önce salımları durdurun.
Grafiklerdeki otomatik ek açıklamalar: bültenler/bayraklar/geçişler panolarda görünür.

13) Düzenleyici ve Uyumluluk

PII: günlüklerde/izlerde maskeleme/aliasing, WORM denetim mağazaları, erişim kontrolü.
Bölgesellik: Kullanıcı verilerini izin verilen yetki alanlarının dışına çıkarmayın.
Raporlama: düzenleyicilere resmi mektuplar/bildirimler - şablonlar ve yükseltme süreci.

14) Öğrenme ve Hazırlık (Oyun Günü)

Üç aylık alıştırmalar: "PSP düşüşü", "oyun sağlayıcısı kullanılamıyor", "p99 dalgalanması", "anahtar sızıntısı".
MTTA/MTTR'deki zamanlayıcılar, egzersiz üzerine retro.
Çalışma kitaplarını ve kişileri güncelleştirme, ChatOps komutlarını denetleme.

15) Hazırlık kontrol listesi (olaydan önce)

1. SEV kuralları ve eskalasyon matrisi kabul edildi.
2. Atanmış on-call rotasyonları, IM/TL/Comms/Scribe.
3. Anahtar senaryolar için Runabooks (ödemeler, oyunlar, veritabanları, önbellekler, kuyruklar).
4. SLO kartı ve yanma oranı uyarıları, durum sayfası.
5. ChatOps bot: komutlar, otomatik bağlam, durum şablonları.
6. PIR şablonları ve olay kartları.
7. Düzenli oyun günü ve iletişim/hak revizyonları.
8. Dondurma politikası ve "kırmızı düğme" (geri alma/kill-switch).

16) Antipatterns

Tek bir IM yok, "kalabalık yol açıyor" - kaos ve gecikmeler.
SLO kapılarının eksikliği - geç algılama, gürültülü uyarılar.
Donmadan bir olay sırasında serbest bırakın - basamaklı çökmeler.
Günlükler ve izler yeterli değil, hiçbir eser yok - zayıf PIR.
Suçlayıcı kültür - gizli hatalar, tırmanma korkusu.
İlham verici iletişim - iş/kullanıcı güveninin kaybı.

17) Şablonlar (wikinize kopyalayın)

A) Olay Kartı (YAML)

yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"

B) Durum güncellemesi (dahili)


[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im      TL: @oncall-pay

C) PIR (kapak)


Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.

Özet

Güçlü olay yönetimi yapı + disiplindir: Önceden kararlaştırılmış roller, SLO kapıları, çalışan runabooks, şeffaf iletişim ve "zararsız" PIR. Bu döngü MTTA/MTTR'yi azaltır, kesinti süresini düşürür, kullanıcı güvenini oluşturur ve daha cesur ama güvenli bir şekilde serbest bırakmanızı sağlar.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.