Bildirim ve uyarı sistemi
(Bölüm: Operasyonlar ve Yönetim)
1) Amaç ve prensipler
Amaç, çok az, ancak doğru bir şekilde teslim etmektir: yalnızca ilgili sinyalleri, zamanında ve anlaşılır bir sonraki adımla sorumlu bir kişiye/robota.
İlkeler:- Varsayılan olarak işlem yapılabilir: Her uyarının bir sahibi, önceliği, yanıt süresi ve bir eylem düğmesi vardır.
- SLO-first: Uyarılar, keyfi metrikler değil, SLI/SLO etrafında oluşturulur.
- Gürültü kontrolü: deadup, korelasyonlar, fırtına bastırma.
- Bağlam açısından zengin: meta veriler (bölge, kiracı, sürüm, trace_id) ve çalışma kitabına bağlantı.
- Denetime hazır: tüm uyarılar ve tepkiler kabul edilir ve değişmeyen günlüğe kaydedilir.
2) Sinyal kaynakları
Şunlar. telemetri: kullanılabilirlik, p95/p99, hata oranı, kuyruk gecikmesi, kaynak sınırları.
İş etkinlikleri: PriceMismatch, WebhookLag, RTP Drift, dolandırıcılık sinyalleri.
Güvenlik/uyumluluk: SoD ihlalleri, PII erişimi, anahtar/sertifika sona ermesi.
Zamanlayıcı: süresi dolmuş SLA görevleri, DLQ çığları, yeniden deneme fırtınaları.
3) Sınıflandırma ve öncelikler
Korkuluklar: SLO/hata bütçesi (yanma oranı) ile ilgili uyarılar formüle edilmiştir.
4) Yönlendirme ve Eskalasyon 24 × 7
Bağlama göre yönlendirme: 'bölge/kiracı/ürün/sağlayıcı/önem derecesi'.
Yürüyen merdiven merdiveni: on-call engineer - command lead - Duty Manager - Exec/Legal (PII/Finance için).
Görev: role göre rotasyon (SRE, Uygulama, Veri, Güvenlik, Ödemeler), yedek kişiler (sohbet/ses/SMS).
Sessizlik pencereleri: gece, serbest bırakma, pazarlama; P1 için istisnalar.
5) Gürültü azaltma ve korelasyonlar
Veri tekilleştirme: '(parmak izi, bölge, kiracı, rota)'ve' trace _ id'ile.
Fırtına bastırma: Aktif P1 ile kopyaların geçici olarak bastırılması.
Korelasyonlar: Sinyalleri kök neden etrafında gruplandırmak (serbest bırakma/özellik/sağlayıcı).
Histerezis: eşikten giriş/çıkış - "testere'den kaçınmak için farklı.
6) Uyarı içeriği (şablon)
Başlık: Kısa ve öz - "EU/Checkout: p95> 250ms (SLO ihlali)".
Anahtar alanlar: öncelik, zaman, bölge, kiracı, sürüm, trace_id, etkilenen %, †. Sebep.
Şimdi ne yapmalı: ilk 1-3 adım + runbook/düğmelere bir bağlantı (Yeniden rota, Rollback, Pause Promo).
Sonraki iletişim: N dakika içinde, sahibi (IC/on-call).
7) Teslimat kanalları
Sohbet/haberci: triyajın ana kanalı (düğmeli bot kartları).
Çağrı cihazı/ses/SMS: P1 için.
Posta: raporlar ve acil olmayan (P3/Bilgi).
Webhooks: biletleme/orkestratörlerle entegrasyon.
Durum sayfası: müşterilerin ve ortakların dış bildirimi.
8) Entegrasyonlar ve eylem düğmeleri
Olay botu: bir kart oluşturur, bir IC atar, bir video köprüsü açar, zamanlayıcıları başlatır.
Руны (otomatik işlemler): Yeniden yönlendirme, Geri Alma, Sınırı Yükselt, Önbelleği Temizle, Webhook'ları Devre Dışı Bırak, Güvenli Modu Etkinleştir.
Haklar: Rünler rollerle sınırlı olarak başlatılır; Tüm eylemler imzalanır ve kaydedilir.
9) Çok bölgeli ve çok kiracılı
Bölgelere göre bağımsız SLO'lar/eşikler; Yerel olaylar tüm dünyayı "boyamaz".
Görünürlük filtreleri: Ortaklar/kiracılar yalnızca kendilerininkini görür.
Yargı yetkisi gereksinimleri: bildirim metinleri, diller, zaman dilimleri.
10) Politikalar, programlar, sessizlik pencereleri
Uyarı politikası: sahipler, eşikler, kanallar, yükselmeler, şablonlar.
Takvimler: çalışma/çalışma saatleri, serbest bırakma/pazarlama pencereleri.
Değişim donması: Eşikleri hafifletmek veya büyük stoklar sırasında "non-P1" bastırmak.
11) Denetim ve yasal sabitleme
Makbuzlar: kritik uyarılar için - 'receipt _ hash've DSSE imzası.
WORM günlükleri: Olayların ve reaksiyonların değiştirilemez depolanması (yaptıklarını kim doğruladı).
Gözaltı zinciri: Tırmanışların ve kararların izlenmesi.
12) Bildirim Sistemi Metrikleri ve SLO
MTTA (kabul): P1 ≤ 5-10 dk; P2 ≤ 30 dk.
Sayfa hızı/Çağrı sırasında yük: vardiya başına sinyaller - hedef aralıkta.
Yanlış Pozitif %: Hedef eşik ≤ (tipik olarak <%10-15).
Korelasyon verimliliği: Gruplandırılmış sinyallerin oranı %80 ≥.
Teslimat SLO: sohbet ≥ 99. 9 %, SMS/ses ≥ 99. 5%.
Time-to-Action: Uyarıdan rünleri çalıştırmak için p95.
13) Panolar ve raporlar
Operasyonel: aktif olaylar, yanma oranı, bölge/kiracı haritası, uyarı kuyruğu.
Uyarı kalitesi: gürültü, FP, eşik yeniden testleri, sessiz bölgeler.
Çağrı yükü: çağrı sıklığı, yanıt süresi, "mesai saatleri dışında".
Olay sonrası: rünlerin verimliliği, tekrarlamaya neden olur.
14) iGaming/fintech'in özgüllüğü
Ödemeler/PSP: P1 - sağlayıcı hatası, yetkilendirme hatalarında artış; Yedek PSP'ye otomatik rota.
RTP ve Sınırlar: Gözlemlenen RTP sürüklenmesine, sınırların aşılmasına, şüpheli kazanma modellerine karşı uyarılar.
İştirakler/webhook'lar: teslimat gecikmesi, çift büyüme, onaylanmış makbuzlarda düşüş.
Fiyat/FX/Vergi: vitrina↔checkout uyumsuzluk, senkronize olmayan artifakt sürümleri.
Sorumlu oyun: RG tetikleyicileri ve destek/Uyumlulukta zamanında yükselmeleri.
15) RACI
16) Uygulama kontrol listesi
- Kuzey Yıldızı ve SLI/SLO'yu tanımlayın; Uyarıları yanma oranıyla ilişkilendirin.
- Politika dizinini girin: eşikler, kanallar, yükselmeler, sessizlik pencereleri.
- Kilitlenme, korelasyon, histerezis, fırtına bastırma uygulayın.
- Çok bölgeli ve çok kiracılı görünürlük kurallarını yapılandırın.
- "Eylem düğmelerini've runbookları bağlayın; Başlatma haklarını kısıtlayın.
- WORM/Bill, trace_id Trace ve Runtime Denetimini Etkinleştir.
- Kaliteli panolar oluşturun (gürültü, FP, MTTA, sayfa hızı).
- Провести GameDay: PSP kesintisi, WebhookLag, PriceMismatch, RTP Drift.
- Eşikleri düzenli olarak gözden geçirin; "Aptal" metriklerde A/B eşikleri.
- Çağrı üzerine yük ve iyileştirme raporu aylık.
17) Playbooks (referans)
PSP Kesintisi (P1): Rezerve etmek için otomatik rota, müşteri sürelerini düşürmek, karantina "gri" işlemleri, 15 dakika içinde durum güncellemesi.
WebhookLag (P2): çalışanları/parti sayısını, sıra önceliklendirmesini, isteğe bağlı bitiş noktalarının zaman duraklamasını artırır.
PriceMismatch (P1/P2): cache force disability, 'fx _ version/tax _ rule _ version' reconciliation, artifact rollback, compensations.
RTP Drift (P2): bonus/promosyon duraklatma, profil denetimi, izleme penceresi uzantısı.
Güvenlik: SoD/MFA başarısız (P1/P2): operasyon engelleme, JIT yeniden kontrol, adli tıp ve gerekirse yasal.
18) SSS
Yanlış pozitifler nasıl azaltılır?
SLO odaklı kurallar, korelasyonlar, histerezis, eğitim pencereleri ve düzenli eşik revizyonları.
Hangisi daha önemli - kapsama veya doğruluk?
P1 için - doğruluk ve hız (tercihen daha az, ancak kritik). P3 için - trend ve maliyet kapsamı.
Telefon çağrısına ihtiyacım var mı?
Evet, P1 için; Sohbet mevcut olmayabilir veya "sessiz" olabilir.
Çağrı komutunu "yakmamak" nasıl?
Sayfa hızı sınırları, yük yeniden dağıtımı, güneşi takip etme, aylık gürültü incelemeleri.
Özet: Bildirim ve uyarı sistemi, sinyalden eyleme kontrollü bir boru hattıdır. SLO üzerine inşa edin, gürültüyü azaltın, bağlama göre yönlendirin, eylem düğmeleri verin ve her şeyi yasal olarak düzeltin. Bu şekilde MTTA'yı azaltır, yükü çağrı üzerine kaldırır ve keskin sivri uçlar ve sağlayıcı arızalarında bile iş esnekliğini artırırsınız.