GH GambleHub

Çalışma süresi izleme

1) Neden çalışma süresini izleyin

Çalışma süresi - hizmetin kullanıcıya sunulduğu zaman paylaşımı. Bu, gözlemlenebilirliğin'ilk satırı'dır: anında erişilemezliği, ağ üzerindeki bozulmayı, DNS/TLS arızasını, yönlendirmeyi veya CDN sorunlarını fark eder. Yüksek yüklü ve düzenlenmiş sistemler için (fintech, iGaming), çalışma süresi doğrudan geliri, SLA performansını ve ceza risklerini etkiler.

2) Şartlar ve formüller

Kullanılabilirlik SLI: 'SLI = (başarılı kontroller/tüm kontroller) × %100'.
SLO: Pencere başına kullanılabilirliği hedefleyin (genellikle 28-30 gün), örneğin 99. 9%.
SLA: dış yükümlülük; Her zaman dahili SLO ≤.
MTBF/MTTR: Arızalar arasındaki ortalama süre/ortalama kurtarma süresi.

Dokuz Kart (aylık, ~ 43.200 dakika):

99. 0 % - ~ 432 dk kullanılamaz

99. 9 % ~ 43 dk

99. 99% → ~4. 3 dakika

99. %999 - ~ 26 sn

3) Hangi kontrollere ihtiyaç vardır (kara kutu)

Hizmeti "müşterinin gözünden" görmek için harici noktalardan (farklı bölgeler/sağlayıcılar) başlatılır.

1. ICMP (ping) - temel ağ/düğüm kullanılabilirliği. Hızlı, ancak iş başarısını yansıtmıyor.
2. TCP bağlantısı - port dinleme? Broker/DB/SMTP için yararlıdır.
3. HTTP/HTTPS - durum kodu, başlıklar, boyut, yönlendirmeler, ilk bayt zamanı.
4. TLS/sertifikalar - geçerlilik süresi, zincir, algoritmalar, SNI, protokoller.
5. DNS - A/AAAA/CNAME, NS-sağlık, dağıtım, DNSSEC.
6. gRPC - arama durumu, son tarih, meta veriler.
7. WebSocket/SSE - el sıkışma, bağlantı bakımı, yankı mesajı.
8. Proxy/routing/CDN - farklı PoP'lar, önbellek karması, coğrafi değişkenler.
9. İşlemsel sentetik senaryolar (tıklamalar/formlar): "Oturum açma - arama - para yatırma (sanal alan)".
10. Kalp atışı/cron izleme - servis "nabız" olmalıdır (her N dakikada bir kanca); Sinyal yok - alarm.

Konseyler:
  • Gerçek UX'e daha yakın zaman aşımları ayarlayın (örneğin, TTFB ≤ 300 ms, toplam ≤ 2 s).
  • İçerik varlığını (anahtar kelime/JSON alanı) kontrol edin, böylece bir hatayla "200 OK" başarılı sayılmaz.
  • Bağımsız sağlayıcılar ve ağlar (multi-hop, farklı ASN'ler) aracılığıyla kontrolleri çoğaltın.

4) Beyaz kutu ve sağlık hizmeti

Orkestratör için canlılık/Hazır olma testleri (süreçler canlı mı? Trafik almaya hazır?).
Bağımlılık sağlığı: DB, önbellek, olay aracısı, harici API'ler (ödemeler/KYC/AML).
Özellik bayrakları/bozulması: sorun olması durumunda, kritik olmayan yolları hafifçe devre dışı bırakın.

Beyaz örnekler harici kontrollerin yerini almaz: hizmet "içeride sağlıklı" olabilir, ancak DNS/TLS/rota nedeniyle kullanıcı tarafından kullanılamaz.

5) Coğrafya ve çok bölgesellik

Önemli trafik bölgelerinden ve kritik bağımlılık sağlayıcılarına yakın sentetikleri çalıştırın.
Quorum: ≥ N bölgelerinde (örneğin, 2/3) yerel anomalileri kesmek için bir başarısızlık varsa bir olay kaydedilir.
Kohortla eşik: Önemli segmentler için ayrı SLI/SLO (ülkeler, VIP'ler, taşıyıcılar).

6) Uyarı politikası (gürültü minimum)

Çok bölgeli + çok problu: yalnızca tutarlı bir arıza durumunda çağrı cihazı (örneğin, HTTP ve TLS aynı anda, ≥ 2 bölge).
Debowns: N ardışık arızalar veya çağrı öncesi 2-3 dakika pencere.

Eskalasyon:
  • L1: on-call (üretim hizmetleri).
  • Arıza imzasına dayalı L2 ağ/platform/güvenlik.
  • Otomatik kapatma: kararlı M başarılı kontrollerden sonra.
  • Sessiz saatler/tavizler: kritik olmayan dahili hizmetler için - sadece biletler, çağrı cihazı yok.

7) Durum sayfası ve iletişim

Genel (istemci) ve özel (dahili) durum sayfaları.
Sentetik + manuel ek açıklamalardan otomatik olaylar.
Mesaj Şablonları: Algılandı - Tanımlandı - Etki - Geçici Çözüm - ETA - Çözüldü - Mordem Sonrası.
Planlanan pencereler: önceden duyurun, istisnaları SLO'dan ayrı olarak düşünün.

8) Dış bağımlılıkların dikkate alınması

Her sağlayıcı için (ödemeler, KYC, postalar, CDN, bulutlar) - çeşitli bölgelerden kendi kontrolleri.
Yük devretme yolları: Sentetik bir sinyal kullanarak alternatif bir sağlayıcıya otomatik geçiş.
Sağlayıcı düzeyinde ayrı SLO'lar ve entegre e2e-SLO.
Sağlayıcılarla SLA üzerinde anlaşın (durum web kitapları, destek önceliği).

9) Gösterge panoları ve anahtar widget'ları

Denetimlerin durumu ile dünya haritası (türe göre: HTTP, DNS, TLS).
Release/flag ek açıklamaları ile olayların zaman çizelgesi.
Bölgelere göre P50/P95/P99 TTFB/TTL/gecikme süresi.
Kohorta göre kullanılabilirlik (ülke/sağlayıcı/cihaz).
MTTR/MTBF, ay için kullanılabilirlik bütçesinin "boş dakikalar've" yanma "eğilimleri.
Arızaların başlıca nedenleri (TLS-sona erme, DNS-çözümleme, 5xx, zaman aşımları).

10) Olay süreci (geçici senaryo)

1. Çok bölgeli/çok tipli uyarı tetiklenir.
2. Görevli memur onaylar, salımların dondurulmasını açar, sahiplerine haber verir.
3. Hızlı tanılama: DNS/TLS/CDN durumu, en son sürümler, hata zamanlaması.
4. Bypass: rota değişikliği, folback içeriği/sağlayıcısı, bozulma modunu etkinleştirme.
5. Kurtarma: sentetiklerin/gerçek trafiğin yeşil olduğunu doğrulayın.
6. Durum sayfasında iletişim; olayı kapatmak.
7. RCA ve eylem öğeleri: düzeltmeler, testler, uyarılar, oyun kitapları.

11) SLA/SLO Raporlama

Aylık raporlar: hizmet/bölgeye göre çalışma süresi, kesinti dakikaları, MTTR, nedenler.
SLA ile karşılaştırma: Varsa krediler/tazminatlar.
Üç aylık incelemeler: eşiklerin güncellenmesi, sentetiklerin dağılımı, bağımlılıkların listesi.

12) Muayene şablonları (örnek)

HTTP API kontrolü:
  • Yöntem: 'GET/healthz/public' (sır yok).
  • Zaman aşımı: 2 s, yeniden deneme: 1.
  • Başarı: '2xx', başlık 'X-App-Version' mevcut, JSON alanı '"durum":'tamam "'.
TLS denetimi:
  • Terim> 14 gün, geçerli zincir, protokoller 'TLS 1. 2 + ', doğru SNI.
DNS kontrolü:
  • Yanıt süresi ≤ 100 ms, A/AAAA kayıtları planlandığı gibidir, SERVFAIL/REJECTED yoktur.
Kalp atışı:
  • Webhook'/beat/{ service}'her 5 dakikada bir; Üst üste 2 sinyalin yokluğu - L2 uyarısı (arka plan görevleri/ETL).

13) Uygulama kontrol listesi

  • Çok bölgeli harici kontroller (HTTP/TCP/DNS/TLS/derin komut dosyaları).
  • Orkestratör için beyaz hazırlık/canlılık örnekleri.
  • Kritik/kritik olmayan yolların ayrılması, bozunma bayrakları.
  • Quorum ve borç uyarıları, eskalasyon ve otomatik kapanma.
  • Genel ve dahili durum sayfaları, mesaj şablonları.
  • Dış sağlayıcılar + otomatik yük devretme için ayrı kontroller ve SLO.
  • Panolar: harita, zaman çizelgesi, yüzdelik, boşta dakika, MTTR/MTBF.
  • Düzenli SLA/SLO raporları ve olay sonrası RCA'lar.

14) Sık yapılan hatalar

Yalnızca HTTP/içerik içermeyen ping/port, gerçekte mevcut olmadığında yeşildir.
Bir izleme noktası - yanlış pozitif/negatif sonuçlar.
TLS/DNS kontrolü yok - gecikme/yanlış yapılandırma nedeniyle ani kesintiler.
Ekstra gürültü: Aynı bölgeden/kontrol türünden tek arızalar için uyarılar.
Değişikliklerle bağlantı yok - panolarda sürümlerin ve bayrakların ek açıklamaları yok.
Hesaplanmamış bağımlılıklar - ödeme sağlayıcısı düştü ve genel durum'yeşil ".

15) Alt satır

Çalışma süresi izleme sadece "zirve yapan URL'ler'ile ilgili değildir. "Bu, gerçek bölgelerden sentetik kontroller, gürültüsüz makul uyarılar, durum sayfaları aracılığıyla şeffaf iletişim, dış bağımlılıkların muhasebeleştirilmesi ve sıkı raporlama sistemidir. Düzgün bir şekilde oluşturulmuş çalışma süresi izleme, MTTR'yi azaltır, SLA'ları korur ve kullanıcı deneyiminin öngörülebilirliğini korur.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.