GH GambleHub

Güvenilirlik Mühendisliği

1) SRE nedir ve neden gereklidir?

Site Güvenilirlik Mühendisliği (SRE), güvenilirliği ölçülebilir bir ürün özelliğine dönüştüren geliştirme ve işletim arayüzünde bir disiplindir. SRE, kullanıcı deneyimi metriklerini (SLI'ler), kalite hedeflerini (SLO'lar), hata bütçelerini, otomasyonu ve yönetilen değişikliği, esneklik kaybı olmadan daha hızlı değer sunmak için birbirine bağlar.

Temel hedefler öngörülebilir UX, hızlı sürümler, minimum kesinti süresi ve kontrollü sahip olma maliyetidir.

2) SRE ilkeleri

Bir özellik olarak güvenilirlik. SLO ve iş hedefleri tarafından belirlenen sınırlara öncelik verir.
Hata bütçesi değişim oranını kontrol eder. Bütçe yakılırsa, istikrar üzerinde durulur.
Otomasyon> manuel işlemler. Tekrarlanabilir herhangi bir görev komut dosyası/operatör/boru hattıdır.
Ölçülebilirlik. Sadece ölçülen (SLI/SLO) geliştirilebilir.
Sadece kültür. Suçlama olmadan post-mortemler, sistemik nedenlere odaklanın.
Vardiya-sol. Kalite, güvenlik, testler ve gözlemlenebilirlik geliştirme döngüsünün bir parçasıdır.

3) Organizasyon ve roller

Platform SRE ekibi: ortak araçlar, politikalar, boru hatları, GitOps, servis katalogları.
Gömülü SRE'ler: Ürün ekibiyle birlikte çalışın, ortak SLO hedefleri.
Nöbetçi: rotasyonlar, yük limitleri, tazminat, eğitim.
RACI: servis sahibi, SLO sahibi, olaylarda IC, Comms Lead, Scribe.

4) SLI/SLO ve hata bütçesi (ürün bağlantısı)

SLI: kullanılabilirlik, gecikme, iş operasyonlarının başarısı, verilerin alaka düzeyi.
SLO: windows 28-30 gün + istisnalar için hedefler.
Hata Bütçesi = 1 − SLO. Politikacılar: bültenler, deneyler, kanaryalar ve özellikler gerçek yanma oranı ile düzenlenir.
Kohortlara göre tasarım: bölgeler, sağlayıcılar, VIP segmentleri - anormallikleri kaybetmemek için bireysel SLO'lar.

5) Varsayılan gözlemlenebilirlik

Metrikler: başarı/hata, yüzdelikler p50/p95/p99, doygunluk (CPU/mem/IO/conn).
Günlükler: yapılandırılmış, istekler/bültenler/bayrakların korelasyonu ile.
İzleme: gecikmelerin ve hataların uçtan uca haritası, sıcak yollar.
Sentetikler + RUM: harici örnekler ve gerçek istemci telemetrisi.
SLO panoları: burn-down bütçe, yayın ek açıklamaları, kanarya, sağlayıcılar.

6) Değişim ve Sürüm Yönetimi

Pipeline CI/CD: deterministik derlemeler, artefakt imzası, güvenlik taramaları, sözleşme testleri.
Aşamalı stratejiler: kanarya/mavi-yeşil/gölge; Bir yaşam döngüsü ile özellik bayrakları.
Kapı kalitesi: kod olarak politika, SLO korkulukları, bozulma altında otomatik geri alma.
GitOps: Kod olarak yapılandırmalar/politikalar, çevre tanıtımı, denetim.

7) Olaylar ve post-mortemler

SEV/P seviyelerinde beyan, IC hemen atanır, SEV-1 + ile serbest bırakma-dondurma.
Yanma oranı uyarıları: kısa ve uzun pencereler, bölgeye göre çoğunluk ve örnek türü.
Playbook'lar: geri tepmeler, bozulmalar, sağlayıcı yük devretme, limitler/geri çekmeler.
RCA ve CAPA: gerçek, nedensellik, ölçülebilir eylemler, kontrol noktaları (D + 14/D + 30).
Bilgi kataloğu: şablonları ve dersleri yeniden kullanın.

8) Güvenilirlik testi

Mikro hizmetler için sözleşme testleri ve tüketici odaklı sözleşmeler.
Profilleri gerçek desenlere göre yükleyin, p99 testi/GC duraklatma/kuyruk kuyrukları.
Kaos/Esneklik durumları: bağımlılıkları, ağları, gecikmeleri devre dışı bırakmak; Oyun günleri ve DR tatbikatları.
Veritabanı geçişleri: genişlet, göç et, kontrat, tersinirlik, iki versiyonun uyumluluk testleri.

9) Kapasite ve maliyet yönetimi (FinOps)

Kapasite Birimler ve kritik yollarda boşluk.
Kullanıcı metriklerine ve kuyruk gecikmelerine göre HPA/VPA/KEDA.
Çoklu sağlayıcılar: kotalar, SLO/gecikme yönlendirme, otomatik feiler.
Birim-ekonomi: $/1k istekleri, $/başarılı işlem; Önbellek optimizasyonu, günlükler, çıkış.

10) Güvenilirliğin bir parçası olarak güvenlik

SAST/DAST/SCA, sırları ara, SBOM, görüntü imzası.
mTLS ve Erişim Politikaları (OPA/ABAC) minimum ayrıcalıklara sahiptir.
Anahtar/sertifika rotasyonu, son tarih izleme, son kullanma testi senaryoları.
Güvenlik olayları - bireysel oyun kitapları, adli tıp, düzenleyici bildirimleri.

11) Kültür ve süreçler

SLO incelemeleri: haftalık/aylık, mor özelliklere göre borç önceliklendirmesi.
Eğitim ve simülasyonlar: nöbetçi eğitimler, olay provaları, kaos günleri.
Tekdüze standartlar: üretim için hazır olma kontrol listeleri, SLA iletişimi, ölüm sonrası format.
Uyarı yorgunluk göstergeleri: hedef eşik ≤ gürültü, düzenli ayarlama.

12) SRE fonksiyonunun olgunluk metrikleri

DORA metrikleri: tükenme oranı, teslim süresi, MTTR, değişim-başarısızlık oranı.
SLO uygulaması: yeşil bölgedeki hizmetlerin paylaşımı, yanma oranı eğilimi.
Uyarı hijyeni: % sayfa eylemleri, medyan uyarı/kaydırma, yanlış oran.
RCA/CAPA: zamanında yürütme, sistem paylaşımı (kişisel olmayan) nedenler, yeniden açma oranı.
Maliyet: $/SLO noktası, $/1k istekleri, otomatik ölçek verimliliği.

13) Kontrol listesi "Üretim için hizmet hazırlığı"

  • SLI/SLO, SLO sahibi ve gözlem penceresi tanımlanmıştır.
  • Gösterge panoları ve yanma oranı uyarıları ayarlanır, harici sentetikler vardır.
  • Boru hattı: imzalar/taramalar, sözleşme/entegrasyon testleri, kanarya/bayraklar, otomatik geri alma.
  • DB geçişleri geri dönüşümlüdür, yük profilleri zirveleri kapsar.
  • Olay oyun kitapları ve sağlayıcı kişileri; durum sayfası.
  • Kapasite boşluğu onaylandı; HPA/KEDA ve sağlayıcı kotaları kontrol edildi.
  • Yapılandırmalar ve Politikalar - Git, Çarşamba promosyon, denetim etkin.
  • Güvenlik: kod dışı sırlar, mTLS/rotasyon, kontrol altında TLS zamanlaması.

14) Anti-desenler

«99. 999 % or nothing" - ulaşılamaz hedefler - sonsuz kırmızı yanma oranı.
Kanarya ve özellik bayrakları olmadan Bültenleri - büyük patlamalar.
Bir izleme noktası - yanlış alarmlar ve ihmaller.
Üründeki yapılandırmaların manuel olarak değiştirilmesi - sürüklenme ve denetlenemezlik.
CAPA'sız post mortemler - tekrarlayan olaylar.
Mimariyi değiştirme hakkı olmayan "itfaiyeciler'olarak SRE - borç kapanmaz.

15) SRE uygulama yol haritası (3-6 aylık örnek)

1. 1. Ay: Hizmetlerin ve kritik yolların envanteri; SLI/SLO taslakları; Temel gösterge panoları ve yanma oranı uyarıları; Göreve başla.
2. Ay 2: kanaryalar/özellik bayrakları, otomatik geri tepmeler; GitOps yapılandırmaları; Bir olay oyun kitabı kataloğu; durum sayfası.
3. Ay 3: sözleşme testleri, yük profilleri, genişleme/sözleşme şemasına göre veritabanı geçişleri; İlk maç günleri.
4. 4-6. Ay: Çok sağlayıcılı rotalar, DR alıştırmaları, maliyet optimizasyonu, vade metrikleri, ekipler için KPI'lar.

16) Alt satır

SRE bir geliştirme işletim sistemidir: şeffaf kalite hedefleri (SLO'lar), kontrollü değişim oranı (hata bütçesi), otomasyon ve olay disiplini, esneklik testi ve bilinçli maliyet. Bu yaklaşımla, sürümler rutin hale gelir ve güvenilirlik rekabet avantajı haline gelir.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.