Teknoloji ve Altyapı - Bulut Mimarisi ve SLA'lar
Bulut Mimarisi ve SLA'lar
1) Neden SLA'lar ve nasıl yönetileceği
SLA (Hizmet Seviyesi Sözleşmesi) - hizmetin kullanılabilirliği, hızı ve doğruluğu hakkında iş/ortaklara harici bir söz.
SLO (Service Level Objective) - komutlar için dahili hedef seviyeleri.
SLI (Hizmet Seviyesi Göstergesi) - SLO'nun değerlendirildiği temelde ölçülebilir metrikler.
IGaming/fintech katı zirve pencereleri (turnuvalar, canlı bahisler, raporlama süreleri, "maaş" günleri), PSP/KYC sağlayıcılarına ve coğrafyaya güçlü bağımlılık ile karakterizedir. SLA'lar bu davranışı dikkate almalı ve mimari sadece orta değil aynı zamanda yüzdelik olarak da garanti vermelidir.
2) Temel terminoloji
Kullanılabilirlik - Aralık başına başarılı taleplerin yüzdesi.
Latency: Önemli işlemler için P50/P95/P99.
Hata - tam olarak belirleyin (5xx, zaman aşımı, iş hatası?).
RTO (Kurtarma Süresi Hedefi) - kurtarma için ne kadar zamana izin verilir.
Kurtarma Noktası Hedefi (RPO) - Bir felakette ne kadar veri kaybedilebilir?
Hata Bütçesi - 1 − SLO, değişiklikler ve olaylar için "rezerv".
3) SLA için bulut mimarisinin çerçevesi
3. 1 Çok alanlı (Multi-AZ)
Durumu (DB, önbellek, kuyruklar) en az 2-3 AZ'ye çoğaltın.
Soğuk/sıcak standbys, otomatik yük devretme.
AZ başına sağlık kontrolleri ile yerel dengeleyiciler (L4/L7).
3. 2 Multiregion
Varlıktan varlığa: Düşük RTO/RPO, daha zor tutarlılık ve maliyet.
Varlık-yükümlülük (sıcak/sıcak): daha ucuz, RTO daha fazla, ancak daha kolay veri kontrolü.
Coğrafi yönlendirme (GeoDNS/Anycast), "patlama yarıçapı" yalıtımı.
3. 3 Depolama ve veri
İşlemsel veritabanları: bölge içinde eşzamanlı çoğaltma, bölgeler arası asenkron.
Önbellek: bölgeler arası kopyalar, "yerel okuma + async ısınma" modu.
Nesne depolama: sürüm oluşturma, yaşam döngüleri, bölgeler arası çoğaltma.
Kuyruklar/Akış: Ayna Kümeleri/Çok Bölgeli Akışlar.
3. 4 Döngü yalıtımı
Kritik hizmetlerin (ödemeler/cüzdan) ve'ağır "analitik görevlerin ayrılması.
Hatlar arasındaki oran limitleri/kotalar, böylece raporlar prod'u "yemez".
4) Yüksek kullanılabilirlik modelleri
Bulkhead & Pool Isolation - Bağlantı ve kaynak havuzlarını izole edin.
Devre Kesici + Zaman Aşımları - dış entegrasyonların donmalarına karşı koruma.
Idempotency - çift yazma-off olmadan istekleri tekrarlayın.
Zarif Bozulma - bozulduğunda, temel olmayan özellikleri (avatarlar, gelişmiş filtreler) devre dışı bırakın.
Geri basınç - gelen akışı kontrol edin, kuyrukların "ufka" gitmesine izin vermeyin.
Kaos/Başarısızlık Enjeksiyonu - güvenilirlik hipotezlerini test etmek için planlanan "başarısızlıklar".
5) DR (Felaket Kurtarma) Stratejileri
Seçim: ödemeler/cüzdan - minimum Hot Standby; İçerik/dizin - Sıcak; Raporlar - Temiz pencerelerle Yedekleme ve Geri Yükleme.
6) SLI/SLO hakkında: nasıl doğru ölçülür
6. Seviyeye göre 1 SLI
Müşteri SLI: Uçtan uca (ağ geçidi ve dış sağlayıcılar dahil).
Servis SLI: "saf" servis gecikmesi/hataları.
İş SLI: CR (registratsiya ^ depozit), T2W (time-to-wallet), PSP-düşüş oranı.
6. 2 SLO örneği
Çekirdek API kullanılabilirliği: ≥ 99. 30 günde %95.
Ödeme gecikmesi: P95 ≤ 350 ms, P99 ≤ 700 ms.
Web kitaplarının teslimatı PSP: ≥ 99. 60 sn için %9 (retras ile).
Veri Tazeliği raporları: ≤ 10 dakika zamanın %95'inde gecikir.
6. 3 Hata Bütçe Politikası
Bütçenin %50'si - değişiklikler için (sürümler/deneyler), %50 - olaylar için.
Bütçe yanma - friz özelliği, sadece stabilizasyon.
7) Performans ve ölçeklendirme
SLO yönelimli sinyallerle HPA/VPA (sadece CPU değil, aynı zamanda kuyruklar/gecikme).
Zamanlamalara ve tarihsel zirvelere dayalı tahmini ölçekleme.
Turnuvalardan önce DB/PSP'ye sıcak havuzlar/ön ısıtma bağlantıları.
Önbelleğe alma ve kenar - özellikle oyun katalogları ve statik varlıklar için RTT'yi azaltın.
8) Ağ katmanı ve küresel trafik
Gecikmeyi en aza indirmek ve çökmeleri yerelleştirmek için Anycast/GeoDNS.
Yük devretme politikaları: Bölgenin sağlık testleri, eşikler, TTL ile "yapışkanlık".
Kenarda mTLS/WAF/Rate Limit, bot trafiğine karşı koruma.
İzin listesi ve SLA farkında geri çekilmelerle PSP/KYC'ye çıkış kontrolü.
9) Veri ve tutarlılık
Tutarlılık düzeyini seçin: katı (ödemeler) vs nihai (katalog/derecelendirme).
Okumayı ve kritik komutların dikeylerini boşaltmak için CQRS.
"Tam olarak bir kez'olay teslimi için Giden Kutusu/Gelen Kutusu.
Kesintisiz geçişler: Expand-migrate-contract, MAJOR değişiklikleri sırasında çift giriş.
10) SLA altında gözlemlenebilirlik
Ağ geçidinden izler: partner/region/API sürümü ile 'trace _ id' korelasyonu.
Yanma oranına sahip SLO panoları, bölgeye ve sağlayıcıya göre "hava durumu".
Belirtilerle uyarılar, proxy belirtileriyle değil (CPU değil, P99/hatalar).
Sentetikler: hedef ülkelerden (TR, BR, EU...) dış kontroller.
Denetim ve raporlama: SLI/SLO'yu iş ortağı portalına dışa aktarma.
11) Güvenlik ve uyumluluk
Ağ segmentasyonu ve gizli yönetim (KMS/Vault).
Uçuş/dinlenme şifrelemesi, PAN/PII tokenization.
Yöneticiler/operatörler için rol erişim politikaları.
Değişmez (WORM) ve denetim için tutma günlükleri.
Düzenleyici: bölgede depolama, raporlar, SLA uygulamasının kanıtlanabilirliği.
12) FinOps: Maliyet sürücüsü olarak SLA
Fiyatları SLO sapmalarına koyun: + 0 ne kadar. %01 kullanılabilirlik?
Profil tepe pencereleri, sabit gücü şişirmeyin.
Sağ boyutlandırma ve arka plan görevleri için "yapabileceğiniz yeri belirleyin".
Konturlar için kotalar ve bütçeler, "serbest" bozulmaya izin vermez.
13) Güvenilirlik testi
GameDay/Chaos oturumları: AZ/PSP'yi kapatma, kuyruklarda gecikmeler, BGP sonları.
DR-drili: RTO hedefleri olan geçiş bölgelerinin düzenli eğitimi.
Load & Soak: Gerçek bahis/turnuva profilleri ile uzun koşular.
Tekrarlama olayları: ünlü dosyaların ve oynatma komut dosyalarının bir kütüphanesi.
14) SLA işlem tarafı
SLO dizini: sahip, formül, metrikler, kaynaklar, uyarılar.
RFC/ADR ile değişiklikler: Hata bütçesi üzerindeki etkinin değerlendirilmesi.
Post-mortems: Mimariyi ve ranbooks'u geliştirmek, SLO'yu ayarlamak.
Ortaklarla iletişim: postalar, durum sayfası, planlı bakım.
15) SLI/SLO/Rapor Örnekleri
15. 1 Formüller
SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек
15. 2 Çekirdekli API SLO Seti Örneği
Kullanılabilirlik (30 gün): 99. 95%
Uç nokta P95'/v2/payouts/create ': ≤ 350ms
5xx hataları (1 saat yuvarlanma): <0. 3%
Webhook teslimatı ≤ 60 сек (P99): ≥ 99. 9%
Cüzdan için RPO: ≤ 60 sn, RTO ≤ 5 dk
15. 3 SLA raporu (sıkma)
Tamamlandı: 99. %97 (SLO 99). 95%) +
İhlaller: PSP zaman aşımları nedeniyle BR bölgesi başına 2 bölüm (kümülatif 8 dakika).
Önlemler: Hata kodları ile akıllı yönlendirme eklendi, PSP-B'ye artan sıcak bağlantı havuzu.
16) Uygulama kontrol listesi
1. Kritik kullanıcı yolları ve ilgili SLI'lar tanımlanmıştır.
2. 30/90 gün + hata bütçe politikası için SLO.
3. RTO/RPO hedefleri, düzenli tatbikatlar ile çoklu imar ve DR planı.
4. Coğrafi hedeften sentetikler, bölge başına/PSP başına gösterge panoları.
5. Stabilite modelleri: devre kesici, geri basınç, idempotency.
6. Devre dışı bırakılmış özellikler için bozma politikası ve özellik bayrakları.
7. FinOps: kontur bütçeleri, tepe tahmini, sıcak havuzlar.
8. Güvenlik: segmentasyon, şifreleme, denetim.
9. Ortaklar için SLA dokümantasyonu, iletişim süreci.
10. Retrospektifler ve SLO revizyonları her 1-2 çeyrekte bir.
17) Anti-desenler
Ölçülebilir SLI'ler ve şeffaf sayma teknikleri olmadan SLA'lara söz verin.
Ağ geçidini/sağlayıcıları göz ardı ederek "hizmetin girişinde" kullanılabilirliği sayın.
P99 kuyruklarını yok sayarak yalnızca orta gecikmeye güvenin.
DR "kağıt üzerinde", gerçek eğitim eksikliği.
Sınırsız "ebedi" kaynaklar: Bir rapor prod'u düşürür.
Yiyecek ve ağır analitiği bir küme/veritabanında karıştırın.
18) Alt satır
SLA'lar için bulut mimarisi, teknik kalıpların (çoklu AZ/bölge, izolasyon, hataya dayanıklı veriler), süreçlerin (SLO, hata bütçesi, DR-matkaplar) ve ekonominin (FinOps) bir kombinasyonudur. Kendinize öngörülen başarısızlıklara hak verin: hata toleransını test edin, yüzdelerle ölçün, "patlayıcı yarıçapı" sınırlayın ve açıkça iletişim kurun. SLA'nın vaatleri daha sonra pazarlama değil, yönetilen mühendislik uygulaması haline gelecektir.