GH GambleHub

Teknoloji ve Altyapı - Bulut Mimarisi ve SLA'lar

Bulut Mimarisi ve SLA'lar

1) Neden SLA'lar ve nasıl yönetileceği

SLA (Hizmet Seviyesi Sözleşmesi) - hizmetin kullanılabilirliği, hızı ve doğruluğu hakkında iş/ortaklara harici bir söz.
SLO (Service Level Objective) - komutlar için dahili hedef seviyeleri.
SLI (Hizmet Seviyesi Göstergesi) - SLO'nun değerlendirildiği temelde ölçülebilir metrikler.

IGaming/fintech katı zirve pencereleri (turnuvalar, canlı bahisler, raporlama süreleri, "maaş" günleri), PSP/KYC sağlayıcılarına ve coğrafyaya güçlü bağımlılık ile karakterizedir. SLA'lar bu davranışı dikkate almalı ve mimari sadece orta değil aynı zamanda yüzdelik olarak da garanti vermelidir.


2) Temel terminoloji

Kullanılabilirlik - Aralık başına başarılı taleplerin yüzdesi.
Latency: Önemli işlemler için P50/P95/P99.
Hata - tam olarak belirleyin (5xx, zaman aşımı, iş hatası?).
RTO (Kurtarma Süresi Hedefi) - kurtarma için ne kadar zamana izin verilir.
Kurtarma Noktası Hedefi (RPO) - Bir felakette ne kadar veri kaybedilebilir?
Hata Bütçesi - 1 − SLO, değişiklikler ve olaylar için "rezerv".


3) SLA için bulut mimarisinin çerçevesi

3. 1 Çok alanlı (Multi-AZ)

Durumu (DB, önbellek, kuyruklar) en az 2-3 AZ'ye çoğaltın.
Soğuk/sıcak standbys, otomatik yük devretme.
AZ başına sağlık kontrolleri ile yerel dengeleyiciler (L4/L7).

3. 2 Multiregion

Varlıktan varlığa: Düşük RTO/RPO, daha zor tutarlılık ve maliyet.
Varlık-yükümlülük (sıcak/sıcak): daha ucuz, RTO daha fazla, ancak daha kolay veri kontrolü.
Coğrafi yönlendirme (GeoDNS/Anycast), "patlama yarıçapı" yalıtımı.

3. 3 Depolama ve veri

İşlemsel veritabanları: bölge içinde eşzamanlı çoğaltma, bölgeler arası asenkron.
Önbellek: bölgeler arası kopyalar, "yerel okuma + async ısınma" modu.
Nesne depolama: sürüm oluşturma, yaşam döngüleri, bölgeler arası çoğaltma.
Kuyruklar/Akış: Ayna Kümeleri/Çok Bölgeli Akışlar.

3. 4 Döngü yalıtımı

Kritik hizmetlerin (ödemeler/cüzdan) ve'ağır "analitik görevlerin ayrılması.
Hatlar arasındaki oran limitleri/kotalar, böylece raporlar prod'u "yemez".


4) Yüksek kullanılabilirlik modelleri

Bulkhead & Pool Isolation - Bağlantı ve kaynak havuzlarını izole edin.
Devre Kesici + Zaman Aşımları - dış entegrasyonların donmalarına karşı koruma.
Idempotency - çift yazma-off olmadan istekleri tekrarlayın.
Zarif Bozulma - bozulduğunda, temel olmayan özellikleri (avatarlar, gelişmiş filtreler) devre dışı bırakın.
Geri basınç - gelen akışı kontrol edin, kuyrukların "ufka" gitmesine izin vermeyin.
Kaos/Başarısızlık Enjeksiyonu - güvenilirlik hipotezlerini test etmek için planlanan "başarısızlıklar".


5) DR (Felaket Kurtarma) Stratejileri

StratejiRTORPOMaliyetKarmaşıklıkYorum yap
Yedekleme ve Geri Yüklemesaatlerdakika-saatDüşükDüşükYer değiştirilemeyen sistemler için, ödeme çekirdeğine izin verilmez
Sıcak Bekleme (bölge)DakikalarDakikalarortalamaortalamaMinimal açıklamalar + periyodik ısınma tutun
Hazır Bekleme (bölge)<5-10 dk<1-2 dkOrta-yüksekortalamaHızlı yük aktarımı, bölgeler arası dergiler
Aktif-AktifSaniye-dakika~ 0-1 dkYüksekYüksekDüşünceli tutarlılık ve çatışma çözümü gerektirir

Seçim: ödemeler/cüzdan - minimum Hot Standby; İçerik/dizin - Sıcak; Raporlar - Temiz pencerelerle Yedekleme ve Geri Yükleme.


6) SLI/SLO hakkında: nasıl doğru ölçülür

6. Seviyeye göre 1 SLI

Müşteri SLI: Uçtan uca (ağ geçidi ve dış sağlayıcılar dahil).
Servis SLI: "saf" servis gecikmesi/hataları.
İş SLI: CR (registratsiya ^ depozit), T2W (time-to-wallet), PSP-düşüş oranı.

6. 2 SLO örneği

Çekirdek API kullanılabilirliği: ≥ 99. 30 günde %95.
Ödeme gecikmesi: P95 ≤ 350 ms, P99 ≤ 700 ms.
Web kitaplarının teslimatı PSP: ≥ 99. 60 sn için %9 (retras ile).
Veri Tazeliği raporları: ≤ 10 dakika zamanın %95'inde gecikir.

6. 3 Hata Bütçe Politikası

Bütçenin %50'si - değişiklikler için (sürümler/deneyler), %50 - olaylar için.
Bütçe yanma - friz özelliği, sadece stabilizasyon.


7) Performans ve ölçeklendirme

SLO yönelimli sinyallerle HPA/VPA (sadece CPU değil, aynı zamanda kuyruklar/gecikme).
Zamanlamalara ve tarihsel zirvelere dayalı tahmini ölçekleme.
Turnuvalardan önce DB/PSP'ye sıcak havuzlar/ön ısıtma bağlantıları.
Önbelleğe alma ve kenar - özellikle oyun katalogları ve statik varlıklar için RTT'yi azaltın.


8) Ağ katmanı ve küresel trafik

Gecikmeyi en aza indirmek ve çökmeleri yerelleştirmek için Anycast/GeoDNS.
Yük devretme politikaları: Bölgenin sağlık testleri, eşikler, TTL ile "yapışkanlık".
Kenarda mTLS/WAF/Rate Limit, bot trafiğine karşı koruma.
İzin listesi ve SLA farkında geri çekilmelerle PSP/KYC'ye çıkış kontrolü.


9) Veri ve tutarlılık

Tutarlılık düzeyini seçin: katı (ödemeler) vs nihai (katalog/derecelendirme).
Okumayı ve kritik komutların dikeylerini boşaltmak için CQRS.
"Tam olarak bir kez'olay teslimi için Giden Kutusu/Gelen Kutusu.
Kesintisiz geçişler: Expand-migrate-contract, MAJOR değişiklikleri sırasında çift giriş.


10) SLA altında gözlemlenebilirlik

Ağ geçidinden izler: partner/region/API sürümü ile 'trace _ id' korelasyonu.
Yanma oranına sahip SLO panoları, bölgeye ve sağlayıcıya göre "hava durumu".
Belirtilerle uyarılar, proxy belirtileriyle değil (CPU değil, P99/hatalar).
Sentetikler: hedef ülkelerden (TR, BR, EU...) dış kontroller.
Denetim ve raporlama: SLI/SLO'yu iş ortağı portalına dışa aktarma.


11) Güvenlik ve uyumluluk

Ağ segmentasyonu ve gizli yönetim (KMS/Vault).
Uçuş/dinlenme şifrelemesi, PAN/PII tokenization.
Yöneticiler/operatörler için rol erişim politikaları.
Değişmez (WORM) ve denetim için tutma günlükleri.
Düzenleyici: bölgede depolama, raporlar, SLA uygulamasının kanıtlanabilirliği.


12) FinOps: Maliyet sürücüsü olarak SLA

Fiyatları SLO sapmalarına koyun: + 0 ne kadar. %01 kullanılabilirlik?
Profil tepe pencereleri, sabit gücü şişirmeyin.
Sağ boyutlandırma ve arka plan görevleri için "yapabileceğiniz yeri belirleyin".
Konturlar için kotalar ve bütçeler, "serbest" bozulmaya izin vermez.


13) Güvenilirlik testi

GameDay/Chaos oturumları: AZ/PSP'yi kapatma, kuyruklarda gecikmeler, BGP sonları.
DR-drili: RTO hedefleri olan geçiş bölgelerinin düzenli eğitimi.
Load & Soak: Gerçek bahis/turnuva profilleri ile uzun koşular.
Tekrarlama olayları: ünlü dosyaların ve oynatma komut dosyalarının bir kütüphanesi.


14) SLA işlem tarafı

SLO dizini: sahip, formül, metrikler, kaynaklar, uyarılar.
RFC/ADR ile değişiklikler: Hata bütçesi üzerindeki etkinin değerlendirilmesi.
Post-mortems: Mimariyi ve ranbooks'u geliştirmek, SLO'yu ayarlamak.
Ortaklarla iletişim: postalar, durum sayfası, planlı bakım.


15) SLI/SLO/Rapor Örnekleri

15. 1 Formüller


SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек

15. 2 Çekirdekli API SLO Seti Örneği

Kullanılabilirlik (30 gün): 99. 95%

Uç nokta P95'/v2/payouts/create ': ≤ 350ms

5xx hataları (1 saat yuvarlanma): <0. 3%

Webhook teslimatı ≤ 60 сек (P99): ≥ 99. 9%

Cüzdan için RPO: ≤ 60 sn, RTO ≤ 5 dk

15. 3 SLA raporu (sıkma)

Tamamlandı: 99. %97 (SLO 99). 95%) +

İhlaller: PSP zaman aşımları nedeniyle BR bölgesi başına 2 bölüm (kümülatif 8 dakika).
Önlemler: Hata kodları ile akıllı yönlendirme eklendi, PSP-B'ye artan sıcak bağlantı havuzu.


16) Uygulama kontrol listesi

1. Kritik kullanıcı yolları ve ilgili SLI'lar tanımlanmıştır.
2. 30/90 gün + hata bütçe politikası için SLO.
3. RTO/RPO hedefleri, düzenli tatbikatlar ile çoklu imar ve DR planı.
4. Coğrafi hedeften sentetikler, bölge başına/PSP başına gösterge panoları.
5. Stabilite modelleri: devre kesici, geri basınç, idempotency.
6. Devre dışı bırakılmış özellikler için bozma politikası ve özellik bayrakları.
7. FinOps: kontur bütçeleri, tepe tahmini, sıcak havuzlar.
8. Güvenlik: segmentasyon, şifreleme, denetim.
9. Ortaklar için SLA dokümantasyonu, iletişim süreci.
10. Retrospektifler ve SLO revizyonları her 1-2 çeyrekte bir.


17) Anti-desenler

Ölçülebilir SLI'ler ve şeffaf sayma teknikleri olmadan SLA'lara söz verin.
Ağ geçidini/sağlayıcıları göz ardı ederek "hizmetin girişinde" kullanılabilirliği sayın.
P99 kuyruklarını yok sayarak yalnızca orta gecikmeye güvenin.
DR "kağıt üzerinde", gerçek eğitim eksikliği.
Sınırsız "ebedi" kaynaklar: Bir rapor prod'u düşürür.
Yiyecek ve ağır analitiği bir küme/veritabanında karıştırın.


18) Alt satır

SLA'lar için bulut mimarisi, teknik kalıpların (çoklu AZ/bölge, izolasyon, hataya dayanıklı veriler), süreçlerin (SLO, hata bütçesi, DR-matkaplar) ve ekonominin (FinOps) bir kombinasyonudur. Kendinize öngörülen başarısızlıklara hak verin: hata toleransını test edin, yüzdelerle ölçün, "patlayıcı yarıçapı" sınırlayın ve açıkça iletişim kurun. SLA'nın vaatleri daha sonra pazarlama değil, yönetilen mühendislik uygulaması haline gelecektir.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.