Sağlayıcılarla SLA/OLA
1) Şartlar ve sınırlar
SLI - ölçülebilir gösterge (kullanılabilirlik, p99 gecikme süresi, başarıyla işlenmiş web kitapları, RPO/RTO).
SLO - ölçüm penceresi başına hedef SLI değeri (örneğin, 99. %9/30 gün).
SLA - yasal olarak bağlayıcı belge (SLO + prosedürleri + geri ödeme).
OLA - SLA'lara uyumu sağlayan dahili hedefler ve süreçler.
UC (Temel Sözleşme) - üçüncü taraflarla (kanallar, veri merkezleri, CDN, vb.) "alt tabaka".
Sınırlar: Sağlayıcının sorumluluk alanını (bulut/WAF/CDN/ödeme ağ geçidi/KYC sağlayıcısı) bölgenizden (kod, yapılandırma, müşteri ayarları) açıkça ayırın.
2) Kritiklik matrisi ve model seçimi
İş etkisine göre segment sağlayıcıları:Matris, SLA'nın derinliğini, kontrollerin kapsamını ve OLA/UC gereksinimlerini belirler.
3) Metrikler ve ölçüm pencereleri
Kullanılabilirlik - Hizmetin toleranslara göre sorguları yürütme yüzdesi.
Gecikme: Anahtar işlemler için p95/p99; "Yavaş başarı" sayılır.
Veri güvenilirliği: RPO (izin verilen maksimum veri kaybı) ve RTO (kurtarma süresi).
Bant genişliği/limitleri: garantili kotalar (RPS/MBps).
Entegrasyonların kalitesi: teslim edilen webhook'ların paylaşımı ≤ X dakika, 2xx yanıtlarının paylaşımı, tekrarlar ve veri tekilleştirme.
Ölçüm penceresi: Aylık/haddeleme 30 gün, istisnalar (planlanan faaliyetler) sınırları ile.
- 'Kullanılabilirlik _ ext = 1 − (Downtime_confirmed_outages/ Total_minutes_in_window)'
- Kesinti, yalnızca sağlayıcının durum sayfası tarafından değil, harici izleme ile teyit edilen kullanılamayan durumdur.
4) SLA içeriği (bölüm şablonu)
1. Konu ve kapsam (hizmetler, bölgeler, API sürümleri).
2. Tanımlar (SLI/SLO,'olay "," planlı iş "," mücbir sebep ").
3. İstek kategorisine ve bölgeye göre hizmet hedefleri (SLO'lar).
4. İzleme ve kanıt tabanı: ne şekilde, kimin sensörleri, hangi frekansta.
5. Olaylar ve yükselmeler: kanallar, yanıt/güncelleme süreleri, roller.
6. Geri ödemeler: krediler/para cezaları/bonuslar, eşikler, formüller.
7. Güvenlik ve gizlilik: DPA, şifreleme, günlükler, ihlal bildirimleri.
8. Hizmet değişiklikleri: kullanımdan kaldırmalar, bildirim penceresi, uyumluluk.
9. Süreklilik ve DR: RPO/RTO, kurtarma testleri.
10. Denetim ve uyumluluk: Denetim, raporlama, belgelendirme hakkı.
11. Çıkış Planı: veri dışa aktarma, tarihler, biçim, geçiş yardımı.
12. Yasal hükümler: yargı, mücbir sebep, gizlilik, geçerlilik süresi.
5) İfade örnekleri (fragmanlar)
5. 1 Kullanılabilirlik ve ölçüm
"Sağlayıcı 99 sağlar. Her takvim ayında %95 kullanılabilirlik. Kullanılabilirlik, Müşterinin ≥3 bölgelerden ≤1 dakika aralıklarla harici sentetik izlemesi ile ölçülür. ≥2 bölgelerde kaydedilmemiş bulunabilirlik aynı anda bir Seviye SEV2 olayı olarak kabul edilir ve Kesinti Süresinde sayılır
5. 2 Anahtar API gecikmesi
"P99 yanıt süresi 'POST/ödemeler/yetkilendirme", ayın günlerinin %95'inde 450 ms'yi ≤. Eşiği aşan taleplerin yüzdesi için bir neden analizi raporu sağlanır"
5. 3 Olaylar ve tırmanışlar
"S1: ack ≤ 15 dakika, her ≤ 30 dakikada bir güncelleme, hedef kurtarma ≤ 2 saat; S2: ack ≤ 30 dakika, güncellemeler ≤ 60 dakika; S3: Bir Sonraki İş Günü Kanallar: telefon 7 × 24, sohbet köprüsü, e-posta"
5. 4 Geri ödemeler (kredi)
If Availability_ext <99. 95% → credit 10% monthly fee
< 99. 9% → 25%
< 99. 5% → 50%
Krediler, ağır ihmalde hasar için diğer tazminat yöntemlerini dışlamaz.
5. 5 Kullanımdan kaldırmalar ve uyumluluk
"Uyumluluğu bozan değişiklikler için en az 180 gün bildirimi. En az 90 gün boyunca vN ve vN + 1 için eşzamanlı destek"
5. 6 Çıkış
"Sonlandırmadan sonraki 30 gün içinde, sağlayıcı Parquet/JSON + formatlarındaki verilerin tam olarak ücretsiz olarak dışa aktarılmasını sağlar; Ek göç hizmetleri - tarife X'te. Kopyaların imha edilmesi yasayla onaylanır"
6) OLA: Harici SLA için dahili destek
"Platform've" Ödeme Ekibi "arasındaki örnek OLA:- Hedefler: p99 ağ geçidi ≤ 200 ms, hata oranı ≤ 0. %3, DR: RPO 0, RTO 30 dk.
- Sorumluluk: SRE-on-call, 7 × 24; Ortak panolar ve uyarılar.
- Süreçler: Salınımlarda kaos-duman, PR'da perf-duman, gölgelendirmenin sezgisel analizi.
- Gates: SLO/xaoc testi başarısız olduğunda bloğu dağıtın; Zorunlu runbook güncellemesi.
7) İzleme ve kanıt
Sentetikler: harici problar (HTTP/TCP), kullanıcı yolu, "yavaş başarı".
RUM: Etkiyi doğrulamak için gerçek kullanıcı izleme.
Korelasyon: 'Provider', 'region', 'api _ method', 'incident _ id' etiketleri.
Dışlayıcılar: ekran görüntüleri/izler/günlükler, KPI dışa aktarma, yükseltme zaman çizelgesi.
rego package policy. sla deny["Release blocked: provider SLO risk"] {
input. release. affects_providers[_] == p input. slo. forecast[p].breach == true
}
8) Olaylar ve Etkileşimler
Oyun kitabı:1. SEV sınıflandırması, savaş odası açılışı, IC amacı.
2. Sağlayıcının "sıcak kanal" yoluyla bildirilmesi, eserlerin iletilmesi.
3. Bypass modları/özellik bayrakları (bayat, gölgeleme, rate-cap).
4. Paylaşılan zaman çizelgesi, kurtarma.
5. Postmortem + eylemleri: yapılandırma sınırlarını, anahtarları, yedekleme yollarını güncellemek.
6. SLA kredilerinin başlatılması, faturalandırmada sabitleme.
9) Güvenlik ve DPA
DPA/gizlilik: denetleyici/işlemci rolleri, veri kategorileri, yasallık tabanı, işlem son tarihleri/hedefleri, alt işlemciler ve bunların SLA'ları.
Şifreleme: TLS1. 2 +, PFS; "Dinlenmede" veri, anahtar yönetimi (KMS/HSM), rotasyon.
Denetim: erişim günlükleri, ihlal bildirimleri ≤ 72 saat, istek üzerine pentest raporları.
Yerelleştirme: depolama bölgesi, izinsiz ihracat yasağı.
10) Tedarik Zinciri ve birlikte çalışabilirlik
SBOM/güvenlik açıkları: CVSS eşik politikası ve düzeltme süreleri (7 gün ≤ eleştirildi, 14 ≤ yüksek).
API uyumluluğu: sözleşme testleri, sanal alanlar ve sabit fikstürler.
Sağlayıcı değişiklikleri: erken sürüm notları, önizlemeler/beta pencereleri, geriye dönük uyumluluk.
11) Çoklu sağlayıcı ve feilover
Aktif/Aktif: Daha zor ve daha pahalı, ancak daha yüksek kullanılabilirlik (tutarlılığı göz önünde bulundurun).
Aktif/Pasif: Soğuk/Sıcak Rezerv, DR Düzenli Egzersizler
Soyutlamalar/adaptörler: tek sözleşme, sağlık/maliyet/karbon yönlendirme (varsa).
Lisans/ticari koşullar: taşınabilirlik, veri çıktısında sınırlama, çıkış maliyeti.
12) Çıkış planı ve periyodik provalar
Veri/diyagram kataloğu ve hacimleri.
SDK/API taşınabilirlik komut dosyası (minimum - ikinci kaynak).
Kuru çıkış testi: dışa aktarma/içe aktarma, geri yükleme, değişmezleri kontrol etme.
Serbest bırakıldıktan sonra yasal tutma/elden çıkarma süreleri.
13) Sözleşme testleri ve uygunluk
API Örnekleri: Pozitif/Negatif, Limitler, Hatalar ve Retrays.
Etkinliklerin/webhookların teslimi: imza/zaman/büyükbaba/tekrarlar.
Perf taban çizgileri: p99, bant genişliği; Sağlayıcının sürüm notlarında regresyon testleri.
Bölgeler arası: Bir bölgenin bozulması SLO'yu küresel olarak ihlal etmemelidir.
14) Anti-desenler
Harici ölçümler olmadan SLA "durum sayfasında".
Tüm bölgeler/uç noktalar için aynı hedefler.
Denetim haklarının eksikliği ve ayrıntılı olay kayıtları.
No OLA/UC - İçeride dış yükümlülükleri yerine getirecek kimse yok.
Tanımlanmamış çıkış planı - tedarikçi rehine.
Sistematik ihlallerde fesih hakkı olmaksızın "sadece kredilerle para cezaları".
Geçiş penceresi olmadan değer düşüklüğü yapar.
15) Mimar kontrol listesi
1. Anahtar akışı ve bölgeler için tanımlanmış SLI/SLO?
2. Seçilen dış izleme yöntemi ve kanıt tabanı?
3. Olaylar, tırmanmalar, planlanan çalışma pencereleri ve istisna sınırı SLA'da belirtiliyor mu?
4. N ihlalleri için bir kredi ölçeği/ceza ve fesih hakkı var mı?
5. DPA/güvenlik: şifreleme, günlükler, bildirimler, alt işlemciler, yerelleştirme?
6. Boru hattındaki sözleşme testleri ve kum havuzları?
7. Dahili OLA'lar/UC'ler harici SLO'ları etkinleştirir mi?
8. DR: RPO/RTO ilan etti, eğitim yapıldı, raporlar mevcut mu?
9. Çıkış planı: ihracat formatları, zamanlama, kuru çıkış uygulaması?
10. CI/CD'deki kapılar, SLA ihlali riskini artıran sürümleri engelliyor mu?
16) Mini örnekler (eskizler)
16. 1 Sağlayıcı riskine ilişkin dağıtım kapısı politikası
yaml gate: provider-slo-risk checks:
- name: forecasted-slo-breach input: slo_forecast/providers. json deny_if: any(.providers[].breach == true)
action_on_deny: "block-release"
16. 2 "Olay kanıtını" dışa aktarma
bash curl -s https://probe. example. com/export? from=2025-10-01&to=2025-10-31 \
jq '. {region, endpoint, status, latency_ms, trace_id, ts}' > evidence. jsonl
16. 3 Sözleşme Webhook Testi (Pseudocode)
python evt = sign(make_event(id=uuid4(), ts=now()))
res = post(provider_url, evt)
assert res. status in (200, 202)
assert replay(provider_url, evt). status = = 200 # idempotency
Sonuç
SLA/OLA sadece bir "yasal kağıt'değil, risk ve kaliteyi yönetmek için mimari bir mekanizmadır. Doğru metrikler ve pencereler, harici izleme, açık olay ve geri ödeme prosedürleri, dahili OLA/UC'ler, boru hatlı kapılar, çoklu satıcılar ve gerçek bir çıkış planı, sağlayıcı bağımlılığını platformunuzun kontrollü, ölçülebilir ve ekonomik olarak öngörülebilir bir parçası haline getirir.