Bakım pencereleri
1) "Bakım penceresi'nedir ve neden gereklidir?
Bakım Penceresi - Kullanılabilirliği/performansı potansiyel olarak etkileyen faaliyetler için önceden kararlaştırılmış zaman dilimi. Amaç, öngörülebilir risk, şeffaf iletişim ve kanıta dayalı raporlama ile kontrollü değişikliklerdir.
Türleri:- Planlanan: sürümler, geçişler, sertifika/anahtar rotasyonları, veritabanı/broker yükseltmeleri.
- Acil durum: Acil güvenlik düzeltmeleri/olay geri dönüşleri.
- Sessiz/Sıfır etkisi: kullanıcı etkisi yok (gizli kanaryalar, replikalar, paralel giriş).
- Sağlayıcı tarafından yönetilen: Harici sağlayıcıların pencereleri (PSP/KYC/CDN/Cloud).
2) İlkeler
SLO-first: Pencerenin zamanı/biçimi ile ilgili karar, SLI ve hata bütçeleri üzerindeki etkiye göre yapılır.
Minimum patlayıcı yarıçapı: kanarya - kademeli olarak - tam dahil.
Tersinirlik: Her işlemin bir geri dönüş planı ve kanıtlanmış bir geri dönüşü vardır.
Gerçeğin tek kaynağı: tam veri paketi ile pencere takvimi + bilet/RFC.
Kanıt: kanıt toplama (günlükler, grafikler, ekran görüntüleri, eser karmaları).
SLA iletişimi: Önceden, iş sırasında, tamamlandıktan sonra.
3) Planlama: Zamanlama ve kapsama alanı
Pencere seçimi: düşük trafik, anahtar kohortlar için minimum etki (bölgeler/VIP/ortaklar).
Zaman dilimleri: UTC + yerel saatinde kayıt (örneğin, Avrupa/Kiev).
Karartma dönemleri: yoğun mevsimlerde/etkinliklerde çalışma yasağı (maçlar, satışlar, serbest bırakma "ölüm pencereleri").
Patlama yarıçapı: Kimin etkileneceğini açıkça tanımlayın (hizmetler, bölgeler, sağlayıcılar).
4) Müzakere süreci (RFC/CAB lite)
1. Oluşturucu, risk analizi ve planı içeren bir bilet/RFC oluşturur (aşağıdaki şablona bakın).
2. Risk değerlendirmesi (Düşük/Med/Yüksek) ve hizmet sahibi tarafından onay + SRE/güvenlik.
3. Takvim: slot rezervasyonu; Çakışma kontrolü (diğer pencereler/sağlayıcılar)
4. İletişim planı: önceden kararlaştırılmış bildirimler ve durum sayfası.
5. Yüksek riskli değişiklikler için Go/No-Go-meeting (24-48 saat içinde).
5) Hazırlık: Güvenlik Kapıları
Lansman öncesi kontroller: başarılı aşama testleri, imzalanan eserler, toplam riskler ≤ kabul edilebilir.
Kanarya: %1 - %5 - %25 kohort/bölgeye göre; Otomatik SLO-gardrails ve otomatik geri alma.
Bozulmuş bayraklar ve limitler hazır.
Sandbox'ta geri alma/geri alma planı işaretli; Geri alma komutları belgelenmiştir.
Uyarıların bastırılması: Sadece beklenen gürültü için, SLO sinyalleri boğuk değildir.
Erişimler: JIT/JEA işlemler için hesaplar, zorunlu denetim.
6) İletişim (zamanlama ve içerik)
T-14/7/2 günleri (planlanan): Müşteriler/iç ekipler için (ne/ne zaman/etki/kişiler).
T-60/30/15 dakika: durum sayfasının içindeki ve üzerindeki hatırlatıcılar.
Çalışma sırasında: her 15-30 dakikada bir (SEV bağımlı) şablona göre günceller: Etki> Aşama> Sonraki güncelleme.
Sonra: son "Tamamlandı/Kısmen tamamlandı/Geri yuvarlandı", değişikliklerin listesi, SLO kontrolü.
7) Eserlerin performansı (referans senaryo)
1. Alakasız salımları dondurun.
2. Kanaryaya geçiş (sınırlı kohort) - SLI/p95/p99 metrikleri gözlemleyin.
3. Yeşil bahçıvan payında kademeli artış.
4. İş SLI'sinin doğrulanması (dönüşüm, ödemelerin/kayıtların başarısı).
5. Liste işlevselliği doğrulamasını kontrol edin (mutlu yol + kritik senaryolar).
6. Release/No-release çözümü (IC/SRE/servis sahibi).
7. Baskının kaldırılması, uyarı politikalarının iadesi.
8) Pencereden sonra: doğrulama ve raporlama
Gözlem penceresi (örneğin, 1-24 saat): SLO ve hataları izleme.
Pencere raporu: ne yapıldı, metrikler, sapmalar, kanıtlar, toplam.
Sorunlar varsa: AAR - RCA - CAPA (düzeltme kuralları, testler, belgeler).
Arşiv: bilet, eserler, imzalar, sağlama toplamları.
9) Dış sağlayıcılarla koordinasyon
Onaylanmış yuvalar ve sağlayıcı kişileri; Durum sistemindeki pencere.
İş süresi için alternatif bir sağlayıcıya folback/yönlendirme.
Bir sağlayıcı (sohbet/köprü) ve SLA güncellemeleri ile tek bir savaş odası.
10) Süreç Olgunluk Metrikleri
Zamanında oran: Pencerelerin %'si zamanında başladı/tamamlandı.
Değişim hatası oranı: SLO üzerinde geri dönüş/etkisi olan pencerelerin yüzdesi.
Olay-sırasında-MW: Pencere sırasında meydana gelen olaylar.
İletişim SLA: zamanında güncellemelerin paylaşımı.
Kanıt bütünlüğü: Tam kanıt paketine sahip pencerelerin yüzdesi.
Müşteri etkisi: 1 pencere için şikayetler/biletler, trend.
7/30 gün sonra: SLO stabilitesi ve relaps yok.
11) Kontrol listeleri
Pencerenin önünde
- RFC/bilet dolu; Risk değerlendirmesi tamamlandı; sahibi atandı.
- Kanarya ve backout planı kontrol edildi; Geri alma komutları test edildi.
- Yayınlanan JIT erişimleri; Uyarılar yapılandırılır (SLO'lar sıkıştırılmaz).
- Takvim/durum sayfası ve bildirimler hazırlanır.
- Sürümler/Rakip Pencereler - Dondurulmuş/Kaydırılmış.
- Sağlayıcılar onaylandı; Kişiler ve SLA'lar kaydedilir.
Sırasında
- Programa göre güncellemeler; Savaş odası aktif.
- SLO/tepe hatalarındaki Gardrails'e saygı duyulur; İhlal durumunda - otomatik geri alma.
- Kanıt toplanır (ekran görüntüleri, grafiklerden önce/sonra, eylem günlüğü).
Sonra
- Gözlem penceresi sırasında yeşil alanda SLO.
- Kanıtlarla nihai rapor; Durum sayfası güncellendi.
- CAPA'lar verilir (sapmalar varsa); belgeler güncellendi.
12) Şablonlar
Bakım Penceresi Başına RFC Şablonu
RFC: MW-2025-11-05-DB-Upgrade
Window: 2025-11-05 00: 00-02: 00 UTC (Europe/Kyiv 02: 00-04: 00)
Service/component: payments-db (PostgreSQL cluster A)
Type: Planned (High)
Target: Upgrade to 15. x for security/bugs
Blast radius: EU region, tenant EU, all write operations
Impact: up to 2 × p99 growth to 400 ms; short-term read-only (≤5 min)
Gardrails: error-rate <0. 5%, p99 <400 ms, SLO not impaired
План: expand→migrate→contract; canary 1 %/5 %/25%; 1..N steps (with commands)
Backout: rolling back replica/slots; TTL DNS does not change; rollback time ≤ 10 min
Suppression: noise of database/replica alerts; SLO alerts are active
Communications: T-7/T-2 days and T-60/15 minutes; war-room #mw-db-a
Owners: @ db-tl, @ sre-ic, @ payments-pm
Evidence: before/after p95/p99 graphs, migration logs, checksums
Risk: High (data) - confirmed by CAB
Müşteri Bildirim Şablonu (Kısa)
Topic: Planned work 05. 11. 2025 02:00–04:00 (Europe/Kyiv)
We will update the payment database. Short delays and read-only mode (up to 5 minutes) are possible.
On-call contacts: status. example. com support@example. com
Bastırma kuralları (fikir)
yaml suppress:
- name: db-maintenance when: window("2025-11-05T00:00Z","2025-11-05T02:00Z")
match: [ "db. replica. lag", "db. connection. reset", "migration. progress" ]
keep: [ "slo. payment. success", "api. availability" ]
13) Düzenlenmiş alanlar için özellikler
Denetim günlüğü değiştirilemez: kim onayladı, kim yürüttü, hangi komutlar, eserlerin karmaları.
PII/Finans: Kanıtlarda maskeleme, raporlara sınırlı erişim.
Müşterilere ve ortaklara bildirimlerin şartları - sözleşmelere uygun olarak.
Sağlayıcı pencereleri - harici SLA'lar ve kişiler ile belgelenmiştir.
14) Anti-desenler
Geri alma planı ve doğrulanmış geri alma olmadan pencere.
SLO sinyallerinin'her ihtimale karşı "sıkışması.
Aynı etki alanında/bölgede rakip pencereler.
İletişim sessizliği: güncellemelerden önce/sırasında/sonra yok.
Denetim ve komut dosyaları olmadan üründe manuel düzenlemeler.
Belirsiz başarı kriterleri nedeniyle "sonsuz" pencereler.
Kanıt eksikliği - kaliteyi doğrulayacak hiçbir şey yok.
15) Uygulama Yol Haritası (4-6 hafta)
1. Ned. Tek bir takvim ve RFC şablonu 1-Enter karartma dönemlerini tanımlar.
2. Ned. 2: Kapıları standartlaştırın (kanarya, SLO-gardrails, backout).
3. Ned. 3: bastırma/serbest bırakma açıklamalarını ve durum sayfasını otomatikleştirin.
4. Ned. 4: raporlama ve olgunluk metrikleri; Haftalık MW-incelemesi.
5. Ned. 5-6: Sağlayıcılar ve denetim arşivi ile entegrasyon; Yüksek riskli pencere simülasyonu.
16) Alt satır
Düzgün organize edilmiş servis pencereleri yönetilebilir, geri döndürülebilir ve kanıtlanabilir şekilde güvenli değişikliklerdir. SLO-gardrails, kanarya törpüleri, sıkı iletişim ve tam bir kanıt seti ile pencere, "korkunç bir aksama süresinden", kullanıcılar ve ortaklar için sürprizler olmadan rutin bir iyileştirme mekanizmasına dönüşür.