Otomatik hata düzeltme
1) Amaç ve prensipler
Amaç: SLO, gelir ve uyumu koruyarak MTTR'yi azaltmak ve olayların tırmanmasını önlemek.
İlkeler:- SLO-first: Otomatik eylemlere yalnızca hata bütçesine doğrulanmış bir tehdit varsa izin verilir.
- Önce güvenlik: minimum patlama yarıçapı, açık sınırlar ve zaman kutuları.
- Tasarımla açıklanabilir: Her eylem açıklanabilir ve denetlenebilir.
- Geri dönüşe hazır: Herhangi bir adıma geri dönüş kriterleri eşlik eder.
- Riskin yüksek olduğu döngüde insan: P1-critical değişiklikler - ikili kontrol veya IC/çağrı onayı yoluyla (aksi belirtilmedikçe).
2) Şartlar
Otomatik iyileştirme: Insan müdahalesi olmadan bir olaya programatik tepki (uyarı/anomali).
Korkuluklar: kısıtlama politikası (eşik, süre, deneme sayısı, etki alanı).
Runbook-Action: Ön/posta kontrolleri ve geri alma ile atomik işlem.
Karar Motoru - Bir olayı politikalara eşleyen ve eylemleri tetikleyen bir hizmet.
3) Çözüm mimarisi
1. Sinyaller: SLO/yanık oranı, KRI, sentetikler, RUM, derin sağlık.
2. Bağlam korelasyonu: bültenler, özellik bayrakları, planlı çalışma, bağımlı sağlayıcılar.
3. Karar Motoru: kurallar/politikalar (kod olarak politika), etki ve risk değerlendirmesi, senaryo seçimi.
4. Yürütme: runbook eylemlerinin orkestratörü (idempotency, jitter ile retrai).
5. Kontrol: ön doğrulayıcılar, doğrulayıcılar, timebox, geri alma.
6. Denetim ve gözlemlenebilirlik: aktivite takibi, başarı ölçümleri, log (WORM/immutable).
7. İletişim: durum sayfası (Comms Lead aracılığıyla), var odası, destek için makrolar.
4) Kod olarak politika
Koşullara örnekler (sözde-Rego/mantık): Yük Devretme PSP:- 'varsa izin ver burn_rate (ödemeler. auth)> hızlı ve etkili> eşik ve psp_alt. sağlıklı & within_limits ("psp _ reroute") '
- 'allow if p99 (bet_settlement)> 3x & & queue_lag>limit & & feature ("replay _ center"). etkinleştirildi '
- 'eğer consumer_lag>target & & cost_budget izin ver. Tamam & region_capacity. mevcut '
- 'allow if export_spike & & no_ticket & & data_class=PII -> action = block + notify (Compliance)'
Her politika şunları içerir: koşul, eylem, sınır (kapsam/zaman/sıklık), başarı kriterleri, geri alma.
5) Güvenli eylemler dizini (atomik çalışma kitabı eylemleri)
Ödemeler: trafiği alternatif bir PSP/bankaya geçirin; Dönüşüm × yönlendirme sağlık × ücreti önceliklerini değiştirmek; Basitleştirilmiş 3DS yükseltme yeniden ödeme sınırlarını jitter ile etkinleştirin.
Bahis/Oyun: Scale Settle Workers; Önbellek ısınmasını etkinleştir, kritik olmayan özellikleri geçici olarak devre dışı bırak (animasyonlar, ikincil beslemeler); Bekleme odası/kuyruk sayfasını etkinleştirin.
Altyapı: bozulmuş örnekleri kaldırın (aykırı-dedektör), trafiği komşu AZ/bölgeye tahliye edin; Havuz/kota artırmak tiftik kontrolleri ile işçileri yeniden başlatın.
Veri/kuyruklar: tarafları yeniden dağıtın; Tüketicileri sınıra yükseltmek; okuma trafiğini sağlıklı bir kopyaya geçirin; Uyarlamalı rota örneklemesini etkinleştir.
Güvenlik/uyumluluk: Bilet olmadan PII ihracatını geçici olarak engellemek; Hız çıkış sınırlarını güçlendirmek, hassas işlemlerde ikili kontrol sağlar.
Virgül katmanı: Comms Lead için otomatik taslak durumu + güncelleme yuvaları; PSP bozulduğunda ortaklara haber vermek.
6) Doğrulama öncesi ve sonrası
Önce:- Sorunun gerçek ve taze olduğunu kontrol edin (N-of-M pencereler; sessizlik/planlı çalışma yok).
- Eyleme politika tarafından izin verildiğini ve bir kaynak bütçesi olduğunu doğrulayın.
- Tahmini maliyet (FinOps) ve uyumluluk kısıtlamaları.
- Yanma oranı/metrik azaltımını onaylayın; Sonucu kaydedin; Otomatik geri dönüşü koşullara göre planlayın.
7) Rollback и "kaçış kapağı"
Metrikleri stabilize ederken ve maksimum TTL eylemleri aracılığıyla otomatik dönüş.
Var odasında IC/on-call için geri al düğmesi.
Sadece acil durum erişimi için cam kırılması; Denetim sonrası gereklidir.
8) Uyarı ve olaylarla entegrasyon
Herhangi bir otomatik eylem olay kartına eklenir: kim/ne/ne/ne zaman/neden, sonuç, grafiklere bağlantılar.
Çağrı cihazı yinelenenler için sessize alınır, ancak başarısız otomatik düzeltmeler (büyütme) için alınmaz.
Durum sayfası şablondan Comms Lead ile güncelleştirilir.
9) Güvenlik ve uyumluluk tasarımı
Orkestratör için en az ayrıcalık; Eylem/etki alanı başına bireysel roller.
Yüksek risk için SoD ve çift kontrol: PSP yönlendirme, bonus limitleri, PII dışa aktarma.
Girdiler ve politika sürümleri de dahil olmak üzere tüm otomatik çözümlerin WORM/değişmezini denetleyin.
PII hijyeni: Etiketlerde ve eylem günlüklerinde kişisel tanımlayıcılar olmadan.
10) Otomatik döngülerin gözlemlenebilirliği
Metrikler: eylemlerin başarı oranı, tepki süresi, % geri dönüşler, MTTR tasarrufları, SLO üzerindeki etkiler.
İzler: sinyal için uçtan uca izler - karar - eylem - etki.
Günlükler: yapılandırılmış, policy_id, sürümler ve ön/posta kontrolleri ile.
Panolar: Exec (gelir etkisi/SLO), Ops (etki alanları × eylem matrisi), FinOps (otomatik ölçümlerin maliyeti).
11) Örnek senaryolar (iGaming)
11. 1 PSP bozulması (TR/EU)
Sinyal: PSP-1'de otomatik başarı 10 dakikada %25 ↓, kapsama> işlemlerin %30'u.
Eylemler: Trafiğin %40'ını PSP-2/3 yeniden dağıtın; Jitter ile Bank X isteklerinin basitleştirilmiş 3DS yükseltme geri yüklemelerini etkinleştirin.
Sınırlar: Alternatif PSP başına toplam trafiğin en fazla %60'ı; 45 dk. TTL.
Geri alma: 15 dakika boyunca başarı oranı ≥ hedefinin normalleştirilmesinde.
11. 2 Yükselen p99 yerleşim bahislerinde
Sinyal: p99 "bahis> yerleşmek"> 3 × norm + tüketici-gecikme> eşik.
Eylemler: işçilerin sınırdan önce ölçeklendirilmesi; Katsayı önbellek ısınma; "Geçmişi yinele'yi geçici olarak kapatın.
Geri alma: boşluktan sonra> X ve p99 normalde 20 dk.
11. 3 Veritabanı replikası geride kalıyor
Sinyal: replikasyon-lag> N saniye, kilit-bekleme büyümesi.
Eylemler: okuma trafiğini sağlıklı bir kopyaya yönlendirin; Düşük öncelikli kısma yazma işlemlerini etkinleştirin.
Geri alma: gecikme normalizasyonu ve kilit hatalarından sonra.
11. 4 PII ihracat artışı
Sinyal: ihracat oranı> taban × K, bilet yok.
Eylemler: dışa aktarma bloğu, Uyumluluk bildirimi, çift kontrol etkin.
Geri alma: istekleri onayladıktan ve anomaliyi kapattıktan sonra.
12) KPI и KRI
Otomatik düzeltmenin çalıştığı olaylar için MTTR↓.
TTD - Eylem: Algılamadan eyleme kadar geçen süre.
Eylemlerin başarı oranı ve geri dönüş oranı (düşük - yanlış pozitiflerden kaynaklanmıyorsa iyi).
Yanlış eylem oranı (etkisi olmayan veya olumsuz etkisi olan eylemler).
SLO etkisi kurtarıldı.
Çağrı cihazı fatigue↓ (aynı/daha iyi SLO'lara sahip daha az manuel çağrı cihazı).
13) Uygulama Yol Haritası (8-12 hafta)
Ned. 1-2: 3-5 yüksek ROI senaryoları seçin (PSP-feilover, gecikmeyle otomatik ölçeklendirme, özellik bozunması); Politikaları/sınırları/geri dönüşleri tanımlayın.
Ned. 3-4: eylem orkestratör, sırları ve rolleri, olay platformu ile entegrasyon uygulamak; Gözlemlenebilirlik ve denetim ekleyin.
Ned. 5-6: "gölge" modunda pilot (sadece simüle) - A/B etkisi tahmini; Daha sonra düşük kapsama alanına sahip ürüne dahil edin.
Ned. 7-8: komut dizinini genişletin (veritabanı/önbellek/kuyruklar/ön), durum sayfası ve İletişim ile ilişkilendirin.
Ned. 9-10: FinOps limit kurallarını (maliyet/SLI) ekleyin, yüksek risk için ikili kontrol uygulayın.
Ned. 11-12: masa üstü/kaos öğretileri, KPI/KRI revizyonu, kılavuzların yayınlanması ve çağrı üzerine eğitim.
14) Eserler ve desenler
Otomatik İyileştirme Politikası: koşul, eylem, limitler, TTL, geri alma, sahip, risk sınıfı.
Runbook-Action Spec: önkoşullar, adımlar, kontroller, hatalar, izleme, geri alma mantığı.
Değişim-Kontrol: Politikaları, PR incelemelerini, testleri, diff ve versiyonu kim yönetebilir?
Kanıt Paketi: SLO etki günlükleri/izleri/metrikleri, ölüm sonrası/denetim için rapor.
15) Antipatterns
Nedeni kontrol etmeden "semptomu tedavi etme've SLO çırpma.
Rollback ve TTL olmayan eylemler - dondurulmuş bozulma.
Korkuluksuz evrensel komut dosyaları - basamaklı çökmeler.
Denetim ve politika sürüm eksikliği.
Maliyet (limitsiz otomatik ölçek) ve uyumluluk (PII ihracatı) göz ardı ediliyor.
P1 risklerinde döngüde insan olmadan tam özerklik.
Toplam
Otomatik hata düzeltme yönetilen bir döngüdür: SLO sinyalleri, korkulukları olan politikalar, geri dönüşlü güvenli runbook eylemleri, gözlemlenebilirlik ve denetim, olay eğitimi. Bu yaklaşım, MTTR'yi ölçülebilir bir şekilde azaltır, geliri maça içinde tutar ve güvenlik ve düzenleyici gerekliliklerle uyumlu kalırken rutini çağrıdan çıkarır.