Merkezi kontrol panosu
1) Amaç ve prensipler
Merkezi kontrol panosu (bundan sonra CDU olarak anılacaktır), operasyonlarda karar vermek için tek bir penceredir. Telemetri, ITSM, CI/CD, servis kataloğu, iş takvimi ve sağlayıcılardan gelen sinyalleri toplayarak bunları eyleme geçirilebilir widget'lara dönüştürür.
İlkeler:- SLO-first: üst - hedef SLO ve Tier-0/1 ile yanma oranı.
- Tek tıklamayla harekete geçin: widget'tan - playbook/runbook veya bilete.
- Birleşik sözlük: aynı SEV, statüler, renkler ve eşikler.
- Olay ek açıklamaları: Tüm grafiklerde serbest bırakır/yapılandırır/pencereler.
- Roller ve izinler: kişisel görünümler (çağrı, IC, yönetim).
- Düşük gürültü - kaynak çekirdek, veri tekilleştirme ve pencereleme.
2) Roller ve anahtar senaryolar
On-call (P1/P2): hızlı bir şekilde'ne olduğunu "anlayın ve oyun kitabını açın (≤1 tıklayın).
IC: SEV'i ilan et, savaş odası modunu başlat, com-güncellemelerinin kadansını kontrol et.
Release Manager: kapıları, kanarya ilerlemesini, geri alma hazırlığını görün.
Hizmet Sahibi/Ürün: işletme SLI (ödemelerin/kayıtların başarısı), özelliklerin etkisi.
SRE/Platform: kapasite, otomatik ölçek, anomaliler, DR-hazırlık.
FinOps: $/unit, aşırı harcama, bütçe uyarıları.
Güvenlik/Yasal: duruş, anahtar sertifikalar, rotasyon pencereleri, WORM denetim bağlantıları.
3) CDA Bilgi Mimarisi
Üst raf (kahraman paneli):- SLO по Tier-0/1 (kullanılabilirlik/gecikme/başarı) с yanma oranı 2- окна.
- SEV durumu: aktif olaylar ve zaman çizelgesi.
- Serbest bırakma durumu: kanarya/mavi-yeşil, aktif kapılar.
- Trafik ışıkları sağlayıcıları (PSP/KYC/CDN)
- Bakım pencereleri (şimdi/24 saat), bastırma kartı.
- Kapasite: Tahmin ile CPU/RAM/IO/queue-depth/p95 gecikme süresi.
- FinOps: $/1k txn, günlük harcama vs bütçe, günlük hacim anomalileri.
- DataOps: vitrinlerin tazeliği, SLA boru hatları, DQ hataları.
- Güvenlik: sertifika terimi, gizli rotasyon, kritik güvenlik açıkları (yaş/SLA).
- "Release ↔ SLO", "provider ↔ failure/latency".
- Hızlı bağlantılar: günlükler, yollar, biletler, oyun kitapları, SOP, eskalasyon matrisi.
4) Widget'lar (referans seti)
1. SLO ve Yanma oranı
Geçerli SLI, hedef ve hata bütçe tüketimini (1h/6h) gösterir.
Eylem: hizmet bozulması oyun kitabını açın.
2. Olaylar (SEV paneli)
Aktif/Yeni, Bildirim/İletişim Zamanlayıcıları, IC/İletişim Rolleri.
Eylem: açık savaş odası, güncelleme şablonu, IC kontrol listesi.
3. Sürümler/Yapılandırmalar
Kanarya 1 - 5 - %25, bayraklar, geri alma (düğme/SOP bağlantısı).
Açıklamalar: sürüm, taahhüt, yazar.
4. Bakım pencereleri
Mevcut/yaklaşan, etkilenen hizmetler/bölgeler; Bastırma maskesi.
Eylem: Bildirimleri koordine edin, SLO korumalarını etkinleştirin.
5. Kapasite/Otomatik ölçeklendirme
Tüketim tahmini (Naive/AR), hotspot kartı, sıcak havuz.
Eylem: talep kotaları/ölçek kuralları (repo politikası PR).
6. FinOps
$/unit, üst "pahalı" sorgular/günlükler, günlük yakma vs bütçe.
Eylem: Raporu ve öneriyi açın (örnekleme günlükleri, arşivler).
7. Sağlayıcılar
SLA/PSP/KYC/CDN durumu, rota ağırlıkları, geri dönüş hazırlığı.
Eylem: ağırlığı, iletişim şablonunu ortaklara değiştirin.
8. Güvenlik
Sertifikalar (≤30d), rotasyonlarda gecikmeler, güvenlik açıkları (yaş), şüpheli olaylar.
Eylem: IR playbook/bilet açın.
9. DataOps
Pencere tazeliği, atlama yüzdesi, boru hattı arızası, DLQ.
Eylem: Geri doldurma/karantina/geri alma dönüşümü.
5) Durumlar/renkler/eşikler (referans)
Yeşil: Hedef içindeki SLI, yanma oranı <× 1.
Amber: SLI bozunur, yanma oranı 1-2 ×, p95 büyüme, ancak bir geçici çözüm var.
Kırmızı: ihlal veya öngörücü yanma <1h; açık SEV-1/0.
Gri: bastırma, telemetri yok (kaynak hatası).
6) Açıklamalar ve korelasyonlar
SLO grafiklerinde Release/config/window/provider durumları görüntülenir.
Olayda, zaman çizelgesi ChatOps ek açıklamalarından ve eylemlerinden oluşturulmuştur.
7) Veri kaynakları ve doğrulama
Telemetri: trace_id ile metrikler/yollar/günlükler.
ITSM: Olaylar/Sorunlar/Değişiklikler (Statüler/SLA'lar).
CI/CD: sürümler, imzalar, eserler, testler.
Servis dizini/CMDB: sahipler, SLO, bağımlılıklar.
Takvim: bakım pencereleri.
Sağlayıcılar: Durum-API + manuel onaylar (ayrı bir vitrine iniş).
FinOps: fatura/kaynak etiketleri, günlük hacimleri, çıkış.
Kalite kontrol: Yeterli çoğunluk, yinelenen problar, SLA tazeliği, "aptal" kaynaklara uyarılar.
8) Ekran modları
Savaş odası: sabit düzen SLO/Olaylar/Bültenler/İletişim zamanlayıcı.
Executive (28 gün): trendler MTTR/MTTD/SEV karışımı, $/unit, SLO uyumu.
Çağrı sırasında: kompakt "gece" paneli (karanlık mod, çok sayıda).
Çok kiracılı/bölge: hizmet/bölge/kiracı filtreleri; hazır ayarlar.
9) Gezinme ve eylemler (tek tıklamayla)
Düğmeler:'/declare sev1 ','/freeze','/rollback ','/status update', 'open playbook'.
Drill- ดาวn: SLO - graph Önceden doldurulmuş filtrelerle (trace_id, release_id).
Paylaşım: Bir bilet/durum sayfasındaki panellerin anlık görüntüsü.
10) Güvenlik, erişim, denetim
SSO/OIDC + RBAC/ABAC: roller ve kapsamlar (görünüm/eylem).
JIT/JEA: "Tehlikeli" eylem sadece geçici bir zam ile kullanılabilir.
Denetim değiştirilemez: kim neye bastı, hangi istekler/komutlar kaldı.
Sırlar: görüntülenmez, sadece gizli yöneticiye bağlantılar.
11) CDU Olgunluk Metrikleri
İşlem yapılabilirlik ≥ %90: Tıklamalar yalnızca grafiklere değil, eylemlere de yol açar.
İlk Harekete Zaman ≤ SEV-1/0 sırasında CCD'den 2 dakika.
CDU'nun "hakikat kaynağı" olduğu olayların oranı %95 ≥.
Widget'ların tazeliği: % veri ile "taze 5 dakika".
Kapsam: SLO kartları ve sürüm ek açıklamaları ile kritik hizmetlerin %'si.
Sıfır-kör noktalar: hafta için sessiz kaynaklar = 0.
12) Kontrol listeleri
Tasarım
- Roller ve komut dosyaları açıklanmıştır (P1/P2/IC/Exec/FinOps/Security/DataOps).
- Renk/SEV/eşik sözlüğü tutarlıdır.
- DataSources with quorum and freshness SLAs.
- Savaş odası/On-call/Yönetici düzenleri.
- ChatOps/ITSM/CI/CD/CMDB Entegrasyon Planı.
Operasyon
- Widget'lar linter'ı geçer (gerekli alanlar, sahip, eşikler).
- Haftada bir kez - DPC iyileştirmeleri ile Eskalasyon/Uyarı İncelemesi.
- Olay anlık görüntüleri AAR/RCA'ya eklenir.
- Karanlık Mod/Mobil Görev Ön Ayarı.
- "Sessiz" kaynaklar ve ek açıklamaların doğruluğu için testler.
13) Şablonlar (fikirler)
13. 1 Widget Tanımı (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Olay Kartı (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Serbest bırakma ile bağlantı
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 FinOps widget'ı
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anti-desenler
Eylemler ve oyun kitapları olmadan "grafikler duvarı".
Komutlarda farklı renkler/eşikler - SEV'de karışıklık.
Serbest bırakma/pencere ek açıklamaları yok - karmaşık neden korelasyonu.
Yeterli çoğunluğa sahip olmayan yinelenen kaynaklar sahte Sayfa/gürültüdür.
Paneldeki sırlar/anahtarlar - sızıntı riski.
Yavaş oluşturma (istekler/toplamalar önbelleğe alınmaz) - paneller savaşta açılmaz.
15) Uygulama Yol Haritası (4-8 hafta)
1. Ned. 1: rollere göre gereksinimlerin toplanması, durumların/renklerin sözlüğü, üç modun düzenleri.
2. Ned. 2: SLO/Olaylar/Sürümler/Windows bağlantısı, ek açıklamalar, ChatOps eylemleri.
3. Ned. 3: FinOps/Kapasite/Sağlayıcılar/DataOps/Güvenlik, kaynak yeter sayısı ekleyin.
4. Ned. 4: Savaş odası modu, ITSM'de anlık görüntüler, Tier-0 üzerinde pilot.
5. Ned. 5-6: performans optimizasyonu, mobil/çağrı üzerine hazır ayar, widget linter.
6. Ned. 7-8: olgunluk metrikleri, haftalık inceleme, otomatik öneriler (örnekleme günlükleri, kotalar, folback).
16) Alt satır
CDU'lar "güzel grafikler'değil, bir çözüm panelidir: Yukarıdan SLO ve burn-rate, bir bağlamda olaylar/sürümler/pencereler, ChatOps ve SOP aracılığıyla anında eylemler, onaylanmış kaynaklar ve ek açıklamalar. Bu gösterge paneli MTTA/MTTR'yi azaltır, iletişimi basitleştirir, FinOps'u destekler ve işlemi şeffaf ve öngörülebilir hale getirir.