Altyapı panoları
1) Neden ihtiyacınız var
Devletin tek bir resmi: küme ve ağlardan veritabanlarına ve kuyruklara.
Hızlı RCA ve post-mortemler: bir dizi metrik ↔ günlükler ↔ izler.
Servis ve platforma göre SLO: kullanılabilirlik ve gecikme süresi üzerinde kontrol.
FinOps şeffaflığı: Hizmetlere, kiracılara ve ortamlara göre hacim/maliyet.
Uyumluluk/güvenlik: yamaların/güvenlik açıklarının durumu, erişimler, anomaliler.
Metodolojiler: Altın Sinyaller (gecikme, trafik, hatalar, doygunluk), talepler için KIRMIZI (Oran, Hatalar, Süre), kaynaklar için KULLANIM (Kullanım, Doygunluk, Hatalar).
2) İyi gösterge tablosunun ilkeleri
Actionable - Her panel'bir sonraki adımda ne yapmalı "sorusuna yanıt verir.
Hiyerarşi: genel bakış ^ etki alanları ^ derin dalış ^ ham.
Şablonlar/değişkenler: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Tekdüze birimler: gecikme için ms, %, RPS, ops/sn, bytes.
Tutarlı zaman göstergesi: varsayılan 1-6 saat, hızlı hazır ayarlar 5m/15m/24h.
Drilldown: panelden kütüklere (Loki/ELK) ve parçaya (Tempo/Jaeger).
Sahiplik: sahibi kontrol panelinde, SLO'da, çalışma kitabında, çağrı sırasında iletişim halinde belirtilir.
3) Klasör yapısı ve rolleri
00_Overview - platforma üst düzey genel bakış.
10_Kubernetes - kümeler, düğümler, iş yükleri, HPA/VPA, kaplar.
20_Network_Edge - Giriş/Elçi/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, nesne depolama.
40_CICD_Runner - boru hatları, ajanlar, eserler, kayıtlar.
50_Security_Compliance - güvenlik açıkları, yamalar, RBAC, denetim olayları.
60_FinOps_Cost - hizmet başına maliyet/kiracı/küme, bertaraf.
99_Runbooks - talimatlara ve SLO kartlarına bağlantılar.
Roller: Platform-SRE (tam erişim), Servis Sahibi (kendi alanları), Güvenlik/Uyumluluk, Finans/FinOps, Yalnızca görüntüleme.
4) Platforma genel bakış panosu (İniş)
Amaç: Her şeyin yolunda olup olmadığını anlamak için ≤30 saniye içinde.
Önerilen paneller:- SLO platformu (API kullanılabilirlik kenarı): hedef değer, gerçek, hata dönemi, yazma oranı.
- Büyük giriş noktaları tarafından p50/p95/p99 gecikme.
- 4xx/5xx hataları ve regresyonlu üst uç noktalar.
- Kaynak doygunluğu (CPU, RAM, ağ, disk) - kümeye göre p95.
- Olaylar/uyarılar (etkin) ve son sürümler.
- Maliyet/saat (yaklaşık) ve haftaya göre eğilim.
Değişken şablonlar: 'env', 'region', 'cluster', 'tenant'.
5) Kubernetes: kümeler ve atölyeler
Anahtar gruplar:1. Küme/Düğümler
CPU/Bellek atma, basınç (bellek/işlemci), IO disk, inode.
Alt sistemler: kube-api, etcd, denetleyiciler; Kubelet sağlık.
2. Vorkloads
RPS/RPM, gecikme süresi p95, hata oranı, yeniden başlatmalar, kısma, OOMKills.
HPA hedefleri ve gerçek metrikler.
3. Küme içindeki ağ yolu
EBpf/Netflow: En iyi konuşmacılar, damlalar, yeniden iletimler.
4. Olaylar K8s
Rate по Warning/FailedScheduling/BackOff.
PromQL örnekleri:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Kenar, ızgara ve DNS
Paneller:- Giriş/Elçi/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: bölgelere göre trafik dağılımı, yük devretme olayları.
- DNS: çözünürlük gecikmesi, NXDOMAIN/SERVFAIL hızı, isabet oranı önbelleği.
- CDN/WAF: Kurallar tarafından engellenen, anormal trafik (botlar/hurdacılar).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Veritabanları ve depolar
PostgreSQL/MySQL: qps, latency, lock waits, replication lag, backups/failures.
Redis: isabet oranı, tahliyeler, bellek, yavaş komutlar.
Kafka/RabbitMQ: Tüketici gruplarına göre gecikme, yeniden dengelemeler, paketlenmemiş mesajlar.
Nesne depolama: sorgular, hatalar, çıkış, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (örnek):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD ve eserler
Boru hattına genel bakış: başarı/çalışma zamanı, koşucu kuyruğu.
Dağıtım sağlığı: sürümler, kanarya/mavi-yeşil durumu, ısınma süresi.
Görüntü kayıtları: boyut, son itme've, atma.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Güvenlik ve uyumluluk
Yamalar ve güvenlik açıkları: Kritik CVE'lere sahip düğümlerin/görüntülerin oranı, ortalama "yama süresi".
RBAC ve sırlar: başarısız erişim girişimleri, sırlara erişim.
Denetim olayları: kritik bileşenlerdeki girdiler/değişiklikler, sürüklenme.
WAF/DLP/PII revizyonu: kural kilitleri, maskeleme hataları.
10) Günlükler ve İzler: Uçtan Uca İnceleme
Günlüklerdeki hataların özeti (Loki/ELK): en iyi istisnalar, yeni imzalar.
Butonu "Go to logs with filters" (LogQL/ES sorgusu).
İzler: üst yavaş yayılma alanları, izleme bağlamı olmayan isteklerin yüzdesi.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: maliyet ve bertaraf
Hizmetlere/kiracılara/kümelere göre maliyet (faturalandırmaya/ihracatçılara göre).
Sıcak/soğuk düğümler: boşta kaynaklar, doğru boyutlandırma önerileri (CPU/Mem).
Veri çıkışı, L7 istekleri ve maliyetleri.
Dinamikler: hafta/ay, tahmin.
- cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
- Verimlilik faktörü: 'RPS/$' veya 'SLO-minutes/$'.
12) SLO, hatalar ve yanma oranı
Her etki alanı panosundaki SLO kartı: gol, dönem, hatalar (bütçe).
Yanma oranı uyarıları (iki hız: hızlı/yavaş).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Görselleştirme standartları
Panel türleri: seriler için zaman serisi, KPI için stat, üst-N için tablo, gecikme için ısı haritası.
Efsaneler ve birimler: gerekli; Kısaltılmış etiketler, SI formatı.
Renk bölgeleri: SLO/eşik değerine göre yeşil/sarı/kırmızı (tek tip).
Panel açıklaması: ölçtüğümüz, kaynak, runbook bağlantısı, sahibi.
14) Panel şablonları (hızlı başlangıç)
(A) API'ye Genel Bakış
KPI: 'RPS', 'p95', '5xx %', 'error _ budget _ remaining'.
Hata/gecikme ile üst uç noktalar.
'Trace _ id = $ trace' günlüklerinde drilldown.
(B) Düğüm Sağlığı
CPU/Bellek/Disk/Ağ - p95 düğüme göre, "sıcak" listesi.
Basınç, kısma, paket düşmesi.
(C) DB Sağlık
TPS, gecikme süresi p95, kilitler, çoğaltma gecikmesi, yavaş sorgular.
Yedekleme durumu/en son başarı.
(D) Kafka Lag
Gruba göre gecikme, tüketim oranına karşı üretim, yeniden dengelenmeler.
(E) Maliyet ve Util
Hizmetlere göre maliyet/saat, boşta %, doğru boyutlandırma ipuçları, tahmin.
15) Değişkenler ve etiketler (önerilen set)
'env' (prod/stage/dev)
'region'/'az'
'cluster'
'Ad alanı'/' hizmet'/' iş yükü'
'tenant'
'bileşik' (edge/db/cache/queue)
'dikey' (release/git_sha)
16) Uyarı ve olay yönetimi ile entegrasyon
Alertmanager/Graphana uyarılarındaki kurallar, istenen panoya ve zaten ikame edilmiş değişkenlere bağlantılar içerir.
SLO kriterlerine göre P1/P2, çağrı üzerine otomatik atama.
Bültenlerin/olayların grafiklerle ilgili ek açıklamaları.
17) Panoların kalitesi: kontrol listesi
- Sahibi ve iletişim.
- SLO/eşikler belgelenmiştir.
- Değişkenler çalışır ve sorguların boyutunu sınırlar.
- Üniteler ve efsane ile tüm paneller.
- Günlüklere/izlere drilldown.
- Paneller 2-3 "ekrana" sığar (kilometre başına kaydırma olmadan).
- Yanıt süresi ≤2 -3 sn (önbellek, alt örnek).
- Ölü paneller veya bozulmuş metrikler yok.
18) Panoların performansı ve maliyeti
Ağır toplama işlemleri için altörnekleme/kayıt kuralları.
Önbelleğe alma (query-frontend/repeater) ve aralık/adım sınırları.
Test hangarı: tipik pano istekleri için TSDB/kümelere yük.
Etiket sanitizasyonu (düşük kardinalite), joker karakterleri terk etmek.
19) Uygulama planı (yinelemeler)
1. 1. Hafta: İniş + K8s/Edge incelemeleri, temel SLO'lar, sahipler.
2. 2. Hafta: DB/Kuyruklar, log ve trace entegrasyonu (drilldown), burn-rate uyarıları.
3. 3. Hafta: FinOps gösterge panoları, doğru boyutlandırma önerileri, maliyet raporu.
4. 4. Hafta +: Güvenlik/Uyumluluk, SLO kart otojenerasyonu, pano regresyon testleri.
20) Mini-SSS
Kaç panoya ihtiyacınız var?
En az 1 inceleme + alan başına bir tane (K8s, Edge, DB, Kuyruklar, CI/CD, Güvenlik, Maliyet). Gerisi olgunluk.
Hangisi daha önemli - metrikler veya günlükler?
Semptomlar ve SLO için metrikler, nedenler için günlükler. 'Trace _ id've tutarlı etiketleri bir araya getirin.
Panellerde "boğulmamak" nasıl?
Hiyerarşi, açık sahipler, metrik hijyen, düzenli incelemeler ve "ölü" panellerin kaldırılması.
Toplam
Altyapı panoları "güzel grafikler'değil, bir yönetim aracıdır: SLO kontrolü, hızlı RCA ve bilinçli FinOps. Değişkenleri, görsel kalıpları ve sahipleri standartlaştırmak; Günlüklere/izlere sondaj sağlar ve yanma oranı uyarılarını otomatikleştirir. Bu, tüm platform düzeyinde öngörülebilirlik, reaksiyon hızı ve maliyet şeffaflığı sağlayacaktır.