Altyapı panoları

1) Neden ihtiyacınız var

Devletin tek bir resmi: küme ve ağlardan veritabanlarına ve kuyruklara.
Hızlı RCA ve post-mortemler: bir dizi metrik ↔ günlükler ↔ izler.
Servis ve platforma göre SLO: kullanılabilirlik ve gecikme süresi üzerinde kontrol.
FinOps şeffaflığı: Hizmetlere, kiracılara ve ortamlara göre hacim/maliyet.
Uyumluluk/güvenlik: yamaların/güvenlik açıklarının durumu, erişimler, anomaliler.

Metodolojiler: Altın Sinyaller (gecikme, trafik, hatalar, doygunluk), talepler için KIRMIZI (Oran, Hatalar, Süre), kaynaklar için KULLANIM (Kullanım, Doygunluk, Hatalar).

2) İyi gösterge tablosunun ilkeleri

Actionable - Her panel'bir sonraki adımda ne yapmalı "sorusuna yanıt verir.
Hiyerarşi: genel bakış ^ etki alanları ^ derin dalış ^ ham.
Şablonlar/değişkenler: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Tekdüze birimler: gecikme için ms, %, RPS, ops/sn, bytes.
Tutarlı zaman göstergesi: varsayılan 1-6 saat, hızlı hazır ayarlar 5m/15m/24h.
Drilldown: panelden kütüklere (Loki/ELK) ve parçaya (Tempo/Jaeger).
Sahiplik: sahibi kontrol panelinde, SLO'da, çalışma kitabında, çağrı sırasında iletişim halinde belirtilir.

3) Klasör yapısı ve rolleri

00_Overview - platforma üst düzey genel bakış.
10_Kubernetes - kümeler, düğümler, iş yükleri, HPA/VPA, kaplar.
20_Network_Edge - Giriş/Elçi/Nginx, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, nesne depolama.
40_CICD_Runner - boru hatları, ajanlar, eserler, kayıtlar.
50_Security_Compliance - güvenlik açıkları, yamalar, RBAC, denetim olayları.
60_FinOps_Cost - hizmet başına maliyet/kiracı/küme, bertaraf.
99_Runbooks - talimatlara ve SLO kartlarına bağlantılar.

Roller: Platform-SRE (tam erişim), Servis Sahibi (kendi alanları), Güvenlik/Uyumluluk, Finans/FinOps, Yalnızca görüntüleme.

4) Platforma genel bakış panosu (İniş)

Amaç: Her şeyin yolunda olup olmadığını anlamak için ≤30 saniye içinde.

Önerilen paneller:

SLO platformu (API kullanılabilirlik kenarı): hedef değer, gerçek, hata dönemi, yazma oranı.
Büyük giriş noktaları tarafından p50/p95/p99 gecikme.
4xx/5xx hataları ve regresyonlu üst uç noktalar.
Kaynak doygunluğu (CPU, RAM, ağ, disk) - kümeye göre p95.
Olaylar/uyarılar (etkin) ve son sürümler.
Maliyet/saat (yaklaşık) ve haftaya göre eğilim.

Değişken şablonlar: 'env', 'region', 'cluster', 'tenant'.

5) Kubernetes: kümeler ve atölyeler

Anahtar gruplar:

1. Küme/Düğümler

CPU/Bellek atma, basınç (bellek/işlemci), IO disk, inode.
Alt sistemler: kube-api, etcd, denetleyiciler; Kubelet sağlık.

2. Vorkloads

RPS/RPM, gecikme süresi p95, hata oranı, yeniden başlatmalar, kısma, OOMKills.
HPA hedefleri ve gerçek metrikler.

3. Küme içindeki ağ yolu

EBpf/Netflow: En iyi konuşmacılar, damlalar, yeniden iletimler.

4. Olaylar K8s

Rate по Warning/FailedScheduling/BackOff.

PromQL örnekleri:

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) Kenar, ızgara ve DNS

Paneller:

Giriş/Elçi/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
LB/Anycast: bölgelere göre trafik dağılımı, yük devretme olayları.
DNS: çözünürlük gecikmesi, NXDOMAIN/SERVFAIL hızı, isabet oranı önbelleği.
CDN/WAF: Kurallar tarafından engellenen, anormal trafik (botlar/hurdacılar).

Örnek (Nginx):

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) Veritabanları ve depolar

PostgreSQL/MySQL: qps, latency, lock waits, replication lag, backups/failures.
Redis: isabet oranı, tahliyeler, bellek, yavaş komutlar.
Kafka/RabbitMQ: Tüketici gruplarına göre gecikme, yeniden dengelemeler, paketlenmemiş mesajlar.
Nesne depolama: sorgular, hatalar, çıkış, lat p95.

PostgreSQL (örnek):

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

Kafka (örnek):

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD ve eserler

Boru hattına genel bakış: başarı/çalışma zamanı, koşucu kuyruğu.
Dağıtım sağlığı: sürümler, kanarya/mavi-yeşil durumu, ısınma süresi.
Görüntü kayıtları: boyut, son itme've, atma.

Örnek:

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) Güvenlik ve uyumluluk

Yamalar ve güvenlik açıkları: Kritik CVE'lere sahip düğümlerin/görüntülerin oranı, ortalama "yama süresi".
RBAC ve sırlar: başarısız erişim girişimleri, sırlara erişim.
Denetim olayları: kritik bileşenlerdeki girdiler/değişiklikler, sürüklenme.
WAF/DLP/PII revizyonu: kural kilitleri, maskeleme hataları.

10) Günlükler ve İzler: Uçtan Uca İnceleme

Günlüklerdeki hataların özeti (Loki/ELK): en iyi istisnalar, yeni imzalar.
Butonu "Go to logs with filters" (LogQL/ES sorgusu).
İzler: üst yavaş yayılma alanları, izleme bağlamı olmayan isteklerin yüzdesi.

LogQL örnekleri:


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) FinOps: maliyet ve bertaraf

Hizmetlere/kiracılara/kümelere göre maliyet (faturalandırmaya/ihracatçılara göre).
Sıcak/soğuk düğümler: boşta kaynaklar, doğru boyutlandırma önerileri (CPU/Mem).
Veri çıkışı, L7 istekleri ve maliyetleri.
Dinamikler: hafta/ay, tahmin.

Temel metrikler:

cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost.
Verimlilik faktörü: 'RPS/$' veya 'SLO-minutes/$'.

12) SLO, hatalar ve yanma oranı

Her etki alanı panosundaki SLO kartı: gol, dönem, hatalar (bütçe).
Yanma oranı uyarıları (iki hız: hızlı/yavaş).

PromQL örnekleri ("5xx veya p95> threshold'olarak hata):

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 'SLO've çoklu pencere, çoklu yanma katsayılarınızı değiştirin.

13) Görselleştirme standartları

Panel türleri: seriler için zaman serisi, KPI için stat, üst-N için tablo, gecikme için ısı haritası.
Efsaneler ve birimler: gerekli; Kısaltılmış etiketler, SI formatı.
Renk bölgeleri: SLO/eşik değerine göre yeşil/sarı/kırmızı (tek tip).
Panel açıklaması: ölçtüğümüz, kaynak, runbook bağlantısı, sahibi.

14) Panel şablonları (hızlı başlangıç)

(A) API'ye Genel Bakış

KPI: 'RPS', 'p95', '5xx %', 'error _ budget _ remaining'.
Hata/gecikme ile üst uç noktalar.
'Trace _ id = $ trace' günlüklerinde drilldown.

(B) Düğüm Sağlığı

CPU/Bellek/Disk/Ağ - p95 düğüme göre, "sıcak" listesi.
Basınç, kısma, paket düşmesi.

(C) DB Sağlık

TPS, gecikme süresi p95, kilitler, çoğaltma gecikmesi, yavaş sorgular.
Yedekleme durumu/en son başarı.

(D) Kafka Lag

Gruba göre gecikme, tüketim oranına karşı üretim, yeniden dengelenmeler.

(E) Maliyet ve Util

Hizmetlere göre maliyet/saat, boşta %, doğru boyutlandırma ipuçları, tahmin.

15) Değişkenler ve etiketler (önerilen set)

'env' (prod/stage/dev)

'region'/'az'

'cluster'

'Ad alanı'/' hizmet'/' iş yükü'

'tenant'

'bileşik' (edge/db/cache/queue)

'dikey' (release/git_sha)

16) Uyarı ve olay yönetimi ile entegrasyon

Alertmanager/Graphana uyarılarındaki kurallar, istenen panoya ve zaten ikame edilmiş değişkenlere bağlantılar içerir.
SLO kriterlerine göre P1/P2, çağrı üzerine otomatik atama.
Bültenlerin/olayların grafiklerle ilgili ek açıklamaları.

17) Panoların kalitesi: kontrol listesi

Sahibi ve iletişim.
SLO/eşikler belgelenmiştir.
Değişkenler çalışır ve sorguların boyutunu sınırlar.
Üniteler ve efsane ile tüm paneller.
Günlüklere/izlere drilldown.
Paneller 2-3 "ekrana" sığar (kilometre başına kaydırma olmadan).
Yanıt süresi ≤2 -3 sn (önbellek, alt örnek).
Ölü paneller veya bozulmuş metrikler yok.

18) Panoların performansı ve maliyeti

Ağır toplama işlemleri için altörnekleme/kayıt kuralları.
Önbelleğe alma (query-frontend/repeater) ve aralık/adım sınırları.
Test hangarı: tipik pano istekleri için TSDB/kümelere yük.
Etiket sanitizasyonu (düşük kardinalite), joker karakterleri terk etmek.

19) Uygulama planı (yinelemeler)

1. 1. Hafta: İniş + K8s/Edge incelemeleri, temel SLO'lar, sahipler.
2. 2. Hafta: DB/Kuyruklar, log ve trace entegrasyonu (drilldown), burn-rate uyarıları.
3. 3. Hafta: FinOps gösterge panoları, doğru boyutlandırma önerileri, maliyet raporu.
4. 4. Hafta +: Güvenlik/Uyumluluk, SLO kart otojenerasyonu, pano regresyon testleri.

20) Mini-SSS

Kaç panoya ihtiyacınız var?
En az 1 inceleme + alan başına bir tane (K8s, Edge, DB, Kuyruklar, CI/CD, Güvenlik, Maliyet). Gerisi olgunluk.

Hangisi daha önemli - metrikler veya günlükler?
Semptomlar ve SLO için metrikler, nedenler için günlükler. 'Trace _ id've tutarlı etiketleri bir araya getirin.

Panellerde "boğulmamak" nasıl?
Hiyerarşi, açık sahipler, metrik hijyen, düzenli incelemeler ve "ölü" panellerin kaldırılması.

Toplam

Altyapı panoları "güzel grafikler'değil, bir yönetim aracıdır: SLO kontrolü, hızlı RCA ve bilinçli FinOps. Değişkenleri, görsel kalıpları ve sahipleri standartlaştırmak; Günlüklere/izlere sondaj sağlar ve yanma oranı uyarılarını otomatikleştirir. Bu, tüm platform düzeyinde öngörülebilirlik, reaksiyon hızı ve maliyet şeffaflığı sağlayacaktır.

Altyapı panoları

(B) Düğüm Sağlığı

(C) DB Sağlık

(D) Kafka Lag

(E) Maliyet ve Util

Toplam

Bizimle iletişime geçin

Hızlı iletişim

Video yakında güncellenecek

Şu anda projelerle çok meşgulüz