Mərkəzi idarəetmə dashboard
1) Təyinat və prinsiplər
Mərkəzi İdarəetmə Dashboard (bundan sonra CDU) - əməliyyatlarda qərar qəbul etmək üçün vahid pəncərə. O, telemetriya, ITSM, CI/CD, xidmət kataloqu, iş təqvimi və provayderlərdən gələn siqnalları yığaraq, onları aktiv (actionable) widgetlara çevirir.
Prinsiplər:- SLO-first: yuxarıda - hədəf SLO və burn-rate Tier-0/1.
- One-click to action: widget - playbook/runbook və ya bilet.
- Vahid lüğət: eyni SEV, statuslar, rənglər və eşiklər.
- Hadisələrin şərhləri: bütün qrafiklərdə relizlər/konfiqalar/pəncərələr.
- Rollar və icazələr: şəxsi təqdimatlar (on-call, IC, menecment).
- Aşağı səs-küy: mənbələrin kvorumu, dekuplikasiya və pəncərələrin sıxışdırılması.
2) Rollar və əsas ssenarilər
On-call (P1/P2): tez «yanan» anlamaq və playbook açmaq (≤ 1 klik).
IC: SEV elan, war-room rejimi başlamaq, cadence comm yeniləmə nəzarət.
Release Manager: geytlər görmək, kanaryaların tərəqqisi, geri dönməyə hazırlıq.
Service Owner/Product: Biznes SLI (ödənişlərin/qeydiyyatların müvəffəqiyyəti), Fich təsiri.
SRE/Platform: tutum, avtoskeyl, anomaliyalar, DR hazırlığı.
FinOps: $/vahid, artıq xərclər, büdcə riskləri.
Security/Legal: posture, əsas sertifikatlar, fırlanma pəncərələri, WORM audit linkləri.
3) DDU-nun informasiya arxitekturası
Üst raf (hero-panel):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- SEV statusu: aktiv insidentlər və onların taymline.
- Buraxılış statusu: kanarya/mavi-yaşıl, aktiv geytlar.
- «Traffic lights» provayderləri (PSP/KYC/CDN).
- Xidmət pəncərələri (indi/saat), suppression-kart.
- Tutum: proqnoz ilə CPU/RAM/IO/queue-depth/p95 latency.
- FinOps: $/1k txn, gündəlik spend vs büdcə, log həcmləri anomaliyaları.
- DataOps: vitrinlərin təravəti, SLA payplaynları, DQ səhvləri.
- Security: sertifikatların müddəti, sirlərin rotasiyası, kritik zəifliklər (age/SLA).
- Korrelyasiya "release SLO", "provayder" imtina/gizli ".
- Sürətli bağlantılar: log, treys, bilet, playbook, SOP, eskalasiya matrisi.
4) Widget (istinad dəsti)
1. SLO & Burn-rate
Cari SLI, hədəf və büdcə xərcləri səhvləri göstərir (1h/6h).
Fəaliyyət: xidmət deqradasiya playbook açmaq.
2. Hadisələr (SEV paneli)
Aktiv/son, Declare/Comms zamanlayıcıları, IC/Comms rolları.
Fəaliyyət: açıq war-room, yeniləmə şablon, IC çek siyahısı.
3. Relizlər/Konfiqi
Kanarya 1 → 5 → 25%, bayraqlar, geri dönüş (SOP düyməsi/link).
Şərhlər: versiya, kommitlər, müəllif.
4. Xidmət pəncərələri
Cari/gələcək, impacted-services/regionlar; suppression maska.
Fəaliyyət: Bildirişləri razılaşdırın, SLO mühafizəçilərini daxil edin.
5. Tutum/Avtoskeyl
İstehlak proqnozu (Naive/AR), hotspot kartı, warm-pool.
Fəaliyyət: kvota/skeyl qaydaları sorğusu (repo-siyasətçi PR).
6. FinOps
$/vahid, top «bahalı» sorğu/log, daily burn vs budget.
Fəaliyyət: Hesabat və tövsiyəni açın (qeydlər, arxivlər).
7. Provayderlər
SLA/PSP/KYC/CDN statusu, marşrutların ağırlığı, hazırlıq.
Fəaliyyət: çəki, rabitə şablonu tərəfdaşlara keçid.
8. Security
Sertifikatlar (≤ 30d), gecikmiş rotasiyalar, zəifliklər (yaş), şübhəli hadisələr.
Fəaliyyət: IR playbook/bilet açın.
9. DataOps
Vitrin təravəti, keçid faizi, paylayn iflası, DLQ.
Fəaliyyət: backfill/karantin/rollback transformasiya.
5) Hallar/rənglər/eşiklər (etalon)
Green: SLI hədəf daxilində, burn-rate <1 ×.
Amber: SLI deqradasiya, burn-rate 1-2 ×, p95 artım, lakin workaround var.
Red: breach və ya proqnoz burn-out <1h; SEV-1/0 açmaq.
Grey: suppression (pəncərə), heç bir telemetriya (mənbə səhv).
6) Annotasiyalar və korrelyasiyalar
Release/ /pəncərə/provayder statusları SLO qraflarında göstərilir.
Nişanı basın → diff, müəllif, geytalar, «Geri/Folbek/SOP» düyməsi.
Hadisədə time line ChatOps-un izahları və hərəkətlərindən ibarətdir.
7) Məlumat mənbələri və yoxlama
Telemetriya: metrika/treys/log ilə trace_id.
ITSM: insidentlər/problemlər/dəyişikliklər (statuslar/SLA).
CI/CD: buraxılışlar, imzalar, artefaktlar, testlər.
Xidmətlər kataloqu/CMDB: sahibləri, SLO, asılılıqlar.
Təqvim: xidmət pəncərələri.
Provayderlər: status-API + əl təsdiqləri (ayrıca vitrinə eniş).
FinOps: billing/tags resursları, log həcmləri, egress.
Keyfiyyətə nəzarət: kvorum, ikiqat sondalar, təzəlik SLA, «səssiz» mənbələrdə alertlər.
8) Ekran rejimləri
War-room: sabit SLO/Incidents/Releases/Comms-taymer.
Executive (28 gün): MTTR/MTTD/SEV mix, $/vahid, SLO adgerens trendləri.
On-call: kompakt «gecə» paneli (qaranlıq rejim, böyük rəqəmlər).
Multi-tenant/region: service/region/tenant filtrləri; presets.
9) Naviqasiya və fəaliyyət (one-click)
Düymələr: '/declare sev1 ', '/freeze', '/rollback ', '/status update', «playbook aç».
Drill- -n: SLO → qrafik → log/pre-doldurulmuş filtrlərlə treys ( , .
Sharing: panellərin bilet/status səhifəsinə snapshot.
10) Təhlükəsizlik, giriş, audit
SSO/OIDC + RBAC/ABAC: rollar və alış-veriş (view/action).
JIT/JEA: «təhlükəli» hərəkət yalnız müvəqqəti artımla mövcuddur.
Audit dəyişməz: kim nə basdı, hansı sorğular/komandalar getdi.
Secrets: göstərilmir, yalnız Secrets Manager linkləri.
11) CDU yetkinlik metrikası
Actionability ≥ 90%: kliklər yalnız qrafiklərə deyil, hərəkətlərə səbəb olur.
Time-to-First-Action ≤ SEV-1/0 zamanı DDU-dan 2 dəq.
CDU-nun «həqiqət mənbəyi» olduğu insidentlərin nisbəti 95% ≥.
Freshness widget:% «təzə 5 dəqiqə» məlumatları ilə.
Coverage: SLO kartları və buraxılış qeydləri olan kritik xidmətlərin% -i.
Zero-blind-spots: həftədə «səssiz» mənbələr = 0.
12) Çek vərəqləri
Dizayn
- Rollar və ssenarilər təsvir edilmişdir (P1/P2/IC/Exec/FinOps/Security/DataOps).
- Rəng lüğəti/SEV/eşik razılaşdırılmışdır.
- Kvorum və SLA təravəti ilə məlumat mənbələri.
- Maketlər War-room/On-call/Executive.
- ChatOps/ITSM/CI/CD/CMDB inteqrasiya planı.
Əməliyyat
- Widget linter keçir (məcburi sahələr, owner, eşiklər).
- Həftədə bir dəfə - CDU təkmilləşdirmələri ilə Escalation/Alert Review.
- Hadisələrin snapshotları AAR/RCA-ya tətbiq olunur.
- Qaranlıq rejim/mobil preset üçün növbə.
- Mənbələrin «səssizlik» testləri və izahların düzgünlüyü.
13) Şablonlar (fikirlər)
13. 1 Widget tərifi (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Hadisə kartı (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Reliz ilə əlaqə
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 FinOps Widget
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anti-nümunələr
«Qrafik divarı» hərəkətsiz və pleybuksuz.
Komandalar üzrə müxtəlif rənglər/eşiklər → SEV-də qarışıqlıq.
Heç bir reliz/pəncərə şərhi yoxdur - səbəblərin mürəkkəb korrelyasiyası.
Kvorum olmadan təkrarlayan mənbələr - saxta Səhifə/səs-küy.
Paneldəki sirlər/açarlar sızma riskidir.
Yavaş render (sorğular/aqreqasiyalar keşləşdirilmir) - panellər döyüşdə açılmır.
15) Yol xəritəsi (4-8 həftə)
1. Ned. 1: rollar üzrə tələblərin toplanması, status/rəng lüğəti, üç rejimdə modellər.
2. Ned. 2: SLO/Incidents/Releases/Windows qoşulma, şərhlər, ChatOps-fəaliyyət.
3. Ned. 3: əlavə FinOps/Capacity/Providers/DataOps/Security, kvorum mənbələri.
4. Ned. 4: War-room rejimi, ITSM snapshot, Tier-0 pilot.
5. Ned. 5-6: performans optimallaşdırılması, mobil/on-call preset, widget linter.
6. Ned. 7-8: yetkinlik metrikası, həftəlik baxış, avtomatik tövsiyələr (toplama, kvota, folbek).
16) Yekun
DPC «gözəl qrafiklər» deyil, yuxarıdan SLO və burn-rate, bir kontekstdə insidentlər/buraxılışlar/pəncərələr, ChatOps və SOP vasitəsilə ani hərəkətlər, təsdiqlənmiş mənbələr və izahatlardır. Belə bir dashboard MTTA/MTTR azaldır, rabitə asanlaşdırır, FinOps dəstəkləyir və əməliyyatları şəffaf və proqnozlaşdırıla bilən edir.