Zentrales Dashboard der Steuerung
1) Zweck und Grundsätze
Das zentrale Management-Dashboard (im Folgenden CDU) ist ein einzelnes Fenster für die Entscheidungsfindung im Betrieb. Es aggregiert Signale aus Telemetrie, ITSM, CI/CD, Servicekatalog, Werkkalender und Anbietern und verwandelt sie in valide (actionable) Widgets.
Grundsätze:- SLO-first: An der Spitze stehen gezielte SLOs und Burn-Rate nach Tier-0/1.
- One-Click to Action: vom Widget zum Playbook/Runbook oder Ticket.
- Einheitliches Wörterbuch: gleiche SEVs, Status, Farben und Schwellenwerte.
- Ereignis-Annotationen: Releases/Configs/Fenster in allen Diagrammen.
- Rollen und Berechtigungen: persönliche Einsendungen (On-Call, IC, Management).
- Geringes Rauschen: Quorum von Quellen, Deduplizierung und Fensterunterdrückung.
2) Rollen und Schlüsselszenarien
On-Call (P1/P2): Verstehen Sie schnell „was brennt“ und öffnen Sie das Playbook (≤1 Klick).
IC: SEV ankündigen, War-Room-Modus starten, Cadence Commm-Updates kontrollieren.
Release Manager: Sehen Sie die Tore, den Fortschritt der Kanarienvögel, die Bereitschaft zum Rollback.
Service Owner/Product: Business SLI (Erfolg von Zahlungen/Registrierungen), Einfluss von fich.
SRE/Plattform: Kapazität, Autoscale, Anomalien, DR-Bereitschaft.
FinOps: $/Einheit, Überschreitungen, Budget Alerts.
Sicherheit/Recht: Posture, Schlüsselzertifikate, Rotationsfenster, WORM-Audit mit Links.
3) Informationsarchitektur der CDU
Oberes Regal (Hero-Panel):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- SEV-Status: aktive Vorfälle und ihre Zeitlinie.
- Freigabestatus: Kanarienvogel/blau-grün, aktive Tore.
- „Verkehrslichter“ der Anbieter (PSP/KYC/CDN).
- Wartungsfenster (jetzt/24h), Suppressionskarte.
- Kapazität: CPU/RAM/IO/queue-depth/p95 Latenz mit Prognose.
- FinOps: $/1k txn, Day-Spend vs Budget, Log-Volume-Anomalien.
- DataOps: Frische von Schaufenstern, SLAs von Pipelines, DQ-Fehler.
- Sicherheit: Laufzeit von Zertifikaten, Rotation von Geheimnissen, kritische Schwachstellen (age/SLA).
- Korrelationen „Release ↔ SLO“, „Anbieter ↔ Fehler/Latenz“.
- Quick Links: Logs, Traces, Tickets, Playbooks, SOP, Eskalationsmatrix.
4) Widgets (Referenzsatz)
1. SLO & Burn-rate
Zeigt den aktuellen SLI, das Ziel und den Aufwand des Fehlerbudgets (1h/6h).
Aktion: Öffnen Sie das Spielbuch der Dienstdegradierung.
2. Vorfälle (SEV-Panel)
Active/Latest, Declare/Comms Timer, IC/Comms Rollen.
Aktion: Kriegsraum öffnen, Update-Vorlage, IC-Checkliste.
3. Veröffentlichungen/Configi
Kanarienvogel 1→5→25%, Flaggen, Rollback (Taste/Link zu SOP).
Anmerkungen: Version, Commits, Autor.
4. Wartungsfenster
Aktuelle/kommende, impacted-services/Regionen; Die Suppressionsmaske.
Aktion: Benachrichtigungen vereinbaren, SLO-Wächter einschalten.
5. Kapazität/Autoscale
Verbrauchsprognose (Naive/AR), Hotspot-Karte, Warmpool.
Aktion: Abfrage von Quoten/Skale-Regeln (PR in Repo-Politik).
6. FinOps
$/unit, top „teure“ Anfragen/Logs, daily burn vs budget.
Aktion: Bericht und Empfehlung öffnen (Log-Sampling, Archive).
7. Provider
SLA/PSP/KYC/CDN Status, Routengewichte, Folback Bereitschaft.
Aktion: Gewicht wechseln, Kommunikationsmuster zu Partnern.
8. Security
Zertifikate (≤30d), verspätete Rotationen, Schwachstellen (Alter), verdächtige Ereignisse.
Aktion: Öffnen Sie das IR-Playbook/Ticket.
9. DataOps
Schaufensterfrische, Passierquote, Pipelineversagen, DLQ.
Aktion: Backfill/Quarantäne/Rollback Transformation.
5) Zustände/Farben/Schwellen (Referenz)
Grün: SLI innerhalb des Ziels, Burn-Rate <1 ×.
Amber: SLI degradiert, Burn-Rate 1-2 ×, p95 Wachstum, aber Workaround ist da.
Rot: breach oder prädiktives burn-out <1h; SEV-1/0 zu öffnen.
Grau: Unterdrückung (Fenster), keine Telemetrie (Quellenfehler).
6) Anmerkungen und Korrelationen
Release/config/Fenster/Provider-Status werden auf den SLO-Graphen angezeigt.
Klicken Sie auf den Marker → diff, Autor, Tore, Schaltfläche „Rollback/Folback/SOP“.
Bei einem Vorfall wird eine Zeitleiste aus ChatOps-Anmerkungen und -Aktionen erstellt.
7) Datenquellen und Verifizierung
Telemetrie: Metriken/Traces/Protokolle mit trace_id.
ITSM: Incidents/Issues/Changes (Status/SLA).
CI/CD: Releases, Signaturen, Artefakte, Tests.
Service Directory/CMDB: Besitzer, SLO, Abhängigkeiten.
Kalender: Wartungsfenster.
Anbieter: Status-API + manuelle Bestätigungen (Landung in einem separaten Schaufenster).
FinOps: Abrechnung/Ressourcen-Tags, Log-Volumes, Prozess.
Qualitätskontrolle: Quorum, doppelte Sonden, SLA Frische, Alerts auf „stumme“ Quellen.
8) Anzeigemodi
Kriegsraum: festes Layout SLO/Incidents/Releases/Comms-Timer.
Executive (28 Tage): Trends MTTR/MTTD/SEV-Mix, $/Einheit, SLO-Adgerenz.
On-Call: kompaktes „Nacht“ -Panel (dunkler Modus, große Zahlen).
Multi-Tenant/Region: Filter service/region/tenant; Voreinstellungen.
9) Navigation und Aktionen (One-Click)
Buttons: '/declare sev1', '/freeze', '/rollback', '/status update', 'playbook öffnen'.
Drill- ดาวn: SLO → Diagramm → Protokolle/Trails mit vorgefüllten Filtern (trace_id, release_id).
Schöring: Schnappschuss der Tafeln in Ticket/Statusseite.
10) Sicherheit, Zugriffe, Audit
SSO/OIDC + RBAC/ABAC: Rollen und Rollen (Ansicht/Aktion).
JIT/JEA: Aktion „gefährlich“ nur mit vorübergehender Erhöhung verfügbar.
Die Prüfung ist unveränderlich: Wer hat was angeklickt, welche Anfragen/Befehle sind weg.
Secrets: nicht angezeigt, nur Links zum Secret Manager.
11) CDU-Reifegradmetriken
Actionability ≥ 90%: Klicks führen zu Aktionen, nicht nur zu Charts.
Time-to-First-Action ≤ 2 Minuten aus der CDU bei SEV-1/0.
Der Anteil der Vorfälle, bei denen die CDU die „Quelle der Wahrheit“ war, ≥ 95%.
Frische Widgets:% mit Daten „frisch 5 min“.
Coverage:% der kritischen Dienste mit SLO-Karten und Release-Annotationen.
Zero-Blind-Spots: „stumme“ Quellen in einer Woche = 0.
12) Checklisten
Projektierung
- Rollen und Szenarien werden beschrieben (P1/P2/IC/Exec/FinOps/Security/DataOps).
- Farb-/SEV/Schwellenwörterbuch vereinbart.
- Datenquellen mit Quorum und SLA Frische.
- War-Room/On-Call/Executive Layouts.
- ChatOps/ITSM/CI/CD/CMDB Integrationsplan.
Betrieb
- Widgets passieren Linter (Pflichtfelder, Besitzer, Schwellenwerte).
- Einmal pro Woche - Escalation/Alert Review mit Verbesserungen der CDU.
- Incident Snap Shots werden in AAR/RCA angewendet.
- Dark Mode/Mobile Dienstvoreinstellung.
- Tests auf „Stummheit“ der Quellen und Korrektheit der Anmerkungen.
13) Vorlagen (Ideen)
13. 1 Widget-Definition (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Incident Card (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Verbindung zur Veröffentlichung
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 FinOps-Widget
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anti-Muster
„Wall of Charts“ ohne Action und Playbooks.
Verschiedene Farben/Schwellenwerte für Befehle → Verwirrung im SEV.
Keine Release/Window Annotation - komplexe Korrelation der Ursachen.
Doppelte Quellen ohne Quorum sind falsche Page/Noise.
Geheimnisse/Schlüssel auf dem Panel - Risiko eines Lecks.
Langsames Rendern (Anfragen/Aggregationen werden nicht zwischengespeichert) - Panels werden im Kampf nicht geöffnet.
15) Umsetzungsfahrplan (4-8 Wochen)
1. Ned. 1: Sammlung von Anforderungen nach Rollen, Wörterbuch der Status/Farben, Layouts der drei Modi.
2. Ned. 2: der Anschluss SLO/Incidents/Releases/Windows, die Inhaltsangabe, der ChatOps-Handlung.
3. Ned. 3: Hinzufügen von FinOps/Capacity/Providers/DataOps/Security, Quorum der Quellen.
4. Ned. 4: War-Room-Modus, Schnappschüsse in ITSM, Pilot auf Tier-0.
5. Ned. 5-6: Leistungsoptimierung, mobile/On-Call-Preset, Widget Linter.
6. Ned. 7-8: Reifegradmetriken, Wochenrückblick, automatische Empfehlungen (Log-Sampling, Quoten, Folback).
16) Das Ergebnis
CDUs sind keine „schönen Diagramme“, sondern ein Lösungspanel: SLO und Burn-Rate von oben, Incidents/Releases/Windows im gleichen Kontext, sofortige Aktionen über ChatOps und SOPs, bestätigte Quellen und Anmerkungen. Ein solches Dashboard reduziert MTTA/MTTR, vereinfacht die Kommunikation, unterstützt FinOps und macht den Betrieb transparent und vorhersehbar.