Zentrales Dashboard der Steuerung

1) Zweck und Grundsätze

Das zentrale Management-Dashboard (im Folgenden CDU) ist ein einzelnes Fenster für die Entscheidungsfindung im Betrieb. Es aggregiert Signale aus Telemetrie, ITSM, CI/CD, Servicekatalog, Werkkalender und Anbietern und verwandelt sie in valide (actionable) Widgets.

Grundsätze:

SLO-first: An der Spitze stehen gezielte SLOs und Burn-Rate nach Tier-0/1.
One-Click to Action: vom Widget zum Playbook/Runbook oder Ticket.
Einheitliches Wörterbuch: gleiche SEVs, Status, Farben und Schwellenwerte.
Ereignis-Annotationen: Releases/Configs/Fenster in allen Diagrammen.
Rollen und Berechtigungen: persönliche Einsendungen (On-Call, IC, Management).
Geringes Rauschen: Quorum von Quellen, Deduplizierung und Fensterunterdrückung.

2) Rollen und Schlüsselszenarien

On-Call (P1/P2): Verstehen Sie schnell „was brennt“ und öffnen Sie das Playbook (≤1 Klick).
IC: SEV ankündigen, War-Room-Modus starten, Cadence Commm-Updates kontrollieren.
Release Manager: Sehen Sie die Tore, den Fortschritt der Kanarienvögel, die Bereitschaft zum Rollback.
Service Owner/Product: Business SLI (Erfolg von Zahlungen/Registrierungen), Einfluss von fich.
SRE/Plattform: Kapazität, Autoscale, Anomalien, DR-Bereitschaft.
FinOps: $/Einheit, Überschreitungen, Budget Alerts.
Sicherheit/Recht: Posture, Schlüsselzertifikate, Rotationsfenster, WORM-Audit mit Links.

3) Informationsarchitektur der CDU

Oberes Regal (Hero-Panel):

SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
SEV-Status: aktive Vorfälle und ihre Zeitlinie.
Freigabestatus: Kanarienvogel/blau-grün, aktive Tore.
„Verkehrslichter“ der Anbieter (PSP/KYC/CDN).

Mittleres Regal (Operationssaal):

Wartungsfenster (jetzt/24h), Suppressionskarte.
Kapazität: CPU/RAM/IO/queue-depth/p95 Latenz mit Prognose.
FinOps: $/1k txn, Day-Spend vs Budget, Log-Volume-Anomalien.
DataOps: Frische von Schaufenstern, SLAs von Pipelines, DQ-Fehler.
Sicherheit: Laufzeit von Zertifikaten, Rotation von Geheimnissen, kritische Schwachstellen (age/SLA).

Unteres Regal (Diagnose/Drill- ดาวn):

Korrelationen „Release ↔ SLO“, „Anbieter ↔ Fehler/Latenz“.
Quick Links: Logs, Traces, Tickets, Playbooks, SOP, Eskalationsmatrix.

4) Widgets (Referenzsatz)

1. SLO & Burn-rate

Zeigt den aktuellen SLI, das Ziel und den Aufwand des Fehlerbudgets (1h/6h).
Aktion: Öffnen Sie das Spielbuch der Dienstdegradierung.

2. Vorfälle (SEV-Panel)

Active/Latest, Declare/Comms Timer, IC/Comms Rollen.
Aktion: Kriegsraum öffnen, Update-Vorlage, IC-Checkliste.

3. Veröffentlichungen/Configi

Kanarienvogel 1→5→25%, Flaggen, Rollback (Taste/Link zu SOP).
Anmerkungen: Version, Commits, Autor.

4. Wartungsfenster

Aktuelle/kommende, impacted-services/Regionen; Die Suppressionsmaske.
Aktion: Benachrichtigungen vereinbaren, SLO-Wächter einschalten.

5. Kapazität/Autoscale

Verbrauchsprognose (Naive/AR), Hotspot-Karte, Warmpool.
Aktion: Abfrage von Quoten/Skale-Regeln (PR in Repo-Politik).

6. FinOps

$/unit, top „teure“ Anfragen/Logs, daily burn vs budget.
Aktion: Bericht und Empfehlung öffnen (Log-Sampling, Archive).

7. Provider

SLA/PSP/KYC/CDN Status, Routengewichte, Folback Bereitschaft.
Aktion: Gewicht wechseln, Kommunikationsmuster zu Partnern.

8. Security

Zertifikate (≤30d), verspätete Rotationen, Schwachstellen (Alter), verdächtige Ereignisse.
Aktion: Öffnen Sie das IR-Playbook/Ticket.

9. DataOps

Schaufensterfrische, Passierquote, Pipelineversagen, DLQ.
Aktion: Backfill/Quarantäne/Rollback Transformation.

5) Zustände/Farben/Schwellen (Referenz)

Grün: SLI innerhalb des Ziels, Burn-Rate <1 ×.
Amber: SLI degradiert, Burn-Rate 1-2 ×, p95 Wachstum, aber Workaround ist da.
Rot: breach oder prädiktives burn-out <1h; SEV-1/0 zu öffnen.
Grau: Unterdrückung (Fenster), keine Telemetrie (Quellenfehler).

6) Anmerkungen und Korrelationen

Release/config/Fenster/Provider-Status werden auf den SLO-Graphen angezeigt.
Klicken Sie auf den Marker → diff, Autor, Tore, Schaltfläche „Rollback/Folback/SOP“.
Bei einem Vorfall wird eine Zeitleiste aus ChatOps-Anmerkungen und -Aktionen erstellt.

7) Datenquellen und Verifizierung

Telemetrie: Metriken/Traces/Protokolle mit trace_id.
ITSM: Incidents/Issues/Changes (Status/SLA).
CI/CD: Releases, Signaturen, Artefakte, Tests.
Service Directory/CMDB: Besitzer, SLO, Abhängigkeiten.
Kalender: Wartungsfenster.
Anbieter: Status-API + manuelle Bestätigungen (Landung in einem separaten Schaufenster).
FinOps: Abrechnung/Ressourcen-Tags, Log-Volumes, Prozess.

Qualitätskontrolle: Quorum, doppelte Sonden, SLA Frische, Alerts auf „stumme“ Quellen.

8) Anzeigemodi

Kriegsraum: festes Layout SLO/Incidents/Releases/Comms-Timer.
Executive (28 Tage): Trends MTTR/MTTD/SEV-Mix, $/Einheit, SLO-Adgerenz.
On-Call: kompaktes „Nacht“ -Panel (dunkler Modus, große Zahlen).
Multi-Tenant/Region: Filter service/region/tenant; Voreinstellungen.

9) Navigation und Aktionen (One-Click)

Buttons: '/declare sev1', '/freeze', '/rollback', '/status update', 'playbook öffnen'.
Drill- ดาวn: SLO → Diagramm → Protokolle/Trails mit vorgefüllten Filtern (trace_id, release_id).
Schöring: Schnappschuss der Tafeln in Ticket/Statusseite.

10) Sicherheit, Zugriffe, Audit

SSO/OIDC + RBAC/ABAC: Rollen und Rollen (Ansicht/Aktion).
JIT/JEA: Aktion „gefährlich“ nur mit vorübergehender Erhöhung verfügbar.
Die Prüfung ist unveränderlich: Wer hat was angeklickt, welche Anfragen/Befehle sind weg.
Secrets: nicht angezeigt, nur Links zum Secret Manager.

11) CDU-Reifegradmetriken

Actionability ≥ 90%: Klicks führen zu Aktionen, nicht nur zu Charts.
Time-to-First-Action ≤ 2 Minuten aus der CDU bei SEV-1/0.
Der Anteil der Vorfälle, bei denen die CDU die „Quelle der Wahrheit“ war, ≥ 95%.
Frische Widgets:% mit Daten „frisch 5 min“.
Coverage:% der kritischen Dienste mit SLO-Karten und Release-Annotationen.
Zero-Blind-Spots: „stumme“ Quellen in einer Woche = 0.

12) Checklisten

Projektierung

Rollen und Szenarien werden beschrieben (P1/P2/IC/Exec/FinOps/Security/DataOps).
Farb-/SEV/Schwellenwörterbuch vereinbart.
Datenquellen mit Quorum und SLA Frische.
War-Room/On-Call/Executive Layouts.
ChatOps/ITSM/CI/CD/CMDB Integrationsplan.

Betrieb

Widgets passieren Linter (Pflichtfelder, Besitzer, Schwellenwerte).
Einmal pro Woche - Escalation/Alert Review mit Verbesserungen der CDU.
Incident Snap Shots werden in AAR/RCA angewendet.
Dark Mode/Mobile Dienstvoreinstellung.
Tests auf „Stummheit“ der Quellen und Korrektheit der Anmerkungen.

13) Vorlagen (Ideen)

13. 1 Widget-Definition (YAML)

yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red:  { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"

13. 2 Incident Card (JSON)

json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}

13. 3 Verbindung zur Veröffentlichung

yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }

13. 4 FinOps-Widget

yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"

14) Anti-Muster

„Wall of Charts“ ohne Action und Playbooks.
Verschiedene Farben/Schwellenwerte für Befehle → Verwirrung im SEV.
Keine Release/Window Annotation - komplexe Korrelation der Ursachen.
Doppelte Quellen ohne Quorum sind falsche Page/Noise.
Geheimnisse/Schlüssel auf dem Panel - Risiko eines Lecks.
Langsames Rendern (Anfragen/Aggregationen werden nicht zwischengespeichert) - Panels werden im Kampf nicht geöffnet.

15) Umsetzungsfahrplan (4-8 Wochen)

1. Ned. 1: Sammlung von Anforderungen nach Rollen, Wörterbuch der Status/Farben, Layouts der drei Modi.
2. Ned. 2: der Anschluss SLO/Incidents/Releases/Windows, die Inhaltsangabe, der ChatOps-Handlung.
3. Ned. 3: Hinzufügen von FinOps/Capacity/Providers/DataOps/Security, Quorum der Quellen.
4. Ned. 4: War-Room-Modus, Schnappschüsse in ITSM, Pilot auf Tier-0.
5. Ned. 5-6: Leistungsoptimierung, mobile/On-Call-Preset, Widget Linter.
6. Ned. 7-8: Reifegradmetriken, Wochenrückblick, automatische Empfehlungen (Log-Sampling, Quoten, Folback).

16) Das Ergebnis

CDUs sind keine „schönen Diagramme“, sondern ein Lösungspanel: SLO und Burn-Rate von oben, Incidents/Releases/Windows im gleichen Kontext, sofortige Aktionen über ChatOps und SOPs, bestätigte Quellen und Anmerkungen. Ein solches Dashboard reduziert MTTA/MTTR, vereinfacht die Kommunikation, unterstützt FinOps und macht den Betrieb transparent und vorhersehbar.

Zentrales Dashboard der Steuerung

Betrieb

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet