Controllo dashboard centrale

1) Assegnazione e principi

Il dashboard centrale di gestione (segue il CDU) è una finestra unica per prendere decisioni nelle operazioni. Aggrega i segnali da telemetria, ITSM, CI/CD, catalogo di servizi, calendario di lavoro e provider, trasformandoli in widget validi (actionable).

Principi:

SLO-first: in alto - SLO target e burn-rate Tier-0/1.
One-click to action: da widget a playbook/runbook o ticket.
Un unico dizionario: SEV, states, colori e soglie identiche.
Annotazioni eventi: rilasci/configi/finestre su tutti i grafici.
Ruoli e autorizzazioni: visualizzazioni personali (on-call, IC, Management).
Rumore basso: quorum delle sorgenti, deduplicazione e soppressione delle finestre.

2) Ruoli e script chiave

On-call (P1/P2) - Capire rapidamente cosa brucia e aprire il playbook (click).
IC - Dichiara la SEV, avvia la modalità war-room, controlla la cadence dei comm update.
Release Manager: vedere i gate, avanzare i canarini, tornare pronti.
Servizio Owner/Product: Business SLI (successo di pagamenti/iscrizioni), impatto fich.
SRE/Platform: capacità, scale automatico, anomalie, DR.
FinOps: $/unità, eccesso di spesa, alert di bilancio.
Sicurezza/Legale: posture, certificati chiave, finestre di rotazione, controllo WORM con link.

3) Architettura informativa del centro dati

Scaffale superiore (pannello hero):

SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
Stato SEC: incidenti attivi e timeline.
Stato di rilascio: canarino/blue-green, gate attivi.
Traffic lights provider (PSP/KYC/CDN).

Scaffale medio (sala operatoria):

Finestre di servizio (ora/24h), scheda supplence.
Capacità: CPU/RAM/IO/queue-depth/p95 latency con previsione.
FinOps: $/1k txn, budget giornaliero vs, anomalie dei volumi logici.
DataOps: freschezza delle vetrine, SLA dei pipeline, errori DQ.
Sicurezza: data di scadenza dei certificati, rotazioni dei segreti, vulnerabilità critiche (age/SLA).

Scaffale inferiore (diagnostica/drill- ดาวn):

Correlazioni «rilascio della SLO», «provider del rifiuto/latitanza».
I collegamenti rapidi sono: loga, trailer, ticket, playbook, SOP, matrice di scalate.

4) Widgets (set di controllo)

1. SLO & Burn-rate

Mostra l'attuale SLI, l'obiettivo e il consumo del budget degli errori (1h/6h).
Azione: aprire il playbook di degrado del servizio.

2. Incidenti (pannello SEC)

Attivi/recenti, timer Declare/Comms, ruoli IC/Comms.
Azione: aprire una war-room, un modello di update, un foglio di assegno IC.

3. Release/Confighi

Canario 1→5→25%, bandiere, reimpostazione (pulsante/collegamento a SOP).
Annotazioni: versione, committenti, autore.

4. Finestre di manutenzione

Servizi/regioni in corso/in arrivo, impacted; maschera di supersion.
Azione: concordare le notifiche, attivare le guardie SLO.

5. Capacità/Scale automatico

Previsioni di consumo (Naive/AR), carta hotspot, warm-pool.
Azione - Richiesta di quote/regole di scale (PR-Criteri).

6. FinOps

$/unità, il top «costosi» richieste/fogli, daily burn vs budget.
Azione: apre il report e la raccomandazione (file di sempling, archivi).

7. Provider

SLA/stato PSP/KYC/CDN, peso delle rotte, preparazione folback.
L'azione cambia peso, modello di comunicazione per i partner.

8. Security

Certificati (≤30d), rotazioni scadute, vulnerabilità (age), eventi sospetti.
Azione: apri playbook IR/ticket.

9. DataOps

Freschezza delle vetrine, percentuale di pass, malfunzionamento del pipline, DLQ.
Azione: backfill/quarantena/rollback di trasformazione.

5) Stati/colori/soglie (riferimento)

Green: SLI entro l'obiettivo, burn-rate <1 x.
Amber: SLI degradato, burn-rate 1-2 x, altezza p95, ma workaround c'è.
Red: breach o burn-out predittivo <1h; apri il SEC-1/0.
Grey: suppressione (finestra), nessuna telemetria (errore sorgente).

6) Annotazioni e correlazioni

Rilascio/config/finestra/stato di provider vengono visualizzati nei grafici SLO.
Click sul marcatore →, autore, gate, pulsante «Reimpostazione/Falback/SOP».
Nell'incidente, la timeline si basa su annotazioni e azioni di ChatOps.

7) Origini dati e verifica

Telemetria: metriche/roulotte/logi con trace _ id.
ITSM: incidenti/problemi/modifiche (states/SLA).
CI/CD - comunicati, firme, manufatti, test.
Catalogo servizi/CMDB: proprietari, SLO, dipendenze.
Calendario: finestre di manutenzione.
Provider: stato-API + conferma manuale (atterraggio in una vetrina separata).
FinOps: bollo/tag di risorse, volumi logici, egress.

Controllo qualità: quorum, sonde duplicate, SLA freschezza, alert su fonti mute.

8) Modalità di visualizzazione

War-Room: mappatura fissa SLO/Incidents/Release/Comms-timer.
Executive (28 giorni): trend MTTR/MTTD/SEC mix, $/s, SLO-adesion.
On-call è un pannello «notturno» compatto (modalità scura, grandi cifre).
Multi-tenant/regione - filtri servizio/region/tenant; preset.

9) Navigazione e azioni (one-click)

I pulsanti sono «/declare sev1 », «/freeze», «/rollback », «/status update», «apri playbook».
Drily- ดาวn: SLO → il grafico dei →/trailer con filtri predefiniti (trace _ id, release _ id).
Shering: snipshot dei pannelli in una pagina ticket/stato.

10) Sicurezza, accessibilità, controllo

SSO/OIDC + RBAC/ABAC: ruoli e scorie (view/action).
JIT/JEA: l'azione «pericolosa» è disponibile solo con aumento temporaneo.
Controllo invariato: chi ha fatto clic su cosa, quali richieste/comandi sono uscite.
I segreti non sono visualizzati, solo i collegamenti al gestore dei segreti.

11) Metriche di maturità del CDU

Azionability è il 90%: i clic conducono alle azioni, non solo ai grafici.
Time-to-First-Action ha ≤ 2 minuti dal CDU al SEC-1/0.
La percentuale di incidenti in cui il CDU era la fonte della verità è del 95%.
Freshness widget:% con dati «freschi di 5 minuti».
Coverage:% di servizi critici con schede SLO e annotazioni di rilascio.
Zero-blind-spots: sorgenti «mute» per settimana = 0.

12) Assegno fogli

Progettazione

I ruoli e gli script sono descritti (P1/P2/IC/Exec/FinOps/Security/DataOps).
Il dizionario colore/SEC/soglie è coerente.
Fonti dati con quorum e SLA freschezza.
Layout War-room/On-call/Executive.
Piano di integrazione ChatOps/ITSM/CI/CD/CMDB.

Utilizzo

I widget passano linter (campi obbligatori, owner, soglie).
Una volta a settimana - Escalation/Alert Review con miglioramenti del CDU.
Gli incidenti Snapshot sono applicati in AAR/RCA.
Modalità oscura/preset mobile per i turni di servizio.
Test di immutazione delle origini e correttezza delle annotazioni.

13) Modelli (idee)

13. 1 Definizione widget (YAML)

yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red:  { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"

13. 2 Carta incidenti (JSON)

json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}

13. 3 Collegamento al lancio

yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }

13. 4 Widget FinOps

yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"

14) Anti-pattern

Un muro di grafici senza azioni o playbook.
Colori/soglie diversi per comandi di confusione nella SEC.
Nessuna annotazione di release/finestre è una complessa correlazione di cause.
Le sorgenti duplicate senza quorum sono false pagine/rumore.
I segreti/chiavi nel pannello sono un rischio di fuga.
Render lento (non accoppiate richieste/aggregazioni) - I pannelli non vengono aperti in battaglia.

15) Road map di implementazione (4-8 settimane)

1. Ned. 1: raccolta dei requisiti di ruolo, dizionario di stato/colore, layout di tre modalità.
2. Ned. 2 - Connessione SLO/Incidents/Release/Windows, annotazioni, azione ChatOps.
3. Ned. 3: aggiunta di FinOps/Capacity/Providers/DataOps/Security, quorum delle sorgenti.
4. Ned. 4: war-room modalità, snack in ITSM, pilota su Tier-0.
5. Ned. 5-6: prestazioni ottimizzate, preset mobile/on-call, widget linter.
6. Ned. 7-8: metriche di maturità, recensione settimanale, raccomandazioni automatiche (sempling, quote, folback).

16) Totale

Il CDU non è una «bella grafica», ma una barra di soluzioni: SLO e burn-rate in alto, incidenti/release/finestre in un unico contesto, azioni istantanee tramite ChatOps e SOP, sorgenti e annotazioni confermate. Questo tipo di dashboard riduce MTTA/MTTR, semplifica le comunicazioni, mantiene la FinOps e rende l'operatività trasparente e prevedibile.

Controllo dashboard centrale

Utilizzo

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti