Controllo dashboard centrale
1) Assegnazione e principi
Il dashboard centrale di gestione (segue il CDU) è una finestra unica per prendere decisioni nelle operazioni. Aggrega i segnali da telemetria, ITSM, CI/CD, catalogo di servizi, calendario di lavoro e provider, trasformandoli in widget validi (actionable).
Principi:- SLO-first: in alto - SLO target e burn-rate Tier-0/1.
- One-click to action: da widget a playbook/runbook o ticket.
- Un unico dizionario: SEV, states, colori e soglie identiche.
- Annotazioni eventi: rilasci/configi/finestre su tutti i grafici.
- Ruoli e autorizzazioni: visualizzazioni personali (on-call, IC, Management).
- Rumore basso: quorum delle sorgenti, deduplicazione e soppressione delle finestre.
2) Ruoli e script chiave
On-call (P1/P2) - Capire rapidamente cosa brucia e aprire il playbook (click).
IC - Dichiara la SEV, avvia la modalità war-room, controlla la cadence dei comm update.
Release Manager: vedere i gate, avanzare i canarini, tornare pronti.
Servizio Owner/Product: Business SLI (successo di pagamenti/iscrizioni), impatto fich.
SRE/Platform: capacità, scale automatico, anomalie, DR.
FinOps: $/unità, eccesso di spesa, alert di bilancio.
Sicurezza/Legale: posture, certificati chiave, finestre di rotazione, controllo WORM con link.
3) Architettura informativa del centro dati
Scaffale superiore (pannello hero):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- Stato SEC: incidenti attivi e timeline.
- Stato di rilascio: canarino/blue-green, gate attivi.
- Traffic lights provider (PSP/KYC/CDN).
- Finestre di servizio (ora/24h), scheda supplence.
- Capacità: CPU/RAM/IO/queue-depth/p95 latency con previsione.
- FinOps: $/1k txn, budget giornaliero vs, anomalie dei volumi logici.
- DataOps: freschezza delle vetrine, SLA dei pipeline, errori DQ.
- Sicurezza: data di scadenza dei certificati, rotazioni dei segreti, vulnerabilità critiche (age/SLA).
- Correlazioni «rilascio della SLO», «provider del rifiuto/latitanza».
- I collegamenti rapidi sono: loga, trailer, ticket, playbook, SOP, matrice di scalate.
4) Widgets (set di controllo)
1. SLO & Burn-rate
Mostra l'attuale SLI, l'obiettivo e il consumo del budget degli errori (1h/6h).
Azione: aprire il playbook di degrado del servizio.
2. Incidenti (pannello SEC)
Attivi/recenti, timer Declare/Comms, ruoli IC/Comms.
Azione: aprire una war-room, un modello di update, un foglio di assegno IC.
3. Release/Confighi
Canario 1→5→25%, bandiere, reimpostazione (pulsante/collegamento a SOP).
Annotazioni: versione, committenti, autore.
4. Finestre di manutenzione
Servizi/regioni in corso/in arrivo, impacted; maschera di supersion.
Azione: concordare le notifiche, attivare le guardie SLO.
5. Capacità/Scale automatico
Previsioni di consumo (Naive/AR), carta hotspot, warm-pool.
Azione - Richiesta di quote/regole di scale (PR-Criteri).
6. FinOps
$/unità, il top «costosi» richieste/fogli, daily burn vs budget.
Azione: apre il report e la raccomandazione (file di sempling, archivi).
7. Provider
SLA/stato PSP/KYC/CDN, peso delle rotte, preparazione folback.
L'azione cambia peso, modello di comunicazione per i partner.
8. Security
Certificati (≤30d), rotazioni scadute, vulnerabilità (age), eventi sospetti.
Azione: apri playbook IR/ticket.
9. DataOps
Freschezza delle vetrine, percentuale di pass, malfunzionamento del pipline, DLQ.
Azione: backfill/quarantena/rollback di trasformazione.
5) Stati/colori/soglie (riferimento)
Green: SLI entro l'obiettivo, burn-rate <1 x.
Amber: SLI degradato, burn-rate 1-2 x, altezza p95, ma workaround c'è.
Red: breach o burn-out predittivo <1h; apri il SEC-1/0.
Grey: suppressione (finestra), nessuna telemetria (errore sorgente).
6) Annotazioni e correlazioni
Rilascio/config/finestra/stato di provider vengono visualizzati nei grafici SLO.
Click sul marcatore →, autore, gate, pulsante «Reimpostazione/Falback/SOP».
Nell'incidente, la timeline si basa su annotazioni e azioni di ChatOps.
7) Origini dati e verifica
Telemetria: metriche/roulotte/logi con trace _ id.
ITSM: incidenti/problemi/modifiche (states/SLA).
CI/CD - comunicati, firme, manufatti, test.
Catalogo servizi/CMDB: proprietari, SLO, dipendenze.
Calendario: finestre di manutenzione.
Provider: stato-API + conferma manuale (atterraggio in una vetrina separata).
FinOps: bollo/tag di risorse, volumi logici, egress.
Controllo qualità: quorum, sonde duplicate, SLA freschezza, alert su fonti mute.
8) Modalità di visualizzazione
War-Room: mappatura fissa SLO/Incidents/Release/Comms-timer.
Executive (28 giorni): trend MTTR/MTTD/SEC mix, $/s, SLO-adesion.
On-call è un pannello «notturno» compatto (modalità scura, grandi cifre).
Multi-tenant/regione - filtri servizio/region/tenant; preset.
9) Navigazione e azioni (one-click)
I pulsanti sono «/declare sev1 », «/freeze», «/rollback », «/status update», «apri playbook».
Drily- ดาวn: SLO → il grafico dei →/trailer con filtri predefiniti (trace _ id, release _ id).
Shering: snipshot dei pannelli in una pagina ticket/stato.
10) Sicurezza, accessibilità, controllo
SSO/OIDC + RBAC/ABAC: ruoli e scorie (view/action).
JIT/JEA: l'azione «pericolosa» è disponibile solo con aumento temporaneo.
Controllo invariato: chi ha fatto clic su cosa, quali richieste/comandi sono uscite.
I segreti non sono visualizzati, solo i collegamenti al gestore dei segreti.
11) Metriche di maturità del CDU
Azionability è il 90%: i clic conducono alle azioni, non solo ai grafici.
Time-to-First-Action ha ≤ 2 minuti dal CDU al SEC-1/0.
La percentuale di incidenti in cui il CDU era la fonte della verità è del 95%.
Freshness widget:% con dati «freschi di 5 minuti».
Coverage:% di servizi critici con schede SLO e annotazioni di rilascio.
Zero-blind-spots: sorgenti «mute» per settimana = 0.
12) Assegno fogli
Progettazione
- I ruoli e gli script sono descritti (P1/P2/IC/Exec/FinOps/Security/DataOps).
- Il dizionario colore/SEC/soglie è coerente.
- Fonti dati con quorum e SLA freschezza.
- Layout War-room/On-call/Executive.
- Piano di integrazione ChatOps/ITSM/CI/CD/CMDB.
Utilizzo
- I widget passano linter (campi obbligatori, owner, soglie).
- Una volta a settimana - Escalation/Alert Review con miglioramenti del CDU.
- Gli incidenti Snapshot sono applicati in AAR/RCA.
- Modalità oscura/preset mobile per i turni di servizio.
- Test di immutazione delle origini e correttezza delle annotazioni.
13) Modelli (idee)
13. 1 Definizione widget (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Carta incidenti (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Collegamento al lancio
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 Widget FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anti-pattern
Un muro di grafici senza azioni o playbook.
Colori/soglie diversi per comandi di confusione nella SEC.
Nessuna annotazione di release/finestre è una complessa correlazione di cause.
Le sorgenti duplicate senza quorum sono false pagine/rumore.
I segreti/chiavi nel pannello sono un rischio di fuga.
Render lento (non accoppiate richieste/aggregazioni) - I pannelli non vengono aperti in battaglia.
15) Road map di implementazione (4-8 settimane)
1. Ned. 1: raccolta dei requisiti di ruolo, dizionario di stato/colore, layout di tre modalità.
2. Ned. 2 - Connessione SLO/Incidents/Release/Windows, annotazioni, azione ChatOps.
3. Ned. 3: aggiunta di FinOps/Capacity/Providers/DataOps/Security, quorum delle sorgenti.
4. Ned. 4: war-room modalità, snack in ITSM, pilota su Tier-0.
5. Ned. 5-6: prestazioni ottimizzate, preset mobile/on-call, widget linter.
6. Ned. 7-8: metriche di maturità, recensione settimanale, raccomandazioni automatiche (sempling, quote, folback).
16) Totale
Il CDU non è una «bella grafica», ma una barra di soluzioni: SLO e burn-rate in alto, incidenti/release/finestre in un unico contesto, azioni istantanee tramite ChatOps e SOP, sorgenti e annotazioni confermate. Questo tipo di dashboard riduce MTTA/MTTR, semplifica le comunicazioni, mantiene la FinOps e rende l'operatività trasparente e prevedibile.