Central Dashboard de controle

1) Atribuição e princípios

O Dashboard Central de Controle (CDU) é uma janela única para a tomada de decisões nas operações. Ele agrega sinais de telemetria, ITSM, CI/CD, catálogo de serviços, calendário de trabalho e provedores, transformando-os em widgets (actionable) válidos.

Princípios:

SLO-first: em cima - alvo SLO e burn-rate por Tier-0/1.
One-click to action: de widget para playbook/runbook ou tíquete.
Um único dicionário: os mesmos SEV, estatais, cores e liminares.
Anotações de evento: lançamentos/configs/janelas em todos os gráficos.
Funções e permissões: apresentações pessoais (on-call, IC, gerenciamento).
Barulho baixo: quórum das fontes, dedução e supressão pelas janelas.

2) Papéis e cenários-chave

On-call (P1/P2): compreenda rapidamente «o que está em chamas» e abra o playbook (clique ≤1).
IC: Anunciar o SEV, iniciar o modo war-room, controlar cadence comm updates.
Release Gerente: ver gates, progresso de canarinhos, preparação de reversão.
Service Owner/Product: SLI de negócios (sucesso de pagamentos/registros), influência do fichh.
SRE/Plataforma: capacidade, skale automático, anomalias, doutor pronto.
FinOps: $/unidade, sobrepreço, alertas orçamentárias.
Segurança/Legal: posture, certificados-chave, janelas de rotação, auditorias WORM com links.

3) Arquitetura de informação do CDU

Estante superior (painel hero):

SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
Status V: incidentes ativos e sua timeline.
Estado de lançamento: canário/blue-green, gates ativos.
«Traffic lights» dos provedores (PSP/KYC/CDN).

Estante médio (operacional):

Janelas de serviço (agora/24h), cartão de suprimento.
Capacidade: CPU/RAM/IO/queue-depth/p95 latency com previsão.
FinOps: $/1k txn, orçamento de spand vs diurno, anomalias de volume.
DataOps: frescura de vitrines, SLA de pipinas, erros DQ.
Segurança: certificados, roteiros de segredos, vulnerabilidades críticas (age/SLA).

Prateleira inferior (diagnóstico/drill- ดาวn):

Correlações «lançamento ↔ SLO», «provedor ↔ rejeição/latência».
Links rápidos: logs, trailers, tíquetes, playbooks, SOP, matriz de escalações.

4) Widgets (conjunto de arbitragem)

1. SLO & Burn-rate

Mostra o SLI atual, a meta e o consumo do orçamento de erros (1h/6h).
A ação é abrir o playbook de degradação do serviço.

2. Incidentes (painel V)

Ativos/recentes, temporizadores Declare/Comms, papéis IC/Comms.
Ação: abrir war-room, modelo de update, folha de cheque IC.

3. Lançamentos/Configs

Canário 1→5→25%, bandeiras, reversão (botão/referência SOP).
Anotações: versão, comitas, autor.

4. Janelas de serviço

Serviços/regiões atuais/iminentes, impacted; Uma máscara de supressão.
Ação: concordar com notificações, incluir guardas SLO.

5. Capacidade/Scail automático

Previsão de consumo (Naive/AR), cartão hotspot, warm-pool.
Ação: solicitação de quotas/regras de skale (PR em políticas repo).

6. FinOps

$/unidade, os melhores «caros» pedidos/logs, daily burn vs budget.
Ação: abra relatório e recomendação (logs de sempling, arquivos).

7. Provedores

SLA/status PSP/KYC/CDN, peso das rotas, folback pronto.
Ação: mudança de peso, modelo de comunicação para os parceiros.

8. Security

Certificados (≤30d), rotações atrasadas, vulnerabilidades (age), eventos suspeitos.
Ação: abrir playbook IR/tíquete.

9. DataOps

Vitrines frescas, percentual de passe, falha de pipline, DLQ.
Ação: backphill/quarentena/rollback transformação.

5) Estados/cores/liminares (referência)

Green: SLI dentro do alvo, burn-rate <1 x.
Amber: SLI degradado, burn-rate 1-2 x, p95, mas workaround é.
Red: breach ou prognóstico burn-out <1h; abra o SEC-1/0.
Grey: Supressão (janela), sem telemetria (erro de origem).

6) Anotações e correlações

O lançamento/config/janela/provedor é exibido em gráficos SLO.
Clique no marcador «diff», autor, gate, botão «Retrocesso/Falback/SOP».
No incidente, o tempo é baseado em anotações e ações.

7) Fontes de dados e verificação

Telemetria: métricas/trens/logs com trace _ id.
ITSM: incidentes/problemas/alterações (estatais/SLA).
CI/CD: lançamentos, assinaturas, artefactos, testes.
Catálogo de serviços/CMDB: proprietários, SLO, dependências.
Calendário: janelas de serviço.
Provedores: status-API + confirmação manual (aterrar em uma vitrine separada).
FinOps: billing/tags de recursos, volume de logs, egress.

Controle de qualidade: quórum, sondas duplicadas, SLA frescura, alertas para fontes mudas.

8) Modos de exibição

War-room: disposição fixa SLO/Invents/Releases/Comms-timer.
Executive (28 dias): tendências MTTR/MTTD/SEC mix, $/un., SLO-adesens.
On-call: painel «noturno» compacto (modo escuro, grandes números).
Multi Tenant/Região: filtros service/region/tenant; Os presídios.

9) Navegação e ação (one-click)

Botões: '/declare sev1 ', '/freeze', '/rollback ', '/status update', 'abrir playbook'.
Drill - ดาวn: SLO → gráfico → logs/trailers com filtros pré-preenchidos (trace _ id, release _ id).
Shering: snapshot painel em tíquete/status-página.

10) Segurança, acessibilidade, auditoria

SSO/OIDC + RBAC/ABAC: papéis e escopos (view/action).
JIT/JEA: A ação «perigosa» só está disponível com promoção temporária.
Auditoria invariável: quem clicou o quê, quais pedidos/comandos foram retirados.
Segredos: não são exibidos, apenas links para gerente de segredos.

11) Métricas de maturidade do CDU

Activability ≥ 90%: os cliques levam a ações, não apenas gráficos.
Time-to-First-Action ≤ 2 min a partir do CDU para o V-1/0.
O índice de incidentes onde o CDU era a «fonte da verdade» ≥ de 95%.
Freshness widgets:% com dados de 5 min recentes.
Coverage:% dos serviços críticos com cartões SLO e anotações de lançamento.
Zero-blind-spots: fontes «mudas» por semana = 0.

12) Folhas de cheque

Projeto

Os papéis e os cenários são descritos (P1/P2/IC/Exec/FinOps/Security/DataOps).
O dicionário de cores/SEV/liminares está alinhado.
Fontes de dados com quórum e SLA frescura.
Layout War-room/On-call/Executive.
Plano de integração ChatOps/ITSM/CI/CD/CMDB.

Operação

Os widgets passam por linter (campos obrigatórios, owner, liminares).
Uma vez por semana - Escalation/Alert Review com melhorias no CDU.
Os ensaios de incidentes são aplicados em AAR/RCA.
Modo escuro/presépio móvel para vigias.
Testes de «não» de origem e correção de anotações.

13) Modelos (ideias)

13. 1 Definição de widget (YAML)

yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red:  { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"

13. 2 Cartão de incidentes (JSON)

json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}

13. 3 Comunicação ao lançamento

yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }

13. 4 Vijet FinOps

yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"

14) Anti-pattern

«Parede de horários» sem ações ou playbooks.
Diferentes cores/liminares por comandos → confusão no SEV.
Sem anotações de lançamentos/janelas - complexa correlação de causas.
Fontes duplicadas sem quórum - falsa página/ruído.
Segredos/chaves no painel - risco de fuga.
Render lento (solicitações/agregações não cajadas) - painéis não abrem em combate.

15) Mapa de trânsito de implementação (4-8 semanas)

1. Ned. 1: coleta de requisitos de papel, dicionário de estatais/cores, layouts de três modos.
2. Ned. 2: conexão SLO/Inventos/Releases/Windows, anotações, ação ChatOps.
3. Ned. 3: adição de FinOps/Capacity/Providers/DataOps/Security, quórum de fontes.
4. Ned. 4: War-room modo, snapshots em ITSM, piloto em Tier-0.
5. Ned. 5-6: otimização de desempenho, pré-portátil móvel/on-call, widgets linter.
6. Ned. 7-8: métricas de maturidade, visão semanal, recomendações automáticas (logs de sempling, quotas, folback).

16) Resultado

O CDU não é um «belo gráfico», mas sim um painel de soluções: SLO e burn-rate acima, incidentes/lançamentos/janelas no mesmo contexto, ações instantâneas via ChatOps e SOP, fontes confirmadas e anotações. Tal dashboard reduz o MTTA/MTTR, simplifica as comunicações, mantém a FinOps e torna a operação transparente e previsível.

Central Dashboard de controle

Operação

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos