Central Dashboard de controle
1) Atribuição e princípios
O Dashboard Central de Controle (CDU) é uma janela única para a tomada de decisões nas operações. Ele agrega sinais de telemetria, ITSM, CI/CD, catálogo de serviços, calendário de trabalho e provedores, transformando-os em widgets (actionable) válidos.
Princípios:- SLO-first: em cima - alvo SLO e burn-rate por Tier-0/1.
- One-click to action: de widget para playbook/runbook ou tíquete.
- Um único dicionário: os mesmos SEV, estatais, cores e liminares.
- Anotações de evento: lançamentos/configs/janelas em todos os gráficos.
- Funções e permissões: apresentações pessoais (on-call, IC, gerenciamento).
- Barulho baixo: quórum das fontes, dedução e supressão pelas janelas.
2) Papéis e cenários-chave
On-call (P1/P2): compreenda rapidamente «o que está em chamas» e abra o playbook (clique ≤1).
IC: Anunciar o SEV, iniciar o modo war-room, controlar cadence comm updates.
Release Gerente: ver gates, progresso de canarinhos, preparação de reversão.
Service Owner/Product: SLI de negócios (sucesso de pagamentos/registros), influência do fichh.
SRE/Plataforma: capacidade, skale automático, anomalias, doutor pronto.
FinOps: $/unidade, sobrepreço, alertas orçamentárias.
Segurança/Legal: posture, certificados-chave, janelas de rotação, auditorias WORM com links.
3) Arquitetura de informação do CDU
Estante superior (painel hero):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- Status V: incidentes ativos e sua timeline.
- Estado de lançamento: canário/blue-green, gates ativos.
- «Traffic lights» dos provedores (PSP/KYC/CDN).
- Janelas de serviço (agora/24h), cartão de suprimento.
- Capacidade: CPU/RAM/IO/queue-depth/p95 latency com previsão.
- FinOps: $/1k txn, orçamento de spand vs diurno, anomalias de volume.
- DataOps: frescura de vitrines, SLA de pipinas, erros DQ.
- Segurança: certificados, roteiros de segredos, vulnerabilidades críticas (age/SLA).
- Correlações «lançamento ↔ SLO», «provedor ↔ rejeição/latência».
- Links rápidos: logs, trailers, tíquetes, playbooks, SOP, matriz de escalações.
4) Widgets (conjunto de arbitragem)
1. SLO & Burn-rate
Mostra o SLI atual, a meta e o consumo do orçamento de erros (1h/6h).
A ação é abrir o playbook de degradação do serviço.
2. Incidentes (painel V)
Ativos/recentes, temporizadores Declare/Comms, papéis IC/Comms.
Ação: abrir war-room, modelo de update, folha de cheque IC.
3. Lançamentos/Configs
Canário 1→5→25%, bandeiras, reversão (botão/referência SOP).
Anotações: versão, comitas, autor.
4. Janelas de serviço
Serviços/regiões atuais/iminentes, impacted; Uma máscara de supressão.
Ação: concordar com notificações, incluir guardas SLO.
5. Capacidade/Scail automático
Previsão de consumo (Naive/AR), cartão hotspot, warm-pool.
Ação: solicitação de quotas/regras de skale (PR em políticas repo).
6. FinOps
$/unidade, os melhores «caros» pedidos/logs, daily burn vs budget.
Ação: abra relatório e recomendação (logs de sempling, arquivos).
7. Provedores
SLA/status PSP/KYC/CDN, peso das rotas, folback pronto.
Ação: mudança de peso, modelo de comunicação para os parceiros.
8. Security
Certificados (≤30d), rotações atrasadas, vulnerabilidades (age), eventos suspeitos.
Ação: abrir playbook IR/tíquete.
9. DataOps
Vitrines frescas, percentual de passe, falha de pipline, DLQ.
Ação: backphill/quarentena/rollback transformação.
5) Estados/cores/liminares (referência)
Green: SLI dentro do alvo, burn-rate <1 x.
Amber: SLI degradado, burn-rate 1-2 x, p95, mas workaround é.
Red: breach ou prognóstico burn-out <1h; abra o SEC-1/0.
Grey: Supressão (janela), sem telemetria (erro de origem).
6) Anotações e correlações
O lançamento/config/janela/provedor é exibido em gráficos SLO.
Clique no marcador «diff», autor, gate, botão «Retrocesso/Falback/SOP».
No incidente, o tempo é baseado em anotações e ações.
7) Fontes de dados e verificação
Telemetria: métricas/trens/logs com trace _ id.
ITSM: incidentes/problemas/alterações (estatais/SLA).
CI/CD: lançamentos, assinaturas, artefactos, testes.
Catálogo de serviços/CMDB: proprietários, SLO, dependências.
Calendário: janelas de serviço.
Provedores: status-API + confirmação manual (aterrar em uma vitrine separada).
FinOps: billing/tags de recursos, volume de logs, egress.
Controle de qualidade: quórum, sondas duplicadas, SLA frescura, alertas para fontes mudas.
8) Modos de exibição
War-room: disposição fixa SLO/Invents/Releases/Comms-timer.
Executive (28 dias): tendências MTTR/MTTD/SEC mix, $/un., SLO-adesens.
On-call: painel «noturno» compacto (modo escuro, grandes números).
Multi Tenant/Região: filtros service/region/tenant; Os presídios.
9) Navegação e ação (one-click)
Botões: '/declare sev1 ', '/freeze', '/rollback ', '/status update', 'abrir playbook'.
Drill - ดาวn: SLO → gráfico → logs/trailers com filtros pré-preenchidos (trace _ id, release _ id).
Shering: snapshot painel em tíquete/status-página.
10) Segurança, acessibilidade, auditoria
SSO/OIDC + RBAC/ABAC: papéis e escopos (view/action).
JIT/JEA: A ação «perigosa» só está disponível com promoção temporária.
Auditoria invariável: quem clicou o quê, quais pedidos/comandos foram retirados.
Segredos: não são exibidos, apenas links para gerente de segredos.
11) Métricas de maturidade do CDU
Activability ≥ 90%: os cliques levam a ações, não apenas gráficos.
Time-to-First-Action ≤ 2 min a partir do CDU para o V-1/0.
O índice de incidentes onde o CDU era a «fonte da verdade» ≥ de 95%.
Freshness widgets:% com dados de 5 min recentes.
Coverage:% dos serviços críticos com cartões SLO e anotações de lançamento.
Zero-blind-spots: fontes «mudas» por semana = 0.
12) Folhas de cheque
Projeto
- Os papéis e os cenários são descritos (P1/P2/IC/Exec/FinOps/Security/DataOps).
- O dicionário de cores/SEV/liminares está alinhado.
- Fontes de dados com quórum e SLA frescura.
- Layout War-room/On-call/Executive.
- Plano de integração ChatOps/ITSM/CI/CD/CMDB.
Operação
- Os widgets passam por linter (campos obrigatórios, owner, liminares).
- Uma vez por semana - Escalation/Alert Review com melhorias no CDU.
- Os ensaios de incidentes são aplicados em AAR/RCA.
- Modo escuro/presépio móvel para vigias.
- Testes de «não» de origem e correção de anotações.
13) Modelos (ideias)
13. 1 Definição de widget (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Cartão de incidentes (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Comunicação ao lançamento
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 Vijet FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anti-pattern
«Parede de horários» sem ações ou playbooks.
Diferentes cores/liminares por comandos → confusão no SEV.
Sem anotações de lançamentos/janelas - complexa correlação de causas.
Fontes duplicadas sem quórum - falsa página/ruído.
Segredos/chaves no painel - risco de fuga.
Render lento (solicitações/agregações não cajadas) - painéis não abrem em combate.
15) Mapa de trânsito de implementação (4-8 semanas)
1. Ned. 1: coleta de requisitos de papel, dicionário de estatais/cores, layouts de três modos.
2. Ned. 2: conexão SLO/Inventos/Releases/Windows, anotações, ação ChatOps.
3. Ned. 3: adição de FinOps/Capacity/Providers/DataOps/Security, quórum de fontes.
4. Ned. 4: War-room modo, snapshots em ITSM, piloto em Tier-0.
5. Ned. 5-6: otimização de desempenho, pré-portátil móvel/on-call, widgets linter.
6. Ned. 7-8: métricas de maturidade, visão semanal, recomendações automáticas (logs de sempling, quotas, folback).
16) Resultado
O CDU não é um «belo gráfico», mas sim um painel de soluções: SLO e burn-rate acima, incidentes/lançamentos/janelas no mesmo contexto, ações instantâneas via ChatOps e SOP, fontes confirmadas e anotações. Tal dashboard reduz o MTTA/MTTR, simplifica as comunicações, mantém a FinOps e torna a operação transparente e previsível.