Dashboard de operações

(Seção Operações e Gerenciamento)

1) Atribuição e princípios

O dashboard operacional é uma janela única para monitorar a saúde da plataforma e tomar medidas. Ele agrega métricas, eventos, alertas e indicadores de negócios no contexto do papel do usuário (SRE, Product, Finanças, Compliance, Apoio, Associados).

Princípios:

Actionable by design: cada widget tem um botão de ação (rollback, paul, re-run, re-road).
Role-aware: Os direitos e níveis de detalhe dependem do papel/tenante/região.
Fonte-of-truth: os números coincidem com o bilhete/revistas/recibos.
Near-real-time + histórico: segundos/minutos para incidentes, meses/anos para tendências.
Explainability: Qualquer unidade se desenvolve para um evento crude com 'trace _ id'.

2) Papéis e cenários (quem e por que vem)

SRE/Plataforma: disponibilidade, latência p50/p95/p99, erro/retrai, capacity, per 1k eventos.
Produto/Operações: E2E-Sucess Rate, conversão, tempo de negociação de parceiros, ficheflags.
Finanças/FinOps: receita/COGS/CM por unidade, egress/insress, orçamentos e caps, desvios.
Complaens/Segurança: recibos/assinaturas, solicitações PII, violações SoD, status de ressocialização.
Apoio/CS: fila de tíquetes, MTTA/MTTR, SLA para parceiros e regiões.
Associados/Tenentes: métricas SLO próprias, estatais de webhooks, usage e quotas.

3) North Star e SLI/SLO chave

North Star: E2E Sucess Rate através de rotas críticas, com p95 em cada região.

SLI (exemplo):

Disponibilidade per-canal/região.
Latência p50/p95/p99.
Error-rate e parte de retrações.
Entrega de webhooks bem sucedida (% com recibos).
Custo de 1k eventos e egress/ingress por unidade.
Resumo de incidentes: MTTA, MTTR, erro-budet burn.

SLO (exemplo):

Disponibilidade ≥ 99. 95 %/região/canal.
p95 ≤ 120 ms (vitrine), ≤ 250 ms (checkout/cote).
O sucesso dos webhooks ≥ 99. 5% por 5-min. janela.
Entre quote e checkout = 0 (£1 menor unit de acordo com as regras de distribuição).
Tempo de resposta para P1 ≤ 10 min, MTTR ≤ 60 min

4) Arquitetura de dados dashbord

Pneu de evento: telemetria (traces/metrics/logs), negócios, billing, complacência.
Estirpe/agregação: janelas T + 5s/T + 1m para near-real-time; CDC/outbox para entrega garantida.
Armazéns: time-series, OLAP (longa história), revistas WORM (auditoria).
Camada semântica: dicionário de métricas, unidades, normalização por região e tenentes.
Link de matéria-prima: drill-down a 'trace _ id '/' event _ id' e assinaturas (receipt _ hash).

5) Design de interface e widgets

Chapéu global: filtros (tempo, região, tenante, produto, ambiente), indicadores de estado.
Azulejos (KPIs): E2E Sucess, disponibilidade, p95, erro-rate, vale/1k, egress.
Gráficos: tendências sparkline, heat-map por região, gráficos de percurso.
Tabelas: melhores erros, parceiros com degradação, excesso de quotas, incidentes não revelados.
Secções de ação: «Pausa promoção», «Retrocesso de fichas», «Aumento de quota», «Reiniciar entrega».
Context-help: dicas de métricas/técnicas e comunicação com SLO.

6) Módulos de dashbord (conjunto recomendado)

1. Plataforma de saúde: disponibilidade/latência/erros, orçamento burn-down.
2. Integração de parcerias: status de webhooks, recibos, duplicações idumpotentes, filas.
3. Checkout & Preços: Alinhamento vitrina↔checkout, 'fx _ versão', 'tax _ rule _ versão', falha de mala.
4. Conteúdo/Diretórios: hora de publicação, erro de cachê/deficiente, freshness.
5. RTP & Limits (se aplicável): teor. vs observed RTP, executar limites, exposição.
6. FinOps: COGS/unidade, egress/ingress, compute/armazenamento, orçamentos/caps-alerts.
7. Segurança/Compliance: SoD, JIT, MFA, transações assinadas, consultas PII e revistas.
8. Apoio: filas, MTTA/MTTR, razões, carros runbooks.
9. Release/Substância Flags: estados de lançamento, regiões canárias, regravação automática com incidentes.
10. Experiments: A/B guardrails, influência do fique no SLI/ROY.

7) Alertas, runas e escalada

Alertas de nível P1-P3 com capacidade de ruído e dedução por 'trace _ id'.
Runbooks automáticos: Quando ativado, execute as verificações/fixações (limpeza do cachê, alteração do routing, pausa da promoção).
Escaladas: matriz 24 x 7, SLO resposta, canais (chat/voice/SMS), botão vermelho.
Post-invident: modelos de relatórios com relações de causa e ação items.

8) Multiregionalidade e multi-tenant

Cortes: região/tenante/canal/provedor, SLO e orçamentos independentes.
Zonas de confiança: dados PII/finanças - visíveis apenas nas áreas apropriadas, e outras unidades.
Costa-aware: comparação de rotas de preço com o mesmo p95; recomendação de otimização.

9) Segurança e privacidade

RBAC/ABAC: visibilidade e ações de papel; para a propriedade do produto/tenante.
Assinaturas e recibos: para eventos financeiros/críticos - hasts e recibos DSSE.
Higiene PII: toquenização, camuflagem, acesso somente através de jobs aprovados.
Auditoria: registros WORM para alterações de configurs/papéis/limites, reprodução.

10) Modelo de dados de métricas (exemplo)

`metric` `{name, unit, type: counter/gauge/hist, owner, sla_ref}`

`dim` `{region, tenant, product, provider, version, environment}`

`point` `{metric, value, ts, dims{}, trace_id, signature?}`

`event` `{type, severity, subject_id, payload_hash, receipt_hash, ts}`

`slo` `{name, target, window, burn_rate, owners[], runbook_url}`

`alert` `{slo_ref, condition, status, ack_by, acknowledged_at, runbook_step}`

11) API/webhooks dashbord

'POST/ingest/metrics' - recepção de métricas (esquema, limites, autenticação).
'POST/ingest/events' é um evento de negócios (versões/assinaturas).
`GET /kpis? filters... 'são máquinas para widgets.
O'GET/pistas/SE _ D.D.P. 'é uma promoção profunda.
Вебхуки: `IncidentRaised`, `QuotaCapReached`, `PriceMismatch`, `WebhookDeliveryLag`, `SecuritySoDViolation`.

12) Qualidade dos dados e testes

Data contracts: esquemas e validação na recepção, versionização ('expand → migrate → contract').
Anomalias: monitoramento de omissões/corridas, liminares flatline/noise.
Sampling: Para alta-QPS, a métrica é deslizante, mantendo a representatividade.
Backfill: downloads seguros com uma versão marcada.

13) Métricas do próprio dashbord (métricas de métricas)

Disponibilidade UI/API ≥ 99. 9%.
Latency p95 consultas API ≤ 300 ms.
Completeness: a proporção de fontes que enviaram os dados para a janela ≥ 99. 5%.
Freshness: Lote de atualizações incorporativas ≤ 30 s.
Cortness: discrepância com relatórios de referência ≤ 0. 1%.

14) Economia e FinOps em dashbord

Costa por 1k eventos com decomposição por provedor/região.
Egress/Origins cartões térmicos, recomendações de cachê/routing.
Orçamento/caps-alert: 80/90/100%, auto-roteamento e priorização.

15) Disponibilidade e UX

Tema noturno, assinaturas curtas, ícones de estatais.
Navegação por teclado e a11y: contraste, alt, ária-marca.
Os presídios guardados são «serviço SRE», «finanças», «parceiro».
Snapshots e shering: verifique o estado com filtros e referência/exportação.

16) Riscos e anti-pattern

Dash-sprawl: 20 dashboards diferentes sem um único dicionário de métricas.
Métricas Vanity: gráficos bonitos sem conexão com SLO/ação.
Números não acessíveis: relatórios ≠ billing/auditoria.
Alertas ruidosas, cansaço e omissões P1.
Falta de drill-down - Não é possível chegar aos primórdios e causas.

17) Folha de cheque de implementação

Definir papéis e cenários; alinhar North Star e SLI/SLO.
Criar um dicionário de métricas e unidades; formalizar data contracts.
Configurar ingest (metrics/events/pistas), OLAP e auditoria WORM.
Implementar plug-ins (saúde, parceiros, checkout, FinOps, Security).
Incluir alertas com rumas e escaladas; «botão vermelho».
Adicionar ações: rollback/pause/re-road/raise-limit.
Construir heat-map por região/tenante; filtros e presídios.
Verifique o recuo dos números com o bilhete/recibos.
Jogo-dia (GameDay): desligamento do provedor, avalanche de retrações, descolonização de preços.
Revo semanal SLO e pós-mortem-qualidade.

18) RACI

Área	R	A	C	I
Dicionário de métricas/SLI/SLO	Platform Analytics	CTO	Product, SRE, Finance	Todos
Integração de origem	Data Eng	Head of Data	SRE, Security	Product
Alertas e runas	SRE	CTO	Product, FinOps	Support
Segurança/privacidade	Security/Privacy	CISO/DPO	Legal, Compliance	Todos
Métricas financeiras	FinOps	CFO	Product, Data	Auditoria

19) FAQ

Todos os relatórios podem ser substituídos por um dashboard?
Não. Dashboard - para operações e acções; relatórios e auditorias formais são artefatos individuais.

Quanto tempo é que precisas?
Para incidentes - segundos/minutos, para economia - minutos/relógio; o que importa é a coerência, não o «online» absoluto.

Como combater o barulho de alertas?
Condições orientadas SLO, agregação, dedução por 'trace _ id', priorização e runbooks automáticos.

Como verificar se as métricas estão corretas?
Verificações regulares com relatórios de referência, fidas de teste, amostras de controle e registros WORM.

Resumo: O dashboard operacional não é uma «bela prancha», mas uma ferramenta de controle: SLI/SLO unificado, ações da interface, rastreamento até a matéria-prima e coerência rigorosa com o billet e o áudio. Construa-o na arquitetura de eventos, dê um contexto de papéis, adicione runas e escalações - e você terá operações previsíveis, soluções rápidas e crescimento sustentável.

Dashboard de operações

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos