Arquitetura de camada operacional
1) Tarefa de camada de operação
A camada operacional é uma plataforma e um conjunto de práticas que permitem uma operação previsível: lançamentos rápidos, MTTR baixo, complacência e custo controlado. Cria corrimãos para produtos e infraestrutura: padrões, automação, observabilidade, gerenciamento de alterações e acesso seguro.
2) Modelo lógico (planos e domínios)
┌────────────────────────────────────────────────────────┐
│ Interface Plane (UX) │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps │
└────────────────────────────────────────────────────────┘
Domínios-chave:
- Serviço-catálogo/CMDB: registro único de serviços, proprietários, SLO, dependências.
- Orquestra: Pipinas, tarefas, coroas, bacapes, Dr.
- Políticas: alertas, acessibilidade, retentações, mudança-gates.
- Observabilidade: métricas/trailers/logs, SLI/SLO, alertas e status-página.
- Acessíveis/segredos: JIT/JEA, tokens, cripto, KMS/Vault.
- Incidentes/alterações: ITSM/tíquetes, FAB/RFC, pós-mortemas, simulações.
- DataOps: contratos de dados, frescura, lineagem, qualidade.
- FinOps: contabilidade de custos, limites, quotas, otimização.
3) Fluxos de arbitragem
3. 1 Lançamento (CI/CD → GitOps)
1. PR com código/manifesto → testes/scans → assinatura de artefatos.
2. Deplom progressivo (canário/azul-green) com gardrelas SLO.
3. Auto-rollback em degradação; anotações de lançamento na telemetria.
3. 2 Incidente (Detect → Respond → Recover)
1. Burn-rate/sintomas + quórum → Page + war-room.
2. Diagnóstico por pista/logs; playbooks.
3. Retrocesso/folback/limite → AAR/RCA → CAPA.
3. 3 Alteração (RFC/FAB)
1. Análise de risco + janela de manutenção + plano backout.
2. Supressão alertas não ríticas, sinais SLO estão ativos.
3. Evidence e relatório, revisão de políticas.
4) Diretório de serviços e CMDB
Atributos: proprietário, SLI/SLO, dependências (interna/externa), dashboards, alerts, runbook 'e, classes de dados (PII/finanças), zonas (prod/estágio/dave).
Preenchimento automático de CI/CD, telemetria e repositórios.
Uso: Rotação de alertas, escalação, cálculo de blast radius, relatórios de maturidade.
5) Políticas como código (Policy-as-Code)
Categorias: acessibilidade (RBAC/ABAC), segurança (SAST/SCA/DAST), alert/SLO, retenção, mudança-gates, recursos/quotas.
Mecânica: regras declaratórias (YAML/Rego/CEL), validação em CI, execução compulsória em Controle Plane.
Exemplo de gate: «O deplom é permitido se todos os SLO são verdes, não há um V-1 ativo, os testes foram concluídos e as assinaturas são validadas».
6) Orquestração e execução
CI/CD: build → scan → sign → promote.
Jobs/CronJobs/DAG: bacapes/rotação/backphill; Dedline e concorrência (Forbid/Replace).
Idempotação e retração: check-then-act, marcadores de passos, circuito-breaker.
Permissões de lançamento: aulas de JIT limitadas a scope; Auditoria.
7) Observabilidade e qualidade dos sinais
SLI/SLO para domínios: disponibilidade/latência/sucesso das operações de negócios, frescura de dados.
Alerts: burn-rate em duas janelas, quórum, deadup/rate-limit, runbook e proprietário.
Logs/métricas/trailers estão associados a trace _ id; canais de gráficos para logs.
Página de status: modelos, frequências de update, auditoria de publicações.
8) Acessíveis, segredos, cripto
Armazéns de segredos (KMS/Vault), rotações, proibição de segredos no repo.
JIT/JEA: emissão de permissões por transação/turno.
mTLS/OIDC entre os serviços; assinatura de imagens/SBOM.
Auditoria: registros imutáveis, WORM para ações críticas.
9) Incidentes, alterações, janelas de serviço
Incidentes: matriz SEC, IC/TL/Comms/Scribe, modelos de update, AAR→RCA→CAPA.
Mudanças: RFC/FAB, avaliação de risco, canários, backout.
Janelas de serviço: escolha do tempo, comunicação, supressão de regras, evidência.
10) DataOps na camada de operação
Contratos de dados (esquema, SLA frescura/totalidade).
Testes DQ em cada camada (Bronze/Silver/Gold).
Lineage e diretórios; Quarentena para o casamento.
SLO dados e alertas de frescura/deriva.
11) FinOps e custo
Economia unit: $/1k consultas, $/transação bem-sucedida, $/GiB logs, $/SLO-item.
Quotas/limites: egress, volume lógico, duração das tarefas.
Otimizações: partições/dinheiro/materialização/arquivos (hot-warm-cold).
Relatórios: serviços/solicitações «caros» baratos, alertas de sobrepreço.
12) Interfaces: ChatOps/Portals/API
Portal de plataforma: diretório de serviços, botões de depload/reversão, status SLO, slots de janelas, políticas.
ChatOps: `/deploy`, `/handover start`, `/mw create`, `/status update` — с аудитом и evidence.
API: para integração com ITSM/HR/book/provedores.
13) Modelo de responsabilidade (RACI)
Plataforma/SRE: plano de referência, políticas, observabilidade, rotações.
Produt/Dave: serviços SLO, lançamentos, playbooks.
Segurança: segredos, vulnerabilidades, IR.
Data/Analytics: DataOps, SLA frescura/qualidade.
Compliance/Legal: regulação, armazenamento de evidence.
Suporte/Comms: Página de status, mensagens de clientes.
14) Métricas da maturidade da camada de operação
SLO coverage:% de serviços com determinados SLI/SLO e burn-rate.
Alert hygiene: actionable ≥80%, FP ≤5%, alerts/on-call-hour (p95).
DORA: Taxa de depload, lead time, MTTR, mudança-failure-rate.
Mudança governance:% de alterações RFC,% de janelas on-time, reversão.
Segurança: tempo médio de rotação de segredos/certificados, encerramento de vulnerabilidades.
FinOps: $/unidade e% de economia de QoQ.
Docs: revestimento runbook/SOP, frescura (≤90 dias).
15) Folha de cheque «camada de operação minimamente viável (MVP)»
- Serviço-diretório/CMDB com proprietários, SLO, dependências e dashboards.
- CI/CD + GitOps, assinatura de artefatos, lançamentos progressivos, revezamento automático.
- Telemetria combinada (logs/métricas/trailers) com trace _ id e alertas SLO (janelas duplas, quórum).
- Policy-as-Code: Acessibilidade, alertas, reticências, mudança-gates.
- Armazenamento de segredos, JIT/JEA, mTLS/SSO, auditoria imutável.
- ITSM/incidentes: matriz de SEV, playbooks, status de página, modelos de update.
- Janelas de serviço: calendário, modelos RFC, planos backout, evidence.
- FinOps: visibilidade de custos, quotas, limites, relatórios.
- Documentação (Docs-as-Code), modelos SOP/Runbook, folha de cheque pronta para a abertura.
16) Anti-pattern
Plataforma = conjunto de script sem plano de controle e políticas.
Monitoramento «de tudo» → avalanche de alertas, alert fatigue.
Alterações manuais de prod sem GitOps/auditoria.
Segredos em variáveis de ambiente sem armazenamento ou rotatividade.
Falta de SLO, discutindo sobre sentimentos, não sobre objetivos de qualidade.
Diretórios/tabelas de proprietários divididos → escalas perdidas.
O plano backout não tem alterações no High-risk.
Logs sem estrutura/correlação → longa investigação.
17) Mini-modelos
17. 1 Cartão de serviço (catálogo)
Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach
17. 2 Política de alerta (ideia)
yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}
17. 3 Gate deploy (pseudo)
yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present
18) Mapa de trânsito de implementação (8-12 semanas)
1. Ned. 1-2: inventário de serviços → catálogo/CMDB; SLI/SLO básico e dashboards.
2. Ned. 3-4: GitOps + lançamentos progressivos; Policy-as-Código (alertas/retências).
3. Ned. 5-6: Telemetria unificada e página de status; burn-rate com quórum; revestimento de runbook.
4. Ned. 7-8: segredos/JIT, auditoria imutável; RFC/janelas de serviço.
5. Ned. 9-10: relatórios FinOps, quotas/limites; otimização de logs e armazenamento.
6. Ned. 11-12: simulações de incidentes/DR.; métricas de maturidade; um plano de melhoria contínua.
19) Resultado
A arquitetura da camada operacional é um plano de controle, além de práticas normalizadas que transformam a operação em um processo repetível, mensurável e seguro. O catálogo de serviços, telemetria, políticas, acessibilidade segura e mudanças gerenciáveis fornecem lançamentos sustentáveis, recuperação rápida e um custo transparente - ou seja, previsibilidade operacional para o negócio.