Matriz de escalações
1) Atribuir matriz
A matriz de escalações é uma regra comum, quem e quando se liga, para que os incidentes sejam rapidamente transferidos do caos para um processo controlado. Ela diz:- os níveis de SEC e seus critérios;
- timing (detecção de ack escalar update);
- papéis/canais para cada etapa;
- exceções (sem «relógio silencioso» para segurança e complacência);
- vínculo com playbooks e página de status.
2) Classificação por gravidade (SEC)
Especifique os números-alvo para o seu domínio e SLO.
3) Matriz básica «quem/quando/para onde»
4) Árvore decisiva de escalações (essência)
1. Há algum impacto confirmado na SLO?
→ Sim: Atribuir IC, anunciar o SEC, abrir o war-room.
→ Não: ticket/observação, sem page.
2. Tem ACK dentro do prazo?
Sim, continuamos no playbook.
→ Não: P2 → IC → DM.
3. Segurança/fuga/PII?
→ Sempre seguro IR + Legal, mensagens públicas são concordadas.
4. Provedor externo?
→ Escalar Vendor Owner, alternar rotas, fixe no status.
5) Papéis e responsabilidades na escalada (curta)
P1 (Primary): triagem, início playbook, ligação com IC.
P2 (Segundary): bacap, ação complexa, retenção de contexto.
IC (Invident Commer): anuncia o SEC, decide o freeze/rollback, mantém o ritmo.
Duty Gerente: remove bloqueios, transfere recursos, toma decisões org.
Coms: Página de status, updates SLA.
Segurança IR: isolamento, forense, notificações legais.
Vendor Owner: provedores externos, switchover/fallback.
6) Guias de tempo (orientações)
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Floresta escalada: P1→P2 (5 m) → IC (10 m) → Duty Gerente (15 m) → Exec on-call (30 m).
Segurança: sem atrasos e «relógios silenciosos», updates q = 15 m.
7) Rotação e segmentação
Por serviço/região/tenante: chave de rotação = 'service + region + tenant'.
Quórum das sondas: Escalar apenas se confirmadas as fontes independentes (synthetic de 2 regiões + RUM/Business SLI).
Um alert mestre em vez de dezenas de sintomas (o BD vermelho silenciará o ruído 5xx).
8) Exceções e regimes especiais
Segurança/Legal: Escalar Segurança IR e Legal fora da fila; textos públicos apenas através da negociação.
Provedores: matriz única OLA/SLA (contatos, fusos horários, prioridade).
Mudar Freeze: Com o SEC-1/0 - freeze automático de lançamentos e configs.
9) Métricas de maturidade da matriz
Ack p95 (SEC-1/0) ≤ 5 min
Time to Declare (mediana) ≤ 10 min.
Comms SLA Adherence ≥ 95%.
Escalation Sucess (decidido em P1/P2) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time para provedores críticos dentro do contrato.
10) Folhas de cheque
Operacional (para on-call)
- Está definido um impacto em SLO e um potencial SEC.
- Feito ACK e atribuído IC (para o SEC-1/0).
- War-room aberto, playbook anexado.
- Status-update publicado/programado por SLA.
- freeze ativado (se necessário) e o provedor/segurança escalado.
Processado (review semanal)
- A escada das escalas funcionou por SLA?
- Não houve escalações a mais para o IC?
- As notificações dos clientes são pontuais e precisas?
- Havia bloqueadores (acessíveis, contatos dos provedores, canal mudo)?
- CAPA para falhas de processo também estão disponíveis.
11) Modelos
11. 1 Política de escalações (ideia YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 cartão de escalação de hora (para bot)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Modelo do primeiro apdate público
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Integração
Alert-as-Code: Cada regra Page faz referência a exatamente um playbook e conhece a sua matriz de escalações.
ChatOps: comandos de '/declare sev1 ', '/page p2', '/status update ',' auto-temporizadores de update '.
CMDB/Catálogo: O serviço tem proprietários, on-call, matriz, provedores, canais.
Status page: modelos para o V-1/0, histórico de updates, links para RCA.
13) Anti-pattern
«Escalar todos ao mesmo tempo» → ruídos e responsabilidades deslumbradas.
Não há IC/war-room - as soluções são abertas por bate-papo.
O atraso no primeiro update é o aumento das queixas e dos riscos.
Não há exceções para a segurança - riscos legais.
Provedores externos sem dono ou contato.
A escada não é automatizada. Está tudo na mão.
14) Mapa de trânsito de implementação (3-5 semanas)
1. Ned. 1: fixar os critérios e temporizações de SEC; reunir os contatos dos papéis/provedores; selecionar os canais.
2. Ned. 2: descrever a política (YAML), atrelar ao Alert-as-Code, incluir a floresta no pager/bote.
3. Ned. 3: piloto em 2-3 serviços críticos; refinar o Comms SLA e os modelos.
4. Ned. 4-5: expandir a cobertura, introduzir a Escalation Review semanal e as métricas de maturidade.
15) Resultado
A matriz de escalações é a Constituição Operacional de Incidentes: quem, quando e como se liga. Com SEV claro, tymings, canais, exceções de segurança e integração com playbooks e status, o comando reage rapidamente, de forma consistente e transparente, enquanto os usuários veem updates previsíveis e restabelecimento confiante do serviço.