GH GambleHub

Matriz de escalações

1) Atribuir matriz

A matriz de escalações é uma regra comum, quem e quando se liga, para que os incidentes sejam rapidamente transferidos do caos para um processo controlado. Ela diz:
  • os níveis de SEC e seus critérios;
  • timing (detecção de ack escalar update);
  • papéis/canais para cada etapa;
  • exceções (sem «relógio silencioso» para segurança e complacência);
  • vínculo com playbooks e página de status.

2) Classificação por gravidade (SEC)

SEVImpactoExemplosObjetivos do tempo
SEV-0Indisponibilidade total do negócio/dados chaveDown regional, perda de dados Tier-0Declare ≤ 5 м; First Comms ≤ 10 м; MTTR — ASAP
SEV-1Degradação grave do SLOPagamentos -3% para SLO, p95> 400 msDeclare ≤ 10 м; First Comms ≤ 15 м; Updates q=15–30 м
SEV-2Degradação parcial/volta é possívelUm provedor está a cair, há um folbackDeclare ≤ 20 м; Comms por necessidade
SEV-3Baixo impacto/interiorNão afetam clientes com falhasSem updates públicos

Especifique os números-alvo para o seu domínio e SLO.

3) Matriz básica «quem/quando/para onde»

EventoTimingQuem está iniciandoQuem escalarCanal/FerramentaComentário
Detecção (Page)T0 → imediatamenteMonitoramento/P1P1Pager/bate-papo # alerts-svcAjuste automático do playbook
ACK Page5 min (V-1/0)P1PagerSe não tiver ACK - Escalado automático
No-ACK5 minPagerP2Pager/somPróximo - IC em 5-10 min
Declare SEV-1/0≤ 10 minIC/P1Duty Manager, Comms# war-room- , página statusLançamentos Freeze
First Comms≤ 15 minComms (por IC)Clientes/interiores. steakholdersPágina de status/correioModelo de «Impacto- Acção-ETA»
Security triggerImediatamenteSecurity IRIC, Legal, Exec#sec-war-roomSem quiet hours
Provider red5 min após confirmaçãoVendor OwnerIC, ProductCanal de venda/correioIniciar switchover
No update> 30 min (V-1/0)BotIC/CommsWar-roomLembrete dos updates SLA

4) Árvore decisiva de escalações (essência)

1. Há algum impacto confirmado na SLO?

→ Sim: Atribuir IC, anunciar o SEC, abrir o war-room.
→ Não: ticket/observação, sem page.

2. Tem ACK dentro do prazo?

Sim, continuamos no playbook.
→ Não: P2 → IC → DM.

3. Segurança/fuga/PII?

→ Sempre seguro IR + Legal, mensagens públicas são concordadas.

4. Provedor externo?

→ Escalar Vendor Owner, alternar rotas, fixe no status.

5) Papéis e responsabilidades na escalada (curta)

P1 (Primary): triagem, início playbook, ligação com IC.
P2 (Segundary): bacap, ação complexa, retenção de contexto.
IC (Invident Commer): anuncia o SEC, decide o freeze/rollback, mantém o ritmo.
Duty Gerente: remove bloqueios, transfere recursos, toma decisões org.
Coms: Página de status, updates SLA.
Segurança IR: isolamento, forense, notificações legais.
Vendor Owner: provedores externos, switchover/fallback.

6) Guias de tempo (orientações)

SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Floresta escalada: P1→P2 (5 m) → IC (10 m) → Duty Gerente (15 m) → Exec on-call (30 m).
Segurança: sem atrasos e «relógios silenciosos», updates q = 15 m.

7) Rotação e segmentação

Por serviço/região/tenante: chave de rotação = 'service + region + tenant'.
Quórum das sondas: Escalar apenas se confirmadas as fontes independentes (synthetic de 2 regiões + RUM/Business SLI).
Um alert mestre em vez de dezenas de sintomas (o BD vermelho silenciará o ruído 5xx).

8) Exceções e regimes especiais

Segurança/Legal: Escalar Segurança IR e Legal fora da fila; textos públicos apenas através da negociação.
Provedores: matriz única OLA/SLA (contatos, fusos horários, prioridade).
Mudar Freeze: Com o SEC-1/0 - freeze automático de lançamentos e configs.

9) Métricas de maturidade da matriz

Ack p95 (SEC-1/0) ≤ 5 min

Time to Declare (mediana) ≤ 10 min.
Comms SLA Adherence ≥ 95%.
Escalation Sucess (decidido em P1/P2) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time para provedores críticos dentro do contrato.

10) Folhas de cheque

Operacional (para on-call)

  • Está definido um impacto em SLO e um potencial SEC.
  • Feito ACK e atribuído IC (para o SEC-1/0).
  • War-room aberto, playbook anexado.
  • Status-update publicado/programado por SLA.
  • freeze ativado (se necessário) e o provedor/segurança escalado.

Processado (review semanal)

  • A escada das escalas funcionou por SLA?
  • Não houve escalações a mais para o IC?
  • As notificações dos clientes são pontuais e precisas?
  • Havia bloqueadores (acessíveis, contatos dos provedores, canal mudo)?
  • CAPA para falhas de processo também estão disponíveis.

11) Modelos

11. 1 Política de escalações (ideia YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 cartão de escalação de hora (para bot)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Modelo do primeiro apdate público


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Integração

Alert-as-Code: Cada regra Page faz referência a exatamente um playbook e conhece a sua matriz de escalações.
ChatOps: comandos de '/declare sev1 ', '/page p2', '/status update ',' auto-temporizadores de update '.
CMDB/Catálogo: O serviço tem proprietários, on-call, matriz, provedores, canais.
Status page: modelos para o V-1/0, histórico de updates, links para RCA.

13) Anti-pattern

«Escalar todos ao mesmo tempo» → ruídos e responsabilidades deslumbradas.
Não há IC/war-room - as soluções são abertas por bate-papo.
O atraso no primeiro update é o aumento das queixas e dos riscos.
Não há exceções para a segurança - riscos legais.
Provedores externos sem dono ou contato.
A escada não é automatizada. Está tudo na mão.

14) Mapa de trânsito de implementação (3-5 semanas)

1. Ned. 1: fixar os critérios e temporizações de SEC; reunir os contatos dos papéis/provedores; selecionar os canais.
2. Ned. 2: descrever a política (YAML), atrelar ao Alert-as-Code, incluir a floresta no pager/bote.
3. Ned. 3: piloto em 2-3 serviços críticos; refinar o Comms SLA e os modelos.
4. Ned. 4-5: expandir a cobertura, introduzir a Escalation Review semanal e as métricas de maturidade.

15) Resultado

A matriz de escalações é a Constituição Operacional de Incidentes: quem, quando e como se liga. Com SEV claro, tymings, canais, exceções de segurança e integração com playbooks e status, o comando reage rapidamente, de forma consistente e transparente, enquanto os usuários veem updates previsíveis e restabelecimento confiante do serviço.

Contact

Entrar em contacto

Contacte-nos para qualquer questão ou necessidade de apoio.Estamos sempre prontos para ajudar!

Iniciar integração

O Email é obrigatório. Telegram ou WhatsApp — opcionais.

O seu nome opcional
Email opcional
Assunto opcional
Mensagem opcional
Telegram opcional
@
Se indicar Telegram — responderemos também por lá.
WhatsApp opcional
Formato: +indicativo e número (ex.: +351XXXXXXXXX).

Ao clicar, concorda com o tratamento dos seus dados.