Rotação de comandos e turnos
1) Objetivos de rotação
A rotatividade é uma forma de fornecer cobertura contínua, carga previsível e resposta rápida sem queimar ou perder o contexto. Objetivos essenciais:- Distribuição uniforme de pagas e relógios noturnos;
- substituição garantida para força maior;
- transparência nos horários, férias e restrições;
- Cumprir os requisitos de SLA/complacência e salvar a auditoria.
2) Papéis e cobertura
P1 (Primary on-call): primeira resposta, triagem, sincronização com IC.
P2 (Secundary on-call): backap para sobrecarga/escalação.
IC-of-the-day/Duty Gestor: Líder em SEC-1 +, coordenação de soluções.
Observer/Shadow: treinamento em modo sombra sem pagas.
- evitar lançamentos de £30 minutos do turno;
- para janelas complexas manter duas slots ativas (P1 + P2);
- O IC tem um turno selecionado, não combina P1.
3) Modelos de rotação
24/7 com turnos de 8 horas: manhã/dia/noite (3 brigadas). Pelo menos cansaço, mais mudanças.
24/7 com turnos de 12 horas, menos mudanças, compensação e limites rigorosos.
Follow-the-sun: As regiões transmitem a cobertura por fuso horário; menos pagys noturnas.
Follow-the-moon: a cobertura noturna é transferida para uma região «distante» para carga fora do horário nobre local.
Week-on/Week-off: uma semana on-call, depois uma semana sem pagas (para equipes maduras e barulho baixo).
4) Regras de equidade e sustentabilidade
Quotas de noites/fins de semana: no máximo N noites e M turnos de folga por pessoa por período.
Saldo de pages: Se o engenheiro tiver> limite de destino para o período - redistribuição/remediação.
As janelas noturnas são apenas P1 + P2.
Janelas de indisponibilidade: programado com antecedência (férias/doenças/treinamento) e contados automaticamente.
Período Shadow: Cada novo on-call passa ≥ 2 turnos na sombra.
5) Planejamento e publicação de gráficos
Horizonte de planejamento: 6-8 semanas, revisão a cada 2 semanas.
Calendário geral de rotações (público read-only), cada slot tem P1/P2/IC/Shadow, contatos.
As substituições (swap) são feitas com tíquete/pedido e confirmadas com um bot bridge.
Publicação: Em T-14 dias, no mínimo, alterações com a notificação do comando.
6) Procedimentos de transferência (handover)
Cartão de mudança (campos obrigatórios): Incidentes ativos (ID/SEC/proprietário), próximo passo/ETA, risco de janela (lançamentos/migração/quotas), estado SLO, flagras de degradação ativadas, status-página/coms.
Folha de cheque: cartão atualizado, todos os conhecimentos orais, tíquetes, temporizadores de update expostos, contato P2 confirmado.
A folha de cheque «aceito», leu o cartão, verificou os dados em 2-4 horas, tomou posse dos incidentes, fez uma mensagem de eco no canal.
7) Controle da fadiga (fatiga)
Limites de pagê/hora e/ou turno, escalação automática para P2 quando excedido.
Quiet Hours para P2/P3 (apenas os sinais de página-crítica sofrem).
Post-invident rest: Dias de folga obrigatórios após noites difíceis (SEC-1 +).
Alert review semanal → redução do ruído, edição de regras.
Monitoramento de carga: cronograma de página e humor de comando (NPS turn).
8) Segurança e Complacência
Acesso JIT/JEA: permissões on-call são emitidas apenas na janela de turno.
Auditoria-pista: Quem está de serviço, quem tomou, que tipo de ação foi executada; armazenamento imutável.
Vigias de operações sensíveis (PII/pagamentos): classe de turnos e permissões separadas; proibição de dispositivos pessoais, SSO+mTLS.
Os pontos de contato com Legal/PR/Private estão marcados no cartão de troca.
9) Automação
O calendário ↔ pager ↔ ChatOps: bot publica "quem on-call', permite "/swap", cria um cartão handover a partir de fontes (dashboards, tíquetes, lançamentos).
Teste de preparação no início do turno: som do pager, VPN/SSO, acessível, comunicação.
Modelos de documentos: SOP/Runbook para rotinas e incidentes; links automáticos em alertas.
Integração com lançamentos: lançamentos de anotação → supressões temporárias de alertas não recorrentes nos primeiros 30 minutos.
10) Métricas de qualidade de rotação
MTTA/MTTR em torno do turno (£30 minutos a partir das mudanças).
Handover Defect Rate - proporção de incidentes com perda de contexto por turno.
Alerts per on-call hour (mediana/95),% actionable.
Load per person - page/homem/semana; dispersão entre os participantes.
Missed/Leite Updates - atrasos em Comms SLA.
Swap rating e causas (cansaço/férias/conflitos).
Turnos NPS (em uma sondagem curta) e tendência.
11) Modelos de programação
A. 24/7, 8 horas (3 brigadas)
Brigade A: 08: 00-16: 00
Brigade B: 16: 00-00: 00
Brigade C: 00: 00-08: 00
Each team: P1 + P2, IC on a separate schedule (day slot)
Rotation: A→B→C every week; weekend moves in a circle
B. Follow-the-sun (3 regiões)
EU: 07:00–15:00 AMER: 15:00–23:00 APAC: 23:00–07:00 (UTC)
Each region: P1 local, P2 neighboring
IC: coincides with active region; transfer 15 minutes before shift
V. Week-on/Week-off (barulho baixo)
Week 1: Team X (P1/P2) Week 2: Team Y
Daily IC common to both
Limit: no more than 2 consecutive weeks for one person
12) Folhas de cheque
Antes de publicar o gráfico
- Revestimento 24/7 sem «buracos», P1 + P2 em cada slot.
- Férias/treinamento/limitações de disponibilidade.
- O equilíbrio noite/fim de semana é justo.
- O IC e o Shadow foram atribuídos.
- Sincronização automática com pager/calendário ativado.
Mudança iniciada
- P1/P2/IC confirmaram presença (bot/chat).
- Verificados acessos, comunicações, dashboards.
- Cartão handover aceito, mensagem de eco enviada.
Mudança concluída
- O cartão handover foi atualizado e fechado.
- Incidentes transmitidos com next step/ETA.
- Foi feito um AAR curto e houve melhorias (se houve falhas).
13) Anti-pattern
Um P1 solitário de noite sem bacape.
Publicar o cronograma uma semana antes, sem horizonte ou substituição.
Lançamentos no momento do turno sem IC ou gates.
Transmissões orais sem cartão ou tíquetes.
Compensação zero/folga após noites difíceis.
Não há auditoria swap 'ov e as razões das substituições.
Roteiro sem treinamento: o novo on-call é logo «para o combate».
14) Mapa de trânsito de implementação (4-6 semanas)
1. Ned. 1: inventário da cobertura, seleção do modelo (24/7 ou follow-the-sun), atribuição dos papéis.
2. Ned. 2: lançamento do calendário + pager + bota, modelos handover/SOP.
3. Ned. 3: piloto de 2-3 ciclos semanais, coleta de métricas (alerts/hour, MTTA em torno dos turnos).
4. Ned. 4: alert review, sintonização de ruídos e quotas, entrada de turnos shadow.
5. Ned. 5-6: formalização da compensação/quiet hours, relatórios para gestão, automação swap's.
15) Resultado
Rotação é um processo, não Excel: gráficos, papéis e cartões handover transparentes; automação do calendário e do pager; regras justas e limites de cansaço; métricas de qualidade e revisões regulares. Esta abordagem torna-se previsível, as pessoas são sustentáveis, e os usuários e parceiros ignoram que o comando muda de relógio.