Treinamento e treinamento das operadoras
1) Objetivos do programa de treinamento
Reduzir MTTA/MTTR e aumentar a probabilidade de agir corretamente da primeira vez.
Normalizar reações: playbooks, matriz de escalações, modelos de coms.
Manter a equipe sustentável: distribuição de carga, confiança, cultura de segurança.
Tornar o conhecimento reproduzível: Docs/GitOps, LMS, ciúmes regulares.
2) Perfis de competência (Skill Matrix)
3) Plug-ins (núcleo do programa)
1. SLO & Métricas de incidentes: SLI/SLO, burn-rate, MTTD/MTTA/MTTM/MTTR.
2. A matriz de escalações é critérios SEC, timing, rolos (P1/P2/IC/Comms).
3. Playbooks e runbook 'e: estrutura, árvore de soluções, backout/fallback.
4. Observabilidade: logs/métricas/trailers, correlação com anotações de lançamento.
5. Mudar/Release: canário/blue-green, auto-recall, janela de manutenção.
6. Segurança-base: JIT/JEA acessíveis, segredos, incidentes de segurança.
7. A base de dados é recente/qualidade, backphiles, contratos.
8. Comunicações: primeiros updates, cadence, tonalidade e transparência.
Cada módulo: 60-90 min teoria + 30-45 min prática (laboratório/simulação).
4) Formatos de treino
Tabletop (cenários de mesa): análise da mala por timeline; os papéis são jogados com voz no bate-papo.
Game Day (trabalho prático): em um stage/» prod light» com carga controlada.
Chaos-injeções: falhas pontuais (erros de rede/dependências) com gardrelas SLO.
Runbook-drills: «cego» em folha de cheque (reversão, mudança de provedor, rotação de certificado).
On-call Shadow: 2-4 turnos «na sombra» sob supervisão de um mentor.
Hotwash/AAR: Imediatamente após o exercício - análise, captação de melhorias.
5) Calendário e ritmo
Semanal: 1 tabletop curto (30-45 min) por papel/serviço.
Mensalmente: 1 game day (2-3 horas) para os cenários prioritários Tier-0/1.
Trimestralmente, doutor-ensinamento (failover/failback) + segurança-incidente.
Após grandes alterações: drills de destino para o novo playbook/processo.
6) Operador onboarding (4-6 semanas)
1. Ned. 1: plug-ins (SLO, matriz, playbooks), disponíveis read-only, «tour» em dashboard.
2. Ned. 2: laboratórios: logs/trailers, lançamento de playbooks no banco de areia, modelos de coms.
3. Ned. 3: shadow-turno (2-3 slot), mini-tabletop como P1.
4. Ned. 4: mini game day: relançamento do lançamento, alteração do provedor; certificação interna P1-L1.
5. Ned. 5-6: extensão para P2/IC (por faixa), participação no game day mensal.
7) Certificação e tolerância de papéis
Teoria: teste (LMS) em módulos, limite de 80% +.
Prática: folha de cheque de habilidades (veja abaixo) + participação em 2 tabletop e 1 game day.
Shadow → Solo: 2-4 turnos monitorados → 1 turno sob supervisão → tolerância independente.
Prazo de validade: 12 meses; substituição nas alterações de playbooks/políticas.
8) Métricas de desempenho de aprendizagem
Time-to-First-Action (exercícios/combate): mediana/p95.
O ramo de playbook é certo:% das malas sem «galhos».
Comms SLA Adherence no exercício: proporção de updates pontuais.
MTTA/MTTR local em simulações vs. de combate.
Coverage:% on-call treinados por trimestre (meta ≥ 90%).
Defect Rate playbooks: encontrado/corrigido após o exercício (CAPA).
Pesquisa de pulso (NPS): confiança/carga, tendência QoQ.
9) Modelos e folhas de cheque
9. 1 Folha de cheque tabletop (apresentador)
- Alvo/SEV/disposição de papel foram anunciados.
- Timeline: T0, Detected, Ack, Declare, Mitigate, Recover.
- As bifurcações-chave do playbook foram ultrapassadas.
- O modelo de coms está completo (primeiro update e cadence).
- Resultado: 3-5 melhorias (playbook/alertas/dashboard).
9. 2 Folha de cheque game day
- Estande/prod-light, dados de teste, reversão e gardrelas estão prontos.
- Cenários: mínimo de 2 (por exemplo, provedor e banco de dados).
- Monitoramento SLO e anotações de lançamento estão ativas.
- Bloco de notas de evidência: gráficos, logs, tempo de passos.
- AAR 30 minutos após o fim; O CAPA está montado.
9. 3 Mapa de habilidades P1 (fragmento)
SLO Triage: (4-level scale)
Playbook launch:
Comms first update:
Feature flags/limits:
Release rollback:
Logs/Trails:
9. 4 Cartão de exercício (modelo)
ID: TR-2025-11-GD-PAY
Format: Game Day
Scenario: PSP-A degradation in EU (SEV-1)
Goals: TTFA≤10m, correct playbook branch, first update ≤15m
Gardrails: payment_success ≥98% on test traffic
Stages: canary 1%→5%→25%, switchover, rollback
Team: IC, P1, P2, Comms, Vendor
Evidence: graphs, logs, timeline
CAPA owners/deadlines:...
9. 5 Mini-modelo do primeiro update (treino)
Impact: EU payment delays, -2. 8% to SLO (test traffic).
Diagnosis: confirmed by quorum; PSP-A increased latency.
Action: PSP-B overweight 30%→70%, degrade-UX included.
Next update: 14:30 UTC.
10) Ferramentas e automação
LMS/Docs-as-Código: cursos, testes, versionização de playbooks e SOP.
Simulador de alertas: reproduz burn-rate, quórum, tempestade (para Page Storm drills).
Coms-bot: modelos de update, temporizadores, controle de cadence.
Emuladores de dependência PSP/KYC/CDN para os cenários de provedor.
Extrato automático evidence - links gráficos, anotações de lançamento, logs.
11) Conexão com processos
Resultados dos ensinamentos → Alert Review, Postmortem Review, Mudança Advisory.
Atualizações de playbooks/alerts - via PR, com treinamento «dry-run» obrigatório.
Os ensinamentos em frente às grandes janelas de serviço/lançamento são obrigatórios.
12) Anti-pattern
Treinos «para selo» sem metas mensuráveis e evidence.
Ensinamentos muito raros → habilidades degradam.
Só teoria sem prática e turnos shadow.
Os ensinamentos sem gardrelas → o risco de quebrar o estande ou a proda.
Não há CAPA → os mesmos erros são repetidos.
A falta de treino é um bom registo, mas as mensagens são más.
13) Mapa de trânsito de implementação (4-8 semanas)
1. Ned. 1: fixar Skill Matrix, programa de módulos, critérios de certificação.
2. Ned. 2: iniciar LMS, preparar 10 playbooks-chave e 2 drivets tabletop.
3. Ned. 3: início shadow-turno, realizar 1 game day em Tier-0.
4. Ned. 4: digite o ritmo tabletop semanal, coms-bot, simulador de alertas.
5. Ned. 5-6: expandir para DataOps/Security, adicionar as injeções de chaos.
6. Ned. 7-8: certificar o P1-L1 de todos os on-call, realizar o Dr. Dia Trimestral.
14) Total
Treinar e aprender é um ciclo constante: teoria → prática → mudança na sombra → exercícios de combate → AAR → CAPA → atualização de playbooks. Com este ritmo, a equipe age com segurança nos playbooks, cumpre a matriz de escalações e SLO, reduz o MTTA/MTTR e mantém a qualidade das comunicações - e o negócio ganha uma função operacional previsível e madura.