Operações e Gerenciamento → Redução dos incidentes

Reduzir os efeitos dos incidentes

1) Propósito e princípios

O objetivo é evitar que o incidente se agrave para a falha do serviço e minimizar os danos em tempo de inatividade, dinheiro, reputação e riscos regulatórios.

Princípios:

Containment first: pare a propagação da falha (blast radius ↓).
Graceful degradation: melhor «funciona pior» do que «não funciona».
Decouple & fallback: componentes independentes e alternativas seguras.
Decision speed> perfect info: reversíveis rápidos (função flag, road switch).
Comunicate early: uma fonte de verdade, estatais claras e ETA por estágios.

2) Modelo de incidente e taxonomia efeitos

Impacto: usuários (região, segmento), dinheiro (GGR/NGR, processamento), complacência (KYC/AML), parceiros/provedores.
Tipos: degradação de desempenho, falha parcial de dependência (PSP, KYC, provedor de jogos), regressão de lançamento, incidente de dados (atraso de vitrines/ETL), carga DDoS/spike.
Níveis (P1-P4): desde a interrupção crítica do core-flow até o defeito local.

3) Pattern de redução de impacto (técnico)

3. 1 Localização e restrição de blast radius

Isolamento por chácara/região: Desligamos o shard/região problemático, o resto continua a funcionar.
Circuito Breaker: protecção rápida de dependências de erros/temporizações ⇒ protecção de worker.
Bolkhead (divisórias): pool de conexões/filas individuais para caminhos críticos.
Traffic Shadowing/Canary: Desviando parte do tráfego através da nova versão antes de mudar completamente.

3. 2 Degradação controlada (graceful)

Modo read-only: bloqueio temporário de mutações (por exemplo, apostas/depósitos), salvando navegação e histórico.
Corte funcional: desativação de widgets secundários/lendskaps, recomendações pesadas, buscas «quentes».
Cash fallback: Respostas de serviço de stale-cachê (stale-while-revalidate), modelos simplificados.
Limites simplificados: redução do tamanho do batch/página, extensão da TTL, desativação de filtros caros.

3. 3 Gerenciamento de carga

Shed/Throttle: Rejeitar as solicitações redundantes «com razão» por IP/chave/endpoint, com prioridade nas operações core.
Backpressure: restrição de produtores por lag consumidores; dinâmica retry com jitter.
Queue shaping: filas selecionadas sob o flow P1 (pagamentos, autorizações) e análise de fundo.

3. 4 Botões rápidos

Função Flags & Kill-switch: Desativação instantânea de fitas problemáticas sem lançamento.
Traffic Routing: Alterna o provedor (PSP A→B), contornando o datacenter de falha, traduzindo-o para uma réplica «quente».
Toggle configs: timeouts, retais, limites QPS - por meio do centro de dados com áudio.

3. 5 Dados e relatórios

Mutações adiadas: gravação em outbox/logs e entrega posterior.
Desnormalização temporária: redução da carga de BD com leitura a partir de vitrines materializadas.
Degrade BI: exibe temporariamente last-good-snapshot com «dados para 12:00 UTC».

4) Exemplos de domínio (iGaming)

Fracasso do provedor KYC: Incluímos um provedor alternativo; para os limites de baixo risco - verificação temporária para um cenário simplificado com limites de conta reduzidos.
Alta latência PSP - prioridade temporária para carteiras locais, redução de limites de pagamento, distribuição de parte dos pagamentos para a fila «T + DST».
Falha no provedor de jogos: escondendo os times/provedores, salvando lobby e alternativas, exibindo o banner «Obras em andamento, tente X/Y».

5) Organização e funções (ICS - Invent Command System)

IC: coordenação unificada, priorização de ações.
Ops Lead/SRE: containment, rotings, bandeiras de fichas, infraestrutura.
Comms Lead: atualizações de status, páginas de status, bate-papo interno/correio.
Subject Matter Owner: proprietário do subsistema afetado (PSP, KYC, provedor de jogos).
Liaison para o negócio: produto, suporte, finanças, complacência.
Scribe, timeline, soluções, artefactos para o pós-mortem.

Regra: não mais de 7 €2 pessoas no «war-room» ativo, e o restante, «quando solicitado».

6) Comunicações

Canais: Página de status, Canal interno # invidente, PagerDuty/Telemost, modelos de update.
Ritmo: P1 - a cada 15-20 min; P2 - 30-60 min.
Modelo de update: O que quebrou → quem foi afetado → o que já foi feito → o próximo passo → orientação da hora do próximo update.
Suporte ao cliente: macros pré-preparados e FAQ para L1/L2, marcadores de «degradação parcial», políticas de compensação.

7) Métricas de sucesso e desencadeadores

MTTD/MTTA/MTTR, Tempo containment, SLO Burn Rate (1h/6h/24h da janela).
Revenue at risk: avaliação da falta de pagamento da GGR/NGR por segmentos.
Blast radius%: proporção de usuários/regiões/funções influenciadas.
Comms SLA: oportunidade dos updates de status.
Falso-positivo/falso-negativo alertas, incidentes secundários.

Desencadeadores de degradação (exemplos):

p95 API chave> limite de 5 min consecutivas → ativar o cachê de dinheiro e o trottling.
Consumer lag> 2 min → congelar os vendedores não-critical, levantar os workers.
O PSP sucess <97% 10 min → transferir a proporção de tráfego para o PSP de reserva.

8) Playbooks (comprimidos)

8. 1 «Latitude de ↑/api/deposit»

1. Verificar o erro% e PSP-timeouts externos → incluir os temporizadores curtos e os retais jitters.
2. Ativar o cachê de limites/guias e desativar verificações pesadas por local.
3. Transferir o tráfego para PSP de reserva.
4. Reduzir temporariamente os limites de pagamento/depósito para reduzir o risco.
5. Índice/denorm, aumentar a asincronia.

8. 2 «KYC fora»

1. Mudar para um provedor alternativo, incluir «KYC simplificado» com restrições.
2. Confira os estados KYC para os que já passaram.
3. Comunicação, um banner no perfil, ETA.

8. 3 «ETL/BI atrasado»

1. Marcar painéis «stale» + timestamp.
2. Suspender as reconstruções pesadas, incluir as incorporativas.
3. Paralelismo de jobs, prioridade para vitrines com KPI operacionais.

9) Soluções de design antes do incidente (proativo)

Tabela de bandeiras fic: disjuntores atômicos por endpoint/provedores/widgets.
Políticas de trottling/shedding - níveis pré-acordados de bronze/prata/ouro para as prioridades.
Testes de degradação: regulares «fire-drils», game-days, experiências de caos (adição de atrasos/erros).
Quotas de dependências externas: limites, orçamento de erros, estratégia backoff.
Runbook 'e: instruções curtas passo a passo e comandos/configs com exemplos.

10) Segurança e complacência

Fail-safe: Em caso de degradação, bloquear operações com risco de perturbação, em vez de «aumentar retais».
PII e Finded: para rondas manuais - auditoria rigorosa, privilégios mínimos, toquenização.
Traços: registro completo de ação IC/operadores, alteração de bandeiras/configs, exportação de timeline.

11) Anti-pattern

«Esperando que fique claro» é a perda do tempo de ouro containment.
«Retrai até vencer» é uma bola de neve e uma tempestade nas dependências.
Bandeiras globais sem segmentação - Apagem a vela, não a eletricidade na cidade.
O silêncio para não assustar é o crescimento dos tíquetes, a perda de confiança.
Procedimentos manuais frágeis sem auditoria - risco de complacência.

12) Folhas de cheque

Antes de lançar alterações críticas

Rota de canário + reversão rápida (função flag).
Guarda SLO e alertas p95/erro%.
A carga de serviços dependentes foi simulada.
Plano de comunicação e proprietários.

Durante o incidente

O IC e os canais de comunicação foram definidos.
Containment aplicado (isolamento/bandeiras/roteiros).
A degradação controlada está ativada.
O status da página foi atualizado e o suporte foi notificado.

Após o incidente

O pós-mortem ≤ 5 dias úteis, sem «encontrar culpados».
Ações com proprietários e deadline.
Teste de repetência: O cenário é reproduzido e coberto de alertas/testes.
Playbooks e treinamentos atualizados.

13) Mini-artefatos (modelos)

Modelo de status para clientes (P1):

💡 Experimentamos uma degradação parcial dos pagamentos do provedor X na região do EU. Os depósitos estão disponíveis através de métodos alternativos. Ligamos a ronda e trabalhamos com o parceiro. A próxima atualização é daqui a 20 minutos.

Modelo pós-mortem (1 página):

O que aconteceu → O impacto → Causa raiz → O que funcionou/não funcionou → Os registos de longo prazo → Action items (proprietários/prazos).

14) Total

Reduzir os efeitos dos incidentes é uma disciplina de soluções rápidas e reversíveis, como localizar, degradar de forma controlada, redistribuir a carga de trabalho, comunicar de forma transparente e consolidar melhorias. Você ganha uma «estabilidade tática» de um momento para o outro - e transforma-a em sustentabilidade estratégica amanhã.

Operações e Gerenciamento → Redução dos incidentes

Reduzir os efeitos dos incidentes

Durante o incidente

Após o incidente

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos