Operações e Gerenciamento → Gerenciamento de alterações

Gerenciamento de alterações

1) Atribuição e princípios

O objetivo é fornecer mudanças de forma rápida e segura, reduzindo o risco de incidentes, interrupções e violações regulatórias.

Princípios:

Predictable & Reversível: Cada alteração é planejada, verificável e reversível.
Risk-based: a profundidade do controle depende do risco (jurisdição, dinheiro, PII).
Small & Frequent: Pequenos encartes são mais fáceis de avaliar e reverter.
Automation first: infraestrutura como código, testes, validações, máquinas automáticas.
Single Six of Truth: um único RFC/tíquete, um calendário único e um cronograma de ação.

2) Área de alcance

Código de alimentos (backend/frontend, SDK móvel).
Infraestrutura (IaC, Kubernetes/VM/CDN/Edge).
Dados (esquemas de base de dados, migração, vitrine/ETL).
Configurações e bandeiras de fich.
Integração (PSP, KYC, provedores de jogos).
Políticas de segurança e acessibilidade.

3) Papéis e RACI

O dono da alteração é o Resolvível.
Supervisor de lançamento/RelEng - coordenação do trem de lançamento.
SRE/Ops - operação, gate SLO/SLA.
Segurança/Compliance - Verificação de risco e conformidade.
O FAB (Mudança Advisory Board) é a aprovação de alterações normais/de alto risco.
Steakhalders business/suporte - Informed.

4) Classificação de alterações

Padrão (padrão, pré-aprovado): frequente, de baixo risco, por playbook pronto (por exemplo, atualização da bandeira, rotação das chaves).
Normal: exigem RFC, avaliação, possível FAB, testes e plano de reversão.
Emergency: gravações de emergência para incidentes P1; Caminho burocrático mínimo, pós-faturamento revezamento/CAV.

5) Ciclo de vida de mudança

1. Iniciação (RFC): alvo, volume, risco, serviços/regiões afetados, plano de backout.
2. Avaliação de risco: matriz de Impacto x Likelihood, impacto sobre SLO/Complance/Custo.
3. Planejamento: janela, dependência, migração, comunicações, testes de validação.
4. Validação: auto, análise estática, cheque de segurança, performance.
5. Implantação: Estratégia Progressiva (consulte parágrafo 8), telemetria e gardrelas.
6. Observação: burn-rate SLO, alertas, métricas de negócios (GGR/NGR, conversão).
7. Conclusão: aceitação do resultado, atualização da documentação, pós-roubo.

6) RFC: composição mínima

O contexto é porque mudamos, a hipótese de influência.
Faixa de sistemas, regiões, versões de clientes.
Risco: matriz e cenários de falha, blast radius.
Plano de implantação: passo a passo, com critérios para ir/parar.
Plano de reversão (Backout): comandos/etapas, condições de lançamento, espera RTO/RPO.
O que testamos antes/depois (funcionalidade, performance, segurança).
Comunicações: Quem avisamos, modelos de mensagens.
Referências a tíquetes, comitas, artefatos CI/CD.

7) Calendário de alterações e janela

Calendário único: todos os lançamentos, migrações, desligamentos, eventos externos (esportes/marketing/feriados).
janelas Freeze: grandes vendas/campeonatos/relógios de pico, contabilidade fiscal.
Política de cruzamento: impede alterações conflitantes nas mesmas vias críticas.
Ondas regionais: primeiro regiões «quentes »/baixo tráfego, depois as principais.

8) Estratégias técnicas de implantação

Canary: pequena proporção de tráfego → comparação de métricas (p95 latency, erro%, conversão).
Azul-Green: Ambientes paralelos, mudança atômica de rota.
Progressive Delivery: porcentagem-roll com paragens automáticas.
Função Flags: botões funcionais, kill-switch, A/B.
Dark Launch/Shadow Traffic: Verificação de sombras sem afetar os usuários.
Limites de passo: aumento gradual do QPS/competição.

Gardrelles: paragem automática quando as liminares p95/erro%, aumento de devoluções/charjbacks, queda de autorizações/depósitos.

9) Alterações de dados e esquemas

Compatibilidade: migrações de extensão → código de leitura antiga e novo padrão.
Migrações de duas fases: (1) adicionar novos campos/índices → (2) mudar o código → (3) remover o antigo.
Versionização de contratos: Avro/Protobuf esquema de registro; back/forward compatible.
Migrações de grandes volumes, como batches, pausas, idempotidade, checkpoint e progresso.
Resistência ao desastre: RPO/RTO, ensaios de recuperação.
Dados BI: alteração de vitrines/métricas por MR/SR e dicionário de métricas (ID, fórmula).

10) Gerenciamento de configurações e segredos

Config as Data: configs versionizados, validação por esquema, promoção por ambiente.
Segredos: Rotação de chaves, princípios de privilégios mínimos, auditoria de acessos.
Overraids regionais: limites/parceiros (PSP/KYC) - através da configuração, não através de fork de código.

11) Complaens e auditoria (contexto iGaming)

Traços de mudança: quem/quando/o que mudou (bandeiras, configs, rotas, migrações).
Segregation of Duties: papéis diferentes para o autor, o revezador e o deploeur (SOX-igual).
Relatórios regulatórios: lançamentos de fix, controle de versões de cálculos (GGR/NGR, bónus), controle de acesso ao PII.
Fornecedores: versões de SDK/certificados de provedores, obrigações SLA.

12) Comunicações

Modelos de alerta: antes do lançamento (que/quando/risco), durante (status,% do tráfego, métricas), depois (resumo).
Mensagens externas: banners/página status quando afetar clientes.
Coordenação: canal # release-war-room, proprietário de lançamento, frequência de updates.

13) Métricas de eficiência

DORA: Deployment Frequency, Lead Time for Changes, Change Failure Rate (CFR), MTTR.
SLO Impact: proporção de tempo no SLO antes/depois dos lançamentos.
Backout Rate: taxa de reposição por categoria de alterações.
Release Debt: Migrações incompletas/bandeiras de fich em estado suspenso.
Business Impact: Conversão, KYC TTV, sucess rate PSP, GGR/NGR drivt durante as gravações.

14) Anti-pattern

Lançamentos Big bang: muitas mudanças de uma só vez - difícil de compreender o motivo da regressão.
Migrações incompatíveis: Remover ou renomear campos sem dupla leitura.
As bandeiras sem proprietários e data de retirada são os ramos «eternos» da lógica.
Lançamentos sem telemetria e sem critérios de parada, «de olho» e mais tarde detecção de danos.
Ignorar calendário: cruzamento com eventos/campanhas de pico.
Passos manuais sem playbooks ou auditoria: alta variabilidade e risco.

15) Folhas de cheque

Antes de começar (RFC pronto)

O objetivo e o KPI de alterações foram formulados
Risco e blast radius avaliados, classe de alteração selecionada
O plano de implantação e o Backout estão definidos passo a passo
O plano de teste e os resultados no estante/canal estão disponíveis
As comunicações e o calendário foram atualizados, os steakhalders foram notificados

Durante a abertura

Métricas p95/erro%, sinais de negócios e logs são monitores em tempo real
Os estágios de progresso são confirmados com cheques
Quando as gardrelas são ativadas - auto-parar e revogar

Depois

O resultado do lançamento foi registrado (changelog, versões, artefatos)
Pós-mortem em desvios (≤ 5 dias úteis)
Dívidas (remoção de bandeiras, migração final) estão inscritas em backlog com proprietários

16) Mini-modelos

Modelo RFC (breve):

Objetivo/hipótese
Volume e impacto (serviços, regiões, dados, clientes)
Risco (Impacto x Likelihood) e medidas de redução
Plano de abertura (passos,% de tráfego, critérios go/no-go)
Plano Backout (passos, RTO/RPO, dados)
Plano de teste (funcionalidade/performance/segurança)
Comunicações (canais, frequência)
Artefatos (tíquetes, PR, números de dados)

Modelo de registro de calendário:

Alteração: "Payments-Service v2. 14 + migração psp _ limits"
Janela: 2025-11-02 00: 00-01: 00 EET
Regiões afetadas: EU, LATAM (10%→50%→100%)
Riscos/gardrelas: erro%> 2% 10 min - parar e retrocesso
Contatos: @ Owner, @ SRE-on-call, @ Apoio-lead

Modelo Backout:

Trigers: p95> + 25% 10 min, PSP sucess <97%
Passos: (1) traffic −→ 0% em v2. 14; (2) mudar as bandeiras para v2. 13; (3) O retrocesso da migração através do snapshot/checkpoint; (4) testes smoke; (5) relatório.

17) Integração com o trem de lançamento

Release Trem: slots fixos (por exemplo, 2 x por semana), SLA em merge-cut.
Política Hotfix: comboios/ramais individuais, caminho acelerado para a proda.
Versioning: semver, marcas em artefatos e ambientes, SBOM.

18) Total

Controlar as alterações não é um freio de velocidade, é um mecanismo de aceleração segura. Classificação orientada ao risco, RFC bom, localização progressiva, migração de dados compatível, comunicações claras e medição de efeito transformam os lançamentos em um processo controlado, repetível e auditado.

Operações e Gerenciamento → Gerenciamento de alterações

Gerenciamento de alterações

Durante a abertura

Depois

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos