Previsão de carga e riscos
1) Por que é necessário
A previsão de carga e riscos permite preparar a infraestrutura com antecedência e os processos para eventos de pico (lançamentos, torneios, campanhas de promoção, jogos, feriados), minimizar as interrupções e os repasses orçamentários. Os resultados são usados para:- planejamento de capacidade (capacity planning) e orçamento;
- configurações de SLO/SLI, orçamentos de erros e políticas de alerting;
- a escolha da estratégia de lançamento (canary, blue-green, dark launch);
- gerenciamento de riscos: prevenção de degradações, filas, transações de drop, multas SLA.
2) Conceitos básicos
Carga (Load): intensidade dos eventos/transações (RPS, TPS, events/sec) e consumo de CPU/RAM/IO/NET.
Capacidade (Capacity): desempenho sustentável com SLO e custo definidos.
Risco: probabilidade x impacto de evento indesejável (falha SLA, incidente, excesso).
Indicadores iniciais: métricas que crescem antes do incidente (latency p95/p99, queue depth, GC paes, errante rate, saturation).
Reserva de resistência (Headroom): relação entre a capacidade disponível e a carga atual.
3) Fontes de dados e métricas
Fontes: logs e métricas (Prometheus/OTel), rastreadores, eventos (Kafka), CDN/WAF/ALB logs, dados de mercado (campanhas), calendários de eventos, billing/costa (FinOps), filas de ficheflags/lançamentos (Kafka/Rabbit)), BD/cachê.
Métricas-chave:- Tráfego: RPS/TPS, usuários ativos (DAU/MAU), sessões, conversão de passos.
- Desempenho: latency p50/p95/p99, throughput, erros (4xx/5xx), timeouts, retries.
- Ресурсы: CPU/LoadAvg, RAM/GC, disk IOps/lat, network bw, connection pool usage.
- Filas: backlog, lag, consumer lag, time-in-queue.
- БД: QPS, lock waits, slow queries, replication lag.
- Кэши: hit ratio, eviction rate, hot keys.
- Nível de negócios: depósitos/taxas por minuto, recusas de pagamento, KYC/AML fila.
- Confiabilidade: SLI/SLO, error budget burn rate (1h/6h/24h).
4) Modelos básicos de previsão
1. Determinados e calendários: regressão por controladores conhecidos (data/hora, jogos, torneios, market pool, geo, peles de acção).
2. Estatísticas: sazonalidade/tendência (ARIMA/ETS), regressão com festas, abordagens Prophet similares.
3. ML/ensembles: busting de gradiente/Random Forest/XGBoost/LightGBM; adicionamos fici, tempo, taxa de câmbio, notícias desportivas, eventos rivais.
4. Misto: Estatísticas para sazonalidade básica + ML para fatores exógenos (campanhas, lançamentos).
5. Quanti/quantili: previsão não apenas média, mas também p90/p95 para planear headroom.
Saídas do modelo: previsão de RPS/TPS e distribuição de laticínios/erros nos horizontes T + 1h/T + 24h/T + 7d/T + 30d com intervalos de confiança.
5) Filas e limites: mini-teoria
Lei Little: L = £ x W (média no sistema = intensidade x tempo médio).
Estreitos: BD/dinheiro/pneu/pool de conexões/limites de API do provedor.
Saturation: ao carregar> 70% a 80%, a latência aumenta de forma não linear.
Backpressure: Proteja os consumidores contra a sobrecarga (limites, filas, políticas shed, degradação do fic).
6) Planejamento de capacidade (Capacity Planning)
Método «de SLO»: a latência p99 exigida e o erro rate válido que throughput é suportado com o headroom N%.
Método "de cenários": "Jogo de RH", "Black Friday", "Torneio de grande escala" → "Quânteis superiores de tráfego + falha de um AZ/nó.
Método «cost-aware»: Selecionamos configurações a $/RPS, considerando descontos, reserva, spot/assinatura, autoscaling.
Artefactos: Capacity Model per, limitações e quotas (API, BD, filas), tabela «estreita → ação» (charding, cachê, réplica, CQRS, async).
7) Gerenciamento de riscos
Registro de risco: identificação, descrição, probabilidade, influência (finanças/SLA/regulação), proprietários, planos de prevenção/resposta.
Categorias: carga de trabalho (superaquecimento), infraestrutura (AZ/region fail), dependências (provedores de pagamentos), lançamentos (regresso), alimentos (campanha mais forte que expectativas), complacência (limites/regulador).
Matriz: Heatmap (Low/Medium/High x Impacto).
KRI (Key Risk Indicators): profundidade das filas, p99, queda do hit-ratio, burn rate> 2 x, erros dos provedores.
8) Aviso inicial e alerting
Early-warning SLIs: crescimento p95, menos sucesso em dinheiro, crescimento tail latency, crescimento retry/timeout, aumento consumer lag.
Burn-rate alertas de orçamento de erros: janelas rápidas (1h) e lentas (6-24h).
Liminares e anomalias baseadas: liminares básicos + modelos de anomalias (IQR, STL, detectores de streaming).
Agregação de sinais: coralização de eventos de lançamentos/fichiflags/campanhas de degradação.
9) Análise de cenário e «what-if»
«Se um aumento de tráfego de 60% em 10 minutos?»
«Se o CDN/WAF cortar 5% do tráfego legítimo?»
«Se o provedor de pagamentos perder 30% das autorizações?»
Para cada cenário: métricas previstas, estreitos, passos de degradação (toggle off sem crítica), scale manual/auto, mudança de provedores.
10) Testes e verificação de previsões
Testes de carga: tráfego sintético (k6/JMeter/Locust), perfis de «mix real».
Game Days/Chaos: desativação do AZ, degradação do banco de dados, esgotamento do pool.
Shadow/Dark: tráfego «para a sombra» do novo caminho sem afetar a proda.
Retrospectiva de precisão: MAPE/SMAPE/RMSE + post-mortem "onde estão errados? ”.
11) Processos e papéis
RACI:- Resolvível: SRE/Plataforma/DS-analistas.
- Accountable: Head of Ops/SRE.
- Consulted: Dev Leads, Marketing, Finance (FinOps).
- Informed: Support/Compliance/Business.
- Cadens: updates semanais de projeções, revisão mensal do SLO/Capacity, pré-eventos ruma.
12) Ferramentas e pilhas
Dados: Kafka, ClickHouse/BigQuery, Lake/DWH, dbt.
Monitoramento: Prometheus, Grafana, Tempo/Jaeger, Loki/ELK, OTel.
ML/Previsões: Airflow/Argo, função store, modelos ARIMA/ETS/GBM, serviço de projeção (gRPC/REST).
Тесты: k6/JMeter/Locust, Fault-injection/Chaos Mesh.
Controle: Função Flags, Autoscaling (HPA/KEDA), Policy-as-Código.
FinOps: cet explorer, showback/chargeback, $/RPS dashboard.
13) Metodologia prática de implementação (roadmap)
1. Inventário de métricas e dependências → mapa de caminhos críticos (depósito, taxa, conclusão).
2. SLO/SLI e orçamentos de erros → p95/p99 alvo, errador-rates, burn-alerts.
3. Coleta e limpeza de dados → uma única camada de eventos/métricas, dedução, atraso.
4. Previsão básica de sazonalidade → pattern diurnos/semanais, feriados/jogos.
5. Extensão por drivers de campanha de market, lançamentos, geo, janelas de pagamento.
6. Modelos Capacity por serviços → headroom, limites, estreitos, otimizações.
7. «what-if» e tabela de degradação (kill-switches, read-only, grace).
8. Verificação através de testes/sombras → ajustamento de modelos e liminares.
9. A rotina operacional → as previsões semanais, o revezamento pré-Ivent, o retro pós-Ivents.
10. Automação de scale automático por previsão, auto-conversão de provedores, auto-fixação.
14) Antipattern
Previsão «apenas para a média» sem cauda p95/p99.
Ignorando filas e balas, os problemas aparecem no pico.
Manualmente, sem validação e métricas de precisão.
Não há relação de custo → zoom em excesso.
Não há plano de degradação nem de fichiflags.
15) Dashboards e relatórios
Exec-dashboard: previsão de RPS/TPS (p50/p90/p95), headroom, risco-calor, burn-rate.
T-dashboard: p95/p99 latency serviços, filas/lag, hit-ratio, pool de conexões, BD/dinheiro, API externa limite.
Financeiro: $/RPS, previsão de custos, efeito de otimização.
Precisão de previsões: previsão real vs, erro de período/geo/canal.
16) Modelos de artefatos
Risk Register: ID, risco, probabilidade/influência, proprietário, KRI, plano de antecipação, plano de reação.
Capacity Sheet: serviço, throughput atual, limite, espaço restrito, headroom, extensão necessária, ETA/valor.
What-If Cards: cenário, fatores de entrada, métricas esperadas, ações, critério de conclusão.
Playbook Degrade: lista de fichas para desligar, níveis de QoS, rotas para o dinheiro/estácio, limites retry/timeout.
17) Funções KPI chave
Cumprimento de SLO (% de períodos na meta), tempo de resposta a indicadores iniciais, precisão de previsões (MAPE/SMAPE), número de incidentes por sobrecarga, proporção de escalações automáticas, economia de $/RPS sem degradação do SLO.
Resultado
A previsão de carga e risco do sistema é uma ligação: dados de qualidade → métricas sensíveis → modelos verificáveis → cenários e playbooks → automação de escalonamento e degradação. Este circuito oferece sustentabilidade, previsibilidade de gastos e experiência estável do usuário, mesmo em picos extremos.