Otimizar os custos de infraestrutura
Resumo curto
A eficiência financeira da infraestrutura depende de três coisas:1. Dimensibilidade transparente (tags, showback/chargeback, $/unidade de valor).
2. Disciplina de engenharia (rightsizing, skale automático, classes corretas de armazenamento/dinheiro/rede).
3. Soluções arquitetônicas (para onde os bytes e milissegundos são «arrastados»).
O objetivo é baixar o TCO mantendo o SLO e a velocidade de desenvolvimento.
Métricas de negócios e unit-economics
$/1000 RPS - custo de processamento de 1.000 solicitações em rotas-chave.
$/ms p95 - custo de redução da cauda de atrasos de 1 ms (importante para conversão).
$/jogador/mês ou $/depósito - para iGaming/fintech.
TCO = compute + armazenamento + rede egress + serviços managed + licenças + suporte.
Capitalização da dívida técnica: fixe quanto custa a latência/fuga indevida dos logs.
- Se a API custa 120 $/hora e dá 60k RPS na meta p95, o $/1000 RPS ≈ 2 $/h. Qualquer otimização deve ser comparada com este «valor de unidade».
Inventário e formatação
As marcas são obrigatórias: 'eng', 'owner', 'produt',' service ',' region ',' cost-center ',' tier '.
Showback/Chargeback: relatórios semanais por comandos/serviços.
Controle de recursos «empatados»: sem marcas de formatação, não se desenrola, não se estende.
sql
SELECT env, product, service,
SUM(cost_usd) AS cost_month,
SUM(rps) AS rps_month,
SUM(cost_usd)/NULLIF(SUM(rps)/1000,0) AS usd_per_1k_rps
FROM finops_daily
WHERE usage_date BETWEEN:from AND:to
GROUP BY 1,2,3;
Rightsizing e turmas de instância
perfis CPU/Memory: retire os perfis sob carga; reduza os pedidos/limites para «ponto de trabalho» CPU 50-70%.
Tamanho das instâncias: muitas vezes mais vantajoso N pequenos em vez de M grandes (melhor bin-packing + CA).
As instâncias ARM são mais baratas em termos de desempenho comparável, se a pilha for compatível.
Balas quentes/frias: mantenha um pequeno estoque warm em vez de «gordura» constante.
Descontos e modelos de consumo
Reserved/Savings Plans/Committed Use: reserve uma base sustentável (40% a 70% de economia).
Spot/Preemptible: para tarefas não ríticas/asincrônicas, CI, analistas, corretores de dinheiro.
Estratégia Mix - Base - Reserved, picos - on-demand, fundo - spot.
Skeiling automático e elasticidade
HPA/KEDA por SLO (latency, queue lag, RPS), não apenas por CPU.
Cluster autoscaler com warm pools e imagem pré-pull para lançamentos rápidos.
Scale-down com histerese para não «pilhar» os clusters (anti-flapping).
Rede e egress - um «devorador» de orçamento silencioso
CDN/tiered-cachê/origin-shield reduzem o egress de origin.
Compactação (Brotli/gzip), webp/avif, diff-API (transferir apenas campos alterados).
Agrupe chamadas para APIs externas, use keepalive/retry-budget.
Menos bate-papos dentro da DC, event-driven, batching, agregação de eventos.
Armazenamento e dados
Classe de armazenamento quente (NVMe), quente (gp2/gp3), frio (S3/Glacier/arquivo).
Políticas Lifecyle: tradução automática de objetos «antigos» para classes baratas.
Compactação/particionização em DWH, TTL em tabelas temporárias/snapshots.
Rejeitar a replicação redundante: RF inteligente, políticas snapshot de baixo custo.
Redis/Memcached para hot-set em vez de leituras «caras» do banco de dados.
Logs, métricas, trailers - pagar com inteligência
Sinalização de logs (rate-limit em nível/modelo), logs «estruturais» em vez de conversa.
Tail-based sampling para trilhos (guardemos «caudas» p99 e erros, o resto cortando agressivamente).
Downsampling métricas: agregação em push-gates, armazenamento high-res apenas 7-14 dias.
Filtragem PII - reduz os riscos e o volume.
Arquitetura e custo de milissegundos
HTTP/2/3 + respumpition: menos handshake → menos CPU/egress/latência.
Chave de cachê e TTL: alto hit-ratio - dinheiro direto (menos origin e DB).
GRPC/protobaf para serviço de serviço: menos bytes.
Batch/stream para tarefas de fundo; Idimpotência → menos retrações.
Escolha de BD: Não guarde «tudo em um» - KV/cachê barato para leituras frequentes, e analista em DWH coluna.
Esquemas de dados: campos curtos/tipos comprimidos, controle de índice cardeal.
DR., reservas e região multi
Objetivo do negócio: RTO/RPO → custo DR. Não pague mais por ativo-ativo se o ativo-passivo for suficiente.
Armazenem as cópias de segurança frias em classe barata, a réplica é diferencial.
Um único pacote de RR/região: cada zona puxa ≥60% do pico → aguenta a rejeição de um vizinho sem redundância de ouro.
Ambientes e CI/CD
Hibernação automática de stajings/suprimento-ambiente, auto-TTL.
Runner-s CI em spot, cash artefactos, limitações de paralelismo.
Os dados de teste são compactos, a geração on-the-fly, não o armazenamento de gigabytes.
Gerenciamento de fornecedores e licenças
Reveja o volume e os tipos price uma vez por trimestre.
Um fornecedor de bacap competitivo é um argumento de negociação.
Licenças (APM/segurança): Calcule $ por sinal útil, não por «todos os logs do mundo».
Processos e gerenciamento
FinOps cerimónias: relatório semanal por comandos, mensal da Costa Review (top 10 «fugas», action items).
Guardrails: quotas de projeto/neimspace, orçamento-alertas, proibição de virar recursos sem marcas de formatação.
Blameless pós-mar para «incidentes de preços» (fuga de logs, runaway autooscale).
IaC: todos os limites, turmas, TTL - no repositório, revezamento PR.
Folha de cheque poupado
- Tags/showback/charjback incluídos, sem recursos «empatados».
- Rightsizing por perfil, ARM/outros tipos avaliados.
- Os descontos da Comit fecham a base, spot - fundo/analista/CI.
- HPA/KEDA em métricas SLO, CA com pool warm.
- CDN/tiered-cache, compactação, chave de armazenamento sem «ruído».
- Armazéns: salas de aula, lifecyple, TTL, cachês para hot-set.
- Logs/trailers: semente, tail-based, filtros PII.
- Dr. RTO/RPO, bacapes frios em classe barata.
- Ambiente com auto-TTL, CI no spot.
- Os ritmos FinOps e os guindastes no IaC.
Erros típicos
Otimização sem métricas: não há RPS $/1000 → não há comparação entre opções.
Recursos desativados/não usados estão pendurados há meses.
Armazenamento de «tudo» na sala de aula quente, falta de lifecyple.
Logi como «buraco negro»: 100% ingest, 0% de consumo.
Scale automático por CPU sem incluir latency/filas → sobrepreço e regresso SLO.
Um DR. muito agressivo sem uma justificativa de negócio.
Os microsserviços «para caixa» são o aumento do tráfego entre servidores e falsos.
Mini-playbooks
1) Auditoria rápida da conta (48 horas)
1. Corte por top 10 serviços/região. 2) Cada um - $/1000 RPS, hit-ratio CDN, egress.
2. Desligar as chaves TTL/dinheiro, desligar os logs barulhentos. 4) Incluir lifecyple em S3/objetos.
2) Redução de 25% do egress
1. Tiered-cache+shield, `stale-while-revalidate`. 2) Compactar imagens em webp/avif.
2. Diff-API e gzip/brotli por texto. 4) Verificar os pedidos de novo/retrai.
3) Corte de custos do banco de dados
1. Melhores pesquisas (p95/IO) → índices/batchagem. 2) Hot-set в Redis.
2. Arquivamento de dados antigos (TTL), read-replicas em estoque barato.
4) Fim da «serra» do skale
1. Aumentar stabilization/cooldown. 2) MinReplicas> 0 no pico.
2. Pré-projecto de conectórios/TLS. 4) Cortar os retais extras.
Exemplo de Nginx «econômico» (compressão, dinheiro, SWR)
nginx proxy_cache_path /var/cache/nginx levels=1:2 keys_zone=EDGE:512m max_size=50g inactive=7d;
server {
listen 443 ssl http2 reuseport;
Compression brotli on; brotli_comp_level 5; gzip on;
Static: year, immutable location/assets/{
add_header Cache-Control "public, max-age=31536000, immutable" always;
try_files $uri =404;
}
Semi-dynamics: s-maxage + SWR location/catalog/{
proxy_cache EDGE;
add_header Cache-Control "public, s-maxage=600, max-age=120, stale-while-revalidate=900, stale-if-error=86400" always;
proxy_ignore_headers Set-Cookie;
proxy_pass https://origin_catalog;
}
}
Especificidades para iGaming/Fintech
Picos (jogos/torneios): Levantar com antecedência 'minReplicas' e aquecer CDN/TLS, mas manter o headroom por pontos - apenas em caminhos quentes (diretórios, lobbies, jogos), o resto em modo de degelo.
Pagamento/PSP: caixa de guias (BIN, limites), Idempotação reduz o custo de duplicação, pool egress separado para listas brancas de provedores.
Antifrod/bots: Rotas «cinzentas» e challengs baratos na borda em vez de uma verificação profunda cara a cada pedido.
Conteúdo/provedores Live: dinheiro na borda + limite de frequência de atualizações; Os contratos CDN são revistos para grandes medidas.
Resultado
Otimizar os custos não é uma limpeza única, mas um processo FinOps permanente: mede o valor ($/unidade), automatize soluções de baixo custo (dinheiro/TTL/semente), use descontos e recursos corretos, mantenha a elasticidade sob o SLO e não complique a arquitetura onde ela não for rentável. Assim você vai reduzir a TCO, mantendo a velocidade do produto e a estabilidade da plataforma.