Observabilidade e controle do estado
1) Objetivos e princípios
O objetivo é compreender em tempo real «o que está acontecendo» e «porquê» para prevenir incidentes e se recuperar rapidamente sem perturbar o SLO ou inflar OPEX.
Princípios: SLO-first, «dourados» (latency, traffic, errors, saturation), padrão único de telemetria (OpenTelemetry), detalhes mínimos suficientes, explicabilidade, caro-aware observabilidade.
2) Camadas de observabilidade
1. Métricas: unidades para SLI/SLO, capacity e tendências (modelos RED/USE).
2. Trailers: correntes de causa e causa de pedidos, transações de pagamento e jogos.
3. Logi/Ivents: contexto detalhado e auditoria das ações das operadoras/serviços.
4. Sintético (black-box): verificações externas de API/caminho Web, PSP/KYC hels-pings.
5. RUM (usuário real): métricas frontais (TTFB, LCP, JS), geo/device de corte.
6. Telemetria de baixo nível: eBPF/perfil CPU/IO/alloc, atrasos de marcação de rede.
3) Conjunto de SLI e «dourados»
Latency: p50/p95/p99 em caminhos críticos (login, depósito, taxa, conclusão).
Errors: 5xx/timeout/decline (com normalização em provedores/bancos).
Traffic/Throughput: RPS/TPS, sessões ativas, eventos/segundos.
Saturation: carregamento de CPU/RAM/IO, profundidade das filas, pool-usage, replicação de lag.
Negócios SLI: Depósitos bem sucedidos/taxas de% por janela, desvios de conversão KYC/PSP, participação de chargeback.
4) Arquitetura de telemetria
Injeções padrão: OpenTelemetry SDK/captor → normalização, sempling, filtros de privacidade → armazenamento (TSDB, traçados, logs).
Correlação: trace-id/span-id em logs e métricas (exemplars); uma única correlation-id para pagamentos/eventos de jogo.
Topologia: serviço-mapa (service graph), provedores externos dependentes com SLI vivo.
Gerenciamento de custo: níveis de retenção, agregações, sempling dinâmico, classes de armazenamento quentes/frias.
5) Métricas: design e cardealidade
Regras: pequeno número de editoras, proibição de high-cardinality (userId, sessionId) em time-series; Essas peças são apenas nas pistas/logs.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors para a infraestrutura.
Excemplars: Vinculando os percenteis altos a exemplos trace específicos.
Métricas de negócios: $/RPS, conversão PSP sobre bancos/GEO, resiliência de provedores.
6) Tracing: profundidade e sempling
Contexto: Cruzando o contexto trace através da API → corretores → corretores → corretores → BD/PSP.
Sempling: Base de 1-10% e para anomalias - aumento dinâmico de acordo com as regras (tail-based).
Foco: flow de pagamento (init → auth → capture/setle), transações de jogos (bet → setle), KYC (init → verify).
Anotações: PSP de resposta, banco-BIN/issuer-categoria, região, risco-screen.
7) Logs e auditorias
Logs estruturados: JSON, nível de perfil (INFO em venda, DEBUG em depuração).
Filtros de privacidade: camuflagem PII, proibição de documentos crus KYC nos logs.
Eventos de auditoria: quem/onde/quando/porquê, ID do tíquete, pré/post valores para transações de alto risco (bónus, limites, routing PSP).
Insustentável: WORM/imutable, assinatura, rótulo de política.
8) Controle de estado (health)
Liveness/Readiness/Startup: amostras corretas (não verificar dependências externas em liveness).
Modo Degraded: bandeiras claras de degradação do serviço para que as alertas e a página de status sejam negociados.
Boodget health: burn-rate orçamento erros (janela rápida/lenta), headroom recursos e filas.
9) Alerting e aviso precoce
ALERTAS SLO: no orçamento de erros (janelas de 4 horas e 1 hora) em vez de «crude» p95.
Anomalias: STL/IQR/detectores on-line para picos de 5xx, queda nas autorizações de PSP em um determinado GEO/banco.
Root-causa hints: Associamos as alertas aos últimos lançamentos/fichiflags/planejamento.
Runbooks: Cada alert tem links para playbook, gráficos, verificações rápidas.
10) Dashboards (quem vê e o que vê)
Exec: farmácia/SLO, burn-rate, depósitos com sucesso/taxas, status de provedores, previsão de capacidade e $/RPS.
SRE/plataforma: RED/USE por serviços, filas/lag, pool-usage, reprodução de lag, CDN/WAF, eBPF.
Payments/Risk: Sucesso de autorizações PSP/bancos/GEO, soft/hard, tempo KYC, chargeback early-signals.
Suporte/CS: painel status de incidentes, SLA respostas, FAQ-macros.
11) Gerenciamento do custo de observação (FinOps-Observability)
Retenschn: 7 a 14 dias para as pistas «cruas», as unidades são mais longas; seletivamente, serviços quentes.
Sampling/agregação: sempling dinâmico por anomalias, downsampling de filas antigas.
Políticas Ingest: corte de ruído (health pings, logs redundantes), quotas de alta cardinalidade métricas.
Valor KPI: $/GB ingest, $/trace, $/SLI dashbord; Revidar periodicamente os melhores devoradores.
12) Privacidade e complacência
PII/finanças: camuflagem, tocenização, minimização de dados na telemetria.
Geo-localização: armazenamento e processamento por jurisdição; exportação de logs - somente através de workflow com criptografia e TTL aprovados.
Auditoria de acesso à telemetria: RBAC/ABAC, SoD de descarga, registro de solicitações.
13) Integração com gerenciamento de incidentes e lançamentos
Página de status, fide automático de apdate de cartão de incidente.
Lançamento-gate: Análise de canário por SLI, lançamento auto-pare em burn-rate> limiar.
Post-mortem: timeline de trilhos/logs, SLI real e janelas de violação.
14) Metodologia prática de implementação (8-12 semanas)
Ned. 1-2: inventário de caminhos críticos e SLI; seleção da pilha (OTel, TSDB, logs, pistas); mapa das dependências.
Ned. 3-4: Introdução do OTel em 3-5 serviços essenciais (login/depósito/taxa), RED/USE básico, contexto trace no logs.
Ned. 5-6: SLO e burn-rate-alert; sintético PSP/KYC; os primeiros runbooks; RUM para web/mobile.
Ned. 7-8: sempling dinâmico, exemplars, serviço-mapa; dashboards Exec/SRE/Payments.
Ned. 9-10: eBPF/profiling de estreitos quentes; filtros de privacidade; quotas/retenção.
Ned. 11-12: lançamento-gate e auto-rollback em SLI; integração com o status da página; ensinamentos tabletop.
15) Modelos de artefatos
O cartão SLO do serviço é SLI, metas, janelas, orçamento de erros, alertas, proprietários.
Alert Spec: métrica/condição, liminares, dedup/silens, destinatários, runbook.
Dashboard Spec: audiência, perguntas, 6-8 widgets, fonte de dados, frequência de atualização.
Telemetry Policy: que campos são válidos/proibidos, retino, disfarce, exportação.
Costa Review Pack: top série/fluxo de logs, oferta de sampling/TTL, economia prevista.
16) KPI função de observação
MTTA/MTTR (melhoria após a implementação do alerting SLO).
% dos incidentes encontrados pela sintética/SLI antes das queixas dos usuários.
Proporção de lançamentos de gate SLI sem interferência manual.
Redução de $/RPS por telemetria mantendo o diagnóstico.
Revestimento de trilhas críticas (> 90%).
Precisão da correlação «update status ↔ SLI real».
17) Antipattern
«Toda a gente» → explosão de valor e ruído.
Alertas por métricas «cruas» em vez de SLO/burn-rate → pager-fatiguue.
Alta cardinalidade de métricas (userId) → tempestades TSDB.
Trailers sem contexto de negócio (PSP/banco/GEO) não → insights.
Não há relação de observabilidade com lançamentos/incidentes → a telemetria vive separadamente.
Resultado
A observabilidade e o controle de estado não são um conjunto de ferramentas, mas sim um sistema controlado: SLI/SLO corretos → telemetria padrão e correlação de → SLO-alerting e runbooks → integração com lançamentos e status-comunicação → cet-aware exploração e privacidade. Este circuito fornece sinais iniciais, RCA rápido e resistência empresarial mesmo em picos extremos de tráfego.