Visibilidade de correntes e nós
1) Tarefa e objeto de observação
A capacidade do ecossistema de ver, medir e explicar o comportamento dos fluxos entre cadeias (tráfego/eventos/pagamentos/CUS/conteúdo) e nós (operadores, estúdios/RGS, PSP/APM, KYC/AML provedores, afiliados, agregados, estrim-nós). Objetivos:- causalidade de passagem (do clique à fatura);
- SLO previsível e risco controlado;
- RCA rápido e MTTR baixo;
- comprovável (resumos assinados, auditoria WORM) ao custo mínimo de telemetria.
2) Ontologia da observabilidade
Entidades:- `chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
- `click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
- Metrics (RED/USE/Golden Signals), Trajes (W3C traceparent), Logs (estruturais), Events (negócios), RUM/Synthetic (clientes/canais), Auditoria/WORM (imutáveis).
Todos os circuitos são versionados em Schema Registry; tempos - UTC/ISO-8601.
3) Transporte e correlação
OpenTelemetry: um único formato de métricas/logs/spans; exportadores para TSDB/processadores.
W3C Trace Context: 'traceparent '/' tracestate' é conduzido através de rabiscos, API, webhooks, pneus.
Idempotidade: 'Idempotency-Key' em caminhos críticos (pagamentos/pós-becks).
Exactly-once por sentido: deadup por hash/histórico de cursor, registro de revezamento de webhooks.
Exemplars: Associamos histogramas latency a «traceId» específicos para RCA rápido.
4) Modelo SLI/SLO e orçamento de erro
Golden Signals: latency, traffic, errors, saturation.
RED (NTTR/Gatins): Rate, Errors, Duration.
USE (infraestrutura): Utilization, Saturation, Errors.
- Webhooks, entrega 99. 9%, p95 ≤ 1-2 s.
- API associados: p95 ≤ 150-300 ms, erro rate ≤ 0. 3–0. 5%.
- Pneu de evento: lag p95 ≤ 200-500 ms; entrega ≥ 99. 9%.
- Pagamentos/ARM: CR no corredor do perfil; e2e autorização ≤ X s.
- KYC: pass-rate e SLA etapas por perfis de jurisdição.
- Live/SFU/CDN: e2e 2-3 s, packet loss ≤ 1%, farmácia ≥ 99. 9%.
- Dashboards: frescor ≤ 1-5 c; p95 render ≤ 1. 5–2. 0 s.
Orçamento de erros: registando períodos (por exemplo, 30 dias), tipos de erro (5xx, temporizações, violações SLO), regras auto-bônus/malus e botões de pare.
5) Dashboards: camadas e artefatos
1. Serviço Graph (tsepi↔uzly): topologia, fluxos rps/eps, p95/p99, erro-rate, saturação, heatmap por jurisdição.
2. Business Flow: klik→registratsiya→KYC→depozit→FTD→stavka/raund→vyplata; vórtices de conversão e janelas de atribuição.
3. Payments/KYC: CR x geo x dispositivo, código de falha, latency etapas, auto cut-over com anotações.
4. Conteúdo/RGS/Live: round-trip, erro-rate, SFU/CDN SLI, tabelas de liderança e jackpots.
5. Postbacks/Atitude: Pontualidade, controvérsia, deadup, lajes de cursos.
6. Trust & Risk: Scorecards (SLO/ATTR/RG/SEC), «tempo para o pacote de trace», previsão Tier.
Cada painel contém versões de fórmulas e links de changelog.
6) Alerting e escalação
Alertas SLO de vários níveis: alerta (burn-rate 2 x), crítica (burn-rate 10 x), ações posteriores (refrigeração de rotas/limites).
«latency↑ + CR↓ + postback lag↑» → suspeita de degradação do PSP.
Canais de papel SRE/Payments/KYC/RGS/Marketing/Finanças/Legal/RG; o contexto inclui imediatamente 'traceId '/' runbook '/botão de parar.
Políticas Snoose/Muting para métricas ruidosas, mas sem silenciar P1.
7) RCA и war-room
SLA no pacote de trace: 60-90 s (P1/P2).
Modelo RCA «sem encontrar culpados»: fato → hipótese → experimento → conclusão → → follow-up.
Diff de lançamentos (Eventos do parágrafo 2): verificação automática de conflitos/fórmulas/configs na janela do incidente.
Post-mortem SLO: Tempo até o detalhe, antes da pausa, antes da reversão, antes da estabilização, antes da publicação das notas.
8) Qualidade dos dados e da linha de origem
Data Quality SLI: abrangência, frescura, exclusividade ('eventId'), coerência de moedas/locais.
Lineage: de vitrines/painéis para fontes (circuitos/versões/proprietários).
Orakuls: unidades assinadas (GGR/NetRev/SLO/RG), «formulaVersion», «hash (inputs)», «kid», período.
Auditoria WORM: logs imutáveis de fórmulas/chaves/exceções/faturas.
9) Privacidade, jurisdição e segurança
Zero Trust: mTLS, tokens curtos, egress-allow-list, rotação de chaves/JWKS.
Minimização PII: toquenização 'playerId', detonação apenas em áreas de cofre; a proibição de PDN em logs/métricas.
ABAC/ReBAC/SoD: O acesso «vejo o meu e o acordado»; «medindo ≠ influenciando ≠ mudando».
Localização de dados e DPIA/DPA para os mercados; política purge e TTL.
10) Custo de telemetria e gestão de cardealidade
Cardinality Budet: limites para editoras (userId/URL/UA - proibidos; routeId/campaignId - Permitidos).
Histogramas em vez de percentilos para voar; exemplars para detalhamento seletivo.
Adaptativo sampling traçado: porcentagem básica + prioridade para erros/caminhos lentos/novas versões.
Downsampling/roll-ups (1s→1m→5m); armazenamento de trailers RAW brevemente, equipamentos por mais tempo.
SLO-first: Coletamos apenas o que suporta soluções (SLO/finanças/complicações).
11) Integração com Gestão (SRE ↔ Negócios)
Os lançamentos e campanhas de Guardrails estão ligados ao SLO/orçamento de erros.
Auto cut-over rotas APM/KYC quando as métricas saem dos corredores.
RevShare/limites: multiplicador de qualidade 'Q' (de SLO/ATTR/RG/SEC) afeta as taxas e quotas.
O Scorecards de nós → priorizar o tráfego e acessar os pilotos.
12) Anti-pattern
«Muitas verdades» em métricas de fórmula e janelas diferentes.
Offset-paginação do histórico sob carga (use os cursores).
PII em logs/painéis; exportação de PDN para BI.
Zoológico pós-beck e webhooks não assinados → duplos/buracos/disputas.
Conde sem 'traceId', o painel é bonito, não há causalidade.
Tempestade de alert sem burn-rate ou rotas de papel.
Agregador de telemetria SPOF sem N + 1/DR.
Exceções sem TTL/auditoria - override-s «pegajosos».
13) Folhas de cheque
Projeto
- Ontologia de sinais e esquemas; versões e proprietários.
- W3C traceparent em todos os lugares; Idempotency-Key em caminhos críticos.
- SLI/SLO e orçamentos de erros; botões parados; guardrails.
- Políticas de radicalidade, sampling, retenção/roll-ups.
- Private/PII: Toquenização, DPA/DPIA, localização.
- Alertas roll-based e runbooks.
Iniciar
- Conformance para trilhos/métricas/logs; sinteticista-protetores.
- Telemetria canária em lançamentos; painéis comparativos antes/depois.
- War-room playbooks; O SLA está no pacote de trace.
Exploração
- Nós escalecards semanais; relatórios de burn-rate.
- Chainjlogs mensais de fórmulas e revisão de SLO/limites.
- Dr./xaoc-ensinamentos de agregadores/pneus/vitrines.
14) Mapa de trânsito da maturidade
v1 (Foundation): métricas básicas + logs, traceId única, RCA manual, SLO primário.
v2 (Integration): OpenTelemetry em todo o lado, serviço graph, guindastes, linha de montagem de oráculos, alertas de papel.
v3 (Automation): degradação preditiva, auto-cut-over APM/KYC/RGS, smart-recordation, dinâmica de limites por 'Q'.
v4 (Networked Governance): intercâmbio de sinais e oráculos, regras DAO de fórmulas/SLO, tesouraria transparente.
15) Métricas de sucesso
Qualidade/risco: MTTR↓, MTTD↓, controvérsia <X%, participação auto-pausa/reversão, revestimento ≥ 95%.
Negócios: uplift de previsibilidade CR/FTD/ARPU/LTV, precisão e pontualidade do pós-back, estabilidade NetRev.
Técnica: p95 API/webhooks/pneus/vitrines nos corredores; farmácia de nós/CDN/SFU ≥ 99. 9%.
Economia: Costa-to-Observa (CTO) em rps/event,% das unidades com exemplars, armazenamento RAW em limites.
Complacência: 0 vazamentos de PDN, auditorias DPIA/DPA bem-sucedidas, disponibilidade de logs WORM 100%.
Resumo breve
Previsível é o circuito de confiança de produção: uma ontologia, traçados de passagem, canônicos de métricas e eventos, guardrelas SLO e oráculos de dados, privacidade padrão e disciplina do custo da telemetria. Este esqueleto torna as correntes e os nódulos transparentes, previsíveis e prováveis, e o ecossistema é rápido na resposta e resistente a riscos.