Avaliação da saúde da rede
1) O que é «saúde da rede» e por que medi-la
A saúde da rede é o estado da capacidade do ecossistema de fornecer de forma estável os níveis de destino do serviço (SLO), segurança, eficiência econômica e uma evolução previsível em casos de picos, falhas e mudanças na demanda.
Objetivos de avaliação:- detecção precoce de degradações e riscos;
- o fato-bees de gerenciamento de tarifas, quotas, incentivos e prioridades;
- transparência para participantes (nós, provedores, operadores, criadores, afiliados);
- As decisões e os pós-mortems.
2) Mapa de domínios de saúde
1. Desempenho e disponibilidade: latency/throughput, error rate, finality, filas.
2. Confiabilidade e sustentabilidade: MTBF/MTTR, backpressure, degradação de QoS.
3. Segurança e confiança: autenticação/autorização, incidentes de integridade, slashing, frod.
5. 治理 e processos: taxa de convergência de parâmetro, lançamentos de alta velocidade, disciplina de relatórios.
6. Complacência e privacidade: geo/idade, sanções, armazenamento/remoção de dados, lufas ZK.
3) Taxonomia métricas (referência)
3. 1 Desempenho (per classe QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3. 2 Confiabilidade
Breakes SLA/1k eventos, MTBF/MTTR, balançadores flap-rate.
Backpressure recovery time, DLQ depth, replay success%.
3. 3 Segurança
Incidentes de integridade/roubo da ordem, sinais suspeitos/1k,
Falso Aceitt/Rejt na complacência, conflito de chaves/assinaturas.
Slashing events, divergências oraculares, exposição MEV (se aplicável).
3. 4 Economia
Costa/Req, Costa/GB DA, margem/mensagem, rendimento/bytes,
NRR/GRR, ARPU/ARPU, proporção de receita renovada,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3. 5治理 e processos
Sucesso de lançamentos sem reversão, tempo de negociação de propozais,
velocidade de sintonização (convergência), revestimento de benchmark.
3. 6 Complaens e privacidade
Proporção de DID/VC testados, bloqueios por geo/idade,
tempo de resposta ao regulador, incidentes de armazenamento/remoção.
4) Composto Índice de Saúde da Rede (ISS)
ICS - Composição robástica de sab index: Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI).
Normalização das métricas:- robust z-score ou robust min-max por [P5, P95]; Suavização EWMA; cauda winsorization.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
onde os pesos (W _ k) e (w se) são armazenados no Governance Registry e mudam de procedimento sunset.
Orientações de áreas:- Verde: ISS ≥ 0. 70 - aumento de quotas/volume, bónus de qualidade.
- Amarelo: 0. 50–0. 70. Sintonização pontual, investigação.
- Vermelho: <0. 50 - torneiras de parar, redução de limites, foco em MTTR/correção.
5) Liminares SLO e «porta» (gates)
Exemplos de SLO alvo (reguliruyutsya治理):- Q4 API: success ≥ 99. 99%, p95 ≤ 200 ms, DLQ = 0.
- Q3 Mensagem: perturbação da ordem de ≤ 10⁻⁶/soobshch, p95 ≤ 500 ms.
- Bridge/Finality: confirmações falsas = 0; MTTR anomalias ≤ 1 h.
- DA: finalidade ≤ 3 x T _ block; throughput ≥ X GB/ч.
- Batch/Stream: a janela T é colocada com uma reserva de ≥ 20%; lag ≤ 2×window.
- Segurança: incidentes de integridade = 0; FPR/FNR nos corredores.
Violação do SLO → desencadeadores automáticos (parágrafo 8).
6) Coleta, qualidade e proteção de dados
Idempotidade/Dedup: ULID/trace, tabelas seen com TTL.
Traçado E2E: correlação 'x _ msg _ id' através de domínios/bridge/DA.
Anti-Gaming: janelas blind-run, tarefas de controle ocultas, amostras sintéticas.
Privacidade: DID/VC, divulgação seletiva, luzes ZK.
Veracidade: assinaturas de eventos, processamento de batches, auditoria de logs.
7) Dashboards «saúde»
Network Health Overview: ISS e índice sáb, a contribuição de métricas.
Latency & Tail: pXX, TailAmplification heatmap por domínios/rotas.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Segurança & Trust: sinais suspeitos, slashing, divergências oráculas.
Economy: Costa-to-Serve, margem/mensagem, fairness sobre recursos.
Finality & Bridge Risk: finality lag, challenge, pontes de incidentes.
Compliance: blocos geo, idade, relatórios, pedidos do regulador.
8) Políticas de reações automáticas (policy hooks)
Porta SLO: reajuste do orçamento error → quotas ↓ para Q0/Q1, prioridade Q4; inclusão de circuito-breakers.
Tarifas: Aumento da demanda estável TailAmplification preço → ↑ dos fluxos ruidosos; qualidade sustentável de → ↓ take-rate.
Riscos: aumento de segurança/compliance incidentes → fail-closed, aumento de fianças S.
Incentivos: domínios com PFI/RLI sustentável → bônus de volume/visibilidade; violadores - multas/clawback.
Релизы: regression detector → auto rollback/feature flag.
9) Gerenciamento de incidentes
1. Detalhe: anomalias p95/finalidade/erros/custo.
2. Classificação: Integrity/Availability/Performance/Compliance.
3. Isolamento: trip per-road, drenagem de filas, limites, quórum manual.
4. Compensações: do pulo de seguro para políticos RNFT.
5. Pós-mortem: relatório público, atualização de assinaturas, correção de pesos/limites.
10) Conexão com contratos e papéis
Direitos RNFT: SLO/limites individuais para nós/provedores/afiliados.
R-reputação: modificador de acesso/voz e preços; qualidade de → sustentável ↓ exigência de S.
Fianças S, cobertura de incidentes, slashing de violações.
11) Fórmulas e orientações
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50 (corredores zadayet治理)
Costa/Req = (recurso x aposta )/pedidos de sucesso _
(Jain) = ( x) ²/( n ²) por quotas/recursos
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Playbook de implementação (por passo)
1. Mapeamento de caminhos críticos e classes de QoS; concordância SLO.
2. Esquema de telemetria: rastreamento, métricas, logs de política, passaportes de eventos.
3. Normalização: escalas robásticas, janelas EWMA, winsorization.
4. ISS v1. 0: peso inicial, liminares de zona, procedimentos sunset.
5. Dashboards e alertas, orçamentos errados, poliggers hooks.
6. Benchmarcky e chaos: testes regulares, ensinamentos failover.
7. Incidentes: modelos pós-mortem, fundo de seguros, multas RNFT.
8. 治理: processo de alteração de SLO/balanças/corredores, revisões trimestrais.
9. Automação: conexão com roteamento, quotas, tarifas e lançamentos-gates.
10. O piloto → a escala de um domínio para um desenho animado.
13) Programa de saúde KPI
Proporção de caminhos com SLO verde ≥ X%; MTTR mediana ≤ Z h.
Redução de TailAmplification em D com throughput estável.
Abaixamento de Costa/Req e DLQ depth sem deterioração de sucess rate.
Crescimento NRR/GRR com segurança constante ou melhor.
Pontualidade de relatório (TTC relatório ≤ Y relógio), revestimento de benchmark ≥ K%.
Justiça: FairnessIndex no corredor, redução de incidentes «noisy neighbor».
14) Folha de cheque
- Definidos SLO/SLA por classes de QoS e domínios
- Implementado rastreamento E2E, Idempotação e Dedução
- As normalizações robásticas e o ISS foram introduzidos
- Alertas, orçamentos errados e triggers automáticos configurados
- Os dashboards Performance/Reliability/Security/Economy/Compliance estão disponíveis
- Funcionam os benchmarks e os chaos; descrito pós-mortem
- Direitos RNFT integrados, políticas R/S e fundo de seguros
- Relatório público regular e revisões de balanças
15) Glossário
O ISS compõe a saúde da rede a partir dos índices sáb.
SLO/SLA: níveis de destino/contrato do serviço.
Error budet: uma proporção válida de erros antes das reações.
TailAmplification: Aumento da cauda de atrasos.
DLQ/Replay: quarentena/remodelação.
Procedimento Sunset - Mudanças temporárias de parâmetros com recuo automático.
16) Resultado
A avaliação da saúde da rede não é um relatório «retroativo», mas sim um circuito operacional de controle: métricas robásticas → compostos → liminares SLO → ações automáticas → relatórios públicos i治理. Este sistema torna o ecossistema previsível, resistente a choques e honesto para todos os papéis, desde nós e provedores até criadores e operadores.