Evaluación de la salud de la red
1) Qué es la «salud de la red» y por qué medirla
La salud de la red es el estado de la capacidad del ecosistema para proporcionar niveles de servicio objetivo (SLO) de manera estable, seguridad, eficiencia económica y evolución predecible en picos, fallas y cambios en la demanda.
Objetivos de la evaluación:- la detección temprana de la degradación y los riesgos;
- Gestión efectiva de los aranceles, los contingentes, los incentivos y las prioridades;
- transparencia para los participantes (nodos, proveedores, operadores, creadores, afiliados);
- podpitka治理 soluciones y post-mortems.
2) Mapa de dominios de salud
1. Rendimiento y disponibilidad: latency/throughput, error rate, finality, colas.
2. Fiabilidad y sostenibilidad: MTBF/MTTR, retroceso, degradación de QoS.
3. Seguridad y confianza: autenticación/autorización, incidentes de integridad, slashing, frod.
4. Economía y eficiencia: costo-a-servicio, margen/mensaje, equidad de recursos.
5. 治理 y procesos: velocidad de parámetro-convergencia, liberaciones sin problemas, disciplina de presentación de informes.
6. Cumplimiento y privacidad: geo/edad, sanciones, almacenamiento/eliminación de datos, ZK-prufs.
3) Taxonomía métrica (de referencia)
3. 1 Rendimiento (por clase QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3. 2 Confiabilidad
SLA-breaks/1k eventos, MTBF/MTTR, flap-rate balanceadores.
Backpressure recovery time, DLQ depth, replay success%.
3. 3 Seguridad
Incidentes de integridad/robo de orden, señales sospechosas/1k,
False Accept/Reject en cumplimiento, colisión de claves/firmas.
Slashing events, divergencias oraculares, exposición MEV (si corresponde).
3. 4 Economía
Costo/Req, Costa/GB DA, margen/mensaje, ingresos/bytes,
NRR/GRR, ARPU/ARPPU, participación en los ingresos repetidos,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3. 5治理 y procesos
Éxito de lanzamientos sin reversión, tiempo de negociación de proposales,
velocidad de parámetro-afinación (convergencia), cobertura de parámetros.
3. 6 Cumplimiento y privacidad
Porcentaje de DID/VC verificados, bloqueo por geo/edad,
tiempo de respuesta a la solicitud del regulador, incidentes de almacenamiento/eliminación.
4) Compuesto «Índice de Salud de la Red» (ISS)
El ISS es un compuesto robástico de los índices sub: Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI).
Normalización de métricas:- robust z-score o robust min-max por [P5, P95]; Suavización EWMA; winsorización de las colas.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
donde los pesos (W_k) y (w {k, i}) se almacenan en Governance Registry y cambian según el procedimiento sunset.
Puntos de referencia de zona:- Verde: ISS ≥ 0. 70 - crecimiento de cuotas/volúmenes, bonificaciones de calidad.
- Amarillo: 0. 50–0. 70 - afinación puntual, investigaciones.
- Rojo: <0. 50 - grúas de parada, rebaja de límites, enfoque en MTTR/corrección.
5) Umbral SLO y «puerta» (gates)
Ejemplos de SLO objetivo (reguliruyutsya治理):- Q4 API: success ≥ 99. 99%, p95 ≤ 200 ms, DLQ = 0.
- Q3 Mensajería: violación del orden ≤ 10⁻⁶/soobshch., p95 ≤ 500 ms.
- Bridge/Finality: falsas confirmaciones = 0; MTTR anomalías ≤ 1 h.
- DA: Finalidad ≤ 3 × T _ block; throughput ≥ X GB/ч.
- Batch/Stream: la ventana T se ajusta con un margen de ≥ del 20%; lag ≤ 2×window.
- Seguridad: incidentes de integridad = 0; FPR/FNR en los pasillos.
La violación de SLO → desencadenantes automáticos (§ 8).
6) Recopilación, calidad y protección de datos
Idempotencia/dedoup: ULID/trace, tablas seen con TTL.
Rastreo de E2E: correlación de 'x _ msg _ id' a través de dominios/bridges/DA.
Anti-juego: ventanas blind-run, tareas de control ocultas, muestras sintéticas.
Privacidad: DID/VC, revelaciones selectivas, ZK-prufs de umbrales.
Credibilidad: firmas de eventos, mercantilización de batches, auditoría de registros.
7) Dashboards de «salud»
Network Health Overview: ISS y sub-índices, la contribución de métricas.
Latency & Tail: pXX, TailAmplification heatmap por dominios/rutas.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Security & Trust: señales sospechosas, slashing, discrepancias oraculares.
Economía: Costo-a-Serve, margen/mensaje, fairness por recursos.
Finality & Bridge Risk: registro de finalidad, desafío, incidentes del puente.
Compliance: geo-bloques, edad, informes, solicitudes del regulador.
8) Políticas de reacción automática (policy hooks)
Puerta SLO: sobrecosto del error-presupuesto → cuota ↓ para Q0/Q1, prioridad Q4; inclusión de circuit-breakers.
Tarifas: aumento de TailAmplification con demanda estable → ↑ precio a flujos «ruidosos»; calidad sostenible → ↓ take-rate.
Riesgos: aumento de incidentes de seguridad/compliance → fail-closed, aumento de las garantías S.
Incentivos: dominios con PFI/RLI sostenible → bono de volumen/visibilidad; infractores - multas/clawback.
Релизы: regression detector → auto rollback/feature flag.
9) Gestión de incidentes
1. Detecto: anomalías p95/finalidad/errores/costo.
2. Clasificación: Integrity/Availability/Performance/Compliance.
3. Aislamiento: trip per-route, drenaje de colas, límites, quórum manual.
4. Indemnizaciones: del fondo de seguros de las políticas RNFT.
5. Post-mortem: informe público, actualización de firmas, ajuste de pesos/límites.
10) Relación con los tratados y roles
Derechos RNFT: SLO/límites individuales para nodos/proveedores/afiliados.
R-reputación: modificador de acceso/votos y precios; calidad sostenible → ↓ requisitos de S.
S-fianzas: cobertura de incidentes, slashing en infracciones.
11) Fórmulas y puntos de referencia
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50 (corredores de zadayet治理)
Costo/Req = Σ (recurso × tasa )/solicitudes exitosas _
FairnessIndex (Jain) = (Σ x) ²/( n· Σ x ²) por cuota/recurso
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Playbook de implementación (por pasos)
1. Mapeo de rutas críticas y clases de QoS; Negociación de SLO.
2. Esquema de telemetría: rastreo, métricas, registros de políticas, pasaportes de eventos.
3. Normalización: escalas robustas, ventanas EWMA, winsorization.
4. ISS v1. 0: pesos de inicio, umbrales de zona, procedimientos sunset.
5. Dashboards y alertas: presupuestos de error, disparadores de políticas.
6. Benchmarks y chaos: carreras regulares, ejercicios falleros.
7. Incidentes: plantillas post mortem, fondo de seguros, multas RNFT.
8 治理: proceso de cambio de SLO/escalas/corredores, revisiones trimestrales.
9. Automatización: combinación de enrutamiento, cuotas, tarifas y getas de liberación.
10. Piloto → escalar: de un dominio a un multijugador.
13) KPI del Programa de Salud
Proporción de rutas con SLO verde ≥ X%; MTTR mediana ≤ Z h.
Reducción de TailAmplification en el Δ con throughput estable.
Reducción de Costo/Req y DLQ depth sin deterioro de la tasa de éxito.
Crecimiento de NRR/GRR con seguridad sin cambios o mejor.
La puntualidad de los informes (TTC del informe ≤ Y horas), cobertura de referencia ≥ K%.
Justicia: FairnessÍndice en el pasillo, disminución de incidentes «noisy neighbor».
14) Lista de comprobación de disponibilidad
- Definidos SLO/SLA por clases de QoS y dominios
- Seguimiento de E2E, idempotencia y dedoup implementados
- Normalizaciones robustas e ISS introducidas s治理 -wesami
- Alertas personalizadas, presupuestos de error y disparadores automáticos
- Dashboards Performance/Reliability/Security/Economy/Compliance disponibles
- Los puntos de referencia y los pasos de chaos funcionan; postmortem descritos
- Integradas las leyes RNFT, las pólizas R/S y el fondo de seguros
- Se ha establecido un informe público periódico y auditorías de pesos
15) Glosario
ISS: un compuesto de salud de la red a partir de índices sup.
SLO/SLA: niveles de servicio objetivo/contractual.
Error budget: la proporción de errores que se pueden cometer antes de las reacciones.
TailAmplification: amplificación de la cola de latencia.
DLQ/Replay: cuarentena/refinamiento.
Sunset-procedimiento: cambios temporales en los parámetros con auto-recarga.
16) Resultado
La evaluación de la salud de la red no es un informe «retroactivo», sino un circuito operativo de control: métricas robustas → compuestos → SLO umbral → acciones automáticas → informes públicos i治理. Tal sistema hace que el ecosistema sea predecible, resistente a los shocks y honesto para todos los roles, desde nodos y proveedores hasta creadores y operadores.