Evaluación de la salud de la red

1) Qué es la «salud de la red» y por qué medirla

La salud de la red es el estado de la capacidad del ecosistema para proporcionar niveles de servicio objetivo (SLO) de manera estable, seguridad, eficiencia económica y evolución predecible en picos, fallas y cambios en la demanda.

Objetivos de la evaluación:

la detección temprana de la degradación y los riesgos;
Gestión efectiva de los aranceles, los contingentes, los incentivos y las prioridades;
transparencia para los participantes (nodos, proveedores, operadores, creadores, afiliados);
podpitka治理 soluciones y post-mortems.

2) Mapa de dominios de salud

1. Rendimiento y disponibilidad: latency/throughput, error rate, finality, colas.
2. Fiabilidad y sostenibilidad: MTBF/MTTR, retroceso, degradación de QoS.
3. Seguridad y confianza: autenticación/autorización, incidentes de integridad, slashing, frod.
4. Economía y eficiencia: costo-a-servicio, margen/mensaje, equidad de recursos.
5. 治理 y procesos: velocidad de parámetro-convergencia, liberaciones sin problemas, disciplina de presentación de informes.
6. Cumplimiento y privacidad: geo/edad, sanciones, almacenamiento/eliminación de datos, ZK-prufs.

3) Taxonomía métrica (de referencia)

3. 1 Rendimiento (por clase QoS)

Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.

3. 2 Confiabilidad

SLA-breaks/1k eventos, MTBF/MTTR, flap-rate balanceadores.
Backpressure recovery time, DLQ depth, replay success%.

3. 3 Seguridad

Incidentes de integridad/robo de orden, señales sospechosas/1k,

False Accept/Reject en cumplimiento, colisión de claves/firmas.
Slashing events, divergencias oraculares, exposición MEV (si corresponde).

3. 4 Economía

Costo/Req, Costa/GB DA, margen/mensaje, ingresos/bytes,

NRR/GRR, ARPU/ARPPU, participación en los ingresos repetidos,

FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.

3. 5治理 y procesos

Éxito de lanzamientos sin reversión, tiempo de negociación de proposales,

velocidad de parámetro-afinación (convergencia), cobertura de parámetros.

3. 6 Cumplimiento y privacidad

Porcentaje de DID/VC verificados, bloqueo por geo/edad,

tiempo de respuesta a la solicitud del regulador, incidentes de almacenamiento/eliminación.

4) Compuesto «Índice de Salud de la Red» (ISS)

El ISS es un compuesto robástico de los índices sub: Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI).

Normalización de métricas:

robust z-score o robust min-max por [P5, P95]; Suavización EWMA; winsorización de las colas.

Agregación:

[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]

donde los pesos (W_k) y (w {k, i}) se almacenan en Governance Registry y cambian según el procedimiento sunset.

Puntos de referencia de zona:

Verde: ISS ≥ 0. 70 - crecimiento de cuotas/volúmenes, bonificaciones de calidad.
Amarillo: 0. 50–0. 70 - afinación puntual, investigaciones.
Rojo: <0. 50 - grúas de parada, rebaja de límites, enfoque en MTTR/corrección.

5) Umbral SLO y «puerta» (gates)

Ejemplos de SLO objetivo (reguliruyutsya治理):

Q4 API: success ≥ 99. 99%, p95 ≤ 200 ms, DLQ = 0.
Q3 Mensajería: violación del orden ≤ 10⁻⁶/soobshch., p95 ≤ 500 ms.
Bridge/Finality: falsas confirmaciones = 0; MTTR anomalías ≤ 1 h.
DA: Finalidad ≤ 3 × T _ block; throughput ≥ X GB/ч.
Batch/Stream: la ventana T se ajusta con un margen de ≥ del 20%; lag ≤ 2×window.
Seguridad: incidentes de integridad = 0; FPR/FNR en los pasillos.

La violación de SLO → desencadenantes automáticos (§ 8).

6) Recopilación, calidad y protección de datos

Idempotencia/dedoup: ULID/trace, tablas seen con TTL.
Rastreo de E2E: correlación de 'x _ msg _ id' a través de dominios/bridges/DA.
Anti-juego: ventanas blind-run, tareas de control ocultas, muestras sintéticas.
Privacidad: DID/VC, revelaciones selectivas, ZK-prufs de umbrales.
Credibilidad: firmas de eventos, mercantilización de batches, auditoría de registros.

7) Dashboards de «salud»

Network Health Overview: ISS y sub-índices, la contribución de métricas.
Latency & Tail: pXX, TailAmplification heatmap por dominios/rutas.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Security & Trust: señales sospechosas, slashing, discrepancias oraculares.
Economía: Costo-a-Serve, margen/mensaje, fairness por recursos.
Finality & Bridge Risk: registro de finalidad, desafío, incidentes del puente.
Compliance: geo-bloques, edad, informes, solicitudes del regulador.

8) Políticas de reacción automática (policy hooks)

Puerta SLO: sobrecosto del error-presupuesto → cuota ↓ para Q0/Q1, prioridad Q4; inclusión de circuit-breakers.
Tarifas: aumento de TailAmplification con demanda estable → ↑ precio a flujos «ruidosos»; calidad sostenible → ↓ take-rate.
Riesgos: aumento de incidentes de seguridad/compliance → fail-closed, aumento de las garantías S.
Incentivos: dominios con PFI/RLI sostenible → bono de volumen/visibilidad; infractores - multas/clawback.
Релизы: regression detector → auto rollback/feature flag.

9) Gestión de incidentes

1. Detecto: anomalías p95/finalidad/errores/costo.
2. Clasificación: Integrity/Availability/Performance/Compliance.
3. Aislamiento: trip per-route, drenaje de colas, límites, quórum manual.
4. Indemnizaciones: del fondo de seguros de las políticas RNFT.
5. Post-mortem: informe público, actualización de firmas, ajuste de pesos/límites.

10) Relación con los tratados y roles

Derechos RNFT: SLO/límites individuales para nodos/proveedores/afiliados.
R-reputación: modificador de acceso/votos y precios; calidad sostenible → ↓ requisitos de S.
S-fianzas: cobertura de incidentes, slashing en infracciones.

11) Fórmulas y puntos de referencia

SuccessRate = 1 − (timeouts + errors)/requests

TailAmplification = p99/p50 (corredores de zadayet治理)

Costo/Req = Σ (recurso × tasa )/solicitudes exitosas _

FairnessIndex (Jain) = (Σ x) ²/( n· Σ x ²) por cuota/recurso

Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)

12) Playbook de implementación (por pasos)

1. Mapeo de rutas críticas y clases de QoS; Negociación de SLO.
2. Esquema de telemetría: rastreo, métricas, registros de políticas, pasaportes de eventos.
3. Normalización: escalas robustas, ventanas EWMA, winsorization.
4. ISS v1. 0: pesos de inicio, umbrales de zona, procedimientos sunset.
5. Dashboards y alertas: presupuestos de error, disparadores de políticas.
6. Benchmarks y chaos: carreras regulares, ejercicios falleros.
7. Incidentes: plantillas post mortem, fondo de seguros, multas RNFT.
8 治理: proceso de cambio de SLO/escalas/corredores, revisiones trimestrales.
9. Automatización: combinación de enrutamiento, cuotas, tarifas y getas de liberación.
10. Piloto → escalar: de un dominio a un multijugador.

13) KPI del Programa de Salud

Proporción de rutas con SLO verde ≥ X%; MTTR mediana ≤ Z h.
Reducción de TailAmplification en el Δ con throughput estable.
Reducción de Costo/Req y DLQ depth sin deterioro de la tasa de éxito.
Crecimiento de NRR/GRR con seguridad sin cambios o mejor.
La puntualidad de los informes (TTC del informe ≤ Y horas), cobertura de referencia ≥ K%.
Justicia: FairnessÍndice en el pasillo, disminución de incidentes «noisy neighbor».

14) Lista de comprobación de disponibilidad

Definidos SLO/SLA por clases de QoS y dominios
Seguimiento de E2E, idempotencia y dedoup implementados
Normalizaciones robustas e ISS introducidas s治理 -wesami
Alertas personalizadas, presupuestos de error y disparadores automáticos
Dashboards Performance/Reliability/Security/Economy/Compliance disponibles
Los puntos de referencia y los pasos de chaos funcionan; postmortem descritos
Integradas las leyes RNFT, las pólizas R/S y el fondo de seguros
Se ha establecido un informe público periódico y auditorías de pesos

15) Glosario

ISS: un compuesto de salud de la red a partir de índices sup.
SLO/SLA: niveles de servicio objetivo/contractual.
Error budget: la proporción de errores que se pueden cometer antes de las reacciones.
TailAmplification: amplificación de la cola de latencia.
DLQ/Replay: cuarentena/refinamiento.
Sunset-procedimiento: cambios temporales en los parámetros con auto-recarga.

16) Resultado

La evaluación de la salud de la red no es un informe «retroactivo», sino un circuito operativo de control: métricas robustas → compuestos → SLO umbral → acciones automáticas → informes públicos i治理. Tal sistema hace que el ecosistema sea predecible, resistente a los shocks y honesto para todos los roles, desde nodos y proveedores hasta creadores y operadores.

Evaluación de la salud de la red

Póngase en contacto

Contacto rápido

El vídeo se actualizará pronto

Estamos actualmente muy ocupados con proyectos