Évaluation de la santé du réseau
1) Qu'est-ce que la « santé du réseau » et pourquoi le mesurer
La santé du réseau est l'état de la capacité de l'écosystème à fournir de manière stable les niveaux de service cibles (SLO), la sécurité, la rentabilité et l'évolution prévisible en cas de surtension, de défaillance et de changement de la demande.
Objectifs de l'évaluation :- la détection précoce des dégradations et des risques ;
- gestion des droits de douane, des contingents, des incitations et des priorités ;
- transparence pour les membres (nœuds, fournisseurs, opérateurs, créateurs, affiliations) ;
- podpitka治理-décisions et post-mortem.
2) Carte des domaines de la santé
1. Performances et disponibilité : latency/throughput, taux d'erreur, finality, files d'attente.
2. Fiabilité et durabilité : MTBF/MTR, backpressure, dégradation QoS.
3. Sécurité et confiance : authentification/autorisation, incidents d'intégrité, slashing, frod.
4. Économie et efficacité : cost-to-serve, marge/message, équité des ressources.
5. Les 治理 et les processus : vitesse de convergence-paramètre, mises à jour sans problème, discipline des rapports.
6. Conformité et vie privée : géo/âge, sanctions, stockage/suppression de données, ZK-proufs.
3) Taxonomie des métriques (référence)
3. 1 Performance (classe per QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3. 2 Fiabilité
break SLA/1k événements, MTBF/MTR, équilibreurs de taux flap.
Backpressure recovery time, DLQ depth, replay success%.
3. 3 Sécurité
Incidents d'intégrité/vol d'ordre, signaux suspects/1k,
Faux Accept/Reject dans la conformité, conflit de clés/signatures.
Slashing events, écarts oraculaires, exposition MEV (le cas échéant).
3. 4 Économie
Cost/Req, Cost/GB DA, marge/message, revenu/octet,
NRR/GRR, ARPU/ARPPU, part des recettes récurrentes,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3. 5治理 et processus
Succès des sorties sans retour en arrière, temps de négociation des proposaux,
vitesse de réglage (convergence), couverture par des repères.
3. 6 Conformité et vie privée
Proportion de DID/VC testés, blocages par géo/âge,
temps de réponse à la demande du régulateur, incidents de stockage/suppression.
4) Composite « Indice de santé du réseau » (IPS)
L'ISS est un composite robuste à partir des indices de performance (PFI), de reliabilité (RLI), de sécurité et de confiance (STI), d'économie (ECI), de gouvernance (GVI), de conformité (CFI).
Normalisation des métriques :- robuste z-score ou robuste min-max selon [P5, P95] ; Lissage EWMA ; winsorization des queues.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
où les poids (W_k) et (w {k, i}) sont stockés dans le registre de gouvernance et changent selon la procédure sunset.
Repères des zones :- Vert : IPS ≥ 0. 70 - augmentation des quotas/volumes, bonus de qualité.
- Jaune : 0. 50–0. 70 - tuning ponctuel, enquêtes.
- Rouge : <0. 50 - grues stop, abaissement des limites, accent mis sur MTTR/correction.
5) SLO seuil et « porte » (gates)
Exemples de SLO cibles (reguliruyutsya治理) :- Q4 API: success ≥ 99. 99 %, p95 ≤ 200 ms, DLQ = 0.
- Q3 Messaging : perturbation de l'ordre de ≤ 10⁻⁶/soobshch., p95 ≤ 500 ms.
- Bridge/Finality : fausses confirmations = 0 ; Anomalies MTTR ≤ 1 h.
- DA : finalité ≤ 3 × T _ block ; throughput ≥ X GB/ч.
- Batch/Stream : la fenêtre T entre avec le stock ≥ 20 %; lag ≤ 2×window.
- Sécurité : incidents d'intégrité = 0 ; FPR/FNR dans les couloirs.
Violation des SLO → déclencheurs automatiques (§ 8).
6) Collecte, qualité et protection des données
Idempotence/dedup : ULID/trace, seen tables avec TTL.
Trace de E2E : corrélation 'x _ msg _ id' via les domaines/bridges/DA.
Anti-gaming : fenêtres blind-run, tâches de contrôle cachées, échantillons synthétiques.
Vie privée : DID/VC, divulgations sélectives, prouesses ZK des seuils.
Validité : signatures d'événements, merclisation des trampolines, audit des loges.
7) Dashboards de « santé »
Network Health Overview : IPS et index, contribution des métriques.
Latinity & Tail : pXX, TailAmplification heatmap par domaine/itinéraire.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Security & Trust : signaux suspects, slashing, divergences oracles.
Économie : Cost-to-Serve, marge/message, fairness par ressource.
Finality & Bridge Risk : finality lag, challenge, incidents de pont.
Conformité : blocs géo, âge, rapports, demandes du régulateur.
8) Politiques auto-réactions (policy hooks)
Porte SLO : dépassement de budget error → quotas ↓ pour les Q0/Q1, priorité Q4 ; inclusion de circuits-breakers.
Tarifs : augmentation de TailAmplification avec une demande stable → ↑ le prix des flux « bruyants » ; une qualité → ↓ take-rate durable.
Risques : surtension des incidents de sécurité/conformité → fail-closed, augmentation des garanties S.
Incitations : domaines avec une IFP/IFR durable → un bonus de volume/visibilité ; les contrevenants sont des amendes/clawback.
Релизы: regression detector → auto rollback/feature flag.
9) Gestion des incidents
1. Détail : anomalies p95/finalité/erreurs/coût.
2. Classification : Integrity/Availability/Performance/Conformité.
3. Isolation : trip per-route, drainage des files d'attente, limites, quorum manuel.
4. Indemnisation : du pool d'assurance selon les politiques RNFT.
5. Post-mortem : rapport public, mise à jour des signatures, ajustement des poids/limites.
10) Rapport avec les traités et les rôles
Droits RNFT : SLO/limites individuelles pour les nœuds/fournisseurs/affiliés.
R-réputation : modificateur d'accès/voix et prix ; la qualité durable → ↓ les exigences de S.
S-cautions : couverture des incidents, slashing en cas de violations.
11) Formules et repères
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50 (couloirs de zadayet治理)
Cost/Req = Σ (ressource × taux )/requêtes réussies _
FairnessIndex (Jain) = (Σ x) ²/( n· Σ x ²) pour les quotas/ressources
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Pleybuk de mise en œuvre (par étapes)
1. Cartographie des chemins critiques et des classes QoS ; harmonisation des SLO.
2. Schéma de télémétrie : trace, métriques, logs de politique, passeports d'événements.
3. Normalisation : échelles robustes, fenêtres EWMA, winsorization.
4. IPS v1. 0 : poids de départ, seuils de zone, procédures sunset.
5. Dashboards et alertes : budgets error, déclencheurs de policy hooks.
6. Benchmark et chaos : courses régulières, exercices d'échecs.
7. Incidents : modèles de post-mortem, fonds d'assurance, sanctions RNFT.
8. 治理 : processus de modification du SLO/poids/corridor, audits trimestriels.
9. Automatisation : lien avec le routage, les quotas, les tarifs et les jeux de sortie.
10. Pilote → mise à l'échelle : d'un domaine à un multitâche.
13) KPI du programme « santé »
Proportion de tracts avec SLO vert ≥ X %; MTTR médian ≤ Z H.
Réduction de TailAmplification par Δ à throughput stable.
Réduction Cost/Req et DLQ depth sans détérioration du taux de réussite.
Croissance NRR/GRR avec sécurité constante ou meilleure.
Rapidité des rapports (TTC du rapport ≤ Y heures), couverture par des repères de ≥ K %.
Équité : Indice Fairness dans le couloir, diminution des incidents « noisy neighbor ».
14) Chèque-liste de préparation
- Défini par SLO/SLA par classe et domaine QoS
- Mise en œuvre du tracé de la E2E, de l'idempotence et du dedup
- Les normes robotisées et l'ISS ont été introduites par s治理
- Alerts, budgets error et auto-déclencheurs configurés
- Les dashboards Performance/Reliability/Security/Economy/Compliance sont disponibles
- Les tests de référence et les tests de chaos fonctionnent ; les post-mortems décrits
- RNFT-droits, R/S-politiques et fonds d'assurance intégrés
- Un rapport public régulier et des audits des pondérations ont été établis
15) Glossaire
ISS : composite de santé du réseau à partir d'indices.
SLO/SLA : niveaux de service ciblés/contractuels.
Error budget : proportion d'erreurs admissibles avant les réactions.
TailAmplification : amplification de la queue des retards.
DLQ/Replay : quarantaine/réemploi.
Procédure Sunset : Modifications temporaires des paramètres avec un retour automatique.
16) Résultat
L'évaluation de la santé du réseau n'est pas un rapport « rétroactif », mais une boucle de gestion opérationnelle : métriques → composites robustes → SLO seuil → actions automatiques → rapports publics i治理. Un tel système rend l'écosystème prévisible, résistant aux chocs et honnête pour tous les rôles, des nœuds aux fournisseurs en passant par les créateurs et les opérateurs.