Valutazione della salute della rete
1) Cos'è la «salute della rete» e perché misurarla
La salute della rete è la capacità dell'ecosistema di fornire livelli di servizio (SLO) stabili, sicurezza, efficienza economica ed evoluzione prevedibile in caso di picchi, guasti e cambiamenti della domanda.
Obiettivi di valutazione:- individuazione precoce di degradazioni e rischi;
- la gestione di tariffe, quote, incentivi e priorità;
- Trasparenza per i partecipanti (nodi, provider, operatori, creatori, affiliati)
- Le decisioni e i post mortem.
2) Mappa dei domini di salute
1. Prestazioni e disponibilità: latency/throughput, errato rate, finality, code.
2. Affidabilità e stabilità: MTBF/MTTR, backpressure, degrado del QoS.
3. Sicurezza e fiducia: autenticazione/autorizzazione, incidenti di integrità, slashing, frode.
4. Economia ed efficienza: cost-to-serve, margine/comunicazione, equità delle risorse.
5. 治理 e processi: velocità di convergenza, rilascio, disciplina dei rapporti.
6. Compilazione e privacy: geo/età, sanzioni, conservazione/rimozione dei dati, laghi ZK.
3) Tassonomia metrica (di riferimento)
3. 1 Prestazioni (per classe QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3. 2 Affidabilità
I break SLA/1k eventi, MTBF/MTTR, flap-rate bilanciatori.
Backpressure recovery time, DLQ depth, replay success%.
3. 3 Sicurezza
Incidenti di integrità/furto d'ordine, segnali sospetti/1k,
False Accept/Reject nella compilazione, conflitti di chiavi/firme.
Slashing events, soluzione oracolare, esposizione MEV (se applicabile).
3. 4 Economia
Cost/Req, Cost/GB DA, margine/comunicazione, fatturato/byte,
NRR/GRR, ARPU/ARPPU, quota di ricavato,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3. 5治理 e processi
Successo delle release senza ritorno, tempo di negoziazione dei propositori,
parametro-tuning (convergenza), rivestimento con benchmark.
3. 6 Complaens e privacy
Percentuale di DID/VC verificati, bloccati per geo/età,
Tempo di risposta alla richiesta del regolatore, incidenti di conservazione/rimozione.
4) Composito Indice salute rete (ISS)
ISS è una composizione robastica di sab-indici: Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI).
Normalizzazione delle metriche:- robust z-score o robust min-max per [P5, P95]; Antialiasing EWMA; winsorization code.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
dove i pesi (W _ k) e (w {k, i}) sono memorizzati in Governance Registry e cambiano in base alla procedura sunset.
Punti di riferimento zone:- Verde: ISS 0. 70 - crescita di quote/quantità, bonus qualità.
- Giallo: 0. 50–0. Un sintonizzatore a 70 punti, indagini.
- Rosso: <0. 50 - rubinetti, limiti ridotti, fuoco su MTTR/correzione.
5) Soglie SLO e porte (gates)
Esempi di SLO target (reguliruyutsya治理):- Q4 API: success ≥ 99. 99%, p95, 200 ms, DLQ = 0.
- Il Q3 Messagging è una violazione dell'ordine.
- Bridge/Finality: false conferme = 0; Anomalie MTTR di 1 ora
- DA: finalità 3 x T _ block; throughput ≥ X GB/ч.
- Batch/Stream: la finestra T si trova con una riserva del 20%; lag ≤ 2×window.
- Sicurezza: incidenti di integrità = 0; FPR/FNR nei corridoi.
Violazione SLO: trigger automatici (© 8).
6) Raccolta, qualità e protezione dei dati
Idempotence/deadup: ULID/trace, tabelle seen con TTL.
Traccia E2E: correlazione «x _ msg _ id» attraverso domini/bridge/DA.
Anti-gaming: finestre blind-run, compiti di controllo nascosti, campioni sintetici.
Privacy: DID/VC, discovery selettivo, laghetti ZK delle soglie.
L'autenticità è la firma degli eventi, la commercializzazione dei battelli, l'ispezione dei reparti.
7) Dashboard «salute»
Network Health Overview: ISS e sab-indici, il contributo delle metriche.
Latency & Tail: pXX, TailAmplification heatmap su domini/percorsi.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Sicurezza & Trust: segnali sospetti, slashing, discrepanze oracolari.
Economy: Cost-to-Serve, margine/messaggio, fairness sulle risorse.
Finality & Bridge Risk: finality lag, challenge, incidenti ponte.
Compliance: geo-blocchi, età, rapporti, richieste di controllo.
8) Criteri di risposta automatica (policy hooks)
Porta SLO: sovraccarico del budget errato, quota di per Q0/Q1, priorità Q4; attivazione del circuito-breakers.
Tariffe: aumento del flusso con una domanda stabile, prezzo più alto per i flussi «rumorosi»; qualità sostenibile del take-rate.
Rischi: aumento della sicurezza/compliance degli incidenti fail-closed, aumento delle garanzie S.
Incentivi: domini con PFI/RLI sostenibile per il bonus volume/visibilità; violatori - multe/clawback.
Релизы: regression detector → auto rollback/feature flag.
9) Incidente-gestione
1. Rilevamento: anomalie p95/finalità/errori/costo.
2. Classificazione Integrity/Availability/Performance/Compliance.
3. Isolamento: trip per-route, drenaggio delle code, limiti, quorum manuale.
4. Rimborsi dal pool di assicurazione RNFT.
5. Post mortem: rapporto pubblico, aggiornamento delle firme, regolazione dei pesi/limiti.
10) Relazione con contratti e ruoli
Diritti RNFT: SLO/limiti individuali per nodi/provider/affiliati.
R-reputazione: modificatore di accesso/voce e prezzi; qualità sostenibile dei requisiti di S.
Le garanzie S coprono incidenti, slashing per irregolarità.
11) Formule e punti di riferimento
SuccessRate = 1 − (timeouts + errors)/requests
= p99/p50 (corridoi)
Cost/Req = Risorse x puntata/richieste di successo
(Jain) = ( x) m2/( n· x m2) per quote/risorse
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Playbook di implementazione (per passo)
1. Mappatura dei tratti critici e delle classi di QoS; negoziazione SLO.
2. Schema di telemetria: traccia, metriche, fogli di criteri, passaporti eventi.
3. Normalizzazione: schede robastiche, finestre EWMA, winsorization.
4. ISS v1. 0: pesi di partenza, soglie di zona, procedure sunset.
5. Dashboard e alert: budget errato, trigger policy hooks.
6. Benchmark e chaos: prove regolari, esercitazioni failover.
7. Incidenti: modelli post mortem, assicurazione, multe RNFT.
8. 治理 Processo di modifica SLO/pesi/corridoi, revisione trimestrale.
9. Automazione: collegamento con routing, quote, tariffe e feedback.
10. Il pilota ha scalato da un dominio a un cartone animato.
13) Programma di salute KPI
Percentuale di tracciati con SLO verde ≥ X%; MTTR mediana ≤ Z h.
Riduzione del livello di TailAmplification con throughput stabile.
Riduzione di Cost/Req e DLQ depth senza peggiorare la success rate.
Crescita NRR/GRR con sicurezza costante o migliore.
Tempestività dei rapporti (TTC rapporto ≤ Y ore), copertura con benchmark ≥ K%.
Giustizia: FairnessIndex nel corridoio, riduzione degli incidenti «noisy neighbor».
14) Foglio di assegno prod pronto
- Definiti SLO/SLA per classi di QoS e domini
- Tracciabilità E2E, Idempoted e Deadup
- Le normalizzazioni robastiche e l'ISS sono state introdotte
- Alert, budget errato e trigger auto configurati
- Sono disponibili i dashboard Performance/Relatability/Security/Economy/Compliance
- Funzionano i benchmark e i chaos-test; descritto post mortem
- Integrati i diritti RNFT, le politiche R/S e il fondo assicurativo
- Report e revisioni regolari dei pesi pubblici
15) Glossario
ISS: Composizione della salute della rete a partire da sab-indici.
SLO/SLA - Livelli di servizio mirati/contrattuali.
Errore budget: percentuale valida di errori prima delle reazioni.
TailAmplification, aumenta la coda dei ritardi.
DLQ/Replay: quarantena/riqualificazione.
Procedura Sunset - Modifiche temporanee ai parametri di recupero automatico.
16) Totale
La valutazione della salute della rete non è un rapporto «retroattivo», ma un circuito operativo di controllo: metriche robastiche, compositi, soglie SLO, attività automatiche e rapporti pubblici. Questo sistema rende l'ecosistema prevedibile, resistente agli shock e onesto per tutti i ruoli, dai nodi ai provider ai creatori e agli operatori.