Sostenibilità delle connessioni di rete

(Sezione Ecosistema e Rete)

1) Obiettivo e area

«Resilienza delle connessioni di rete» è la capacità dell'ecosistema di mantenere la disponibilità e la qualità prevedibile delle interazioni tra i partecipanti (operatori, provider, studi, affiliati, nodi/validatori, servizi di pagamento e KYC) in caso di guasti di canali, nodi, regioni e attacchi esterni. Obiettivi chiave: ridurre al minimo l'MTTR, contenere i guasti a cascata, degrado controllato e ripristino rapido fino a SLO target.

2) Modalità guasto (Threat model)

Rete: perdita di pacchetti/jitter, sovraccarico dei canali, flap BGP, interruzioni interregionali, routing asimmetrico.
Trasporti/socket: half-open connessioni, head-of-line blocking (TCP), state exhibation (NAT/conn-track).
Livello applicativo: spine di traffico, richieste «a lungo termine», n + 1 RPC, tempesta di retrai.
Dipendenze: degrado DNS, KMS/PKI, code, TURN/relay, API di terze parti.
Sicurezza: L3/L4/L7, bot floud, avvelenamento della cache, tentativi Sybil/spam.
Operatore: phicheflagi non corretti, rilasci hot senza limiti, timeout errati.

3) Principi di progettazione della sostenibilità

1. Ridondanza su tutti i livelli: percorsi, regioni, provider, relay, DNS, archivi segreti.
2. Isolamento guasti: architettura cell-based, circuiti-breakers, bulkheads, limiti per le chiamate a forma di croce.
3. Fail-fast e time-boxing: timeout brevi nelle chiamate esterne, divieto di attendere per sempre.
4. Idampotenza e retrai sicuri: chiavi idempotenenti, dedotto sul ricevitore.
5. L'osservabilità predefinita è traccia, ID correlati, campioni sintetici.
6. Modalità di degrado: read-only, cache-only, drop-feures, priorità dei flussi critici.
7. L'ingegneria Chaos è la prova della resistenza dell'esperimento.

4) Topologia e ridondanza

P2P + super-peers + DHT ibrido: mesh locale all'interno dei gruppi «contract», super-nodi come ripetitori e cache, DHT per la ricerca.
Anycast/Geo-DNS/SD-WAN: accesso ravvicinato, sovraccarico gestito, health-based routing.
Multi-relay (TURN/HTTP3-tunnels): fornitori indipendenti, budget per relay solo se necessario.
Le regioni Active-Active sono sincronizzate per le letture/eventi idempotati; per le transazioni di denaro - coerenza finale + finalizzazione rigorosa.

5) Protocolli, timeout e retrai

Trasporti: QUIC/HTTP3 (multiplexing senza HoL-blocking, migrazione del percorso), TCP come fallback.

Timing (punti di riferimento):

RPC client timeout: p99_latency×1. 5 (ma 2-3 con interregionale).
Connect timeout: 200-500 mc locale, 700-1200 mc interregionale.
Backoff: esponenziale con jitter; max-retries 2-3 per le chiamate di lettura.
Hejing (hedged recests) - Invia un secondo esecutore dopo p95 ritardi (solo operazioni idompotenti).
Idempotenza: titolo/campo «x-idempotency-key», memorizzazione dei registri di devup dei retrai TTL.
Code e outbox: consegna degli eventi garantita, ripetizione in caso di guasti di rete, deducibilità sui console.

6) Controllo del carico e dell'autodifesa

Rate-limits e quote: leaky-bucket/token-bucket su RPC/topic.
Adattativo load-shedding: reimpostazione di richieste a bassa priorità con maggiore latitanza.
Priorità: soldi/pagamenti> eventi di gioco> telemetria.
Backpressure: finestra dinamica, vincoli di parallelismo, limiti di credito dei banchi.
Connection pooling: pool caldi, limiti per socket/stati NAT aperti.

7) DDoS e sicurezza del canale

L3/L4: upstream scrubbing/Anycast, conn-track защита, SYN-cookies, UDP-rate.
L7: WAF/WAAP, proof-of-work/fee-gate per argomenti aperti, capci/portafogli contro spam.
mTLS/TLS 1. 3 + E2E: crittografia «in viaggio», pinning chiavi super-nodi, rotazione certificati.
Anti-Sybil: registro peer-ID affidabili, reputazione, KYB/KYC per ruoli influenti.
Default di sicurezza: «vietato, se non consentito», ACL top, minimizzazione dei diritti.

8) SLO, SLI e metriche di stabilità

SLO (esempio):

Uptime endpoint critici ≥ 99. 95 %/30d.
p99 latency interregionale 600 ms; error-rate ≤ 0. 2%.
Success-rate P2P-RPC ≥ 99. 5%; Pub/Sub E2E p95 ≤ 2 с.
Relay-share ≤ 30%; DHT resolve p95 ≤ 300 мс.
MTTR SEV-1 da 30 min; MTTA 5 min.

SLI/metriche:

Connecitity% (raggiungibile), percentuale di connessioni dirette, numero medio di vicini.
RTT/Jitter/Loss per classe di traffico; RPC success/failure taxonomy.
Queue depth/lag in broker/relay; DHT hit/miss e l'età delle registrazioni.
Burn-rate SLO (1h/6h/24h); impatto sul business KPI (perdita di GTV/MAU).

9) Osservabilità e campioni sintetici

Tracing: trace-ID passanti, esportazione attraverso il OpenTelemetry, semantica di span per la rete hop.
Logi/metriche: loghi strutturali, cardinalità sotto controllo, unità p95/p99.
RUM + sintetico: metriche personalizzate reali e una griglia globale di campioni (ogni 1-5 minuti) provenienti da regioni/provider chiave.
SLO-dashboard: «semafori» per flussi critici, mappe di ritardi/disponibilità, rapporti di degrado.

10) Modalità di degrado

Read-only/cache-only - Quando si ritaglia una voce in backend.
Stale-while-revalidate - Restituisce una cache aggiornata in background obsoleta ma adatta.
Feature kill-switch - Interruttore rapido delle parti instabili.
Limitazione del fan-out: proibizione del ventaglio di richieste, fuoriuscita di profondità.

11) Chaos-ingegneria (piano)

Faults di rete: 1-5% packet-loss, 100-300 mc jitter, blackhole ASN separati.
Relay/TURN guasto: disattiva N% super-nodi, controlla la percentuale di connessioni dirette.
Degrado DNS/KMS: timeout/errori artificiali, validazione dei folleback.
Tempesta di retroscena. Controllo delle cascate (jitter, limiti, deadup).
Regolamento Game-Day: ipotesi di iniezione di una metrica per migliorare la ripetizione.

12) La strategia e i target DR

RPO/RTO: per i dati di configurazione e ACL-RPO-0 (sincrotrone), RTO-15 min; per la telemetria, ≤ RPO da 5 minuti.
Cataloghi e chiavi: riserve fredde, bacapi periodici falliti, «allenamento di recupero».
Disastri regionali: cambio Anycast/Geo-DNS, riscaldamento della cache, replica code/topic.

13) Pseudo-configurazioni

Criteri dei timeout client e dei retrai (YAML)

yaml client:
rpc:
connect_timeout_ms: 400 request_timeout_ms: 1500 retries:
max_attempts: 2 backoff: exponential base_ms: 100 jitter: true hedging:
enabled: true threshold_ms: 800  # p95 idempotent_only: true

Circuito-breaker e priorità

yaml resilience:
circuit_breaker:
error_rate_threshold: 0. 02 rolling_window_sec: 60 open_duration_sec: 15 priorities:
payouts: high game_events: medium telemetry: low load_shedding:
target_p99_ms: 600 drop_low_priority: true

ACL e canali e2e

yaml security:
mtls: required e2e_topics: [payouts. status, limits. update]
acl:
operators: [12D3KooA..., 12D3KooB...]
providers: [12D3KooC..., 12D3KooD...]

14) Dashboard: layout

Ops (ora/real-time): Connettività%, RPC p99, errore-rate, relay-share, DHT-latency, queue-lag, SLO burn-rate.
Network Health (settimana) - Trend relay-% e RTT, elenchi «rumorosi», successo del traverso NAT, costo del traffico.
Strategy (mese) - Incidenti SEV, MTTA/MTTR, allenamento DR, correlazione con metriche aziendali.

15) Playbook incidenti (spargisale)

Picco di p99 e errori: abilita il degrado (read-only, cache-only), l'hedging, aumenta le quote di flussi critici, apre i tickets a caldo.
Relay-share> soglia - Sposta i pool STUN/TURN, estende i super nodi, rafforza hole-punch, alza temporaneamente la cache TTL.
Tempesta di retroscena: ridurre il max-retries, aumentare il jitter, includere la bandiera globale backoff attraverso il servizio config.
DDoS L7: abilita le regole WAAP, blocca firme/velocità, abilita le PoW/fee-gate su argomenti pubblici, disabilita. endpoint irrilevanti.
Problemi DNS/KMS: utilizzare i provider secondari, le cache locali delle chiavi, cambiare i resoluti.
La regione non è disponibile: failover del traffico (Anycast/Geo-DNS), warming di un'altra regione, calcolo dei limiti.

16) Assegno-foglio di implementazione

1. Fissa SLO/SLI e proprietari (per flusso/top).
2. Implementare timeout/retrai/hejing/idampotenza.
3. Configura i circuiti-breakers, i bullkheads e le priorità.
4. Eseguire campioni sintetici e dashboard globali.
5. Inserisci piano DR (RPO/RTO), regolare allenamento di ripristino.
6. Eseguire il chaos-day trimestrale e la revisione dei parametri.
7. Documentare le modalità di degrado e i modelli di comunicazione.

17) Glossario

Bullkhead - l'isolamento dei sottosistemi per prevenire le cascate.
Circuito breaker - Disattivare automaticamente la dipendenza instabile.
Hedging - richieste competitive dopo la soglia di ritardo.
Outbox/Inbox consente di inviare/ricevere eventi con deduplicazione affidabile.
RPO/RTO - Perdita di dati/tempi di ripristino consentiti.
SLO burn-rate - Velocità di «bruciare» il bilancio degli errori relativi a SLO.

Il risultato è che la sostenibilità delle connessioni di rete non è una sola Fic, ma una disciplina: sovrappeso e isolamento dei guasti, timeout e retrai corretti, priorità severe, osservabilità e test regolari. Questo approccio trasforma i guasti di rete inevitabili in eventi gestiti con un impatto minimo sui flussi aziendali dell'ecosistema.

Sostenibilità delle connessioni di rete

Circuito-breaker e priorità

ACL e canali e2e

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti