Redistribuirea traficului
1) Ce este redistribuirea și de ce este necesar
Redistribuirea traficului este schimbarea controlată a rutelor/furnizorilor/cozilor pentru părți ale încărcăturii (fluxuri, chei de cauzalitate, clase QoS) în timpul suprasarcinilor, incidentelor, șocurilor de preț sau modificărilor stării de conformitate. Obiective:- țineți SLO (p95/p99, rata de succes) în timpul exploziilor;
- reduceți timpul de amplificare și finalitate a cozii;
- minimizarea costurilor de servit fără pierderea calității și a comenzii;
- oferă un comportament închis pentru riscuri și încălcări.
2) obiecte, roluri și clase QoS
Obiecte de redistribuire: rute, poduri, sequencere, piscine DA, POP/edge, grupuri GPU/CPU, cozi de service.
Роли: Operator/Router, Furnizor (узел/бридж/DA/GPU), Poarta de Conformitate, Orchestrator, Auditor/Regulator, Treasury/治理.
- Q4 - comenzi limită (critice pentru ordine/finalitate).
- Q3 - fluxuri ordonate (cheie de cauzalitate).
- Q2 - exact o dată în mod eficient (instantanee/facturare).
- Q1/Q0 - telemetrie/analiză/cel mai bun efect.
3) Când să începeți redistribuirea (detectarea)
Declanșatoare (oricare dintre condiții):- p95/p99 deasupra coridorului, TailAmplification = p99/p50 în creștere.
- Adâncimea de coadă sau întârzierea consumatorilor depășesc pragurile.
- Erorile de finalitate/pod cresc, reorg/orfan deasupra normalului.
- Costul/Req pe traseul merge peste buget.
- Eveniment de conformitate: geo/vârstă/sancțiuni → bloc/restricție.
- Semnale de degradare: SLA- брейки, clap-rate, eroare-buget arde.
4) Decizia privind o nouă rută (funcția de utilitate)
Traseul/furnizorul este selectat la „costul” minim așteptat sub rezerva invarianților:
Utility(route) =
wL·Latency_p95_EWMA
+ wJ·Jitter
+ wQ·QueueDepth
+ wC·Cost_per_unit (gas + DA + egress + compute)
+ wF·FinalityTime
+ wR·RiskScore
+ wA·AvailabilityPenalty
+ wG·Geo/CompliancePenalty
Profilurile scalelor depind de clasa QoS: pentru Q4 ↑wL, ↑wF, ↑wR; pentru Q1 ↑wC, ↓wF.
Invarianți duri: „Ordine (adevărat) ∧ Idempotență (adevărat) ∧ Cote (adevărat) ∧ Conformitate (adevărat)”.
5) Algoritmi de redistribuire și mecanică
Hashing consecvent pe cheie → minimizează permutările;
Hot-Shard Relief este o subsegmentare temporară a cheilor fierbinți.
Rutare percentilă - soluții pe p95/p99, nu p50.
EDF/LLF для Q4 (Cel mai vechi termen limită/Cel mai puțin laxitate în primul rând).
Ponderat Fair Queuing/DRR - pondere echitabilă în totalul cozilor.
Găleți cu scurgeri/Token - cote pentru fiecare clasă/traseu/furnizor.
Întrerupătoare de circuit - excursie → redirecționare; probă de recuperare pe jumătate deschisă.
Retractări adaptive - retrageri limitate cu jitter și termene limită.
Niveluri Spillover - downshift: Q0/Q1 lăsați pentru lot/margine, eliberând banda Q3/Q4.
6) Ordine, idempotență, finalitate
Comanda strictă pe cheie (Q3/Q4) pe traseul selectat; cu failover - „stop barieră” + reluare din outbox/inbox, apoi „dezgheț”.
Idempotency key + seen-tables (TTL) - dedup on redelivery.
Finalitatea lanțului X: luați în considerare fereastra „FinalityTime ”/provocare; operațiile critice primesc o cale cu o finalitate totală minimă.
7) Economie de redistribuire
Suprataxe: când cozile/cozile cresc ↑ wC pe rutele congestionate.
Factorul de calitate (QF) al furnizorului afectează volumul și plata.
Limite bugetare: plafoane de cost zilnice/orare și ieșire.
Cârlige de trezorerie: domeniile de calitate durabilă primesc ↓take - rate/↑obyem.
8) Conformitate și geo-reguli
Eșec-închis: stare de îndoială → bloc, cvorum manual.
ZK trece: vârstă/geo docs fără dezvăluire PD.
Politici de export/retenție: DA/ieșire pe regiuni, deduceri fiscale în modul de plată.
Geo-evaziune: bypass semnături → carantină + audit.
9) Observabilitate și alertare
Trace: 'x _ msg _ id',' route _ id', 'provider _ id', bridge/DA stages, finality.
Metrics: p50/p95/p99, retry%, timeout%, duplicate/out-of-order%, adâncime coadă, lag finalitate, cost/req, indice de supratensiune.
Дашборды: Reroute Live, Coada Heatmap, Coadă/Finalitate Monitor, Cost-pe-rută, Corectitudine Panel.
Alerte: eroare-buget arde, clapeta-rata, adâncime DLQ, blocuri de conformitate.
10) Incidente (RCA) și Protocolul de degradare
1. Detectarea (vezi § 3) → izolarea traseului (călătoriei), redistribuirea acțiunilor.
2. Atenuarea: Q0/Q1 descendentă, creșterea priorității Q4/Q3, tăierea limitelor la fluxurile „zgomotoase”.
3. Compensații: din fondul de asigurare (S-gaj, RNFT-reguli).
4. Post-mortem: motive, ajustarea greutății/limitei, actualizarea semnăturii, repetiție.
11) Formule și repere
SuccessRate = 1 − (timeout + erori )/cereri
TailAmplification = p99/p50 (țintă: ↓, coridoare pe QoS)
Headroom = (cap − curent )/capac
Cost/Req = Σ (resursă × ofertă )/solicitări _ de succes
FairnessIndex (Jain) = (Σ x) ²/( n· Σ x ²) prin cotă/resursă
Furnizor QualityFactor: (QF = f (\text {succes}, p95, DLQ, finalitate))
Repere SLO (exemplu):- Q4: succes ≥ 99. 99%, p95 ≤ 200 ms, DLQ = 0, MTTR ≤ 15 min.
- Q3: încălcarea ordinului ≤ 10⁻⁶/soobshch., p95 ≤ 500 ms.
- DA/Bridge: finalitate ≤ 3 × T _ block, confirmări false = 0.
12) 治理: reguli pentru modificarea greutății/cotelor/prețurilor
Schimburi (w), cote, tarife și bonusuri QF.
R-modificarea voturilor pentru roluri calitative (coridor [0. 8..1. 2]).
Sunset editează: modificări temporare cu auto-rollback.
Raportare publică: valori trimestriale ale realocării și audituri de corectitudine.
13) Playbook de implementare (în pași)
1. Cartografierea fluxurilor și cheilor de cauzalitate (prin QoS/regiune/conformitate).
2. Telemetrie și probe: OWD/RTT/jitter/coadă/finalitate/cost (EWMA + p95/p99).
3. Politici de utilitate: pe profiluri de greutate QoS, bugete de costuri, coridoare de supratensiune.
4. Cote și forme: cupe-token pe traseu/furnizor/clasă.
5. Garanții de livrare: outbox/inbox, idempotence, bariere seriale.
6. Corectitudine și backpressure: WFQ/DRR, anti-zgomot, niveluri de deversare.
7. Observabilitate: tablouri de bord, alerte, bugete de erori, DLQ/Replay.
8. Joc-zile/haos: domeniu/pod/DA picătură, preț șoc, geo-bloc.
9. 治理: proceduri pentru modificarea greutății/limitelor/prețurilor (propuneri, apus de soare).
10. Scalarea → pilot: profile A/B, recalibrare, raport public.
14) KPI al programului de redistribuire
Livrare: succes prin clase QoS, DLQ = 0 (Q3/Q4), ↓ duplicat/out-of-order.
Întârziere: p95/p99 și TailAmplification în coridoarele țintă.
Robustețe: țintă ≤ mediană MTTR, ↓ cu clapetă.
Economie: Cost/Req ↓ menținând în același timp SLO; creșterea ponderii rutelor „ieftine”.
Justiție: Jain în hol; reducerea incidentelor „vecinului zgomotos”.
Finalitate/siguranță: finalitate lag ↓, 0 confirmări false.
Conformitate: 100% trece geo/vârstă/sancțiuni, zero încălcări.
15) Lista de verificare a livrării
- QoS, SLO/SLA, cheile de cauzalitate și bugetele de eroare definite
- Politici de utilități implementate, cote și găleți token pe traseu/furnizor
- Incluse consistente hashing, cald-shard relief, EDF/LLF (Q4)
- Outbox/inbox configurat, idempotență și bariere ordinale
- WFQ/DRR, backpressure și împrăștiere niveluri de lucru
- Sunt disponibile tablouri de bord latență/coadă/coadă/finalitate/cost și alerte
- întrerupătoare de circuit, DLQ/Replay și compensare (S-escrow) incluse
- A avut loc joc-zile/haos și post-mortems
- Porțile de conformitate și deducerile fiscale la plăți sunt conectate
- Utverzhden治理 - proces de schimbare a greutății/limitelor/prețurilor (apus de soare)
16) Glosar
Redistribuirea traficului: redirecționarea/redistribuirea gestionată a cozilor/furnizorilor.
Coada de amplificare: p99/p50 - puterea de „coada” de întârzieri.
FinalityTime: timpul până la ireversibilitatea evenimentului transversal.
Rutare utilitară: selectarea traseului prin utilitate agregată.
WFQ/DRR: Disciplina corectă de întreținere a cozii.
Niveluri de împrăștiere: scăderea claselor moi în lot/margine atunci când sunt supraîncărcate.
Întrerupător de circuit: oprirea automată a unei rute degradate.
17) Linia de jos
Redistribuirea traficului este o buclă de stabilitate operațională: măsurăm → rezolvăm → redirecționăm fără a încălca ordinea, finalitatea și regulile. Combinația dintre rutarea utilităților, corectitudinea/cotele, garanțiile stricte de livrare i治理 control transformă ecosistemul multi-lanț într-un sistem adaptiv care poate rezista la vârfuri de cerere, incidente și șocuri de preț - rapid, sincer și economic.