Оцінка здоров'я мережі
1) Що таке «здоров'я мережі» і навіщо його міряти
Здоров'я мережі - це стан здатності екосистеми стабільно забезпечувати цільові рівні сервісу (SLO), безпеку, економічну ефективність і передбачувану еволюцію при сплесках, відмовах і змінах попиту.
Цілі оцінки:- раннє виявлення деградацій і ризиків;
- факт-бейс управління тарифами, квотами, стимулами і пріоритетами;
- прозорість для учасників (вузли, провайдери, оператори, творці, афіліати);
- podpitka治理 -рішень і пост-мортемів.
2) Карта доменів здоров'я
1. Продуктивність і доступність: latency/throughput, error rate, finality, черги.
2. Надійність і стійкість: MTBF/MTTR, backpressure, деградації QoS.
3. Безпека та довіра: автентифікація/авторизація, інциденти цілісності, слешинг, фрод.
4. Економіка та ефективність: cost-to-serve, маржа/повідомлення, справедливість ресурсів.
5. 治理 та процеси: швидкість параметр-конвергенції, безвідкатні релізи, дисципліна звітності.
6. Комплаєнс і приватність: гео/вік, санкції, зберігання/видалення даних, ZK-пруфи.
3) Таксономія метрик (еталонна)
3. 1 Продуктивність (per клас QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3. 2 Надійність
SLA-брейки/1k подій, MTBF/MTTR, flap-rate балансувальників.
Backpressure recovery time, DLQ depth, replay success%.
3. 3 Безпека
Інциденти цілісності/крадіжки порядку, підозрілі сигнали/1k,
False Accept/Reject в комплаєнсі, колізії ключів/підписів.
Slashing events, оракульні розбіжності, MEV-експозиція (якщо застосовується).
3. 4 Економіка
Cost/Req, Cost/GB DA, маржа/повідомлення, дохід/байт,
NRR/GRR, ARPU/ARPPU, частка повторної виручки,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3. 5治理 та процеси
Успіх релізів без відкату, час узгодження пропозалів,
швидкість параметр-тюнінгу (конвергенція), покриття бенчмарками.
3. 6 Комплаєнс і приватність
Частка перевірених DID/VC, блокування за гео/віком,
час відповіді на запит регулятора, інциденти зберігання/видалення.
4) Композит «Індекс здоров'я мережі» (ІЗС)
ІЗС - робастний композит з саб-індексів: Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI).
Нормалізація метрик:- robust z-score або robust min-max по [P5, P95]; EWMA згладжування; winsorization хвостів.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
де ваги (W_k) і (w {k, i}) зберігаються в Governance Registry і змінюються за sunset-процедурою.
Орієнтири зон:- Зелена: ІЗС ≥ 0. 70 - зростання квот/обсягів, бонуси якості.
- Жовта: 0. 50–0. 70 - точковий тюнінг, розслідування.
- Червона: < 0. 50 - стоп-крани, зниження лімітів, фокус на MTTR/корекції.
5) Порогові SLO і «ворота» (gates)
Приклади цільових SLO (reguliruyutsya治理):- Q4 API: success ≥ 99. 99%, p95 ≤ 200 мс, DLQ = 0.
- Q3 Messaging: порушення порядку ≤ 10⁻⁶/soobshch., p95 ≤ 500 мс.
- Bridge/Finality: помилкові підтвердження = 0; MTTR аномалії ≤ 1 ч.
- DA: фінальність ≤ 3 × T _ block; throughput ≥ X GB/ч.
- Batch/Stream: вікно T укладається з запасом ≥ 20%; lag ≤ 2×window.
- Security: інциденти цілісності = 0; FPR/FNR в коридорах.
Порушення SLO → автоматичні тригери (§ 8).
6) Збір, якість і захист даних
Ідемпотентність/дедуп: ULID/trace, seen-таблиці з TTL.
Трасування E2E: кореляція'x _ msg _ id'через домени/бриджі/DA.
Анти-геймінг: blind-run вікна, приховані контрольні завдання, синтетичні проби.
Приватність: DID/VC, селективні розкриття, ZK-пруфи порогів.
Достовірність: підписи подій, мерклізація батчів, аудит логів.
7) Дашборди «здоров'я»
Network Health Overview: ІЗС і саб-індекси, внесок метрик.
Latency & Tail: pXX, TailAmplification heatmap по доменах/маршрутах.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Security & Trust: підозрілі сигнали, слешинг, оракульні розбіжності.
Economy: Cost-to-Serve, маржа/повідомлення, fairness по ресурсах.
Finality & Bridge Risk: finality lag, challenge, інциденти моста.
Compliance: гео-блоки, вік, звітність, запити регулятора.
8) Політики авто-реакцій (policy hooks)
SLO-ворота: перевитрата error-бюджету → ↓ квоти для Q0/Q1, пріоритет Q4; включення circuit-breakers.
Тарифи: зростання TailAmplification при стабільному попиті → ↑ ціна «галасливим» потокам; стійка якість → ↓ take-rate.
Ризики: сплеск Security/Compliance інцидентів → fail-closed, підвищення S-застав.
Стимули: домени зі стійким PFI/RLI → бонус обсягу/видимості; порушники - штрафи/clawback.
Релізи: regression detector → auto rollback/feature flag.
9) Інцидент-менеджмент
1. Детект: аномалії р95/фінальності/помилок/вартості.
2. Класифікація: Integrity / Availability / Performance / Compliance.
3. Ізоляція: trip per-route, дренаж черг, ліміти, ручний кворум.
4. Компенсації: зі страхового пулу по RNFT-політикам.
5. Пост-мортем: публічний звіт, оновлення сигнатур, коригування ваг/лімітів.
10) Зв'язок з договорами і ролями
RNFT-права: індивідуальні SLO/ліміти для вузлів/провайдерів/афіліатів.
R-репутація: модифікатор доступу/голосів і цін; стійка якість → ↓ вимоги до S.
S-застави: покриття інцидентів, слешинг при порушеннях.
11) Формули і орієнтири
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50 (коридори zadayet治理)
Cost/Req = Σ (ресурс × ставка )/успішні _ запити
FairnessIndex (Jain) = (Σ x) ²/( n· Σ x ²) за квотами/ресурсами
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Плейбук впровадження (за кроками)
1. Картування критичних трактів і класів QoS; узгодження SLO.
2. Схема телеметрії: трасування, метрики, логи політики, паспорти подій.
3. Нормалізація: робастні шкали, вікна EWMA, winsorization.
4. ІЗС v1. 0: стартові ваги, пороги зон, sunset-процедури.
5. Дашборди та алерти: error-бюджети, тригери policy hooks.
6. Бенчмарки і chaos: регулярні прогони, failover-навчання.
7. Інциденти: шаблони пост-мортемів, страховий фонд, RNFT-штрафи.
8. 治理: процес зміни SLO/ваг/коридорів, квартальні ревізії.
9. Автоматизація: зв'язка з маршрутизацією, квотами, тарифами і реліз-гейтами.
10. Пілот → масштабування: від одного домену до мультичейну.
13) KPI програми «здоров'я»
Частка трактів з зеленим SLO ≥ X%; MTTR медіана ≤ Z ч.
Зниження TailAmplification на Δ при стабільному throughput.
Зниження Cost/Req і DLQ depth без погіршення success rate.
Зростання NRR/GRR при незмінній або кращій безпеці.
Своєчасність звітів (TTC звіту ≤ Y годин), покриття бенчмарками ≥ K%.
Справедливість: FairnessIndex в коридорі, зниження «noisy neighbor» інцидентів.
14) Чек-лист прод-готовності
- Визначені SLO/SLA по класах QoS і доменам
- Реалізовані трасування E2E, ідемпотентність і дедуп
- Введені робастні нормалізації та ІЗС s治理 -вісами
- Налаштовані алерти, error-бюджети і авто-тригери
- Доступні дашборди Performance/Reliability/Security/Economy/Compliance
- Працюють бенчмарки і chaos-прогони; описані пост-мортеми
- Інтегровані RNFT-права, R/S-політики та страховий фонд
- Налагоджений регулярний публічний звіт і ревізії ваг
15) Глосарій
ІЗС: композит здоров'я мережі з саб-індексів.
SLO/SLA: цільові/договірні рівні сервісу.
Error budget: допустима частка помилок до реакцій.
TailAmplification: посилення хвоста затримок.
DLQ/Replay: карантин/переобробка.
Sunset-процедура: тимчасові зміни параметрів з авто-відкатом.
16) Підсумок
Оцінка здоров'я мережі - це не звіт «заднім числом», а операційний контур управління: робастні метрики → композити → порогові SLO → автоматичні дії → публічна звітність i治理. Така система робить екосистему передбачуваною, стійкою до шоків і чесною для всіх ролей - від вузлів і провайдерів до творців і операторів.