Оценка здоровья сети
1) Что такое «здоровье сети» и зачем его мерить
Здоровье сети — это состояние способности экосистемы стабильно обеспечивать целевые уровни сервиса (SLO), безопасность, экономическую эффективность и предсказуемую эволюцию при всплесках, отказах и изменениях спроса.
Цели оценки:- раннее выявление деградаций и рисков;
- факт-бейс управление тарифами, квотами, стимулами и приоритетами;
- прозрачность для участников (узлы, провайдеры, операторы, создатели, аффилиаты);
- подпитка治理-решений и пост-мортемов.
2) Карта доменов здоровья
1. Производительность и доступность: latency/throughput, error rate, finality, очереди.
2. Надежность и устойчивость: MTBF/MTTR, backpressure, деградации QoS.
3. Безопасность и доверие: аутентификация/авторизация, инциденты целостности, слэшинг, фрод.
4. Экономика и эффективность: cost-to-serve, маржа/сообщение, справедливость ресурсов.
5. 治理 и процессы: скорость параметр-конвергенции, безоткатные релизы, дисциплина отчетности.
6. Комплаенс и приватность: гео/возраст, санкции, хранение/удаление данных, ZK-пруфы.
3) Таксономия метрик (эталонная)
3.1 Производительность (per класс QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3.2 Надежность
SLA-брейки / 1k событий, MTBF/MTTR, flap-rate балансировщиков.
Backpressure recovery time, DLQ depth, replay success%.
3.3 Безопасность
Инциденты целостности/кражи порядка, подозрительные сигналы / 1k,
False Accept/Reject в комплаенсе, коллизии ключей/подписей.
Slashing events, оракульные расхождения, MEV-экспозиция (если применимо).
3.4 Экономика
Cost/Req, Cost/GB DA, маржа/сообщение, доход/байт,
NRR/GRR, ARPU/ARPPU, доля повторной выручки,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3.5治理 и процессы
Успех релизов без отката, время согласования пропозалов,
скорость параметр-тюнинга (конвергенция), покрытие бенчмарками.
3.6 Комплаенс и приватность
Доля проверенных DID/VC, блокировки по гео/возрасту,
время ответа на запрос регулятора, инциденты хранения/удаления.
4) Композит «Индекс здоровья сети» (ИЗС)
ИЗС — робастный композит из саб-индексов: Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI).
Нормализация метрик:- robust z-score или robust min-max по [P5,P95]; EWMA сглаживание; winsorization хвостов.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
где веса (W_k) и (w{k,i}) хранятся в Governance Registry и меняются по sunset-процедуре.
Ориентиры зон:- Зеленая: ИЗС ≥ 0.70 — рост квот/объемов, бонусы качества.
- Желтая: 0.50–0.70 — точечный тюнинг, расследования.
- Красная: < 0.50 — стоп-краны, понижение лимитов, фокус на MTTR/коррекции.
5) Пороговые SLO и «ворота» (gates)
Примеры целевых SLO (регулируются治理):- Q4 API: success ≥ 99.99%, p95 ≤ 200 мс, DLQ = 0.
- Q3 Messaging: нарушение порядка ≤ 10⁻⁶/сообщ., p95 ≤ 500 мс.
- Bridge/Finality: ложные подтверждения = 0; MTTR аномалии ≤ 1 ч.
- DA: финальность ≤ 3×T_block; throughput ≥ X GB/ч.
- Batch/Stream: окно T укладывается с запасом ≥ 20%; lag ≤ 2×window.
- Security: инциденты целостности = 0; FPR/FNR в коридорах.
Нарушение SLO → автоматические триггеры (§8).
6) Сбор, качество и защита данных
Идемпотентность/дедуп: ULID/trace, seen-таблицы с TTL.
Трассировка E2E: корреляция `x_msg_id` через домены/бриджи/DA.
Анти-гейминг: blind-run окна, скрытые контрольные задания, синтетические пробы.
Приватность: DID/VC, селективные раскрытия, ZK-пруфы порогов.
Достоверность: подписи событий, мерклизация батчей, аудит логов.
7) Дашборды «здоровья»
Network Health Overview: ИЗС и саб-индексы, вклад метрик.
Latency & Tail: pXX, TailAmplification heatmap по доменам/маршрутам.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Security & Trust: подозрительные сигналы, слэшинг, оракульные расхождения.
Economy: Cost-to-Serve, маржа/сообщение, fairness по ресурсам.
Finality & Bridge Risk: finality lag, challenge, инциденты моста.
Compliance: гео-блоки, возраст, отчетность, запросы регулятора.
8) Политики авто-реакций (policy hooks)
SLO-ворота: перерасход error-бюджета → ↓ квоты для Q0/Q1, приоритет Q4; включение circuit-breakers.
Тарифы: рост TailAmplification при стабильном спросе → ↑ цена «шумным» потокам; устойчивое качество → ↓ take-rate.
Риски: всплеск Security/Compliance инцидентов → fail-closed, повышение S-залогов.
Стимулы: домены с устойчивым PFI/RLI → бонус объема/видимости; нарушители — штрафы/clawback.
Релизы: regression detector → auto rollback/feature flag.
9) Инцидент-менеджмент
1. Детект: аномалии p95/финальности/ошибок/стоимости.
2. Классификация: Integrity / Availability / Performance / Compliance.
3. Изоляция: trip per-route, дренаж очередей, лимиты, ручной кворум.
4. Компенсации: из страхового пула по RNFT-политикам.
5. Пост-мортем: публичный отчет, обновление сигнатур, корректировка весов/лимитов.
10) Связь с договорами и ролями
RNFT-права: индивидуальные SLO/лимиты для узлов/провайдеров/аффилиатов.
R-репутация: модификатор доступа/голосов и цен; устойчивое качество → ↓ требования к S.
S-залоги: покрытие инцидентов, слэшинг при нарушениях.
11) Формулы и ориентиры
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50 (коридоры задает治理)
Cost/Req = Σ(ресурс×ставка)/успешные_запросы
FairnessIndex (Jain) = (Σx)²/(n·Σx²) по квотам/ресурсам
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Плейбук внедрения (по шагам)
1. Картирование критичных трактов и классов QoS; согласование SLO.
2. Схема телеметрии: трассировка, метрики, логи политики, паспорта событий.
3. Нормализация: робастные шкалы, окна EWMA, winsorization.
4. ИЗС v1.0: стартовые веса, пороги зон, sunset-процедуры.
5. Дашборды и алерты: error-бюджеты, триггеры policy hooks.
6. Бенчмарки и chaos: регулярные прогоны, failover-учения.
7. Инциденты: шаблоны пост-мортемов, страховой фонд, RNFT-штрафы.
8. 治理: процесс изменения SLO/весов/коридоров, квартальные ревизии.
9. Автоматизация: связка с маршрутизацией, квотами, тарифами и релиз-гейтами.
10. Пилот → масштабирование: от одного домена к мультичейну.
13) KPI программы «здоровья»
Доля трактов с зеленым SLO ≥ X%; MTTR медиана ≤ Z ч.
Снижение TailAmplification на Δ при стабильном throughput.
Снижение Cost/Req и DLQ depth без ухудшения success rate.
Рост NRR/GRR при неизменной или лучшей безопасности.
Своевременность отчетов (TTC отчета ≤ Y часов), покрытие бенчмарками ≥ K%.
Справедливость: FairnessIndex в коридоре, снижение «noisy neighbor» инцидентов.
14) Чек-лист прод-готовности
- Определены SLO/SLA по классам QoS и доменам
- Реализованы трассировка E2E, идемпотентность и дедуп
- Введены робастные нормализации и ИЗС с治理-весами
- Настроены алерты, error-бюджеты и авто-триггеры
- Доступны дашборды Performance/Reliability/Security/Economy/Compliance
- Работают бенчмарки и chaos-прогоны; описаны пост-мортемы
- Интегрированы RNFT-права, R/S-политики и страховой фонд
- Налажен регулярный публичный отчет и ревизии весов
15) Глоссарий
ИЗС: композит здоровья сети из саб-индексов.
SLO/SLA: целевые/договорные уровни сервиса.
Error budget: допустимая доля ошибок до реакций.
TailAmplification: усиление хвоста задержек.
DLQ/Replay: карантин/переобработка.
Sunset-процедура: временные изменения параметров с авто-откатом.
16) Итог
Оценка здоровья сети — это не отчет «задним числом», а операционный контур управления: робастные метрики → композиты → пороговые SLO → автоматические действия → публичная отчетность и治理. Такая система делает экосистему предсказуемой, устойчивой к шокам и честной для всех ролей — от узлов и провайдеров до создателей и операторов.