Желі денсаулығын бағалау
1) «Желі денсаулығы» дегеніміз не және оны неге өлшеу керек
Желінің денсаулығы - бұл экожүйенің сервистің мақсатты деңгейлерін (SLO), қауіпсіздікті, экономикалық тиімділікті және көтерілу, істен шығу және сұраныстың өзгеруі кезінде болжамды эволюцияны тұрақты қамтамасыз ету қабілетінің жай-күйі.
Бағалау мақсаттары:- тозу мен тәуекелдерді ерте анықтау;
- тарифтерді, квоталарды, ынталандырулар мен басымдықтарды басқару фактісі-бейс;
- қатысушылар үшін ашықтық (тораптар, провайдерлер, операторлар, жасаушылар, аффилиаттар);
- шешімдер мен пост-мортемаларды толықтыру.
2) Денсаулық домендерінің картасы
1. Өнімділік және қол жетімділік: latency/throughput, error rate, finality, кезектер.
2. Сенімділік және тұрақтылық: MTBF/MTTR, backpressure, QoS деградациясы.
3. Қауіпсіздік және сенім: аутентификация/авторизация, тұтастық инциденттері, слэшинг, фрод.
4. Экономика және тиімділік: cost-to-serve, маржа/хабарлама, ресурстардың әділдігі.
5. және процестер: параметр-конвергенция жылдамдығы, қайтарымсыз релиздер, есептілік тәртібі.
6. Комплаенс және құпиялылық: гео/жасы, санкциялар, деректерді сақтау/жою, ZK-пруфтар.
3) Метриканың таксономиясы (эталондық)
3. 1 Өнімділігі (per класс QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3. 2 Сенімділік
SLA-брейктер/1k оқиғалар, MTBF/MTTR, flap-rate теңгерушілер.
Backpressure recovery time, DLQ depth, replay success%.
3. 3 Қауіпсіздік
Тұтастық/тәртіпті ұрлау инциденттері, күдікті сигналдар/1k,
Комплаенстегі False Accept/Reject, кілттер/қолтаңбалар қайшылығы.
Slashing events, оракулдық айырмашылықтар, MEV-экспозиция (егер қолданылса).
3. 4 Экономика
Cost/Req, Cost/GB DA, маржа/хабарлама, кіріс/байт,
NRR/GRR, ARPU/ARPPU, қайталама түсім үлесі,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3. 5в және процестер
Кері қайтарусыз релиздердің табысы, пропозалдарды келісу уақыты,
параметр-тюнинг жылдамдығы (конвергенция), бенчмаркалармен жабу.
3. 6 Комплаенс және құпиялылық
Тексерілген DID/VC үлесі, гео/жас бойынша бұғаттау,
реттегіштің сұрауына жауап беру уақыты, сақтау/жою инциденттері.
4) «Желі денсаулығының индексі» композиті (АҚЖ)
ИЗС - Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI) саб-индекстерінен тұратын робастты композит.
Метриканы қалыпқа келтіру:- robust z-score немесе robust min-max бойынша [P5, P95]; EWMA тегістеу; қалдықтарды winsorization.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
мұнда салмақтар (W_k) және (w {k, i}) Governance Registry-де сақталады және sunset-рәсім бойынша өзгереді.
Аймақ бағдарлары:- Жасыл: ИЗС ≥ 0. 70 - квота/көлемнің өсуі, сапа бонустары.
- Сары: 0. 50–0. 70 - нүктелік тюнинг, тергеу.
- Қызыл: <0. 50 - тоқтату крандары, лимиттерді төмендету, MTTR/түзетуге назар аудару.
5) Шекті SLO және «қақпа» (gates)
Мақсатты SLO мысалдары (реттелетін):- Q4 API: success ≥ 99. 99%, p95 ≤ 200 мс. DLQ = 0.
- Q3 Messaging: тәртіптің бұзылуы ≤ 10 ⁻⁶/сағ., p95 ≤ 500 мс.
- Bridge/Finality: жалған растаулар = 0; MTTR аномалиялар ≤ 1 сағ.
- DA: соңғы ≤ 3 × T _ block; throughput ≥ X GB/ч.
- Batch/Stream: T терезесі 20% -ға ≥; lag ≤ 2×window.
- Security: тұтастық инциденттері = 0; Дәліздердегі FPR/FNR.
SLO → автоматты триггерлердің бұзылуы (§ 8).
6) Деректерді жинау, сапасы және қорғау
Теңсіздік/дедуп: ULID/trace, TTL бар seen-кестелер.
E2E трассировкасы: 'x _ msg _ id' домендер/бриджилер/DA арқылы корреляциясы.
Анти-гейминг: blind-run терезелер, жасырын бақылау тапсырмалары, синтетикалық сынамалар.
Жекелік: DID/VC, селективті ашулар, ZK-босағалардың пруфтары.
Шынайылығы: оқиғаларға қол қою, батчаларды мерклизациялау, логтардың аудиті.
7) «Денсаулық» дашбордтары
Network Health Overview: АҚЖ және саб-индекстер, метрикалық салым.
Latency & Tail: pXX, TailAmplification heatmap домендер/бағыттар бойынша.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Security & Trust: күдікті сигналдар, слэшинг, оракулдық айырмашылықтар.
Economy: Cost-to-Serve, маржа/хабарлама, ресурстар бойынша fairness.
Finality & Bridge Risk: finality lag, challenge, көпір оқиғалары.
Compliance: гео-блоктар, жасы, есептілік, реттегіштің сұраулары.
8) Авто-реакциялар саясаты (policy hooks)
SLO-қақпасы: error-бюджеттің артық шығыны → ↓ Q0/Q1 үшін квоталар, Q4 басымдығы; circuit-breakers қосу.
Тарифтер: тұрақты сұраныс кезінде TailAmplification өсуі → ↑ бағасы «шулы» ағындар; тұрақты сапа → ↓ take-rate.
Тәуекелдер: Security/Compliance инциденттерінің өсуі → fail-closed, S-кепілдіктердің артуы.
Ынталандырулар: тұрақты PFI/RLI → көлемі/көріну бонусы бар домендер; бұзушылар - айыппұлдар/clawback.
Релизы: regression detector → auto rollback/feature flag.
9) Инцидент-менеджмент
1. Детект: р95/ақырғы/қате/құн аномалиялары.
2. Жіктелуі: Integrity/Availability/Performance/Compliance.
3. Оқшаулау: trip per-route, кезекті дренаждау, лимиттер, қол кворумы.
4. Өтемақы: RNFT-саясаткерлер бойынша сақтандыру пулынан.
5. Пост-мортем: жария есеп, сигнатураларды жаңарту, таразыларды/лимиттерді түзету.
10) Шарттармен және рөлдермен байланыс
RNFT-құқықтар: тораптар/провайдерлер/аффилиаттар үшін жеке SLO/лимиттер.
R-беделі: қол жеткізу/дауыс беру және баға модификаторы; тұрақты сапа → ↓ S. талаптары
S-кепілдіктер: инциденттерді жабу, бұзушылықтар кезінде слэшинг.
11) Формулалар мен бағдарлар
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50 (дәліздер тапсырылады)
Cost/Req = Σ (ресурс × мөлшерлеме )/табысты _ сұраулар
FairnessIndex (Jain) = (Σ x) ²/( n· Σ x ²) квоталар/ресурстар бойынша
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Енгізу плейбуки (қадамдар бойынша)
1. Критикалық трактілер мен QoS сыныптарын картаға түсіру; SLO келісу.
2. Телеметрия схемасы: трассировка, метрика, саясат логтары, оқиғалар паспорты.
3. Қалыпқа келтіру: жұмыс шкалалары, EWMA, winsorization терезелері.
4. ИЗС v1. 0: бастапқы салмақтар, аймақ шектері, sunset-процедуралар.
5. Дашбордтар мен алерттар: error-бюджеттер, триггерлер policy hooks.
6. Бенчмаркалар және chaos: тұрақты прогондар, failover-жаттығулар.
7. Инциденттер: пост-мортемалар үлгілері, сақтандыру қоры, RNFT-айыппұлдар.
8. : SLO/таразыларды/дәліздерді өзгерту процесі, тоқсандық ревизиялар.
9. Автоматтандыру: маршруттау, квоталар, тарифтер және релиз-гейтпен байланыстыру.
10. Пилот → масштабтау: бір доменнен мультичейнге.
13) «Денсаулық» бағдарламасының KPI
Жасыл SLO бар трактілердің үлесі ≥ X%; MTTR медиана ≤ Z сағ.
Тұрақты throughput кезінде TailAmplification Δ төмендеуі.
success rate нашарлауынсыз Cost/Req және DLQ depth төмендеуі.
Өзгеріссіз немесе жақсы қауіпсіздікте NRR/GRR өсуі.
Есептердің уақтылығы (есептің TTC ≤ Y сағат), бенчмаркалармен жабу ≥ K%.
Әділеттілік: FairnessIndex дәлізде, инциденттердің «noisy neighbor» төмендеуі.
14) Өнiм дайындығының чек-парағы
- SLO/SLA QoS кластары мен домендері бойынша анықталған
- Іске асырылған трассировка E2E, іспеттілік және дедуп
- Әдеттегідей қалыпқа келтіру және ӨЖЖ енгізілді
- Реттелген алерттар, error-бюджеттер және авто-триггерлер
- Қол жетімді дашбордтар Performance/Reliability/Security/Economy/Compliance
- Бенчмаркалар мен chaos-прогондар жұмыс істейді; пост-мортемалар сипатталған
- Интеграцияланған RNFT құқықтары, R/S саясаты және сақтандыру қоры
- Тұрақты жария есеп беру және таразыларды тексеру жолға қойылды
15) Глоссарий
АҚЖ: саб-индекстерден тұратын желі денсаулығының композициясы.
SLO/SLA: қызметтің мақсатты/шарттық деңгейлері.
Error budget: реакцияға дейінгі қателердің рұқсат етілген үлесі.
TailAmplification: кідірістерді күшейту.
DLQ/Replay: карантин/қайта өңдеу.
Sunset-рәсімі: авто-кері қайтару параметрлерін уақытша өзгерту.
16) Жиынтық
Желі денсаулығын бағалау - бұл «артқы күнмен» есеп беру емес, басқарудың операциялық контуры: робастық метриктер → композиттер → шекті SLO → автоматты іс-әрекеттер → жария есеп беру және т.б. Мұндай жүйе экожүйені болжамды, күйзеліске төзімді және тораптар мен провайдерлерден бастап жасаушылар мен операторларға дейін барлық рөлдер үшін адал етеді.