Şəbəkə sağlamlığının qiymətləndirilməsi
1) «Şəbəkə sağlamlığı» nədir və niyə ölçmək lazımdır
Şəbəkə sağlamlığı - ekosistemin hədəf xidmət səviyyələrini (SLO), təhlükəsizliyi, iqtisadi səmərəliliyi və partlayışlar, uğursuzluqlar və tələbin dəyişməsi zamanı proqnozlaşdırıla bilən təkamülü sabit şəkildə təmin etmək qabiliyyətinin vəziyyətidir.
Qiymətləndirmə məqsədləri:- deqradasiya və risklərin erkən aşkarlanması;
- tariflərin, kvotaların, stimulların və prioritetlərin faktiki idarə edilməsi;
- iştirakçılar üçün şəffaflıq (qovşaqlar, provayderlər, operatorlar, yaradıcılar, affiliatlar);
- -həllər və post-mortemlər.
2) Sağlamlıq domenlərinin xəritəsi
1. Performans və mövcudluq: latency/throughput, error rate, finality, növbələr.
2. Etibarlılıq və davamlılıq: MTBF/MTTR, backpressure, QoS deqradasiyası.
3. Təhlükəsizlik və etimad: autentifikasiya/avtorizasiya, bütövlük hadisələri, slashing, frod.
4. İqtisadiyyat və effektivlik: cost-to-serve, marja/mesaj, resursların ədaləti.
5. və proseslər: parametrlər-konvergensiya sürəti, geri qaytarılmayan relizlər, hesabat intizamı.
6. Uyğunluq və məxfilik: geo/yaş, sanksiyalar, məlumatların saxlanması/silinməsi, ZK-pruflar.
3) Metrik taksonomiya (etalon)
3. 1 Məhsuldarlıq (per sinfi QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3. 2 Etibarlılıq
SLA fasilələri/1k hadisələr, MTBF/MTTR, flap-rate balanslayıcılar.
Backpressure recovery time, DLQ depth, replay success%.
3. 3 Təhlükəsizlik
Bütövlük hadisələri/əmr oğurluğu, şübhəli siqnallar/1k,
Səhv Accept/Reject uyğunluq, açar/imza toqquşması.
Slashing events, oracle uyğunsuzluqlar, MEV-ekspozisiya (tətbiq olunarsa).
3. 4 İqtisadiyyat
Cost/Req, Cost/GB DA, marja/mesaj, gəlir/bayt,
NRR/GRR, ARPU/ARPPU, təkrar gəlir payı,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3. 5 və proseslər
Geri qaytarılmadan buraxılışların müvəffəqiyyəti, pozaların koordinasiya vaxtı,
parametrləşdirmə sürəti (konvertasiya), bençmark örtük.
3. 6 Uyğunluq və məxfilik
yoxlanılmış DID/VC payı, geo/yaş kilidi,
tənzimləyicinin sorğusuna cavab vaxtı, saxlama/silmə hadisələri.
4) Kompozit «Şəbəkə Sağlamlığı İndeksi» (İZS)
İZS - Performance (PFI), Reliability (RLI), Security & Trust (STI), Economics (ECI), Governance (GVI), Compliance (CFI) kimi sab-indekslərdən ibarət tərkib.
Metrlərin normallaşdırılması:- robust z-score və ya robust min-max [P5, P95]; EWMA hamarlaşdırma; quyruqları winsorization.
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
burada çəkilər (W_k) və (w {k, i}) Governance Registry-də saxlanılır və sunset proseduru ilə dəyişir.
Zonaların göstəriciləri:- Yaşıl: İZS ≥ 0. 70 - kvota/həcmlərin artması, keyfiyyət bonusları.
- Sarı: 0. 50–0. 70 - nöqtə sazlama, araşdırma.
- Qırmızı: <0. 50 - stop-kranlar, limitlərin azaldılması, MTTR/korreksiyalara diqqət.
5) Eşik SLO və «qapı» (gates)
Hədəf SLO nümunələri (tənzimlənən):- Q4 API: success ≥ 99. 99%, p95 ≤ 200 ms, DLQ = 0.
- Q3 Messaging: 10 ≤/saat ⁻⁶ pozulması, p95 ≤ 500 ms.
- Bridge/Finality: saxta təsdiqlər = 0; MTTR anomaliyalar ≤ 1 saat
- DA: son ≤ 3 × T _ block; throughput ≥ X GB/ч.
- Batch/Stream: T pəncərəsi 20% ≥ bir marjaya uyğundur; lag ≤ 2×window.
- Təhlükəsizlik: bütövlük hadisələri = 0; FPR/FNR dəhlizlərdə.
SLO → avtomatik triggers pozulması (§ 8).
6) Məlumatların toplanması, keyfiyyəti və qorunması
İdempotentlik/dedup: ULID/trace, TTL ilə seen-cədvəllər.
Track E2E: 'x _ msg _ id' domenlər/bridges/DA vasitəsilə korrelyasiya.
Anti-oyun: blind-run pəncərələri, gizli nəzarət tapşırıqları, sintetik nümunələr.
Privacy: DID/VC, seçici açıqlamalar, ZK-prufs eşikləri.
Etibarlılıq: hadisələrin imzası, batches merklizasiyası, log auditi.
7) «Sağlamlıq» Daşbordları
Network Health Overview: İZS və sub-indekslər, metrik töhfələr.
Latency & Tail: pXX, TailAmplification domen/marşrutlar üzrə heatmap.
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
Security & Trust: şübhəli siqnallar, slashing, oracle uyğunsuzluqlar.
Economy: Cost-to-Serve, marja/mesaj, resursları fairness.
Finality & Bridge Risk: finality lag, challenge, körpü hadisələri.
Compliance: geo-bloklar, yaş, hesabat, tənzimləyici sorğular.
8) Avtomatik reaksiya siyasəti (policy hooks)
SLO-qapı: həddindən artıq büdcə → ↓ Q0/Q1 kvotaları, prioritet Q4; circuit-breakers daxil.
Tariflər: davamlı tələbat ilə TailAmplification artımı → ↑ qiymət «səs-küylü» axınlar; davamlı keyfiyyət → ↓ take-rate.
Risklər: Təhlükəsizlik/Compliance insidentlərin artımı → fail-closed, S-girov artımı.
Stimullar: sabit PFI/RLI → həcm/görünürlük bonusu ilə domenlər; pozucular - cərimələr/clawback.
Релизы: regression detector → auto rollback/feature flag.
9) Hadisə-menecment
1. Detekt: p95/final/səhv/dəyər anomaliyaları.
2. Təsnifat: Integrity/Availability/Performance/Compliance.
3. İzolyasiya: trip per-route, drenaj növbələri, limitlər, əl kvorumu.
4. Kompensasiya: RNFT siyasətçiləri üçün sığorta hovuzundan.
5. Post-mortem: ictimai hesabat, işarələrin yenilənməsi, tərəzi/limitlərin tənzimlənməsi.
10) Müqavilələr və rollarla əlaqə
RNFT hüquqları: qovşaqlar/provayderlər/filiallar üçün xüsusi SLO/limitlər.
R-nüfuz: giriş/səs və qiymət modifikatoru; davamlı keyfiyyət → ↓ S. üçün tələblər
S-girovlar: hadisələrin əhatə dairəsi, pozuntular zamanı slashing.
11) Formullar və göstərişlər
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification = p99/p50 (dəhlizlər verilir)
Cost/Req = Σ (resurs × bahis )/uğurlu _ sorğular
FairnessIndex (Jain) = (Σ x) ²/( n· Σ x ²) kvotalar/resurslar üzrə
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12) Giriş playbook (addımlarla)
1. Kritik traktların və QoS siniflərinin xəritəsi; SLO koordinasiyası.
2. Telemetriya sxemi: izləmə, metrika, siyasət qeydləri, hadisə pasportları.
3. Normallaşma: fırçalanmış şkalalar, EWMA pəncərələri, winsorization.
4. İZS v1. 0: başlanğıc çəkiləri, zonaların həddi, sunset prosedurları.
5. Daşbordlar və alertlər: error-büdcələr, policy hooks tetikləyiciləri.
6. Bençmarklar və chaos: müntəzəm qaçışlar, failover-təlimlər.
7. Hadisələr: post-mortem şablonları, sığorta fondu, RNFT-cərimələr.
8. : SLO/tərəzi/dəhlizlərin dəyişdirilməsi prosesi, rüblük yoxlamalar.
9. Avtomatlaşdırma: marşrutlaşdırma, kvotalar, tariflər və buraxılış gates ilə əlaqə.
10. Pilot → miqyaslandırma: bir domendən multicain.
13) «Sağlamlıq» proqramının KPI
Yaşıl SLO ilə traktların payı ≥ X%; MTTR media ≤ Z saat.
Sabit throughput ilə Δ TailAmplification azaldılması.
Aşağı Cost/Req və DLQ depth pozulmadan success rate.
Dəyişməz və ya daha yaxşı təhlükəsizlik ilə NRR/GRR artımı.
Hesabatların vaxtında olması (TTC hesabatı ≤ Y saat), ≥ K% -lə əhatə olunması.
Ədalət: FairnessIndex dəhlizdə, «noisy neighbor» hadisələrinin azalması.
14) Hazırlıq yoxlama siyahısı
- SLO/SLA QoS sinifləri və domenləri ilə müəyyən edilmişdir
- E2E izi, idempotentlik və dedup həyata keçirilmişdir
- Robast normallaşdırma və IZS-in tətbiq edilməsi
- Konfiqurasiya edilmiş alertlər, error-büdcələr və avto-tetikləyicilər
- Dashboard Performance/Reliability/Security/Economy/Compliance mövcuddur
- Benchmark və chaos qaçışları işləyir; post-mortemlər təsvir
- RNFT hüquqları, R/S siyasəti və sığorta fondu inteqrasiya
- Müntəzəm ictimai hesabat və tərəzi reviziyaları quruldu
15) Sözlük
İZS: alt indekslərdən sağlamlıq şəbəkəsini təşkil edir.
SLO/SLA: xidmətin hədəf/müqavilə səviyyələri.
Error budget: reaksiyalardan əvvəl səhvlərin icazə verilən nisbəti.
TailAmplification: quyruq gecikmələri gücləndirmək.
DLQ/Replay: karantin/təkrar emal.
Sunset proseduru: avtomatik geri çəkilmə ilə parametrlərin müvəqqəti dəyişikliklər.
16) Yekun
Şəbəkə sağlamlığının qiymətləndirilməsi «geriyə» hesabat deyil, idarəetmənin əməliyyat konturudur: robast metriklər → kompozitlər → eşik SLO → avtomatik hərəkətlər → ictimai hesabat və ya . Bu sistem ekosistemi proqnozlaşdırıla bilən, şoka davamlı və bütün rollar üçün dürüst edir - qovşaq və provayderlərdən yaradıcılara və operatorlara qədər.