ارزیابی سلامت شبکه
1) «سلامت شبکه» چیست و چرا آن را اندازه گیری می کند
سلامت شبکه عبارت است از توانایی اکوسیستم برای ارائه مداوم سطح خدمات هدف (SLO)، امنیت، بهره وری هزینه و تکامل قابل پیش بینی در هنگام افزایش، خرابی و تغییر تقاضا.
اهداف ارزیابی:- شناسایی زود هنگام تخریب و خطرات ؛
- مدیریت واقعی تعرفه ها، سهمیه ها، انگیزه ها و اولویت ها ؛
- شفافیت برای شرکت کنندگان (گره ها، ارائه دهندگان، اپراتورها، سازندگان، وابسته) ؛
- راه حل های podpitka治理 و پس از مرگ.
2) نقشه دامنه سلامت
1. عملکرد و در دسترس بودن: تاخیر/توان، نرخ خطا، نهایی، صف.
2. استحکام و استحکام: MTBF/MTTR، فشار پشتی، تخریب QoS.
3. امنیت و اعتماد: احراز هویت/مجوز، حوادث یکپارچگی، بریدن، تقلب.
4. اقتصاد و بهره وری: هزینه برای خدمت، حاشیه/پیام، حقوق صاحبان سهام منابع
5. 治理 و فرایندها: سرعت همگرایی پارامتر، انتشار بدون سر و صدا، نظم و انضباط گزارش.
6. انطباق و حفظ حریم خصوصی: جغرافیایی/سن، تحریم ها، ذخیره سازی/حذف داده ها، اثبات ZK.
3) طبقه بندی معیارها (مرجع)
3. 1 عملکرد (در هر کلاس QoS)
تاخیر p50/p95/p99، TailAmplification = p99/p50.
توان (msgs/s، tx/s، GB/s DA)، عمق صف، تاخیر مصرف کننده.
میزان موفقیت، زمان بندی/تکرار٪، نسبت تکراری، خارج از سفارش٪.
تاخیر نهایی (زنجیره x/پل)، چالش - окна.
3. 2 قابلیت اطمینان
SLA شکستن/1k حوادث، MTBF/MTTR، متعادل کننده فلپ نرخ.
زمان بازیابی فشار پشتی، عمق DLQ، موفقیت پخش٪.
3. 3 ایمنی
حوادث یکپارچگی/سرقت، سیگنال های مشکوک/1k،
False Accept/Reject در انطباق، کلید/امضا برخورد.
کاهش رویدادها، اختلافات اوراکل، قرار گرفتن در معرض MEV (در صورت وجود).
3. ۴ اقتصاد
هزینه/Req، هزینه/GB DA، حاشیه/پیام، درآمد/بایت،
NRR/GRR، ARPU/ARPPU، سهم درآمد تکراری،
FairnessIndex (جین) по CPU/GPU/IO/خروج، شاخص همسایه پر سر و صدا.
3. 5治理 و فرآیندها
موفقیت انتشار بدون بازگشت، زمان بندی مصوبات،
تنظیم سرعت (همگرایی)، پوشش با معیار.
3. 6 انطباق و حریم خصوصی
نسبت DID/VC تایید شده، قفل های جغرافیایی/سن،
زمان پاسخ به درخواست تنظیم کننده، حوادث ذخیره سازی/حذف.
4) شاخص سلامت شبکه (SSI)
IZS ترکیبی قوی از زیر شاخص ها است: عملکرد (PFI)، قابلیت اطمینان (RLI)، امنیت و اعتماد (STI)، اقتصاد (ECI)، حکومتداری (GVI)، انطباق (CFI).
نرمال سازی معیارها:- z-score قوی یا min-max قوی با توجه به [P5، P95] ؛ صاف کردن EWMA ؛ winsorization دم.
[
\ text {SubIndex} k =\sum _ i w {k, i} ,\hat m_{k,i},\quad
\ text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\\مجموع W_k=1,
]
که در آن وزن (W_k) و (w {k, i}) در رجیستری حکومت ذخیره می شود و تغییر با توجه به روش غروب آفتاب.
نشانه های منطقه:- سبز: ≥ 0 است. 70 - رشد سهمیه/حجم، پاداش کیفیت.
- زرد: 0 50–0. 70 - تنظیم نقطه، تحقیقات.
- قرمز: <0 50 - stopcocks، کاهش محدودیت، تمرکز بر MTTR/اصلاح.
5) SLO ها و دروازه های آستانه
نمونه هایی از SLO های هدف (reguliruyutsya治理):- Q4 API: موفقیت ≥ 99. 99٪، p95 ≤ 200 میلی ثانیه، DLQ = 0.
- Q3 پیام رسانی: نقض نظم ≤ 10⁻⁶/soobshch، p95 ≤ 500 ms.
- پل/نهایی: تأییدهای نادرست = 0 ؛ اختلالات MTTR ≤ 1 ساعت.
- DA: ≤ نهایی 3 × T _ block ؛ توان عملیاتی ≥ X GB/ч.
- دسته/جریان: پنجره T متناسب با حاشیه ≥ 20٪ ؛ تاخیر ≤ پنجره 2 ×.
- امنیت: حوادث یکپارچگی = 0 ؛ FPR/FNR در راهروها.
نقض SLO → محرکهای خودکار (§ 8).
6) جمع آوری داده ها، کیفیت و حفاظت
Idempotence/dedup: ULID/ردیابی، جداول دیده شده با TTL.
ردیابی E2E: همبستگی 'x _ msg _ id' از طریق دامنه/پل/DA.
ضد بازی: پنجره های کور، وظایف کنترل پنهان، نمونه های مصنوعی.
حریم خصوصی: DID/VC، افشای انتخابی، اثبات آستانه ZK.
قابلیت اطمینان: امضای رویداد، mercification دسته ای، حسابرسی ورود به سیستم.
7) داشبورد «سلامت»
بررسی سلامت شبکه: SIS و زیر شاخص ها، سهم معیارها.
تاخیر و دم: نقشه حرارتی pXX، TailAmplification توسط دامنه/مسیر.
پنل قابلیت اطمینان: SLA- брейки، MTTR، DLQ/پخش، فشار پشتی.
امنیت و اعتماد: سیگنال های مشکوک، برش، اختلاف اوراکل.
اقتصاد: هزینه برای خدمت، حاشیه/پیام، عدالت در منابع.
خطر نهایی و پل: تاخیر نهایی، چالش، حوادث پل.
انطباق: بلوک های جغرافیایی، سن، گزارش، درخواست های تنظیم کننده.
8) قلاب های سیاست
SLO-gate: خطای بودجه → سهمیه ↓ برای Q0/Q1، اولویت Q4 ؛ فعال کردن قطع کننده مدار.
تعرفه ها: رشد TailAmplification با تقاضای پایدار → قیمت ↑ برای جریان های «پر سر و صدا» ؛ پایدار → کیفیت ↓ نرخ.
خطرات: افزایش حوادث امنیتی/انطباق → بسته شدن، افزایش تعهدات S.
انگیزه ها: دامنه هایی با پاداش PFI/RLI پایدار → حجم/دید ؛ متخلفان - جریمه/clawback.
Релизы: آشکارساز رگرسیون → بازگشت خودکار/پرچم ویژگی.
9) مدیریت حوادث
1. تشخیص: ناهنجاری های p95/نهایی/خطا/هزینه.
2. طبقه بندی: یکپارچگی/در دسترس بودن/عملکرد/انطباق.
3. جداسازی: سفر در هر مسیر، زهکشی صف، محدودیت ها، حد نصاب دستی.
4. جبران خسارت: از استخر بیمه با توجه به سیاست های RNFT.
5. پس از مرگ: گزارش عمومی، به روز رسانی امضا، تنظیم وزن/محدودیت.
10) ارتباط با قراردادها و نقش ها
حقوق RNFT: SLO ها/محدودیت های فردی برای گره ها/ارائه دهندگان/وابسته.
R-شهرت: اصلاح دسترسی/رای و قیمت ؛ پایدار → کیفیت ↓ الزامات S.
S-وعده: پوشش حوادث، کاهش در صورت نقض.
11) فرمول ها و نشانه ها
SuccessRate = 1 − (زمان بندی + خطاها )/درخواست ها
TailAmplification = p99/p50 (راهروهای zadayet治理)
Cost/Req = Σ (منبع × پیشنهاد )/successful _ requests
FairnessIndex (جین) = ( x) /( n· x) بر اساس سهمیه/منبع
اتاق سر = (کلاه − جریان )/کلاه، FinalityScore = f (تاخیر، واریانس، reorgs)
12) کتابچه راهنمای پیاده سازی (در مراحل)
1. نقشه برداری از مسیرهای بحرانی و کلاس های QoS ؛ مذاکرات SLO
2. طرح تله متری: ردیابی، معیارها، سیاهههای مربوط به سیاست، گذرنامه های رویداد.
3. عادی سازی: مقیاس های قوی، پنجره های EWMA، winsorization.
4. IZS V1 0: شروع وزن، آستانه منطقه، روش غروب آفتاب.
5. داشبورد و هشدار: بودجه خطا، سیاست قلاب باعث می شود.
6. بنچمارک ها و هرج و مرج: اجرای منظم، تمرینات شکست خورده
7. حوادث: قالب های پس از مرگ، صندوق بیمه، جریمه RNFT.
8. 治理: SLO/وزن/راهرو تغییر روند، تجدید نظر سه ماهه.
9. اتوماسیون: بسته بندی با مسیریابی، سهمیه، تعرفه ها و دروازه های آزاد.
10. Pilot → Scaling: از یک دامنه به چند زنجیره ای.
13) KPI برنامه «سلامت»
درصد مسیرها با SLO سبز ≥ X٪ ؛ MTTR متوسط ≤ Z ساعت.
کاهش در TailAmplification با Δ در توان پایدار.
کاهش هزینه/Req و عمق DLQ بدون کاهش میزان موفقیت.
رشد NRR/GRR با امنیت بدون تغییر یا بهتر.
به موقع بودن گزارش (گزارش TTC ≤ ساعت Y)، پوشش با معیار ≥ K٪.
عدالت: FairnessIndex در راهرو، کاهش حوادث «همسایه پر سر و صدا».
14) چک لیست تحویل
- SLO/SLA تعریف شده توسط کلاس QoS و دامنه
- پیاده سازی ردیابی E2E، idempotency و deadup
- نرمال سازی قوی و وزن s治理 معرفی شد
- تنظیم هشدارها، بودجه های خطا و راه اندازی خودکار
- عملکرد/قابلیت اطمینان/امنیت/اقتصاد/داشبورد انطباق در دسترس است
- معیار و هرج و مرج کار می کند ؛ پس از مرگ توصیف شده است
- RNFT یکپارچه، سیاست های R/S و صندوق بیمه
- گزارش عمومی منظم و تجدید نظر تعادل ایجاد شده است
15) واژه نامه
IS: ترکیبی از سلامت شبکه از زیر شاخص ها.
SLO/SLA: سطح خدمات هدف/قراردادی.
بودجه خطا - میزان خطای مجاز قبل از واکنش.
TailAmplification: تقویت دم تاخیر.
DLQ/پخش: قرنطینه/پردازش مجدد.
روش غروب آفتاب: تغییرات پارامتر موقت با بازگشت خودکار.
16) خط پایین
ارزیابی سلامت شبکه یک گزارش «عقب ماندگی» نیست، بلکه یک حلقه کنترل عملیاتی است: معیارهای قوی → کامپوزیت → SLO آستانه → اقدامات خودکار → i治理 گزارش عمومی. چنین سیستمی باعث می شود اکوسیستم قابل پیش بینی، مقاوم در برابر شوک و صادقانه برای همه نقش ها - از گره ها و ارائه دهندگان به سازندگان و اپراتورها باشد.