नेटवर्क स्वास्थ्य मूल्यांकन
1) "नेटवर्क स्वास्थ्य" क्या है और इसे क्यों माप
नेटवर्क स्वास्थ्य एक पारिस्थितिकी तंत्र की क्षमता की स्थिति है जो लगातार लक्ष्य सेवा स्तर (एसएलओ), सुरक्षा, लागत दक्षता और स्पाइक्स, विफलताओं और मांग में परिवर्तन के दौरान अनुमानित विकार्य है।
मूल्यांकन उद्देश्य:- गिरावट और जोखिमों की प्रारंभिक पहचान;
- टैरिफ, कोटा, प्रोत्साहन और प्राथमिकताओं के तथ्य-आधार प्रबंधन;
- प्रतिभागियों (नोड्स, प्रदाताओं, ऑपरेटरों, रचनाकारों, सहयोगियों) के लिए पारदर्शिता;
- podpitka治理 समाधान और पोस्टमार्टम।
2) स्वास्थ्य डोमेन मानचित
1. प्रदर्शन और उपलब्धता: विलंबता/थ्रूपुट, त्रुटि दर, अंतिम रूप, कतारें।
2. मजबूती और मजबूती: MTBF/MTTR, बैकप्रेशर, QoS गिरावट।
3. सुरक्षा और विश्वास: प्रमाणीकरण/प्राधिकरण, अखंडता की घटनाएं, गिरावट, धोखाधड़ी।
4. अर्थशास्त्र और दक्षता: लागत से सेवा, मार्जिन/संदेश, संसाधन इक्विटी।
5. और प्रक्रियाएं: पैरामीटर अभिसरण की गति, पुनरावृत्ति रिलीज, रिपोर्टिंग अनुशासन।
6. अनुपालन और गोपनीयता: भू/आयु, प्रतिबंध, डेटा भंडारण/विलोपन, जेडके प्रमाण।
3) मैट्रिक्स की वर्गीकरण (संदर्भ)
3. 1 प्रदर्शन (प्रति QoS वर्ग)
लेटेंसी p50/p95/p99, TailAmplification = p99/p50।
थ्रूपुट (msgs/s, tx/s, GB/s DA), कतार गहराई, उपभोक्ता अंतराल।
सफलता दर, टाइमआउट/रिट्रीज़%, डुप्लिकेट अनुपात, आउट-ऑफ-ऑर्डर%।
फाइनलिटी लैग (एक्स-चेन/ब्रिज), चैलेंज- окна।
3. 2 विश्वसनीयता
SLA ब्रेक/1k इवेंट्स, MTBF/MTTR, फ्लैप-रेट बैलेंसर।
बैकप्रेशर रिकवरी टाइम, डीएलक्यू गहराई, फिर से सफलता%।
3. 3 सुरक्षा
ईमानदारी/चोरी की घटनाएं, संदिग्ध संकेत/1k,
गलत स्वीकार करें/अनुपालन में अस्वीकार करें, कुंजी/हस्ताक्षर टकराव।
घटनाओं में कमी, ओरेकल विसंगतियां, एमईवी जोखिम (यदि लागू हो)।
3. 4 अर्थशास्त्र
लागत/रेक, लागत/जीबी डीए, मार्जिन/संदेश, राजस्व/बाइट,
NRR/GRR, ARPU/ARPPU, दोहराए गए राजस्व का हिस्सा,
फेयरनेसइंडेक्स (जैन) по सीपीयू/जीपीयू/आईओ/एग्रेस, शोर पड़ोसी सूचकांक।
3. 5治理 और प्रक्रियाएँ
रोलबैक के बिना रिलीज की सफलता, अनुमोदन का समय,
स्पीड-ट्यूनिंग (अभिसरण), बेंचमार्क के साथ कवरेज।
3. 6 अनुपालन और गोपनीयता
सत्यापित डीआईडी/वीसी, भू/आयु ताले का अनुपात,
नियामक के अनुरोध, भंडारण/विलोपन की घटनाओं के लिए प्रतिक्रिया समय।
4) समग्र "नेटवर्क स्वास्थ्य सूचकांक" (एसएसआई)
IZS उप-सूचकांकों का एक मजबूत संयोजन है: प्रदर्शन (PFI), विश्वसनीयता (RLI), सुरक्षा और ट्रस्ट (STI), अर्थशास्त्र (ECI), शासन (GVI), अनुपालन (CFI)।
मैट्रिक्स का सामान्यीकरण:[P5, P95] के अनुसार मजबूत z-स्कोर या मजबूत मिन-मैक्स; EWMA स्मूथिंग; पूंछ winsorization।
एकत्रीकरण:
[
~ text {SubIndex} k = łsum _ i _ i {k, i}, é hat m_{k,i},\quad
· sum ,
]
जहां वजन (W_k) और (w {k, i}) को शासन रजिस्ट्री में संग्रहीत किया जाता है और सूर्यास्त प्रक्रिया के अनुसार परिवर्तन किया जाता है।
क्षेत्र स्थल:- हरा: IS ≥ 0। 70 - कोटा/वॉल्यूम की वृद्धि, गुणवत्ता बोनस।
- पीला: 0। 50–0. 70 - स्पॉट ट्यूनिंग, जांच।
- लाल: <0। 50 - स्टॉपकॉक, सीमा कम करना, एमटीटीआर/सुधार पर ध्यान केंद्रित करना।
5) थ्रेसहोल्ड एसएलओ और गेट्स
लक्ष्य SLO (reguliruyutsya治理) के उदाहरण:- Q4 API: सफलता ≥ 99। 99%, p95 ≤ 200 ms, DLQ = 0।
- Q3 संदेश: ≤ 10⁻⁶/soobshch के आदेश का उल्लंघन, p95 ≤ 500 ms।
- पुल/अंतिम: झूठी पुष्टि = 0; MTTR असामान्यताएं ≤ 1 एच।
- डीए: अंतिम ≤ 3 × टी _ ब्लॉक; थ्रूपुट ≥ X GB/ч।
- बैच/स्ट्रीम: विंडो टी मार्जिन ≥ 20% के साथ फिट बैठता है; लैग ≤ 2 × विंडो।
- सुरक्षा: अखंडता की घटनाएं = 0; हॉलवे में FPR/FNR।
SLO का उल्लंघन → स्वचालित ट्रिगर () 8)।
6) डेटा संग्रह, गुणवत्ता और सुरक्षा
Idempotence/dedup: ULID/trace, TTL के साथ देखा-तालिकाएँ।
E2E ट्रेसिंग: डोमेन/पुलों/डीए के माध्यम से सहसंबंध 'x _ msg _ id'।
एंटी-गेमिंग: ब्लाइंड-रन विंडो, छिपे हुए नियंत्रण कार्य, सिंथेटिक नमूने।
गोपनीयता: डीआईडी/वीसी, चयनात्मक खुलासे, जेडके दहलीज सबूत।
विश्वसनीयता: घटना हस्ताक्षर, बैच दया, लॉग ऑडिट।
7) "स्वास्थ्य" के डैशबोर्ड
नेटवर्क स्वास्थ्य अवलोकन: एसआईएस और उप-सूचकांक, मैट्रिक्स का योगदान।
विलंबता और पूंछ: pXX, डोमेन/रूट द्वारा TailAmplification हीटमैप।
विश्वसनीयता पैनल: SLA- брейки, MTTR, DLQ/Replay, backpressure।
सुरक्षा और ट्रस्ट: संदिग्ध संकेत, स्लैशिंग, ओरेकल विसंगतियां।
अर्थव्यवस्था: लागत से सेवा, मार्जिन/संदेश, संसाधनों पर निष्पक्षता।
अंतिम और पुल जोखिम: अंतिम अंतराल, चुनौती, पुल की घटनाएं।
अनुपालन: भू-ब्लॉक, आयु, रिपोर्टिंग, नियामक अनुरोध।
8) नीति हुक
SLO-गेट: त्रुटि बजट ओवररन के लिए कोटा, प्राथमिकता Q4; सर्किट-ब्रेकर सक्षम करना।
टैरिफ: स्थिर मांग के साथ TailAmplification वृद्धि "शोर" प्रवाह के लिए मूल्य; टिकाऊ → गुणवत्ता ↓ टेक-रेट।
जोखिम: सुरक्षा/अनुपालन की घटनाओं में वृद्धि - विफल-बंद, एस-प्रतिज्ञाओं में वृद्धि।
प्रोत्साहन: निरंतर पीएफआई/आरएलआई → वॉल्यूम/दृश्यता बोनस वाले डोमेन; उल्लंघनकर्ता - जुर्माना/क्लॉबैक।
Релизы: प्रतिगमन डिटेक्टर → ऑटो रोलबैक/फीचर ध्वज।
9) हादसा प्रबंधन
1. पता लगाना: p95/फाइनलिटी/त्रुटि/लागत विसंगतियाँ।
2. वर्गीकरण: अखंडता/उपलब्धता/प्रदर्शन/अनुपालन।
3. अलगाव: प्रति मार्ग यात्रा, कतार जल निकासी, सीमा, मैनुअल कोरम।
4. मुआवजा: आरएनएफटी नीतियों के अनुसार बीमा पूल से।
5. पोस्टमार्टम: सार्वजनिक रिपोर्ट, हस्ताक्षर अद्यतन, वजन/सीमाओं का समायोजन।
10) अनुबंध और भूमिकाओं से संबंध
RNFT अधिकार: नोड्स/प्रदाताओं/सहयोगियों के लिए व्यक्तिगत SLO/सीमाएँ।
आर-प्रतिष्ठा: पहुंच/वोट और कीमतों का संशोधक; टिकाऊ → गुणवत्ता ↓ S आवश्यकताओं।
एस-प्रतिज्ञा: घटनाओं का कवरेज, उल्लंघन के मामले में गिरावट।
11) सूत्र और स्थल
सफलता दर = 1 − (टाइमआउट + त्रुटियाँ )/अनुरोध
TailAmplification = p99/p50 (zadayet治理 गलियारे)
लागत/Req = (संसाधन × बोली )/सफल _ अनुरोध
कोटा/संसाधन द्वारा फेयरनेस इंडेक्स (जैन) = ( x) /( n· x )
हेडरूम = (टोपी − वर्तमान )/टोपी, FinScore = f (अंतराल, विचरण, पुनर्जन्म)
12) कार्यान्वयन प्लेबुक (चरणों में)
1. महत्वपूर्ण रास्तों और QoS कक्षाओं का मानचित्रण; एसएलओ बातचीत।
2. टेलीमेट्री योजना: ट्रेसिंग, मैट्रिक्स, पॉलिसी लॉग, इवेंट पासपोर्ट।
3. सामान्यीकरण: मजबूत तराजू, EWMA खिड़कियां, winsorization।
4. IZS v1। 0: वजन शुरू करना, ज़ोन थ्रेसहोल्ड, सूर्यास्त प्रक्रियाएं।
5. डैशबोर्ड और अलर्ट: त्रुटि बजट, नीति हुक ट्रिगर।
6. बेंचमार्क और अराजकता: नियमित रन, असफल अभ्यास।
7. घटनाएं: पोस्टमार्टम टेम्पलेट, बीमा फंड, आरएनएफटी जुर्माना।
8. 治理: SLO/वजन/गलियारे बदलने की प्रक्रिया, तिमाही संशोधन।
9. स्वचालन: रूटिंग, कोटा, टैरिफ और रिलीज गेट के साथ बंडलिंग।
10. पायलट → स्केलिंग: एक डोमेन से एक मल्टीचेन तक।
13) "स्वास्थ्य" कार्यक्रम के केपीआई
हरे SLO ≥ X% के साथ पथ का प्रतिशत; MTTR मंझला ≤ Z h।
स्थिर थ्रूपुट पर TailAmplification द्वारा TailAmplification में कमी।
सफलता दर में गिरावट के बिना लागत/रेक और डीएलक्यू गहराई में कमी।
अपरिवर्तित या बेहतर सुरक्षा के साथ एनआरआर/जीआरआर विकास।
रिपोर्टों की समयबद्धता (TTC रिपोर्ट ≤ Y घंटे), बेंचमार्क के साथ कवरेज ≥ K%।
निष्पक्षता: गलियारे में निष्पक्षता, "शोर पड़ोसी" घटनाओं में गिरावट।
14) डिलीवरी चेकलिस्ट
- QoS वर्ग और डोमेन द्वारा परिभाषित SLO/SLAs
- लागू E2E ट्रेसिंग, आइडेम्पोटेंसी और डेडअप
- मजबूत सामान्यीकरण और s治理-वेट पेश किए गए थे
- अलर्ट, त्रुटि बजट और ऑटो ट्रिगर सेट करें
- प्रदर्शन/विश्वसनीयता/सुरक्षा/अर्थव्यवस्था/अनुपालन डैशबोर्ड उपलब्ध
- बेंचमार्क और अराजकता काम करती है; पोस्टमार्टम का वर्णन
- एकीकृत आरएनएफटी, आर/एस पॉलिसी और बीमा निधि
- नियमित सार्वजनिक रिपोर्ट और संतुलन संशोधन स्
15) शब्दावली
आईएस: उप-सूचकांकों से नेटवर्क स्वास्थ्य का एक समग्र।
SLO/SLA: लक्ष्य/संविदात्मक सेवा स्तर।
त्रुटि बजट - प्रतिक्रियाओं से पहले अनुमत त्रुटि दर।
TailAmplification: देरी पूंछ प्रवर्धन।
DLQ/रिप्ले: संगरोध/पुनर्संसाधन।
सूर्यास्त प्रक्रिया: ऑटो-रोलबैक के साथ अस्थायी पैरामीटर बदलता है।
16) नीचे की रेखा
नेटवर्क स्वास्थ्य मूल्यांकन एक "हिंडसाइट" रिपोर्ट नहीं है, लेकिन एक परिचालन नियंत्रण लूप: मजबूत मेट्रिक्स → कंपोजिट → थ्रेशोल्ड एसएलओ → स्वचालित क्रियाएं → सार्वजनिक रिपोर्टिंग i治理। इस तरह की प्रणाली पारिस्थितिकी तंत्र को अनुमानित, सदमे-प्रतिरोधी और सभी भूमिकाओं के लिए ईमानदार बनाती है - नोड्स और प्रदाताओं से लेकर रचनाकारों और ऑपरेटरों तक।