उच्च उपलब्धता и SLA
उच्च उपलब्धता и SLA
1) व्यवसाय के साथ शर्तें और कनेक्शन
SLI (सेवा स्तर संकेतक) - मापा सेवा संकेतक (उदाहरण के लिए, सफल अनुरोधों का अनुपात 2xx/3xx ≤ T ms)।
एसएलओ (सेवा स्तर उद्देश्य) - लक्ष्य एसएलआई मूल्य (उदा। "99. अनुरोधों का 95% ≤ 300 ms")।
एसएलए (सेवा स्तर का समझौता) - ग्राहक के लिए संविदात्मक दायित्व (उल्लंघन के मामले में जुर्माना/क्रेडिट)।
एचए (उच्च उपलब्धता) - वास्तुशिल्प और परिचालन उपाय जो आपको एसएलओ/एसएलए करने की अनुमति देते हैं।
सिद्धांत: एसएलए एसएलओ पर निर्भर करता है और एसएलओ मनाया एसएलआई पर निर्भर करता है। आप SLA में वादा नहीं कर सकते कि आप क्या मापते हैं।
2) "नाइन" और पहुंच गणित
प्रति अवधि उपलब्धता = 'वर्क _ टाइम/टोटल _ टाइम'। बेंचमार्क (प्रति वर्ष):उपलब्धता की संरचना
अनुक्रमिक श्रृंखला (लाल पथ निर्भरता): 'A _ Total = A_i' ((प्रत्येक घटक कुल को कम करता है)।
समानांतर परिसंपत्ति नोड्स: 'A _ total = 1 − − A_i ())' (आरक्षित कुल बढ़ जाता है)।
3) वास्तव में क्या मापना है (सही SLI)
उपयोगकर्ता दृश्य: कुंजी संचालन (लॉगिन, जमा, चेक-आउट) और उनकी विलंबता p99 का सफल समापन।
टाइम कॉरिडोर: स्लाइडिंग विंडो (5/30/60 मिनट) और क्षेत्र द्वारा कुल।
अपवाद: "अनुसूचित खिड़कियां" एसएलओ में गिनी जाती हैं, और केवल एसएलए में यदि अनुबंध ऐसा कहता है।
SLI प्रकार:- उपलब्धता: सफलता दर ≤ टी।
- गुणवत्ता: p95/p99 विलंबता।
- समग्र: "सफल जमा का हिस्सा ≤ 5 एस।"
4) त्रुटि बजट और बर्न दर
त्रुटि बजट = '1 − SLO'। 99 के लिए। 95% मासिक विंडो 0 देता है। 05% त्रुटियां/डाउनटाइम।
बर्न-रेट: बजट की खपत की गति (जैसे) 4 × का मतलब है कि 6 घंटे में आप दैनिक सीमा खाते हैं)।
नीति: तेजी से दहन के साथ - स्टॉप रिलीज, स्थिरीकरण पर ध्यान केंद्रित, सुविधा-फ्रीज।
5) एचए आर्किटेक्चर: नोड टू रीजन
5. 1 नोड/सेवा
N + 1: कम से कम एक निरर्थक प्रतिकृति (तैनाती ≥ 2, PDB, विरोधी आत्मीयता)।
संसाधन अलगाव: CPU/RAM/IO सीमा, प्राथमिकताएँ ( Class)।
सुंदर शटडाउन/नाली: पुनरारंभ पर कोई अनुरोध ब्रेक नहीं।
5. 2 क्षेत्र/क्षेत्र
मल्टी-एज़: विभिन्न क्षेत्रों में प्रतिकृतियाँ, क्रॉस-ज़ोन संतुलन, स्वतंत्र शक्ति/नेटवर्क।
बहु-क्षेत्र: परिसंपत्ति-संपत्ति (कठिन: डेटा/स्थिरता) या परिसंपत्ति-देयता (सरल: आरपीओ से ऊपर)।
डेटा: पैसे/ऑर्डर (कोरम/आरएएफटी) के लिए सीपी, कैश/स्टोरफ्रंट के लिए ईसी/एपी।
5. 3 नेटवर्क परत और परिधि
L7-LB с हेल्थ-चेक, रीट्री/टाइमआउट/सर्किट-ब्रेकिंग।
वैश्विक यातायात के लिए GSLB/DNS/Anycast, छोटा TTL।
बाहरी पीएसपी/प्रदाताओं को नियंत्रण और गलती-सहिष्णु चैनल।
6) गिरने के बजाय गिरावट
फ़ीचर किल-स्विच (फ़ीचर फ्लैग्स): गैर-महत्वपूर्ण बंद करें, "लाल पथ" को सहेजें।
सरलीकृत पथ पर स्विच करना: तुल्यकालिक → अतुल्यकालिक/कतार, "प्रसंस्करण के लिए स्वीकृत"।
दर-सीमा/कोटा: सभी को छोड़ ने की तुलना में यातायात को सीमित करना बेहतर है।
बासी मोड: जब मूल अनुपलब्ध हो तो कैश/स्थिर डेटा दें।
7) प्रतिबंध प्रबंधन
सर्विस मैप: प्रत्यक्ष/सकर्मक, आलोचना, प्रत्येक का एसएलओ।
कमजोर लिंक: एसएलए के बिना बाहरी प्रदाता - कैश/कतार/डुप्लिकेट में बदल जाता है।
बल्कहेड अलगाव: धीमी गति से मार्गों के लिए अलग-अलग कनेक्शन पूल/कोटा।
टाइमआउट> रिट्रीज़: शॉर्ट टाइमआउट, आइडेम्पोटेंट ऑपरेशन के लिए अधिकतम 1 रिट्रे।
8) संचालन और परिवर्तन
परिवर्तन प्रबंधन: कैनरी/ब्लू-ग्रीन, एसएलओ गेट्स, स्वचालित रोलबैक के माध्यम से रिलीज।
अनुसूचित विंडोज़: मानकीकरण - लंबाई, आवृत्ति, संचार।
घटनाएं: भूमिकाएँ (आईसी/कॉम्स/टेक/डीबी), रनबुक 'और, सुधारात्मक कार्यों के साथ पोस्टमार्टम।
सुरक्षा घटनाएं: यदि समझौता किया जाता है, तो "पैनिक मोड" (रीड-ओनली/टोकन/रोटेशन/ब्लॉकिंग)।
9) अवलोकन और सतर्कता
प्रत्येक मार्ग के लिए RED मॉडल (दर, त्रुटियां, अवधि)।
SLI डैशबोर्ड: क्षेत्र द्वारा और ग्राहक खंड द्वारा उपलब्धता/विलंबता।
बर्न-रेट अलर्ट: तेज (1h, 14। 4 ×), धीमा (6 एच, 2 ×) - एसएलओ विफलता से पहले संकेत।
Exemplars-Switches metrics से alignments तक।
सिंथेटिक्स: बाहरी बिंदुओं (परिधि, भुगतान प्रवाह) से नमूने।
10) दोष सहिष्णुता परीक्षण
खेल-दिन: AZ/क्षेत्रों को अक्षम करने के लिए परिदृश्य, डेटाबेस/कैश गिरावट, बाहरी प्रदाताओं की विफलता।
अराजकता उपकरण: नेटवर्क फोल्ट (विलंबता/हानि), किल-पॉड्स, सीपीयू/आईओ ओवरलोड।
DR-drills: Tier-0 सिस्टम के लिए RTO/RPO का विकास ("बैकअप और DR" देखें)।
11) एसएलए डिजाइन
"उपलब्धता" की परिभाषा: एक घटना (5xx, समय> T, डोमेन त्रुटियों) के रूप में क्या मायने रखता है।
गणना विंडो: माह/तिमाही; नियोजित गतिविधियों का समावेश/बहिष्कार
क्रेडिट/दंड: स्केल (जैसे) 99. 9–99. 99% - X%, कम - Y%)।
ग्राहक जिम्मेदारियां: एकीकरण, उचित सीमा, सीमा के भीतर रिट्रेज़।
सूचनाएं और क्लाइम की प्रक्रिया: शब्द, प्रारूप, साक्ष्य आधार (लॉग/मैट्रिक्स)।
बल का महत्व: कानूनी शब्द और सीमाएं।
उदाहरण (स्केच):- एसएलआई द्वारा "एपीआई उपलब्धता "सफल ≤ 500 एमएस" कम से कम 99 है। 95% प्रति कैलेंडर महीना। अनुसूचित खिड़कियों (48 घंटों में घोषित 60 मिनट/महीने तक) को बाहर रखा गया है। 99 पर। 90–99. 95% - ऋण 5%; 99. 80–99. 90% — 10%; <99. 80% — 25%.»
12) नाइन अर्थव्यवस्था
प्रत्येक अतिरिक्त "नौ" लागत को रैखिक रूप से नहीं बढ़ाता है (दोहरे क्षेत्र, कोरम, प्रदाताओं के डुप्लिकेट, 24 × 7)। टायरिंग SLO का उपयोग करें:- Tier-0 (धन/आदेश): 99। 95–99. 99%, मल्टी-एजेड, डीआर तैयार।
- टियर -1 (बुनियादी विशेषताएं): 99। 9–99. 95%, मल्टी-एजेड।
- Tier-2 (गैर-महत्वपूर्ण): 99। 5–99. 9%, घटनाओं के लिए गिरावट/स्टॉप की अनुमति है।
13) परत द्वारा एचए पैटर्न
परिधि: सीडीएन/एज, मल्टी-सीडीएन या जीएसएलबी, डब्ल्यूएएफ, दर-सीमा।
संतुलन: L7 बाहरी-इजेक्शन, टाइमआउट/रिट्रेज़, चिपचिपा/सुसंगत-हैश के साथ।
अनुप्रयोग: क्षैतिज पैमाने, तत्परता/जीवन, पीडीबी, टोपोलॉजी फैल गया।
डेटा: नेता + प्रतिकृतियां, सीपी के लिए कोरम, एल 2 कैश, पहचान, पीआईटीआर।
कतारें: मिररिंग/मल्टीक्लस्टर, डेडअप, डीएलक्यू।
रहस्य/विन्यास: GitOps, परमाणु स्नैपशॉट, रोलबैक।
14) एंटी-पैटर्न
उपकरणों और बाहरी सिंथेटिक्स को मापे बिना SLA।
SPOF के रूप में एकल क्षेत्र/क्लस्टर।
अनियंत्रित रिट्रेज़ - "सेल्फ-डीडीओएस"।
गर्म ट्रैक पर लंबे लेनदेन/उत्परिवर्तन।
कैनरी और रोलबैक योजना के बिना "भारी" प्रवासन/रिलीज।
किसी घटना में हितधारकों के साथ रनबुक और संचार की कमी।
15) कार्यान्वयन चेकलिस्ट (0-60 दिन)
0-15 दिन
महत्वपूर्ण उपयोगकर्ता SLIs को परिभाषित करें, SLO को Tier-0/1/2 स्तरों द्वारा सेट करें
बर्न-रेट अलर्ट, एसएलओ-डैशबोर्ड, सिंथेटिक परिधि जांच शामिल करें।
SPOF निकालें: ≥2 प्रतिकृतियाँ, PDB, मोर्चों और महत्वपूर्ण डेटाबेस के लिए मल्टी-AZ।
16-40 दिन
एसएलओ-गेटिंग और ऑटो-रोलबैक के साथ कैनरी रिलीज़ का परिचय दें।
प्रत्येक "लाल पथ" के लिए निर्भरता मानचित्र + कोटा/पूल/टाइमआउट/पीबी।
नियोजित विंडो और संचार, घटना संदेश टेम्पलेट का विनियमन।
41-60 दिन
खेल-दिवस: AZ का विघटन, एक बाहरी प्रदाता की विफलता, यातायात का "फट"।
एसएलए का पुनर्गणना और वास्तविक क्रेडिट, ग्राहकों को रिपोर्ट का प्रकाशन।
"↔ नौ की लागत" का संशोधन और शूटिंग गैलरी पर फिर से बिछाना।
16) परिपक्वता मैट्रिक्स
≥ 95% महत्वपूर्ण मार्गों में SLI/SLO और बर्न-रेट अलर्ट हैं।
एसएलओ त्रुटियां रिलीज (नीति) के ऑटो-फ्रीज के साथ हैं।
मल्टी-एज़कवरेज Tier-0 = 100%, सफल डीआर-ड्रिल ≥ 1/तिमाही।
"डिटेक्शन → शमन" समय p50 <5 मिनट, p95 <15 मिनट।
"रिलीज ↔ घटनाएं" सहसंबंध - बनाए रखा और कम किया गया (रोलबैक rate↓)।
सार्वजनिक घटना/क्रेडिट रिपोर्ट - एन व्यावसायिक दिनों के भीतर।
17) उदाहरण और स्निपेट्स
बर्न-रेट अलर्ट (नियम विचार):- फास्ट: "एसएलओ 99। 95%, विंडो 1 एच, बर्न ≥ 14। 4 × → पृष्ठ ऑन-कॉल"।
- धीमा: "विंडो 6 एच, बर्न ≥ 2 × → टिकट और निगरानी।"
yaml circuit_breakers:
thresholds:
- max_connections: 200 max_pending_requests: 100 max_requests: 1000 max_retries: 1 outlier_detection:
consecutive_5xx: 5 interval: 5s base_ejection_time: 30s max_ejection_percent: 50
एसएलओ विश्लेषण के साथ कैनरी (आर्गो रोलआउट्स, विचार):
yaml analysis:
templates:
- name: slo-burn metrics:
- name: error-rate successCondition: result < 0. 005 provider: prometheus
SLI सूत्रीकरण उदाहरण:
SLI: fraction_of_good_requests = good(HTTP 2xx/3xx ≤ 500ms) / all(requests)
SLO: ≥ 99. 95% per calendar month, per region
18) निष्कर्ष
उच्च उपलब्धता न केवल समूह और प्रतिकृति है, बल्कि वास्तुकला, प्रक्रियाओं और मैट्रिक्स का एक निरंतर सेट है: स्पष्ट एसएलआई/एसएलए, यथार्थवादी एसएलए, अर्थशास्त्र नाइन, गिरने के बजाय गिरावट, समय/कोटा अनुशासन, कैनरी। सामर्थ्य को औसत दर्जे का और प्रबंधनीय बनाएं - और यह एक प्रतिस्पर्धी लाभ बन जाता है, लॉटरी नहीं।