एसएलए और एसएलओ निगरानी
1) शर्तें और भूमिकाएँ
एसएलए (सेवा स्तर का समझौता) - ग्राहक के लिए बाहरी संविदात्मक दायित्व (दंड खंड, क्रेडिट)।
एसएलओ (सेवा स्तर उद्देश्य) - आंतरिक सेवा स्तर का लक्ष्य जो एसएलए निष्पादन का समर्थन करता है।
SLI (सेवा स्तर संकेतक) - मापा संकेतक, जिसके आधार पर SLO/SLA का मूल्यांकन किया जाता है।
त्रुटि बजट - अवधि के लिए "अनुपलब्धता/त्रुटियों" का अनुमत प्रतिशत: 'बजट = 1 − SLO'।
स्कोप: उपयोगकर्ता की आंखों (एंड-टू-एंड) द्वारा मापा जाता है। Microservices में, घटक स्तर पर और अंत-से-अंत पथ स्तर पर दोनों।
2) एसएलआई चयन: वास्तव में क्या मापना है
मानदंड उपयोगकर्ता अनुभव और व्यावसायिक मूल्य के साथ सहसंबंध है।
विशिष्ट एसएलआई:- उपलब्धता: सफल अनुरोधों का प्रतिशत। 'SLI = सफल/सभी'।
- विलंबता: अनुरोधों का अनुपात सीमा टी। 'SLI = P (विलंबता ≤ T)' की तुलना में तेज है।
- गुणवत्ता: सही उत्तरों का अनुपात (5xx/funts के बिना। त्रुटियां)।
- डेटा अप-टू-डेट - प्रतिकृति विलंबता/ETL ≤ X मिनट।
- व्यवसाय प्रक्रिया निष्पादन: सफल भुगतान/पंजीकरण का हिस्सा।
एंटी-पैटर्न: व्यावसायिक गलतियों की अनदेखी करते हुए केवल 200 को "सफलता" के रूप में गिना जाता है; उपयोगकर्ता नेटवर्क के बजाय परीक्षण नेटवर्क में माप
3) सूत्र और अवलोकन खिड़कियां
प्रति विंडो उपलब्धता:- 'उपलब्धता = (OK_requests/ All_requests) × 100%'।
- 'P95 ≤ T' → एक शेयर के रूप में बेहतर तैयार किया गया है: 'SLI =% अनुरोध ≤ T'।
- उदाहरण: "खोज प्रश्नों का 99% ≤ 28 दिनों में 300 एमएस।"
- स्लाइडिंग विंडो: 28 या 30 दिन (संवेदनशीलता और स्थिरता का संतुलन)। घटनाओं के लिए - अतिरिक्त खिड़कियां: 1 एच, 6 एच, 24 एच।
4) त्रुटि बजट और परिवर्तन दर नियंत्रण
गणना: 'SLO = 99 पर। 9% 'बजट =' 0। 1% 'त्रुटियां/अनुपलब्धता प्रति अवधि।
नीतियाँ:- बजट> 50%: रिलीज और योजना प्रयोगों।
- बजट 10-50%: केवल कम जोखिम वाली रिलीज, कैनरी को कसना।
- बजट <10%: रिलीज फ्रीज, मूल कारण, विश्वसनीयता में सुधार।
- प्रगतिशील रिलीज के साथ संबंध: कैनरी/फीचर-फ्लैग्स खुराक में बजट को "खाएं", गिरावट के तहत ऑटो-रोलबैक के साथ।
5) चेतावनी राजनेताओं: थ्रेसहोल्ड से जलाने की दर तक
क्यों नहीं "daupal SLO - अलर्ट बढ़ाया": बहुत देर हो चुकी है। सक्रियता की जरूरत है।
बर्न रेट (बीआर) - बजट बर्न दर:- 'BR = (इस विंडो में छोटी विंडो/स्वीकृत त्रुटि में देखी गई त्रुटि)'.
- यदि 'बीआर> 1' - बजट सामान्य से अधिक तेजी से सेवन किया जाता है।
- फास्ट अलर्ट (शोर संवेदनशील है, आपदाओं को पकड़ ता है): खिड़की 5-10 मिनट, दहलीज बीआर 14-20 ×।
- धीमी चेतावनी (रेंगने वाली गिरावट को पकड़ ता है): खिड़की 1-6 घंटे, दहलीज बीआर 2-4 ×।
- संयोजन की स्थिति: तेज या धीमी गति से काम किया - ऑन-कॉल पेजिंग।
- स्तर: उपयोगकर्ता एसएलओ के लिए पेजर, आंतरिक एसएलआई के ग्रे क्षरण के लिए टिकट/सूचनाएं।
6) सत्य के अवलोकन और स्रोत
लॉग - कारणों का निदान।
मेट्रिक्स - संख्यात्मक एसएलआई (सफलता/त्रुटि, विलंबता प्रतिशत, भिन्न, काउंटर)।
ट्रेल्स - पथ के माध्यम से, "गर्म" खंडों का स्थानीयकरण।
सिंथेटिक्स - परिधि से सक्रिय नमूने (क्षेत्र-जागरूक)।
वास्तविक कार्यक्रम - आरयूएम/ग्राहक टेलीमेट्री, बिजनेस मैट्रिक्स (रूपांतरण, सफल भुगतान)।
आवश्यकताएं: रिलीज और घटनाओं के डैशबोर्ड में एक एकल चित्र, एनोटेशन "संस्करण/कैनरी/ध्वज"।
7) एसएलओ डिजाइन: चरण-दर-चरण टेम्पलेट
1. महत्वपूर्ण पथ का वर्णन करें (उदाहरण के लिए, "कार्ड द्वारा जमा करें"
2. SLI को परिभाषित करें: सफलता/त्रुटि, विलंबता सीमा, पूर्णता।
3. सहमत SLO: 28-दिवसीय लक्ष्य + अपवाद (अनुसूचित विंडो)।
4. एसएलए से लिंक: कानूनी दायित्व - वास्तविक एसएलओ।
5. एक सेवा स्वामी, RACI और अलर्ट चैनल आबंटित करें।
6. अलर्ट नीतियों (टू-विंडो बीआर) और ऑटो-रोलबैक को परिभाषित करें।
7. लागू करें रिपोर्टिंग: साप्ताहिक बजट समीक्षा, घटना के बाद की समीक्षा।
8. एसएलओ त्रैमासिक (लोड/आर्किटेक्चर परिवर्तन) की समीक्षा करें।
8) एसएलओ उदाहरण (टेम्प्लेट)
भुगतान API:- उपलब्धता: '≥ 99। 95% '(28 डी, घोषित खिड़कियों को छोड़ कर ≤ 30 मिनट/महीना)।
- विलंबता: '≥ 99%' प्रतिक्रियाएं '≤ 400 एमएस'।
- व्यवसाय संचालन की सफलता: '≥ 98। 5% सफल प्राधिकरण (धोखाधड़ीफ़िल्टर को ध्यान में रखा जाता है)।
- विलंबता: '≥ 99%' अनुरोध करता है '≤ 300 ms'।
- कैश प्रासंगिकता: '≤ 5 मिनट' समय का 99% अंतराल।
- डिलीवरी: '≥ 99। 9% 'के लिए' 60 s '(रेट्रास के साथ एंड-टू-एंड)।
- नुकसान: '≤ 0। 01% 'संदेश (idempotency/deduplication सक्षम)।
9) बहु-क्षेत्र और बहु-किरायेदार
SLO "cohort द्वारा": देश, भुगतान प्रदाता, वीआईपी खंड, डिवाइस।
किनारे पर स्थानीय एसएलओ: उपयोगकर्ता (किनारे/पीओपी) के निकटतम बिंदुओं से मैट्रिक्स।
एकत्रीकरण: कुल SLO को महत्वपूर्ण सहकर्मियों में विफलताओं को छिपाना नहीं चाहिए।
स्विचिंग प्रदाता: SLO गेट स्तर पर स्वचालित फॉलबैक मार्ग।
10) डैशबोर्ड और रिपोर्टिंग
रिलीज डैशबोर्ड: संस्करण, कैनरी (% ट्रैफिक), एसएलआई (सफलता/विलंबता), बीआर, फ्लैग एनोटेशन।
ऑपरेटिंग डैशबोर्ड: दिन में बर्न-डाउन बजट, शीर्ष घटनाएं, एमटीटीआर, समस्या सहकर्मी।
साप्ताहिक रिपोर्ट: बजट संतुलन, बीआर रुझान, तकनीकी ऋण (अड़चनें), सुधार योजना।
11) प्रक्रियाएं: घटनाएं, आरसीए और सुधार
हादसा प्रबंधन: अलर्ट बीआर मूल्यांकन - कैनरी/झंडे का पैमाना रोलबैक/फिक्स।
आरसीए (मूल कारण): SLI द्वारा तथ्य/समयसीमा/परिकल्पना/सुधार/प्रभाव की जांच।
सबक सीखा: गैर-दंडात्मक पोस्टमार्टम, मालिकों और समय सीमा के साथ अनिवार्य कार्रवाई आइटम।
लूप क्लोजर: परीक्षणों में परिवर्तन, झंडे, सीमा, कैश, रिट्रे, कोटा।
12) अनुपालन और लेखा परीक्षा
नियंत्रण कलाकृतियों के रूप में SLO/SLI (पॉलिसी-as-code, अपरिवर्तनीय लॉग)।
आवश्यकताओं की कड़ी (उदाहरण के लिए, भुगतान लेनदेन की उपलब्धता)।
साक्ष्य: अलर्ट मिनट, बजट रिपोर्ट, रिलीज/रोलबैक लॉग।
13) बार-बार गलतियाँ और उनसे कैसे बचें
“99. 99% या मृत्यु": अप्राप्य लक्ष्य - निरंतर अलर्ट-शोर। यथार्थवादी एसएलओ चुनें।
वैश्विक औसत स्थानीय डिप्स को छिपाते हैं → cohorts पेश करते हैं।
Metrics e2e नहीं: ग्राहक पर वास्तविक गिरावट के दौरान उच्च SLO → RUM/सिंथेटिक्स जोड़ें।
एक सीमा पर अलर्ट - दो-खिड़की बर्न दर पर स्विच करें।
परिवर्तन का कोई लिंक नहीं है - रिलीज एनोटेट नहीं हैं, कोई ऑटो-रोलबैक नहीं है।
14) मिनी कार्यान्वयन जाँच सूची
- महत्वपूर्ण रास्ते और उनके एसएलआई/एसएलओ का वर्णन किया गया है।
- निगरानी और बहिष्करण विंडो सेट है।
- टू-विंडो बीआर अलर्ट (तेज और धीमी) कॉन्फ़िगर किए गए हैं।
- संस्करणों/झंडों के एनोटेशन के साथ रिलीज़ और संचालन के डैशबोर्ड।
- त्रुटि बजट नीति रिलीज को प्रभावित करती है।
- नियमित बजट समीक्षा और घटना के बाद आरसीए।
- प्रलेखन और स्कोरकार्ड मालिक।
15) गणना उदाहरण (विशिष्ट)
एपीआई उपलब्धता एसएलओ: 99। 28 दिनों में 9% - बजट = 0। 1%.
7 दिनों के लिए 0। 06% त्रुटियों - साप्ताहिक बजट का 60% उपयोग किया।
15 मिनट की छोटी खिड़की पर, 2% त्रुटियां देखी जाती हैं। इस विंडो पर वैध है '0. 1% × (15 मिनट/40320 मिनट) ≈ 0। 000037%`.
बर्न रेट 1 (× के दसियों) - एक तेज पेजर को ट्रिगर किया जाता है, कैनरी 1% तक वापस आ जाती है, डीग्रेड-पेमेंट-यूएक्स फीचर फ्लैग चालू होता है, आरसीए शुरू होता है।
16) नीचे की रेखा
एसएलए/एसएलओ निगरानी न केवल रिपोर्ट में संख्या है, बल्कि परिवर्तन के जोखिम और सेवा की गुणवत्ता के प्रबंधन के लिए एक तंत्र है। सही एसएलआई, यथार्थवादी एसएलओ, त्रुटि बजट प्रबंधन, दो-खिड़की बर्न-रेट अलर्ट और ई-ऑब्जर्वेबिलिटी मेट्रिक्स को काम के समाधान में बदल देते हैं: मूल्य तेजी से जारी करें और उपयोगकर्ता अनुभव को पूर्वानुमान रखें।