विश्वसनीयता इंजीनियरिंग
1) एसआरई क्या है और इसकी आवश्यकता क्यों है
साइट विश्वसनीयता इंजीनियरिंग (SRE) विकास और संचालन के इंटरफ़ेस पर एक अनुशासन है जो विश्वसनीयता को एक औसत दर्जे का उत्पाद विशेषता में बदल देता है। एसआरई उपयोगकर्ता अनुभव मेट्रिक्स (एसएलआई), गुणवत्ता लक्ष्य (एसएलओ), त्रुटि बजट, स्वचालन को जोड़ ता है, और लचीलापन के नुकसान के बिना मूल्य वितरित करने के लिए प्रबंधित परिवर्तन करता है।
प्रमुख उद्देश्य पूर्वानुमानित यूएक्स, तेजी से रिलीज, न्यूनतम डाउनटाइम और स्वामित्व की नियंत्रित लागत हैं।
2) एसआरई सिद्धांत
एक सुविधा के रूप में विश्वसनीयता। एसएलओ और व्यावसायिक लक्ष्यों द्वारा निर्धारित सीमाओं को प्राथमिकता देता है।
त्रुटि बजट परिवर्तन की दर को नियंत्रित करता है। यदि बजट जला दिया जाता है, तो ध्यान स्थिरता पर है।
स्वचालन> मैनुअल ऑपरेशन। कोई भी दोहराने योग्य कार्य स्क्रिप्ट/ऑपरेटर/पाइपलाइन है।
मापने की क्षमता। केवल जो मापा जाता है (SLI/SLO) में सुधार किया जा सकता है।
बस संस्कृति। आरोपों के बिना पोस्टमार्टम, प्रणालीगत कारणों पर ध्यान केंद्रि
शिफ्ट-लेफ्ट। गुणवत्ता, सुरक्षा, परीक्षण और अवलोकन विकास चक्र का हिस्सा हैं।
3) संगठन और भूमिकाएँ
प्लेटफ़ॉर्म SRE टीम: सामान्य उपकरण, नीतियां, पाइपलाइन, GitOps, सेवा कैटलॉग।
एम्बेडेड एसआरई: उत्पाद टीम के साथ काम करें, संयुक्त एसएलओ लक्ष्य।
ऑन-कॉल: घुमाव, लोड सीमा, मुआवजा, प्रशिक्षण।
RACI: सेवा के मालिक, SLO के मालिक, घटनाओं में IC, Comms Leade, Scribe।
4) SLI/SLO और त्रुटि बजट (उत्पाद लिंक)
SLI: उपलब्धता, विलंबता, व्यवसाय संचालन की सफलता, डेटा की प्रासंगिकता।
SLO: विंडोज 28-30 दिनों + अपवादों के लिए लक्ष्य।
त्रुटि बजट = 1 − SLO। राजनेता: रिलीज, प्रयोग, कैनरी और सुविधाओं को वास्तविक बर्न-रेट द्वारा विनियमित किया जाता है।
Cohort द्वारा डिजाइन: क्षेत्र, प्रदाता, वीआईपी खंड - व्यक्तिगत SLO ताकि विसंगतियों को न खोया जा सके।
5) डिफ़ॉल्ट अवलोकन
मेट्रिक्स: सफलता/त्रुटि, प्रतिशत p50/p95/p99, संतृप्ति (CPU/mem/IO/conn)।
लॉग: संरचित, अनुरोधों/रिलीज/झंडे के सहसंबंध के साथ।
ट्रेसिंग: देरी और त्रुटियों का अंत-से-अंत मानचित्र, गर्म-पथ।
सिंथेटिक्स + RUM: बाहरी नमूने और वास्तविक ग्राहक टेलीमेट्री।
एसएलओ डैशबोर्ड: बर्न-डाउन बजट, रिलीज एनोटेशन, कैनरी, प्रदाता।
6) परिवर्तन और रिलीज प्रबंधन
पाइपलाइन सीआई/सीडी: नियतात्मक विधानसभाएं, कलाकृतियां हस्ताक्षर, सुरक्षा स्कैन, अनुबंध परीक्षण।
प्रगतिशील रणनीतियाँ: कैनरी/नीला-हरा/छाया; एक जीवन चक्र के साथ झंडे की सुविधा।
गेट क्वालिटी: पॉलिसी-ए-कोड, एसएलओ-रेल, ऑटो-रोलबैक गिरावट के तहत।
GitOps: कोड, पर्यावरण संवर्धन, ऑडिटिंग के रूप में विन्यास/नीतियां।
7) घटनाएं और पोस्टमार्टम
एसईवी/पी-स्तरों पर घोषणा, आईसी को तुरंत सौंपा जाता है, SEV-1 + के साथ रिलीज-फ्रीज।
बर्न-रेट अलर्ट: छोटी और लंबी खिड़कियां, क्षेत्र और नमूना प्रकार द्वारा कोरम।
प्लेबुक: किकबैक, क्षरण, प्रदाता विफल, सीमा/रिट्रेज़।
आरसीए और सीएपीए: तथ्य, कारण, औसत दर्जे की कार्रवाई, नियंत्रण बिंदु (D + 14/D + 30)।
ज्ञान कैटलॉग: टेम्पलेट और सबक का पुन: उपयोग करें।
8) विश्वसनीयता परीक्षण
Microservices के लिए अनुबंध परीक्षण और उपभोक्ता-संचालित अनुबंध।
वास्तविक पैटर्न, p99 परीक्षण/जीसी ठहराव/कतार पूंछ द्वारा प्रोफाइल लोड करें।
अराजकता/लचीलापन के मामले: निर्भरता, नेटवर्क, देरी को अक्षम करना; खेल-दिन और डीआर अभ्यास।
डेटाबेस पलायन: दो संस्करणों के expand→migrate→contract, प्रतिवर्ती, संगतता परीक्षण।
9) क्षमता और लागत प्रबंधन (FinOps)
महत्वपूर्ण रास्तों पर क्षमता इकाइयाँ और हेडरूम।
उपयोगकर्ता मैट्रिक्स और कतार लैग्स द्वारा HPA/VPA/KEDA।
बहु-प्रदाता: कोटा, एसएलओ/विलंबता मार्ग, ऑटो-फीलर।
इकाई-अर्थशास्त्र: $/1k अनुरोध, $/सफल लेनदेन; कैश, लॉग, egress का अनुकूलन।
10) विश्वसनीयता के हिस्से के रूप में सुरक्षा
SAST/DAST/SCA, रहस्यों की खोज, SBOM, छवि हस्ताक्षर।
mTLS और एक्सेस पॉलिसी (OPA/ABAC) न्यूनतम विशेषाधिकार।
कुंजी/प्रमाणपत्र रोटेशन, समय सीमा निगरानी, समाप्ति परीक्षण परिदृश्य।
सुरक्षा घटनाएं - व्यक्तिगत प्लेबुक, फोरेंसिक, नियामक सूचनाएं।
11) संस्कृति और प्रक्रियाएं
एसएलओ समीक्षा: साप्ताहिक/मासिक, बैंगनी सुविधाओं पर ऋण प्राथमिकता।
प्रशिक्षण और सिमुलेशन: ऑन-कॉल ट्रेनिंग, घटना रिहर्सल, अराजकता के दिन।
समान मानक: उत्पादन, एसएलए संचार, पोस्टमार्टम प्रारूप के लिए तत्परता की सूची।
अलर्ट थकान संकेतक: शोर - लक्ष्य सीमा, नियमित ट्यूनिंग।
12) एसआरई समारोह की परिपक्वता मैट्रिक्स
DORA मैट्रिक्स: कमी दर, सीसा समय, MTTR, परिवर्तन-विफलता-दर।
SLO निष्पादन: ग्रीन ज़ोन में सेवाओं का हिस्सा, बर्न-रेट ट्रेंड।
चेतावनी स्वच्छता: % पृष्ठ क्रिया, मध्य चेतावनी/शिफ्ट, झूठी दर।
आरसीए/सीएपीए: समय पर निष्पादन, सिस्टम (गैर-व्यक्तिगत) कारणों का हिस्सा, फिर से खोलने की दर।
लागत: $/SLO बिंदु, $/1k अनुरोध, ऑटोस्केल दक्षता।
13) चेकलिस्ट "उत्पादन के लिए सेवा तत्परता"
- SLI/SLO, SLO मालिक और अवलोकन विंडो परिभाषित हैं।
- डैशबोर्ड और बर्न-रेट अलर्ट ट्यून किए जाते हैं, बाहरी सिंथेटिक्स होते हैं।
- पाइपलाइन: हस्ताक्षर/स्कैन, अनुबंध/एकीकरण परीक्षण, कैनरी/झंडे, ऑटो-रोलबैक।
- डीबी पलायन प्रतिवर्ती हैं, लोड प्रोफाइल कवर चोटियों।
- हादसा प्लेबुक और प्रदाता संपर्क; स्थिति पृष्ठ।
- क्षमता हेडरूम की पुष्टि की; HPA/KEDA और प्रदाता कोटा की जाँच की गई।
- कॉन्फ्रेंस एंड पॉलिसी - गिट में, बुधवार को पदोन्नति, ऑडिटिंग सक्षम।
- सुरक्षा: ऑफ-कोड रहस्य, एमटीएलएस/रोटेशन, टीएलएस समय नियंत्रण में।
14) एंटी-पैटर्न
«99. 999% या कुछ भी नहीं" - अप्राप्य लक्ष्य - अनन्त लाल बर्न-दर।
कैनरी के बिना रिलीज़ और झंडे - बड़े विस्फोट।
एक निगरानी बिंदु - झूठे अलार्म और चूक।
उत्पाद में कॉन्फ़िग के मैनुअल परिवर्तन - बहाव और अस्वीकार्यता।
CAPAs के बिना पोस्टमार्टम - आवर्ती घटनाएं।
वास्तुकला को बदलने के अधिकार के बिना "अग्निशामक" के रूप में SRE - ऋण बंद नहीं है।
15) एसआरई कार्यान्वयन रोडमैप (3-6 महीने के लिए उदाहरण)
1. महीना 1: सेवाओं और महत्वपूर्ण रास्तों की सूची; SLI/SLO ड्राफ्ट; बुनियादी डैशबोर्ड और बर्न-रेट अलर्ट; ऑन-कॉल शुरू करें।
2. महीना 2: कैनरी/फीचर झंडे, ऑटो-किकबैक; GitOps कॉन्फ़िग; एक घटना प्लेबुक कैटलॉग; स्थिति पृष्ठ।
3. महीना 3: विस्तार/अनुबंध योजना के अनुसार अनुबंध परीक्षण, लोड प्रोफाइल, डेटाबेस पलायन; पहला खेल-दिन।
4. महीने 4-6: बहु-प्रदाता मार्ग, डीआर अभ्यास, लागत अनुकूलन, परिपक्वता मैट्रिक्स, टीमों के लिए केपीआई।
16) नीचे की रेखा
एसआरई एक विकास ऑपरेटिंग सिस्टम है: पारदर्शी गुणवत्ता लक्ष्य (एसएलओ), परिवर्तन की नियंत्रित दर (त्रुटि बजट), स्वचालन और घटना अनुशासन, लचीलापन परीक्षण और सचेत लागत। इस दृष्टिकोण के साथ, रिलीज़ दिनचर्या बन जाती है, और विश्वसनीयता एक प्रतिस्पर्धी ला