एसआरई संस्कृति और इंजीनियरिंग सिद्धांत
1) एसआरई संस्कृति क्या है
एसआरई संस्कृति उन मूल्यों और प्रथाओं का एक समूह है जो विश्वसनीयता को प्रबंधनीय बनाते हैं: एसएलओ लक्ष्य - त्रुटि-बजट परिवर्तन के सचेत जोखिम घटनाओं पर त्वरित स्थिरीकरण प्रशिक्षण।
प्रमुख प्रतिमान: गति - विश्वसनीयता का दुश्मन। जोखिम पैमाइश और स्वचालित होने पर रिलीज की गति संभव है।
कोर मान:- उपयोगकर्ता-केंद्रित: उपयोगकर्ता के रूप में विश्वसनीयता को दर्शाता है (SLI/SLO)।
- स्वचालन-पहला - कोई भी दोहराने योग्य क्रिया → स्क्रिप्ट/नीति/नियंत्रक।
- ब्लैमलेस: त्रुटियां प्रणालीगत हैं, हम कारणों की जांच करते हैं, लोगों की नहीं।
- डेटा-चालित: मेट्रिक्स और त्रुटि बजट के आधार पर समाधान।
- सादगी: सरल, परीक्षण योग्य तंत्र> "जादू" समाधान।
2) एसआरई इंजीनियरिंग दर्शन
1. SLO/SLI और त्रुटि बजट प्राथमिकताओं और सतर्कता का आधार हैं।
2. हादसा - स्थिरीकरण आरसीए - पहले लक्षण, फिर कारण।
3. मैनुअल लेबर (टॉइल) को कम करना समय के साथ SRE समय का ≤ 50% लक्ष्य है।
4. उत्पादन तत्परता - बाहरी यातायात से पहले "उत्पादन तत्परता" की आवश्यकता होती है।
5. सादगी और अलगाव - कम रिश्ते, अधिक विस्फोट त्रिज्या प्रतिबंध।
6. डिफ़ॉल्ट अवलोकन - मैट्रिक्स/लॉग/ट्रेसेस, एसएलओ विजेट, सिंथेटिक्स।
7. परिवर्तन प्रबंधित हैं - प्रगतिशील वितरण, कैनरी गणना, ऑटो-रोलबैक।
8. डिजाइन - रहस्य, पहुंच, लेखा परीक्षा, न्यूनतम विशेषाधिकार द्वारा सुरक्षा।
9. अध्ययन चक्र - अभ्यास, अराजकता का खेल, पोस्टमार्टम, पूर्वव्यापी।
10. FinOps-जागरूकता - "नाइन की कीमत", लागत से सेवा, प्रभावी SLO।
3) अनुष्ठान और प्रक्रियाएं
3. 1 उत्पादन तत्परता समीक्षा (PRR)
यातायात को सक्षम करने से पहले, सेवा में होना चाहिए:- SLI/SLO, डैशबोर्ड और अलर्ट (तेज/धीमी गति से जलन)।
- स्वास्थ्य-समापन बिंदु '/healthz ', '/readyz', '/startupz '।
- रनबुक/घटनाओं की प्लेबुक, मालिक/ऑन-कॉल, एस्केलेशन श्रृंखला।
- बैकअप/डीआर योजना, संसाधन सीमा, बजट गणना।
- फॉल्ट टॉलरेंस टेस्ट (फ्लैग, रोलबैक स्क्रिप्ट)।
3. 2 साप्ताहिक एसएलओ ब्रीफिंग
सेवा त्रुटि-बजट की स्थिति।
साप्ताहिक घटनाएं, CAPA प्रगति।
रिलीज जोखिम: जहां जमा द्वारा अनुमत/सीमित (बजट)।
3. 3 बिना शुल्क के पोस्टमॉर्टम
तथ्य और समयरेखा, उपयोगकर्ता प्रभाव, जिसने मदद की/बाधा डाली।
प्रणालीगत कारण (प्रक्रियाएं/उपकरण), "अपराधी" नहीं।
मालिकों और समय सीमा के साथ विशिष्ट CAPA, कंपनी के भीतर प्रचार।
3. 4 गेम्स ऑफ कैओस एंड ड्रिल
असफलताओं का नियोजित इंजेक्शन (नेटवर्क, डेटाबेस, कैश, नोड्स) + लक्ष्य एसएलओ।
"गेम डे": स्थिरीकरण समय, एमटीटीआर माप, प्लेबुक समायोजन।
4) सतर्कता और शोर
सिद्धांत:- केवल लक्षणों पर अलर्ट करें: टूटे हुए एसएलओ या उपयोगकर्ता पथ।
- मल्टी-विंडो, मल्टी-बर्न: तेज और धीमे चैनल।
- कोरम/एंटी-फ्लैपिंग: 'के लिए' देरी, रखरखाव के दौरान दमन।
- "सीपीयू> 80%" के साथ नीचे - डैशबोर्ड को ऐसे संकेत, पेजर को नहीं।
- कार्रवाई योग्य ≥ 80% का अनुपात।
- मेडियन टाइम-टू-एक ≤ 5 मिनट (P1)।
- पेजर थकान में कमी: ≤ 1 नाइट पेज प्रति सप्ताह प्रति इंजीनियर।
5) प्रबंधन बदलें
प्रगतिशील वितरण: कैनरी → 10% → 25% → 50% → 100%।
एसएलओ सिग्नल पर ऑटो-रोलबैक (त्रुटियां/विलंबता)।
वैश्विक रोलबैक के बजाय फीचर-फ्लैग और किल-स्विच।
जोखिम से नीति बदलें: तेज लेन - कम जोखिम; सीएबी - केवल उच्च जोखिम।
कैनरी चरण पैटर्न (वैचारिक रूप से):yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }
6) शौचालय की कमी (नियमित मैनुअल श्रम)
शौचालय स्रोतों के उदाहरण: मैनुअल डिप्लोई, रिस्टार्ट, "एक्सेस" टिकट, कतार सफाई।
दृष्टिकोण:- दोहराने योग्य कार्य सूची → स्वचालन/स्व-सेवा।
- केपीआई: शौचालय पर% समय, "स्वचालित चरण/घटना", "स्व-सेवा के लिए मिनट।"
- प्लेटफ़ॉर्म सेवा कैटलॉग (नेमस्पेस, डीबी, कतारें, डैशबोर्ड, अलर्ट)।
7) अवलोकन और एसएलओ-पहला डिजाइन
गोल्डन सिग्नल (विलंबता, यातायात, त्रुटियां, संतृप्ति)।
प्रत्येक टीम में एसएलओ कार्ड: लक्ष्य, खिड़की, बजट, बर्न अलर्ट।
ड्रिलडाउन: मैट्रिक्स से लॉग/ट्रेस तक; डिफ़ॉल्ट लॉग में 'ट्रेस _ आईडी'।
सिंथेटिक्स: ब्लैकबॉक्स + हेडलेस स्क्रिप्ट (लॉगिन/डिपॉजिट/चेकआउट)।
8) क्षमता प्रबंधन और स्थिरता
क्षमता नियोजन: लक्ष्य आरपीएस/प्रतिस्पर्धा, AZ/क्षेत्र द्वारा स्टॉक।
बल्कहेड/शेडिंग: पूल को अलग करना, पहले माध्यमिक कार्यों को विफल करना।
बैकप्रेशर और कतारें: लैग कंट्रोल, डीएलक्यू, अनुकूली प्रतिस्पर्धा।
विफल और DR: RPO/RTO, नियमित DR अभ्यास।
9) विश्वसनीयता के हिस्से के रूप में सुरक्षा
रहस्य: गुप्त प्रबंधक, जेआईटी एक्सेस, ऑडिट।
परिधि, ग्राहक/किरायेदार सीमा पर WAF/DDoS-गार्ड।
पीआईआई कम से कम, घटनाओं में डीएसएआर/कानूनी पकड़।
आपूर्ति श्रृंखला सुरक्षा: कलाकृतियों के हस्ताक्षर, आधार छवि नीति।
10) ऑन-कॉल स्वास्थ्य
"एकल" के बिना घुमाव, आराम की साफ खिड़कियां।
रात में जागने की दहलीज केवल SLO P1/P2 है।
साइकोहाइजीन: नींद की कमी एक परिचालन जोखिम के रूप में दर्ज की जाती है।
मेट्रिक्स: पेज/वीक, नाइट पेज/इंजीनियर, रिकवरी टाइम।
11) एसआरई परिपक्वता मेट्रिक्स
SLO कवरेज: SLO/अलर्ट के साथ महत्वपूर्ण रास्तों का अनुपात ≥ 90%।
त्रुटि-बजट शासन: फ्रीज नियम हैं और लागू होते हैं।
शौचालय: ≤ 30-40% समय, नीचे की ओर प्रवृत्ति।
MTTD/MTTR: त्रैमासिक गतिशीलता में मध्यस्थ।
ऑटो-शमन दर: स्वचालित कार्रवाई के साथ घटनाओं का%।
PRR पास-रेट: रिलीज का प्रतिशत जो उत्पादन तत्परता से पारित हुआ है।
पोस्टमॉर्टम एसएलए: SEV-1 - पोस्टमॉर्टम ≤ 48 घंटे।
12) प्रलेखन और ज्ञान
न्यूनतम सेट:- रनबुक/प्लेबुक (शीर्ष स्क्रिप्ट: 5xx स्पाइक, डीबी लैग, काफ्का लैग, नोड नॉट रेडी, टीएलएस)।
- एसएलओ कार्ड और डैशबोर्ड।
- PRR चेकलिस्ट और रिलीज़ टेम्पलेट।
- प्लेटफ़ॉर्म सेवा कैटलॉग और ओएलए/एसएलए।
- प्रशिक्षण सामग्री: एसआरई 101, अराजकता 101, ऑन-कॉल 101।
13) एंटी-पैटर्न
हीरो-संस्कृति: सिस्टम फिक्स के बजाय "बचाव दल"।
शोर चेतावनी: सीपीयू/पेजर में ड्राइव, सैकड़ों अनावश्यक संकेत।
"DevOps एक आदमी है": धब्बा जिम्मेदारी, कोई मालिक नहीं।
एसएलओ की कमी: "सब कुछ हरा रखें" - प्राथमिकता अराजकता।
देरी से पोस्टमार्टम और "डायन शिकार।"
कैनरी के बिना वैश्विक रोलबैक।
कॉन्फ़िग/रेपो में रहस्य; कोई गतिविधि ऑडिट नहीं।
कार्रवाई योग्य संकेतों के बिना "सुंदर रेखांकन" के रूप में अवलोकन।
14) कलाकृतियाँ पैटर्न
14. 1 SRE-चार्टर (टुकड़ा)
yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]
14. 2 मिनी-पीआरआर चेकलिस्ट
- SLI/SLO और बर्न अलर्ट कॉन्फ़िगर किए गए हैं
- स्वास्थ्य-समापन बिंदु और सिंथेटिक्स
- रनबुक/प्लेबुक + मालिक/ऑन-कॉल
- रोलबैक/फीचर फ्लैग्स/कैनरी
- विलंबता/त्रुटियां/यातायात/संतृप्ति डैशबोर्ड
- सीमाएं/कोटा/रेलिंग सुरक्षा
- डीआर योजना और बैकअप का परीक्षण किया गया
15) चरण द्वारा कार्यान्वयन (4 स्प्रिंट)
स्प्रिंट 1 - फाउंडेशन
महत्वपूर्ण उपयोगकर्ता पथ और एसएलआई को परिभाषित करें।
SLO तैयार करें और बर्न अलर्ट चलाएँ।
PRR और न्यूनतम प्लेबुक भरें।
स्प्रिंट 2 - प्रबंधन बदलें
कैनरी गणना, एसएलओ द्वारा ऑटो-रोलबैक।
स्व-सेवा संचालन, सेवा सूची।
टॉइल इन्वेंट्री और ऑटोमेशन प्लान।
स्प्रिंट 3 - प्रशिक्षण चक्र
पोस्टमार्टम अनुष्ठान, अराजकता खेल कैलेंडर।
डैशबोर्ड SLO + घटनाओं, त्रुटि-बजट की रिपोर्टिंग।
स्प्रिंट 4 - अनुकूलन और स्केल
एसएलओ पोर्टफोलियो, फिनोप्स "लागत प्रति 9"।
डीआर अनुशासन, सुरक्षा लेखा परीक्षा का कार्यान्वयन।
केपीआई ऑन-कॉल, बर्नआउट रोकथाम।
16) मिनी-एफएक्यू
SRE = "सब कुछ ठीक करें"?
नहीं, यह नहीं है। एसआरई विश्वसनीयता प्रणाली का प्रबंधन करता है: एसएलओ, अलर्ट, प्रक्रियाएं, स्वचालन और प्रशिक्षण।
विश्वसनीयता में निवेश करने के लिए किसी व्यवसाय को कैसे समझाएं?
ROI दिखाएं: कम MTTR, उच्च रूपांतरण, कम SLA क्रेडिट, लागत से सेवा, स्थिर रिलीज के नीचे।
क्या मुझे अलग SRE कमांड की आवश्यकता है?
हाइब्रिड मॉडल: महत्वपूर्ण उत्पादों में प्लेटफॉर्म + एम्बेडेड-एसआरई में रणनीतिक एसआरई।
कुल
एसआरई संस्कृति एक स्थिति नहीं है, लेकिन जोखिम के साथ काम करने का एक तरीका है: एसएलओ त्रुटि बजट - प्रबंधित परिवर्तन स्वचालन प्रशिक्षण। सिद्धांतों को ठीक करें, अनुष्ठान (PRR, पोस्टमार्टम, अराजकता के खेल) शुरू करें, शौचालय की शूटिंग करें, "डिफ़ॉल्ट रूप से" अवलोकन करें और इसे कॉल करने का ध्यान रखें। इस तरह आपको सतत विकास की गति, अनुमानित रिलीज और एक विश्वसनीय, किफायती मंच मिलता है।