GH GambleHub

एसएलए और एसएलओ निगरानी

1) शर्तें और भूमिकाएँ

एसएलए (सेवा स्तर का समझौता) - ग्राहक के लिए बाहरी संविदात्मक दायित्व (दंड खंड, क्रेडिट)।

एसएलओ (सेवा स्तर उद्देश्य) - आंतरिक सेवा स्तर का लक्ष्य जो एसएलए निष्पादन का समर्थन करता है।

SLI (सेवा स्तर संकेतक) - मापा संकेतक, जिसके आधार पर SLO/SLA का मूल्यांकन किया जाता है।

त्रुटि बजट - अवधि के लिए "अनुपलब्धता/त्रुटियों" का अनुमत प्रतिशत: 'बजट = 1 − SLO'।

स्कोप: उपयोगकर्ता की आंखों (एंड-टू-एंड) द्वारा मापा जाता है। Microservices में, घटक स्तर पर और अंत-से-अंत पथ स्तर पर दोनों।

2) एसएलआई चयन: वास्तव में क्या मापना है

मानदंड उपयोगकर्ता अनुभव और व्यावसायिक मूल्य के साथ सहसंबंध है।

विशिष्ट एसएलआई:
  • उपलब्धता: सफल अनुरोधों का प्रतिशत। 'SLI = सफल/सभी'।
  • विलंबता: अनुरोधों का अनुपात सीमा टी। 'SLI = P (विलंबता ≤ T)' की तुलना में तेज है।
  • गुणवत्ता: सही उत्तरों का अनुपात (5xx/funts के बिना। त्रुटियां)।
  • डेटा अप-टू-डेट - प्रतिकृति विलंबता/ETL ≤ X मिनट।
  • व्यवसाय प्रक्रिया निष्पादन: सफल भुगतान/पंजीकरण का हिस्सा।

एंटी-पैटर्न: व्यावसायिक गलतियों की अनदेखी करते हुए केवल 200 को "सफलता" के रूप में गिना जाता है; उपयोगकर्ता नेटवर्क के बजाय परीक्षण नेटवर्क में माप

3) सूत्र और अवलोकन खिड़कियां

प्रति विंडो उपलब्धता:
  • 'उपलब्धता = (OK_requests/ All_requests) × 100%'।
विलंबता से SLO:
  • 'P95 ≤ T' → एक शेयर के रूप में बेहतर तैयार किया गया है: 'SLI =% अनुरोध ≤ T'।
  • उदाहरण: "खोज प्रश्नों का 99% ≤ 28 दिनों में 300 एमएस।"
  • स्लाइडिंग विंडो: 28 या 30 दिन (संवेदनशीलता और स्थिरता का संतुलन)। घटनाओं के लिए - अतिरिक्त खिड़कियां: 1 एच, 6 एच, 24 एच।

4) त्रुटि बजट और परिवर्तन दर नियंत्रण

गणना: 'SLO = 99 पर। 9% 'बजट =' 0। 1% 'त्रुटियां/अनुपलब्धता प्रति अवधि।

नीतियाँ:
  • बजट> 50%: रिलीज और योजना प्रयोगों।
  • बजट 10-50%: केवल कम जोखिम वाली रिलीज, कैनरी को कसना।
  • बजट <10%: रिलीज फ्रीज, मूल कारण, विश्वसनीयता में सुधार।
  • प्रगतिशील रिलीज के साथ संबंध: कैनरी/फीचर-फ्लैग्स खुराक में बजट को "खाएं", गिरावट के तहत ऑटो-रोलबैक के साथ।

5) चेतावनी राजनेताओं: थ्रेसहोल्ड से जलाने की दर तक

क्यों नहीं "daupal SLO - अलर्ट बढ़ाया": बहुत देर हो चुकी है। सक्रियता की जरूरत है।

बर्न रेट (बीआर) - बजट बर्न दर:
  • 'BR = (इस विंडो में छोटी विंडो/स्वीकृत त्रुटि में देखी गई त्रुटि)'.
  • यदि 'बीआर> 1' - बजट सामान्य से अधिक तेजी से सेवन किया जाता है।
टू-विंडो अलर्ट (SRE सर्वश्रेष्ठ अभ्यास):
  • फास्ट अलर्ट (शोर संवेदनशील है, आपदाओं को पकड़ ता है): खिड़की 5-10 मिनट, दहलीज बीआर 14-20 ×।
  • धीमी चेतावनी (रेंगने वाली गिरावट को पकड़ ता है): खिड़की 1-6 घंटे, दहलीज बीआर 2-4 ×।
  • संयोजन की स्थिति: तेज या धीमी गति से काम किया - ऑन-कॉल पेजिंग।
  • स्तर: उपयोगकर्ता एसएलओ के लिए पेजर, आंतरिक एसएलआई के ग्रे क्षरण के लिए टिकट/सूचनाएं।

6) सत्य के अवलोकन और स्रोत

लॉग - कारणों का निदान।

मेट्रिक्स - संख्यात्मक एसएलआई (सफलता/त्रुटि, विलंबता प्रतिशत, भिन्न, काउंटर)।

ट्रेल्स - पथ के माध्यम से, "गर्म" खंडों का स्थानीयकरण।

सिंथेटिक्स - परिधि से सक्रिय नमूने (क्षेत्र-जागरूक)।

वास्तविक कार्यक्रम - आरयूएम/ग्राहक टेलीमेट्री, बिजनेस मैट्रिक्स (रूपांतरण, सफल भुगतान)।

आवश्यकताएं: रिलीज और घटनाओं के डैशबोर्ड में एक एकल चित्र, एनोटेशन "संस्करण/कैनरी/ध्वज"।

7) एसएलओ डिजाइन: चरण-दर-चरण टेम्पलेट

1. महत्वपूर्ण पथ का वर्णन करें (उदाहरण के लिए, "कार्ड द्वारा जमा करें"

2. SLI को परिभाषित करें: सफलता/त्रुटि, विलंबता सीमा, पूर्णता।

3. सहमत SLO: 28-दिवसीय लक्ष्य + अपवाद (अनुसूचित विंडो)।

4. एसएलए से लिंक: कानूनी दायित्व - वास्तविक एसएलओ।

5. एक सेवा स्वामी, RACI और अलर्ट चैनल आबंटित करें।

6. अलर्ट नीतियों (टू-विंडो बीआर) और ऑटो-रोलबैक को परिभाषित करें।

7. लागू करें रिपोर्टिंग: साप्ताहिक बजट समीक्षा, घटना के बाद की समीक्षा।

8. एसएलओ त्रैमासिक (लोड/आर्किटेक्चर परिवर्तन) की समीक्षा करें।

8) एसएलओ उदाहरण (टेम्प्लेट)

भुगतान API:
  • उपलब्धता: '≥ 99। 95% '(28 डी, घोषित खिड़कियों को छोड़ कर ≤ 30 मिनट/महीना)।
  • विलंबता: '≥ 99%' प्रतिक्रियाएं '≤ 400 एमएस'।
  • व्यवसाय संचालन की सफलता: '≥ 98। 5% सफल प्राधिकरण (धोखाधड़ीफ़िल्टर को ध्यान में रखा जाता है)।
खेल/सामग्री के लिए खोजें:
  • विलंबता: '≥ 99%' अनुरोध करता है '≤ 300 ms'।
  • कैश प्रासंगिकता: '≤ 5 मिनट' समय का 99% अंतराल।
स्ट्रीमिंग इवेंट्स (KYC/AML):
  • डिलीवरी: '≥ 99। 9% 'के लिए' 60 s '(रेट्रास के साथ एंड-टू-एंड)।
  • नुकसान: '≤ 0। 01% 'संदेश (idempotency/deduplication सक्षम)।

9) बहु-क्षेत्र और बहु-किरायेदार

SLO "cohort द्वारा": देश, भुगतान प्रदाता, वीआईपी खंड, डिवाइस।

किनारे पर स्थानीय एसएलओ: उपयोगकर्ता (किनारे/पीओपी) के निकटतम बिंदुओं से मैट्रिक्स।

एकत्रीकरण: कुल SLO को महत्वपूर्ण सहकर्मियों में विफलताओं को छिपाना नहीं चाहिए।

स्विचिंग प्रदाता: SLO गेट स्तर पर स्वचालित फॉलबैक मार्ग।

10) डैशबोर्ड और रिपोर्टिंग

रिलीज डैशबोर्ड: संस्करण, कैनरी (% ट्रैफिक), एसएलआई (सफलता/विलंबता), बीआर, फ्लैग एनोटेशन।

ऑपरेटिंग डैशबोर्ड: दिन में बर्न-डाउन बजट, शीर्ष घटनाएं, एमटीटीआर, समस्या सहकर्मी।

साप्ताहिक रिपोर्ट: बजट संतुलन, बीआर रुझान, तकनीकी ऋण (अड़चनें), सुधार योजना।

11) प्रक्रियाएं: घटनाएं, आरसीए और सुधार

हादसा प्रबंधन: अलर्ट बीआर मूल्यांकन - कैनरी/झंडे का पैमाना रोलबैक/फिक्स।

आरसीए (मूल कारण): SLI द्वारा तथ्य/समयसीमा/परिकल्पना/सुधार/प्रभाव की जांच।

सबक सीखा: गैर-दंडात्मक पोस्टमार्टम, मालिकों और समय सीमा के साथ अनिवार्य कार्रवाई आइटम।

लूप क्लोजर: परीक्षणों में परिवर्तन, झंडे, सीमा, कैश, रिट्रे, कोटा।

12) अनुपालन और लेखा परीक्षा

नियंत्रण कलाकृतियों के रूप में SLO/SLI (पॉलिसी-as-code, अपरिवर्तनीय लॉग)।

आवश्यकताओं की कड़ी (उदाहरण के लिए, भुगतान लेनदेन की उपलब्धता)।

साक्ष्य: अलर्ट मिनट, बजट रिपोर्ट, रिलीज/रोलबैक लॉग।

13) बार-बार गलतियाँ और उनसे कैसे बचें

“99. 99% या मृत्यु": अप्राप्य लक्ष्य - निरंतर अलर्ट-शोर। यथार्थवादी एसएलओ चुनें।

वैश्विक औसत स्थानीय डिप्स को छिपाते हैं → cohorts पेश करते हैं।

Metrics e2e नहीं: ग्राहक पर वास्तविक गिरावट के दौरान उच्च SLO → RUM/सिंथेटिक्स जोड़ें।

एक सीमा पर अलर्ट - दो-खिड़की बर्न दर पर स्विच करें।

परिवर्तन का कोई लिंक नहीं है - रिलीज एनोटेट नहीं हैं, कोई ऑटो-रोलबैक नहीं है।

14) मिनी कार्यान्वयन जाँच सूची

  • महत्वपूर्ण रास्ते और उनके एसएलआई/एसएलओ का वर्णन किया गया है।
  • निगरानी और बहिष्करण विंडो सेट है।
  • टू-विंडो बीआर अलर्ट (तेज और धीमी) कॉन्फ़िगर किए गए हैं।
  • संस्करणों/झंडों के एनोटेशन के साथ रिलीज़ और संचालन के डैशबोर्ड।
  • त्रुटि बजट नीति रिलीज को प्रभावित करती है।
  • नियमित बजट समीक्षा और घटना के बाद आरसीए।
  • प्रलेखन और स्कोरकार्ड मालिक।

15) गणना उदाहरण (विशिष्ट)

एपीआई उपलब्धता एसएलओ: 99। 28 दिनों में 9% - बजट = 0। 1%.

7 दिनों के लिए 0। 06% त्रुटियों - साप्ताहिक बजट का 60% उपयोग किया।

15 मिनट की छोटी खिड़की पर, 2% त्रुटियां देखी जाती हैं। इस विंडो पर वैध है '0. 1% × (15 मिनट/40320 मिनट) ≈ 0। 000037%`.

बर्न रेट 1 (× के दसियों) - एक तेज पेजर को ट्रिगर किया जाता है, कैनरी 1% तक वापस आ जाती है, डीग्रेड-पेमेंट-यूएक्स फीचर फ्लैग चालू होता है, आरसीए शुरू होता है।

16) नीचे की रेखा

एसएलए/एसएलओ निगरानी न केवल रिपोर्ट में संख्या है, बल्कि परिवर्तन के जोखिम और सेवा की गुणवत्ता के प्रबंधन के लिए एक तंत्र है। सही एसएलआई, यथार्थवादी एसएलओ, त्रुटि बजट प्रबंधन, दो-खिड़की बर्न-रेट अलर्ट और ई-ऑब्जर्वेबिलिटी मेट्रिक्स को काम के समाधान में बदल देते हैं: मूल्य तेजी से जारी करें और उपयोगकर्ता अनुभव को पूर्वानुमान रखें।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।