GH GambleHub

घटनाओं में वृद्धि

1) उद्देश्य और सिद्धांत

हादसा वृद्धि उपयोगकर्ताओं और व्यावसायिक मैट्रिक्स पर प्रभाव को कम करने के लिए सही भूमिकाओं और संसाधनों को जल्दी से आकर्षित करने की प्

मुख्य सिद्धांत:
  • गति आदर्शवाद से अधिक महत्वपूर्ण है। पहले की घटना की घोषणा करना बेहतर है और देर से होने की तुलना में डी-एस्केलेट।
  • एकीकृत कमांड। समाधान के लिए जिम्मेदार एक व्यक्ति हादसा कमांडर (आईसी) है।
  • पारदर्शिता। आंतरिक और बाहरी हितधारकों के लिए स्टेटस और संचार चैनल स्पष्ट करें।
  • दस्तावेज़ीकरण। लेखा परीक्षा और सुधार के लिए सभी कदम, निर्णय और समयसीमा पर कब्जा कर लिया जाता है।

2) गंभीरता उन्नयन (एसईवी/पी-स्तर)

उदाहरण स्केल (डोमेन/क्षेत्राधिकार के अनुकूल):
  • SEV-0/P0 (महत्वपूर्ण) - प्रमुख फ़ंक्शन (लॉगिन/भुगतान), डेटा रिसाव, कानूनी जोखिम की पूर्ण अनुपलब्धता। पूरे कर्नेल ऑन-कॉल का तत्काल पेजिंग, फ्रीज रिलीज।
  • SEV-1/P1 (उच्च) - p95/p99 गिरावट, प्रमुख प्रक्रिया में त्रुटियों/विफलताओं का बढ़ा हुआ हिस्सा, क्षेत्र/प्रदाता की दुर्गमता।
  • SEV-2/P2 (मध्यम) - एक सीमित सहवास (क्षेत्र, प्रदाता) के लिए आंशिक गिरावट, एक वर्कअराउंड है।
  • SEV-3/P3 (कम) - उपयोगकर्ता के लिए महत्वपूर्ण नहीं है, लेकिन ध्यान देने की आवश्यकता है (ईटीएल पृष्ठभूमि देरी, अतिदेय रिपोर्ट)।
स्तर निर्धारण मैट्रिक्स (सरलीकृत):
  • घाव त्रिज्या (कितने उपयोगकर्ता/कारोबार) × अवधि × संवेदनशीलता (नियामक/पीआर) → एसईवी स्तर।

3) प्रक्रिया केपीआई

MTTD (पता लगाने का समय) - घटना की शुरुआत से पहले संकेत तक।

MTTA (प्राप्त समय) - IC पावती के लिए सिग्नल।

MTTR (पुनर्प्राप्ति समय) - जब तक SLO/फ़ंक्शन बहाल नहीं हो जाता.

वृद्धि विलंबता - पुष्टि से वांछित भूमिका/कमांड को जोड़ ने के लिए।

फिर से खोलना दर - घटनाओं का अनुपात "हल" के बाद फिर से खुल गया।

Comm SLA - बाहरी/आंतरिक अद्यतन के अंतराल का अनुपालन।

4) भूमिकाएँ और जिम्मेदारियाँ (RACI)

हादसा कमांडर (आईसी): समाधान का मालिक, स्तर, योजना, फ्रीज, वृद्धि, डी-एस्केलेशन सेट करता है। सुधार नहीं लिखता है.

टेक लीड (टीएल): तकनीकी निदान, परिकल्पना, इंजीनियरों का समन्वय।

कम्स लीड (सीएल): स्थिति पृष्ठ, ग्राहक और आंतरिक संचार, कानूनी/पीआर के साथ समन्वय।

मुंशी: तथ्यों की सटीक रिकॉर्डिंग, समयसीमा, निर्णय लिए गए।

संपर्क: बाहरी प्रदाताओं/टीमों (भुगतान, केवाईसी, होस्टिंग) के प्रतिनिधि।

ऑन-कॉल इंजीनियर: योजना का निष्पादन, प्लेबुक/रोलबैक लॉन्च करना।

प्रत्येक भूमिका के लिए ड्यूटी शेड्यूल और बैकअप आबंटित करें।

5) चैनल और कलाकृतियाँ

युद्ध-कक्ष चैनल (चाटोप्स): ऑटो-एनोटेशन (संस्करण, झंडे, कैनरी) के टेम्पलेट के साथ समन्वय का एक बिंदु (स्लैक/टीम)।

SEV-1 + के लिए वीडियो ब्रिज।

हादसा टिकट (एक-पेजर): आईडी, एसईवी, आईसी, प्रतिभागी, परिकल्पना/निदान, चरण, ईटीए, स्थिति, प्रभाव, रेखांकन के लिंक।

स्थिति पृष्ठ: सार्वजनिक/आंत नियमित अपडेट का शेड्यूल (उदाहरण के लिए, SEV-1 + के लिए प्रत्येक 15-30 मिनट)।

6) समय बक्से और मानक अंतराल

T0 (मिनट। 0-5): आईसी को सौंपा गया, एसईवी को सौंपा गया, फ्रीज रिलीज (यदि आवश्यक हो), युद्ध-कक्ष खुला।

T + 15 मिनट: पहला सार्वजनिक/आंतरिक संदेश (जो प्रभावित होता है, वर्कअराउंड, अगला अपडेट विंडो)।

T + 30/60 मिनट: अगले स्तर (प्लेटफ़ॉर्म/DB/सुरक्षा/प्रदाता) की वृद्धि, यदि कोई स्थिर गतिशीलता नहीं है।

नियमित अपडेट: SEV-0: हर 15 मिनट; SEV-1: हर 30 मिनट में; SEV-2 +: हर घंटे।

7) ऑटो-एस्केलेशन नियम (ट्रिगर नीतियां)

कोड के रूप में रिकॉर्ड किया गया और निगरानी/अलर्टिंग से जुड़ा:
  • छोटी और लंबी खिड़कियों में दहलीज के ऊपर बर्न-रेट त्रुटि बजट।
  • बाहरी नमूनों का कोरम: ≥2 क्षेत्र HTTP/TLS/DNS गिरावट रिकॉर्ड करते हैं।
  • बिजनेस एसएलआई (भुगतान/पंजीकरण की सफलता) एसएलओ से नीचे है।
  • सुरक्षा हस्ताक्षर: संदिग्ध रिसाव/समझौता।
  • प्रदाता संकेत: वेबहुक स्थिति "प्रमुख आउटेज"।

8) खोज से समाधान तक प्रक्रिया

1. हादसा घोषणा (IC): SEV, कवरेज, फ्रीज, प्लेबुक लॉन्च।

2. निदान (टीएल): परिकल्पना, त्रिज्या अलगाव (क्षेत्र, प्रदाता, सुविधा), चेक (डीएनएस/टीएलएस/सीडीएन/डीबी/कैश/बस)।

3. क्रियाओं को कम करना (त्वरित जीत): रोलबैक/कैनरी ↓, गिरावट ध्वज सुविधा, प्रदाता विफलता, दर-सीमा, कैश ओवरले।

4. संचार (सीएल): स्थिति पृष्ठ, ग्राहक/भागीदार, कानूनी/पीआर, निर्धारित समय पर अद्यतन।

5. वसूली की पुष्टि: बाहरी सिंथेटिक्स + वास्तविक मैट्रिक्स (एसएलआई), फ्रीज हटाना।

6. डी-एस्केलेशन: एसईवी में कमी, एन मिनट/घंटे के अवलोकन के लिए संक्रमण।

7. क्लोजर और आरसीए: पोस्टमार्टम तैयारी, एक्शन आइटम, मालिक और समय।

9) बाहरी प्रदाताओं के साथ काम करना

अनुरोधों/त्रुटियों के कई क्षेत्रों + मिरर लॉग उदाहरणों से प्रदाताओं के लिए खुद के नमूने।

वृद्धि समझौते (संपर्क, प्रतिक्रिया एसएलए, प्राथमिकता, स्थिति वेबहूक)।

SLO प्रदाता के माध्यम से स्वचालित विफलता/यातायात हस्

साक्ष्य आधार: समयरेखा, नमूना अनुरोध/प्रतिक्रियाएं, विलंबता/त्रुटि रेखांकन, प्रदाता टिकट आईडी।

10) नियामक, सुरक्षा और पीआर

Security/P0: अलगाव, कलाकृतियों का संग्रह, प्रकटीकरण का न्यूनतम होना, अनिवार्य सूचनाएं (आंतरिक/बाहरी/नियामक)।

कानूनी: बाहरी अपडेट के शब्दों का अनुमोदन, संविदात्मक एसएलए/जुर्माना के लिए लेखांकन।

पीआर/ग्राहक सेवा: रेडी-मेड रिस्पांस टेम्पलेट, क्यू एंड ए, क्षतिपूर्ति/क्रेडिट (यदि लागू हो)।

11) संदेश टेम्पलेट्स

प्राथमिक (T + 15):
  • "हम [फ़ंक्शन/क्षेत्र] को प्रभावित करने वाली एक घटना की जांच कर रहे हैं। लक्षण: [संक्षेप में]। हमने वर्कअराउंड [विवरण] को सक्रिय किया। अगला अद्यतन [समय] पर है"
अद्यतन:
  • "निदान: [परिकल्पना/पुष्टि]। क्रियाएँ: [स्विच किए गए प्रदाता/रोल्ड बैक रिलीज/सक्षम गिरावट]। प्रभाव [प्रतिशत/cohort] तक कम हो गया। अगला अद्यतन [समय] है"
समाधान:
  • "घटना को सुलझा लिया गया है। कारण: [जड़]। वसूली का समय: [MTTR]। अगले चरण: [फिक्स/चेक/वॉच एन घंटे]। पोस्टमार्टम - [कब/कहाँ]"

12) प्लेबुक (अनुकरणीय)

भुगतान की गिरती सफलता: प्रदाता ए पर शेयर को कम करें, एक्स% को बी में स्थानांतरित करें; डीग्रेड-पेमेंट-यूएक्स को सक्षम करने में सीमा में रेट्रास शामिल हैं; फिन कमांड को सूचित करें।

p99 एपीआई वृद्धि: नए संस्करण की कैनरी को कम करें; भारी सुविधाओं को बंद करें; कैश-टीटीएल बढ़ाएँ; DB सूचकांक/कनेक्शन जाँचें।

DNS/TLS/CDN समस्या: प्रमाणपत्र/श्रृंखला सत्यापित करें; रिकॉर्ड स्विच को स्टैंडबाय सीडीएन में अपडेट करें कैश का पुनर्निर्माण करें।

सुरक्षा संदेह: नोड अलगाव, कुंजी रोटेशन, एमटीएलएस पेन को सक्षम करना, कलाकृतियों को एकत्र करना, कानूनी अधिसूचना।

13) डी-एस्केलेशन और "हल" मानदंड

एक घटना डाउनग्रेड की जाती है यदि:
  • SLI/SLO ग्रीन ज़ोन में स्थिर ≥ N अंतराल;
  • प्रतिगमन के बिना क्रियाओं और अवलोकन को कम करना;
  • सुरक्षा वर्ग - वैक्टर बंद होने की पुष्टि के लिए, कुंजी/रहस्य घुमाया जाता है।

समापन - केवल समयरेखा, एक्शन आइटम मालिकों और समय सीमा को ठीक करने के बाद।

14) पोस्टमार्टम (गैर-दंडात्मक)

संरचना:

1. तथ्य (समयरेखा, उपयोगकर्ताओं/मैट्रिक्स ने क्या देखा है)।

2. मूल कारण (तकनीकी/प्रक्रिया)।

3. क्या काम किया/वृद्धि में काम नहीं किया।

4. निवारक उपाय (परीक्षण, अलर्ट, सीमा, वास्तुकला)।

5. समय सीमा और मालिकों के साथ कार्य योजना।

6. त्रुटि बजट और SLO/प्रक्रियाओं को संशोधित करने के लिए लिंक।

15) प्रक्रिया परिपक्वता मेट्रिक्स

प्रयोक्ता शिकायतों से पहले रिपोर्ट की गई घटनाओं का प्रतिशत।

एसईवी स्तरों द्वारा एमटीटीए; वांछित भूमिका को जोड़ ने का समय।

अद्यतन अंतराल (Comm SLA) का अनुपालन।

मैनुअल "रचनात्मकता" के बिना प्लेबुक द्वारा हल की गई घटनाओं का प्रतिशत।

समय पर पोस्टमार्टम से कार्रवाई वस्तुओं का निष्पादन।

16) एंटी-पैटर्न

"कोई कुछ करता है" - कोई आईसी/भूमिका नहीं।

युद्ध-कक्ष में पॉलीफोनी कार्यों के बजाय संस्करणों पर विवाद है।

देर से घोषणा - लोगों को इकट्ठा करने के लिए समय का नुकसान।

कोई फ्रीज और रिलीज एनोटेशन नहीं - समवर्ती परिवर्तन कारण मास्क।

बाहरी संचार का अभाव - बढ़ ती शिकायतें/पीआर जोखिम।

पोस्टमार्टम और कार्यों के बिना बंद करना - हम समान गलतियों को दोहराते हैं।

17) आईसी चेक लिस्ट (पॉकेट कार्ड)

  • एक SEV असाइन करें और युद्ध-कक्ष खोलें।
  • टीएल, सीएल, स्क्रिब, ऑन-कॉल उपस्थित की जाँच करें।
  • रिलीज-फ्रीज सक्षम करें (यदि SEV-1 +)।
  • सत्य के स्रोतों की पुष्टि करें: SLI डैशबोर्ड, सिंथेटिक्स, लॉग, ट्रेसिंग।
  • त्वरित शमन क्रियाओं (रोलबैक/फ्लैग्स/फेलओवर) को स्वीकार करें।
  • निर्धारित नियमित अद्यतन प्रदा
  • रिज़ॉल्यूशन और पोस्ट-रिकवरी मॉनिटरिंग के लिए मानदंड कैप्चर करें।
  • पोस्टमार्टम शुरू करें और कार्रवाई आइटम मालिकों को सौंपें।

18) दैनिक कार्यों में एम्बेडिंग

खेल-दिन: प्रमुख परिदृश्यों पर सिमुलेशन।

Playbook कैटलॉग: मापदंडों के साथ वर्शन, परीक्षण किया गया।

उपकरण: चैटोप्स "/घोषित ", "/पृष्ठ", "/स्थिति "," "/रोलबैक "आदेश देता है।

एकीकरण: टिकटिंग, स्थिति पृष्ठ, पोस्टमार्टम, सीएमडीबी/सेवा कैटलॉग।

एसएलओ/त्रुटि बजट के साथ बातचीत: ऑटो-एस्केलेशन ट्रिगर और फ्रीज नियम।

19) नीचे की रेखा

वृद्धि एक परिचालन अनुशासन है, न कि केवल परिचर के लिए एक कॉल। आईसी द्वारा निर्धारित एसईवी स्तर, तैयार किए गए प्लेबुक, अपडेट टाइमबॉक्स, और एसएलओ मैट्रिक्स और बजट नीतियों के साथ एकीकरण एक अराजक परिणाम के साथ एक अराजक आग में बदल जाते हैं - तेज सेवा वसूली, न्यूनतम पीआर/नियात जोखिम जोखिम।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।