GH GambleHub

एस्केलेशन मैट्रिक्स

1) मैट्रिक्स उद्देश्य

वृद्धि मैट्रिक्स एक समान नियम है कि कौन कनेक्ट करता है और कब, ताकि घटनाएं जल्दी से अराजकता से प्रबंधित प्रक्रिया में चली जाएं। वह सेट करती है:
  • एसईवी स्तर और उनके मानदंड;
  • समय (ack → → एस्केलेशन → अपडेट का पता लगाना);
  • प्रत्येक चरण के लिए भूमिकाएँ/चैनल
  • अपवाद (सुरक्षा और अनुपालन के लिए कोई शांत घंटे नहीं)
  • प्लेबुक और एक स्थिति पृष्ठ के साथ एक बंडल।

2) गंभीरता से वर्गीकरण (एसईवी)

एसईवीप्रभावउदाहरणसमय का लक्ष्य
SEV-0प्रमुख व्यवसाय/डेटा की अनुपलब्धता पूर्णक्षेत्रीय नीचे, डेटा हानि Tier-0≤ 5 м की घोषणा करें; पहला Comms ≤ 10 м; MTTR - ASAP
SEV-1गंभीर एसएलओ गिरावटभुगतान -3% से SLO, p95> 400 ms≤ 10 м की घोषणा करें; पहला Comms ≤ 15 м; अपडेट q = 15-30 м
SEV-2आंशिक गिरावट/बाईपास संभवएक प्रदाता गिरता है, वहाँ फोलबैक है≤ 20 м की घोषणा करें; जरूरत के अनुसार कम्स
SEV-3कम प्रभाव/आंतरिकविफलताओं को प्रभावित करने वाले गैर-ग्राहककोई सार्वजनिक अद्यतन नहीं

अपने डोमेन और एसएलओ के लिए लक्ष्य संख्या निर्दिष्ट करें.

3) मूल कौन/कब/कहाँ/मैट्रिक्स

घटनासमयCommentकौन आरंभ करता हैजिसे हम आगे बढ़ाते हैंचैनल/औजारटिप्पणी
पता लगाना (पृष्ठ)T0 → तुरंतMonitoring/P1पी 1पेजर/चैट # alerts-svcप्लेबुक स्वतः संलग्न करें
एसीके पृष्ठ≤ 5 मिनट (SEV-1/0)पी 1पेजरयदि कोई ACK - स्वतः वृद्धि नहीं है
नो-एसीके5 मिनटपेजरपी 2पेजर/ध्वनिआगे - 5-10 मिनट में आईसी
घोषित करें SEV-1/0≤ 10 मिनटIC/P1ड्यूटी मैनेजर, कॉम्स# ware-room- , स्थिति पृष्ठफ्रीज रिलीज़
पहला कम्स≤ 15 मिनटकम्स (आईसी द्वारा)ग्राहक/इंट। हितधारकस्थिति पृष्ठ/मेलइम्पैक्ट-डियाग-एक्शन-ईटीए टैम्पलेट
सुरक्षा ट्रिगरएक बार मेंसुरक्षा आईआरआईसी, कानूनी, एक्सेक# सेक-युद्ध-कक्षशांत घंटों के बिना
प्रदाता लाल≤ पुष्टि के बाद 5 मिनटविक्रेता मालिकआईसी, उत्पादविक्रेता चैनल/मेलस्विचओवर आरंभ करें
कोई अद्यतन नहीं> 30 मिनट (SEV-1/0)नावआईसी/कॉम्सयुद्ध-कक्षएसएलए अनुस्मारक अद्यतन करें

4) महत्वपूर्ण वृद्धि वृक्ष (सार)

1. एसएलओ पर कोई पुष्टि प्रभाव?

→ हाँ: एक आईसी असाइन करें, एक एसईवी घोषित करें, एक युद्ध-कक्ष खोलें।

→ नहीं: टिकट/अवलोकन, कोई पृष्ठ नहीं।

2. समय पर ACK मिल गया?

→ हाँ: हम प्लेबुक के साथ जारी हैं।

→ नहीं: P2 → IC → DM (समय में सीढ़ी)।

3. सुरक्षा/रिसाव/पीआईआई?

→ हमेशा सुरक्षा IR + कानूनी, सार्वजनिक संचार समन्वित होते हैं।

4. बाहरी प्रदाता?

→ विक्रेता मालिक वृद्धि, मार्ग स्विचिंग, स्थिति में ठीक करना।

5) वृद्धि भूमिकाएँ और जिम्मेदारियाँ (छोटी)

P1 (प्राथमिक): ट्राइएज, प्लेबुक स्टार्ट, आईसी से लिंक।

P2 (माध्यमिक): बैकअप, जटिल क्रियाएं, संदर्भ प्रतिधारण।

आईसी (हादसा कमांडर): एसईवी की घोषणा करता है, फ्रीज/रोलबैक तय करता है, गति बनाए रखता है।

ड्यूटी मैनेजर: ताले हटाता है, संसाधनों का पुनर्वितरण करता है, संगठनात्मक निर्णय लेता है।

Comms: स्थिति पृष्ठ, SLA अद्यतन।

सुरक्षा आईआर: अलगाव, फोरेंसिक, कानूनी नोटिस।

विक्रेता मालिक: बाहरी प्रदाता, स्विचओवर/फॉलबैक।

6) अस्थायी गाइड (स्थल)

SEV-1/0: ACK ≤ 5 м, डिक्लेयर ≤ 10 м, फर्स्ट कॉम्स ≤ 15 м, अपडेट q = 15-30 м।

एस्केलेटर सीढ़ी: P1→P2 (5 मीटर) → आईसी (10 मीटर) → ड्यूटी मैनेजर (15 मीटर) → एक्सेक ऑन-कॉल (30 मीटर)।

सुरक्षा: बिना देरी और "शांत घंटे", q = 15 मीटर अपडेट करता है।

7) रूटिंग और सेगमेंटेशन

सेवा/क्षेत्र/किरायेदार द्वारा: रूटिंग कुंजी = 'सेवा + क्षेत्र + किरायेदार'।

जांच का कोरम: केवल तभी आगे बढ़ें जब ≥2 स्वतंत्र स्रोतों की पुष्टि की जाए (2 क्षेत्रों + आरयूएम/व्यवसाय एसएलआई से सिंथेटिक)।

डेडअप: दर्जनों लक्षणों के बजाय एक मास्टर अलर्ट (डीबी "लाल" 5xx शोर को दबाता है)।

8) अपवाद और विशेष मोड

सुरक्षा/कानूनी: बारी-बारी से सुरक्षा आईआर और कानूनी वृद्धि; सार्वजनिक ग्रंथ केवल समन्वय के माध्यम से।

प्रदाता: अलग OLA/SLA मैट्रिक्स (संपर्क, समय क्षेत्र, प्राथमिकता)।

फ्रीज बदलें: यदि SEV-1/0 - रिलीज और कॉन्फ़िग का स्वचालित फ्रीज।

9) मैट्रिक्स परिपक्वता मैट्रिक्स

Ack p95 (SEV-1/0) ≤ 5 मिनट।

घोषणा करने का समय (मध्य) ≤ 10 मिनट।

Comms SLA पालन ≥ 95%।

वृद्धि सफलता (P1/P2 स्तर पर हल) ≥ 70%।

नो-एसीके वृद्धि ↓ QoQ।

अनुबंध के भीतर महत्वपूर्ण प्रदाताओं के लिए विक्रेता प्रतिक्रिया

10) चेकलिस्ट

ऑनलाइन (ऑन-कॉल के लिए)

  • एसएलओ प्रभाव और संभावित एसईवी की पहचान की।
  • ACK बनाया गया और IC सौंपा गया (SEV-1/0 के लिए)।
  • युद्ध-कक्ष खुला, प्लेबुक संलग्न।
  • एसएलए द्वारा प्रकाशित/योजनाबद्ध स्थिति अद्यतन।
  • फ्रीज सक्षम (यदि आवश्यक हो), प्रदाता/सुरक्षा बढ़ गई।

प्रक्रिया (साप्ताहिक समीक्षा)

  • क्या एसएलए पर वृद्धि सीढ़ी काम करती थी?
  • क्या आईसी से पहले कोई अनावश्यक वृद्धि हुई थी?
  • क्या ग्राहक सूचनाएं समय पर और सटीक हैं?
  • क्या ब्लॉकर्स (एक्सेस, प्रदाता संपर्क, मूक चैनल) थे?
  • प्रक्रिया विफलताओं के लिए CAPA भी जगह में हैं।

11) टेम्पलेट्स

11. 1 वृद्धि नीति (YAML विचार)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 समय वृद्धि कार्ड (बॉट के लिए)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 सार्वजनिक अद्यतन के लिए साँचा


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) एकीकरण

अलर्ट-ए-कोड: प्रत्येक पृष्ठ नियम बिल्कुल एक प्लेबुक का संदर्भ देता है और अपने स्वयं के वृद्धि मैट्रिक्स को जानता है।

चैटोप्स: कमांड '/डिक्लेयर सेव1 ', '/पेज पी 2', '/स्टेटस अपडेट ', अपडेट के ऑटो-टाइमर।

CMDB/कैटलॉग: सेवा में मालिक, ऑन-कॉल, मैट्रिक्स, प्रदाता, चैनल हैं।

स्थिति पृष्ठ: SEV-1/0 के लिए टेम्पलेट, इतिहास अद्यतन, आरसीए के लिंक।

13) एंटी-पैटर्न

"एक ही बार में सभी को आगे बढ़ाएं" - शोर और धुंधली जिम्मेदारी।

कोई आईसी/युद्ध-कक्ष - समाधान चैट में रेंगता है।

पहले अपडेट में देरी - शिकायतों और पीआर जोखिमों में वृद्धि।

कोई सुरक्षा अपवाद नहीं - कानूनी जोखिम।

बिना मालिक और संपर्क के बाहरी प्रदाता।

सीढ़ियां स्वचालित नहीं हैं - सब कुछ "हैंडब्रेक पर है।"

14) कार्यान्वयन रोडमैप (3-5 सप्ताह)

1. नेड। 1: एसईवी मानदंड और समय को ठीक करें; भूमिका/प्रदाता संपर्क चुनें चैनल।

2. नेड। 2: पॉलिसी (YAML) का वर्णन करें, अलर्ट-ए-कोड से बंधे, पेजर/बॉट में सीढ़ी चालू करें।

3. नेड। 3: 2-3 महत्वपूर्ण सेवाओं पर पायलट; debug SLA Comms और templates.

4. नेड। 4-5: कवरेज का विस्तार करें, साप्ताहिक एस्केलेशन रिव्यू और परिपक्वता मैट्रिक्स पेश करें

15) नीचे की रेखा

वृद्धि मैट्रिक्स घटनाओं का परिचालन संविधान है: कौन, कब और कैसे जुड़ ता है। स्पष्ट एसईवी, समय, चैनल, सुरक्षा अपवाद और प्लेबुक और एक स्टेटस पेज के साथ एकीकरण के साथ, टीम जल्दी, सुसंगत और पारदर्शी रूप से प्रतिक्रिया करती है, और उपयोगकर्ता अनुमानित अपडेट और आत्मविश्वास से सेवा वसूली देखते हैं।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।