GH GambleHub

घटनाएं और एसआरई प्लेबुक

1) घटना क्या है और यह एसएलओ से कैसे संबंधित है

एक घटना एक ऐसी घटना है जो एसएलओ/सेवा समारोह का उल्लंघन करती है या उल्लंघन का जोखिम पैदा करती है (एक गलत बजट को अस्वीकार्य रूप से जल्दी से जला दिया जाता है)।

क्लासिक मैट्रिक्स: MTTD, MTTA, MTTR, MTBF।

बजट त्रुटि और बर्न-रेट प्राथमिकता और वृद्धि खिड़कियों को निर्धारित

2) गंभीरता का स्तर (एसईवी) और मानदंड

एसईवीहस्ताक्षरप्रभावMTTR उद्देश्य
SEV-1कुंजी यातायात के लिए टूटा हुआ महत्वपूर्ण SLO/कुसभी उपयोगकर्ता/भुगतान≤ 60 मिनट
SEV-2गिरावट (p95 विलंबता, 5xx/भुगतान त्रुटियां ↑)महत्वपूर्ण हि≤ 4 एच
SEV-3स्थानीय मुद्दे/बेसलाइन अस्वीव्यक्तिगत सेवा/क्षेत्≤ 1 व्यापार दिवस
SEV-4वर्तमान प्रभाव के बिना संभावित जोखिम/दोषसुधार की तैयारीयोजना के अनुसार

SEV ट्रिगर: 5xx%, p95> सीमा से अधिक, भुगतान में गिरावट स्पाइक, काफ्का-लैग> सीमा, NodeNotReady> X मिनट, TLS समाप्त होता है <7 दिन, DDOS सिग्नल/लीक।

3) भूमिकाएँ और जिम्मेदारियाँ (RACI)

हादसा कमांडर (आईसी) - एकमात्र निर्णय लेने, कार्य प्रवाह प्रबंधन, एसईवी स्थिति परिवर्तन।

ऑप्स लीड (टेक लीड) - तकनीकी रणनीति, परिकल्पना, सुधारों का समन्वय।

संचार लीड (Comms) - स्थिति अद्यतन (आंतरिक/बाहरी), Page/चैट/मेल।

स्क्रिप्ट (क्रॉसलर) - समयरेखा, समाधान, कलाकृतियाँ, रेखांकन/लॉग से लिंक।

ऑन-कॉल इंजीनियर्स/एसएमई - प्लेबुक क्रियाओं का निष्पादन।

सुरक्षा/गोपनीयता - सुरक्षा या पीआईआई घटनाओं के लिए सक्षम।

FinOps/भुगतान - जब बिलिंग/PSP/लागत को प्रभावित करता है।

4) हादसा जीवनचक्र

1. पता लगाना (अलर्ट/रिपोर्ट/सिंथेटिक) → एक घटना कार्ड का ऑटो-निर्माण।

2. ट्राइएज (आईसी असाइन किया गया, एसईवी सौंपा गया, न्यूनतम संदर्भ संग्रह)।

3. स्थिरीकरण (शमन: फीचर/रोलबैक/रेट-लिमिट/फेलओवर बंद करें)।

4. जांच (आरसीए परिकल्पना, तथ्यों का संग्रह)।

5. सेवा वसूली (मान्य एसएलओ, अवलोकन)।

6. संचार (अंदर/बाहर, अंतिम रिपोर्ट)।

7. पोस्टमॉर्टम (कोई शुल्क, सीएपीए योजना, मालिक, समय सीमा)।

8. रोकथाम (परीक्षण/अलर्ट/प्लेबुक/झंडे, टीम का अतिरिक्त प्रशिक्षण)।

5) संचार और "युद्ध-कक्ष"

एकीकृत हादसा चैनल ('# inc-Sev1-YYYYMDD-hhmm'), केवल तथ्य और कार्य।

रेडियो प्रोटोकॉल शैली आदेश: "आईसी: मैं रोलबैक संस्करण 1 असाइन करता हूं। 24 → ईटीए 10 मिनट।"

स्थिति अपडेट: SEV-1 हर 15 मिनट, SEV-2 हर 30-60 मिनट में।

स्थिति पृष्ठ/बाहरी संचार - टेम्पलेट द्वारा कॉम्स लीड के माध्यम से।

निषिद्ध: समानांतर "शांत" कमरे, एक सामान्य चैनल में अप्रयुक्त परिकल्पना।

6) अलर्टिंग और एसएलओ-बर्न (उदाहरण नियम)

फास्ट चैनल (1-5 मिनट) और धीमा चैनल (1-2 एच) बर्न-रेट।

मल्टी-सिग्नल: बजट त्रुटि, 5xx%, p95, काफ्का-लैग, भुगतान में गिरावट-दर, सिंथेटिक्स।

मूल कारण की खोज करें - लक्षणों को स्थिर करने के बाद ही।

उदाहरण (सामान्यीकृत):
promql
Error rate 5xx> SLO sum (rate (http_requests_total{status=~"5"..}[5m]) )/sum (rate (http_requests_total[5m]))> 0. 01

Burn-rate fast (example)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14. 4

7) प्लेबुक बनाम रैनबुक

प्लेबुक - घटना के प्रकार (शाखाओं, स्थितियों, जोखिमों) द्वारा क्रियाओं का परिदृश्य।

रनबुक - चरणों/कमांड (जाँच, सुधार, सत्यापन) का एक विशिष्ट "मानचित्र"।

नियम: प्लेबुक कई रनबुक (रोलबैक, फीचर-फ्लैग्स, फेलओवर, स्केलिंग, ब्लॉकिंग ट्रैफिक, आदि) को संदर्भित करता है।

8) हादसा कार्ड टेम्पलेट

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <name>
comms_lead: <name>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx = 12% (usually <0. 5%), deposit conversion -20%"
mitigation: "rollback to 1. 23. 4, rate-limit 2k rps on, feature X off"
timeline:
- "17:42: alert SLO burn-rate fast"
- "17:46: IC appointed, war-room open"
- "17:52: release 1 found. 24 as a candidate"
- "18:02: Rollback complete, 5xx back to 0. 3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "another surge is possible when turning on feature X"
next_steps: "canary release, tests, postmortem until 2025-11-05"

9) एसआरई प्लेबुक टेम्पलेट (मार्कडाउन)

markdown
Playbook: <title>
Area/symptoms
List of detectors, signatures in metrics/logs/traces.

Triage & Mitigation
- [] Restrict traffic/enable WAF rule/OFF feature
- [] Rollback/canary release/roll out configuration fix
- [] Enable degradation mode (read-only, cache force)

Diagnostics (RCA hints)
- Metrics:... Logs:... Trails:...
- Common Root Causes/Hypothesis Checklist

Risks and communications
- Internal/external updates, SLA obligations

Verification
- [] SLO restored (threshold/window time)
- [] No recourse for related services

Follow-up
- CAPA, tasks in backlog, updating alerts/dashboards/playbook

10) विशिष्ट प्लेबुक

10. 1 एपीआई 5xx स्पाइक

स्थिरीकरण: समस्याग्रस्त ficheflag बंद करें; बूस्ट एपीआई प्रतिकृतियां रिलीज को वापस कैशिंग सक्षम करती हैं।

निदान: डिफ़रिलीज़, लॉग में त्रुटियाँ (शीर्ष-अपवाद), p95 वृद्धि, दबाव डीबी/कैश।

जोखिम: भुगतान/बैकेंड में झरना।

10. 2 БД: प्रतिकृति लैग/लॉक स्टॉर्म

स्थिरीकरण: भारी नौकरियों/रिपोर्टों का निलंबन; पुनर्निर्देशित जादूगर वृद्धि wal_buffers/replika-sloty को पढ़ ता है।

निदान: लंबे लेनदेन, अवरुद्ध अनुरोध, योजना परिवर्तन।

निर्धारण: सूचकांक/संकेत, नौकरियों का पुनर्विकास, विभाजन प्रश्न।

10. 3 काफ्का उपभोक्ता अंतराल

स्थिरीकरण: अस्थायी रूप से उपभोक्ताओं के पैमाने; गैर-महत्वपूर्ण सेवाओं से उत्पादन कम करना; पार्टियों/कोटा बढ़ाएं।

निदान: पुनर्संतुलन, धीमी गति से रेगिस्तान, जीसी रुकता है।

सत्यापन: लक्ष्य मूल्य के लिए अंतराल, कोई बूंद नहीं।

10. 4 K8s NodeNotReady/संसाधन तूफान

स्थिरीकरण: घेरा + नाली; पुनर्वितरण भार; CNI/ओवरले बंद शोर डेमोनसेट की जाँच करें।

निदान: डिस्क दबाव, OOM, थ्रॉटलिंग, नेटवर्क ड्रॉप।

रोकथाम: फली व्यवधान बजट, संसाधन सीमा/अनुरोध।

10. 5 टीएलएस/प्रमाणपत्र समाप्त हो रहे हैं

स्थिरीकरण: गुप्त/इंग्रेस का जबरन अपडेट; अस्थायी ओवरराइड।

निदान: विश्वास की श्रृंखला, घड़ी-तिरछा।

रोकथाम: अलर्ट T-30/T-7/T-1, ऑटो-रेनुअल।

10. 6 डीडीओएस/असामान्य यातायात

स्थिरीकरण: WAF/बॉट नियम, दर-सीमा/भू-फिल्टर, अपस्ट्रीम शेड लोड।

निदान: हमला प्रोफाइल (L3/4/7), स्रोत, छतरियां।

रोकथाम: प्रदाताओं के साथ neycast, autoscalling, caching, play-nich।

10. 7 भुगतान पीएसपी-आउटेज

स्थिरीकरण: वैकल्पिक पीएसपी/विधियों के लिए स्मार्ट-रूटिंग; जिटर के साथ रीट्री उठाएं; "सॉफ्ट" यूआई क्षरण।

निदान: कोड द्वारा स्पाइक विफलताएं, एपीआई स्टेटस/पीएसपी स्थिति पृष्ठ।

संचार: व्यवसाय और समर्थन के लिए पारदर्शी अद्यतन, एनडी/रूपांतरण आंकड़े सही करें।

10. 8 सुरक्षा हादसा/पीआईआई लीक

स्थिरीकरण: नोड अलगाव/गुप्त रोटेशन, एक्सफिल्ट्रेशन ब्लॉकिंग, लीगल होल्ड।

निदान: समय सीमा तक पहुंच, प्रभावित विषय/क्षेत्र।

नोटिस: अधिकार क्षेत्र आवश्यकताओं द्वारा नियामक/भागीदार/उपयोगकर्ता।

रोकथाम: डीएलपी/विभाजन वृद्धि, "कम से कम विशेषाधिकार।"

11) प्लेबुक का स्वचालन

चैटोप्स कमांड: '/ic सेट सेव 1 ', '/तैनात रोलबैक एपी 1। 23. 4 ', '/फीचर ऑफ एक्स'।

रनबुक-बॉट्स: अर्ध-स्वचालित चरण (नाली नोड, फ्लिप ट्रैफिक, पर्ज कैश)।

स्व-उपचार हुक: डिटेक्टर → मानक शमन (दर-सीमा, पुनः आरंभ, पैमाने)।

अलर्ट और कमांड से ऑटो-क्रिएट कार्ड/टाइमलाइन।

12) प्लेबुक की गुणवत्ता: चेकलिस्ट

  • स्पष्ट लक्षण और डिटेक्टर (मैट्रिक्स/लॉग/ट्रेस)।
  • जोखिम मूल्यांकन के साथ तेजी से स्थिरीकरण कदम।
  • कमांड/स्क्रिप्ट अद्यतित हैं, मंचन में जाँच की जाती है।
  • एसएलओ वसूली का सत्यापन।
  • संचार टेम्पलेट और बाहरी अद्यतन मानदंड।
  • बंद होने के बाद पोस्टमार्टम संदर्भ और CAPA।

13) पोस्टमॉर्टम (दोषरहित) और CAPA

लक्ष्य: सीखने के लिए, अपराधी को खोजने के लिए नहीं।

सामग्री: क्या हुआ, क्या अच्छा/बुरा पाया गया, कारकों का योगदान (उन + प्रक्रियाओं), रोकने के लिए कार्रवाई।

शब्द: SEV-1 - 48 घंटों के भीतर; SEV-2 - 3 कार्य दिवस।

CAPA: विशिष्ट मालिक, समय, औसत दर्जे का प्रभाव (MTTR/बढ़ाहुआ MTTD)।

14) कानूनी पहलू और साक्ष्य आधार

कानूनी पकड़: ठंड लॉग/ट्रैक/अलर्ट, लिखने-एक बार भंडारण।

कलाकृतियों के भंडारण की श्रृंखला: भूमिका, अखंडता नियंत्रण द्वारा पहुंच।

नियामक नोटिस: न्यायालयों के लिए समयसीमा/टेम्पलेट (विशेष रूप से प्रभावित भुगतान/पीआईआई के साथ)।

गोपनीयता: पार्सिंग के दौरान पीआईआई न्यूनतम और मास्किंग।

15) हादसा प्रक्रिया प्रदर्शन मेट्रिक्स

तिमाही और डोमेन द्वारा MTTD/MTTA/MTTR।

एसईवी सटीकता (अंडररेटिंग/ओवररेटिंग)।

ऑटो-शमन की घटनाओं का हिस्सा।

शीर्ष एन परिदृश्यों की प्लेबुक कवरेज (> 90%)।

समय पर CAPA प्रदर्शन करें.

16) चरण द्वारा कार्यान्वयन

1. सप्ताह 1: एसईवी मैट्रिक्स, ऑन-कॉल भूमिकाएं, सामान्य कार्ड टेम्पलेट, युद्ध-कक्ष नियम।

2. सप्ताह 2: शीर्ष 5 लक्षणों के लिए प्लेबुक (5xx, DB लैग, काफ्का-लैग, NodeNotReady, TLS)।

3. सप्ताह 3: चैटोप्स/बॉट्स, ऑटो बनाने वाले कार्ड, संचार टेम्पलेट/ Page।

4. सप्ताह 4 +: सुरक्षा प्लेबुक, पीएसपी आउटेज, लीगल होल्ड, रेगुलर ड्रिल/कैओस गेम्स

17) "तेज" रैनबुक (टुकड़े) के उदाहरण

रोलबैक एपीआई (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Verification:
kubectl -n prod top pods -l app=api

ड्रेन नोड

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

फ़ीचर-फ़्लैग ऑफ़ (उदाहरण)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) मिनी-एफएक्यू

कब उठाना है?

जब प्रमुख एसएलओ/व्यवसाय फ़ंक्शन (भुगतान, लॉगिन, गेम) ग्रस्त होता है, और आने वाले घंटों के लिए बजट को "खाने" की दर को बर्न करता है।

अधिक महत्वपूर्ण क्या है - आरसीए या वसूली?

हमेशा स्थिरीकरण, फिर आरसीए। स्थिरीकरण का समय मुख्य संकेतक है।

क्या मुझे सब कुछ स्वचालित करने की आवश्यकता है?

अक्सर और सुरक्षित कदम स्वचालित करें; दुर्लभ/जोखिम भरा - अर्ध-ऑटो और आईसी पुष्टि के माध्यम से।

कुल

मजबूत घटना प्रक्रिया तीन स्तंभों पर टिकी हुई है: स्पष्ट भूमिकाएं और एसईवी नियम, स्वचालन के साथ गुणवत्ता वाली प्लेबुक/रैनबुक, और दोष के बिना पोस्टमार्टम संस्कृति। कैप्चर पैटर्न, ट्रेन ऑन-कॉल, एमटीटीआर/गलत बजट को मापते हैं, और लगातार डिटेक्टरों और प्लेबुक में सुधार करते हैं - यह सीधे डाउनटाइम के जोखिम और लागत को कम करता है।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।