GH GambleHub

घटनाएं और एसआरई प्लेबुक

1) घटना क्या है और यह एसएलओ से कैसे संबंधित है

एक घटना एक ऐसी घटना है जो एसएलओ/सेवा समारोह का उल्लंघन करती है या उल्लंघन का जोखिम पैदा करती है (एक गलत बजट को अस्वीकार्य रूप से जल्दी से जला दिया जाता है)।

क्लासिक मैट्रिक्स: MTTD, MTTA, MTTR, MTBF।

बजट त्रुटि और बर्न-रेट प्राथमिकता और वृद्धि खिड़कियों को निर्धारित करते हैं।


2) गंभीरता का स्तर (एसईवी) और मानदंड

एसईवीहस्ताक्षर करेंप्रभावMTTR उद्देश्य
SEV-1कुंजी यातायात के लिए टूटा हुआ महत्वपूर्ण SLO/कुल नीसभी उपयोगकर्ता/भुगतान≤ 60 मिनट
SEV-2गिरावट (p95 विलंबता, 5xx/भुगतान त्रुटियां ↑)महत्वपूर्ण हिस्≤ 4 एच
SEV-3स्थानीय मुद्दे/बेसलाइन अस्वीव्यक्तिगत सेवा/क्षेत्≤ 1 व्यापार दिवस
SEV-4वर्तमान प्रभाव के बिना संभावित जोखिम/दोसुधार की तैयारीयोजना के अनुसार

SEV ट्रिगर: 5xx%, p95> सीमा से अधिक, भुगतान में गिरावट स्पाइक, काफ्का-लैग> सीमा, NodeNotReady> X मिनट, TLS समाप्त होता है <7 दिन, DDOS सिग्नल/लीक।


3) भूमिकाएँ और जिम्मेदारियाँ (RACI)

हादसा कमांडर (आईसी) - एकमात्र निर्णय लेने, कार्य प्रवाह प्रबंधन, एसईवी स्थिति परिवर्तन।

ऑप्स लीड (टेक लीड) - तकनीकी रणनीति, परिकल्पना, सुधारों का समन्वय।

संचार लीड (Comms) - स्थिति अद्यतन (आंतरिक/बाहरी), Page/चैट/मेल।

स्क्रिप्ट (क्रॉसलर) - समयरेखा, समाधान, कलाकृतियाँ, रेखांकन/लॉग से लिंक।

ऑन-कॉल इंजीनियर्स/एसएमई - प्लेबुक क्रियाओं का निष्पादन।

सुरक्षा/गोपनीयता - सुरक्षा या पीआईआई घटनाओं के लिए सक्षम।

FinOps/भुगतान - जब बिलिंग/PSP/लागत को प्रभावित करता है।


4) हादसा जीवनचक्र

1. पता लगाना (अलर्ट/रिपोर्ट/सिंथेटिक) → एक घटना कार्ड का ऑटो-निर्माण।

2. ट्राइएज (आईसी असाइन किया गया, एसईवी सौंपा गया, न्यूनतम संदर्भ संग्रह)।

3. स्थिरीकरण (शमन: फीचर/रोलबैक/रेट-लिमिट/फेलओवर बंद करें)।

4. जांच (आरसीए परिकल्पना, तथ्यों का संग्रह)।

5. सेवा वसूली (मान्य एसएलओ, अवलोकन)।

6. संचार (अंदर/बाहर, अंतिम रिपोर्ट)।

7. पोस्टमॉर्टम (कोई शुल्क, सीएपीए योजना, मालिक, समय सीमा)।

8. रोकथाम (परीक्षण/अलर्ट/प्लेबुक/झंडे, टीम का अतिरिक्त प्रशिक्षण)।


5) संचार और "युद्ध-कक्ष"

एकीकृत हादसा चैनल ('# inc-Sev1-YYYYMDD-hhmm'), केवल तथ्य और कार्य।

रेडियो प्रोटोकॉल शैली आदेश: "आईसी: मैं रोलबैक संस्करण 1 असाइन करता हूं। 24 → ईटीए 10 मिनट।"

स्थिति अपडेट: SEV-1 हर 15 मिनट, SEV-2 हर 30-60 मिनट में।

स्थिति पृष्ठ/बाहरी संचार - टेम्पलेट द्वारा कॉम्स लीड के माध्यम से।

निषिद्ध: समानांतर "शांत" कमरे, एक सामान्य चैनल में अप्रयुक्त परिकल्पना।


6) अलर्टिंग और एसएलओ-बर्न (उदाहरण नियम)

फास्ट चैनल (1-5 मिनट) और धीमा चैनल (1-2 एच) बर्न-रेट।

मल्टी-सिग्नल: बजट त्रुटि, 5xx%, p95, काफ्का-लैग, भुगतान में गिरावट-दर, सिंथेटिक्स।

मूल कारण की खोज करें - लक्षणों को स्थिर करने के बाद ही।

उदाहरण (सामान्यीकृत):
promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01

Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4

7) प्लेबुक बनाम रैनबुक

प्लेबुक - घटना के प्रकार (शाखाओं, स्थितियों, जोखिमों) द्वारा क्रियाओं का परिदृश्य।

रनबुक - चरणों/कमांड (जाँच, सुधार, सत्यापन) का एक विशिष्ट "मानचित्र"।

नियम: प्लेबुक कई रनबुक (रोलबैक, फीचर-फ्लैग्स, फेलओवर, स्केलिंग, ब्लॉकिंग ट्रैफिक, आदि) को संदर्भित करता है।


8) हादसा कार्ड टेम्पलेट

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"

9) एसआरई प्लेबुक टेम्पलेट (मार्कडाउन)

markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.

Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)

Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез

Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства

Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам

Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука

10) विशिष्ट प्लेबुक

10. 1 एपीआई 5xx स्पाइक

स्थिरीकरण: समस्याग्रस्त ficheflag बंद करें; बूस्ट एपीआई प्रतिकृतियां रिलीज को वापस कैशिंग सक्षम करती हैं।

निदान: डिफ़रिलीज़, लॉग में त्रुटियाँ (शीर्ष-अपवाद), p95 वृद्धि, दबाव डीबी/कैश।

जोखिम: भुगतान/बैकेंड में झरना।

10. 2 БД: प्रतिकृति लैग/लॉक स्टॉर्म

स्थिरीकरण: भारी नौकरियों/रिपोर्टों का निलंबन; पुनर्निर्देशित जादूगर वृद्धि wal_buffers/replika-sloty को पढ़ ता है।

निदान: लंबे लेनदेन, अवरुद्ध अनुरोध, योजना परिवर्तन।

निर्धारण: सूचकांक/संकेत, नौकरियों का पुनर्विकास, विभाजन प्रश्न।

10. 3 काफ्का उपभोक्ता अंतराल

स्थिरीकरण: अस्थायी रूप से उपभोक्ताओं के पैमाने; गैर-महत्वपूर्ण सेवाओं से उत्पादन पार्टियों/कोटा बढ़ाएं।

निदान: पुनर्संतुलन, धीमी गति से रेगिस्तान, जीसी रुकता है।

सत्यापन: लक्ष्य मूल्य के लिए अंतराल, कोई बूंद नहीं।

10. 4 K8s NodeNotReady/संसाधन तूफान

स्थिरीकरण: घेरा + नाली; पुनर्वितरण भार; CNI/ओवरले बंद शोर डेमोनसेट की जाँच करें।

निदान: डिस्क दबाव, OOM, थ्रॉटलिंग, नेटवर्क ड्रॉप।

रोकथाम: फली व्यवधान बजट, संसाधन सीमा/अनुरोध।

10. 5 टीएलएस/प्रमाणपत्र समाप्त हो रहे हैं

स्थिरीकरण: गुप्त/इंग्रेस का जबरन अपडेट; अस्थायी ओवरराइड।

निदान: विश्वास की श्रृंखला, घड़ी-तिरछा।

रोकथाम: अलर्ट T-30/T-7/T-1, ऑटो-रेनुअल।

10. 6 डीडीओएस/असामान्य यातायात

स्थिरीकरण: WAF/बॉट नियम, दर-सीमा/भू-फिल्टर, अपस्ट्रीम शेड लोड।

निदान: हमला प्रोफाइल (L3/4/7), स्रोत, छतरियां।

रोकथाम: प्रदाताओं के साथ neycast, autoscalling, caching, play-nich।

10. 7 भुगतान पीएसपी-आउटेज

स्थिरीकरण: वैकल्पिक पीएसपी/विधियों के लिए स्मार्ट-रूटिंग; जिटर के साथ रीट्री उठाएं; "सॉफ्ट" यूआई क्षरण।

निदान: कोड द्वारा स्पाइक विफलताएं, एपीआई स्टेटस/पीएसपी स्थिति पृष्ठ।

संचार: व्यवसाय और समर्थन के लिए पारदर्शी अद्यतन, एनडी/रूपांतरण आंकड़े सही करें।

10. 8 सुरक्षा हादसा/पीआईआई लीक

स्थिरीकरण: नोड अलगाव/गुप्त रोटेशन, एक्सफिल्ट्रेशन ब्लॉकिंग, लीगल होल्ड।

निदान: समय सीमा तक पहुंच, प्रभावित विषय/क्षेत्र।

नोटिस: अधिकार क्षेत्र आवश्यकताओं द्वारा नियामक/भागीदार/उपयोगकर्ता।

रोकथाम: डीएलपी/विभाजन वृद्धि, "कम से कम विशेषाधिकार।"


11) प्लेबुक का स्वचालन

चैटोप्स कमांड: '/ic सेट सेव 1 ', '/तैनात रोलबैक एपी 1। 23. 4 ', '/फीचर ऑफ एक्स'।

रनबुक-बॉट्स: अर्ध-स्वचालित चरण (नाली नोड, फ्लिप ट्रैफिक, पर्ज कैश)।

स्व-उपचार हुक: डिटेक्टर → मानक शमन (दर-सीमा, पुनः आरंभ, पैमाने)।

अलर्ट और कमांड से ऑटो-क्रिएट कार्ड/टाइमलाइन।


12) प्लेबुक की गुणवत्ता: चेकलिस्ट

  • स्पष्ट लक्षण और डिटेक्टर (मैट्रिक्स/लॉग/ट्रेस)।
  • जोखिम मूल्यांकन के साथ तेजी से स्थिरीकरण कदम।
  • कमांड/स्क्रिप्ट अद्यतित हैं, मंचन में जाँच की जाती है।
  • एसएलओ वसूली का सत्यापन।
  • संचार टेम्पलेट और बाहरी अद्यतन मानदंड।
  • बंद होने के बाद पोस्टमार्टम संदर्भ और CAPA।

13) पोस्टमॉर्टम (दोषरहित) और CAPA

लक्ष्य: सीखने के लिए, अपराधी को खोजने के लिए नहीं।

सामग्री: क्या हुआ, क्या अच्छा/बुरा पाया गया, कारकों का योगदान (उन + प्रक्रियाओं), रोकने के लिए कार्रवाई।

शब्द: SEV-1 - 48 घंटों के भीतर; SEV-2 - 3 कार्य दिवस।

CAPA: विशिष्ट मालिक, समय, औसत दर्जे का प्रभाव (MTTR/बढ़ाहुआ MTTD)।


14) कानूनी पहलू और साक्ष्य आधार

कानूनी पकड़: ठंड लॉग/ट्रैक/अलर्ट, लिखने-एक बार भंडारण।

कलाकृतियों के भंडारण की श्रृंखला: भूमिका, अखंडता नियंत्रण द्वारा पहुंच।

नियामक नोटिस: न्यायालयों के लिए समयसीमा/टेम्पलेट (विशेष रूप से प्रभावित भुगतान/पीआईआई के साथ)।

गोपनीयता: पार्सिंग के दौरान पीआईआई न्यूनतम और मास्किंग।


15) हादसा प्रक्रिया प्रदर्शन मेट्रिक्स

तिमाही और डोमेन द्वारा MTTD/MTTA/MTTR।

एसईवी सटीकता (अंडररेटिंग/ओवररेटिंग)।

ऑटो-शमन की घटनाओं का हिस्सा।

शीर्ष एन परिदृश्यों की प्लेबुक कवरेज (> 90%)।

समय पर CAPA प्रदर्शन करें.


16) चरण द्वारा कार्यान्वयन

1. सप्ताह 1: एसईवी मैट्रिक्स, ऑन-कॉल भूमिकाएं, सामान्य कार्ड टेम्पलेट, युद्ध-कक्ष नियम।

2. सप्ताह 2: शीर्ष 5 लक्षणों के लिए प्लेबुक (5xx, DB लैग, काफ्का-लैग, NodeNotReady, TLS)।

3. सप्ताह 3: चैटोप्स/बॉट्स, ऑटो बनाने वाले कार्ड, संचार टेम्पलेट/ Page।

4. सप्ताह 4 +: सुरक्षा प्लेबुक, पीएसपी आउटेज, लीगल होल्ड, रेगुलर ड्रिल/कैओस गेम्स


17) "तेज" रैनबुक (टुकड़े) के उदाहरण

रोलबैक एपीआई (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api

नाली नोड

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

फ़ीचर-फ़्लैग ऑफ़ (उदाहरण)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) मिनी-एफएक्यू

कब उठाना है?

जब प्रमुख एसएलओ/व्यवसाय फ़ंक्शन (भुगतान, लॉगिन, गेम) ग्रस्त होता है, और आने वाले घंटों के लिए बजट को "खाने" की दर को बर्न करता है।

अधिक महत्वपूर्ण क्या है - आरसीए या वसूली?

हमेशा स्थिरीकरण, फिर आरसीए। स्थिरीकरण का समय मुख्य संकेतक है।

क्या मुझे सब कुछ स्वचालित करने की आवश्यकता है

अक्सर और सुरक्षित कदम स्वचालित करें; दुर्लभ/जोखिम भरा - अर्ध-ऑटो और आईसी पुष्टि के माध्यम से।


परिणाम

मजबूत घटना प्रक्रिया तीन स्तंभों पर टिकी हुई है: स्पष्ट भूमिकाएं और एसईवी नियम, स्वचालन के साथ गुणवत्ता वाली प्लेबुक/रैनबुक, और दोष के बिना पोस्टमार्टम संस्कृति। कैप्चर पैटर्न, ट्रेन ऑन-कॉल, एमटीटीआर/गलत बजट को मापते हैं, और लगातार डिटेक्टरों और प्लेबुक में सुधार करते हैं - यह सीधे डाउनटाइम के जोखिम और लागत को कम करता है।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।