घटनाएं और एसआरई प्लेबुक
1) घटना क्या है और यह एसएलओ से कैसे संबंधित है
एक घटना एक ऐसी घटना है जो एसएलओ/सेवा समारोह का उल्लंघन करती है या उल्लंघन का जोखिम पैदा करती है (एक गलत बजट को अस्वीकार्य रूप से जल्दी से जला दिया जाता है)।
क्लासिक मैट्रिक्स: MTTD, MTTA, MTTR, MTBF।
बजट त्रुटि और बर्न-रेट प्राथमिकता और वृद्धि खिड़कियों को निर्धारित करते हैं।
2) गंभीरता का स्तर (एसईवी) और मानदंड
SEV ट्रिगर: 5xx%, p95> सीमा से अधिक, भुगतान में गिरावट स्पाइक, काफ्का-लैग> सीमा, NodeNotReady> X मिनट, TLS समाप्त होता है <7 दिन, DDOS सिग्नल/लीक।
3) भूमिकाएँ और जिम्मेदारियाँ (RACI)
हादसा कमांडर (आईसी) - एकमात्र निर्णय लेने, कार्य प्रवाह प्रबंधन, एसईवी स्थिति परिवर्तन।
ऑप्स लीड (टेक लीड) - तकनीकी रणनीति, परिकल्पना, सुधारों का समन्वय।
संचार लीड (Comms) - स्थिति अद्यतन (आंतरिक/बाहरी), Page/चैट/मेल।
स्क्रिप्ट (क्रॉसलर) - समयरेखा, समाधान, कलाकृतियाँ, रेखांकन/लॉग से लिंक।
ऑन-कॉल इंजीनियर्स/एसएमई - प्लेबुक क्रियाओं का निष्पादन।
सुरक्षा/गोपनीयता - सुरक्षा या पीआईआई घटनाओं के लिए सक्षम।
FinOps/भुगतान - जब बिलिंग/PSP/लागत को प्रभावित करता है।
4) हादसा जीवनचक्र
1. पता लगाना (अलर्ट/रिपोर्ट/सिंथेटिक) → एक घटना कार्ड का ऑटो-निर्माण।
2. ट्राइएज (आईसी असाइन किया गया, एसईवी सौंपा गया, न्यूनतम संदर्भ संग्रह)।
3. स्थिरीकरण (शमन: फीचर/रोलबैक/रेट-लिमिट/फेलओवर बंद करें)।
4. जांच (आरसीए परिकल्पना, तथ्यों का संग्रह)।
5. सेवा वसूली (मान्य एसएलओ, अवलोकन)।
6. संचार (अंदर/बाहर, अंतिम रिपोर्ट)।
7. पोस्टमॉर्टम (कोई शुल्क, सीएपीए योजना, मालिक, समय सीमा)।
8. रोकथाम (परीक्षण/अलर्ट/प्लेबुक/झंडे, टीम का अतिरिक्त प्रशिक्षण)।
5) संचार और "युद्ध-कक्ष"
एकीकृत हादसा चैनल ('# inc-Sev1-YYYYMDD-hhmm'), केवल तथ्य और कार्य।
रेडियो प्रोटोकॉल शैली आदेश: "आईसी: मैं रोलबैक संस्करण 1 असाइन करता हूं। 24 → ईटीए 10 मिनट।"
स्थिति अपडेट: SEV-1 हर 15 मिनट, SEV-2 हर 30-60 मिनट में।
स्थिति पृष्ठ/बाहरी संचार - टेम्पलेट द्वारा कॉम्स लीड के माध्यम से।
निषिद्ध: समानांतर "शांत" कमरे, एक सामान्य चैनल में अप्रयुक्त परिकल्पना।
6) अलर्टिंग और एसएलओ-बर्न (उदाहरण नियम)
फास्ट चैनल (1-5 मिनट) और धीमा चैनल (1-2 एच) बर्न-रेट।
मल्टी-सिग्नल: बजट त्रुटि, 5xx%, p95, काफ्का-लैग, भुगतान में गिरावट-दर, सिंथेटिक्स।
मूल कारण की खोज करें - लक्षणों को स्थिर करने के बाद ही।
उदाहरण (सामान्यीकृत):promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01
Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4
7) प्लेबुक बनाम रैनबुक
प्लेबुक - घटना के प्रकार (शाखाओं, स्थितियों, जोखिमों) द्वारा क्रियाओं का परिदृश्य।
रनबुक - चरणों/कमांड (जाँच, सुधार, सत्यापन) का एक विशिष्ट "मानचित्र"।
नियम: प्लेबुक कई रनबुक (रोलबैक, फीचर-फ्लैग्स, फेलओवर, स्केलिंग, ब्लॉकिंग ट्रैफिक, आदि) को संदर्भित करता है।
8) हादसा कार्ड टेम्पलेट
yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active monitoring resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"
9) एसआरई प्लेबुक टेम्पलेट (मार्कडाउन)
markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.
Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)
Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез
Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства
Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам
Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука
10) विशिष्ट प्लेबुक
10. 1 एपीआई 5xx स्पाइक
स्थिरीकरण: समस्याग्रस्त ficheflag बंद करें; बूस्ट एपीआई प्रतिकृतियां रिलीज को वापस कैशिंग सक्षम करती हैं।
निदान: डिफ़रिलीज़, लॉग में त्रुटियाँ (शीर्ष-अपवाद), p95 वृद्धि, दबाव डीबी/कैश।
जोखिम: भुगतान/बैकेंड में झरना।
10. 2 БД: प्रतिकृति लैग/लॉक स्टॉर्म
स्थिरीकरण: भारी नौकरियों/रिपोर्टों का निलंबन; पुनर्निर्देशित जादूगर वृद्धि wal_buffers/replika-sloty को पढ़ ता है।
निदान: लंबे लेनदेन, अवरुद्ध अनुरोध, योजना परिवर्तन।
निर्धारण: सूचकांक/संकेत, नौकरियों का पुनर्विकास, विभाजन प्रश्न।
10. 3 काफ्का उपभोक्ता अंतराल
स्थिरीकरण: अस्थायी रूप से उपभोक्ताओं के पैमाने; गैर-महत्वपूर्ण सेवाओं से उत्पादन पार्टियों/कोटा बढ़ाएं।
निदान: पुनर्संतुलन, धीमी गति से रेगिस्तान, जीसी रुकता है।
सत्यापन: लक्ष्य मूल्य के लिए अंतराल, कोई बूंद नहीं।
10. 4 K8s NodeNotReady/संसाधन तूफान
स्थिरीकरण: घेरा + नाली; पुनर्वितरण भार; CNI/ओवरले बंद शोर डेमोनसेट की जाँच करें।
निदान: डिस्क दबाव, OOM, थ्रॉटलिंग, नेटवर्क ड्रॉप।
रोकथाम: फली व्यवधान बजट, संसाधन सीमा/अनुरोध।
10. 5 टीएलएस/प्रमाणपत्र समाप्त हो रहे हैं
स्थिरीकरण: गुप्त/इंग्रेस का जबरन अपडेट; अस्थायी ओवरराइड।
निदान: विश्वास की श्रृंखला, घड़ी-तिरछा।
रोकथाम: अलर्ट T-30/T-7/T-1, ऑटो-रेनुअल।
10. 6 डीडीओएस/असामान्य यातायात
स्थिरीकरण: WAF/बॉट नियम, दर-सीमा/भू-फिल्टर, अपस्ट्रीम शेड लोड।
निदान: हमला प्रोफाइल (L3/4/7), स्रोत, छतरियां।
रोकथाम: प्रदाताओं के साथ neycast, autoscalling, caching, play-nich।
10. 7 भुगतान पीएसपी-आउटेज
स्थिरीकरण: वैकल्पिक पीएसपी/विधियों के लिए स्मार्ट-रूटिंग; जिटर के साथ रीट्री उठाएं; "सॉफ्ट" यूआई क्षरण।
निदान: कोड द्वारा स्पाइक विफलताएं, एपीआई स्टेटस/पीएसपी स्थिति पृष्ठ।
संचार: व्यवसाय और समर्थन के लिए पारदर्शी अद्यतन, एनडी/रूपांतरण आंकड़े सही करें।
10. 8 सुरक्षा हादसा/पीआईआई लीक
स्थिरीकरण: नोड अलगाव/गुप्त रोटेशन, एक्सफिल्ट्रेशन ब्लॉकिंग, लीगल होल्ड।
निदान: समय सीमा तक पहुंच, प्रभावित विषय/क्षेत्र।
नोटिस: अधिकार क्षेत्र आवश्यकताओं द्वारा नियामक/भागीदार/उपयोगकर्ता।
रोकथाम: डीएलपी/विभाजन वृद्धि, "कम से कम विशेषाधिकार।"
11) प्लेबुक का स्वचालन
चैटोप्स कमांड: '/ic सेट सेव 1 ', '/तैनात रोलबैक एपी 1। 23. 4 ', '/फीचर ऑफ एक्स'।
रनबुक-बॉट्स: अर्ध-स्वचालित चरण (नाली नोड, फ्लिप ट्रैफिक, पर्ज कैश)।
स्व-उपचार हुक: डिटेक्टर → मानक शमन (दर-सीमा, पुनः आरंभ, पैमाने)।
अलर्ट और कमांड से ऑटो-क्रिएट कार्ड/टाइमलाइन।
12) प्लेबुक की गुणवत्ता: चेकलिस्ट
- स्पष्ट लक्षण और डिटेक्टर (मैट्रिक्स/लॉग/ट्रेस)।
- जोखिम मूल्यांकन के साथ तेजी से स्थिरीकरण कदम।
- कमांड/स्क्रिप्ट अद्यतित हैं, मंचन में जाँच की जाती है।
- एसएलओ वसूली का सत्यापन।
- संचार टेम्पलेट और बाहरी अद्यतन मानदंड।
- बंद होने के बाद पोस्टमार्टम संदर्भ और CAPA।
13) पोस्टमॉर्टम (दोषरहित) और CAPA
लक्ष्य: सीखने के लिए, अपराधी को खोजने के लिए नहीं।
सामग्री: क्या हुआ, क्या अच्छा/बुरा पाया गया, कारकों का योगदान (उन + प्रक्रियाओं), रोकने के लिए कार्रवाई।
शब्द: SEV-1 - 48 घंटों के भीतर; SEV-2 - 3 कार्य दिवस।
CAPA: विशिष्ट मालिक, समय, औसत दर्जे का प्रभाव (MTTR/बढ़ाहुआ MTTD)।
14) कानूनी पहलू और साक्ष्य आधार
कानूनी पकड़: ठंड लॉग/ट्रैक/अलर्ट, लिखने-एक बार भंडारण।
कलाकृतियों के भंडारण की श्रृंखला: भूमिका, अखंडता नियंत्रण द्वारा पहुंच।
नियामक नोटिस: न्यायालयों के लिए समयसीमा/टेम्पलेट (विशेष रूप से प्रभावित भुगतान/पीआईआई के साथ)।
गोपनीयता: पार्सिंग के दौरान पीआईआई न्यूनतम और मास्किंग।
15) हादसा प्रक्रिया प्रदर्शन मेट्रिक्स
तिमाही और डोमेन द्वारा MTTD/MTTA/MTTR।
एसईवी सटीकता (अंडररेटिंग/ओवररेटिंग)।
ऑटो-शमन की घटनाओं का हिस्सा।
शीर्ष एन परिदृश्यों की प्लेबुक कवरेज (> 90%)।
समय पर CAPA प्रदर्शन करें.
16) चरण द्वारा कार्यान्वयन
1. सप्ताह 1: एसईवी मैट्रिक्स, ऑन-कॉल भूमिकाएं, सामान्य कार्ड टेम्पलेट, युद्ध-कक्ष नियम।
2. सप्ताह 2: शीर्ष 5 लक्षणों के लिए प्लेबुक (5xx, DB लैग, काफ्का-लैग, NodeNotReady, TLS)।
3. सप्ताह 3: चैटोप्स/बॉट्स, ऑटो बनाने वाले कार्ड, संचार टेम्पलेट/ Page।
4. सप्ताह 4 +: सुरक्षा प्लेबुक, पीएसपी आउटेज, लीगल होल्ड, रेगुलर ड्रिल/कैओस गेम्स
17) "तेज" रैनबुक (टुकड़े) के उदाहरण
रोलबैक एपीआई (K8s)
bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api
नाली नोड
bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m
फ़ीचर-फ़्लैग ऑफ़ (उदाहरण)
bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'
18) मिनी-एफएक्यू
कब उठाना है?
जब प्रमुख एसएलओ/व्यवसाय फ़ंक्शन (भुगतान, लॉगिन, गेम) ग्रस्त होता है, और आने वाले घंटों के लिए बजट को "खाने" की दर को बर्न करता है।
अधिक महत्वपूर्ण क्या है - आरसीए या वसूली?
हमेशा स्थिरीकरण, फिर आरसीए। स्थिरीकरण का समय मुख्य संकेतक है।
क्या मुझे सब कुछ स्वचालित करने की आवश्यकता है
अक्सर और सुरक्षित कदम स्वचालित करें; दुर्लभ/जोखिम भरा - अर्ध-ऑटो और आईसी पुष्टि के माध्यम से।
परिणाम
मजबूत घटना प्रक्रिया तीन स्तंभों पर टिकी हुई है: स्पष्ट भूमिकाएं और एसईवी नियम, स्वचालन के साथ गुणवत्ता वाली प्लेबुक/रैनबुक, और दोष के बिना पोस्टमार्टम संस्कृति। कैप्चर पैटर्न, ट्रेन ऑन-कॉल, एमटीटीआर/गलत बजट को मापते हैं, और लगातार डिटेक्टरों और प्लेबुक में सुधार करते हैं - यह सीधे डाउनटाइम के जोखिम और लागत को कम करता है।