हादसा प्रबंधन
(धारा: प्रौद्योगिकी और बुनियादी ढांचा)
संक्षिप्त सारांश
हादसा प्रबंधन उपयोगकर्ता मूल्य को जल्दी से बहाल करने और व्यावसायिक क्षति को कम करने के लिए एक पुनरावृत् समर्थन - स्पष्ट भूमिकाएँ (हादसा प्रबंधक, टेक लीड, कॉम्स), एसएलओ गेट्स, वृद्धि, चाटोप्स प्रक्रियाएं, तैयार रनबुक और औसत दर्जे की कार्रवाई वस्तुओं के साथ "सहज" घटना के बाद पार्सिंग।
1) लक्ष्य और सिद्धांत
गति और सुरक्षा: तेजी से निदान - सुरक्षित स्थिरीकरण - निरंतर वसूली।
एकमात्र मालिक - सौंपा गया हादसा प्रबंधक (आईएम) प्रक्रिया निर्णय लेता है।
एक उत्पाद के रूप में संचार: हितधारकों और उपयोगकर्ताओं के लिए पूर्वानुमानित अपडेट।
डेटा> राय: SLO/metrics/trails/logs सत्य का स्रोत हैं।
निर्दोष: व्यक्तिगत आरोपों के बिना कारणों का विश्लेषण; सिस्टम सुधार पर ध्यान केंद
2) घटनाओं का वर्गीकरण (गंभीरता/प्रभाव/तत्काल)
गंभीरता (उदाहरण):- SEV1 (महत्वपूर्ण): राजस्व/टीटीडब्ल्यू/भुगतान को गंभीर नुकसान,> उपयोगकर्ताओं या पूरे क्षेत्रों का 20%; एसएलए बिगड़ा/पीआईआई खतरा।
- SEV2 (उच्च): कुंजी प्रवाह का आंशिक क्षरण (खेल का जमा/शर्त/लॉन्च), 5-20% प्रभाव।
- SEV3 (मध्यम): द्वितीयक सेवाओं का ध्यान देने योग्य क्षरण, एक बाईपास है।
- SEV4 (कम): मामूली, सीमित प्रभाव, एसएलओ/एसएलए पर कोई प्रभाव नहीं।
प्रभाव: कौन प्रभावित है (सभी/क्षेत्र/किरायेदार/चैनल)। तात्कालिकता: गिरावट दर (त्रुटि बजट पर तेजी से जलना/धीमी गति से जलना)।
3) हादसा जीवनचक्र
1. अलर्ट/एसएलओ/सिंथेटिक्स/रिपोर्ट से सिग्नल का पता लगाएं।
2. स्वीकार करें - ऑन-कॉल रिसेप्शन की पुष्टि करता है, आईएम असाइन करता है।
3. ट्राइएज - एसईवी/इम्पैक्ट स्कोर, परिकल्पना संग्रह, युद्ध-कक्ष की खोज।
4. शमन - स्थिरीकरण (रोलबैक/रूट स्विचिंग/फिचफ्लाग/स्केलिंग)।
5. संचार - नियमित स्थिति अद्यतन (अंदर/बाहर)।
6. वसूली - पूर्ण एसएलओ/व्यवसाय मैट्रिक्स वसूली।
7. कालक्रम की क्लोज - रिकॉर्डिंग, कलाकृतियों का संग्रह, पीआईआर (आरसीए + एक्शन आइटम)।
4) भूमिकाएँ और जिम्मेदारियाँ (RACI)
हादसा प्रबंधक (आईएम) - प्रक्रिया स्वामी, भूमिकाएं सौंपता है, समय की निगरानी करता है, प्रक्रिया निर्णय लेता है (आर)।
तकनीकी लीड (टीएल) - निदान/परिकल्पना/फिक्सेस, निर्देशांक इंजीनियरों (ए/आर) का संचालन करता है।
संचार (कम्यूनिकेशन) - स्थिति अद्यतन, समर्थन/व्यवसाय/पीआर के साथ कनेक्शन, स्थिति पृष्ठ (आर)।
स्क्रिब - प्रोटोकॉल (समयरेखा, निर्णय, लिंक, कलाकृतियां) (आर)।
हितधारक - उत्पाद/भुगतान/गेमिंग प्रदाता/सुरक्षा (सी/आई)।
न्यूनतम प्रति SEV1: IM + TL + Comms + Scribe। इसे SEV2 पर भूमिकाओं को संयोजित करने की अनुमति है।
5) युद्ध-कक्ष и चाटोप्स
व्यक्तिगत चैनल: '# event-warroom-
साँचा कमांड: '/घटना प्रारंभ ', '/स्थिति अद्यतन', '/कॉल <स्वामी> ', '/रोलबैक', '/फ्रीज ', '/स्केल + N'.
बॉट संदर्भ को खींचता है: हाल ही में रिलीज़, डैशबोर्ड, संबंधित अलर्ट, ट्रेस मिसाल, निर्भरता योजनाएं।
संचार के नियम: संक्षेप में, तथ्यों पर, एक वक्ता (टीएल), आईएम मॉडरेट करता है।
6) ट्रिगर और गेट्स
SLO गेट्स: फास्ट/स्लो बर्न, पेमेंट रूपांतरण ड्रॉप, TTW p95> थ्रेशोल्ड, p99 API ↑, भुगतान कतारें आग पर हैं।
ऑटो क्रियाएं: कैनरी, रोलबैक, डेग्रेड मोड (कार्यों को सीमित करना) को सक्षम करना, उच्च आवृत्ति सिंथेटिक्स को सक्षम करना।
फ्रीज: स्थिरीकरण और पीआईआर से पहले सभी रिलीज/फुट माइग्रेशन।
7) विशिष्ट परिदृश्य (रनबुक पैटर्न)
ए) भुगतान: पीएसपी में टाइमआउट/विफलताओं में वृद्धि
1. भुगतान लूप रिलीज को बढ़ावा देना और फ्रीज करना बंद करें।
2. PSP मार्ग को स्टैंडबाय पर स्विच करें, नीति द्वारा टाइमआउट/रिट्रे बढ़ाएं।
3. अपूर्ण लेनदेन का सामंजस्य, पहचान कुंजियों के साथ पुनरावृत्ति।
4. Comms संचार → समर्थन: क्या आप आरक्षित काम करते हैं? ईटीए।
B) API p99↑ और रिलीज के बाद 5xx
1. रोलबैक (नीला-हरा/कैनरी → स्थिर)।
2. कैश हिट, कतार गहराई, डेटाबेस/गेम प्रदाता हॉटस्पॉट की जाँच करें।
3. अस्थायी स्केलिंग, फीचर फ्लैग के माध्यम से भारी सुविधाओं को सी
C) खेल प्रदाता अनुपलब्ध
1. उपलब्ध स्टूडियो/गेम में ट्रैफिक स्विच करें, एक स्थिति बैनर दिखाएं।
2. हर 30-60 एस में सिंथेटिक चेक चालू करें।
3. मुआवजे/बोनस (नीति के अनुसार) पर सहमति - पीआईआर में जोड़ें।
डी) रिसाव/संदिग्ध पीआईआई
1. घटक अलगाव, कुंजी/टोकन निरसन, लॉग संग्रह (WORM)।
2. कानूनी संचार/विनियामक संरेखण।
3. घटना के बाद की कार्रवाई: गुप्त रोटेशन, मास्किंग, पहुंच।
8) संचार (आंतरिक/बाहरी)
अद्यतन आवृत्ति: SEV1 - हर 15-30 मिनट, SEV2 - 30-60 मिनट।
आंतरिक स्थिति टेम्पलेट:- क्या टूटा है: "PSP-X: द राइज ऑफ टाइमआउट के माध्यम से जमा करता है।"
- प्रभावित: "टीआर/बीआर, ~ 18% स्ट्रीम उपयोगकर्ता।"
- जब यह शुरू हुआ: "12:07 ईईटी, SEV1."
- हम क्या करते हैं: "PSP-Y, रिट्रेस/रेट कैप सक्षम करने के लिए मार्ग बदलना।"
- अगला अपडेट: "20 मिनट में।"
- संपर्क करें: "IM @ duty-im, TL @ oncall-pay।"
सार्वजनिक स्थिति (पृष्ठ/सामाजिक नेटवर्क) - संक्षिप्त रूप से, पीआईआई और अनावश्यक विवरण के बिना, ईटीए के साथ और आगे के अपडेट के लिए एक लिंक।
9) कलाकृति संग्रह और लेखा परीक्षा
घटना समयरेखा (मिनट सटीकता), सेवा संस्करण, फ्लैग्स, कॉन्फिग परिवर्तन।
डैशबोर्ड की तस्वीरें, अनुमानित मार्ग (trace_id), लॉग "पहले/बाद में/बाद"।
टिकट, पीआर, रिलीज, रनबुक के लिंक।
संचार रिपोर्ट (कब/से/क्या)।
यह सब एक घटना कार्ड में जोड़ ता है।
10) क्लोजर एंड पीआईआर (पोस्ट-इंसीडेंट रिव्यू)
पीआईआर प्रारूप (लघु):- सारांश: क्या हुआ, स्केल, अवधि, एसईवी।
- प्रभाव: उपयोगकर्ता/क्षेत्र, SLO/SLA, Fin. प्रभाव।
- समयरेखा: विस्तार से, मिनट द्वारा।
- रूट कारण: तकनीकी + संगठनात्मक (क्यों पहले अनिर्धारित)।
- डिटेक्शन और डिफेंस: क्या मदद/विफल (अलर्ट, सिंथेटिक्स, फिचफ्लैग्स)।
- एक्शन आइटम: विशिष्ट कार्य, मालिक, समय सीमा (और प्रभाव की जांच कैसे करें)।
- सबक सीखा: हम प्रक्रिया/वास्तुकला/अवलोकन में क्या बदलते हैं।
नियम: पूर्ण वस्तुओं की जांच के 2-4 सप्ताह के बाद कोई शुल्क, अधिकतम तथ्य, अनिवार्य अनुवर्ती।
11) प्रक्रिया विश्वसनीयता मेट्रिक्स
MTTD - पता लगाने का मतलब समय
MTTA (... स्वीकार करें) - ऑन-कॉल पुष्टि से पहले।
MTTR (... पुनर्स्थापित करें) - जब तक SLO पुनर्स्थापित नहीं होता
परिवर्तन विफलता दर -% रिलीज के परिणामस्वरूप घटनाएं होती हैं।
एसईवी द्वारा हादसा दर, डोमेन द्वारा वितरण (भुगतान/खेल/इंफ्रा)।
अलर्ट क्वालिटी: शोर/गलत का अनुपात, सतर्कता के बाद कार्रवाई का समय।
कॉम-एसएलए: स्थिति अपडेट की आवृत्ति का अनुपालन।
12) एसएलओ और रिलीज के साथ एकीकरण
सीडी में गेट्स: केवल हरे SLO प्रॉक्सी (उपलब्धता, p95, conv, TTW) के साथ कैनरी प्रमोशन।
फ्रीज प्रक्रियाएं: जब fast-burn/SEV1 - पीआईआर से पहले रिलीज़ करना बंद करें।
रेखांकन में ऑटो एनोटेशन: डैशबोर्ड पर रिलीज/फ्लैग/माइग्रेशन दिखाई देते हैं।
13) नियामक और अनुपालन
PII: लॉग/ट्रैक में मास्किंग/अलियासिंग, WORM ऑडिट स्टोर, एक्सेस कंट्रोल।
क्षेत्रीयता: अनुमत न्यायालयों के बाहर उपयोगकर्ता डेटा न लें।
रिपोर्टिंग: नियामकों को औपचारिक पत्र/सूचनाएं - टेम्पलेट और वृद्धि प्रक्रिया।
14) लर्निंग एंड रेडीनेस (गेम-डे)
त्रैमासिक अभ्यास: "PSP ड्रॉप", "गेम प्रदाता अनुपलब्ध", "p99 उछाल", "प्रमुख लीक"।
MTTA/MTTR पर टाइमर, व्यायाम पर रेट्रो।
रनबुक और संपर्क अद्यतन करना, चैटोप्स कमांड की जाँच करना।
15) तत्परता चेकलिस्ट (घटना से पहले)
1. एसईवी नियम और वृद्धि मैट्रिक्स सहमत हुए।
2. ऑन-कॉल घुमाव, IM/TL/Comms/Scribe आबंटित.
3. प्रमुख परिदृश्यों (भुगतान, खेल, डेटाबेस, कैश, कतारें) के लिए रनबुक।
4. एसएलओ कार्ड और बर्न-रेट अलर्ट, स्थिति पृष्ठ।
5. ChatOps बॉट: कमांड, ऑटो-संदर्भ, स्थिति टेम्पलेट।
6. पीआईआर टेम्पलेट और घटना कार्ड।
7. नियमित खेल-दिवस और संपर्क/अधिकार संशोधन।
8. फ्रीज पॉलिसी और "लाल बटन" (रोलबैक/किल-स्विच)।
16) एंटीपैटर्न
कोई एक आईएम नहीं है, "भीड़" - अराजकता और देरी का नेतृत्व करती है।
एसएलओ द्वार की कमी - देर से पता लगाना, शोर अलर्ट।
फ्रीज के बिना एक घटना के दौरान रिलीज → कैस्केडिंग क्रैश।
लॉग और ट्रेल्स पर्याप्त नहीं हैं, कोई कलाकृतियां नहीं हैं - कमजोर पीआईआर।
अभियोगात्मक संस्कृति - छिपी हुई गलतियाँ, वृद्धि का डर।
प्रेरणादायक संचार - व्यवसाय/उपयोगकर्ता ट्रस्ट का नुकसान।
17) टेम्पलेट्स (अपने विकी की प्रतिलिपि)
ए) हादसा कार्ड (YAML)
yaml id: INC-2025-11-005 title: PSP-X timeouts in TR/BR sev: SEV1 start_at: 2025-11-05T12:07:00+02:00 status: active impact: "Deposits via PSP-X failing for ~18% users (TR, BR)"
im: "@oncall-im"
tl: "@oncall-pay"
comms: "@oncall-comms"
scribe: "@oncall-scribe"
mitigations:
- "Reroute to PSP-Y"
- "Enable retries and raise timeouts"
next_update_in: "20m"
links:
grafana: "<dashboard-url>"
traces: "<tempo-link>"
logs: "<loki-query>"
runbook: "payments/psp_timeout"
बी) स्थिति अद्यतन (आंतरिक)
[12:25] SEV1 PSP-X timeouts — TR/BR
Impact: ~18% deposits affected. SLO fast-burn active.
Mitigation: Rerouting to PSP-Y; retries enabled; release freeze.
ETA next update: 12:45 EET
IM: @oncall-im TL: @oncall-pay
सी) पीआईआर (टोपी)
Summary, Impact, Timeline, Root Cause (tech+org),
Detections/Defenses, Action Items (owner+due), Lessons Learned.
सारांश
मजबूत घटना प्रबंधन संरचना + अनुशासन है: पूर्व-सहमत भूमिकाएं, एसएलओ गेट्स, रनबुक, पारदर्शी संचार और "सहज" पीआईआर काम करते हैं। यह लूप MTTA/MTTR को कम करता है, डाउनटाइम की लागत को कम करता है, उपयोगकर्ता ट्रस्ट बनाता है और आपको बोल्डर जारी करने की अनुमति देता है - लेकिन सुरक्षित रूप से।