हादसा और दुर्घटना प्रतिक्रिया
(धारा: संचालन और प्रबंधन)
1) परिभाषाएं और उद्देश्य
हादसा - एक घटना जो एसएलओ/सुरक्षा/अनुपालन का उल्लंघन करती है या ग्राहकों, धन, डेटा, प्रतिष्ठा के लिए जोखिम पैदा करती है।
प्रतिक्रिया के लक्ष्य: सेवा को जल्दी से बहाल करना, क्षति को कम करना, सबूत को ठीक करना, पारदर्शी रूप से संवाद करना और पुनरावृत्ति को रोकना।
कुंजी सिद्धांत
सुरक्षा पहले: सुविधाओं पर लोगों/डेटा/धन की रक्षा करना।
चोक करने के लिए एक गला: एक एकल हादसा कमांडर (आईसी) निर्णय लेता है।
अब कार्रवाई योग्य: प्रत्येक परिकल्पना एक परीक्षण/कार्रवाई के बाद होती है।
साक्ष्य मायने रखते हैं: सब कुछ लॉग इन है, कलाकृतियों पर हस्ताक्षर किए जाते हैं, समयरेखा विस्तृत है
2) वर्गीकरण (गंभीरता और प्राथमिकता)
ट्रिगर: एसएलओ उल्लंघन, अलर्ट नियम, मैनुअल रिपोर्ट, कानूनी घटना (डीपीओ/सीसीओ)।
3) भूमिकाएँ और जिम्मेदारियाँ (RACI)
हादसा कमांडर (ए) - घटना के नेता, कार्य सेटिंग, निर्णय लेने, लंबी घटनाओं के लिए आईसी परिवर्तन।
टेक लीड (आर) - तकनीकी निदान/सुधार, एसआरई/इंजीनियरिंग समन्वय।
Comms Leade (R) - स्थिति अद्यतन (अंदर/बाहर) लिखता है, स्थिति पृष्ठ का स्वामी।
स्क्रिब (आर) - प्रोटोकॉल, समयरेखा, कलाकृतियों का संग्रह।
सुरक्षा/कानूनी (सुरक्षा मामलों के लिए सी/ए) - जोखिम मूल्यांकन, अनिवार्य सूचनाएं।
ग्राहक सहायता (सी) - प्रतिक्रिया टेम्पलेट, टिकट मार्ग।
भागीदार संपर्क (सी) - प्रदाताओं/किरायेदारों के साथ संचार।
प्रबंधन (I) - सूचना, व्यावसायिक निर्णय (ऋण/मुआवजा)।
4) पहले 15 मिनट (टेम्पलेट)
1. एक आईसी असाइन करें और एक घटना कार्ड (चैट चैनल, वीडियो ब्रिज, जीरा/ट्रैकर) खोलें।
2. एसईवी असाइन करें और एसएलओ लक्षण को ठीक करें (वास्तव में उल्लंघन किया गया है)।
3. स्थिर करें:- रनबुक/रनर शामिल करें: सर्किट-ब्रेकर्स, थ्रॉटलिंग, रूट स्विचिंग, पॉज प्रोमो;
- समझौता के मामले में - मार-स्विच संवेदनशील कार्यों।
- 4. कमांड: टेक लीड - डायग्नोस्टिक्स; कॉम्स - "तकनीकी पकड़" (10-15 मिनट में - पहला अपडेट)।
- 5. परिकल्पना (तीन अधिकतम) की पहचान करें, मालिकों को असाइन करें, सत्यापन के लिए टाइमर सेट करें (5-10 मिनट)।
- 6. कलाकृतियों को इकट्ठा करें: मेट्रिक्स, कॉन्फ़िग्स, रिलीज़ हैश, 'ट्रेस _ आईडी', रसीदों के साथ लॉग।
5) पहला घंटा (टेम्पलेट)
संचार v1 (15-20 मिनट): तथ्य, पहुंच, लक्षण, हम क्या करते हैं, अगला अपडेट। कोई अटकलें नहीं।
घटना सीमाएं: कौन से क्षेत्र/किरायेदार/चैनल/संस्करण प्रभावित होते हैं।
क्षति नियंत्रण: अस्थायी कैप/प्रतिबंध, "शोर" एकीकरण का विघटन, गिरावट मोड की सक्रियता।
फोरेंसिक: फ्रीज लॉग रोटेशन, कलाकृतियों की रक्षा (WORM/हस्ताक्षर)।
रिकवरी रोडमैप: चेक पॉइंट के साथ T + 30/T + 60।
6) संचार और स्थिति पृष्ठ
आंतरिक अंतराल: P1 - प्रत्येक 15 मिनट, P2 - 30-60 मिनट।
बाहरी: स्थिति पृष्ठ/किरायेदार/एसएलए भागीदार।
संदेश टेम्पलेट:- आप क्या देख सकते हैं: "X: YY UTC के साथ, यूरोपीय संघ क्षेत्र में चेकआउट विफलताओं में वृद्धि (p95> 250 ms)"
- प्रभावित: "ए/बी/सी ऑपरेटर ~ 40% यातायात"
- हम क्या करते हैं: "एक वैकल्पिक मार्ग शामिल है, थ्रॉटलिंग प्रोमो; हम प्रदाता के साथ काम करते हैं "
- डेटा/समय सीमा: "15 मिनट में अगला अपडेट"
- मुआवजे: "घटना को बंद करने के बाद एसएलए के अनुसार क्रेडिट नोट लागू करें"
7) प्लेबुक (iGaming/fintech के लिए संदर्भ)
प्राइसमिसमैच (शोकेस ≠ चेकआउट): कैश फोर्स विकलांगता, 'fx _ varsion/tax _ rule _ version' सामंजस्य, गतिशील प्रोमो फ्रीज, पॉलिसी विसंगति मुआवजा।
WebhookLag (भागीदार/सहयोगी): श्रमिकों को स्केलिंग, बढ़ ते बैच, प्राथमिकता वापसी, नई सदस्यता पर अस्थायी टोपी।
भुगतान आउटेज/पीएसपी गिरावट: एक बैकअप पीएसपी पर स्विच करना, क्लाइंट टाइमआउट को कम करना, मैनुअल कतार समाशोधन, संगरोध में ग्रे लेनदेन।
RTP बहाव: बोनस ठहराव, भुगतान योग्य/संस्करण जांच, विंडो एक्सटेंशन की निगरानी, RTP प्रोफ़ाइल रोलबैक।
फ्रॉड स्पाइक: कस वेग/सीमाएं, अतिरिक्त केवाईसी जाँच, संदिग्ध सहकर्मियों को अलग करना, मैन्युअल रूप से उच्च जीत की समीक्षा करना शामिल है।
डेटा/पीआईआई एक्सपोज़र: सिस्टम अलगाव, डीपीओ/कानूनी अधिसूचना, प्रभावित रिकॉर्ड की सूची, समयरेखा द्वारा नियामक सूचनाएं।
8) उपकरण और रन (ऑटो-एक्शन)
Кнопки: प्रोमो, री-रूट, राइज़लिमिट, रोलबैक, फ्लश कैश, अक्षम वेबहूक, सक्षम सुरक्षित मोड।
गार्ड रेल: "सैडलिंग" के खिलाफ सुरक्षा - रोलबैक सीमित हैं, लॉग पर हस्ताक्षर किए जाते हैं, प्रत्येक कार्रवाई IC/Scribe।
प्रोवेबिलिटी: डीएसएसई हस्ताक्षर, स्नैपशॉट हैश, मर्कल लॉग स्लाइस।
9) घटना का अंत
मानदंड: एसएलओ बहाल, कतार भुनाया गया, डेटा/धन सामंजस्य, जोखिम बंद, संचार भेजे गए।
समापन अनुष्ठान: अंतिम स्थिति अद्यतन, निश्चित समयरेखा, प्रभावों की सूची, कारणों की प्रारंभिक परिकल्पना, पोस्टमार्टम की तारीख सौंपी गई।
10) पोस्टमार्टम (कोई शुल्क नहीं)
शब्द: P1 - 3 कार्य दिवसों के भीतर; P2 - 5 कार्य दिवस।
सामग्री: तथ्य/समयरेखा, मूल कारण (5 Whys/FRAM), प्रभाव (SLO, वित्त, ग्राहक), क्या काम किया/नहीं, एक्शन आइटम (मालिक, शब्द, औसत दर्जे का प्रभाव)।
प्रभावशीलता की जांच: 30-60 दिनों के बाद - प्रदर्शन और मैट्रिक्स की समीक्षा (दोहराव, एमटीटीआर, अलर्ट शोर)।
11) हादसा प्रबंधन मेट्रिक्स और एसएलओ
MTTD/MTTA/MTTR, विफलता दर बदलें, Comms v1 का समय,% ऑटो-अनुमत (रन)।
अलर्ट शोर: अप्रासंगिक संकेतों का प्रतिशत, पृष्ठ प्रति-कॉल शिफ्ट।
दोहराएं घटनाएं: 90 दिनों में दोहराव का अनुपात।
पोस्टमार्टम एसएलए: समय पर पूरा/बंद का अनुपात।
एसएलओ प्रतिक्रियाएं: पी 1 - पहला संचार ≤ 15 मिनट; MTTR ≤ 60 मिनट; कलाकृति पूर्णता = 100%।
12) कानून/अनुपालन/गोपनीयता
कानूनी नोटिस: लीक/घटनाओं के लिए स्थानीय नियामकों का समय।
पीआईआई कम से कम: केवल अनुमोदित जैब के माध्यम से प्राथमिक तक पहुंच; टोकन/मास्किंग।
Artifact भंडारण: WORM लॉग, अधिकार क्षेत्र द्वारा प्रतिधारण अवधि; अभिगम नियंत्रण (RBAC/ABAC, JIT)।
समकक्ष: संविदात्मक एसएलए, वृद्धि प्रक्रिया, कार्यवाही प्राप्तियां।
13) कर्तव्य और वृद्धि का संगठन
24 × 7 ऑन-कॉल: भूमिका (एसआरई, ऐप, डेटा, सुरक्षा, भुगतान) द्वारा रोटेशन।
वृद्धि मैट्रिक्स: क्षेत्रों/उत्पादों/प्रदाताओं के लिए कौन; डुप्लिकेट संपर्क (चैट/वॉयस/एसएमएस)।
व्यायाम (गेमडेज़): सिमुलेशन - पीएसपी ड्रॉप, रिट्रे हिमस्खलन, मूल्य मिसलिग्नमेंट, प्रमुख समझौता, क्षेत्र विफलता।
14) घटनाओं के डैशबोर्ड
हीट (अब): SLO स्थिति, p95/p99, क्षेत्रों/किरायेदारों का नक्शा, कार्य कतार, कलाकृतियां एकत्र/नहीं।
इतिहास: घटना प्रकार द्वारा रुझान, दक्षता को चलाता है, पुनरावृत्ति का कारण बनता है।
गुणवत्ता नियंत्रण: समयरेखा पूर्णता, पोस्टमार्टम, एसएलए संचार की "कवरेज"।
15) कार्यान्वयन चेकलिस्ट
- एसईवी पैमाने और एसएलओ ट्रिगर को मंजूरी दें।
- भूमिकाएँ (IC/Tech/Comms/Scribe/Sec/Legal) और घुमाव 24 × 7।
- एकल घटना कार्ड टेम्पलेट और स्थिति पृष्ठ लॉन्च करें।
- प्लेबुक का वर्णन करें (प्राइसमिसमैच/वेबहुकलाग/भुगतान/आरटीपी/धोखाधड़ी/पीआईआई)।
- ऑडिट और लाल बटन के साथ रन को लागू करें।
- WORM/हस्ताक्षर/कला संग्रह सक्षम करें।
- संचार प्रक्रिया (आंतरिक/बाहरी), एसएलए अपडेट।
- पोस्टमार्टम प्रक्रिया और टेम्पलेट; क्रिया मद निष्पादन का केपीआई।
- गेमडेज़मासिक; घटना के रुझानों की तिमाही समीक्षा।
- डैशबोर्ड आईआर मैट्रिक्स (एमटीटीए/एमटीटीआर/शोर/दोहराएं/कॉम्स एसएलए)।
16) एफएक्यू
"अकेले आईसी" क्यों?
एक एकल निर्णय बिंदु अराजकता को हटाता है और प्रतिक्रियाओं को तेज करता है।
सार्वजनिक रूप से कब घोषणा करें?
जैसे ही एक पुष्ट तथ्य और एक स्थिरीकरण योजना है। नियामक समय सीमा का मूल्यांकन करें।
अधिक महत्वपूर्ण क्या है - एक फिक्स या एक रिपोर्
पहला, वसूली और सुरक्षा। समानांतर में - कलाकृतियों का संग्रह। रिपोर्ट - स्थिरीकरण के बाद।
क्या सब कुछ स्वचालित करना संभव है?
नहीं, लेकिन "लगातार और सरल" चरणों के करीब चलता है। बाकी स्पष्ट प्लेबुक और वर्कआउट के माध्यम से है।
Recap: मजबूत हादसा प्रतिक्रिया सिर्फ PagerDuty और चैट चैनल के बारे में नहीं है। यह भूमिकाओं का एक अनुशासन है, पहले 15 मिनट, तेजी से नियंत्रित रन, पारदर्शी संचार, उत्पादकता और अनिवार्य पोस्टमार्टम के साथ फोरेंसिक। इस सर्किट के साथ, आप MTTR को कम करते हैं, पैसे और डेटा की रक्षा करते हैं, और ग्राहक और नियामक विश्वास बढ़ाते हैं।