पोस्ट-इवेंट डिब्रीफिंग
1) पोस्ट-इवेंट पार्सिंग की जरूरत क्यों है
पोस्ट-इवेंट डिब्रीफिंग (पोस्टमार्टम/एएआर) एक विफलता के बाद एक संगठन को प्रशिक्षित करने के लिए एक संरचित प्रक्रिया है। लक्ष्य दोष खोजने के लिए नहीं है, बल्कि जड़ की पहचान करना और कारणों की पहचान करना और औसत दर्जे की कार्रवाइयों (CAPA) को समेकित करना है जो पुनरावृत्ति के जोखिम और घटनाओं की लागत को कम करते हैं, SLO, MTTTR R R R और ग्राहक्क/नियान्यूनियान।
2) सिद्धांत (जस्ट कल्चर)
आरोपों के बिना: हम सिस्टम, निर्णय और संदर्भ का विश्लेषण करते हैं, व्यक्तित्व नहीं।
तथ्य राय से अधिक महत्वपूर्ण हैं: समयरेखा, लॉग, मैट्रिक्स, ट्रेल्स, परिवर्तन की कलाकृतियां।
E2E देखें: ग्राहक पर लक्षणों से लेकर आंतरिक निर्भरता और बाहरी प्रदाताओं तक।
सत्यापन: प्रत्येक परिकल्पना प्रयोग/डेटा द्वारा समर्थित है।
लूप क्लोजर: CAPA चौकियों को पार्सिंग करना - रिटेस्ट करना।
3) कब पार्सिंग चलाना है और क्या प्रारूप हैं
आवश्यक: SEV-0/1; एसएलए/नियामक आवश्यकताओं का उल्लंघन; डेटा रिसाव; महत्वपूर्ण पीआर जोखिम।
त्वरित (प्रकाश): SEV-2 ध्यान देने योग्य प्रभाव या आवर्ती लक्षणों के साथ।
संचार एएआर: यदि विफलता स्थिति पृष्ठ/समर्थन को प्रभावित करती है, तो हम अपडेट के एसएलए और संदेशों की गुणवत्ता की जांच करते हैं।
शर्तें: 48-72 घंटे के लिए मसौदा, अंतिम संस्करण - 5 कार्य दिवसों तक (जब तक कि अन्यथा सहमत न हो)।
4) भूमिकाएँ और जिम्मेदारियाँ
आरसीए लीड: प्रक्रिया का आयोजन करता है, बैठक का नेतृत्व करता है, रिपोर्ट और सीएपीए की गुणवत्ता के लिए जिम्मेदार है।
हादसा कमांडर (आईसी): घटना तथ्य और समाधान प्रदान करता है।
टेक लीड्स (सिस्टम द्वारा): कारण विश्लेषण जो कलाकृतियों की पुष्टि करता है।
कम्स/सहायता/कानूनी: संचार और अनुपालन आवश्यकताओं का आकलन।
स्क्रिब: प्रोटोकॉल, साक्ष्य एकत्र करना, संरचना का अनुपालन।
उत्पाद/व्यापार हितधारक - ग्राहक प्रभाव/टर्नओवर, सीएपीए प्राथमिकता
5) तैयारी: बैठक से पहले क्या इकट्ठा करना है
टाइम लाइन (UTC): T0 डिटेक्शन → Tn रिकवरी; फ्लैग/कॉन्फ्रेंस, प्रदाताओं की स्थिति जारी करता है।
अवलोकन डेटा: SLI/SLO रेखांकन, त्रुटि-दर, प्रतिशत, लॉग, निशान, स्क्रीनशॉट।
परिवर्तनों का संदर्भ: पीआर/तैनाती, डीबी माइग्रेशन, फ्लैग, वर्क प्लान के लिंक।
प्रभाव: प्रभावित cohorts/क्षेत्र/प्रदाता, डाउनटाइम मिनट, SLA क्रेडिट।
संचार: स्थिति पृष्ठ पर ड्राफ्ट/पोस्ट, समर्थन उत्तर, आंतरिक घोषणाएं।
राजनेता/प्लेबुक: उस प्रक्रिया में क्या होना चाहिए था जहां विचलन थे।
6) विश्लेषणात्मक प्रक्रियाएं (संयोजन का चयन करें)
5 क्यों: कारण श्रृंखला की तेजी से शव परीक्षा (जोखिम - ओवरसिप्लीफिकेशन)।
फिशबोन चार्ट: लोग/प्रक्रिया/मंच/नीति/भागीदार/उत्पाद।
फॉल्ट ट्री एनालिसिस (एफटीए) - घटना से कई कारणों से कटौती (AND/OR)।
परिवर्तन विश्लेषण: घटना बनाम स्थिर स्थिति के दौरान क्या बदल गया।
कारण ग्राफ: जटिल माइक्रोसर्विस और बाहरी निर्भरता के लिए कॉसल ग्राफ।
मानव कारक समीक्षा: थकान, सूचना शोर, अप्रासंगिक रनबुक 'और।
7) रिपोर्ट संरचना (टेम्पलेट)
1. कार्यकारी सारांश-क्या, कब, कौन प्रभावित हुआ, अंतिम स्थिति।
2. प्रभाव: SLI/SLO, उपयोगकर्ता, क्षेत्र/प्रदाता, न्यूनतम डाउनटाइम, वित्तीय/नियामक प्रभाव।
3. समयरेखा (यूटीसी): प्रमुख घटनाएं, रिलीज़, आईसी समाधान, संचार।
4. अवलोकन और डेटा: रेखांकन, लॉग, निशान, विन्यास/योजनाओं का विस्तार।
5. परिकल्पना और परीक्षण: स्वीकार/अस्वीकार, प्रयोगों/सिमुलेशन के संदर्भ।
6. मूल कारण: सिस्टम/प्रक्रिया/तकनीकी (स्पष्ट शब्द)।
7. योगदान करने वाले कारक: पहले क्यों नहीं देखा/रोका गया।
8. क्या काम किया/क्या काम नहीं किया: प्रक्रियाएं, उपकरण, लोग।
9. CAPA: मालिकों/समय सीमा/सफलता मेट्रिक्स के साथ सुधारात्मक और निवारक कार्रवाई।
10. सत्यापन योजना: D + 14/D + 30 नियंत्रण बिंदु, समापन मानदंड।
11. बाहरी संस्करण: क्लाइंट/नियामक (कोई संवेदनशील डेटा नहीं)।
12. अनुप्रयोग: कलाकृतियां, टिकट/पीआर के लिंक, डैशबोर्ड के स्क्रीनशॉट।
8) CAPAs: कार्रवाई कैसे करें
प्रत्येक कार्रवाई में एक मालिक, एक समय सीमा और एक प्रभाव केपीआई होता है (उदाहरण के लिए, एक्स% की परिवर्तन-विफलता-दर में कमी, 90 दिनों की शून्य दोहराव, स्पाइक्स में एक जलन-दर में कमी)।
अलग सुधारात्मक और निवारक उपाय।
पॉलिसी-ए-कोड से लिंक: अलर्ट, एसएलओ-गेट्स, ऑटोस्केल/लिमिट, गिटोप्स।
CAPA साप्ताहिक परिचालन बैठकों में समीक्षा के साथ सार्वजनिक बैकलॉग में प्र
9) प्रभाव की जांच और बंद
चौकियाँ: D + 7 (मध्यवर्ती), D + 14/D + 30 (मुख्य), D + 90 (कुल)।
सत्यापन: परीक्षण/सिमुलेशन (खेल दिवस), छाया यातायात, अवलोकन (ग्रीन ज़ोन में स्थिर एसएलआई), कोई रिलेप्स नहीं।
समापन केवल पूर्ण CAPA और मान्य मैट्रिक्स के साथ संभव है।
10) संचार और अनुपालन
आंतरिक: उत्पाद/सहायता/प्रबंधन के लिए स्पष्ट स्थिति, एसएलए अपडेट मिलते हैं।
बाहरी: स्थिति पृष्ठ, ग्राहकों/भागीदारों को मेलिंग; दोष के बिना भाषा, एक स्पष्ट रोकथाम योजना।
नियामक: अधिसूचना की समय सीमा, उदाहरणों का मूल्यांकन, रिपोर्ट और कलाकृतियों का अपरिवर्तनीय भंडारण।
11) प्रक्रिया परिपक्वता मेट्रिक्स
रिपोर्ट प्रकाशन समय: वास्तविक बनाम एसएलए (जैसे कार्य दिवस)।
CAPA पूर्णता दर: % गतिविधियाँ नियत तारीख पर बंद हो गईं।
फिर से खोलने की दर: 90 दिनों में दोहराने की घटनाओं का अनुपात।
प्रणालीगत का अनुपात बनाम "मानवीय त्रुटि" का कारण बनता है।
अलर्ट स्वच्छता: झूठे पृष्ठों में कमी, रनबुक के साथ कवर किए गए अलर्ट की वृद्धि।
DORA मेट्रिक्स बदलते हैं: MTTR, परिवर्तन-विफलता-दर से पहले/बाद में।
12) चेकलिस्ट
पार्सिंग से पहले
- आरसीए मालिक और सदस्यता परिभाषित।
- एकत्रित समयरेखा और कलाकृतियाँ (लॉग/रेखांकन/रिलीज/झंडे)।
- cohort/क्षेत्र/प्रदाता द्वारा मूल्यांकन किया गया प
- प्रभाव और समयरेखा अनुभागों के मसौदे तैयार किए गए हैं।
- प्रासंगिक नीतियां/प्लेबुक वास्तविक कार्यों के लिए मैप की जाती हैं।
के दौरान
- स्वीकार/अस्वीकृत परिकल्पनाएं और आधार दर्ज किए गए थे।
- जड़ और योगदान कारणों की पहचान की।
- केपीआई और समय सीमा के साथ एक सीएपीए योजना बनाई गई है।
- बाहरी पक्षों के लिए रिपोर्ट संस्करण सहमत हैं (यदि आवश्यक हो)।
के बाद
- समय पर प्रकाशित रिपोर्ट, भूमिका द्वारा पहुंच।
- CAPA लॉग किए जाते हैं, मालिकों की पुष्टि की जाती है।
- सत्यापन के लिए टेस्ट पॉइंट और मिनी-सिमुलेशन सौंपे गए हैं।
- अपडेटेड रनबुक/एसओपी/अलर्ट/प्रलेखन।
13) एंटी-पैटर्न
"दोषी आदमी X" - प्रणालीगत कारणों के बिना - दोहराएं।
CAPA के बिना या बिना मालिकों/समय सीमा के - कागज के लिए रिपोर्ट।
कोई तथ्य/कलाकृतियाँ - संवेदनाओं पर निष्कर्ष।
विशिष्ट परिवर्तनों के बिना बहुत सामान्य भाषा ("डेटाबेस ओवरलोड")।
संचार की अनदेखी और अनुपालन प्रतिष्ठित जोखिम हैं।
प्रभाव परीक्षण के बिना बंद होना - हफ्तों के बाद रिलेप्स।
14) मिनी टेम्पलेट्स
शीर्षिका रिपोर्ट करें
Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring
रूट कारण सूत्रीकरण (उदाहरण)
CAPA (टुकड़ा)
PSP-A (1%→5%→25%), मालिक को कैनरी रूटिंग सक्षम करें: @ भुगतान-tl, जब तक: 2025-11-07, KPI: शून्य P1 घटनाएं जब प्रदाता 30 दिन जारी करते हैं।
800 ms के कुल ≤ SLA समय के साथ पुनर्निर्धारण समय/रिट्रेज़, मालिक: @ platform-sre, 2025-11-05 तक, KPI: p99 <600 ms लोड N के तहत।
बिन कोहॉर्ट, मालिक द्वारा व्यापार SLI जोड़ें: @ data-leade, 2025-11-10, KPI: डिग्रेडेशन डिटेक्शन <5 मिनट।
15) दैनिक अभ्यास में एम्बेडिंग
साप्ताहिक आरसीए समीक्षा: सीएपीए स्थिति, नए सबक, प्रक्रिया अपडेट।
टैग (सेवा, एसईवी, कारण) और खोज के साथ विकी में पोस्टमार्टम की निर्देशिका।
उपायों को सत्यापित करने के लिए 2-4 सप्ताह में घटना के आधार पर सिमुलेशन।
ऑन-कॉल ऑनबोर्डिंग में सबक और प्रशिक्षण परिदृश्यों को अद्यतन करना शामिल है।
16) नीचे की रेखा
पोस्ट-इवेंट पार्सिंग प्रणालीगत सुधार के लिए एक तंत्र है। जब तथ्य एकत्र किए जाते हैं, कारण साबित होते हैं, कार्य औसत दर्जे के होते हैं और सत्यापित होते हैं, तो संगठन विश्वसनीयता परिचालन पूंजी जमा करता है: एमटीटीटीआर और दोहराने की घटनाओं में गिरावट, जारी पूर्वानुमान और ग्राहक आत्मविश्वास बढ़ाव।