आपदा वसूली परिदृश्य
1) डीआर की आवश्यकता क्यों है और उद्देश्य क्या है
आपदा वसूली (डीआर) आपदाओं (डेटा सेंटर/क्षेत्र की विफलता, डेटा हानि, बड़े पैमाने पर कॉन्फ़िगरेशन त्रुटियों) के बाद सेवाओं की वसूली के लिए वास्तुशिल्प, प्रक्रियाओं और प्रशिक्षण का एक समूह है। डीआर का लक्ष्य ग्राहक ट्रस्ट और नियामक अनुपालन को बनाए रखते हुए नियंत्रित लागत और जोखिम पर लक्ष्य RTO/RPO को पूरा करना है।
रिकवरी टाइम ऑब्जेक्टिव (आरटीओ) - डाउनटाइम।
रिकवरी प्वाइंट ऑब्जेक्टिव (आरपीओ) - स्वीकार्य डेटा हानि (अंतिम सुसंगत बिंदु से समय)।
RLO (रिकवरी लेवल ऑब्जेक्टिव): कार्यक्षमता का स्तर जो पहले लौटना चाहिए (न्यूनतम व्यवहार्य सेवा)।
2) आलोचना द्वारा प्रणालियों का वर्गीकरण
टियर 0 (महत्वपूर्ण): भुगतान, लॉगिन, केवाईसी, मुख्य लेनदेन - आरटीओ ≤ 15 मिनट, आरपीओ ≤ 1-5 मिनट।
टियर 1 (उच्च): ऑपरेटिंग पैनल, डी -1 - आरटीओ ≤ 1 एच, आरपीओ ≤ 15-60 मिनट की रिपोर्ट करता है।
टियर 2 (औसत): बैक ऑफिस, निकट-वास्तविक समय एनालिटिक्स - आरटीओ ≤ 4-8 घंटे, आरपीओ ≤ 4-8 घंटे।
टियर 3 (कम): गैर-महत्वपूर्ण सहायक - आरटीओ ≤ 24-72 एच, आरपीओ ≤ 24 एच।
टियर + लक्ष्य आरटीओ/आरपीओ को सेवा कैटलॉग में प्रत्येक सेवा के लिए आबंटित करें; उनके खिलाफ निर्णय और बजट की जांच की जानी चाहिए।
3) धमकी मॉडल और परिदृश्य
मानव निर्मित: AZ/क्षेत्र/प्रदाता की विफलता, नेटवर्क गिरावट/DNS, डेटाबेस/भंडारण विफलता, मास रिलीज बग।
मानव कारक: गलत कॉन्फ़िग/IaC, डेटा विलोपन, कुंजी समझौता।
प्राकृतिक/बाहरी: आग/बाढ़, बिजली आउटेज, कानूनी रुकावटें।
प्रत्येक के लिए - संभावना/प्रभाव का मूल्यांकन करें, डीआर परिदृश्य और प्लेबुक से लिंक करें।
4) डीआर आर्किटेक्चर पैटर्न
1. सक्रिय-सक्रिय (बहु-क्षेत्र): दोनों क्षेत्र यातायात की सेवा करते हैं।
पेशेवरों: न्यूनतम आरटीओ/आरपीओ, उच्च स्थिरता।
नुकसान: डेटा जटिलता/स्थिरता, उच्च कीमत।
कहां: रीड-हैवी, कैश्ड लोड, स्टेटलेस सर्विसेज, मल्टी-मास्टर डीबी (सख्त संघर्ष नियम)।
2. सक्रिय-निष्क्रिय (हॉट स्टैंडबाय): एक गर्म निष्क्रिय पूरी तरह से गर्म कॉपी रखता है।
आरटीओ: मिनट; RPO: मिनट। स्वचालित असफलता और प्रतिकृति की आवश्यकता है।
3. गर्म स्टैंडबाय: संसाधनों का हिस्सा गर्म हो जाता है, एक दुर्घटना के मामले में स्केलिंग।
आरटीओ: दसियों मिनट; RPO: 15-60 मिनट। अधिक किफायती, लेकिन लंबे समय तक।
4. पायलट लाइट: न्यूनतम "स्पार्क" (मेटाडेटा/चित्र/स्क्रिप्ट) + त्वरित प्रसार।
आरटीओ: घंटे; आरपीओ: घंटे। सस्ता, टियर 2-3 के लिए उपयुक्त।
5. बैकअप पुनर्स्थापित करें: ऑफ़ लाइन बैकअप + मैनुअल वार्मअप.
आरटीओ/आरपीओ: घंटे/दिन। केवल कम आलोचना और अभिलेखागार के लिए।
5) डेटा और स्थिरता
डेटाबेस प्रतिकृति:- तुल्यकालिक - लगभग शून्य आरपीओ, लेकिन ↑latentnost/stoimost।
- अतुल्यकालिक - बेहतर प्रदर्शन, आरपीओ> 0 (लॉग की पूंछ)।
- स्थिरता: एक मॉडल चुनें (मजबूत/अंतिम/कारण)। भुगतान के लिए - कड़ाई से, एनालिटिक्स के लिए - अंतिम।
- स्नैपशॉट्स: सुसंगत बिंदु नियमित रूप से बनाएं + स्टोर लॉग (WAL/redo)।
- क्रॉस-क्षेत्र लेनदेन: 2PC से बचें; पहचान संचालन, डेली-एंड-रिपीट (डीडुप्लिकेशन के साथ पुन: प्रयास), इवेंट सोर्सिंग का उपयोग करें।
- कतारें/बसें: प्रतिकृति/दर्पण, डीएलक्यू, आदेश और उपभोक्ताओं की पहचान।
6) नेटवर्क, यातायात और डीएनएस
GSLB/Anycast/DNS: असफल/असफल नीतियां, कम TTL (लेकिन बहुत अधिक नहीं), कई क्षेत्रों से स्वास्थ्य-जांच।
L7 रूटिंग: क्षेत्रीय नक्शे, गिरावट झंडे (फ़ंक्शन प्रतिबंध)।
निजी-लिंक/वीपीएन: प्रदाताओं को बैकअप चैनल (पीएसपी/केवाईसी/सीडीएन)।
दर सीमित: वसूली के दौरान तूफान सुरक्षा।
7) स्टेटफुल बनाम स्टेटलेस
स्टेटलेस स्क्रिप्ट/ऑटोस्केल द्वारा किया जाता है; स्टेटफुल को एक सुसंगत डेटा रणनीति (प्रतिकृति, स्नैपशॉट, प्रतिकृति पदोन्नति, कोरम) की आवश्यकता होती है।
कैश/सत्र: क्रॉस-रीजन प्रतिकृति के साथ बाहरी (रेडिस/मेमकैच) या लॉग द्वारा फिर से बीज; टोकन (JWT) या साझा भंडारण में सत्र आयोजित करें।
8) डीआर ट्रिगर और स्वचालन
एसएलओ माली और कोरम जांच - एक स्वचालित क्षेत्र-विफल रनबुक।
दुर्घटना के मामले में फ्रीज बदलें: ब्लॉक अप्रासंगिक रिलीज/पलायन।
कोड के रूप में बुनियादी ढांचा: स्टैंड-बाय मैनिफेस्ट की तैनाती, बहाव की जांच।
भूमिका पदोन्नति: स्वचालित प्रतिकृति डीबी + लेखक/रहस्य ड्रेसिंग को बढ़ावा देते हैं।
9) संचार और अनुपालन
युद्ध-कक्ष: IC/TL/Coms/Scribe; SEV अद्यतन अंतराल।
स्थिति पृष्ठ: प्रभाव का भूगोल, ईटीए, वर्कअराउंड।
नियामक: अधिसूचना समय सीमा, डेटा सुरक्षा, अपरिवर्तनीय साक्ष्य भंडारण।
भागीदार/प्रदाता: पुष्ट संपर्क, समर्पित चैनल।
10) डीआर परीक्षण और अभ्यास
टेबलटॉप: परिदृश्य और समाधानों पर चर्चा करना।
खेल दिवस (चरण/प्रोड-लाइट): AZ/क्षेत्रों की विफलता, प्रदाता शटडाउन, DNS रीसेट का अनुकरण।
परीक्षण बहाल करें: समय-समय पर अलगाव में बैकअप बहाल करें और अखंडता को मान्य करें।
अराजकता/विफलता इंजेक्शन: नियंत्रित नेटवर्क/नोड/निर्भरता विफलताएं।
व्यायाम केपीआई: आरटीओ/आरपीओ, प्लेबुक दोष, सीएपीए हासिल किया।
11) वित्त और रणनीति चयन (FinOps)
कम RPO/RTO के लिए $ की गिनती करें: लक्ष्य जितना कम होगा, चैनल, लाइसेंस, भंडार उतने ही महंगे होंगे।
हाइब्रिड: टियर 0 - सक्रिय-सक्रिय/गर्म; टियर 1 - गर्म; टियर 2-3 - पायलट/बैकअप।
महंगा डेटा: ठंडी परतों (संग्रह/S3/GLACIER), वृद्धिशील स्नैपशॉट, डीडुप्लिकेशन का उपयोग करें।
डीआर-इन्फ्रा लागत और प्रमाणपत्र/लाइसेंस की आवधिक समीक्षा।
12) डीआर परिपक्वता मेट्रिक्स
प्रत्येक टियर के लिए आरटीओ (वास्तविक) और आरपीओ (वास्तविक)।
डीआर कवरेज: डिज़ाइन की गई स्क्रिप्ट/प्लेबुक/टेस्ट के साथ% सेवाएं।
बैकअप सक्सेस एंड रिस्टोर सक्सेस: बैकअप और सिद्ध पुनर्स्थापना की दैनिक सफलता।
समय-से-घोषणा आपदा: असफल निर्णय की गति।
फेलबैक समय सामान्य टोपोलॉजी में लौटता है।
दोष दर अभ्यास: पाया अंतराल/शिक्षा।
अनुपालन साक्ष्य पूर्णता।
13) चेकलिस्ट
डीआर कार्यान्वयन से पहले
- सेवा निर्देशिका में टियर, आरटीओ/आरपीओ, निर्भरता और मालिक शामिल हैं।
- टियर और बजट द्वारा चयनित पैटर्न (एए/एपी/डब्ल्यूएस/पीएल/बीआर)।
- संगति और प्रतिकृति समझौते प्रलेखित हैं।
- GSLB/DNS/रूटिंग और हेल्थ-चेक कॉन्फ़िगर और परीक्षण किए गए।
- बैकअप, स्नैपशॉट, लॉग बदलें - सक्षम, पुनर्स्थापन के लिए जाँच की गई।
- डीआर प्लेबुक और प्रदाता संपर्क आज तक हैं।
दुर्घटना के दौरान (संक्षेप में)
- एक SEV घोषित करें और एक युद्ध-कक्ष इकट्ठा करें; फ्रीज रिलीज।
- जांच के कोरम की जाँच करें; प्रभाव/भूगोल रिकॉर्ड करें।
- फेलओवर रनबुक को निष्पादित करें: ट्रैफिक, प्रमोशन डीबी, कतार, कैश।
- डीग्रेड-यूएक्स/लिमिट सक्षम करें; SLA पर अद्यतन प्रकाशित करें।
- साक्ष्य एकत्र करें (समयरेखा, रेखांकन, लॉग, कमांड)।
दुर्घटना के बाद
- एन अंतराल के एसएलओ का निरीक्षण करें; योजना के अनुसार असफलता को निष्पादित करें
- आचरण एएआर/आरसीए; CAPA जारी करें।
- प्लेबुक, अलर्ट उत्प्रेरक, डीआर परीक्षण मामलों को अपडेट करें।
- हितधारकों/नियामकों (यदि आवश्यक हो) को रिपोर्ट करें।
14) साँचा
14. 1 डीआर स्क्रिप्ट कार्ड (उदाहरण)
ID: DR-REGION-FAILOVER-01
Scope: prod EU ↔ prod US
Tier: 0 (Payments, Auth)
Targets: RTO ≤ 15m, RPO ≤ 5m
Trigger: quorum(probes EU, US) + burn-rate breach + provider status=red
Actions:
- Traffic: GSLB shift EU→US (25→50→100% with green SLIs)
- DB: promote US-replica to primary; re-point writers; freeze schema changes
- MQ: mirror switch; drain EU DLQ; idempotent reprocess
- Cache: invalidate region-specific keys; warm critical sets
- Features: enable degrade_payments_ux
- Comms: status page update q=15m; partners notify
Guardrails: payment_success ≥ 98%, p95 ≤ 300ms
Rollback/Failback: EU green 60m → 25→50→100% with guardrails
Owners: IC @platform, DB @data, Network @netops, Comms @support
14. 2 रनबुक "प्रतिकृति डेटाबेस को बढ़ावा दें" (टुकड़ा)
1) Freeze writes; verify WAL applied (lag ≤ 30s)
2) Promote replica; update cluster VIP / writer endpoint
3) Rotate app secrets/endpoints via remote config
4) Validate: read/write checks, consistency, replication restart to new secondary
5) Lift freeze, monitor errors p95/5xx for 30m
14. 3 डीआर एक्सरसाइज प्लान (संक्षिप्त)
Purpose: to check RTO/RPO Tier 0 in case of EU failure
Scenario: EU incoming LB down + 60s replication delay
Success criteria: 100% traffic in US ≤ 12m; RPO ≤ 5m; SLI green 30m
Artifacts: switching logs, SLI graphs, step times, command output
15) एंटी-पैटर्न
नियमित बहाल परीक्षणों के बिना "बैकअप हैं"।
रहस्य/समापन बिंदु स्वचालित रूप से स्विच नहीं किए जाते हैं।
पुनर्वितरण पर कोई पहचान नहीं → डुप्लिकेट/खो लेनदेन।
क्षरण फ्लैग्स के बिना क्षेत्रों के लिए समान कॉन्फ्रेंस।
"झूठे अलार्म" के डर से लंबे समय से घोषणा।
मोनोरेगनल प्रदाता (PSP/KYC) जिसका कोई विकल्प नहीं है।
कोई असफल योजना नहीं है - हम एक आपातकालीन टोपोलॉजी में रहते हैं "हमेशा के लिए।"
16) कार्यान्वयन रोडमैप (6-10 सप्ताह)
1. नेड। 1-2: टियर द्वारा सेवाओं का वर्गीकरण, लक्ष्य आरटीओ/आरपीओ सेट करना, डीआर पैटर्न चुनना।
2. नेड। 3-4: प्रतिकृति/बैकअप, जीएसएलबी/डीएनएस, पदोन्नति प्रक्रियाओं की स्थापना; प्लेबुक और रनबुक 'और।
3. नेड। 5-6: पहले DR अभ्यास (tabletop→stage), मेट्रिक्स और CAPA को ठीक करना।
4. नेड। 7-8: ट्रैफिक-प्रतिबंधित व्यायाम प्रोड-लाइट; असफलता स्वचालन।
5. नेड। 9-10: लागत अनुकूलन (FinOps), Tier 0 का हॉट/AA में स्थानांतरण, त्रैमासिक व्यायाम और रिपोर्टिंग नियम।
17) नीचे की रेखा
प्रभावी डीआर केवल बैकअप के बारे में नहीं है। ये सुसंगत वास्तुकला, असफल/असफल स्वचालन, डेटा अनुशासन (पहचान/प्रतिकृति), प्रशिक्षण और पारदर्शी संचार हैं। जब आरटीओ/आरपीओ वास्तविक होते हैं, तो प्लेबुक पर काम किया जाता है, और व्यायाम नियमित होते हैं, आपदा एक नियंत्रित घटना में बदल जाती है, जिसके बाद सेवाएं जल्दी और अनुमानित रूप से सामान्य हो जाती हैं।