डीआर रणनीति और आरटीओ/आरपीओ

1) बुनियादी सिद्धांत

1. साधन से पहले लक्ष्य। सबसे पहले, हम आरटीओ/आरपीओ और महत्वपूर्ण परिदृश्य तैयार करते हैं, फिर प्रौद्योगिकी का चयन करते हैं।

2. महत्व से विभाजन। सभी सेवाओं के लिए "सोना" की आवश्यकता नहीं होती है; व्यापार आलोचना से विभाजित।

3. डेटा डीआर का मूल है। स्थिरता, प्रतिकृति, भ्रष्टाचार का पता लगाना और वसूली बिंदु हार्डवेयर की तुलना में अधिक महत्वपूर्ण हैं।

4. स्वचालन और सत्यापन। DR IaC, रिकवरी रिग्रेशन टेस्ट और टेलीमेट्री के बिना अर्थहीन है।

5. शिक्षा और सबूत। नियमित "खेल दिवस" के बिना एक योजना तत्परता का भ्रम है।

6. सुरक्षा और अनुपालन। एन्क्रिप्शन, अलगाव, WORM/अपरिवर्तनीय बैकअप, DPA/न्यायालय।

2) शर्तें और पत्राचार

आरटीओ - घटना के समय से सेवा बहाल होने तक "सामान्य" है।

आरपीओ वसूली में अंतिम स्वस्थ डेटा बिंदु का "आयु" है।

RLO (रिकवरी लेवल ऑब्जेक्टिव) - कार्यक्षमता का स्तर जिसे बहाल किया जाना चाहिए (न्यूनतम व्यवहार्य सेवा)।

एमटीडी (अधिकतम सहनीय डाउनटाइम) - वह सीमा जिसके बाद व्यवसाय अस्वीकार्य क्षति झेलता है।

आरटीए/आरपीए (वास्तविक) - प्रथाओं से वास्तविक समय/वसूली बिंदु।

संचार: आरटीओ ≤ एमटीडी; RPA ≤ RPO। लक्ष्यों और तथ्य के बीच की खाई पोस्टमार्टम और सुधार का विषय है।

3) डीआर रणनीति कक्षाएं (तत्परता स्तर)

स्तर	वर्णन	ठेठ आरटीओ/आरपीओ	लागत	अनुप्रयोग
बैकअप/पुनर्स्थापित करें	केवल बैकअप और पर्यावरण छवि	आरटीओ: घंटे-दिन, आरपीओ: घंटे	$	गैर-महत्वपूर्ण प्रणाली,
पायलट लाइट	"स्पार्क": न्यूनतम स्टैक उठाया जाता है, डेटा को दोहराया जाता है	आरटीओ: दसियों मिनट-घंटे, आरपीओ: मिनट-घंटे	$$	मध्यम आलोचना, बचत
गर्म स्टैंडबाय	गर्म स्टैंड: लगभग तैयार, कम भार	आरटीओ: minutes- <घंटा, RPO: मिनट	$$$	बी 2 सी कोर, भुगतान द्वार
सक्रिय/निष्क्रिय	पूर्ण निष्क्रिय क्लोन, स्वचालित feilover	आरटीओ: मिनट, आरपीओ: सेकंड-मिनट	$$$$	मिशन-महत्वपूर्ण एपीआई
सक्रिय/सक्रिय	बिक्री में दोनों साइटें	RTO≈0, RPO≈0 -sec। $$$$$	चरम एसएलओ, वैश्विक उत्पाद

💡 नियम: व्यवसाय जोखिम के लिए उपयुक्त न्यूनतम स्तर चुनें।

4) परिदृश्य जिसके खिलाफ हम बचाव करते हैं

क्षेत्र/क्लाउड/डेटा केंद्र (इलेक्ट्रिक्स, नेटवर्क, प्रदाता) का

डेटा भ्रष्टाचार/ऑपरेटर त्रुटि (विलोपन, टूटी हुई प्रतिकृतियां, तार्किक भ्रष्टाचार)।

मैलवेयर/रैंसमवेयर।

रिलीज/कॉन्फ़िगरेशन दोष (बड़ेपैमाने पर आउटेज)।

लत का पतन (KMS, DNS, रहस्य, भुगतान प्रदाता)।

कानूनी घटनाएं (अवरुद्ध, अधिकार क्षेत्र से डेटा निर्यात का निषेध)।

प्रत्येक परिदृश्य के लिए, आरटीओ/आरपीओ, डीआर स्तर, प्लेबुक, जिम्मेदार व्यक्तियों को निर्दिष्ट करें।

5) डेटा रणनीतियाँ (आरपीओ की कुंजी)

5. 1 बैकअप

पूर्ण + वृद्धिशील + लेनदेन लॉग (DB के लिए)।

अपरिवर्तनीय/WORM भंडारण और ऑफ़ लाइन प्रतियां ("एयर-गैप्ड")।

मेटाडेटा और क्रिप्टो हस्ताक्षर के साथ बैकअप की सूची; अनुसूचित परीक्षण बहाल करता है।

5. 2 प्रतिकृति

सिंक्रोनस (कम आरपीओ, ↑latentnost, खराब प्रसार का जोखिम)।

अतुल्यकालिक (पर्फ पर कम प्रभाव, आरपीओ> 0; खराब होने वाले बच्चे के साथ संयोजन करें)।

स्ट्रीमिंग प्रतिकृति और राज्य पुनर्निर्माण के लिए सीडीसी (डेटा कैप्चर बदलें)।

5. 3 तार्किक भ्रष्टाचार से बचा

Versioning/" समय में अंक" (PITR) एक विंडो ≥ N दिनों के साथ।

अपरिवर्तनीय हस्ताक्षर (संतुलन, रकम, चेक्सम) "टूटे हुए" डेटा का शुरुआती पता लगाने वाले हैं।

तत्काल भ्रष्टाचार के खिलाफ बफर के रूप में "धीमी" प्रतिकृति चैनल (15-60 मिनट की देरी)।

पुनर्प्राप्ति बिंदु चयन स्केच:

python def pick_restore_point(pitr, anomaly_signals, max_age):
healthy = [p for p in pitr if not anomaly_signals. after(p. time)]
return max(healthy, key=lambda p: p. time if now()-p. time <= max_age else -1)

6) आवेदन, स्थिति, कैश

किसी भी क्षेत्र में स्थितिहीन परत - स्केल और पुनः प्रारंभ (गिट में छवि/चार्ट/घोषणापत्र)।

स्थिति (DB/कैश/kew): सत्य का स्रोत DB में से एक है; कैश और इंडेक्स अत्यधिक हैं।

पहचान और पुन: ड्राइव - घटनाओं की पुन: डिलीवरी अनुमत है; आउटबॉक्स/इनबॉक्स, डीडअप, और संस्करणों का उपयोग करें।

7) नेटवर्क और प्रवेश बिंदु

GSLB/DNS-feilover: विलंबता/स्वास्थ्य-आधारित, क्रैश विंडो के लिए छोटा टीटीएल।

Anycast/L7 प्रॉक्सी: एकल आईपी, क्षेत्रीय स्वास्थ्य मार्ग।

क्षेत्रीय डोमेन और क्षेत्राधिकार नीतियां (पीआईआई के लिए भू-पिनिंग)।

प्रमाणपत्र फ़ाइल/केएमएस: अतिरिक्त श्रृंखला, दोहरी कुंजी.

Feilover स्यूडोकोड:

python if slo_breach("region-a") or health("region-a")==down:
route. shift(traffic, from_="region-a", to="region-b", step=20) # канарим enable_readonly_if_needed()

8) ऑपरेटिंग मॉडल और स्वचालन

IaC/GitOps: दूसरा क्षेत्र बुनियादी ढांचा = कोड, "एकल बटन" तैनाती।

कोड के रूप में नीति: गेट "नो डीआर मैनिफेस्ट/बैकअप/अलर्ट - कोई रिलीज नहीं।"

रनबुक: चरण-दर-चरण निर्देश और दोनों क्षेत्रों के समान "लाल बटन"।

रहस्य: अल्पकालिक क्रेडिट, OIDC महासंघ, समझौता/रिकॉल योजना।

गेट (विचार):

rego package dr deny["Missing PITR ≥ 7d"] {
input. db. pitr_window_days < 7
}
deny["No restore test in 30d"] {
now() - input. db. last_restore_test > 3024h
}

9) व्यायाम और परीक्षण (खेल दिवस)

परिदृश्य तालिका: डेटाबेस हानि, "टूटा हुआ" डेटा, केएमएस विफलता, क्षेत्र ड्रॉप, अचानक उत्सर्जन सीमा।

आवृत्ति: मिशन-महत्वपूर्ण के लिए त्रैमासिक; हर छह महीने में एक बार - बाकी के लिए।

व्यायाम मेट्रिक्स: आरटीए/आरपीए बनाम लक्ष्य, स्वचालित चरणों का अनुपात, मैनुअल हस्तक्षेपों की संख्या, प्लेबुक त्रुटियां।

रिलीज में अराजकता-धुआं: निर्भरता गिरावट को डीआर रास्तों को "तोड़" नहीं करना चाहिए।

एक मिनी-व्यायाम का उदाहरण:


T0: cut off the primary database (firewall drop)
T + 2m: GSLB shift 20% of traffic, then 100% at SLO_ok
T + 6m: checking business invariants and lag replication
T + 10m: post-drill: fixing RTA/RPA, playbook improvements

10) प्लेबुक (विहित टेम्पलेट)

yaml playbook: "dr-failover-region-a-to-b"
owner: "platform-sre"
rto: "15m"
rpo: "5m"
triggers:
- "health(region-a)==down"
- "slo_breach(payments)"
prechecks:
- "backup_catalog ok; last_restore_test < 30d"
- "pitr_window >= 7d"
steps:
- "Announce incident; open war-room; assign IC"
- "Freeze writes in region-a (flag write_readonly)"
- "Promote db-b to primary; verify replication stopped cleanly"
- "Shift GSLB 20%→50%→100%; monitor p95/error"
- "Enable compensations and re-drive queues"
validation:
- "Business invariants (balances, duplicate_checks)"
- "Synthetic tests green; dashboards stable 30m"
rollback:
- "If db-b unhealthy: revert traffic; engage restore from PITR T-Δ"
comms:
- "Status updates each 15m; external note if SEV1"

11) डीआर ऑब्जर्वेबिलिटी मैट्रिक्स

प्रतिकृति अंतराल (सेकंड), आरपीओ-बहाव (लक्ष्य और वास्तविक आरपीओ के बीच अंतर)।

SLI को बहाल करें: पर्यावरण द्वारा ठंडा/गर्म वसूली का समय।

कवरेज: प्लेबुक/बैकअप/PITR ≥ N दिनों के साथ सेवाओं का%।

ड्रिल स्कोर: स्वचालित चरणों का अनुपात, आरटीए वितरण, त्रुटि दर।

अपरिवर्तनीयता: WORM/एयर-गैप्ड में% बैकअप।

घटना मैट्रिक्स: नकली के बाद कतार की लंबाई/फिर से ड्राइव गति।

12) लागत और व्यापार-बंद

CapEx/OpEx: गर्म स्टैंड सक्रिय/सक्रिय की तुलना में सस्ता है लेकिन पायलट लाइट की तुलना में अधिक महंगा है।

एग्रेस: इंटर-रीजनल/इंटर-क्लाउड प्रतिकृति में पैसा खर्च होता है; कैश/संपीड़न/स्थानीय समुच्चय।

आरटीओ/आरपीओ बनाम $: उपलब्धता का प्रत्येक "नौ" और आरपीओ का एक सेकंड कई गुना अधिक महंगा है - व्यवसाय के साथ समन्वय।

हरी खिड़कियां: बैच-प्रतिकृति - सस्ते/" हरे" घंटों में।

13) सुरक्षा और अनुपालन

एन्क्रिप्शन "आराम पर" और "पारगमन में", क्षेत्र द्वारा केएमएस डोमेन को अलग करता है।

अपरिवर्तनीय बैकअप, रैंसमवेयर सुरक्षा: "3-2-1" (3 प्रतियां, 2 मीडिया, 1 ऑफ़ लाइन), एमएफए-डिलीट।

न्यायालय: पीआईआई के लिए भू-पिनिंग, स्थानीयकरण बैकअप, टीटीएल के शीर्ष पर कानूनी पकड़।

समय एक्सेस: डीआर ऑपरेशन, ऑडिट लॉग के लिए अस्थायी भूमिकाएं।

14) एंटी-पैटर्न

"चलो बाद में एक योजना लिखें" - डीआर बिना व्यायाम के।

तार्किक भ्रष्टाचार के खिलाफ सुरक्षा के बिना प्रतिकृति - तुरंत त्रुटि को गुणा करेगी।

एक KMS/रहस्य क्षेत्र - कोई feilover संभव नहीं।

नियमित पुनर्स्थापना के बिना बैकअप - "श्रेडिंगर" डीआर।

क्षेत्रों के बीच बारीकी से संबंधित तुल्यकालिक लेनदेन कैस्केड विलंबता/गिरावट हैं।

कोई प्राथमिकता नहीं: सब कुछ (महंगा और बेकार) के लिए समान डीआर स्तर।

15) आर्किटेक्ट चेकलिस्ट

1. सेवा और परिदृश्य द्वारा परिभाषित आरटीओ/आरपीओ/आरएलओ?
2. वर्गीकृत डेटा: सत्य का स्रोत, पीआईटीआर/विंडो, WORM/अपरिवर्तनीय?
3. क्या डीआर (बैकअप/रिस्टोर, पायलट, वार्म, ए/पी, ए/ए) प्रति-सेवा चयनित है?
4. नेटवर्क: GSLB/Anycast, एक मार्जिन के साथ प्रमाणपत्र/कुंजी, केवल पढ़ें फ्लैग?
5. ऐप: पहचान, आउटबॉक्स/इनबॉक्स, ऑफसेटिंग लेनदेन?
6. कोड के रूप में IaC/GitOps/नीति: एक क्लिक दूसरे क्षेत्र को रोल आउट करने पर?
7. ड्रिल: अनुसूची, केपीआई आरटीए/आरपीए, प्रशिक्षण के बाद की गतिविधियाँ?
8. निगरानी: लैग, आरपीओ-बहाव, रिस्टोर-एसएलआई, ड्रिल-स्कोर, अपरिवर्तनीय बैकअप?
9. सुरक्षा/अनुपालन: केएमएस डोमेन, न्यायालय, कानूनी पकड़?
10. लागत: बजट, हरी खिड़कियां, आर्थिक रूप से ध्वनि स्तर?

16) मिनी व्यंजनों और रेखाचित्र

16. पोस्टग्रेस के लिए 1 PITR (विचार):

bash base backup daily + WAL archive pg_basebackup -D/backups/base/$ (date +% F)
archive_command='aws s3 cp %p s3://bucket/wal/%f --sse'
restore pg_restore --time "2025-10-31 13:21:00Z"...

16. 2 तार्किक भ्रष्टाचार के खिलाफ सुरक्षा (विलंबित प्रतिकृति)

yaml replication:
mode: async apply_delay: "30m" # window to roll back on corruption

16. 3 ट्रैफिक स्विचिंग (जीएसएलबी छद्म एपीआई):

bash gslb set-weight api. example. com region-a 0 gslb set-weight api. example. com region-b 100

16. 4 फीलओवर (स्यूडोकोड) के बाद आक्रमणकारियों की जाँच करें:

python assert total_balance(all_accounts) == snapshot_total assert no_duplicates(events_since(t_failover))

निष्कर्ष

डीआर क्षति बढ़ ने की तुलना में तकनीकी और संगठनात्मक निर्णय लेने की क्षमता है। यथार्थवादी आरटीओ/आरपीओ की पहचान करें, पर्याप्त उपलब्धता का चयन करें, मूल संरचना और जांच स्वचालित करें, नियमित रूप से व्यायाम करें और वास्तविक आरटीए/आरपीए को मापें। फिर दुर्घटना एक आपदा में नहीं बदल जाएगी, लेकिन एक अनुमानित परिणाम के साथ एक नियंत्रित घटना में।

डीआर रणनीति और आरटीओ/आरपीओ

निष्कर्ष

हमसे संपर्क करें

त्वरित संपर्क

वीडियो जल्द ही अपडेट किया जाएगा

हम इस समय परियोजनाओं में बहुत व्यस्त हैं