आपदा वसूली योजना
1) उद्देश्य, क्षेत्र और सिद्धांत
लक्ष्य: विनियामक आवश्यकताओं, अनुबंधों और खिलाड़ी की अपेक्षाओं का उल्लंघन किए बिना आपदाओं (उन, साइबर, विक्रेता, भू-राजनीतिक) के बाद आईटी मंच की समय पर वसूली सुनिश्चित करना।
क्षेत्र: उत्पादक वातावरण (गेमिंग सर्किट, भुगतान, केवाईसी/एएमएल, विरोधी धोखाधड़ी, डीडब्ल्यूएच/बीआई स्टोरफ्रंट), एकीकरण (पीएसपी, केवाईसी, सीडीएन, स्टूडियो/एग्रीगेटर), मूल (cloud/K8s, नेटवर्स/कुंजी) लॉग)।
सिद्धांत: सुरक्षा-पहला, आरटीओ/आरपीओ न्यूनतम, स्वचालन और प्रजनन क्षमता (आईएसी), "डिफ़ॉल्ट रूप से प्रावधानता", नियमित अभ्यास।
2) सिस्टम वर्गीकरण और वसूली उद्देश्य
2. 1 आलोचना का स्तर
टियर -1 (महत्वपूर्ण): भुगतान/कैशआउट, कोर गेम, लॉगिन/प्रमाणीकरण, आईसीसी/प्रतिबंध।
Tier-2: रियल-टाइम एनालिटिक्स, मार्केटिंग/सीआरएम, डीडब्ल्यूएच रिपोर्टिंग।
Tier-3: आंतरिक पोर्टल, सहायक सेवाएं।
2. 2 लक्ष्य
आरटीओ - रिकवरी समय उद्देश्य
रिकवरी प्वाइंट ऑब्जेक्टिव (आरपीओ) - डेटा की स्वीकार्य समय हानि।
आरटीए (रिकवरी टाइम वास्तविक )/आरपीए (रिकवरी प्वाइंट वास्तविक) - वास्तविक मान रिपोर्ट में दर्ज किए जाते हैं।
MTO/MBCO: अधिकतम सहन किया गया डाउनटाइम/न्यूनतम स्वीकार्य सेवा स्तर (अपमानित मोड)।
उदाहरण लक्ष्य (संदर्भ के लिए):- टियर -1 - आरटीओ ≤ 30-60 मिनट, आरपीओ ≤ 15 मिनट; Tier-2 - आरटीओ ≤ 4 ч, आरपीओ ≤ 1 ч; Tier-3 - आरटीओ ≤ 24 ч, आरपीओ ≤ 24 ч।
3) डीआर रणनीतियाँ और वास्तुकला
3. 1 टोपोलॉजी
सक्रिय-सक्रिय (बहु-क्षेत्र): न्यूनतम आरटीओ/आरपीओ, स्थिरता और संघर्ष-समाधान की आवश्यकता होती है।
सक्रिय-स्टैंडबाय (गर्म/गर्म/ठंडा): लागत/गति संतुलन।
डेटा और कुंजियों का भू-पृथक्करण: KMS/HSM प्रति-क्षेत्र, BYOK, स्वतंत्र प्रतिकृति पथ।
3. 2 डेटा और बैकअप
PITR (पॉइंट-इन-टाइम रिकवरी): लेनदेन लॉग, टियर -1 के लिए अंतराल ≤ 5-15 मिनट का संग्रह।
स्नैपशॉट/पूर्ण बैकअप: दैनिक/घंटा, 3-2-1 योजना (3 प्रतियां, 2 मीडिया, 1 ऑफ़ लाइन/ऑफसाइट) के अनुसार भंडारण।
अपरिवर्तनीयता: WORM/ऑब्जेक्ट लॉक, कलाकृतियों के हस्ताक्षर/हैश चेन।
रिकवरी कैटलॉग: बैकअप इन्वेंट्री, इंटीग्रिटी, एक्सपायरेशन डेट, टेस्ट डिक्रिप्शन।
3. 3 अनुप्रयोग और एकीकरण
स्टेटल्स सर्विसेज - IaC/CI के माध्यम से तेजी से तैनाती
स्टेटफुल घटक: लगातार स्नैपशॉट, लॉन्च अनुक्रम का ऑर्केस्ट्रेशन।
एकीकरण (PSP/KYC/एग्रीगेटर्स): डबल क्रेडिट, फॉलबैक एंडपॉइंट, साइन वेबहुक, री-डिलीवरी कंट्रोल (पहचान)।
4) रिकवरी ऑर्डर (सामान्य रनबुक)
1. डीआर स्क्रिप्ट की घोषणा - डीआर इंसीडेंट कमांडर (डीआर-आईसी) को सौंपते हुए, एक युद्ध-कक्ष शुरू किया।
2. नुकसान का आकलन: प्रभावित क्षेत्र/सबसिस्टम, वर्तमान आरटीए/आरपीए, फीलओवर को सक्रिय करने का निर्णय।
3. अलगाव/रोकथाम: मूल कारणों को अवरुद्ध करना (नेटवर्क एसीएल, रहस्य, प्रदाता को डिस्कनेक्ट करना)।
4. डीआर प्रारंभ किया जा रहा है:- नेटवर्क/रहस्य/केएमएस →
- DB/तिजोरी/कैश →
- एपीआई/सेवाएं → फ्रंट/सीडीएन → बाहरी एकीकरण।
- 5. अखंडता की जाँच: काउंटर। मात्रा, "सूखा" अनुरोध, स्वास्थ्य नमूने।
- 6. वित्त/खेलों का सामंजस्य: भुगतान, दांव, संतुलन, लेनदेन की पहचान दोहराने का सामंजस्य।
- 7. संचार: स्थिति पृष्ठ, खिलाड़ी/भागीदार/नियामक; अद्यतन समयरेखा।
- 8. अवलोकन और स्थिरीकरण: सामान्यीकरण आय के रूप में गिरावट की निष्क्रियता।
- 9. पोस्टमार्टम: आरसीए, सीएपीए, डीआरपी अपडेट।
5) विशेषज्ञ रनबुक (स्निपेट्स)
5. 1 सक्रिय-स्टैंडबाय → स्टैंडबाय
yaml trigger: "loss_of_region_primary OR quorum_fail >= 5m"
prechecks:
- "secondary region green"
- "replication_lag <= 15m"
steps:
- DR-IC approves region_failover
- Platform: GSLB switch → secondary
- Data: promote replicas, enable PITR streams
- Apps: redeploy with region vars; warm caches
- QA: smoke tests (login, deposit, bet, payout)
- Comms: status-page + partner notice rollback: "switch-back after 60m stability window"
5. 2 भ्रष्टाचार डीबी/पीआईटीआर से वसूली
yaml trigger: "data_corruption_detected OR accidental_drop"
steps:
- Freeze writes (feature flag), snapshot evidence
- Restore to timestamp T (<= RPO)
- Reindex/consistency checks
- Replay idempotent events from queue (from T)
- Reopen writes in throttle mode validation: ["checksum_ok", "balance_diff=0", "orders_gap=0"]
5. 3 पीएसपी डीआर मोड में गिरावट
yaml trigger: "auth_rate_psp1 < baseline-3σ for 15m"
steps:
- Route X%→psp2, cap payouts, enable manual VIP
- Reconciliation plan T+0, alerts Finance
- Notify players in cashier; vendor escalation
6) डेटा अखंडता और सुलह
वित्त: जमा/भुगतान/कमीशन का सामंजस्य, कमी के साथ सूचनाएं और वेबहूक फिर से भेजना (पहचान-कुंजी)।
खेल समोच्च: गोल राज्यों की वसूली, यदि आवश्यक हो तो बस्तियों की पुनरावृत्ति, दोहरे शुल्क/शुल्क के खिलाफ सुरक्षा।
लॉग/ऑडिट: WORM लॉग मैपिंग, हस्ताक्षर/हैश, स्थिरता रिपोर्ट से पहले/बाद।
डीपीओ/अनुपालन रिपोर्ट: पीआईआई प्रभाव के मामले में, पैमाने, समयरेखा और सूचनाओं पर कब्जा करें।
7) प्रमुख प्रौद्योगिकियों के लिए डीआर (उदा
DBMS (संबंधपरक): तुल्यकालिक/अतुल्यकालिक प्रतिकृति, WAL स्लॉट, तेजी से बढ़ावा, गर्म स्टैंडबाय।
NoSQL/कैश: मल्टीक्लस्टर, TTL-विकलांगता, कोल्ड फिलिंग, संघर्ष-समाधान के बिना क्रॉस-क्षेत्र लिखने की अस्वीकृति।
कतारें/धाराएँ: दर्पण विषय/समूह, ऑफसेट नियंत्रण, उपभोक्ता कमी।
ऑब्जेक्ट स्टोरेज: वर्शनिंग, बंकर प्रतिकृति, ऑब्जेक्ट इन्वेंट्री और रिटेंशन पॉलिसी।
सीआई/सीडी/कलाकृतियां: रजिस्ट्रियों की प्रतिकृति, कलाकृतियों के हस्ताक्षर, महत्वपूर्ण कंटेनरों की ऑफ़ लाइन प्रतियां।
रहस्य/कुंजी: KMS प्रति क्षेत्र, स्वतंत्र रूट कुंजी, लॉगिंग और TTL के साथ ब्रेक-ग्लास।
8) डीआर में सुरक्षा और गोपनीयता
कम से कम अधिकारों का सिद्धांत: व्यक्तिगत भूमिकाओं/प्रोफाइल (JIT/PAM) द्वारा DR-एक्सेस।
अपरिवर्तनीय बैकअप: ऑफ़ लाइन/ऑफसाइट, रिकवरी और डिक्रिप्शन परीक्षण।
नियामक खिड़कियां: कानूनी/डीपीओ के साथ घटना कैप्चर और सूचना निर्णय (नियामक/बैंक/पीएसपी/उपयोगकर्ता)।
ट्रेसिबिलिटी: पूर्ण डीआर कमांड गतिविधि लॉग, समयरेखा हस्ताक्षर।
9) अभ्यास और परीक्षण के प्रकार
वॉकथ्रू/समीक्षा: दस्तावेज ़/भूमिका/संपर्क समीक्षा (त्रैमासिक)।
टेबलटॉप: संघर्ष समाधान के साथ "सूखा" पर परिदृश्य चलाएं।
तकनीकी आंशिक: एकल सेवा/डेटाबेस की वसूली।
बैकअप क्षेत्र में यातायात और डेटा का पूर्ण विफलता/स्विच-ओवर - हस्तांतरण।
अराजकता-दिन (नियंत्रित): ऑटोमैटिक्स की जांच करने में विफलताओं/विफलताओं का इंजेक्शन।
प्रत्येक परीक्षण - आरटीए/आरपीए, विचलन सूची, सीएपीए और डीआरपी अपडेट के साथ एक रिपोर्ट।
10) मेट्रिक्स (केपीआई/केआरआई)
आरटीए/आरपीए बनाम आरटीओ/आरपीओ (टियर -1): 95% मैच ≥।
डीआर टेस्ट कवरेज: ≥ 2 पूरा डीआर परीक्षण/वर्ष + नियमित आंशिक।
समय-से-प्रथम-स्थिति: डीआर घोषणा के बाद ≤ 15 मिनट।
सुलह ज़ीरो-डिफ़: सभी नकदी और खेल सामंजस्य बिना विसंगतियों के।
बैकअप इंटीग्रिटी: 100% स्पॉट रिस्टोर एक तिमाही में सफल होते हैं।
कॉन्फ़िग बहाव: प्राथमिक/माध्यमिक (IaC तुलना) के बीच 0 बहाव।
डीआर में सुरक्षा: लॉग और पुष्टि के साथ 100% डीआर गतिविधियाँ।
11) आरएसीआई (बढ़ाहुआ)
12) चेकलिस्ट
12. 1 डीआर तत्परता
- डीआर टीम/विक्रेता/नियामक संपर्क अद्यतन
- प्रतिकृति हरा, पीआईटीआर सक्षम, बैकअप का परीक्षण डिक्रिप्शन
- JIT/PAM एक्सेस, ब्रेक-ग्लास सत्यापित
- नकली प्लेबुक और पर्यावरण चर मान्य हैं
- PSP/KYC दोहरे क्रेडिट/वेबहूक, वैकल्पिक मार्ग
- स्थिति पृष्ठ/संदेश टैम्प्लेट तैयार
12. 2 डीआर के दौरान
- DR-IC सौंपा, युद्ध-कक्ष खुला, घटना समयरेखा
- कारण अलगाव, स्क्रिप्टिंग, रनबुक चलाना
- अखंडता जांच, स्वास्थ्य परीक्षण, धूम्रपान प
- पहला सार्वजनिक अपडेट ≤ 15 मिनट; SLAs पर भागीदारों/नियामकों को सूचना
- जांच के लिए कलाकृतियों पर कब्जा करना
12. 3 डीआर के बाद
- पैसे/खेल और पत्रिकाओं का पूरा सामंजस्य
- पोस्टमार्टम, आरसीए, तारीखों और मालिकों के साथ CAPA
- DRP/BIA/संपर्क/IaC अद्यतन
- रीटेस्ट प्लान तय करता है
13) साँचा (टुकड़े)
13. 1 सेवा कार्ड (डीआर पासपोर्ट)
yaml service: payments-api tier: 1 dependencies: [auth, ledger-db, psp1, psp2, kms-eu]
rto: "45m"
rpo: "15m"
backups: {pitr: true, snapshots: "hourly", immutability: "7d"}
failover: {mode: "active-standby", regions: ["eu1","eu2"]}
runbooks: ["rb_failover_region", "rb_psp_degradation"]
health_checks: ["/healthz","/readyz"]
13. 2 डीआर परीक्षण रिपोर्ट (जोखिम)
yaml test_id: DR-2025-10 scope: "Full switch-over eu1→eu2"
rta: "27m"
rpa: "11m"
issues:
- id: CAPA-117, desc: "долгое прогревание кэша", due: 2025-11-20, owner: SRE
- id: CAPA-118, desc: "устаревший webhook PSP#2", due: 2025-11-12, owner: Payments reconciliation: {finance: "ok", games: "ok"}
management_signoff: "2025-11-02"
13. 3 स्थिति संदेश टेम्पलेट
[UTC+02] Идет аварийное переключение в резервный регион. Игры доступны, выводы временно ограничены. Средства игроков в безопасности. Следующее обновление через 15 минут.
14) कार्यान्वयन रोडमैप (6-8 सप्ताह)
सप्ताह 1-2: सेवाओं और निर्भरता की सूची, टियर वर्गीकरण, आरटीओ/आरपीओ लक्ष्य, टोपोलॉजी चयन, डीआर पासपोर्ट।
सप्ताह 3-4: बैकअप/पीआईटीआर/अपरिवर्तनीयता, गुप्त प्रतिकृति/केएमएस का कार्यान्वयन, रनबुक और स्थिति की तैयारी।
सप्ताह 5-6: आंशिक तकनीकी परीक्षण (डेटाबेस/कैश/कतारें), पीएसपी/केवाईसी/क्षेत्र परिदृश्यों के अनुसार टेबलटॉप।
सप्ताह 7-8: पूर्ण स्विच-ओवर (यदि संभव हो), RTA/RPA, CAPA, DRP अपडेट और नियमित परीक्षण योजना के साथ रिपोर्ट करें।
15) अन्य विकी वर्गों के साथ एकीकरण
इसकी लिंक: बीसीपी, जोखिम रजिस्टर, हादसा प्रबंधन, लॉग पॉलिसी (वर्म), टीपीआरएम और एसएलए, आईएसओ 27001/27701, एसओसी 2, पीसीआई डीएसएस, आरबीएसी/कम से कम विशेषाधिकार, पासवर्ड नीति और एमएफए, परिवर्तन रिलीज प्रबंधन।
टीएल; डीआर
वर्किंग डीआरपी = टियर द्वारा स्पष्ट आरटीओ/आरपीओ → एक्टिव-एक्टिव/स्टैंडबाय आर्किटेक्चर + अपरिवर्तनीय बैकअप/पीआईटीआर → बजाने योग्य रनबुक और फीलओवर → पैसे/गेम्स → नियमित अभ्यास और सीएपीए। फिर कोई भी बड़ी विफलता नियामकों और खिलाड़ियों के लिए अनुमानित वसूली समय और शून्य आश्चर्य के साथ एक प्रबंधनीय प्रक्रिया में बदल जा