संचालन और → प्रबंधन हादसे की रोकथाम
हादसे की रोकथाम
1) आपको इसकी आवश्यकता क्यों है
किसी घटना पर सबसे अच्छी प्रतिक्रिया एक नहीं है। IGaming/fintech के लिए, डाउनटाइम का हर मिनट खो जाता है दांव/जमा, प्रदाताओं से जुर्माना, प्रतिष्ठित जोखिम। प्रणालीगत रोकथाम परिवर्तन विफलता दर को कम करती है, एसएलओ को स्थिर करती है, और आग बुझाने के बजाय विकसित करने के लिए कमांड समय को मुक्त करती है।
उद्देश्य:- महत्वपूर्ण रास्तों (जमा, शर्त, गेम लॉन्च, वापसी) पर घटनाओं की संभावना को कम से कम करें।
- एसएलओ और बटुए को मारने से पहले अवरोधन गिराएं।
- असफलता (विस्फोट त्रिज्या) की त्रिज्या को सीमित करें और वसूली को गति दें।
2) रोकथाम के बुनियादी सिद्धांत
1. एसएलओ-प्रथम और त्रुटि बजट: यदि वे एसएलओ को खटखटाने और बजट को जलाने का जोखिम उठाते हैं तो परिवर्तन जारी नहीं किए जाते हैं।
2. गहराई में रक्षा: सुरक्षा की परतें - डेटा स्कीमा और कॉन्फ़िग से लेकर नेटवर्क नीतियों और phicheflags तक।
3. विफलता के लिए डिजाइन: ब्रेकर, टाइमआउट, जिटर रिट्रीट, आइडेम्पोटेंसी, क्षरण।
4. छोटे और प्रतिवर्ती परिवर्तन: छोटे वेतन वृद्धि + त्वरित रोलबैक (फ्लैग/कैनरी)।
5. डिजाइन द्वारा अवलोकन: प्रत्येक महत्वपूर्ण चरण और लिंक के लिए मैट्रिक्स/लॉग/ट्रेस।
3) जोखिम और महत्वपूर्ण पथ मानचित्र
डोमेन द्वारा एक "दर्द मानचित्र" बनाएं: भुगतान, दांव, खेल, केवाईसी, प्रचार, जैकपॉट, सामग्री।
प्रत्येक रास्ते के लिए हम तय करते हैं
बिजनेस मैट्रिक्स (रूपांतरण, जीजीआर, औसत चेक)।
तकनीकी एसएलओ (विलंबता p95/p99, अपटाइम, सफलता दर)।
निर्भरता (आंतरिक/बाहरी), सीमा/कोटा।
"सुरक्षित मोड" व्यवहार (जिसे हम अक्षम/सरल करते हैं)।
रनबुक का मालिक।
4) रेलिंग (सुरक्षात्मक बाधाएं)
टाइमआउट और ब्रेकर: कॉलिंग सेवा में आंतरिक लोगों के योग से कम समय होता है; त्रुटियों/विलंबता बढ़ ने पर ब्रेकर खुलता है।
बल्कहेड अलगाव: डाउनस्ट्रीम के लिए कनेक्शन/श्रमिकों के अलग पूल।
दर सीमा और बैकप्रेशर: हिमस्खलन और रिट्रे तूफान के खिलाफ सुरक्षा।
गिरावट ficheflags: "न्यूनतम मोड" - आसान जवाब, कैश रिप्ले, भारी सुविधाओं को अक्षम करना।
मल्टी-वेंडर और फीलओवर: वैकल्पिक पीएसपी/केवाईसी, मार्ग स्विचिंग।
विन्यास का सत्यापन: सुविधाओं और सीमाओं के सुरक्षित परिवर्तन के लिए योजनाएं/लाइनर/नीतियां।
5) प्रबंधन बदलें
प्री-रिलीज़गेट्स: परीक्षण, सुरक्षा, सीडीसी (उपभोक्ता-संचालित अनुबंध), योजना संगतता।
कैनरी रिलीज + ऑटोगेट्स: 1% → 10% → 100%; p99/त्रुटि दर/दहन बजट वृद्धि पर ऑटो-स्टॉप।
फ्लैग्स: तत्काल रोल बैक/स्विच बर्ताव बिना तैनात किए।
रिलीज कैलेंडर: शिखर खेल/टूर्नामेंट खिड़कियों और प्रदाताओं पर रखरखाव से बचें।
पोस्ट-डिस्प्लॉय चेक: ऑटो-सिंक, थ्रेसहोल्ड के साथ मैट्रिक्स से पहले/बाद की तुलना।
6) एक निवारक उपाय के रूप में परीक्षण
इकाई/अनुबंध/एकीकरण: OpenAPI/AsyncAPI अनुबंध, CDC बनाम प्रदाता/मोका।
लोड और तनाव: प्राइम टाइम के लिए ट्रैफिक प्रोफाइल; कनेक्शन/आईओपीएस/कोटा सीमा के लिए परीक्षण।
सोख/लंबी दौड़: संसाधन लीक, घंटे/दिन क्षितिज पर बढ़ ती देरी।
अराजकता/खेल-दिन: ब्रोकर/पीएसपी/केवाईसी ड्रॉप, क्षेत्र का अंतर, "धीमा प्रदाता।"
आपदा वसूली ड्रिल: क्षेत्रों को बदलने और डेटाबेस को बहाल करने के लिए नियमित प्रशिक्षण।
7) गिरावट का प्रारंभिक पता लगाना
क्षमता-अलर्ट: हेडरूम, कतार लैग्स, डेटाबेस कनेक्शन, कैश में निष्कासन।
एसएलओ-बर्न-रेट: बजट को "जलने" की खतरनाक दर पर संकेत।
अनुकूली थ्रेसहोल्ड: गलत को कम करने के लिए मौसमी/दैनिक पैटर्न।
समग्र अलर्ट: "लैग + एचपीए एट मैक्स + ओपन सर्किट" - उच्च जोखिम।
विक्रेता स्वास्थ्य: प्रत्येक प्रदाता + कॉल की लागत के लिए कोटा/टाइमआउट/त्रुटियां।
8) बाहरी प्रदाताओं के साथ काम करना
OLA/SLA ↔ SLO: हमारे लक्ष्यों से समझौतों को जोड़ ना।
Feilover की प्लेबुक: PSP-X ⇆ PSP-Y मार्ग, टोकन कैश, अनुग्रह जमा मोड।
सैंडबॉक्स और अनुबंध: प्रत्येक बड़े बदलाव से पहले परीक्षण प्रवाह।
प्रदाता विंडो: डैशबोर्ड और स्वचालित दबाने के नियमों पर एनोटेशन।
9) डेटा, कॉन्फ़िग और रहस्य
परिवर्तन नीतियां: दो जोड़ी आंखों की कोड-समीक्षा, योजनाओं का सत्यापन/JSON/YAML।
राज: केएमएस/सीक्रेट्स मैनेजर, रोटेशन, पर्यावरण/भूमिका द्वारा पृथक्करण।
फ्लैग/लिमिट: ऑडिट और इंस्टेंट रोलबैक के साथ एपीआई के माध्यम से बदलें।
प्रवासन: "टू-स्टेप" (विस्तार → माइग्रेट → अनुबंध), कुल पिछड़ी संगतता।
10) प्रशिक्षण और टीम तत्परता
ऑन-कॉल प्रशिक्षण: घटना सिमुलेशन, छाया शुल्क, केंद्रीकृत रनबुक 'और।
एकीकृत संचार प्रारूप: स्थिति/हैंडओवर/घटना-अद्यतन टेम्पलेट।
सुरक्षित संस्कृति: दोष के बिना पोस्टमॉर्टम, यांत्रिक कारण और निवारक कार्रवाई।
11) रोकथाम डैशबोर्ड (न्यूनतम)
जोखिम और तैयारी: SLO/बजट, परत द्वारा हेडरूम, "शीर्ष कमजोर कनेक्शन।"
सुरक्षा बदलें: कैनरी, किकबैक, अलर्ट का प्रतिशत "रिलीज के बाद", ऑटोगेट्स का सीटीआर।
विक्रेता पैनल: p95/त्रुटि/कोटा/प्रत्येक प्रदाता के लिए लागत, विक्रेता समर्थन प्रतिक्रिया समय।
अराजकता/डीआर तत्परता: व्यायाम आवृत्ति, क्षेत्र स्विचिंग समय, वसूली की सफलता।
Config/SecOps: फ्लैग/लिमिट/गुप्त परिवर्तन, विसंगतियाँ।
12) निवारक अलर्ट के उदाहरण
ALERT SLOBurnRateHigh
IF slo_error_budget_burnrate{name="payments_api"} > 4 FOR 10m
LABELS {severity="critical", team="payments"}
ALERT PostDeployRegression
IF (api_p99_ms{service="bets"} > baseline_1d 1. 3) AND (release_window="canary")
FOR 10m
LABELS {severity="warning", team="bets"}
ALERT ProviderQuotaNearLimit
IF usage_quota_ratio{provider="psp_x"} > 0. 9 FOR 5m
LABELS {severity="warning", team="integrations"}
ALERT QueueLagAtRisk
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND (hpa_desired == hpa_max)
FOR 10m
LABELS {severity="critical", team="streaming"}
13) रोकथाम चेकलिस्ट (दैनिक/चोटियों से पहले)
- अप-टू-डेट पीक कैलेंडर (मैच, टूर्नामेंट, अभियान, प्रदाता खिड़कियां)।
- एपीआई/डीबी/कैश/कतारें, एचपीए/वीपीए तत्परता, कैश वार्म-अप द्वारा हेडरूम।
- प्रदाताओं की स्थिति (24 घंटे में कोटा, सीमा, गिरावट), फीलर कॉन्फ़िगर किया गया।
- कैनरी गेट सक्षम हैं, रोलबैक सुविधा झंडे मालिकों के लिए उपलब्ध हैं।
- एसएलओ/क्षमता अलर्ट सक्रिय हैं, नियोजित कार्य के लिए दमन निर्धारित है।
- रनबुक 'और अपडेट किया गया, ऑन-कॉल की पुष्टि की गई, एस्केलेशन चैनल काम कर रहे हैं।
14) एंटी-पैटर्न (क्या बचना है)
कैनरी या झंडे के बिना "बिग नाइट रिलीज़"।
कॉमन हेड-ऑफ-लाइन ब्लॉकिंग पूल।
गैर-आइडेम्पोटेंट संचालन के लिए और अड़ चन समय के लिए।
अलर्ट में हिस्टेरिसिस की अनुपस्थिति - दहलीज के साथ आरी।
अवलोकन और टाइमआउट प्रबंधन के बिना विक्रेता एसडीके में अंधा विश्वास।
स्टेज/सैंडबॉक्स और सीडीसी के बिना "लेट्स डू द प्रोड"।
15) रोकथाम केपीआई
असफलता दर बदलें (लक्ष्य ≤ 10-15% या आपका लक्ष्य)।
प्री-हादसा पता लगाने की दर: गिरावट के चरण में घटनाओं का प्रतिशत।
घटनाओं के बीच माध्य समय (MTBI) и MTTR।
कवरेज सुरक्षा: झंडे/ब्रेकर/टाइमआउट/कैनरी के साथ% महत्वपूर्ण रास्ते।
अराजकता/डीआर ताल: आवृत्ति और अभ्यास की सफलता।
विक्रेता तत्परता: बैकअप प्रदाता के लिए औसत स्विचिंग समय।
16) तेज शुरुआत (30 दिन)
सप्ताह 1: महत्वपूर्ण पथ मानचित्र, एसएलओ और मालिक; एसएलओ-बर्न अलर्ट और क्षमता अलर्ट शामिल हैं।
सप्ताह 2: कैनरी गेट्स + Phicheflags; बुनियादी अराजकता स्क्रिप्ट (प्रदाता/कतार)।
सप्ताह 3: डैशबोर्ड "चेंज सेफ्टी" और "वेंडर पैनल", फीलओवर प्लेबुक।
सप्ताह 4: डीआर व्यायाम (आंशिक), तिमाही के लिए पूर्वव्यापी और सख्त योजना।
17) टेम्पलेट (टुकड़े)
कैनरी ऑटोगेट नीति (सशर्त रूप से YAML):
canary_policy:
guardrails:
- metric: api_p99_ms threshold: 1. 3 baseline_1d window: 10m action: pause_and_rollback
- metric: error_rate threshold: 2 baseline_1d window: 5m action: pause max_step: 10%
step_interval: 15m required_annotations: [release_notes, feature_flags, runbook_link]
गिरावट योजना (सारांश):
safe_mode:
payments:
- freeze_heavy_providers
- enable_cached_token_flow
- route_to_psp_y_if(psp_x_error_rate > 5%)
games:
- limit_broadcasts
- reduce_lobby_heavy_widgets bets:
- raise_risk_score_threshold
- cache_odds_snapshot
18) एफएक्यू
प्रश्न: यदि संसाधन दुर्लभ हैं तो पहले क्या लागू करें?
A: महत्वपूर्ण रास्तों, कैनरी गेट और रोलबैक फिचफ्लैग पर SLO-बर्न अलर्ट; फिर - एक जोखिम मानचित्र और एक प्रदाता नकली।
प्रश्न: आप कैसे जानते हैं कि रोकथाम "काम करती है"?
A: परिवर्तन विफलता दर कम हो रही है, रोकी गई घटनाओं का अनुपात ऊपर जा रहा है, MTTR और अलर्ट शोर कम हो रहा है, "रात" पृष्ठों की संख्या कम हो रही है।
प्रश्न: क्या हमें नियमित अराजकता अभ्यास की आवश्यकता
A: हाँ। प्रशिक्षण के बिना, एक feuillower और DR लगभग हमेशा लंबे और अधिक दर्दनाक होते हैं जितना वे कागज पर लगते हैं।