अपटाइम ट्रैकिंग
1) अपटाइम की निगरानी क्यों करें
अपटाइम - समय का हिस्सा जब सेवा उपयोगकर्ता के लिए उपलब्ध है। यह अवलोकन की "पहली पंक्ति" है: तुरंत सूचना दुर्गम, नेटवर्क पर गिरावट, डीएनएस/टीएलएस विफलता, रूटिंग या सीडीएन समस्याओं पर ध्यान दें। उच्च-भार और विनियमित प्रणालियों (फिनटेक, आईगेमिंग) के लिए, अपटाइम सीधे राजस्व, एसएलए प्रदर्शन और दंड जोखिमों को प्रभावित करता है।
2) शर्तें और सूत्र
उपलब्धता SLI: 'SLI = (सफल जाँच/सभी जाँच) × 100%'।
SLO: प्रति विंडो (आमतौर पर 28-30 दिन) लक्षित उपलब्धता, उदाहरण के लिए 99। 9%.
एसएलए: बाहरी दायित्व; हमेशा ≤ आंतरिक एसएलओ।
MTBF/MTTR: असफलताओं/औसत वसूली समय के बीच समय का मतलब है।
नाइन कार्ड (मासिक, ~ 43,200 मिनट):99. 0% → ~ 432 मिनट अनुपलब्ध
99. 9% → ~ 43 मिनट
99. 99% → ~4. 3 मिनट
99. 999% → ~ 26 सेकंड
3) क्या जांच की आवश्यकता है (ब्लैक बॉक्स)
"ग्राहक की आंखों के माध्यम से" सेवा को देखने के लिए बाहरी बिंदुओं (विभिन्न क्षेत्रों/प्रदाताओं) से लॉन्
1. आईसीएमपी (पिंग) - बुनियादी नेटवर्किंग/नोड उपलब्धता। तेज, लेकिन व्यावसायिक सफलता का प्रतिबिंब नहीं।
2. टीसीपी कनेक्ट - पोर्ट सुनने? दलालों/डीबी/एसएमटीपी के लिए उपयोगी।
3. HTTP/HTTPS - स्थिति कोड, हेडर, आकार, पुनर्निर्देशन, पहले बाइट का समय।
4. टीएलएस/प्रमाणपत्र - वैधता अवधि, श्रृंखला, एल्गोरिदम, एसएनआई, प्रोटोकॉल।
5. DNS - A/AAAA/CNAME, NS-स्वास्थ्य, वितरण, DNSSEC।
6. जीआरपीसी - कॉल स्थिति, समय सीमा, मेटाडेटा।
7. वेबसॉकेट/एसएसई - हैंडशेक, कनेक्शन रखरखाव, इको संदेश।
8. प्रॉक्सी/रूटिंग/सीडीएन - अलग पीओपी, कैश हैश, जियो-वेरिएंट।
9. ट्रांसैक्शनल सिंथेटिक परिदृश्य (क्लिक/फॉर्म): "लॉगिन → सर्च → डिपॉजिट (सैंडबॉक्स)"।
10. दिल की धड़ कन/क्रॉन निगरानी - सेवा को "पल्स" (हर एन मिनट में एक बार हुक) होना चाहिए; कोई सिग्नल - अलार्म नहीं।
युक्तियाँ:- असली UX के करीब टाइमआउट सेट करें (उदाहरण के लिए, TTFB ≤ 300 ms, कुल ≤ 2 s)।
- सामग्री परिसंपत्ति (कीवर्ड/JSON फ़ील्ड) की जाँच करें ताकि एक त्रुटि के साथ "200 ओके" को सफलता नहीं माना जाए।
- स्वतंत्र प्रदाताओं और नेटवर्क (मल्टी-हॉप, विभिन्न एएसएन) के माध्यम से डुप्लिकेट चेक।
4) सफेद बॉक्स और स्वास्थ्य सेवा
ऑर्केस्ट्रेटर के लिए लाइवनेस/तत्परता परीक्षण (प्रक्रियाएं जीवित हैं? यातायात प्राप्त करने के लिए तैयार?)।
निर्भरता स्वास्थ्य: डीबी, कैश, इवेंट ब्रोकर, बाहरी एपीआई (भुगतान/केवाईसी/एएमएल)।
फ़ीचर फ़्लैग/क्षरण: समस्याओं के मामले में, धीरे से गैर-महत्वपूर्ण रास्तों को अक्षम करें।
सफेद नमूने बाहरी चेक की जगह नहीं लेते हैं: सेवा "स्वस्थ अंदर" हो सकती है, लेकिन डीएनएस/टीएलएस/मार्ग के कारण उपयोगकर्ता के लिए अनुपलब्ध है।
5) भूगोल और बहु-क्षेत्रीयता
प्रमुख यातायात क्षेत्रों से और महत्वपूर्ण निर्भरता प्रदाताओं के पास सिंथे
कोरम: एक घटना दर्ज की जाती है यदि ≥ N क्षेत्रों में विफलता (उदाहरण के लिए, 3 में से 2) स्थानीय विसंगतियों को काटने के लिए।
Cohort द्वारा सीमा: महत्वपूर्ण खंडों (देशों, VIP, वाहक) के लिए अलग SLI/SLO।
6) अलर्ट नीति (शोर न्यूनतम)
बहु-क्षेत्र + बहु-जांच: पेजर केवल एक सुसंगत विफलता के मामले में (उदाहरण के लिए, HTTP और TLS एक साथ, ≥ 2 क्षेत्र)।
डेब्यू: पेजिंग से पहले एन लगातार विफलताएं या 2-3 मिनट की खिड़की।
वृद्धि:- L1: ऑन-कॉल (उत्पादन सेवाएं)।
- विफलता हस्ताक्षर के आधार पर L2 नेटवर्क/प्लेटफॉर्म
- ऑटो-क्लोज़: स्थिर एम सफल जांच के बाद।
- शांत घंटे/रियायतें: गैर-महत्वपूर्ण आंतरिक सेवाओं के लिए - केवल टिकट, कोई पेजर नहीं।
7) स्थिति पृष्ठ और संचार
सार्वजनिक (ग्राहक) और निजी (आंतरिक) स्थिति पृष्ठ।
सिंथेटिक्स + मैनुअल एनोटेशन से स्वचालित घटनाएं।
संदेश टेम्पलेट: पता चला - पहचाना - प्रभाव - वर्कअराउंड - ईटीए - हल - पोस्ट-मोर्डेम।
नियोजित खिड़कियां: पहले से घोषणा करें, एसएलओ से अलग अपवादों पर विचार करें।
8) बाहरी निर्भरताओं पर विचार
प्रत्येक प्रदाता (भुगतान, केवाईसी, मेलिंग, सीडीएन, बादल) के लिए - कई क्षेत्रों से अपने स्वयं के चेक।
विफल मार्ग: सिंथेटिक सिग्नल का उपयोग करके वैकल्पिक प्रदाता पर ऑटो-स्विच करना।
प्रदाता स्तर और एकीकृत SLO को अलग करें।
प्रदाताओं के साथ SLA पर सहमत (स्थिति वेबहूक, समर्थन प्राथमिकता)।
9) डैशबोर्ड और प्रमुख विजेट
चेक की स्थिति के साथ विश्व मानचित्र (प्रकार से: HTTP, DNS, TLS)।
रिलीज/ध्वज एनोटेशन के साथ घटनाओं की समयरेखा।
P50/P95/P99 क्षेत्र द्वारा TTFB/TTL/विलंबता।
सहवास (देश/प्रदाता/उपकरण) द्वारा उपलब्धता।
MTTR/MTBF, महीने के लिए उपलब्धता बजट के "निष्क्रिय मिनट" और "बर्न-डाउन" रुझान।
विफलताओं के शीर्ष कारण (टीएलएस-एक्सपायरी, डीएनएस-रिज़ॉल्यूशन, 5xx, टाइमआउट)।
10) हादसा प्रक्रिया (क्षणिक परिदृश्य)
1. मल्टी-रीजन/मल्टी-टाइप अलर्ट ट्रिगर किया जाता है।
2. ड्यूटी अधिकारी पुष्टि करता है, रिलीज के ठंड को चालू करता है, मालिकों को सूचित करता है।
3. त्वरित निदान: DNS/TLS/CDN स्थिति, नवीनतम रिलीज़, त्रुटि अनुसूची।
4. बाईपास: मार्ग परिवर्तन, फोलबैक सामग्री/प्रदाता, गिरावट मोड को सक्षम करना।
5. वसूली: सत्यापित करें कि सिंथेटिक्स/वास्तविक यातायात हरा है।
6. स्थिति पृष्ठ पर संचार; घटना को बंद करना।
7. आरसीए और एक्शन आइटम: फिक्स, टेस्ट, अलर्ट, प्लेबुक।
11) एसएलए/एसएलओ रिपोर्टिंग
मासिक रिपोर्ट: सेवा/क्षेत्र द्वारा ऊपर, डाउनटाइम के मिनट, एमटीटीआर, कारण।
एसएलए के साथ तुलना: क्रेडिट/मुआवजा, यदि लागू हो।
त्रैमासिक समीक्षा: थ्रेसहोल्ड को अद्यतन करना, सिंथेटिक्स का वितरण, निर्भरता की सूची।
12) निरीक्षण टेम्पलेट (उदाहरण)
HTTP API जाँच:- विधि: 'GET/health/public' (कोई रहस्य नहीं)।
- टाइमआउट: 2 एस, रीट्री: 1।
- सफलता: '2xx', हेडर' X-App-Version', JSON फील्ड '"स्थिति":" ठीक है"।
- शब्द> 14 दिन, वैध श्रृंखला, प्रोटोकॉल 'TLS 1। 2 + ', सही SNI।
- प्रतिक्रिया समय ≤ 100 ms, A/AAAA रिकॉर्ड योजना के अनुसार हैं, कोई SERVFAIL/DECED नहीं।
- वेबहुक '/बीट/{ service} 'हर 5 मिनट में; एक पंक्ति में 2 संकेतों की अनुपस्थिति - L2 अलर्ट (पृष्ठभूमि कार्य/ETL)।
13) कार्यान्वयन चेकलिस्ट
- बहु-क्षेत्र बाहरी जाँच (HTTP/TCP/DNS/TLS/गहरी लिपियाँ)।
- ऑर्केस्ट्रेटर के लिए सफेद तत्परता/जीवंतता के नमूने।
- महत्वपूर्ण/गैर-महत्वपूर्ण रास्तों का पृथक्करण, गिरावट झंडे।
- अलर्ट, वृद्धि और ऑटो-क्लोज में कोरम और डेबिट।
- सार्वजनिक और आंतरिक स्थिति पृष्ठ, संदेश टेम्पलेट।
- बाहरी प्रदाताओं + स्वचालित विफलता के लिए अलग चेक और एसएलओ।
- डैशबोर्ड: नक्शा, समयरेखा, प्रतिशत, निष्क्रिय मिनट, MTTR/MTBF।
- नियमित एसएलए/एसएलओ रिपोर्ट और पोस्ट-घटना आरसीए।
14) लगातार त्रुटियाँ
केवल HTTP/सामग्री के बिना पिंग/पोर्ट ही हरा है जब वास्तव में उपलब्ध नहीं है।
एक निगरानी बिंदु - गलत सकारात्मक/नकारात्मक निष्कर्ष।
कोई टीएलएस/डीएनएस नियंत्रण - देरी/गलतफहमी के कारण अचानक आउटेज।
अतिरिक्त शोर: एक ही क्षेत्र से एकल विफलताओं के लिए अलर्ट/चेक के प्रकार।
परिवर्तनों के साथ कोई संबंध नहीं है - डैशबोर्ड में रिलीज और झंडे का कोई एनोटेशन नहीं है।
बेहिसाब निर्भरता - भुगतान प्रदाता गिर गया है, और समग्र स्थिति "हरा" है।
15) नीचे की रेखा
Uptime ट्रैकिंग सिर्फ "URL चरम के बारे में नहीं है। "यह वास्तविक क्षेत्रों से सिंथेटिक चेक की एक प्रणाली है, शोर के बिना उचित अलर्ट, स्थिति पृष्ठों के माध्यम से पारदर्शी संचार, बाहरी निर्भरता और सख्त रिपोर्टिंग के लिए लेखांकन। उचित रूप से निर्मित अपटाइम मॉनिटरिंग एमटीटीआर को कम करती है, एसएलए की रक्षा करती है, और उपयोगकर्ता के अनुभव की भविष्यवाणी को संरक्षित करती है।