GH GambleHub

अवलोकन और स्थिति नियंत्रण

1) लक्ष्य और सिद्धांत

लक्ष्य: "क्या हो रहा है" और "क्यों" को समझने के लिए वास्तविक समय में घटनाओं को रोकने और एसएलओ का उल्लंघन किए बिना या ओपेक्स को फुलाए बिना जल्दी से उबरने के लिए।

सिद्धांत: एसएलओ-पहला, "गोल्डन सिग्नल" (विलंबता, यातायात, त्रुटियां, संतृप्ति), एक एकल टेलीमेट्री मानक (ओपनटेलीमेट्री), न्यूनतम पर्याप्त विवरण, व्याख्या, लागत-जागरूक अवलोकन।

2) अवलोकन परतें

1. मेट्रिक्स: SLI/SLO, क्षमता और रुझान (RED/USE मॉडल) के लिए कुल।

2. निशान: अनुरोधों, भुगतान और खेल लेनदेन की कारण श्रृंखलाएं।

3. लॉग/घटनाएँ: ऑपरेटर/सेवा क्रियाओं का विस्तृत संदर्भ और लेखा परीक्षा।

4. सिंथेटिक्स (ब्लैक-बॉक्स): बाहरी एपीआई/वेब पथ जांच, पीएसपी/केवाईसी स्वास्थ्य पिंग।

5. RUM (वास्तविक उपयोगकर्ता): फ्रंट-लाइन मेट्रिक्स (TTFB, LCP, JS त्रुटियां), भू/उपकरण स्लाइस।

6. निम्न-स्तरीय टेलीमेट्री: eBPF/CPU प्रोफाइलिंग/IO/alloc, नेटवर्क प्रतिशत देरी।

3) एसएलआई सेट और सुनहरा संकेत

लेटेंसी: महत्वपूर्ण रास्तों (लॉगिन, जमा, दर, निकासी) द्वारा p50/p95/p99।

त्रुटियां: 5xx/टाइमआउट/गिरावट (प्रदाताओं/बैंकों द्वारा सामान्यीकृत) का हिस्सा।

ट्रैफिक/थ्रूपुट: आरपीएस/टीपीएस, सक्रिय सत्र, कार्यक्रम/सेकंड

संतृप्ति: सीपीयू/रैम/आईओ लोड, कतार गहराई, पूल-उपयोग, प्रतिकृति अंतराल।

बिजनेस एसएलआई: प्रति विंडो सफल जमा/% दरें, केवाईसी/पीएसपी रूपांतरण विचलन, चार्जबैक शेयर।

4) टेलीमेट्री वास्तुकला

मानकीकृत इंजेक्शन: ओपनटेलीमेट्री एसडीके/कलेक्टर → सामान्यीकरण, नमूना, गोपनीयता फिल्टर → भंडारण (टीएसडीबी, निशान, लॉग)।

सहसंबंध: लॉग और मेट्रिक्स (उदाहरण) में ट्रेस-आईडी/स्पैन-आईडी; भुगतान/गेमिंग घटनाओं के लिए एकल सहसंबंध-आईडी।

टोपोलॉजी: सेवा ग्राफ, लाइव एसएलआई के साथ निर्भर बाहरी प्रदाता।

लागत प्रबंधन: प्रतिधारण स्तर, एकत्रीकरण, गतिशील नमूना, "गर्म "/" ठंडा "भंडारण वर्ग।

5) मेट्रिक्स: डिजाइन और कार्डिनैलिटी

नियम: कम संख्या में लेबल, समय-श्रृंखला में उच्च-कार्डिनैलिटी (userId, SurmId) पर प्रतिबंध; इस तरह के विवरण - केवल मार्गों/लॉग में।

RED/USE: अनुरोध-त्रुटियाँ-अवधि для API; बुनियादी ढांचे के लिए उपयोग-संतृप्ति-त्रुटियां।

उदाहरण: विशिष्ट ट्रेस उदाहरणों के लिए उच्च प्रतिशत बाध्यकारी।

व्यावसायिक मैट्रिक्स: $/आरपीएस, पीएसपी बैंक/जीईओ रूपांतरण, प्रदाता लचीलापन।

6) ट्रेसिंग: गहराई और नमूना

संदर्भ: हम ट्रेस संदर्भ को फ्रंट → API → ब्रोकर्स → प्रोसेसर → डेटाबेस/PSP के माध्यम से फेंकते हैं।

नमूना: मूल 1-10%, विसंगतियों के साथ - नियमों (पूंछ-आधारित) के अनुसार गतिशील वृद्धि।

फोकस: भुगतान प्रवाह (init auth कैप्चर/सेटल), गेम लेनदेन (शर्त सेटल), KYC (init सत्यापित)।

एनोटेशन: पीएसपी-कोड ऑफ रिस्पांस, बैंक-बिन/जारीकर्ता-श्रेणी, क्षेत्र, जोखिम दर।

7) लॉग और ऑडिट

संरचित लॉग: JSON, प्रोफाइल द्वारा स्तर (प्रोड पर INFO, डिबग में DEBUG)।

गोपनीयता फिल्टर: पीआईआई मास्किंग, लॉग में कच्चे केवाईसी दस्तावेजों का निषेध।

लेखा परीक्षा की घटनाएं: कौन/क्या/कहां/कब/क्यों, टिकट आईडी, उच्च जोखिम वाले लेनदेन के लिए पूर्व/पोस्ट मान (बोनस, सीमा, पीएसपी रूटिंग)।

अपात्रता: WORM/अपरिवर्तनीय, हस्ताक्षर, नीति द्वारा प्रतिधारण।

8) स्थिति नियंत्रण (स्वास्थ्य)

लाइवनेस/रेडीनेस/स्टार्टअप: सही नमूने (लाइवनेस में बाहरी निर्भरता की जांच न करें)।

अपमानित-मोड: स्पष्ट सेवा क्षरण झंडे ताकि अलर्ट और स्थिति पृष्ठ सुसंगत हों।

बजट स्वास्थ्य: बर्न-रेट त्रुटि बजट (तेज/धीमी खिड़की), संसाधनों और कतारों द्वारा हेडरूम।

9) अलर्टिंग और शुरुआती चेतावनी

SLO अलर्ट: "कच्चे" p95 के बजाय त्रुटि बजट (4-घंटे और 1-घंटे की खिड़कियां) के अनुसार।

विसंगतियाँ: 5xx फटने के लिए STL/IQR/ऑनलाइन डिटेक्टर, PSP प्राधिकरण किसी विशेष GEO/बैंक में गिरते हैं।

रूट-कारण संकेत: हम नवीनतम रिलीज/फिचफ्लैग/नियोजित कार्य के साथ अलर्ट को जोड़ ते हैं।

रनबुक: प्रत्येक अलर्ट में एक प्लेबुक, रेखांकन, "त्वरित जांच" के लिंक हैं।

10) डैशबोर्ड (जो देखता है)

Exec: अपटाइम/SLO, बर्न-रेट, सफल डिपॉजिट/दरें, प्रदाता की स्थिति, क्षमता पूर्वानुमान और $/RPS।

SRE/platform: सेवा, कतारें/अंतराल, पूल-उपयोग, प्रतिकृति अंतराल, CDN/WAF, eBPF प्रोफाइल द्वारा RED/USE।

भुगतान/जोखिम: PSP/बैंक/GEO प्राधिकरणों की सफलता, नरम/कठिन गिरावट, KYC समय, चार्जबैक प्रारंभिक-संकेतों।

समर्थन/सीएस: घटना स्थिति पैनल, प्रतिक्रिया एसएलए, एफएक्यू मैक्रोस।

11) फिनोप्स-ऑब्जर्वेबिलिटी

प्रतिधारण: "कच्चे" पटरियों के लिए 7-14 दिन, इकाइयाँ लंबी; चुनिंदा - गर्म सेवाएं।

नमूना/एकत्रीकरण: विसंगति द्वारा गतिशील नमूना, पुरानी श्रृंखला का पतन।

सबसे बड़ी नीतियां: शोर (स्वास्थ्य पिंग, निरर्थक लॉग), उच्च-कार्डिनैलिटी मैट्रिक्स के लिए कोटा।

केपीआई लागत: $/जीबी निगेस्ट, $/ट्रेस, $/एसएलआई डैशबोर्ड; शीर्ष खाने वालों की आवधिक समीक्षा।

12) गोपनीयता और अनुपालन

पीआईआई/वित्त: मास्किंग, टोकन, टेलीमेट्री में डेटा न्यूनतम।

भू-स्थानीयकरण: अधिकार क्षेत्र द्वारा भंडारण और प्रसंस्करण; लॉग निर्यात - केवल एन्क्रिप्शन और टीटीएल के साथ अनुमोदित वर्कफ़्लो के माध्यम से।

टेलीमेट्री के लिए ऑडिट एक्सेस: RBAC/ABAC, अपलोड के लिए SoD, अनुरोध लॉग।

13) घटना प्रबंधन और रिलीज के साथ एकीकरण

स्थिति पृष्ठ: घटना कार्ड से स्वचालित अद्यतन फ़ीड।

रिलीज़ गेट: SLI कैनरी विश्लेषण, बर्न-रेट> थ्रेशोल्ड पर ऑटो-स्टॉप रिलीज़।

पोस्टमार्टम: ट्रेल्स/लॉग से समयरेखा, वास्तविक एसएलआई और उल्लंघन खिड़कियां।

14) कार्यान्वयन अभ्यास (8-12 सप्ताह)

नेड। 1-2: महत्वपूर्ण रास्तों और एसएलआई की सूची; स्टैक चयन (ओटेल, टीएसडीबी, लॉग, निशान); निर्भरता का नक्शा।

नेड। 3-4: 3-5 प्रमुख सेवाओं (लॉगिन/जमा/दर), मूल RED/USE, लॉग में संदर्भ का पता लगाएं।

नेड। 5-6: एसएलओ और बर्न-रेट अलर्ट; PSP/KYC के अनुसार सिंथेटिक्स; पहली रनबुक; RUM से वेब/मोबाइल।

नेड। 7-8: गतिशील नमूना, अनुकरणीय, सेवा मानचित्र; Exec/SRE/भुगतान डैशबोर्ड।

नेड। 9-10: eBPF/हॉट बॉटलनेक प्रोफाइलिंग; गोपनीयता फिल्टर; कोटा/प्रतिधारण।

नेड। 11-12: SLI द्वारा रिलीज़ गेट्स और ऑटो-रोलबैक; स्थिति पृष्ठ टेबलटॉप शिक्षाओं के साथ एकीकरण।

15) कलाकृतियाँ पैटर्न

सेवा का SLO-कार्ड: SLI, लक्ष्य, खिड़कियां, त्रुटि बजट, अलर्ट, मालिक।

अलर्ट स्पेक: मीट्रिक/स्थिति, थ्रेसहोल्ड, डेडअप/साइलेंस, प्राप्तकर्ता, रनबुक।

डैशबोर्ड स्पेक: दर्शक, प्रश्न, 6-8 विजेट, डेटा स्रोत, ताज़ा दर।

टेलीमेट्री पॉलिसी: किन क्षेत्रों को अनुमति/निषिद्ध, प्रतिधारण, मास्किंग, निर्यात की अनुमति है।

लागत समीक्षा पैक: शीर्ष श्रृंखला/लॉग स्ट्रीम, नमूना प्रस्ताव/टीटीएल, अपेक्षित बचत।

16) ऑब्जर्वेबिलिटी फंक्शन केपीआई

MTTA/MTTR (SLO-अलर्टिंग कार्यान्वयन के बाद सुधार)।

उपयोगकर्ता शिकायतों से पहले सिंथेटिक्स/एसएलआई द्वारा पाई गई घटनाओं का%।

मैनुअल हस्तक्षेप के बिना एसएलआई के माध्यम से गेट पास करने वाले रिलीज का अनुपात।

निदान बनाए रखते समय प्रति टेलीमेट्री $/आरपीएस में कमी।

महत्वपूर्ण रास्तों का कवरेज ट्रेस करें (> 90%)।

सहसंबंध की सटीकता "स्थिति अद्यतन ↔ वास्तविक एसएलआई"।

17) एंटीपैटर्न

"सब कुछ लॉग करें" - लागत और शोर का एक विस्फोट।

SLO/बर्न-रेट - पेजर-थकान के बजाय "कच्चे" मैट्रिक्स पर अलर्ट।

मेट्रिक्स की उच्च कार्डिनैलिटी (UsomeId) → TSDB तूफान।

व्यावसायिक संदर्भ के बिना ट्रेल्स (PSP/बैंक/GEO) - कोई अंतर्दृष्टि नहीं।

रिलीज/घटनाओं के साथ अवलोकन का कोई संबंध नहीं - टेलीमेट्री अलग से रहती है।

कुल

अवलोकन और स्थिति नियंत्रण उपकरण का एक सेट नहीं है, लेकिन एक प्रबंधित प्रणाली: सही SLI/SLO मानकीकृत टेलीमेट्री और सहसंबंध SLO अलर्ट और रनबुक - रिलीज़ और स्टेटस कम्युनिकेशन के साथ। इस तरह के लूप चरम ट्रैफिक चोटियों में भी शुरुआती संकेत, तेज आरसीए और व्यावसायिक लचीलापन देते हैं।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।