परिचालन डैशबोर्ड
(धारा: संचालन और प्रबंधन)
1) उद्देश्य और सिद्धांत
प्लेटफॉर्म स्वास्थ्य की निगरानी और कार्रवाई करने के लिए एक परिचालन डैशबोर्ड एक "एकल खिड़की यह उपयोगकर्ता भूमिका (SRE, उत्पाद, वित्तीय, अनुपालन, समर्थन, भागीदार) के संदर्भ में मैट्रिक्स, इवेंट्स, अलर्ट और बिजनेस प्रमुख आंकड़े एकत्र करता है।
सिद्धांत:- डिजाइन द्वारा कार्रवाई योग्य: प्रत्येक विजेट में एक एक्शन बटन (रोलबैक, प्यूज़, री-रन, री-रूट) होता है।
- भूमिका-जागरूक: अधिकार और विवरण का स्तर भूमिका/किरायेदार/क्षेत्र पर निर्भर करता है।
- स्रोत-सत्य: संख्या बिलिंग/लॉग/बिल के साथ परिवर्तित होती है।
- निकट-वास्तविक समय + ऐतिहासिकता: घटनाओं के लिए सेकंड/मिनट, रुझानों के लिए महीने/वर्ष।
- व्याख्यात्मकता: कोई भी कुल 'trace _ id' के साथ एक कच्ची घटना तक फैलता है।
2) भूमिकाएँ और लिपियाँ (जो आती हैं और क्यों)
SRE/Platform: उपलब्धता, p50/p95/p99 विलंबता, त्रुटि/रिट्रे, क्षमता, प्रति 1k घटनाओं पर लागत।
उत्पाद/संचालन: E2E-Success दर, रूपांतरण, भागीदार ऑनबोर्डिंग समय, phicheflags।
वित्त/FinOps: राजस्व/COGS/CM प्रति इकाई, egress/ingress, बजट और कैप, विचलन।
अनुपालन/सुरक्षा: रसीदें/हस्ताक्षर, पीआईआई अनुरोध, एसओडी उल्लंघन, पुनरावृत्ति की स्थिति।
समर्थन/सीएस: टिकट कतार, एमटीटीए/एमटीटीआर, पार्टनर और क्षेत्र द्वारा एसएलए।
भागीदार/किरायेदार: खुद एसएलओ मैट्रिक्स, वेबहुक स्टेटस, उपयोग और कोटा।
3) नॉर्थ स्टार और कुंजी SLI/SLO
नॉर्थ स्टार: प्रत्येक क्षेत्र में लक्ष्य p95 पर महत्वपूर्ण मार्गों पर सफलता दर।
SLI (उदाहरण):- प्रति चैनल/क्षेत्र उपलब्धता।
- p50/p95/p99 विलंबता।
- त्रुटि-दर और रिट्रे का अनुपात।
- वेबहुक वितरण सफलता दर (प्राप्तियों के साथ%)।
- प्रति इकाई 1k इवेंट और एग्रेस/इंग्रेस की लागत।
- घटनाओं का सारांश: MTTA, MTTR, त्रुटि-बजट बर्न।
- उपलब्धता ≥ 99। 95 %/क्षेत्र/चैनल।
- p95 ≤ 120 ms (शोकेस), ≤ 250 ms (चेकआउट/कोट)।
- वेबहुक की सफलता ≥ 99। 5-मिनट में 5%। विंडो।
- बोली और चेकआउट = 0 (आवंटन नियमों के अनुसार 1 मामूली इकाई) के बीच।
- P1 ≤ 10 मिनट पर प्रतिक्रिया समय, MTTR ≤ 60 मिनट।
4) डैशबोर्ड डेटा आर्किटेक्चर
घटना बस: टेलीमेट्री (निशान/मैट्रिक्स/लॉग्स), व्यावसायिक कार्यक्रम, बिलिंग, अनुपालन।
स्ट्रीमिंग/एकत्रीकरण: निकट-वास्तविक समय के लिए T + 5s/T + 1m विंडो; गारंटीकृत डिलीवरी के लिए सीडीसी/आउटबॉक्स।
स्टोरेज: टाइम-सीरीज़ (रैम), ओएलएपी (लंबा इतिहास), वर्म लॉग (ऑडिट)।
शब्दार्थ परत: मैट्रिक्स का शब्दकोश, इकाइयाँ, क्षेत्र और किरायेदारों द्वारा सामान्यीकरण।
कच्चे माल से लिंक: ड्रिल-डाउन से 'ट्रेस _ आईडी '/' इवेंट _ आईडी' और हस्ताक्षर (receipt_hash)।
5) इंटरफ़ेस और विजेट डिज़ाइन
ग्लोबल हेडर: फ़िल्टर (समय, क्षेत्र, किरायेदार, उत्पाद, पर्यावरण), स्थिति संकेतक।
टाइल्स (KPI): E2E सफलता, उपलब्धता, p95, त्रुटि-दर, लागत/1k, egress।
चार्ट: स्पार्कलाइन रुझान, क्षेत्र द्वारा गर्मी-नक्शा, प्रतिशत चार्ट।
तालिकाएं: शीर्ष गलतियाँ, गिरावट के साथ भागीदार, कोटा से अधिक, अनियंत्रित घटनाएं।
एक्शन सेक्शन: "पॉज़प्रोमो", "रोलबैक फीचर", "राइज़कोटा", "रिस्टार्ट डिलीवरी"।
संदर्भ-सहायता: एसएलओ के साथ मैट्रिक्स/तकनीक और संचार के बारे में संकेत।
6) डैशबोर्ड मॉड्यूल (अनुशंसित सेट)
1. प्लेटफ़ॉर्म स्वास्थ्य: उपलब्धता/विलंबता/त्रुटि, बर्न-डाउन त्रुटि-बजट।
2. पार्टनर एकीकरण: वेबहुक स्थिति, प्राप्ति, पहचान लेता है, अंतराल कतारें।
3. चेकआउट और मूल्य: vitrina↔checkout अनुपालन, 'fx _ version', 'tax _ rul _ version', विफलता के मामले।
4. सामग्री/निर्देशिका: समय प्रकाशित करें, कैश/अवैध त्रुटियाँ, ताज़ा.
5. आरटीपी और सीमाएँ (यदि लागू हो): theor। बनाम आरटीपी, सीमाओं की सक्रियता, एक्सपोज़र का अवलोकन किया।
6. FinOps: COGS/इकाई, egress/ingress, गणना/भंडारण, बजट/कैप-अलर्ट।
7. सुरक्षा/अनुपालन: SoD, JIT, MFA, हस्ताक्षरित संचालन, PII अनुरोध और लॉग।
8. समर्थन: कतारें, MTTA/MTTR, कारण, ऑटो-रनबुक।
9. रिलीज ़/फ़ीचर फ़्लैग्स: घटनाओं के साथ स्टेटस, कैनरी क्षेत्र, ऑटो-ग्लूइंग रेग्रेशन जारी करें।
10. प्रयोग: ए/बी रेलिंग, एसएलआई/आरओआई पर सुविधाओं का प्रभाव।
7) अलर्ट, रन और एस्केलेशन
स्तर P1-P3 शोर रद्द करने और 'ट्रेस _ आईडी' डीडुप्लीकेशन के साथ अलर्ट।
ऑटो-रनबुक: जब ट्रिगर किया जाता है - चेक/फिक्स शुरू करना (कैश साफ करना, स्विचिंग रूटिंग, प्रोमो को रोकना)।
वृद्धि: मैट्रिक्स 24 × 7, प्रतिक्रिया एसएलओ, चैनल (चैट/वॉयस/एसएमएस), "लाल बटन"।
पोस्ट-घटना: कारण रिपोर्ट टेम्पलेट और एक्शन आइटम।
8) बहु-क्षेत्रीयता और बहु-किरायेदार
स्लाइस: क्षेत्र/किरायेदार/चैनल/प्रदाता, स्वतंत्र एसएलओ और बजट।
विश्वास क्षेत्र: पीआईआई डेटा/वित्त - केवल संबंधित क्षेत्रों में दिखाई देता है, बाकी - समुच्चय।
लागत-जागरूक: एक ही p95 पर कीमत से मार्गों की तुलना; अनुकूलन सिफारिशें।
9) सुरक्षा और गोपनीयता
RBAC/ABAC: भूमिका द्वारा दृश्यता और कार्य; उत्पाद/किरायेदार स्वामित्व के लिए ReBAC।
हस्ताक्षर और रसीदें: वित्तीय/महत्वपूर्ण घटनाओं के लिए - हैश और डीएसएसई रसीदें।
पीआईआई स्वच्छता: टोकन, मास्किंग, केवल अनुमोदित जैब के माध्यम से पहुंच।
लेखा परीक्षा: विन्यास/भूमिका/सीमा परिवर्तन, प्रजनन योग्यता के लिए WORM लॉग।
10) मेट्रिक्स डेटा मॉडल (उदाहरण)
'मेट्रिक' {नाम, इकाई, प्रकार: काउंटर/गेज/हिस्ट, मालिक, sla_ref}'
'मंद' {क्षेत्र, किरायेदार, उत्पाद, प्रदाता, संस्करण, पर्यावरण} '
'पॉइंट' {मीट्रिक, वैल्यू, टीएस, डिम्स {}, trace_id, हस्ताक्षर?} '
'इवेंट' {टाइप, गंभीरता, subject_id, payload_hash, receipt_hash, ts} '
'slo' {name, लक्ष्य, विंडो, burn_rate, मालिक [], runbook_url}'
'अलर्ट' {slo _ ref, शर्त, स्थिति, , ,
11) डैशबोर्ड एपीआई/वेबहूक
'POST/ingest/metrics' - मैट्रिक्स प्राप्त करना (योजना, सीमा, प्रमाणीकरण)।
'POST/ingest/events' - व्यावसायिक घटनाएँ (संस्करण/हस्ताक्षर)।
'GET/kpis? फिल्टर... '- विजेट्स के लिए समुच्चय।
'GET/traces/{ trace _ id}' - गहन पदोन्नति।
: 'एक्टिविटी राइज़्ड', 'कोटा कैप्रैस्टेड', 'प्राइसमिस्मैच', 'वेबहुकमलैग', ' SoDViolation'।
12) डेटा गुणवत्ता और परीक्षण
डेटा अनुबंध: रिसेप्शन पर योजनाएं और सत्यापन, वर्शनिंग ('माइग्रेट कॉन्ट्रैक्ट' का विस्तार)।
विसंगतियाँ: चूक/कूदने की निगरानी, थ्रेसहोल्ड "फ्लैटलाइन "/" शोर "।
नमूना: उच्च-QPS मैट्रिक्स के लिए - फिसलना, जबकि प्रतिनिधित्व बनाए रखना।
बैकफिल: सुरक्षित संस्करण-टैग बैकलोड।
13) डैशबोर्ड के मेट्रिक्स (मैट्रिक्स मैट्रिक्स)
UI/API उपलब्धता ≥ 99। 9%.
विलंबता p95 एपीआई ≤ 300 एमएस का अनुरोध करता है।
पूर्णता - स्रोतों का प्रतिशत जिसने विंडो ≥ 99 को डेटा भेजा। 5%.
ताजगी: वृद्धिशील अपडेट lag 30 s।
शुद्धता: संदर्भ रिपोर्ट के साथ विसंगति ≤ 0। 1%.
14) डैशबोर्ड में अर्थव्यवस्था और फिनोप्स
प्रदाता/क्षेत्र द्वारा विघटित प्रति 1k घटना लागत।
एग्रेस/इंग्रेस हीटमैप, कैशिंग/रूटिंग सिफारिशें।
बजट/कैप-अलर्ट: 80/90/100%, ऑटो-ट्रेडिंग और प्राथमिकता।
15) उपलब्धता और UX
नाइट थीम, शॉर्ट कैप्शन, स्थिति प्रतीक।
कुंजीपट नेविगेशन और a11y: कंट्रास्ट, ऑल्ट, आरिया टैग।
सहेजे गए प्रीसेट: "एसआरई ड्यूटी", "वित्त", "पार्टनर"।
स्नैपशॉट और साझाकरण: फ़िल्टर और लिंक/निर्यात के साथ स्थिति कैप्चर करें।
16) जोखिम और विरोधी पैटर्न
डैश-फैलाव: मैट्रिक्स के एक शब्दकोश के बिना 20 अलग-अलग डैशबोर्ड।
वैनिटी मैट्रिक्स: SLO/क्रियाओं से कोई संबंध नहीं के साथ सुंदर रेखांकन।
आंकड़ों की असंगतता: रिपोर्ट - बिलिंग/ऑडिट।
शोर अलर्ट: थकान और पी 1 चूक।
ड्रिल-डाउन की अनुपस्थिति: प्राथमिक और कारणों को प्राप्त करना असंभव है।
17) कार्यान्वयन चेकलिस्ट
- भूमिकाओं और लिपियों को परिभाषित करें; नॉर्थ स्टार और एसएलआई/एसएलओ से सहमत हैं।
- मैट्रिक्स और इकाइयों का एक शब्दकोश बनाएं; डेटा अनुबंधों को औपचारिक बनाएं।
- कॉन्फ़िगर निगेस्ट (मेट्रिक्स/इवेंट्स/ट्रेस), ओएलएपी और वर्म ऑडिटिंग।
- कुंजी मॉड्यूल (स्वास्थ्य, भागीदार, चेकआउट, फिनोप्स, सुरक्षा) लागू करें।
- रनों और वृद्धि के साथ अलर्ट शामिल करें; "लाल बटन"।
- रोलबैक/पॉज ़/री-रूट/राइज़-लिमिट एक्शन जोड़ें।
- क्षेत्र/किरायेदार द्वारा हीट-मैप का निर्माण; फ़िल्टर और प्रीसेट।
- बिलिंग/बिल के साथ आउटगोइंग अंकों को सत्यापित करें।
- गेम-डे (गेमडे): प्रदाता का डिस्कनेक्शन, रेट्रास का हिमस्खलन, कीमतों का desynchronization।
- साप्ताहिक एसएलओ समीक्षा और पोस्टमार्टम गुणवत्ता।
18) RACI
19) एफएक्यू
क्या सभी रिपोर्टों को डैशबोर्ड से बदल दिया जा सकता है?
नहीं, यह नहीं है। डैशबोर्ड - रैम और क्रियाओं के लिए; औपचारिक रिपोर्टिंग/ऑडिटिंग - व्यक्तिगत कलाकृतियां।
आपको कितना "वास्तविक समय" चाहिए?
घटनाओं के लिए - सेकंड/मिनट, अर्थशास्त्र के लिए - मिनट/घंटे; स्थिरता महत्वपूर्ण है, निरपेक्ष "ऑनलाइन" नहीं।
अलर्ट के शोर से कैसे निपटें?
एसएलओ-उन्मुख स्थिति, एकत्रीकरण, 'ट्रेस _ आईडी' द्वारा डीडुप्लीकेशन, प्राथमिकता और ऑटो-रनबुक।
मेट्रिक्स की शुद्धता की जांच कैसे करें?
संदर्भ रिपोर्ट, परीक्षण फ़ीड, नियंत्रण नमूने और WORM लॉग के साथ नियमित सामंजस्य।
सारांश: ऑपरेशनल डैशबोर्ड एक "सुंदर बोर्ड" नहीं है, बल्कि एक प्रबंधन उपकरण है: एकल एसएलआई/एसएलओ, इंटरफ़ेस से कार्रवाई, कच्चे माल का पता लगाना और बिलिंग और ऑडिट के साथ सख्त स्थिरता। इसे एक इवेंट आर्किटेक्चर पर बनाएं, भूमिका द्वारा संदर्भ दें, रन जोड़ें और वृद्धि करें - और आपको पूर्वानुमानित संचालन, त्वरित निर्णय और स्थायी