GH GambleHub

बुनियादी ढांचे के डैशबोर्ड

1) आपको इसकी आवश्यकता क्यों है

राज्य की एक ही तस्वीर: क्लस्टर और नेटवर्क से लेकर डेटाबेस और कतारें तक।

फास्ट आरसीए और पोस्टमार्टम: मेट्रिक्स का एक गुच्छा ↔ लॉग्स ↔ ट्रेस।

सेवा और मंच द्वारा एसएलओ: उपलब्धता और विलंबता पर नियंत्रण।

FinOps पारदर्शिता: सेवाओं, किरायेदारों और वातावरण द्वारा मात्रा/लागत।

अनुपालन/सुरक्षा: पैच/कमजोरियों, पहुंच, विसंगतियों की स्थिति।

कार्यप्रणाली: संसाधनों के लिए गोल्डन सिग्नल (विलंबता, यातायात, त्रुटियां, संतृप्ति), अनुरोध के लिए RED (दर, त्रुटियां, अवधि), USE (उपयोग, संतृप्ति, त्रुटियां)।

2) अच्छे डैशबोर्ड के सिद्धांत

एक्शन करने योग्य-प्रत्येक पैनल "आगे क्या करना है" का जवाब देता है।

पदानुक्रम: अवलोकन → डोमेन → गहरी गोता → रॉ।

टेम्पलेट/चर: 'क्लस्टर', 'नेमस्पेस', 'सेवा', 'किरायेदार', 'एनवी'।

वर्दी इकाइयाँ: विलंबता के लिए ms,%, RPS, ऑप्स/सेकंड, बाइट्स।

सुसंगत टाइमपिकर: डिफ़ॉल्ट 1-6 घंटे, फास्ट प्रीसेट 5m/15m/24h।

ड्रिलडाउन: पैनल से लॉग (लोकी/ईएलके) और ट्रैक (टेम्पो/जैगर) तक।

स्वामित्व: मालिक को डैशबोर्ड, एसएलओ, रनबुक, ऑन-कॉल में संपर्क करने का संकेत दिया गया है।

3) फ़ोल्डर संरचना और भूमिकाएँ

00_Overview - मंच का उच्च-स्तरीय अवलोकन।

10_Kubernetes - क्लस्टर, नोड्स, वर्कलोड, एचपीए/वीपीए, कंटेनरों।

20_Network_Edge - Ingress/Envoy/Nginx, LB, DNS, CDN, WAF।

30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, ऑब्जेक्ट स्टोरेज।

40_CICD_Runner - पाइपलाइन, एजेंट, कलाकृतियां, रजिस्ट्री।

50_Security_Compliance - कमजोरियां, पैच, आरबीएसी, ऑडिट घटनाएं।

60_FinOps_Cost - प्रति सेवा लागत/किरायेदार/क्लस्टर, निपटान।

99_Runbooks - निर्देश और एसएलओ कार्ड से लिंक।

भूमिकाएँ: प्लेटफ़ॉर्म-एसआरई (पूर्ण पहुंच), सेवा-स्वामी (स्वयं के स्थान), सुरक्षा/अनुपालन, वित्त/फिनोप्स, केवल-देखें।

4) प्लेटफ़ॉर्म अवलोकन डैशबोर्ड (लैंडिंग)

लक्ष्य: यह समझने के लिए कि क्या सब कुछ क्रम में है।

अनुशंसित पैनल:
  • एसएलओ प्लेटफॉर्म (एपीआई उपलब्धता बढ़ त): लक्ष्य मूल्य, वास्तविक, त्रुटियों का युग, बर्न-रेट।
  • प्रमुख प्रवेश बिंदुओं द्वारा p50/p95/p99 विलंबता।
  • 4xx/5xx त्रुटियों और regression के साथ शीर्ष समापन बिंदु।
  • संसाधन संतृप्ति (सीपीयू, रैम, नेटवर्क, डिस्क) - क्लस्टर द्वारा p95।
  • घटनाएं/अलर्ट (सक्रिय) और हालिया रिलीज।
  • लागत/घंटा (अनुमानित) और सप्ताह द्वारा प्रवृत्ति।

चर टेम्पलेट: 'env', 'क्षेत्र', 'क्लस्टर', 'किरायेदार'।

5) कुबर्नेट्स: समूह और कार्यशालाएं

मुख्य समूह:

1. क्लस्टर/नोड्स

सीपीयू/मेमोरी निपटान, दबाव (मेमोरी/सीपीयू), आईओ डिस्क, इनोड।

सबसिस्टम: क्यूब-एपी, आदि, नियंत्रक; kubelet स्वास्थ्य।

2. वोर्कलोड

RPS/RPM, विलंबता p95, त्रुटि दर, पुनरारंभ, थ्रॉटलिंग, OOMKills।

एचपीए लक्ष्य बनाम वास्तविक मैट्रिक्स।

3. क्लस्टर के भीतर नेटवर्क पथ

eBPF/Netflow: शीर्ष टॉकर्स, ड्रॉप्स, रेट्रांसमिट।

4. घटनाएँ K8s

दर - चेतावनी/ по शेड्यूलिंग/बैकऑफ।

PromQL के उदाहरण:
promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) एज, ग्रिड और डीएनएस

फलक:
  • Ingress/Envoy/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns।
  • LB/Anycast: क्षेत्रों द्वारा यातायात का वितरण, विफल घटनाओं।
  • DNS: रिज़ॉल्यूशन लेटेंसी, NXDOMAIN/SERVFAIL दर, हिट-अनुपात कैश।
  • CDN/WAF: नियमों द्वारा अवरुद्ध, असामान्य यातायात (बॉट/स्क्रैपर)।
उदाहरण (Nginx):
promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) डेटाबेस और स्टोरेज

PostgreSQL/MySQL: qps, विलंबता, लॉक इंतजार, प्रतिकृति लैग, बैकअप/विफलताएं।

रेडिस: हिट अनुपात, निष्कासन, मेमोरी, धीमी कमांड।

काफ्का/रैबिटएमक्यू: उपभोक्ता समूहों द्वारा अंतराल, पुनर्संतुलन, अनकैप्ड संदेश।

वस्तु भंडारण: प्रश्न, त्रुटियां, एग्रेस, लैट p95।

PostgreSQL (उदाहरण):
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
काफ्का (उदाहरण):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) सीआई/सीडी और कलाकृतियाँ

पाइपलाइन अवलोकन: सफलता/रनटाइम, धावक कतार।

तैनाती स्वास्थ्य: संस्करण, कैनरी/ब्लू-ग्रीन स्थिति, वार्म-अप समय।

छवि रजिस्टर: आकार, अंतिम धक्का 'और, निपटान।

उदाहरण:
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) सुरक्षा और अनुपालन

पैच और कमजोरियां: महत्वपूर्ण सीवीई के साथ नोड्स/छवियों का अनुपात, औसत "पैच करने का समय।"

RBAC और रहस्य: असफल पहुंच प्रयास, रहस्यों तक पहुंच।

लेखा परीक्षा की घटनाएँ: महत्वपूर्ण घटकों में इनपुट/परिवर्तन, बहाव।

WAF/DLP/PII संशोधन: नियम ताला, मास्किंग त्रुटियां।

10) लॉग और ट्रेल्स: एंड-टू-एंड रिव्यू

लॉग से त्रुटियों का सारांश (लोकी/ईएलके): शीर्ष अपवाद, नए हस्ताक्षर।

बटन "फ़िल्टर के साथ लॉग पर जाएँ" (LogQL/ES क्वेरी).

ट्रेस: शीर्ष धीमी अवधि, बिना ट्रेस संदर्भ के अनुरोधों का प्रतिशत।

LogQL के उदाहरण:

{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) फिनोप्स: लागत और निपटान

सेवाओं/किरायेदारों/समूहों द्वारा लागत (बिलिंग/निर्यातकों के अनुसार)।

गर्म/ठंडे नोड्स: निष्क्रिय संसाधन, सही सिफारिशें (सीपीयू/मेम)।

डेटा egress, L7 अनुरोध और उनकी लागत।

गतिशीलता: सप्ताह/महीना, पूर्वानुमान।

कुंजी मेट्रिक्स:
  • cost_per_rps, cost_per_request, storage_cost_gb_day, idle_cost।
  • दक्षता कारक: 'आरपीएस/$' या 'एसएलओ-मिनट/$'।

12) एसएलओ, कीड़े और बर्न-रेट

प्रत्येक डोमेन डैशबोर्ड पर एसएलओ कार्ड: लक्ष्य, अवधि, त्रुटियां (बजट)।

बर्न-रेट अलर्ट (दो गति: तेज/धीमी)।

PromQL के उदाहरण ("5xx या p95> सीमा" के रूप में त्रुटि):
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
💡 अपने 'SLO' और मल्टी-विंडो, मल्टी-बर्न गुणांक को स्थानापन्न करें।

13) विज़ुअलाइज़ेशन मानक

पैनल प्रकार: श्रृंखला के लिए समय-श्रृंखला, केपीआई के लिए स्टेट, शीर्ष-एन के लिए तालिका, विलंबता के लिए हीटमैप।

किंवदंतियों और इकाइयों: आवश्यक; छोटे लेबल, SI प्रारूप।

रंग क्षेत्र: SLO/दहलीज (वर्दी) द्वारा हरा/पीला/लाल।

पैनल विवरण: हम क्या मापते हैं, स्रोत, रनबुक लिंक, मालिक।

14) पैनल टेम्पलेट (त्वरित शुरुआत)

(ए) एपीआई अवलोकन

केपीआई: 'आरपीएस', 'पी 95', '5xx%', 'त्रुटि _ budge _ शेष'.

त्रुटि/विलंबता से शीर्ष समापन बिंदु।

'ट्रेस _ id = $ ट्रेस' लॉग में ड्रिलडाउन।

(बी) नोड स्वास्थ्य

सीपीयू/मेमोरी/डिस्क/नेटवर्क - नोड द्वारा p95, "हॉट" की सूची।

दबाव, थ्रॉटलिंग, पैकेज ड्रॉप।

(C) DB Health

TPS, विलंबता p95, ताले, प्रतिकृति अंतराल, धीमी प्रश्नों।

बैकअप स्थिति/नवीनतम सफलता।

(D) काफ्का लाग

समूह द्वारा अंतराल, खपत दर बनाम उत्पादन, पुनर्संतुलन।

(E) लागत और Util

सेवाओं द्वारा लागत/घंटे, निष्क्रिय%, सही संकेत, पूर्वानुमान।

15) चर और टैग (अनुशंसित सेट)

'एनवी' (prod/stage/dev)

'रीजन '/' एज'

'क्लास'

'नेमस्पेस '/' सेवा '/' कार्यभार'

'टेनेंट'

'component' (किनारा/db/कैश/कतार)

'वर्शन' (release/git_sha)

16) अलर्ट और घटना प्रबंधन के साथ एकीकरण

वांछित डैशबोर्ड के लिंक के साथ Alertmanager/Graphana अलर्ट में नियम और पहले से ही प्रतिस्थापित चर।

P1/P2 एसएलओ मानदंडों द्वारा, ऑन-कॉल को ऑटो-असाइन करें।

रेखांकन पर रिलीज/घटनाओं की घोषणा।

17) डैशबोर्ड की गुणवत्ता: चेकलिस्ट

  • मालिक और संपर्क।
  • एसएलओ/थ्रेसहोल्ड प्रलेखित हैं।
  • चर काम करते हैं और प्रश्नों के आकार को सीमित करते हैं।
  • इकाइयों और किंवदंती के साथ सभी पैनल।
  • लॉग/ट्रैक पर ड्रिलडाउन।
  • पैनल 2-3 "स्क्रीन" (प्रति किलोमीटर स्क्रॉल किए बिना) में फिट होते हैं।
  • प्रतिक्रिया समय ≤2 -3 सेकंड (कैश, डाउनसैम्पल)।
  • कोई मृत पैनल या अपमानित मैट्रिक्स नहीं।

18) खुद डैशबोर्ड का प्रदर्शन और लागत

भारी एकत्रीकरण के लिए डाउनसैम्पलिंग/रिकॉर्डिंग नियम।

कैचिंग (क्वेरी-फ्रंटेंड/रिपीटर) और रेंज/स्टेप लिमिट।

टेस्ट हैंगर: ठेठ डैशबोर्ड अनुरोधों के लिए टीएसडीबी/क्लस्टर पर लोड करें।

लेबल स्वच्छता (कम कार्डिनैलिटी), वाइल्डकार्ड को छोड़ ना।

19) कार्यान्वयन योजना (पुनरावृत्ति)

1. सप्ताह 1: लैंडिंग + K8s/Edge समीक्षा, बुनियादी एसएलओ, मालिक।

2. सप्ताह 2: डीबी/कतार, लॉग एंड ट्रेस एकीकरण (ड्रिलडाउन), बर्न-रेट अलर्ट।

3. सप्ताह 3: FinOps डैशबोर्ड, सही सिफारिशों, लागत रिपोर्ट।

4. सप्ताह 4 +: सुरक्षा/अनुपालन, एसएलओ कार्ड ऑटोजनरेशन, डैशबोर्ड प्रतिगमन परीक्षण।

20) मिनी-एफएक्यू

आपको कितने डैशबोर्ड की आवश्यकता है?

कम से कम 1 समीक्षा + एक प्रति डोमेन (K8s, एज, डीबी, कतारें, सीआई/सीडी, सुरक्षा, लागत)। बाकी परिपक्वता से है।

अधिक महत्वपूर्ण क्या है - मैट्रिक्स या लॉग?

लक्षणों और एसएलओ के लिए मैट्रिक्स, कारणों के लिए लॉग। 'ट्रेस _ आईडी' और सुसंगत लेबल के माध्यम से बंडल।

पैनलों में "डूबना" कैसे नहीं?

पदानुक्रम, स्पष्ट मालिक, मीट्रिक स्वच्छता, नियमित समीक्षा और "मृत" पैनलों को हटाना।

कुल

इन्फ्रास्ट्रक्चर डैशबोर्ड "सुंदर रेखांकन" नहीं हैं, बल्कि एक प्रबंधन उपकरण है: एसएलओ नियंत्रण, तेज आरसीए और सचेत फिनोप्स। चर, दृश्य पैटर्न और मालिकों को मानकीकृत करें; लॉग/ट्रैक को ड्रिलडाउन प्रदान करें और बर्न-रेट अलर्ट स्वचालित करें। यह पूरे मंच के स्तर पर पूर्वानुमेयता, प्रतिक्रिया गति और लागत पारदर्शिता प्रदान करेगा।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।