GH GambleHub

बुनियादी ढांचे की निगरानी

बुनियादी ढांचा निगरानी

1) उद्देश्य और फ्रेम

बुनियादी ढांचा निगरानी एक मंच के स्वास्थ्य, प्रदर्शन और उपलब्धता के बारे में संकेतों की एक प्रणाली है। उसे चाहिए:
  • उपयोगकर्ता क्रैश (प्रारंभिक पता लगाने से पहले चेतावनी दें)
  • मूल कारण (लक्षण से कारण तक) का निदान करें।
  • रिलीज़ और ऑटो-रोलबैक के एसएलओ गेटिंग का समर्थन करें।
  • घटना के बाद के विश्लेषण (डेटा के रूप में सबूत) खिलाएं।

सहायक सिद्धांत: डिजाइन द्वारा अवलोकन करने योग्य, कम शोर - अधिक संकेत, प्रतिक्रियाओं का स्वचालन, सत्य का एक एकल पैनल।

2) ऑब्जर्वेबिलिटी ट्रायड

समय - दर/मांग/त्रुटि/संतृप्ति (USE/RED)

लॉग: संदर्भ के साथ घटना विवरण; कोई रहस्य/पीआईआई नहीं है।

निशान: कारण संबंधों के साथ वितरित मामले।

इसके अलावा:
  • प्रोफाइलिंग (CPU/ढेर/लॉक/io), तंत्र स्तर के लिए eBPF।
  • घटनाएँ/लेखा परीक्षा (K8s घटनाएँ, विन्यास/रहस्य में परिवर्तन)।

3) SLI/SLO/SLA - गुणवत्ता वाली भाषा

SLI: 'उपलब्धता', 'त्रुटि _ दर', 'p95 _ latency', 'कतार _ lag'।

SLO (लक्ष्य): "सफल अनुरोध ≥ 99। 30 दिनों में 9%।"

त्रुटि बजट: सहनशीलता; ऑटो-स्टॉप रिलीज के लिए उपयोग किया जाता है।

एसएलओ उदाहरण (YAML):
yaml service: "api-gateway"
slis:
- name: success_rate query_good: sum(rate(http_requests_total{status!~"5.."}[5m]))
query_total: sum(rate(http_requests_total[5m]))
slo: 99. 9 window: 30d

4) परतों के नक्शे की निगरानी

1. होस्ट/वीएम/नोड्स: सीपीयू/लोड/चोरी, रैम/स्वैप, डिस्क आईओपीएस/लेटेंसी, फाइल सिस्टम।

2. नेटवर्क/LB/DNS: RTT, पैकेट/ड्रॉप्स, बैकलॉग, SYN/Timeout, स्वास्थ्य-जांच।

3. Kubernetes/Orchestrator: API सर्वर, आदि, नियंत्रक, अनुसूचक; फली/नोड्स, लंबित/बेदखल, थ्रॉटलिंग, क्यूब-इवेंट्स।

4. सेवाएं/कंटेनर: RED (दर/त्रुटियां/अवधि), तत्परता/जीवन।

5. डेटाबेस/कैश: QPS, लॉक वेट, प्रतिकृति लैग, बफर हिट, धीमी प्रश्नों।

6. कतारें/बसें: उपभोक्ता अंतराल, अनुरोध/मृत-पत्र, थ्रूपुट।

7. भंडारण/क्लाउड: S3/Blob त्रुटियां और विलंबता, प्रदाताओं से 429/503।

8. परिधि सीमाएँ: WAF/दर सीमाएँ, मार्ग द्वारा 4xx/5xx, CDN।

9. सिंथेटिक्स: HTTP स्क्रिप्ट जाँच (जमा/आउटपुट), TLS/प्रमाणपत्र.

10. अर्थव्यवस्था/क्षमता: प्रति सेवा लागत, उपयोग, हेडरूम।

5) व्हाइटबॉक्स и ब्लैकबॉक्स

व्हाइटबॉक्स: सेवाओं के भीतर निर्यातक/एसडीके (प्रोमेथियस, ओपनटेलीमेट्री)।

ब्लैकबॉक्स: विभिन्न क्षेत्रों से बाहरी नमूने (उपलब्धता, विलंबता, टीएलएस समाप्ति)।

संयोजन: "बाहर हस्ताक्षर करें" + "निदान अंदर।"

'blackbox _ exporter' का उदाहरण:
yaml modules:
https_2xx:
prober: http http:
method: GET preferred_ip_protocol: "ip4"

6) कुबर्नेट्स: प्रमुख संकेत

Кластер: 'apiserver _ requase _ total', 'etcd _ server _ has _ leader', etcd fsync।

Узлы: 'कंटेनर _ cpu _ cfs _ throttled _ seconds _ total', 'नोड _ प्रेशर'।

पैड: लंबित/क्रैशलोपबैकऑफ, OOMKilled, पुनरारंभ।

योजनाएं/सीमाएँ: अनुरोध बनाम सीमाएँ, PodDissionsबजट, HPA/VPA।

नेटवर्क: नेटवर्किंग पॉलिसी गिरती है, कनेक्ट्रैक थकावट।

Дашборды: "क्लस्टर हेल्थ", "वर्कलोड संतृप्ति", "टॉप इरोरिंग सेवाएं"।

7) डीबी और कतारें

PostgreSQL/MySQL: प्रतिकृति लैग, डेडलॉक, धीमी क्वेरी%, चेकपॉइंट I/O.

Redis/Memcatched: हिट अनुपात, निष्कासन, कनेक्शन को अस्वीकार कर दिया।

काफ्का/रैबिटएमक्यू: उपभोक्ता अंतराल, अनकैक्ड, अपेक्षित, ब्रोकर आईएसआर, डिस्क उपयोग।

8) RED/USE मैट्रिक्स और व्यापारिक सहसंबंध

RED: 'रेट' (RPS), 'त्रुटियां' (4xx/5xx), 'अवधि' (p95/p99)।

उपयोग (संसाधनों के लिए): उपयोग, संतृप्ति, त्रुटियाँ।

उत्पाद के साथ सहयोगी: जमा/भुगतान सफलता, धोखाधड़ी झंडे, रूपांतरण - ये कैनरी रिलीज के लिए "गार्ड" हैं।

9) अलर्टिंग संरचना

टियर -1 (पृष्ठ): एसएलओ (उपलब्धता, 5xx, विलंबता, क्लस्टर महत्वपूर्ण घटक विफलता) को प्रभावित करने वाली घटनाएं।

Tier-2 (टिकट): क्षमता गिरावट, एसएलओ को प्रभावित किए बिना त्रुटि वृद्धि।

Tier-3 (सूचना): रुझान, भविष्यवाणी क्षमता, समाप्ति प्रमाण पत्र।

वृद्धि नियम: मौन समय/डुप्लिकेट संपीड़न, ऑन-कॉल रोटेशन, फॉलो-द-सन।

Alertmanager मार्गों का उदाहरण:
yaml route:
group_by: ["service","severity"]
receiver: "pager"
routes:
- match: { severity: "critical" }
receiver: "pager"
- match: { severity: "warning" }
receiver: "tickets"

10) प्रोमेथियस नियम उदाहरण

10. 1 5xx त्रुटियाँ SLO सीमा के साथ

yaml groups:
- name: api rules:
- alert: HighErrorRate expr:
sum(rate(http_requests_total{status=~"5.."}[5m])) /
sum(rate(http_requests_total[5m])) > 0. 005 for: 10m labels: { severity: "critical", service: "api-gateway" }
annotations:
summary: "5xx > 0. 5% 10m"
runbook: "https://runbooks/api-gateway/5xx"

10. 2 बर्निंग त्रुटि-बजट (मल्टी-विंडो बर्न)

yaml
- alert: ErrorBudgetBurn expr:
(1 - (
sum(rate(http_requests_total{status!~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
)) > (1 - 0. 999) 14 for: 5m labels: { severity: "critical", slo: "99. 9" }
annotations: { summary: "Fast burn >14x for 5m" }

10. 3 सिस्टम संतृप्ति (सीपीयू थ्रॉटलिंग)

yaml
- alert: CPUThrottlingHigh expr: rate(container_cpu_cfs_throttled_seconds_total[5m]) > 0. 1 for: 10m labels: { severity: "warning" }
annotations: { summary: "CPU throttling >10%" }

11) लॉग: संग्रह, सामान्यीकरण, प्रतिधारण

मानकीकरण: JSON लॉग: 'ts', 'level', 'service', 'trace _ id', 'उपयोगकर्ता/किरायेदार'.

पाइपलाइन: एजेंट (फ्लूएंट बिट/वेक्टर) → बफर → इंडेक्स/स्टोरेज।

संशोधन: पीआईआई/रहस्य किनारे पर मास्किंग।

प्रतिधारण: तेज भंडारण वर्ग (7-14 दिन), ठंडा संग्रह (30-180 दिन)।

शब्दार्थ: त्रुटि बजट/पदावनत - अलग चैनल।

12) ट्रेल्स और ओपनटेलीमेट्री

इंस्ट्रूमेंट इनपुट पॉइंट (गेटवे), kliyent→servis कॉल, डीबी/कैश/कतारें।

त्वरित नेविगेशन के लिए विशेषताओं (Exemplars) का पता लगाने के लिए बाइंड मेट्रिक्स।

एक केंद्रीय प्रवेश द्वार के रूप में ओटेल कलेक्टर: चयनित बैकेंड को फ़िल्टरिंग, नमूना, निर्यात।

ओटेल कलेक्टर उदाहरण (टुकड़ा):
yaml receivers: { otlp: { protocols: { http: {}, grpc: {} } } }
processors: { batch: {}, tail_sampling: { policies: [ { name: errors, type: status_code, status_codes: [ERROR] } ] } }
exporters: { prometheus: {}, otlp: { endpoint: "traces. sink:4317" } }
service:
pipelines:
metrics: { receivers: [otlp], processors: [batch], exporters: [prometheus] }
traces: { receivers: [otlp], processors: [tail_sampling,batch], exporters: [otlp] }

13) सिंथेटिक्स और बाहरी जांच

HTTP व्यावसायिक परिदृश्यों (लॉगिन, जमा, निकासी, खरीद) को चलाता है।

टीएलएस/डोमेन: प्रमाणपत्र शब्द/सीएए/डीएनएस स्वास्थ्य।

क्षेत्रीयता: प्रमुख देशों/प्रदाताओं (रूटिंग/ब्लॉक सूचियों) के नमूने।

हरे आंतरिक टेलीमेट्री के साथ भी उपयोगकर्ता को उपलब्ध नहीं होने पर सिंथेटिक्स को सतर्क रहना चाहिए।

14) प्रोफाइलिंग और ईबीपीएफ

सतत प्रोफाइलिंग: गर्म कार्यों की पहचान, ताले।

eBPF: सिस्टम इवेंट्स (syscalls, TCP retransmitts), न्यूनतम ओवरहेड वाले उत्पाद पर।

प्रोफाइल बिना तनाव (टिकट), और रिलीज के बाद रीग्रेशन के लिए - रोलबैक के संकेत के रूप में।

15) डैशबोर्ड और "सत्य पैनल"

न्यूनतम सेट:

1. प्लेटफ़ॉर्म अवलोकन: SLI/SLO प्रमुख सेवाओं, त्रुटि-बजट, अलर्ट द्वारा।

2. API RED: मार्ग से RPS/ERRORS/DURATION।

3. K8s क्लस्टर: नियंत्रण-विमान, узлы, क्षमता हेडरूम।

4. DB/Cache: लैग/लॉक/स्लो क्वेरी%, हिट अनुपात।

5. कतारें: backlog/lag, fail/retry।

6. प्रति-रिलीज़: मेट्रिक्स (कैनरी विंडो) से पहले/बाद की तुलना।

7. FinOps: प्रति नेमस्पेस/सेवा लागत, निष्क्रिय/ओवरसाइज़्ड ресурсы।

16) घटनाएं, सतर्क शोर और वृद्धि

Deduplication - सेवा/कारण समूह, कैस्केड दमन

मौन/रखरखाव: रिलीज/प्रवासन को सब कुछ लाल रंग में "पेंट" नहीं करना चाहिए।

रनबुक: नैदानिक चरणों और एक रोलबैक "बटन" के साथ प्रत्येक महत्वपूर्ण अलर्ट।

पोस्टमॉर्टम: समयरेखा, उन्होंने क्या सीखा, क्या संकेत जोड़ा/साफ किया।

17) निगरानी में सुरक्षा

नियम/डेटासोर्स को पढ़ ने/संपादित करने के लिए आरबीएसी।

रहस्य: निर्यातक/एजेंट टोकन - गुप्त प्रबंधक के माध्यम से।

अलगाव: क्लाइंट/किरायेदार मैट्रिक्स - अलग स्थानों/टैब में।

अखंडता: एजेंटों/बिल्ड के हस्ताक्षर, GitOps के माध्यम से कॉन्फ़िग (विलय समीक्षा)।

18) वित्त और क्षमता (फिनोप्स)

कोटा और बजट; असामान्य वृद्धि के लिए अलर्ट।

राइट-साइज़िंग: अनुरोधों/सीमाओं का विश्लेषण, सीपीयू/रैम उपयोग, गैर-महत्वपूर्ण कार्यों के लिए स्पॉट इंस्टेंस।

"प्रति अनुरोध/किरायेदार" प्रदर्शन केपीआई के रूप में।

19) एंटी-पैटर्न

इंफ्रास्ट्रक्चर मैट्रिक्स केवल कस्टम एसएलआई के बिना।

100 + अलर्ट "सब कुछ के बारे में" - कॉल पर अंधापन।

एकमात्र स्रोत के रूप में लॉग (बिना मेट्रिक्स और ट्रेसिंग के)।

संस्करण/समीक्षा के बिना उत्परिवर्ती डैशबोर्ड।

सिंथेटिक्स की कमी: "सब कुछ हरा है", लेकिन सामने उपलब्ध नहीं है।

रिलीज के साथ कोई संबंध नहीं है: "इस समय क्या बदल गया है" का जवाब देना असंभव है।

20) कार्यान्वयन चेकलिस्ट (0-60 दिन)

0-15 दिन

3-5 कुंजी सेवाओं के लिए SLI/SLO को परिभाषित करें।

मूल निर्यातकों/एजेंटों को सक्षम करें, JSON लॉग का मानकीकरण करें।

टियर-1 अलर्ट कॉन्फ़िगर करें (उपलब्धता, 5xx, p95)।

16-30 दिन

महत्वपूर्ण परिदृश्यों के लिए सिंथेटिक्स जोड

इनपुट/महत्वपूर्ण सेवाओं पर ओटीएल सक्षम करें।

डैशबोर्ड "प्रति-रिलीज़" और त्रुटि-बजट बर्न-नियम।

31-60 दिन

उन्नत संकेतों के साथ डीबी/कतार/कैश को कवर करें।

उच्च-सीपीयू सेवाओं के लिए ईबीपीएफ/प्रोफाइलिंग को लागू करें।

नियमों/डैशबोर्ड/अलर्ट के लिए GitOps, नियमित शोर सफाई।

21) परिपक्वता मैट्रिक्स

प्रमुख सेवाओं का एसएलओ कवरेज ≥ 95%।

MTTA/MTTR (लक्ष्य: मिनट/दसियों मिनट)।

ऑटो-एक्शन या क्विक रोलबैक द्वारा टियर -1 अलर्ट का अनुपात बंद हो गया।

"उपयोगी "/" शोर "अलर्ट का अनुपात> 3: 1 है।

सभी "पैसे" रास्तों का सिंथेटिक कवरेज = 100%।

22) अनुप्रयोग: मिनी-टेम्पलेट

प्रोमेथियस - स्थिति वर्ग द्वारा उपलब्धता

yaml
- record: job:http:availability:ratio_rate5m expr: sum(rate(http_requests_total{status!~"5.."}[5m])) / sum(rate(http_requests_total[5m]))

कैनरी के लिए ग्राफाना - टिप


expr: histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket{version=~"stable    canary"}[5m])) by (le,version))

अलर्टमैनेजर - ड्यूटी और चुप्पी

yaml receivers:
- name: pager slack_configs:
- channel: "#oncall"
send_resolved: true inhibit_rules:
- source_match: { severity: "critical" }
target_match: { severity: "warning" }
equal: ["service"]

23) निष्कर्ष

निगरानी रेखांकन का एक सेट नहीं है, लेकिन SRE ऑपरेटिंग सिस्टम: SLI/SLO एक गुणवत्ता अनुबंध के रूप में, मैट्रिक्स/ट्रेल्स/लॉग्स सत्य के स्रोत के रूप में, एक नियंत्रित संकेत के रूप में, "उपयोगकर्र आवाज" के रूप में। मेजबान से एपीआई तक एक एकल लूप का निर्माण करें, इसे रिलीज़ और रोलबैक से जोड़ें - और प्लेटफ़ॉर्म अनुमानित, तेज और किफायती है।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।