GH GambleHub

अलर्ट और सूचनाएं: PagerDuty, Opsgenie

अलर्ट और सूचनाएं: PagerDuty, Opsgenie

1) अलर्ट का एक अलग मंच क्यों

लक्ष्य सही व्यक्ति/टीम को एक तत्काल और प्रासंगिक संकेत देना और घटना प्रक्रिया शुरू करना है: मान्यता (ack), वृद्धि, संचार, पोस्टमॉर्टम। PagerDuty और Opsgenie देते हैं:
  • सेवाओं/टैग/वातावरण द्वारा रूटिंग।
  • वृद्धि और शेड्यूल (ड्यूटी पर, फॉलो-द-सन)।
  • इवेंट डिडुप्लिकेशन/सहसंबंध।
  • शांत खिड़कियां (रखरखाव/फ्रीज) और संगीत नियम।
  • निगरानी, सीआई/सीडी और चैटऑप्स के साथ एकीकरण।

समर्थन: SLO-थ्रेशोल्ड → अलर्ट → person/मशीन → runbook → रोलबैक/फिक्स → पोस्टमॉर्टम।

2) सिग्नल मॉडल और गंभीरता

अनुशंसित स्केल:
  • महत्वपूर्ण (पृष्ठ) - एसएलओ उल्लंघन/धन पथ त्रुटि (जमा/निकासी), उपलब्धता में गिरावट, बर्न-दर।
  • उच्च (पृष्ठ/टिकट) - स्पष्ट एसएलओ टूटने के बिना महत्वपूर्ण गिरावट।
  • मध्यम (टिकट) - क्षमता, पीठ का क्षरण, रिट्रे।
  • निम्न - रुझान, चेतावनियाँ

नियम: SLO द्वारा पृष्ठ या स्पष्ट व्यवसाय केवल ट्रिगर।

3) रूटिंग आर्किटेक्चर

1. स्रोत (Prometheus/Alertmanager, Grafana, क्लाउड मॉनिटरिंग, खुद के वेबहूक)।

2. Шлюз (PagerDuty/Opsgenie सेवा/एकीकरण)।

3. नीतियां: टैग द्वारा मार्ग ('सेवा', 'एनवी', 'क्षेत्र'), गंभीरता, पेलोड।

4. वृद्धि: शुल्क स्तर (L1→L2→menedzher) का अनुक्रम।

5. संचार: चैटोप्स चैनल, स्थिति पृष्ठ, मेलिंग।

कुंजी टैग का उदाहरण (मानकीकरण)

'सर्विस', 'एनवी', 'क्षेत्र', 'संस्करण', 'रनबुक', 'रिलीज _ आईडी', 'रूट', 'किरायेदार' (यदि बी 2 बी/मल्टी-किरायेदार)।

4) ऑन-कॉल और एस्केलेशन शेड्यूल

शेड्यूल: प्राथमिक/माध्यमिक, роли (एसआरई, डीबीआरई, सेक)।

घूर्णन: दिन/रात, अनुवर्ती सूर्य, सप्ताहांत।

ओवरराइड: छुट्टी/बीमारी।

वृद्धि: ack-timeout 5-10 मिनट → अगली परत। काम के घंटे - प्रोफाइल विभाग के लिए; बाहर - ऑन-कॉल प्लेटफॉर्म।

टिप: रात में कम वृद्धि के कदम रखें (कम थकान), और दिन के दौरान लंबे समय तक (संदर्भ है)।

5) अलर्टमैनेजर के साथ एकीकरण (मूल पैटर्न)

yaml receivers:
- name: pagerduty pagerduty_configs:
- routing_key: ${PAGERDUTY_ROUTING_KEY}
severity: '{{ if eq. Labels. severity "critical" }}critical{{ else }}error{{ end }}'
class: '{{.Labels. service }}'
component: '{{.Labels. env }}'
group: '{{.Labels. region }}'
description: '{{.Annotations. summary }}'
details:
service: '{{.Labels. service }}'
env: '{{.Labels. env }}'
runbook: '{{.Annotations. runbook }}'
release: '{{.Annotations. release }}'
route:
receiver: pagerduty group_by: ["service","env","region"]
group_wait: 30s group_interval: 5m repeat_interval: 2h

ऑप्सगेनी (वेबहुक)

yaml receivers:
- name: opsgenie opsgenie_configs:
- api_key: ${OPSGENIE_API_KEY}
responders:
- name: "SRE Primary"
type: team priority: '{{ if eq. Labels. severity "critical" }}P1{{ else }}P3{{ end }}'
details:
trace: '{{.Labels. trace_id }}'
runbook: '{{.Annotations. runbook }}'

6) शोर, मृत्यु और सहसंबंध

डेडअप कुंजी: एक स्थिर फिंगरप्रिंट का उपयोग करें (उदाहरण के लिए, सेवा + मार्ग + कोड)।

समूहीकरण: सेवा/पर्यावरण द्वारा 'समूह _ बाय' ताकि 5xx कैस्केड दर्जनों पृष्ठों को स्पॉन न करे।

Mutes/शांत खिड़कियां: माइग्रेशन/रिलीज/लोड परीक्षण के दौरान।

एक कारण के लिए दमन: यदि 'एपी-गेटवे @ prod' के लिए पहले से ही एक पी 1 घटना है, तो बच्चे को दबाएं।

एंटी-पैटर्न: SLO पर कोई पुष्टि प्रभाव के साथ CPU/मेमोरी द्वारा पृष्ठ।

7) रिलीज और ऑटो-एक्शन के साथ कनेक्शन

कैनरी डिप्रेशन के साथ, PagerDuty/Opsgenie को CI/CD → Pause/rolback (Argo Rolout/Helm) में SLO गेट → वेबहुक से अलर्ट प्राप्त होता है।

अलर्ट में शामिल हैं: 'release _ id', 'छवि। टैग ', पाइपलाइन और रोलबैक रनबुक का संदर्भ।

एनोटेशन में रनबुक लिंक का उदाहरण


runbook: https://runbooks. company/rollback/api-gateway#canary

8) चाटोप्स एंड कम्युनिकेशंस

स्लैक/टीमों में एक घटना चैनल बनाना, एक टिकट से जोड़ ना।

Slash- команды: 'ack', 'असाइन @ user', 'स्थिति सेट', 'पोस्टमॉर्टम स्टार्ट'।

स्थिति पृष्ठ - P1/P2 पर स्वतः अद्यतन करता है।

9) हादसा जीवनचक्र (न्यूनतम)

1. ट्रिगर (SLO/सेंसर से अलर्ट)।

2. पृष्ठ (प्राथमिक ऑन-कॉल)।

3. Ack (पुष्टि, TTA)।

4. संचार (चैनल/स्थिति)।

5. शमन (रोलबैक/फीचर-फ्लैग/आइसोलेशन)।

6. संकल्प (टीटीआर)।

7. पोस्टमॉर्टम (समयरेखा, कारण, क्रिया, पाठ, कार्य स्वामी)।

रोल-किट: आईसी (इवेंट कमांडर), ऑप्स लीड, कॉम्स, स्क्रिप्ट।

10) पेलोड फ़ील्ड (सामान्य)

json
{
"service": "payments-api",
"env": "prod",
"region": "eu-central-1",
"severity": "critical",
"event_class": "slo_burn",
"summary": "Withdraw 5xx > 0. 5% for 10m",
"runbook": "https://runbooks/payments/withdraw-5xx",
"release_id": "rel-2025-11-03-14-20",
"image": "ghcr. io/org/payments:1. 14. 2",
"trace_id": "8a4f0c2e9b1f42d7",
"annotations": { "canary": "25%" }
}

11) सिग्नल स्रोतों का एकीकरण

Prometheus/Alertmanager SLO/RED का मुख्य स्रोत है।

डैशबोर्ड/बिजनेस मैट्रिक्स के लिए ग्राफाना अलर्टिंग आसान है।

OpenTelemetry/SpanMetrics - मार्ग द्वारा विलंबता/त्रुटि।

K8s घटनाएं - क्लस्टर विफलताएं (नियंत्रण-विमान, पीडीबी उल्लंघन)।

डीबी/कतार - लैग/लॉक/प्रतिकृति।

एप्लिकेशन वेबहूक - डोमेन सिग्नल (पीएसपी त्रुटि, धोखाधड़ी वृद्धि)।

12) नीतियां और अनुपालन

आरबीएसी नीतियों, अनुसूचियों, म्यूटास बनाने/संशोधित करने के लिए।

लेखा परीक्षा: जिन्होंने मान्यता प्राप्त/नियुक्त/स्थिति, टाइमस्टैम्

पेलोड में पीआईआई कम से कम (उपयोगकर्ता के ईमेल/फोन के बजाय टिकट आईडी)।

डीआर-प्लान: जब PagerDuty/Opsgenie अनुपलब्ध (फॉलबैक चैनल) है तो हम क्या करते हैं।

13) केस स्टडीज (PagerDuty बनाम Opsgenie)

अवसरPagerDutyOpsgenie
वृद्धि/अनुसूचीपरिपक्व, लचीलापरिपक्व, लचीला
हादसा भूमिका/टेम्पलेट्समजबूत हादसा वर्कफ़्लोहादसा टेम्पलेट/हितधारक
स्वतः चैनल/commsअच्छे एकीकरणडीप स्लैक/एमएस टीमें
मूल्य निर्धारण/लाइसेंसअक्सर अधिक महंगा, कई ऐड-ऑनआमतौर पर शुरुआत में सस्ता
टैग रूटिंगमजबूत (सेवा निर्देशिका)मजबूत (रूटिंग नियम)
दोनों प्लेटफॉर्म समान परिदृश्यों का 95% कवर करते हैं; लागत, UX, और अपने स्टैक एकीकरण द्वारा चुनें।

14) शांत खिड़कियां और ठंढ

फ्रीज: नियोजित रिलीज खिड़कियों में पेजिंग पर प्रतिबंध, केवल पी 1 को छोड़ कर।

टैग संस्मरण: 'env = चरण', 'क्षेत्र = डॉ', 'सेवा = बैच'।

अस्थायी म्यूट: जब माइग्रेटिंग डेटाबेस/लोड परीक्षण - एक स्पष्ट मालिक के साथ।

15) प्रदर्शन मेट्रिक्स (अलर्ट के लिए SRE/DORA)

MTTA/MTTR (टीमों/सेवाओं/पारियों द्वारा टूट गया)।

रनबुक के साथ अलर्ट का% (लक्ष्य ≥ 95%)।

SLO द्वारा पृष्ठ-अलर्ट का हिस्सा (लक्ष्य ≥ 90%)।

उपयोगी/शोर का अनुपात (लक्ष्य ≥ 3: 1)।

ऑटो-एक्शन का% (वेबहुक के माध्यम से ठहराव/रोलबैक) - बढ़ें।

14/30 दिनों में बर्न-डाउन पोस्टमॉर्टम एक्शन आइटम।

16) एंटी-पैटर्न

उपयोगकर्ता को प्रभावित किए बिना हार्डवेयर (सीपीयू, डिस्क) द्वारा पृष्ठ।

अलर्ट के 'समूह _ बाय' → "तूफान" की अनुपस्थिति।

कोई शांत खिड़कियां नहीं हैं - रिलीज़ सब कुछ लाल रंग।

'सेवा/env/runbook' के बिना पेलोड - रूट नहीं किया जा सकता/उस पर काम नहीं किया जा सकता है।

कोई एक गंभीरता पैमाना और नियम नहीं है (प्रत्येक स्रोत अलग है)।

"अनन्त" चेतावनी जो कोई भी मरम्मत (सतर्क ऋण) नहीं करता है।

17) कार्यान्वयन चेकलिस्ट (0-45 दिन)

0-10 दिन

गंभीरता पैमाने को संरेखित करें और टैग/एनोटेशन को मानकीकृत करें।

PagerDuty/Opsgenie में सेवाएं बनाएं, अनुसूचियों और बुनियादी वृद्धि को कॉन्फ़िगर करें।

Bind Alertmanager/Grafana, 'group _ by' और deadup सक्षम करें।

11-25 दिन

एसएलओ अलर्ट भरें (मल्टी विंडो बर्न), लिंक रनबुक जोड़ें.

चैटोप्स कॉन्फ़िगर करें: ऑटो चैनल, ack/असाइन कमांड।

रिलीज/माइग्रेशन पर शांत विंडो सक्षम करें।

26-45 दिन

कैनरी (वेबहूक) के लिए ऑटो-पॉज ़/रोलबैक को एकीकृत करें।

MTTA/MTTR रिपोर्ट और सतर्क स्वच्छता (शोर सफाई) दर्ज करें।

पोस्टमॉर्टम को मानकीकृत करें और क्रिया वस्तुओं पर नियंत्रण क

18) तैयार स्निपेट्स

Grafana अलर्टिंग → PagerDuty (JSON बॉडी मैपिंग)

json
{
"routing_key": "${PAGERDUTY_ROUTING_KEY}",
"event_action": "trigger",
"payload": {
"summary": "{{.RuleName }}: {{ index. Labels \"service\" }}",
"severity": "{{ if eq (index. Labels \"severity\") \"critical\" }}critical{{ else }}error{{ end }}",
"source": "grafana",
"component": "{{ index. Labels \"env\" }}",
"group": "{{ index. Labels \"region\" }}"
},
"links": [
{ "href": "{{.DashboardURL }}", "text": "Dashboard" },
{ "href": "{{ index. Labels \"runbook\" }}", "text": "Runbook" }
]
}

अलर्ट से वेबहुक → आर्गो रोलआउट्स ठहराव

bash curl -X POST "$ARGO_API/rollouts/pause" \
-H "Authorization: Bearer $TOKEN" \
-d '{"name":"api-gateway","namespace":"prod"}'

ऑप्सगेनी - रूटिंग नियम (छद्म)

yaml if:
tags: ["service:payments","env:prod"]
severity: ["P1","P2"]
then:
route_to: "SRE-Payments"
notify: ["Primary OnCall","Secondary"]

19) निष्कर्ष

अलर्ट का एक मजबूत समोच्च एक प्रक्रिया + अनुशासन है: एसएलओ-उन्मुख स्तरीकरण, सक्षम मार्ग और वृद्धि, समान टैग और पेलोड, शांत खिड़कियां, चैटोप्स और स्वचालित क्रियाएं (ठहराव/रोलबैक)। बजट और UX पर PagerDuty या Opsgenie चुनें, लेकिन शोर, कर्तव्य और जिम्मेदारी के समान नियमों से चिपके रहें - फिर पृष्ठ दुर्लभ, सटीक और उपयोगी होगा, और घटनाएं छोटी और प्रबंधनीय होंगी।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।