GH GambleHub

अलार्म और सूचना तंत्र

1) भूमिका और लक्ष्य

सिग्नल सिस्टम "संदेश भेजने" नहीं है, बल्कि एक निर्णय लेने वाला सर्किट है: यह समय में विचलन को उजागर करता है, कार्यों की पेशकश करता है और समयबद्धता और मौन के बीच संतुलन बनाए रखता है।

उद्देश्य:
  • प्राथमिकता और स्पष्ट प्लेबुक के माध्यम से एमटीटीडी/एमटीटीआर को कम करें।
  • शोर रद्द करने के माध्यम से सतर्क थकान कम करें।
  • अधिसूचना से सीधे क्रिया दें (ack, snooze, runbook, auto-action).
  • गोपनीयता और सहमति का निरीक्षण करें (ऑप्ट-इन/ऑप्ट-आउट, लॉग स्टोरेज)।

2) घटनाओं और स्तरों का वर्गीकरण

2. 1 घटना प्रकार

मेट्रिक्स/विसंगतियाँ (एसआरई, उत्पाद, वित्त)।

व्यावसायिक नियम (सीमा, धोखाधड़ी, केवाईसी, भुगतान)।

सिस्टम (तैनाती, गिरावट, लाइसेंस)।

उपयोगकर्ता (व्यवहार ट्रिगर, आरजी/जिम्मेदार गेम)।

2. 2 गंभीरता का स्तर

महत्वपूर्ण - तत्काल प्रतिक्रिया, हानि/सुरक्षा का

केपीआई/एसएलओ की उच्च - महत्वपूर्ण गिरावट।

व्यावसायिक कार्य के दौरान आवश्यक मध्यम कार्य।

कम/जानकारी - अवलोकन/संदर्भ, पचाने में ऑटो-कन्वोल्यूशन।

2. 3 प्राथमिकता

'इम्पैक्ट × अर्जेंटीना' मैट्रिक्स → P1..P4। चैनलों और एसएलए प्रतिक्रियाओं से लिंक।

3) वास्तुकला और धागे

संकेतों के निर्माता घटनाओं के शीना सामान्यीकरण (समृद्ध, डीडअप) सहसंबंध सुधार (नीति इंजन) रूटिंग कैनाला डिलीवरी - वरीयताओं का केंद्र लॉग/एनालिटिक्स।

मुख्य घटक:
  • एनरिचर: किरायेदार, भूमिका, क्षेत्र, प्लेबुक लिंक जोड़ ता है।
  • Deduper-Group कुंजी द्वारा आवर्ती घटनाएँ।
  • सहसंयोजक: गोंद से संबंधित संकेत एक घटना में।
  • नीति इंजन: YAML/DSL नियम, शांत घंटे, वृद्धि।
  • डिलीवरी: इन-ऐप, ईमेल, पुश, एसएमएस, वेबहुक, चैट एकीकरण।

4) नियम और नीतियां (YAML उदाहरण)

yaml policies:
- id: p_sre_critical match: { domain: "infra", severity: "critical" }
route:
primary: { channel: "pager", targets: ["oncall_sre"] }
fallback: { channel: "sms", delay: "2m" }
suppress:
flapping: {window: "10m," threshold: 5} # suppressing frequent twitching duplicates: {key: ["service, ""cluster,"" error _ code"], ttl: "15m"}
escalate:
after: "10m"
to: ["sre_manager"]
auto_assign: true
- id: p_product_medium match: { domain: "product", severity: "medium", kpi: "conversion" }
route:
primary: { channel: "inapp", audience: "product_owners" }
digest:
window: "1h"
max_items: 10 quiet_hours:
tz: "Europe/Kyiv"
ranges: ["22: 00-07: 00"] # only P1 digests/pager at this time

5) डीडुप्लिकेशन, सहसंबंध, फड़फड़ाने का दमन

Dedup: समूह ID 'dedup _ key = hash (सेवा' metric 'dim); TTL ≥ फ्लैपिंग विंडो।

सहसंबंध: टोपोलॉजी ( ), समय ( N मिनट) और संदर्भ (रिलीज, घटना) द्वारा संबंधित संकेतों को मिलाएं।

फ्लैपिंग: थ्रेसहोल्ड "एन इवेंट्स प्रति एम मिनट" - एक सिग्नल "फ्लैपिंग का पता चला" हिस्टेरिसिस या दबाने के प्रस्ताव के साथ।

6) रूटिंग और आरएसीआई

जिम्मेदार: जिसे पहली सूचना/ड्रैग मिलती है।

जवाबदेह: एसएलए के बाद कौन आगे बढ़ ता है।

परामर्श: धागा/चैट चैनल में किसका उल्लेख करना है।

सूचित: पाचन/परिणाम कौन छोड़ेगा।

भूमिका और संदर्भ (किरायेदार, क्षेत्र, उत्पाद धारा) द्वारा आबंटि

7) डिलीवरी चैनल और बारीकियां

चैनलकब उपयोग करना हैविशेषताएँ/सीमाएँ
इन-ऐपपरिचालन, लेकिन गैर-महत्वपूर्ण; क्रियाएंरिच यूआई, सीटीए, संदर्भ
ईमेलपाचन, रिपोर्ट, गैर-महत्वपूर्णखोया/फ़िल्टर किया जा सकता है
पुश करेंमोबाइल ड्यूटी टीम के लिएलंबाई सीमा, शांत घंटे
एसएमएस/पेजरP1/P0 आलोचनाभुगतान, संक्षिप्त, बिना निवेश के
वेबहुकएकीकरण (जीरा, स्लैक, ऑप्स)HMAC हस्ताक्षर, पीछे हटना, पहचान
चैट (स्लैक)घटना का धागा, सहयोगपाठ कमांड (ack, असाइन)

रेट्राई: 5xx/429/टाइमआउट → बैकऑफ + जिटर; 'रेट्री-आफ्टर' सम्मान। पहचान: वेबहूक पर 'एक्स-नोटिफिकेशन-आईडी'।

8) वरीयताएँ केंद्र

ऑप्ट-इन/ऑप्ट-आउट घटना प्रकार, स्तर, चैनल द्वारा।

शांत घंटे, minin मिनट के लिए मैनुअल स्नूज़।

थ्रेशोल्ड/संवेदनशीलता (जैसे ≥ 3) विसंगति)।

भाषा/स्थान, समय/मुद्रा प्रारूप।

भूमिका बाध्यकारी: SRE/उत्पाद/वित्त के लिए प्रीसेट।

पारदर्शिता: दिखाएँ कि उपयोगकर्ता को सिग्नल क्यों मिला (नियम से लिंक)।

9) सामग्री डिजाइन: संदेश संरचना

महत्वपूर्ण संकेत के लिए पैटर्न (P1):
  • शीर्षक: संक्षिप्त, ट्रिगर के साथ: "[P1] [PSP _ TR] 3DS विफलताओं (+ 12%) में तेज वृद्धि।"
  • संदर्भ: अवधि, प्रभावित खंड/क्षेत्र, डेटा स्रोत।
  • कारण/परिकल्पना: "PSP_X 18:20 यूटीसी की रिलीज़ के साथ संबद्ध"।
  • एसएलए/समय सीमा: "10 मिनट में वृद्धि।"
  • CTA: "ओपन प्लेबुक", "सक्षम फॉलबैक, PSP_Y" "Ack (30 मिनट)"।
  • लिंक: ग्राफ, इवेंट-थ्रेड, मेट्रिक्स, रनबुक।
  • मेटाडेटा: 'ट्रेस _ आईडी', 'हादसा _ id', 'dedup _ key'।

स्वर: तथ्य, कोई नाटकीयता नहीं; संख्या और इकाइयाँ डिकोडिंग के बिना संक्षिप्त रूप से बचती हैं।

स्थानीयकरण: चर - प्लेसहोल्डर्स, अनुवाद संसाधनों में संग्रहीत हैं; संख्या/तिथियाँ - लोकेल द्वारा।

10) अधिसूचनाओं से कार्रवाई (कार्रवाई योग्य)

समय पैरामीटर के साथ Ack/Snooze।

घटना धागे में आबंटित/आमंत्रित करें।

संदर्भ स्वतः पूर्ण के साथ रनबुक-ओपन समाधान चरण।

वन-क्लिक रिमेडिएशन (जहां सुरक्षित है): मार्ग बदलें, सीमा बढ़ाएं, नौकरी को फिर से शुरू करें (पुष्टि और ऑडिट के साथ)।

स्वतः पूर्ण क्षेत्रों के साथ टिकट (Jira/GitHub) बनाएँ।

11) सिग्नल की गुणवत्ता: मैट्रिक्स और लक्ष्य

P1/P2 के लिए परिशुद्धता ≥ 80%।

याद करें (सभी घटनाओं के बीच पता चला घटनाओं का अनुपात) ≥ 70%।

शोर: प्रति उपयोगकर्ता औसत संकेत/घंटे (लक्ष्य छत)।

Ack-time p50/p95, वृद्धि दर, Snooze दर (एक शोर संकेतक के रूप में)।

MTTD/MTTA/MTTR (डोमेन और चैनल के संदर्भ में)।

चुप-लेकिन-अलर्ट (नियमों के कारण अंतराल) एक अलग डैशबोर्ड है।

12) शोर नियंत्रण: तकनीक

थ्रेसहोल्ड के लिए हिस्टेरिसिस और स्लाइडिंग विंडो।

पता लगाने से पहले एंटी-अलियासिंग (EWMA)।

एकत्रीकरण: 30 छोटे लोगों के बजाय - शीर्ष योगदानकर्ताओं के साथ एक बैच/पचाना।

संदर्भ सीमा: अधिकतम N सूचना/घंटा/चैनल/उपयोगकर्ता।

ऑटो-फीडबैक: यदि उपयोगकर्ता एक पंक्ति में 3 × के लिए स्नूज़पर क्लिक करता है - तो चैनल को सीमा बढ़ाने/बदलने का सुझाव दें।

13) सुरक्षा, गोपनीयता, अनुपालन

वेबहुक के लिए HMAC हस्ताक्षर, रहस्यों का रोटेशन, 'X-Key-Id'।

RBAC/ABAC: भूमिका/किरायेदार द्वारा संकेत दृश्यता।

पीआईआई न्यूनतम करना, लॉग में मास्क, ऑडिटिंग क्रियाएं (ack/असाइन/रनबुक)।

अधिसूचना (नियम/नीति) के लिए सहमति और कारण - नीतभार में।

प्रतिधारण/टीटीएल अधिसूचना लॉग, घटनाओं पर कानूनी पकड़।

14) योजनाएं और पेलोड

घटना (आंतरिक)

json
{
"id": "sig_01HX",
"domain": "payments",
"severity": "high",
"priority": "P2",
"title": "The 3DS failure graph has grown to 8. 2% (+3. 1 pp), "
"occurred_at": "2025-11-03T17:55:00Z",
"context": { "psp": "PSP_X", "country": "TR", "release_id": "rel_241103_1820" },
"metrics": { "baseline": 5. 1, "current": 8. 2, "delta_pp": 3. 1 },
"dedup_key": "payments    PSP_X    TR    3DS_FAILURE",
"runbook": "rbk_psp_3ds_spike",
"slo": { "ack_deadline_sec": 600 }
}

अधिसूचना (अज्ञात चैनल)

json
{
"notification_id": "ntf_91ab",
"signal_id": "sig_01HX",
"targets": ["oncall_payments"],
"channels": ["inapp","slack","webhook"],
"cta": [
{"id": "ack," "label": "Confirm (30 min)," "payload": {"ttl ":" 30m"}},
{"id": "runbook," "label": "Open playbook," "payload": {"id ": "rbk _ psp _ 3ds _ spike"}},
{"id": "fallback," "label": "Enable fallback, PSP_Y" "confirm": true}
],
"hmac": "sha256=AbCd..."
}

15) उत्पाद में यूएक्स पैटर्न

इनबॉक्स: क्रिटिकल/हाई/अन्य टैब, मात्रा बैज।

हादसा फ़ीड: सहसंबद्ध संकेत, कार्यों की समयरेखा, "क्या किया गया था।"

फ़िल्टर: भूमिका, डोमेन, क्षेत्र, समय, "केवल अनुत्तरित"।

सूची में त्वरित क्रिया (ack/snooze/assign)।

समझाएं: "आप इसे क्यों देखते हैं" (नियम, थ्रेसहोल्ड, डेटा)।

पाचन: सुबह/शाम, टीजेड द्वारा स्थानीयकृत।

16) परीक्षण योजना

इकाई: डेडअप कुंजी, हिस्टेरिसिस, फड़फड़ाना, पेलोड का क्रमांकन।

एकीकरण: मार्ग, शांत घंटे, वृद्धि, चैनलों के पीछे हटना।

E2E: विसंगति से टिकट बंद करने के लिए परिदृश्य पी 1; P2 शांत घंटों में - पचाएं।

अराजकता: लिंक लॉस (एसएमटीपी/एसएमएस), देरी, सिग्नल हिमस्खलन, घड़ी-तिरछा।

A11y/i18n: स्क्रीन-रीडर्स, कीबोर्ड एके/स्नूज़, संख्याओं/तिथियों का स्थानीयकरण।

17) गुणवत्ता के डैशबोर्ड

डोमेन द्वारा परिशुद्धता/रिकॉल करें।

Ack समय p50/p95 और समय पर पुष्टि का हिस्सा।

प्रति उपयोगकर्ता/घंटे शोर और शीर्ष शोर नियम।

वृद्धि दर और "झूठी वृद्धि"।

दबाया बनाम वितरित (कितना दबाया/पचाया जाता है)।

उपयोगकर्ता प्रतिक्रिया : /संदेश, शोर पर टिप्पणी।

18) चेकलिस्ट

डिजाइन

  • घटना वर्गीकरण और स्तर सुसंगत हैं
  • शांत घंटे/वृद्धि नीतियों का वर्णन किया गया है
  • डेडअप/सहसंबंध/फ्लैपिंग कॉन्फ़िगर किया गया
  • चैनल, रेट्रास, वेबहुक आइडेम्पोटेंसी
  • वरीयता केंद्र (ऑप्ट-इन/आउट, स्नूज़)
  • सामग्री टेम्पलेट और स्थानीयकरण
  • प्लेबुक और वन-क्लिक एक्शन (ऑडिट)
  • गुणवत्ता मैट्रिक्स और डैशबोर्ड

ऑपरेशन

  • थ्रेशोल्ड ऑप्टिमाइजेशन त्रैमासिक
  • A/B नियम (दहलीज, खिड़कियां, पाचन)
  • नियमित "शीर्ष शोर" और CAPA समीक्षा
  • चैनल गुप्त रोटेशन (HMAC, SMTP, SMS)
  • अनुसूचित खेल दिवस परीक्षा

19) कार्यान्वयन योजना (3 पुनरावृत्ति)

पुनरावृत्ति 1 - बेसलाइन (2-3 सप्ताह)

टैक्सोनॉमी, गंभीरता/प्राथमिकता, वरीयता केंद्र (इन-ऐप + ईमेल)।

डेडअप, सरल कुंजी/समय सहसंबंध, शांत घंटे।

संदेश टेम्पलेट, प्लेबुक, ack/snooze/असाइन।

पुनरावृत्ति 2 - विश्वसनीयता और शोर में कमी (3-4 सप्ताह)

फड़फड़ाना/हिस्टेरिसिस, पाचन, चैट एकीकरण, और वेबहूक (HMAC, रिट्रेज़)।

एसएलए के अनुसार वृद्धि, गुणवत्ता डैशबोर्ड (सटीक/रिकॉल, शोर)।

वन-क्लिक रिमेडिएशन (पुष्टि और ऑडिट के साथ)।

पुनरावृत्ति 3 - अनुकूलन और स्केल (सतत)

टोपोलॉजी/रिलीज द्वारा सहसंबंध, थ्रेसहोल्ड के ऑटो-सुझाव।

ए/बी नियम, पूर्वानुमान "जब सीमा काम करेगी।"

शोर की समीक्षा और नियमित खेल के दिन।

20) मिनी-एफएक्यू

सतर्क थकान से कैसे निपटें?

डेडअप, सहसंबंध, हिस्टेरिसिस, पाचन और वरीयता केंद्र + नियमित शोर और ए/बी दहलीज समीक्षा।

क्या विसंगतियों के लिए एमएल की आवश्यकता है?

उपयोगी, लेकिन नियतात्मक नियमों और व्याख्यात्मक थ्रेसहोल्ड के साथ शुरू क एमएल एक ऐड-ऑन की तरह है, हमेशा समझाने के साथ।

उपयोगकर्ताओं को "अतिरिक्त" ईमेल क्यों मिलते हैं?

नियम मैचों की जाँच करें, शांत घंटे, "क्यों वितरित" ऑडिट, चैनल/घंटे की सीमा निर्धारित करें और पचाएं।

कुल

एक मजबूत सिग्नल सिस्टम स्मार्ट फ़िल्टरिंग और सही प्राथमिकता + एक-क्लिक क्रियाएं हैं। वर्गीकरण और नीतियों को औपचारिक रूप दें, डीडअप/सहसंबंध/हिस्टेरिसिस को लागू करें, उपयोगकर्ताओं को नियंत्रण (वरीयताएं, स्नूज़) दें, विश्वसनीय वितरण और पारदर्शिता प्रदान करें "मुझे यह क्यों मिला। "फिर संकेत एक नियंत्रण उपकरण बन जाएगा, शोर स्रोत नहीं।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।