अलार्म और सूचना तंत्र
1) भूमिका और लक्ष्य
सिग्नल सिस्टम "संदेश भेजने" नहीं है, बल्कि एक निर्णय लेने वाला सर्किट है: यह समय में विचलन को उजागर करता है, कार्यों की पेशकश करता है और समयबद्धता और मौन के बीच संतुलन बनाए रखता है।
उद्देश्य:- प्राथमिकता और स्पष्ट प्लेबुक के माध्यम से एमटीटीडी/एमटीटीआर को कम करें।
- शोर रद्द करने के माध्यम से सतर्क थकान कम करें।
- अधिसूचना से सीधे क्रिया दें (ack, snooze, runbook, auto-action).
- गोपनीयता और सहमति का निरीक्षण करें (ऑप्ट-इन/ऑप्ट-आउट, लॉग स्टोरेज)।
2) घटनाओं और स्तरों का वर्गीकरण
2. 1 घटना प्रकार
मेट्रिक्स/विसंगतियाँ (एसआरई, उत्पाद, वित्त)।
व्यावसायिक नियम (सीमा, धोखाधड़ी, केवाईसी, भुगतान)।
सिस्टम (तैनाती, गिरावट, लाइसेंस)।
उपयोगकर्ता (व्यवहार ट्रिगर, आरजी/जिम्मेदार गेम)।
2. 2 गंभीरता का स्तर
महत्वपूर्ण - तत्काल प्रतिक्रिया, हानि/सुरक्षा का
केपीआई/एसएलओ की उच्च - महत्वपूर्ण गिरावट।
व्यावसायिक कार्य के दौरान आवश्यक मध्यम कार्य।
कम/जानकारी - अवलोकन/संदर्भ, पचाने में ऑटो-कन्वोल्यूशन।
2. 3 प्राथमिकता
'इम्पैक्ट × अर्जेंटीना' मैट्रिक्स → P1..P4। चैनलों और एसएलए प्रतिक्रियाओं से लिंक।
3) वास्तुकला और धागे
संकेतों के निर्माता घटनाओं के शीना सामान्यीकरण (समृद्ध, डीडअप) सहसंबंध सुधार (नीति इंजन) रूटिंग कैनाला डिलीवरी - वरीयताओं का केंद्र लॉग/एनालिटिक्स।
मुख्य घटक:- एनरिचर: किरायेदार, भूमिका, क्षेत्र, प्लेबुक लिंक जोड़ ता है।
- Deduper-Group कुंजी द्वारा आवर्ती घटनाएँ।
- सहसंयोजक: गोंद से संबंधित संकेत एक घटना में।
- नीति इंजन: YAML/DSL नियम, शांत घंटे, वृद्धि।
- डिलीवरी: इन-ऐप, ईमेल, पुश, एसएमएस, वेबहुक, चैट एकीकरण।
4) नियम और नीतियां (YAML उदाहरण)
yaml policies:
- id: p_sre_critical match: { domain: "infra", severity: "critical" }
route:
primary: { channel: "pager", targets: ["oncall_sre"] }
fallback: { channel: "sms", delay: "2m" }
suppress:
flapping: {window: "10m," threshold: 5} # suppressing frequent twitching duplicates: {key: ["service, ""cluster,"" error _ code"], ttl: "15m"}
escalate:
after: "10m"
to: ["sre_manager"]
auto_assign: true
- id: p_product_medium match: { domain: "product", severity: "medium", kpi: "conversion" }
route:
primary: { channel: "inapp", audience: "product_owners" }
digest:
window: "1h"
max_items: 10 quiet_hours:
tz: "Europe/Kyiv"
ranges: ["22: 00-07: 00"] # only P1 digests/pager at this time
5) डीडुप्लिकेशन, सहसंबंध, फड़फड़ाने का दमन
Dedup: समूह ID 'dedup _ key = hash (सेवा' metric 'dim); TTL ≥ फ्लैपिंग विंडो।
सहसंबंध: टोपोलॉजी ( ), समय ( N मिनट) और संदर्भ (रिलीज, घटना) द्वारा संबंधित संकेतों को मिलाएं।
फ्लैपिंग: थ्रेसहोल्ड "एन इवेंट्स प्रति एम मिनट" - एक सिग्नल "फ्लैपिंग का पता चला" हिस्टेरिसिस या दबाने के प्रस्ताव के साथ।
6) रूटिंग और आरएसीआई
जिम्मेदार: जिसे पहली सूचना/ड्रैग मिलती है।
जवाबदेह: एसएलए के बाद कौन आगे बढ़ ता है।
परामर्श: धागा/चैट चैनल में किसका उल्लेख करना है।
सूचित: पाचन/परिणाम कौन छोड़ेगा।
भूमिका और संदर्भ (किरायेदार, क्षेत्र, उत्पाद धारा) द्वारा आबंटि
7) डिलीवरी चैनल और बारीकियां
रेट्राई: 5xx/429/टाइमआउट → बैकऑफ + जिटर; 'रेट्री-आफ्टर' सम्मान। पहचान: वेबहूक पर 'एक्स-नोटिफिकेशन-आईडी'।
8) वरीयताएँ केंद्र
ऑप्ट-इन/ऑप्ट-आउट घटना प्रकार, स्तर, चैनल द्वारा।
शांत घंटे, minin मिनट के लिए मैनुअल स्नूज़।
थ्रेशोल्ड/संवेदनशीलता (जैसे ≥ 3) विसंगति)।
भाषा/स्थान, समय/मुद्रा प्रारूप।
भूमिका बाध्यकारी: SRE/उत्पाद/वित्त के लिए प्रीसेट।
पारदर्शिता: दिखाएँ कि उपयोगकर्ता को सिग्नल क्यों मिला (नियम से लिंक)।
9) सामग्री डिजाइन: संदेश संरचना
महत्वपूर्ण संकेत के लिए पैटर्न (P1):- शीर्षक: संक्षिप्त, ट्रिगर के साथ: "[P1] [PSP _ TR] 3DS विफलताओं (+ 12%) में तेज वृद्धि।"
- संदर्भ: अवधि, प्रभावित खंड/क्षेत्र, डेटा स्रोत।
- कारण/परिकल्पना: "PSP_X 18:20 यूटीसी की रिलीज़ के साथ संबद्ध"।
- एसएलए/समय सीमा: "10 मिनट में वृद्धि।"
- CTA: "ओपन प्लेबुक", "सक्षम फॉलबैक, PSP_Y" "Ack (30 मिनट)"।
- लिंक: ग्राफ, इवेंट-थ्रेड, मेट्रिक्स, रनबुक।
- मेटाडेटा: 'ट्रेस _ आईडी', 'हादसा _ id', 'dedup _ key'।
स्वर: तथ्य, कोई नाटकीयता नहीं; संख्या और इकाइयाँ डिकोडिंग के बिना संक्षिप्त रूप से बचती हैं।
स्थानीयकरण: चर - प्लेसहोल्डर्स, अनुवाद संसाधनों में संग्रहीत हैं; संख्या/तिथियाँ - लोकेल द्वारा।
10) अधिसूचनाओं से कार्रवाई (कार्रवाई योग्य)
समय पैरामीटर के साथ Ack/Snooze।
घटना धागे में आबंटित/आमंत्रित करें।
संदर्भ स्वतः पूर्ण के साथ रनबुक-ओपन समाधान चरण।
वन-क्लिक रिमेडिएशन (जहां सुरक्षित है): मार्ग बदलें, सीमा बढ़ाएं, नौकरी को फिर से शुरू करें (पुष्टि और ऑडिट के साथ)।
स्वतः पूर्ण क्षेत्रों के साथ टिकट (Jira/GitHub) बनाएँ।
11) सिग्नल की गुणवत्ता: मैट्रिक्स और लक्ष्य
P1/P2 के लिए परिशुद्धता ≥ 80%।
याद करें (सभी घटनाओं के बीच पता चला घटनाओं का अनुपात) ≥ 70%।
शोर: प्रति उपयोगकर्ता औसत संकेत/घंटे (लक्ष्य छत)।
Ack-time p50/p95, वृद्धि दर, Snooze दर (एक शोर संकेतक के रूप में)।
MTTD/MTTA/MTTR (डोमेन और चैनल के संदर्भ में)।
चुप-लेकिन-अलर्ट (नियमों के कारण अंतराल) एक अलग डैशबोर्ड है।
12) शोर नियंत्रण: तकनीक
थ्रेसहोल्ड के लिए हिस्टेरिसिस और स्लाइडिंग विंडो।
पता लगाने से पहले एंटी-अलियासिंग (EWMA)।
एकत्रीकरण: 30 छोटे लोगों के बजाय - शीर्ष योगदानकर्ताओं के साथ एक बैच/पचाना।
संदर्भ सीमा: अधिकतम N सूचना/घंटा/चैनल/उपयोगकर्ता।
ऑटो-फीडबैक: यदि उपयोगकर्ता एक पंक्ति में 3 × के लिए स्नूज़पर क्लिक करता है - तो चैनल को सीमा बढ़ाने/बदलने का सुझाव दें।
13) सुरक्षा, गोपनीयता, अनुपालन
वेबहुक के लिए HMAC हस्ताक्षर, रहस्यों का रोटेशन, 'X-Key-Id'।
RBAC/ABAC: भूमिका/किरायेदार द्वारा संकेत दृश्यता।
पीआईआई न्यूनतम करना, लॉग में मास्क, ऑडिटिंग क्रियाएं (ack/असाइन/रनबुक)।
अधिसूचना (नियम/नीति) के लिए सहमति और कारण - नीतभार में।
प्रतिधारण/टीटीएल अधिसूचना लॉग, घटनाओं पर कानूनी पकड़।
14) योजनाएं और पेलोड
घटना (आंतरिक)
json
{
"id": "sig_01HX",
"domain": "payments",
"severity": "high",
"priority": "P2",
"title": "The 3DS failure graph has grown to 8. 2% (+3. 1 pp), "
"occurred_at": "2025-11-03T17:55:00Z",
"context": { "psp": "PSP_X", "country": "TR", "release_id": "rel_241103_1820" },
"metrics": { "baseline": 5. 1, "current": 8. 2, "delta_pp": 3. 1 },
"dedup_key": "payments PSP_X TR 3DS_FAILURE",
"runbook": "rbk_psp_3ds_spike",
"slo": { "ack_deadline_sec": 600 }
}
अधिसूचना (अज्ञात चैनल)
json
{
"notification_id": "ntf_91ab",
"signal_id": "sig_01HX",
"targets": ["oncall_payments"],
"channels": ["inapp","slack","webhook"],
"cta": [
{"id": "ack," "label": "Confirm (30 min)," "payload": {"ttl ":" 30m"}},
{"id": "runbook," "label": "Open playbook," "payload": {"id ": "rbk _ psp _ 3ds _ spike"}},
{"id": "fallback," "label": "Enable fallback, PSP_Y" "confirm": true}
],
"hmac": "sha256=AbCd..."
}
15) उत्पाद में यूएक्स पैटर्न
इनबॉक्स: क्रिटिकल/हाई/अन्य टैब, मात्रा बैज।
हादसा फ़ीड: सहसंबद्ध संकेत, कार्यों की समयरेखा, "क्या किया गया था।"
फ़िल्टर: भूमिका, डोमेन, क्षेत्र, समय, "केवल अनुत्तरित"।
सूची में त्वरित क्रिया (ack/snooze/assign)।
समझाएं: "आप इसे क्यों देखते हैं" (नियम, थ्रेसहोल्ड, डेटा)।
पाचन: सुबह/शाम, टीजेड द्वारा स्थानीयकृत।
16) परीक्षण योजना
इकाई: डेडअप कुंजी, हिस्टेरिसिस, फड़फड़ाना, पेलोड का क्रमांकन।
एकीकरण: मार्ग, शांत घंटे, वृद्धि, चैनलों के पीछे हटना।
E2E: विसंगति से टिकट बंद करने के लिए परिदृश्य पी 1; P2 शांत घंटों में - पचाएं।
अराजकता: लिंक लॉस (एसएमटीपी/एसएमएस), देरी, सिग्नल हिमस्खलन, घड़ी-तिरछा।
A11y/i18n: स्क्रीन-रीडर्स, कीबोर्ड एके/स्नूज़, संख्याओं/तिथियों का स्थानीयकरण।
17) गुणवत्ता के डैशबोर्ड
डोमेन द्वारा परिशुद्धता/रिकॉल करें।
Ack समय p50/p95 और समय पर पुष्टि का हिस्सा।
प्रति उपयोगकर्ता/घंटे शोर और शीर्ष शोर नियम।
वृद्धि दर और "झूठी वृद्धि"।
दबाया बनाम वितरित (कितना दबाया/पचाया जाता है)।
उपयोगकर्ता प्रतिक्रिया : /संदेश, शोर पर टिप्पणी।
18) चेकलिस्ट
डिजाइन
- घटना वर्गीकरण और स्तर सुसंगत हैं
- शांत घंटे/वृद्धि नीतियों का वर्णन किया गया है
- डेडअप/सहसंबंध/फ्लैपिंग कॉन्फ़िगर किया गया
- चैनल, रेट्रास, वेबहुक आइडेम्पोटेंसी
- वरीयता केंद्र (ऑप्ट-इन/आउट, स्नूज़)
- सामग्री टेम्पलेट और स्थानीयकरण
- प्लेबुक और वन-क्लिक एक्शन (ऑडिट)
- गुणवत्ता मैट्रिक्स और डैशबोर्ड
ऑपरेशन
- थ्रेशोल्ड ऑप्टिमाइजेशन त्रैमासिक
- A/B नियम (दहलीज, खिड़कियां, पाचन)
- नियमित "शीर्ष शोर" और CAPA समीक्षा
- चैनल गुप्त रोटेशन (HMAC, SMTP, SMS)
- अनुसूचित खेल दिवस परीक्षा
19) कार्यान्वयन योजना (3 पुनरावृत्ति)
पुनरावृत्ति 1 - बेसलाइन (2-3 सप्ताह)
टैक्सोनॉमी, गंभीरता/प्राथमिकता, वरीयता केंद्र (इन-ऐप + ईमेल)।
डेडअप, सरल कुंजी/समय सहसंबंध, शांत घंटे।
संदेश टेम्पलेट, प्लेबुक, ack/snooze/असाइन।
पुनरावृत्ति 2 - विश्वसनीयता और शोर में कमी (3-4 सप्ताह)
फड़फड़ाना/हिस्टेरिसिस, पाचन, चैट एकीकरण, और वेबहूक (HMAC, रिट्रेज़)।
एसएलए के अनुसार वृद्धि, गुणवत्ता डैशबोर्ड (सटीक/रिकॉल, शोर)।
वन-क्लिक रिमेडिएशन (पुष्टि और ऑडिट के साथ)।
पुनरावृत्ति 3 - अनुकूलन और स्केल (सतत)
टोपोलॉजी/रिलीज द्वारा सहसंबंध, थ्रेसहोल्ड के ऑटो-सुझाव।
ए/बी नियम, पूर्वानुमान "जब सीमा काम करेगी।"
शोर की समीक्षा और नियमित खेल के दिन।
20) मिनी-एफएक्यू
सतर्क थकान से कैसे निपटें?
डेडअप, सहसंबंध, हिस्टेरिसिस, पाचन और वरीयता केंद्र + नियमित शोर और ए/बी दहलीज समीक्षा।
क्या विसंगतियों के लिए एमएल की आवश्यकता है?
उपयोगी, लेकिन नियतात्मक नियमों और व्याख्यात्मक थ्रेसहोल्ड के साथ शुरू क एमएल एक ऐड-ऑन की तरह है, हमेशा समझाने के साथ।
उपयोगकर्ताओं को "अतिरिक्त" ईमेल क्यों मिलते हैं?
नियम मैचों की जाँच करें, शांत घंटे, "क्यों वितरित" ऑडिट, चैनल/घंटे की सीमा निर्धारित करें और पचाएं।
कुल
एक मजबूत सिग्नल सिस्टम स्मार्ट फ़िल्टरिंग और सही प्राथमिकता + एक-क्लिक क्रियाएं हैं। वर्गीकरण और नीतियों को औपचारिक रूप दें, डीडअप/सहसंबंध/हिस्टेरिसिस को लागू करें, उपयोगकर्ताओं को नियंत्रण (वरीयताएं, स्नूज़) दें, विश्वसनीय वितरण और पारदर्शिता प्रदान करें "मुझे यह क्यों मिला। "फिर संकेत एक नियंत्रण उपकरण बन जाएगा, शोर स्रोत नहीं।