संचालन में भूमिकाएँ और जिम्मेदारियाँ
1) भूमिकाओं को औपचारिक क्यों बनाएं
स्पष्ट भूमिका आवंटन MTTA/MTTR को कम करता है, ग्रे क्षेत्रों को समाप्त करता है, रिलीज को गति देता है, और SLO/अनुपालन अनुपालन प्रजनन योग्य बनाता है। भूमिकाएँ = जिम्मेदारी + प्राधिकरण + इंटरफेस (जिसे हम लिखते हैं, जिसे हम आगे बढ़ाते हैं, क्या निर्णय अधिकृत हैं)।
2) बेसिक आरएसीआई मॉडल
आर (जिम्मेदार) - काम करता है।
ए (जवाबदेह) - अंतिम जिम्मेदारी वहन करता है और निर्णय लेता है।
सी (परामर्श) - विशेषज्ञ, पहले/दौरान परामर्श किया गया।
मैं (सूचित) - एसएलए द्वारा सूचित।
शीर्ष-स्तरीय उदाहरण
3) भूमिका सूची (विवरण और जिम्मेदारियां)
3. 1 हादसा कमांडर (आईसी)
उद्देश्य: SEV-1/0 घटना की प्रतिक्रिया का नेतृत्व करता है।
प्राधिकरण: एसईवी घोषित करें, फ्रीज रिलीज करें, ट्रैफिक स्विच करें, एस्केलेट करें।
मुख्य कार्य: समयरेखा, निर्णय लेना, फोकस प्रतिधारण, कार्य आवंटन, गो/नो-गो।
कलाकृतियाँ: घटना कार्ड, एसएलए अपडेट, अंतिम एएआर।
3. 2 P1/P2 ऑन-कॉल (प्राथमिक/माध्यमिक)
उद्देश्य: प्रारंभिक प्रतिक्रिया और तकनी
P1: ट्राइएज, प्लेबुक चलाना, आईसी के साथ संचार।
P2: तूफानों में बैकअप, जटिल परिवर्तन, संदर्भ प्रतिधारण - सबस्ट्रीम लेता है।
3. 3 एसआरई/प्लेटफ़ॉर्म इंजीनियर
उद्देश्य: प्लेटफ़ॉर्म विश्वसनीयता और रेलिंग (SLO, अलर्ट, GitOps, ऑटोस्केल, DR)।
कार्य: एसएलआई/एसएलओ, सतर्क स्वच्छता, प्रगतिशील रिलीज, बुनियादी ढांचा कोड, क्षमता, अवलोकन।
घटना के दौरान: रूट डायग्नोस्टिक्स, रोलबैक/फोलबैक, डिग्रेड-यूएक्स सक्षम।
3. 4 सेवा स्वामी/उत्पाद मालिक
उद्देश्य: व्यावसायिक अर्थों में सेवा की गुणवत्ता।
कार्य: एसएलओ/प्राथमिकताओं को परिभाषित करना, रिलीज/विंडो का समन्वय करना, गो/नो-गो में भाग लेना।
Comms: यह तय करना कि Comms के साथ ग्राहकों को कब और क्या बताना है।
3. 5 रिलीज प्रबंधक
उद्देश्य: सुरक्षित परिवर्तन वितरण।
कार्य: रिलीज का ऑर्केस्ट्रेशन, गेट्स की चेकअप, कैनरी/ब्लू-ग्रीन, रिलीज की एनोटेशन, घटनाओं के लिए फ्रीज।
3. 6 सीएबी चेयर/चेंज मैनेजर
उद्देश्य: जोखिम प्रबंधन बदलें
कार्य: आरएफसी प्रक्रिया, योजना/बैकआउट, संघर्ष कैलेंडर, उच्च जोखिम वाले अनुमोदन।
3. 7 आरसीए लीड/समस्या प्रबंधक
उद्देश्य: पोस्ट-इवेंट डिब्रीफिंग, CAPA।
उद्देश्य: समयरेखा, स्पष्ट कारण, सही/रोकने के लिए कार्रवाई, D + 14/D + 30 नियंत्रण।
3. 8 सुरक्षा (IR लीड, AppSec/CloudSec)
उद्देश्य: सुरक्षा और घटना प्रतिक्रिया।
कार्य: ट्राइएज सुरक्षा कार्यक्रम, प्रमुख रोटेशन, अलगाव, फोरेंसिक, नियामक सूचनाएं, WORM ऑडिट।
3. 9 डेटाओप्स/एनालिटिक्स
उद्देश्य: डेटा और पाइपलाइनों की विश्वसनीयता।
उद्देश्य: ताजगी/गुणवत्ता (डीक्यू), डेटा अनुबंध, वंश, बैकफिल, एसएलए बीआई/रिपोर्ट।
3. 10 फिनोप्स
उद्देश्य: प्रबंधित मूल्
कार्य: कोटा/सीमा, रिपोर्ट $/इकाई, बजट द्वार, अनुकूलन (लॉग वॉल्यूम, एग्रेस, आरक्षण)।
3. 11 अनुपालन/कानूनी
उद्देश्य: नियामक और संविदात्मक अनुपालन।
कार्य: अधिसूचना की शर्तें, प्रतिधारण/साक्ष्य की अपरिवर्तनीयता, सार्वजनिक ग्रंथों का समन्वय।
3. 12 समर्थन/कम्स
उद्देश्य: ग्राहकों/आंतरिक हितधारकों के साथ संचार।
कार्य: स्थिति पृष्ठ, अद्यतन का मॉकअप, संदेशों की आवृत्ति और स्पष्टता, प्रतिक्रिया का संग्रह।
3. 13 विक्रेता प्रबंधक/प्रदाता मालिक
उद्देश्य: बाहरी प्रदाताओं (पीएसपी/केवाईसी/सीडीएन, आदि) के साथ संबंध।
कार्य: वृद्धि, एसएलए/ओएलए, बैकअप मार्ग, विंडो समन्वय।
4) शिफ्ट और एस्केलेशन में भूमिकाएँ
शिफ्ट: P1/P2 + IC-of-the-day (P1 के साथ संयोजन न करें)।
समय वृद्धि: P1→P2 (5 मिनट बिना ack) → IC (10 मिनट) → ड्यूटी मैनेजर (15 मिनट)।
शांत घंटे: P2/P3 संकेत नहीं उठते हैं; सुरक्षा संकेत - हमेशा।
5) बातचीत के इंटरफेस (किसके साथ और कैसे)
IC ↔ रिलीज मैनेजर: फ्रीज/रोलबैक समाधान।
IC ↔ Comms: अपडेट ग्रंथ और आवृत्ति।
SRE ↔ DataOps: SLO-gardrails में व्यापार SLI (भुगतान सफलता, डेटा ताजगी)।
सुरक्षा ↔ कानूनी: सुरक्षा घटनाओं की रिपोर्ट, अधिसूचना अवधि।
विक्रेता मालिक ↔ आईसी: प्रदाता स्थिति, स्विचओवर/फोलबैक।
6) भूमिका (बेंचमार्क) द्वारा केपीआई
IC: टाइम-टू-डिक्लेयर, Comms SLA अनुपालन, MTTR by।
P1/P2: MTTA, टाइम-टू-फर्स्ट-एक्शन,% प्लेबुक का पालन करें।
एसआरई/प्लेटफ़ॉर्म: एसएलओ कवरेज, अलर्ट हाइजीन,% ऑटो-रोलबैक सफल।
रिलीज मैनेजर: फेल्योर रेट, ऑन-टाइम विंडो, मीन रोलबैक टाइम बदलें।
आरसीए लीड: पोस्टमॉर्टम लीड टाइम, सीएपीए कंप्लीशन/ओवरड्यू, रीपेन ≤ 5-10%।
सुरक्षा: सीक्रेट/सर्टिफिकेशन रोटेशन टाइम को नियंत्रित करने का औसत समय।
DataOps: ताजगी SLO पालन, सफलता दर बैकफिल।
कम्स: स्थिति सटीकता, शिकायत दर/घटना।
FinOps: $/इकाई,% QoQ बचत, कोटा अनुपालन।
7) रोल कार्ड टेम्पलेट
7. 1 आईसी कार्ड
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 P1/P2 कार्ड
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 रिलीज मैनेजर कार्ड
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) प्रक्रियाएं और भूमिका भागीदारी (सारांश)
ए - जवाबदेह, आर - जिम्मेदार, सी - परामर्श, आई - सूचित।
9) चेकलिस्ट
9. 1 भूमिकाएं सौंपना
- प्रत्येक भूमिका में एक मालिक, एक विकल्प और एक कवरेज क्षेत्र होता है।
- प्राधिकरण (क्या निर्णय ले सकते हैं) का वर्णन किया गया है।
- बाउंड प्लेबुक और लिंक।
- प्रतिक्रिया/comms द्वारा एसएलए प्रकाशित।
- प्रत्येक सेवा के लिए सीएमडीबी में भूमिका उपलब्ध है।
9. 2 शिफ्ट और हैंडओवर
- शिफ्ट कार्ड अद्यतन (सक्रिय घटनाएं, जोखिम, खिड़कियां)।
- JIT/JEA सत्यापित।
- चैनल के लिए इको संदेश "स्वीकृत/पास बदलें।"
9. 3 पोस्ट-घटना
- एएआर आयोजित, आरसीए को सौंपा गया।
- मालिकों/समय सीमा के साथ CAPA, D + 14/D + 30 नियंत्रण।
- अद्यतन प्लेबुक/अलर्ट/नीतियां।
10) एंटी-पैटर्न
अस्पष्ट "कौन तय करता है" - देरी और डुप्लिकेट प्रयास।
IC P1 के साथ संयुक्त - नेतृत्व का नुकसान।
कानूनी/समझौते के बिना सार्वजनिक कमियां।
रिलीज मैनेजर और गेट्स के बिना एक रिलीज → सीएफआर ग्रोथ।
कोई भूमिका आरक्षण (बीमारी/छुट्टी) नहीं।
प्रक्रिया के बजाय "वीरता": हम मैन्युअल रूप से बचाते हैं, लेकिन रेलिंग को ठीक नहीं करते हैं।
सीएमडीबी/सर्विस कैटलॉग में भूमिकाएं परिलक्षित नहीं होती हैं - खोई हुई वृद्धि।
11) उपकरण में एम्बेडिंग
ChatOps: команды '/who oncall ', '/sev1', '/फ्रीज ', '/रोलबैक', '/स्टेटस अपडेट '।
निर्देशिका/सीएमडीबी: सेवा में एक मालिक, ऑन-कॉल, एसएलओ, डैशबोर्ड, प्लेबुक, विंडो हैं।
अलर्ट-ए-कोड: प्रत्येक पृष्ठ में एक मालिक और एक डिफ़ॉल्ट प्लेबुक है।
GitOps: आईसी/रिलीज़समाधान रिलीज़ एनोटेशन और टिकट में परिलक्षित होते हैं।
12) भूमिका वितरण परिपक्वता मैट्रिक्स
निर्देशिकाओं में भूमिकाओं का कवरेज: ≥ 100% महत्वपूर्ण सेवाएं।
ऑन-कॉल SLA: Ack p95 ≤ 5 मिनट; पेज स्टॉर्म p95 नियंत्रण में।
पोस्टमॉर्टम एसएलए: ड्राफ्ट ≤ 72h; CAPA पूरा होने ≥ 85%।
शासन बदलें: RFC/CAB ≥ 95% के साथ% उच्च जोखिम वाले परिवर्तन।
कम्स: पालन ≥ 95%, शिकायत दर ↓ QoQ।
13) मिनी टेम्पलेट्स
13. सेवा के लिए 1 RACI (रेपो में फ़ाइल)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 रोल प्रोफाइल (मार्कडाउन)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) नीचे की रेखा
जब भूमिकाएं पारदर्शी, सशक्त और उपकरणों में निर्मित होती हैं, तो संचालन मजबूत होता है। प्रत्येक भूमिका के लिए रोल कैटलॉग, आरएसीआई, स्पष्ट इंटरफेस और मैट्रिक्स घटनाओं, रिलीज और प्रबंधित प्रक्रियाओं में परिवर्तन करते हैं: निर्णय जल्दी से किए जाते हैं, जोखिम नियंत्रित होते हैं, और उपयोगकर्ता एक स्ता देखती है।