SOP: <त्वरित क्रिया/लक्ष्य>
परिचालन प्रक्रियाओं का मानकीकरण
1) आपको इसकी आवश्यकता क्यों है
एसओपी कंपनी का "ऑपरेटिंग ओएस" है। मानकीकरण अराजकता और "व्यक्तिगत शैलियों" को हटाता है, एमटीटीआर को कम करता है, सतर्क शोर और घटना जोखिम को कम करता है, ऑनबोर्डिंग को तेज करता है, और परिणामों को प्रजनन योग्य बनाता है।
उद्देश्य:- घटनाओं और दिनचर्या में कार्यों की परिवर्तनशीलता को कम करें।
- प्रशिक्षण में तेजी लाना और हैंडओवर की गुणवत्ता में सुधार करना
- प्रक्रियाओं को श्रव्य बनाएं: ऑडिटिंग, मैट्रिक्स, डेटा सुधार।
- विनियामक और आंतरिक आवश्यकताओं का अनुपालन सुनिश्चित क
2) मानकीकरण सिद्धांत
1. समान प्रारूप और शब्दावली। एक संकेतन, एक परिभाषा (एसएलओ, ईटीए, मालिक)।
2. क्रियाशील, विश्वकोश नहीं। केवल सत्यापन योग्य कदम, सफलता मानदंड और रोलबैक।
3. न्यूनतम शाखाएँ। फ्रीव्हीलिंग के बजाय यदि/तो समाधान साफ करें।
4. संस्करण और स्वामित्व। प्रत्येक एसओपी में एक मालिक, संस्करण और संशोधन तिथि होती है।
5. उपकरणों के साथ एकीकरण। डैशबोर्ड, टिकट, फिचफ्लैग, सीएलआई कमांड के लिंक।
6. ऑन-कॉल में उपलब्धता। जल्दी से खोजें, पढ़ें, एक लिंक के साथ चलाएँ.
7. लगातार सुधार। पोस्टमार्टम - SOP अपडेट कार्य।
3) एसओपी ढांचा (टेम्पलेट)
4) SOP classification
Incident: P1/P2 (critical), P3 (important).
Operational routines: releases, feature flags, database migrations, provider failover.
DR/BCP: disabling the region, restoring from backup, working offline.
Quality control/audit: revisions, readiness questionnaires, access.
Security/compliance: KYC/AML checks, log storage, privacy.
5) RACI: Ownership and Responsibility
Process R (performer) A (responsible) C (consultant) I (notify)
------------------------ --------------- ----------------- --------------- -------------
Create/Update SOP Domain Owner Head of Ops SRE/Compliance Teams
SLA Revision Ops Enablement Head of Ops Domain leads All
Use in an incident On-call Incident Manager Domain Owner Stakeholders
6) SOP lifecycle
1. Initiation: need from post-mortem/incident/audit.
2. Draft: by template, with specific artifacts and commands.
3. Review: Domain Owner + Head of Ops + specialized consultants.
4. Publishing: to portal/repository; annotations on dashboards.
5. Training: short training/screencast, knowledge test.
6. Application: recorded in ticket/incident.
7. Audit: by SLA revision or after a significant event.
8. Archiving: mark 'deprecated', indicate replacement.
7) Documentation as code (minimum standard)
We store SOP in Git (Markdown + YAML metadata), PR review, CI-lint.
Required fields are 'owner', 'version', 'last _ review', 'sla _ review'.
Link checker and structure validator in CI; auto-release portal after merge.
Significant changes - through changelog and notifications in the # ops channel.
8) SOP integrations
Incident Manager: Open SOP button when creating/escalating an incident.
Grafana/Observability: references from panels to relevant SOPs; release annotations.
Feature Flags/Release: canary step templates, SLO gates, rollback.
AI assistant: RAG search by SOP, TL; DR and proposals for action.
BCP/DR: DR-playbook automatically loaded by trigger.
9) SOP quality check (KPI and review)
KPI:
Coverage ≥ 90% of critical scenarios are closed by SOP.
Review SLA ≤ 180 days (share of overdue - 0).
Usage Rate ≥ 70% of overt SOP incidents.
DoD Pass Rate ≥ 90% of steps are closed with success criteria.
Broken Links = 0 (по CI).
Weekly monitoring:
Top 5 used and top 5 obsolete SOPs.
SOP communication ↔ postmortems: whether Preventive Actions have been performed.
Noisy SOPs (frequent rollback returns) are candidates for recycling.
10) Containment standards
Steps → specifics: commands/queries/parameters + expected effect in metric.
Time requirements: ETA for updates/next steps.
Escalation: clear matrix, contacts, backup channels.
Security: warnings, restrictions, PII/secrets - via vault/links.
Localization: in the on-call language (critical for distributed commands).
11) SOP examples (fragments)
SOP: Canary pause in SLO degradation
ट्रिगर्स: error_budget_burn> 4x 10m, api_p99> 1। 3 × बेसलाइन 10 मी
चरण:- 1) रिलीज-टूल में कैनरी को रोकें
- 2) पैनल "परिवर्तन सुरक्षा" और "एपीआई पी 99" की जाँच करें
- 3) टिकट REG-
बनाएँ, बेसलाइन/विंडो निर्दिष्ट करें - DoD: p99 ≤ 1। 1 × बेसलाइन 15 मी, <बेसलाइन × 1 त्रुटियां। 2
- रोलबैक: पूरी तरह से फ्लैग अक्षम करें, पोस्टमॉर्टम ≤72ch
SOP: PSP Provider Feilover
ट्रिगर्स: quota_usage>0। 9 या outbound_error_rate>2×baseline 5 मी
चरण:- 1) PSP-Y रूटिंग सक्षम करें (कॉन्फिग/बटन)
- 2) जमा रूपांतरण और p95 PSP-Y की जाँच करें
- 3) रेखांकन पर एनोटेशन, # घटना-चैनल में अपडेट करें
- DoD: success_rate ≥ 99। 5%, p95 ≤ 300 ms 10 m
- रोलबैक: PSP-X स्थिरीकरण पर यातायात का 20% आंशिक रिटर्न
12) चेकलिस्ट
एसओपी तत्परता जांच सूची:
[] उद्देश्य और ट्रिगर स्पष्ट और औसत दर्जे के हैं।
[] कमांड/लिंक के लिए कदम हैं।
[] DoD/रोलबैक तैयार किया गया।
[] वृद्धि और संपर्क प्रासंगिक हैं।
[] मेटाडेटा भरा हुआ है (मालिक, संस्करण, last_review)।
[] लिंक चेकर और सीआई सत्यापन पास।
एसओपी अनुप्रयोग जाँचसूची (घटना में):
[] एसओपी हादसा प्रबंधक/पैनल लिंक से खोला गया।
[] चरणों को पूरा किया जाता है और परिणाम दर्ज किए जाते हैं।
[] DoD पहुँच गया/नहीं - जाँच की गई।
[] टिकट में क्रियाएं/विसंगतियां दर्ज की जाती हैं।
[] SOP अद्यतन/कार्यों द्वारा बनाया गया संवर्द्धन (यदि आवश्यक हो)।
13) प्रशिक्षण और ऑनबोर्डिंग
प्रमुख एसओपी (भुगतान/दांव/खेल/केवाईसी) पर मिनी-पाठ्यक्रम।
प्रशिक्षण में एसओपी के अनिवार्य उपयोग के साथ छाया शुल्क।
साप्ताहिक "एसओपी क्लीनिक": विश्लेषण/सुधार के 30 मिनट।
सिमुलेशन (खेल-दिन): डीआर का विकास और घटना एसओपी।
14) एसओपी परिवर्तन प्रबंधन
पीआर के माध्यम से आरएफसी, 'माइनर/मेजर/ब्रेकिंग' टैग करता है।
अनिवार्य प्रशिक्षण और घोषणा के साथ परिवर्
डोमेन मालिकों और ऑन-कॉल के लिए ऑटो-सूचना।
प्रत्येक सप्ताह के अंत में "एसओपी-रिलीज़नोट्स" को अलग करें।
15) एंटी-पैटर्न
नि: शुल्क रूप "जैसा कि यह पता चला है" और कमांड द्वारा विभिन्न पैटर्न।
बिना मालिक/संशोधन/संशोधन तिथि के एसओपी।
चरण-दर-चरण क्रियाओं के बजाय "विश्वकोश" ग्रंथ।
कोई रोलबैक/DoD - सफलता की जांच करने के लिए कुछ भी नहीं।
टूटे हुए लिंक, "चैट से मैनुअल" कमांड, निजी "गुप्त" कदम।
अदृश्य SOP रिकॉर्डिंग या प्रशिक्षण के बिना बदलता है
16) 30/60/90 - कार्यान्वयन योजना
30 दिन:
एसओपी टेम्पलेट और न्यूनतम मानकों को मंजूरी दें।
भंडार 'ops-sop/' (docs-as-code) बनाएँ, CI लिंटर सक्षम करें.
10-15 महत्वपूर्ण एसओपी (घटनाओं/रिलीज/प्रदाताओं) को डिजिटाइज़करें।
घटना प्रबंधक और दृश्यता पैनल एसओपी लिंक से कनेक्ट करें।
60 दिन:
महत्वपूर्ण परिदृश्यों के लिए कवरेज ≥ 70% तक पहुंचें।
साप्ताहिक "एसओपी क्लीनिक" और ऑन-कॉल ट्रेनिंग लॉन्च करें।
एसओपी और टीएल द्वारा एआई खोज (आरएजी) जोड़ें; डीआर कार्ड।
एसएलए (180 दिन) की समीक्षा करें और पिछले कारण एसओपी की रिपोर्ट करें.
90 दिन:
कवरेज ≥ 90%, उपयोग दर ≥ 70% घटनाएं।
सभी एसओपी में एम्बेड डीओडी/रोलबैक, बंद टूटे हुए लिंक (0)।
OKR (MTTR, विफलता दर बदलें) कमांड करने के लिए बाइंड SOP KPI।
रेट्रो और रिकॉर्ड अगली तिमाही के सुधार।
17) एफएक्यू
प्रश्न: एसओपी रनबुक से कैसे अलग है?
A: SOP - मानकीकृत प्रक्रिया (विनियमन "कैसे")। किसी विशिष्ट मामले/सेवा के लिए रनबुक - विस्तृत अनुदेश। अक्सर, SOP एक या अधिक रनबुक को संदर्भित करता है।
प्रश्न: एसओपी में कितने विवरण होने चाहिए?
A: ऑपरेटर के लिए चैट में "खुदाई" किए बिना कार्रवाई करने के लिए पर्याप्त है। कार्रवाई को प्रभावित नहीं करने वाले सभी अलग-अलग संदर्भ सामग्री में हैं
प्रश्न: प्रासंगिकता कैसे बनाए रखें?
A: SLA संशोधन (≤180 दिन), स्वचालित अनुस्मारक, CI लिंटर और उपयोग/DoD मैट्रिक्स। कोई विचलन घटना → SOP अद्यतन कार्य।