मानक प्रचालन प्रक्रिया
1) एसओपी क्या है और इसकी आवश्यकता क्यों है
एसओपी (मानक परिचालन प्रक्रिया) समझने योग्य इनपुट/आउटपुट, भूमिकाओं और गुणवत्ता मानदंडों के साथ दोहराए जाने योग्य संचालन के लिए चरणों का एक औपचारिक, मान्य अनुक्रम है।
एसओपी के उद्देश्य हैं:- निष्पादन परिवर्तनशीलता और जोखिम को कम करें।
- ऑफ-द-शेल्फ क्रियाओं के माध्यम से MTTA/MTTR को कम करें।
- अनुपालन और लेखा परीक्षा: प्रजनन योग्यता, ट्रेसबिलिटी।
- ऑनबोर्डिंग: सीखने में तेजी और छाया - एकल।
SOP ≠ playbook: playbook - forks के साथ निर्णय वृक्ष, एक विशिष्ट परिदृश्य के लिए SOP - रैखिक नियम (या प्लेबुक शाखा)।
2) अच्छे एसओपी सिद्धांत
परिणाम-प्रेरित: परिणाम (एसएलओ/व्यावसायिक मानदंड) पर ध्यान केंद्रित करें, न कि केवल कदम।
अस्पष्टता: कमांड, पैरामीटर, अपेक्षित प्रभाव और नियंत्रण बिंदु।
डिफ़ॉल्ट रूप से सुरक्षा: गेट्स, लिमिट, बैकआउट/रोलबैक पंजीकृत हैं।
न्यूनतम संदर्भ: विस्तृत रनबुक/निदान के लिए छोटे नोट + लिंक।
प्रासंगिकता: समीक्षा तिथि, मालिक, संस्करण, समाप्ति तिथि।
निष्पादन क्षमता: JIT/JEA एक्सेस, पूर्व शर्त जाँच, कलाकृतियाँ टेम्पलेट।
3) एसओपी मानक संरचना (कंकाल)
ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)
4) एसओपी निर्देशिका और स्वामित्व
टैग के साथ एकल भंडार (डॉक्स-ए-कोड): 'डोमेन/ऑप्स', 'सेवा/चेकआउट', 'जोखिम/उच्च', 'प्रदाता/psp-a'।
मालिक कार्ड: टीम, ड्यूटी संपर्क, बैकअप मालिक।
एसएलए प्रासंगिकता (जैसे) हर ≤90 दिन या घटना/रिलीज के बाद की समीक्षा करें)।
लिंटर/एसओपी सत्यापन (सीआई): संरचना, लिंक, मालिकों, समीक्षा अवधि का सत्यापन।
5) एसओपी जीवनचक्र
1. दीक्षा (घटना/ड्रिल/नई प्रक्रिया के बाद)।
2. ड्राफ्ट (लेखक = सेवा/प्रक्रिया स्वामी)।
3. समीक्षा (एसआरई/सुरक्षा/कानूनी/कम्स - डोमेन द्वारा)।
4. पायलट (टेबलटॉप/गेम डे): समय मापते हैं, संपादन पाता है।
5. प्रकाशन (CMDB/सेवा सूची में संस्करण, तिथि, संख्या, टेम्पलेट)।
6. परिचालन आवेदन (टिकट/चैट, साक्ष्य संग्रह में एनोटेशन)।
7. अपडेट (आरसीए/सीएपीए द्वारा, समीक्षा समय सीमा से, वास्तुकला परिवर्तन द्वारा)।
8. संग्रह/कमी (नए SOP/playbook द्वारा प्रतिस्थापित)।
6) पड़ोसी कलाकृतियों के साथ संबंध
प्लेबुक: एसओपी - प्लेबुक के अंदर "रैखिक शाखा"; चरणों से संदर्भ।
रनबुक 'और: तकनीकी विवरण/स्क्रिप्ट को रनबुक में रखा गया है, एसओपी संदर्भित करता है।
नीतियां (नीति-जैसे-कोड): अभिगम द्वार, अनुमति, आरबीएसी - अनिवार्य लिंक।
एसएलओ/एसएलआई: सफलता मानदंड और गार्डे-रेल।
एस्केलेशन मैट्रिक्स: भूमिकाएँ/समय जब SOP निष्पादन विफल होता है।
रखरखाव खिड़कियां: उच्च जोखिम वाले एसओपी के लिए स्लॉट/अल्पविराम आवश्यकताएं।
7) एसओपी प्रदर्शन मैट्रिक्स
समय-से-निष्पादन (मध्य/p95) - प्रक्रिया कितना समय लेती है।
सफलता दर - वृद्धि/रोलबैक के बिना सफलता दर।
साक्ष्य पूर्णता - कलाकृतियों की परिपूर्णता।
एसएलओ प्रभाव - चरण (बर्न-मिनट) के दौरान/बाद में कोई गिरावट है।
दोष घनत्व - 10 एसओपी पर समीक्षा/व्यायाम नोट।
≤90 दिनों की समीक्षा के साथ ताजगी SOPs का अनुपात है।
गोद लेना - कितने अलर्ट/विंडो वास्तव में SOP से बंधे हैं।
8) एसओपी लेखक जाँच सूची
- उद्देश्य और अनुप्रयोग सीमाओं को परिभाषित किया ग
- भूमिकाएँ, पहुँच और खिड़कियाँ - वर्णित।
- गुणवत्ता द्वार और एसएलओ औसत दर्जे के हैं, संकेत स्रोत हैं।
- चरण निष्पादन योग्य: कमांड/स्क्रिप्ट, अपेक्षित परिणाम, सत्यापन।
- बैकआउट/रोलबैक और लॉन्च मानदंड - स्पष्ट।
- कॉम्प्लेट संलग्न हैं।
- साक्ष्य सूची संरचित है।
- संस्करण/तिथि/स्वामी/समीक्षा निर्दिष्ट.
9) एसओपी चेकलिस्ट
- JIT/JEA पूर्व शर्तों और पहुंच की पुष्टि की।
- टिकट/युद्ध-कक्ष खुला है और एनोटेशन शामिल हैं।
- अवलोकन: आवश्यक डैशबोर्ड/अलर्ट खुले हैं।
मैं क्रम में सीढ़ियों का अनुसरण करता हूँ; प्रत्येक सत्यापन के बाद।
- माली के उल्लंघन के मामले में - तत्काल बैकआउट और वृद्धि।
- साक्ष्य भरा हुआ है; अंतिम एसएलओ/व्यापार एसएलआई जांच।
- टिकट बंद, स्थिति पृष्ठ/comms अद्यतन।
10) एसओपी उदाहरण (टुकड़े)
10. 1 एसओपी: कैनरी रिलीज रोलबैक (REL-ROLLBACK-01)
The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)
10. 2 एसओपी: अनुसूचित डीबी अपग्रेड (MW-DB-UPGRADE-02)
Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)
10. 3 एसओपी: पीएसपी प्रदाता स्विचिंग (PROV-PSP-SWITCH-01)
Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).
10. 4 एसओपी: बैकअप रिकवरी चेक (DATA-BACKUP-RESTORE-CHECK-03)
Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.
11) SOPs के आसपास स्वचालन
SOP टेम्पलेटिंग: RACI/गेट/कॉमा ब्लॉक के साथ कंकाल पीढ़ी।
बॉट कलाकार: चेक बॉक्स, टाइमर, ताल अनुस्मारक, साक्ष्य ऑटो-संग्रह के साथ कदम।
CMDB/कैटलॉग के साथ एकीकरण - सेवा में संबंधित SOPs की एक सूची है।
टेलीमेट्री एनोटेशन: "SOP-RUN:
प्रवेश नीतियां: तैनाती/विंडो केवल हरे एसओपी गेट के साथ शुरू होती है।
12) एंटी-पैटर्न
बिना मालिक/तिथि की समीक्षा के SOP - "मृत" दस्तावेज़
सफलता के मानदंड और बैकआउट के बिना फूला हुआ निर्देश।
असंगत आदेश/कुंजी - त्रुटियों और रिसाव का जोखिम।
विकी और भंडार में विभिन्न संस्करण सत्य के स्रोतों का विचलन हैं।
कोई सबूत नहीं - गुणवत्ता/अनुपालन की पुष्टि करने के लिए कुछ
"सभी मामलों के लिए एक एसओपी" - निष्पादन क्षमता खो जाता है।
13) कार्यान्वयन रोडमैप (4-6 सप्ताह)
1. नेड। 1: एसओपी टेम्पलेट, लिंटर और कैटलॉग को मंजूरी दें; शीर्ष 10 परिदृश्यों का चयन करें।
2. नेड। 2: रिलीज/रोलबैक/प्रदाता/बैकअप के लिए एसओपी लिखें; टेबलटॉप पायलट।
3. नेड। 3: चैटोप्स बॉट और टेलीमेट्री एनोटेशन को कनेक्ट करें; SOPs के साथ सहयोगी अलर्ट।
4. नेड। 4: त्रैमासिक समीक्षा अनुसू ताजगी/सफलता दर मेट्रिक्स दर्ज करें।
5. नेड। 5-6: महत्वपूर्ण संचालन का 90% कवर; डीआर/सुरक्षा-एसओपी; सबूत संग्रह स्वचालि
14) नीचे की रेखा
एसओपी संचालन को अनुमानित और सत्यापित करता है: समान गुणवत्ता वाले गेट, विस्तृत कदम, स्पष्ट भूमिकाएं और प्रतिवर्तनीयता। प्लेबुक, राजनेताओं, एसएलओ और स्वचालन के संयोजन में, यह ऑपरेशन को एक विश्वसनीय उत्पादन लाइन में बदल देता है - त्वरित प्रतिक्रियाएं, न्यूनतम जोखिम और समझने योग्य जिम्मेदारी।