SOP: <اقدام سریع/هدف>
استاندارد سازی روش های عملیاتی
1) چرا شما به آن نیاز دارید
SOP «سیستم عامل» شرکت است. استاندارد سازی هرج و مرج و «سبک های فردی» را کاهش می دهد، MTTR را کاهش می دهد، خطرات سر و صدا و حوادث را هشدار می دهد، سرعت بخشیدن به کشتی را افزایش می دهد و نتایج را تجدید می کند.
اهداف:- کاهش تنوع اقدامات در حوادث و روال ها.
- سرعت بخشیدن به آموزش و بهبود کیفیت تحویل.
- فرآیندهای حسابرسی را انجام دهید: حسابرسی، معیارها، بهبود داده ها.
- اطمینان از انطباق با الزامات قانونی و داخلی.
2) اصول استاندارد سازی
1. فرمت یکنواخت و اصطلاحات. یک نماد، یک تعریف (SLO، ETA، مالک).
2. عملی، نه یک دانشنامه. فقط مراحل قابل اثبات، معیارهای موفقیت و بازگشت.
3. کمترین انشعاب روشن اگر/پس از آن راه حل به جای freewheading.
4. نسخه و مالکیت. هر SOP دارای یک مالک، نسخه و تاریخ تجدید نظر است.
5. ادغام با ابزار لینک به داشبورد، بلیط، ficheflags، دستورات CLI.
6. در دسترس بودن در تماس به سرعت جستجو، خواندن، اجرا با یک لینک.
7. بهبود مستمر پس از مرگ → وظایف به روز رسانی SOP.
3) چارچوب SOP (قالب)
4) SOP classification
Incident: P1/P2 (critical), P3 (important).
Operational routines: releases, feature flags, database migrations, provider failover.
DR/BCP: disabling the region, restoring from backup, working offline.
Quality control/audit: revisions, readiness questionnaires, access.
Security/compliance: KYC/AML checks, log storage, privacy.
5) RACI: Ownership and Responsibility
Process R (performer) A (responsible) C (consultant) I (notify)
------------------------ --------------- ----------------- --------------- -------------
Create/Update SOP Domain Owner Head of Ops SRE/Compliance Teams
SLA Revision Ops Enablement Head of Ops Domain leads All
Use in an incident On-call Incident Manager Domain Owner Stakeholders
6) SOP lifecycle
1. Initiation: need from post-mortem/incident/audit.
2. Draft: by template, with specific artifacts and commands.
3. Review: Domain Owner + Head of Ops + specialized consultants.
4. Publishing: to portal/repository; annotations on dashboards.
5. Training: short training/screencast, knowledge test.
6. Application: recorded in ticket/incident.
7. Audit: by SLA revision or after a significant event.
8. Archiving: mark 'deprecated', indicate replacement.
7) Documentation as code (minimum standard)
We store SOP in Git (Markdown + YAML metadata), PR review, CI-lint.
Required fields are 'owner', 'version', 'last _ review', 'sla _ review'.
Link checker and structure validator in CI; auto-release portal after merge.
Significant changes - through changelog and notifications in the # ops channel.
8) SOP integrations
Incident Manager: Open SOP button when creating/escalating an incident.
Grafana/Observability: references from panels to relevant SOPs; release annotations.
Feature Flags/Release: canary step templates, SLO gates, rollback.
AI assistant: RAG search by SOP, TL; DR and proposals for action.
BCP/DR: DR-playbook automatically loaded by trigger.
9) SOP quality check (KPI and review)
KPI:
Coverage ≥ 90% of critical scenarios are closed by SOP.
Review SLA ≤ 180 days (share of overdue - 0).
Usage Rate ≥ 70% of overt SOP incidents.
DoD Pass Rate ≥ 90% of steps are closed with success criteria.
Broken Links = 0 (по CI).
Weekly monitoring:
Top 5 used and top 5 obsolete SOPs.
SOP communication ↔ postmortems: whether Preventive Actions have been performed.
Noisy SOPs (frequent rollback returns) are candidates for recycling.
10) Containment standards
Steps → specifics: commands/queries/parameters + expected effect in metric.
Time requirements: ETA for updates/next steps.
Escalation: clear matrix, contacts, backup channels.
Security: warnings, restrictions, PII/secrets - via vault/links.
Localization: in the on-call language (critical for distributed commands).
11) SOP examples (fragments)
SOP: Canary pause in SLO degradation
عوامل: error_budget_burn> 4x 10m، api_p99> 1. 3 × پایه 10 متر
مراحل:- 1) مکث قناری در انتشار ابزار
- 2) بررسی پانل های «تغییر ایمنی» و «API p99»
- 3) ایجاد بلیط REG-
، خط پایه/پنجره را مشخص کنید - وزارت دفاع: p99 ≤ 1. 1 × خط پایه 15m، <خط پایه × 1 خطا. 2
- بازگشت: غیر فعال کردن پرچم به طور کامل، ≤72ch پس از مرگ
SOP: PSP Provider Feilover
برچسب ها: quota_usage>0 9 یا outbound_error_rate>2×baseline 5 متر
مراحل:- 1) فعال کردن مسیریابی PSP-Y (پیکربندی/دکمه)
- 2) بررسی تبدیل سپرده و p95 PSP-Y
- 3) حاشیه نویسی در نمودار، به روز رسانی در # حادثه کانال
- پاسخ: success_rate ≥ 99 5٪، p95 ≤ 300 میلی ثانیه 10 متر
- بازگشت: 20٪ بازگشت جزئی از ترافیک در تثبیت PSP-X
12) چک لیست
چک لیست آمادگی SOP:
[] هدف و محرک ها واضح و قابل اندازه گیری هستند.
[] مراحل برای دستورات/لینک وجود دارد.
[] DoD/Rollback فرموله شده است.
[] ارتباطات و ارتباطات مهم است.
[] ابرداده پر شده است (مالک، نسخه، last_review).
[] لینک جستجوگر و CI اعتبار سنج عبور.
چک لیست برنامه SOP (در حادثه):
[] SOP از لینک مدیر حادثه/پانل باز شد.
[] مراحل تکمیل شده و نتایج ثبت شده است.
[] وزارت دفاع رسید/نه - بررسی می شود.
[] اقدامات/تناقضات در بلیط ثبت شده است.
[] به روز رسانی SOP/پیشرفت های ایجاد شده توسط وظایف (در صورت نیاز).
13) آموزش و پرورش
دوره های کوتاه در SOP های کلیدی (پرداخت/شرط/بازی/KYC).
وظیفه سایه با استفاده اجباری از SOP در آموزش.
هفتگی «کلینیک SOP»: 30 دقیقه تجزیه و تحلیل/بهبود.
شبیه سازی (بازی روز): توسعه DR و SOP های حادثه.
14) مدیریت تغییر SOP
RFC از طریق PR، برچسب «جزئی/عمده/شکستن».
شکستن تغییرات - با آموزش اجباری و اعلام.
اعلان خودکار به صاحبان دامنه و تماس.
«یادداشت های انتشار SOP» را در پایان هر هفته جدا کنید.
15) ضد الگوهای
فرم آزاد «همانطور که معلوم است» و الگوهای مختلف با فرمان.
SOP بدون مالک/تاریخ تجدید نظر/تجدید نظر.
متون «Encyclopedic» به جای اقدامات گام به گام.
بدون بازگشت/DoD - چیزی برای بررسی موفقیت با.
لینک های شکسته, «کتابچه راهنمای از چت» دستورات, خصوصی «مخفی» مراحل.
SOP نامرئی بدون ضبط یا آموزش تغییر می کند.
16) 30/60/90 - طرح اجرایی
30 روز:
تصویب قالب SOP و حداقل استانداردها.
یک repository 'ops-sop/' (docs-as-code) ایجاد کنید، خطوط CI را فعال کنید.
10-15 SOP های مهم (حوادث/انتشار/ارائه دهندگان) را دیجیتالی کنید.
مدیر حادثه و پانل های دید را به لینک های SOP متصل کنید.
60 روز:
رسیدن به پوشش ≥ 70٪ برای سناریوهای بحرانی.
راه اندازی هفتگی «کلینیک های SOP» و آموزش های تلفنی.
اضافه کردن جستجوی AI (RAG) توسط SOP و TL ؛ کارت های دکتر
SLA (180 روز) را وارد کنید و SOP های مربوط به گذشته را گزارش دهید.
90 روز:
پوشش ≥ 90٪، میزان استفاده ≥ 70٪ از حوادث.
قراردادن DoD/Rollback در تمام SOP ها، بستن لینک های خراب (0).
KPI SOP را به دستور OKR (MTTR، Change Failure Rate) متصل کنید.
Retro و ثبت پیشرفت های سه ماهه آینده.
17) سوالات متداول
س: SOP متفاوت از runbook است ؟
A: SOP - روش استاندارد (مقررات «چگونه»). Runbook - دستورالعمل های دقیق برای یک مورد خاص/خدمات. اغلب SOP به یک یا چند کتاب اشاره دارد.
س: چه تعداد جزئیات باید در SOP وجود داشته باشد ؟
A: فقط به اندازه کافی برای اپراتور برای انجام اقدامات بدون «حفاری» به چت. همه چیزهایی که بر عمل تاثیر نمی گذارد در مواد مرجع جداگانه است.
س: چگونه ارتباط برقرار کنیم ؟
A: تجدید نظر SLA (≤180 روز)، یادآوری خودکار، خطوط CI و معیارهای استفاده/DoD. هر حادثه انحراف → کار به روز رسانی SOP.