نقش ها و مسئولیت ها در عملیات
1) چرا نقش ها را رسمی می کنید
تخصیص نقش واضح MTTA/MTTR را کاهش می دهد، مناطق خاکستری را از بین می برد، سرعت انتشار را افزایش می دهد و SLO/انطباق را قابل تکرار می کند. نقش ها = مسئولیت + اقتدار + رابط ها (به چه کسی می نویسیم، چه کسی ما را تشدید می کند، چه تصمیماتی مجاز هستند).
2) مدل RACI عمومی
R (مسئول) - کار را انجام می دهد.
A (پاسخگو) - مسئولیت نهایی را بر عهده دارد و تصمیم می گیرد.
C (مشورت) - متخصص، قبل/در طول مشورت.
من (مطلع) - توسط SLA مطلع شده است.
3) کاتالوگ نقش (شرح و مسئولیت)
3. فرمانده حوادث 1 (IC)
هدف: پاسخ به حادثه SEV-1/0 را هدایت می کند.
قدرت: اعلام SEV، انتشار یخ، سوئیچ ترافیک، تشدید.
وظایف اصلی: جدول زمانی، تصمیم گیری، حفظ تمرکز، تخصیص وظیفه، Go/No-Go.
مصنوعات: کارت حادثه، به روز رسانی SLA، AAR نهایی.
3. 2 P1/P2 در تماس (اولیه/ثانویه)
هدف: پاسخ اولیه و اقدامات فنی.
P1: triage، playbooks در حال اجرا، ارتباط با IC.
P2: پشتیبان گیری، تغییرات پیچیده، حفظ زمینه، در طوفان - طول می کشد substreams.
3. 3 مهندس SRE/پلت فرم
هدف: قابلیت اطمینان پلت فرم و نرده (SLO، هشدار، GitOps، autoscale، DR).
وظایف: SLI/SLO، بهداشت هشدار، نسخه های پیشرفته، زیرساخت به عنوان کد، ظرفیت، قابلیت مشاهده.
در طول حادثه: تشخیص ریشه، rollbacks/folbacks، degrade-UX فعال شده است.
3. 4 مالک خدمات/مالک محصول
هدف: کیفیت خدمات در مفهوم کسب و کار.
وظایف: تعریف SLO/اولویت ها، هماهنگی انتشار/ویندوز، شرکت در Go/No-Go.
Comms: تصمیم گیری در مورد زمان و چه چیزی به مشتریان در کنار Comms.
3. 5 مدیر انتشار
هدف: تحویل تغییر امن.
وظایف: هماهنگ از انتشار، بررسی از دروازه، قناری/آبی سبز، حاشیه نویسی از انتشار، یخ برای حوادث.
3. 6 صندلی CAB/تغییر مدیر
هدف: تغییر مدیریت ریسک
وظایف: فرآیند RFC، طرح/عقب نشینی، تقویم درگیری، مصوبات با خطر بالا.
3. 7 RCA سرب/مدیر مشکل
هدف: گزارش پس از حادثه، CAPA.
اهداف: جدول زمانی، علیت شواهد، اقدامات برای اصلاح/جلوگیری، کنترل D + 14/D + 30.
3. 8 امنیت (رهبری IR، AppSec/CloudSec)
هدف: امنیت و پاسخ به حادثه
وظایف: حوادث امنیتی triage، چرخش کلید، انزوا، پزشکی قانونی، اطلاعیه های نظارتی، حسابرسی WORM.
3. 9 DataOps/تجزیه و تحلیل
هدف: قابلیت اطمینان داده ها و خطوط لوله.
اهداف: تازگی/کیفیت (DQ)، قراردادهای داده، اصل و نسب، backfills، SLA BI/گزارش.
3. 10 عملیات مالی
هدف: ارزش مدیریت شده
وظایف: سهمیه/محدودیت ها, گزارش $/واحد, دروازه های بودجه, بهینه سازی (حجم ورود به سیستم, خروج, رزرو).
3. 11 انطباق/قانونی
هدف: انطباق قانونی و قراردادی.
وظایف: شرایط اطلاع رسانی، حفظ/تغییرناپذیری شواهد، هماهنگی متون عمومی.
3. 12 پشتیبانی/ارتباطات
هدف: ارتباط با مشتریان/ذینفعان داخلی.
وظایف: صفحه وضعیت، مدل های به روز رسانی، فرکانس و وضوح پیام ها، مجموعه بازخورد.
3. 13 فروشنده مدیر/ارائه دهنده مالک
هدف: روابط با ارائه دهندگان خارجی (PSP/KYC/CDN، و غیره).
وظایف: تشدید، SLA/OLA، مسیرهای پشتیبان گیری، هماهنگی پنجره.
4) نقش در تغییر و تشدید
تغییر: P1/P2 + IC-of-the-day (با P1 ترکیب نکنید).
تشدید زمان: P1 → P2 (5 دقیقه بدون ACK) → IC (10 دقیقه) → مدیر وظیفه (15 دقیقه).
ساعت های آرام: سیگنال های P2/P3 از خواب بیدار نمی شوند. سیگنال های امنیتی - همیشه
5) رابط های تعامل (با چه کسی و چگونه)
IC ↔ مدیر انتشار: راه حل های یخ/رول بک.
IC ↔ Comms: به روز رسانی متون و فرکانس.
SRE ↔ DataOps: SLI کسب و کار (موفقیت پرداخت، طراوت داده ها) در SLO-gardrails.
امنیت ↔ قانونی: گزارش حوادث امنیتی، دوره های اطلاع رسانی.
فروشنده صاحب ↔ IC: وضعیت ارائه دهنده، switchover/folback.
6) KPI توسط نقش (معیار)
IC: زمان اعلام، انطباق Comms SLA، MTTR توسط SEV-1/0.
P1/P2: MTTA, زمان به اولین اقدام,% دنبال playbooks.
SRE/Platform: پوشش SLO، بهداشت هشدار،٪ بازگشت خودکار موفق.
مدیر انتشار: تغییر نرخ شکست، پنجره های در زمان، میانگین زمان بازگشت.
سرب RCA: زمان سرب پس از مرگ، تکمیل/تأخیر CAPA، بازگشایی ≤ 5-10٪.
امنیت: میانگین زمان برای نگهداری، زمان چرخش راز/Cert.
DataOps: تازگی SLO پایبندی، نرخ موفقیت Backfills.
Comms: دقت وضعیت، میزان شکایت/حادثه.
FinOps: $/واحد،٪ QoQ صرفه جویی، انطباق سهمیه.
7) قالب کارت نقش
7. 1 کارت آی سی
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 کارت P1/P2
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 کارت مدیر انتشار
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) فرآیندها و مشارکت نقش (خلاصه)
A - پاسخگو، R - مسئول، C - مشورت، من - مطلع.
9) چک لیست
9. 1 تخصیص نقش ها
- هر نقش یک مالک، یک جایگزین و یک منطقه پوشش دارد.
- مجوزها (چه تصمیماتی می توانند بگیرند) توصیف می شوند.
- کتابهای بازی و لینک ها.
- SLA ها منتشر شده توسط واکنش/comms.
- نقش در CMDB برای هر سرویس در دسترس است.
9. 2 تغییر و تحویل
- Shift card updated (حوادث فعال، خطرات، پنجره ها).
- دسترسی JIT/JEA تایید شده است.
- پیام اکو به کانال «تغییر پذیرفته/گذشت».
9. 3 پس از حادثه
- AAR انجام شده، RCA اختصاص داده شده است.
- CAPA با صاحبان/مهلت، D + 14/D + 30 کنترل.
- به روز شده playbooks/هشدار/سیاست.
10) ضد الگوهای
نامشخص «چه کسی تصمیم می گیرد» → تاخیر و تلاش های تکراری.
IC همراه با P1 - از دست دادن رهبری
ارتباطات عمومی بدون توافق با حقوقی/Comms.
انتشار بدون مدیر انتشار و گیتس → رشد CFR.
بدون رزرو نقش (بیماری/ترک).
«قهرمانی» به جای فرآیند: ما به صورت دستی ذخیره می کنیم، اما نرده را تعمیر نمی کنیم.
نقش ها در کاتالوگ CMDB/Service → پله های گمشده منعکس نمی شود.
11) جاسازی در ابزار
ChatOps: команды «/who oncall »، «/اعلام sev1»، «/freeze »، «/rollback»، «/status update ».
دایرکتوری/CMDB: این سرویس دارای مالک، در تماس، SLO، داشبورد، playbooks، ویندوز است.
Alert-as-Code: هر صفحه دارای یک مالک و یک playbook پیش فرض است.
GitOps: راه حل های IC/Release در حاشیه نویسی ها و بلیط های انتشار منعکس شده است.
12) معیارهای بلوغ توزیع نقش
پوشش نقش ها در دایرکتوری ها: ≥ 100٪ از خدمات مهم
SLA در تماس: Ack p95 ≤ 5 دقیقه ؛ صفحه طوفان p95 تحت کنترل است.
SLA پس از مرگ: پیش نویس ≤ 72 ساعت ؛ تکمیل CAPA ≥ 85٪
حاکمیت تغییر: ٪ تغییرات پرخطر با RFC/CAB ≥ 95٪
Comms: پایبندی ≥ 95٪، میزان شکایت ↓ QoQ.
13) قالب های کوچک
13. 1 RACI برای سرویس (فایل در مخزن)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 پروفایل نقش (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) خط پایین
عملیات زمانی قوی هستند که نقش ها شفاف، توانمند و به ابزار ساخته شده باشند. کاتالوگ نقش، RACI، رابط های روشن و معیارهای هر نقش، حوادث، انتشار و تغییرات را به فرآیندهای مدیریت شده تبدیل می کند: تصمیم گیری ها به سرعت انجام می شود، خطرات کنترل می شوند و کاربران یک سرویس پایدار را می بینند.