GH GambleHub

نقش ها و مسئولیت ها در عملیات

1) چرا نقش ها را رسمی می کنید

تخصیص نقش واضح MTTA/MTTR را کاهش می دهد، مناطق خاکستری را از بین می برد، سرعت انتشار را افزایش می دهد و SLO/انطباق را قابل تکرار می کند. نقش ها = مسئولیت + اقتدار + رابط ها (به چه کسی می نویسیم، چه کسی ما را تشدید می کند، چه تصمیماتی مجاز هستند).

2) مدل RACI عمومی

R (مسئول) - کار را انجام می دهد.
A (پاسخگو) - مسئولیت نهایی را بر عهده دارد و تصمیم می گیرد.
C (مشورت) - متخصص، قبل/در طول مشورت.
من (مطلع) - توسط SLA مطلع شده است.

مثال سطح بالا:
فرآیند پردازشیک نفرتحقیق و توسعهسی شارپمن و تو
حوادث (SEV-1/0)آی سیP1/P2، SRE، تیم مالکامنیت، محصول، داده هاMgmt، پشتیبانی
نسخه های منتشر شدهمدیر انتشار/مالکتوسعه، پلت فرم/SREامنیت، QAپشتیبانی, Mgmt
تغییرات (RFC/CAB)صندلی کابینصاحب سرویسامنیت، SRE، داده هاتیم های آسیب دیده
پنجره های نگهداریصاحب سرویسپلت فرم/SREمحصول، پشتیبانیمشتریان/همکاران
پس از مرگرهبری RCAتیم مالک، کاتبامنیت، داده ها، محصولشرکت MGMT

3) کاتالوگ نقش (شرح و مسئولیت)

3. فرمانده حوادث 1 (IC)

هدف: پاسخ به حادثه SEV-1/0 را هدایت می کند.
قدرت: اعلام SEV، انتشار یخ، سوئیچ ترافیک، تشدید.
وظایف اصلی: جدول زمانی، تصمیم گیری، حفظ تمرکز، تخصیص وظیفه، Go/No-Go.
مصنوعات: کارت حادثه، به روز رسانی SLA، AAR نهایی.

3. 2 P1/P2 در تماس (اولیه/ثانویه)

هدف: پاسخ اولیه و اقدامات فنی.
P1: triage، playbooks در حال اجرا، ارتباط با IC.
P2: پشتیبان گیری، تغییرات پیچیده، حفظ زمینه، در طوفان - طول می کشد substreams.

3. 3 مهندس SRE/پلت فرم

هدف: قابلیت اطمینان پلت فرم و نرده (SLO، هشدار، GitOps، autoscale، DR).
وظایف: SLI/SLO، بهداشت هشدار، نسخه های پیشرفته، زیرساخت به عنوان کد، ظرفیت، قابلیت مشاهده.
در طول حادثه: تشخیص ریشه، rollbacks/folbacks، degrade-UX فعال شده است.

3. 4 مالک خدمات/مالک محصول

هدف: کیفیت خدمات در مفهوم کسب و کار.
وظایف: تعریف SLO/اولویت ها، هماهنگی انتشار/ویندوز، شرکت در Go/No-Go.
Comms: تصمیم گیری در مورد زمان و چه چیزی به مشتریان در کنار Comms.

3. 5 مدیر انتشار

هدف: تحویل تغییر امن.
وظایف: هماهنگ از انتشار، بررسی از دروازه، قناری/آبی سبز، حاشیه نویسی از انتشار، یخ برای حوادث.

3. 6 صندلی CAB/تغییر مدیر

هدف: تغییر مدیریت ریسک

وظایف: فرآیند RFC، طرح/عقب نشینی، تقویم درگیری، مصوبات با خطر بالا.

3. 7 RCA سرب/مدیر مشکل

هدف: گزارش پس از حادثه، CAPA.
اهداف: جدول زمانی، علیت شواهد، اقدامات برای اصلاح/جلوگیری، کنترل D + 14/D + 30.

3. 8 امنیت (رهبری IR، AppSec/CloudSec)

هدف: امنیت و پاسخ به حادثه

وظایف: حوادث امنیتی triage، چرخش کلید، انزوا، پزشکی قانونی، اطلاعیه های نظارتی، حسابرسی WORM.

3. 9 DataOps/تجزیه و تحلیل

هدف: قابلیت اطمینان داده ها و خطوط لوله.
اهداف: تازگی/کیفیت (DQ)، قراردادهای داده، اصل و نسب، backfills، SLA BI/گزارش.

3. 10 عملیات مالی

هدف: ارزش مدیریت شده

وظایف: سهمیه/محدودیت ها, گزارش $/واحد, دروازه های بودجه, بهینه سازی (حجم ورود به سیستم, خروج, رزرو).

3. 11 انطباق/قانونی

هدف: انطباق قانونی و قراردادی.
وظایف: شرایط اطلاع رسانی، حفظ/تغییرناپذیری شواهد، هماهنگی متون عمومی.

3. 12 پشتیبانی/ارتباطات

هدف: ارتباط با مشتریان/ذینفعان داخلی.
وظایف: صفحه وضعیت، مدل های به روز رسانی، فرکانس و وضوح پیام ها، مجموعه بازخورد.

3. 13 فروشنده مدیر/ارائه دهنده مالک

هدف: روابط با ارائه دهندگان خارجی (PSP/KYC/CDN، و غیره).
وظایف: تشدید، SLA/OLA، مسیرهای پشتیبان گیری، هماهنگی پنجره.

4) نقش در تغییر و تشدید

تغییر: P1/P2 + IC-of-the-day (با P1 ترکیب نکنید).
تشدید زمان: P1 → P2 (5 دقیقه بدون ACK) → IC (10 دقیقه) → مدیر وظیفه (15 دقیقه).

ساعت های آرام: سیگنال های P2/P3 از خواب بیدار نمی شوند. سیگنال های امنیتی - همیشه

5) رابط های تعامل (با چه کسی و چگونه)

IC ↔ مدیر انتشار: راه حل های یخ/رول بک.
IC ↔ Comms: به روز رسانی متون و فرکانس.
SRE ↔ DataOps: SLI کسب و کار (موفقیت پرداخت، طراوت داده ها) در SLO-gardrails.
امنیت ↔ قانونی: گزارش حوادث امنیتی، دوره های اطلاع رسانی.
فروشنده صاحب ↔ IC: وضعیت ارائه دهنده، switchover/folback.

6) KPI توسط نقش (معیار)

IC: زمان اعلام، انطباق Comms SLA، MTTR توسط SEV-1/0.
P1/P2: MTTA, زمان به اولین اقدام,% دنبال playbooks.
SRE/Platform: پوشش SLO، بهداشت هشدار،٪ بازگشت خودکار موفق.
مدیر انتشار: تغییر نرخ شکست، پنجره های در زمان، میانگین زمان بازگشت.
سرب RCA: زمان سرب پس از مرگ، تکمیل/تأخیر CAPA، بازگشایی ≤ 5-10٪.
امنیت: میانگین زمان برای نگهداری، زمان چرخش راز/Cert.
DataOps: تازگی SLO پایبندی، نرخ موفقیت Backfills.
Comms: دقت وضعیت، میزان شکایت/حادثه.
FinOps: $/واحد،٪ QoQ صرفه جویی، انطباق سهمیه.

7) قالب کارت نقش

7. 1 کارت آی سی


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. 2 کارت P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 کارت مدیر انتشار


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) فرآیندها و مشارکت نقش (خلاصه)

فرآیند پردازشآی سیP1/P2SRE/پلت فرممالک اصلیرها کردنتاکسیامنیتعملیات داده هاارتباطاتفروشنده
حادثه رخ داده استیک نفرتحقیق و توسعهتحقیق و توسعهسی شارپمن و تومن و توسی شارپسی شارپتحقیق و توسعهسی شارپ
رها کردنمن و تومن و توسی شارپیک نفرتحقیق و توسعهسی شارپسی شارپسی شارپمن و تومن و تو
RFC/پنجرهمن و تومن و توتحقیق و توسعهیک نفرسی شارپیک نفرسی شارپسی شارپسی شارپسی شارپ
پس از مرگیک نفرتحقیق و توسعهتحقیق و توسعهسی شارپسی شارپمن و توسی شارپسی شارپمن و تومن و تو

A - پاسخگو، R - مسئول، C - مشورت، من - مطلع.

9) چک لیست

9. 1 تخصیص نقش ها

  • هر نقش یک مالک، یک جایگزین و یک منطقه پوشش دارد.
  • مجوزها (چه تصمیماتی می توانند بگیرند) توصیف می شوند.
  • کتابهای بازی و لینک ها.
  • SLA ها منتشر شده توسط واکنش/comms.
  • نقش در CMDB برای هر سرویس در دسترس است.

9. 2 تغییر و تحویل

  • Shift card updated (حوادث فعال، خطرات، پنجره ها).
  • دسترسی JIT/JEA تایید شده است.
  • پیام اکو به کانال «تغییر پذیرفته/گذشت».

9. 3 پس از حادثه

  • AAR انجام شده، RCA اختصاص داده شده است.
  • CAPA با صاحبان/مهلت، D + 14/D + 30 کنترل.
  • به روز شده playbooks/هشدار/سیاست.

10) ضد الگوهای

نامشخص «چه کسی تصمیم می گیرد» → تاخیر و تلاش های تکراری.

IC همراه با P1 - از دست دادن رهبری

ارتباطات عمومی بدون توافق با حقوقی/Comms.
انتشار بدون مدیر انتشار و گیتس → رشد CFR.
بدون رزرو نقش (بیماری/ترک).
«قهرمانی» به جای فرآیند: ما به صورت دستی ذخیره می کنیم، اما نرده را تعمیر نمی کنیم.
نقش ها در کاتالوگ CMDB/Service → پله های گمشده منعکس نمی شود.

11) جاسازی در ابزار

ChatOps: команды «/who oncall »، «/اعلام sev1»، «/freeze »، «/rollback»، «/status update ».
دایرکتوری/CMDB: این سرویس دارای مالک، در تماس، SLO، داشبورد، playbooks، ویندوز است.
Alert-as-Code: هر صفحه دارای یک مالک و یک playbook پیش فرض است.
GitOps: راه حل های IC/Release در حاشیه نویسی ها و بلیط های انتشار منعکس شده است.

12) معیارهای بلوغ توزیع نقش

پوشش نقش ها در دایرکتوری ها: ≥ 100٪ از خدمات مهم

SLA در تماس: Ack p95 ≤ 5 دقیقه ؛ صفحه طوفان p95 تحت کنترل است.

SLA پس از مرگ: پیش نویس ≤ 72 ساعت ؛ تکمیل CAPA ≥ 85٪

حاکمیت تغییر: ٪ تغییرات پرخطر با RFC/CAB ≥ 95٪

Comms: پایبندی ≥ 95٪، میزان شکایت ↓ QoQ.

13) قالب های کوچک

13. 1 RACI برای سرویس (فایل در مخزن)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 پروفایل نقش (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) خط پایین

عملیات زمانی قوی هستند که نقش ها شفاف، توانمند و به ابزار ساخته شده باشند. کاتالوگ نقش، RACI، رابط های روشن و معیارهای هر نقش، حوادث، انتشار و تغییرات را به فرآیندهای مدیریت شده تبدیل می کند: تصمیم گیری ها به سرعت انجام می شود، خطرات کنترل می شوند و کاربران یک سرویس پایدار را می بینند.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.