GH GambleHub

نقش ها و مسئولیت ها در عملیات

1) چرا نقش ها را رسمی می کنید

تخصیص نقش واضح MTTA/MTTR را کاهش می دهد، مناطق خاکستری را از بین می برد، سرعت انتشار را افزایش می دهد و SLO/انطباق را قابل تکرار می کند. نقش ها = مسئولیت + اقتدار + رابط ها (به چه کسی می نویسیم، چه کسی ما را تشدید می کند، چه تصمیماتی مجاز هستند).

2) مدل RACI عمومی

R (مسئول) - کار را انجام می دهد.
A (پاسخگو) - مسئولیت نهایی را بر عهده دارد و تصمیم می گیرد.
C (مشورت) - متخصص، قبل/در طول مشورت.
من (مطلع) - توسط SLA مطلع شده است.

مثال سطح بالا:
فرآیند پردازشیک نفرتحقیق و توسعهسی شارپمن و تو
حوادث (SEV-1/0)آی سیP1/P2، SRE، تیم مالکامنیت، محصول، داده هاMgmt، پشتیبانی
نسخه های منتشر شدهمدیر انتشار/مالکتوسعه، پلت فرم/SREامنیت، QAپشتیبانی, Mgmt
تغییرات (RFC/CAB)صندلی کابینصاحب سرویسامنیت، SRE، داده هاتیم های آسیب دیده
پنجره های نگهداریصاحب سرویسپلت فرم/SREمحصول، پشتیبانیمشتریان/همکاران
پس از مرگرهبری RCAتیم مالک، کاتبامنیت، داده ها، محصولشرکت MGMT

3) کاتالوگ نقش (شرح و مسئولیت)

3. فرمانده حوادث 1 (IC)

هدف: پاسخ به حادثه SEV-1/0 را هدایت می کند.
قدرت: اعلام SEV، انتشار یخ، سوئیچ ترافیک، تشدید.
وظایف اصلی: جدول زمانی، تصمیم گیری، حفظ تمرکز، تخصیص وظیفه، Go/No-Go.
مصنوعات: کارت حادثه، به روز رسانی SLA، AAR نهایی.

3. 2 P1/P2 در تماس (اولیه/ثانویه)

هدف: پاسخ اولیه و اقدامات فنی.
P1: triage، playbooks در حال اجرا، ارتباط با IC.
P2: پشتیبان گیری، تغییرات پیچیده، حفظ زمینه، در طوفان - طول می کشد substreams.

3. 3 مهندس SRE/پلت فرم

هدف: قابلیت اطمینان پلت فرم و نرده (SLO، هشدار، GitOps، autoscale، DR).
وظایف: SLI/SLO، بهداشت هشدار، نسخه های پیشرفته، زیرساخت به عنوان کد، ظرفیت، قابلیت مشاهده.
در طول حادثه: تشخیص ریشه، rollbacks/folbacks، degrade-UX فعال شده است.

3. 4 مالک خدمات/مالک محصول

هدف: کیفیت خدمات در مفهوم کسب و کار.
وظایف: تعریف SLO/اولویت ها، هماهنگی انتشار/ویندوز، شرکت در Go/No-Go.
Comms: تصمیم گیری در مورد زمان و چه چیزی به مشتریان در کنار Comms.

3. 5 مدیر انتشار

هدف: تحویل تغییر امن.
وظایف: هماهنگ از انتشار، بررسی از دروازه، قناری/آبی سبز، حاشیه نویسی از انتشار، یخ برای حوادث.

3. 6 صندلی CAB/تغییر مدیر

هدف: تغییر مدیریت ریسک

وظایف: فرآیند RFC، طرح/عقب نشینی، تقویم درگیری، مصوبات با خطر بالا.

3. 7 RCA سرب/مدیر مشکل

هدف: گزارش پس از حادثه، CAPA.
اهداف: جدول زمانی، علیت شواهد، اقدامات برای اصلاح/جلوگیری، کنترل D + 14/D + 30.

3. 8 امنیت (رهبری IR، AppSec/CloudSec)

هدف: امنیت و پاسخ به حادثه

وظایف: حوادث امنیتی triage، چرخش کلید، انزوا، پزشکی قانونی، اطلاعیه های نظارتی، حسابرسی WORM.

3. 9 DataOps/تجزیه و تحلیل

هدف: قابلیت اطمینان داده ها و خطوط لوله.
اهداف: تازگی/کیفیت (DQ)، قراردادهای داده، اصل و نسب، backfills، SLA BI/گزارش.

3. 10 عملیات مالی

هدف: ارزش مدیریت شده

وظایف: سهمیه/محدودیت ها, گزارش $/واحد, دروازه های بودجه, بهینه سازی (حجم ورود به سیستم, خروج, رزرو).

3. 11 انطباق/قانونی

هدف: انطباق قانونی و قراردادی.
وظایف: شرایط اطلاع رسانی، حفظ/تغییرناپذیری شواهد، هماهنگی متون عمومی.

3. 12 پشتیبانی/ارتباطات

هدف: ارتباط با مشتریان/ذینفعان داخلی.
وظایف: صفحه وضعیت، مدل های به روز رسانی، فرکانس و وضوح پیام ها، مجموعه بازخورد.

3. 13 فروشنده مدیر/ارائه دهنده مالک

هدف: روابط با ارائه دهندگان خارجی (PSP/KYC/CDN، و غیره).
وظایف: تشدید، SLA/OLA، مسیرهای پشتیبان گیری، هماهنگی پنجره.

4) نقش در تغییر و تشدید

تغییر: P1/P2 + IC-of-the-day (با P1 ترکیب نکنید).
تشدید زمان: P1 → P2 (5 دقیقه بدون ACK) → IC (10 دقیقه) → مدیر وظیفه (15 دقیقه).

ساعت های آرام: سیگنال های P2/P3 از خواب بیدار نمی شوند. سیگنال های امنیتی - همیشه

5) رابط های تعامل (با چه کسی و چگونه)

IC ↔ مدیر انتشار: راه حل های یخ/رول بک.
IC ↔ Comms: به روز رسانی متون و فرکانس.
SRE ↔ DataOps: SLI کسب و کار (موفقیت پرداخت، طراوت داده ها) در SLO-gardrails.
امنیت ↔ قانونی: گزارش حوادث امنیتی، دوره های اطلاع رسانی.
فروشنده صاحب ↔ IC: وضعیت ارائه دهنده، switchover/folback.

6) KPI توسط نقش (معیار)

IC: زمان اعلام، انطباق Comms SLA، MTTR توسط SEV-1/0.
P1/P2: MTTA, زمان به اولین اقدام,% دنبال playbooks.
SRE/Platform: پوشش SLO، بهداشت هشدار،٪ بازگشت خودکار موفق.
مدیر انتشار: تغییر نرخ شکست، پنجره های در زمان، میانگین زمان بازگشت.
سرب RCA: زمان سرب پس از مرگ، تکمیل/تأخیر CAPA، بازگشایی ≤ 5-10٪.
امنیت: میانگین زمان برای نگهداری، زمان چرخش راز/Cert.
DataOps: تازگی SLO پایبندی، نرخ موفقیت Backfills.
Comms: دقت وضعیت، میزان شکایت/حادثه.
FinOps: $/واحد،٪ QoQ صرفه جویی، انطباق سهمیه.

7) قالب کارت نقش

7. 1 کارت آی سی


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. 2 کارت P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 کارت مدیر انتشار


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) فرآیندها و مشارکت نقش (خلاصه)

فرآیند پردازشآی سیP1/P2SRE/پلت فرممالک اصلیرها کردنتاکسیامنیتعملیات داده هاارتباطاتفروشنده
حادثه رخ داده استیک نفرتحقیق و توسعهتحقیق و توسعهسی شارپمن و تومن و توسی شارپسی شارپتحقیق و توسعهسی شارپ
رها کردنمن و تومن و توسی شارپیک نفرتحقیق و توسعهسی شارپسی شارپسی شارپمن و تومن و تو
RFC/پنجرهمن و تومن و توتحقیق و توسعهیک نفرسی شارپیک نفرسی شارپسی شارپسی شارپسی شارپ
پس از مرگیک نفرتحقیق و توسعهتحقیق و توسعهسی شارپسی شارپمن و توسی شارپسی شارپمن و تومن و تو

A - پاسخگو، R - مسئول، C - مشورت، من - مطلع.

9) چک لیست

9. 1 تخصیص نقش ها

  • هر نقش یک مالک، یک جایگزین و یک منطقه پوشش دارد.
  • مجوزها (چه تصمیماتی می توانند بگیرند) توصیف می شوند.
  • کتابهای بازی و لینک ها.
  • SLA ها منتشر شده توسط واکنش/comms.
  • نقش در CMDB برای هر سرویس در دسترس است.

9. 2 تغییر و تحویل

  • Shift card updated (حوادث فعال، خطرات، پنجره ها).
  • دسترسی JIT/JEA تایید شده است.
  • پیام اکو به کانال «تغییر پذیرفته/گذشت».

9. 3 پس از حادثه

  • AAR انجام شده، RCA اختصاص داده شده است.
  • CAPA با صاحبان/مهلت، D + 14/D + 30 کنترل.
  • به روز شده playbooks/هشدار/سیاست.

10) ضد الگوهای

نامشخص «چه کسی تصمیم می گیرد» → تاخیر و تلاش های تکراری.

IC همراه با P1 - از دست دادن رهبری

ارتباطات عمومی بدون توافق با حقوقی/Comms.
انتشار بدون مدیر انتشار و گیتس → رشد CFR.
بدون رزرو نقش (بیماری/ترک).
«قهرمانی» به جای فرآیند: ما به صورت دستی ذخیره می کنیم، اما نرده را تعمیر نمی کنیم.
نقش ها در کاتالوگ CMDB/Service → پله های گمشده منعکس نمی شود.

11) جاسازی در ابزار

ChatOps: команды «/who oncall »، «/اعلام sev1»، «/freeze »، «/rollback»، «/status update ».
دایرکتوری/CMDB: این سرویس دارای مالک، در تماس، SLO، داشبورد، playbooks، ویندوز است.
Alert-as-Code: هر صفحه دارای یک مالک و یک playbook پیش فرض است.
GitOps: راه حل های IC/Release در حاشیه نویسی ها و بلیط های انتشار منعکس شده است.

12) معیارهای بلوغ توزیع نقش

پوشش نقش ها در دایرکتوری ها: ≥ 100٪ از خدمات مهم

SLA در تماس: Ack p95 ≤ 5 دقیقه ؛ صفحه طوفان p95 تحت کنترل است.

SLA پس از مرگ: پیش نویس ≤ 72 ساعت ؛ تکمیل CAPA ≥ 85٪

حاکمیت تغییر: ٪ تغییرات پرخطر با RFC/CAB ≥ 95٪

Comms: پایبندی ≥ 95٪، میزان شکایت ↓ QoQ.

13) قالب های کوچک

13. 1 RACI برای سرویس (فایل در مخزن)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 پروفایل نقش (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) خط پایین

عملیات زمانی قوی هستند که نقش ها شفاف، توانمند و به ابزار ساخته شده باشند. کاتالوگ نقش، RACI، رابط های روشن و معیارهای هر نقش، حوادث، انتشار و تغییرات را به فرآیندهای مدیریت شده تبدیل می کند: تصمیم گیری ها به سرعت انجام می شود، خطرات کنترل می شوند و کاربران یک سرویس پایدار را می بینند.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.