GH GambleHub

ماتریس تشدید

1) هدف ماتریس

ماتریس تشدید قوانین یکنواخت در مورد اینکه چه کسی و چه زمانی متصل می شود، به طوری که حوادث به سرعت از هرج و مرج به یک فرآیند مدیریت شده حرکت می کنند. او مجموعه:
  • سطح SEV و معیارهای آنها ؛
  • زمان بندی (تشخیص ack → → تشدید → به روز رسانی) ؛
  • نقش ها/کانال ها برای هر مرحله
  • استثنا (بدون ساعت آرام برای امنیت و انطباق)
  • یک بسته نرم افزاری با playbooks و یک صفحه وضعیت.

2) طبقه بندی بر اساس شدت (SEV)

سئوتاثیر گذارینمونه هااهداف زمان
SEV-0عدم دسترسی کامل کسب و کار/داده های کلیدیمنطقه ای پایین، از دست دادن داده ها Tier-0اعلام ≤ 5 м ؛ اولین ارتباطات ≤ 10 м ؛ MTTR - ASAP
SEV-1تخریب SLO جدیپرداخت -3٪ به SLO، p95> 400 میلی ثانیه10 ≤ м اعلام کنید اولین ارتباطات ≤ 15 м ؛ به روز رسانی q = 15-30 м
SEV-2تخریب جزئی/دور زدن امکان پذیر استیک ارائه دهنده می افتد، folback وجود دارد۲۰ ≤ м اعلام کنید ارتباطات به عنوان مورد نیاز
SEV-3تاثیر کم/داخلیغیر مشتری موثر بر شکستبدون به روز رسانی عمومی

شماره های هدف برای دامنه و SLO خود را مشخص کنید.

3) ماتریس چه کسی/چه زمانی/کجا

رویداد هازمان بندیچه کسی آغاز می کندچه کسی را تشدید می کنیمکانال/ابزارنظر دادن
تشخیص (صفحه)T0 بلافاصلهMonitoring/P1P1پیجر/چت # هشدارها-svcضمیمه خودکار دفترچه راهنما
صفحه ACK≤ 5 دقیقه (SEV-1/0)P1صفحه بندیاگر ACK وجود ندارد - افزایش خودکار
بدون ACK5 دقیقهصفحه بندیP2پیجر/صدابیشتر - IC در 5-10 دقیقه
اعلام SEV-1/0≤ 10 دقیقهIC/P1مدیر وظیفه، ارتباطات# اتاق جنگ- ، صفحه وضعیتانتشار یخ زده
اولین ارتباطات≤ 15 دقیقهارتباطات (توسط IC)مشتریان/بین المللی شرکت کنندگانصفحه وضعیت/پست الکترونیکیقالب ضربه-دیاگ-کنشها-ETA
ماشه امنیتیبلافاصلهامنیت IRIC، حقوقی، اجراییاتاق جنگ #secبدون ساعات سکوت
ارائه دهنده قرمز≤ 5 دقیقه پس از تاییدفروشنده مالکIC، محصولفروشنده کانال/ایمیلآغاز تعویض
بدون به روز رسانی> 30 دقیقه (SEV-1/0)قایق سواریIC/ارتباطاتاتاق جنگبه روز رسانی یادآوری SLA

4) درخت تشدید حیاتی (جوهر)

1. تاثیر تایید شده در SLO ؟

→ بله: اختصاص یک IC، اعلام SEV، باز کردن یک اتاق جنگ.
→ نه: بلیط/مشاهده، بدون صفحه.

2. یک ACK در زمان ؟

→ بله: ما در امتداد کتاب بازی ادامه می دهیم.
→ نه: P2 → IC → DM (نردبان در زمان).

3. امنیت/نشت/PII ؟

→ همیشه امنیت IR + ارتباطات حقوقی و عمومی هماهنگ شده است.

4. ارائه دهنده خارجی ؟

→ فروشنده تشدید مالک، تغییر مسیر، ثابت در وضعیت.

5) نقش ها و مسئولیت های تشدید (کوتاه)

P1 (اولیه): تریاژ، شروع playbook، پیوند به IC.
P2 (ثانویه): پشتیبان گیری، اقدامات پیچیده، حفظ متن.
IC (فرمانده حادثه): اعلام SEV، تصمیم می گیرد توقف/عقب نشینی، نگه می دارد سرعت.
مدیر وظیفه: قفل ها را حذف می کند، منابع را توزیع می کند، تصمیمات سازمانی را می گیرد.
ارتباطات: صفحه وضعیت، به روز رسانی SLA.
امنیت IR: انزوا، پزشکی قانونی، اطلاعیه های قانونی.
صاحب فروشنده: ارائه دهندگان خارجی، تعویض/بازپرداخت.

6) راهنماهای موقت (نشانه ها)

: ACK 5 ، اعلام 10، Comms اول 15، به روز رسانی q = 15-30.
نردبان پله برقی: P1 → P2 (5 متر) → IC (10 متر) → مدیر وظیفه (15 متر) → Exec on-call (30 متر).
امنیت: بدون تاخیر و «ساعت آرام»، به روز رسانی q = 15 متر است.

7) مسیریابی و تقسیم بندی

با سرویس/منطقه/مستاجر: کلید مسیریابی = «سرویس + منطقه + مستاجر».
حد نصاب پروب ها: فقط در صورت تأیید ≥2 منبع مستقل (مصنوعی از 2 منطقه + RUM/SLI تجاری) تشدید می شود.
Dedup: یک هشدار کارشناسی ارشد به جای ده ها تن از علائم (DB «قرمز» سر و صدای 5xx را سرکوب می کند).

8) استثنائات و حالت های خاص

امنیت/قانونی: افزایش امنیت IR و قانونی خارج از نوبت ؛ پیام های عمومی فقط از طریق هماهنگی.
ارائه دهندگان: ماتریس OLA/SLA جداگانه (مخاطبین، مناطق زمانی، اولویت).
Change Freeze: در صورت SEV-1/0 - فریز کردن خودکار نسخه ها و پیکربندی ها.

9) معیارهای بلوغ ماتریس

Ack p95 (SEV-1/0) ≤ 5 دقیقه

زمان اعلام (متوسط) ≤ 10 دقیقه.
Comms SLA پایبندی ≥ 95٪.
موفقیت تشدید (حل شده در سطح P1/P2) ≥ 70٪.

افزایش بدون ACK ↓ QoQ

زمان پاسخ فروشنده برای ارائه دهندگان مهم در قرارداد.

10) چک لیست

آنلاین (برای تماس)

  • تاثیر SLO و SEV بالقوه شناسایی شده است.
  • ACK ساخته شده و IC اختصاص داده شده (برای SEV-1/0).
  • اتاق جنگ باز، دفترچه راهنما متصل شده است.
  • به روز رسانی وضعیت منتشر شده/برنامه ریزی شده توسط SLA.
  • یخ فعال (در صورت نیاز)، ارائه دهنده/امنیت افزایش یافته است.

فرآیند (بررسی هفتگی)

  • آیا نردبان تشدید در SLA کار می کند ؟
  • آیا هیچ افزایش غیر ضروری قبل از IC وجود دارد ؟

آیا اطلاعیه های مشتری به موقع و دقیق است ؟

  • آیا مسدود کننده ها (دسترسی، مخاطبین ارائه دهنده، کانال خاموش) وجود داشت ؟
  • CAPA ها برای شکست فرآیند نیز در جای خود قرار دارند.

11) قالب ها

11. 1 سیاست تشدید (ایده YAML)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 کارت تشدید زمان (برای ربات)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 الگو برای اولین به روز رسانی عمومی


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) ادغام

Alert-as-Code: هر قانون صفحه دقیقا یک playbook را ارجاع می دهد و ماتریس تشدید خود را می داند.
ChatOps: دستورات «/اعلام sev1 »، «/صفحه p2»، «/به روز رسانی وضعیت »، تایمر خودکار به روز رسانی.
CMDB/کاتالوگ: این سرویس دارای صاحبان، در تماس، ماتریس، ارائه دهندگان، کانال ها است.
صفحه وضعیت: قالب برای SEV-1/0، تاریخ به روز رسانی، لینک به RCA.

13) ضد الگوهای

«تشدید همه در یک بار» → سر و صدا و مسئولیت تار.
بدون IC/اتاق جنگ - راه حل خزش به چت.
تاخیر در به روز رسانی اول - افزایش شکایات و خطرات روابط عمومی.
بدون استثنا امنیتی - خطرات قانونی.
ارائه دهندگان خارجی بدون مالک و مخاطبین.
پله ها خودکار نیستند - همه چیز «بر روی ترمز دستی» است.

14) نقشه راه پیاده سازی (3-5 هفته)

1. «ند». 1: رفع معیارهای SEV و زمان بندی ؛ جمع آوری اطلاعات تماس نقش/ارائه دهنده کانال را انتخاب کنید.
2. «ند». 2: سیاست (YAML) را توصیف کنید، به Alert-as-Code متصل شوید، نردبان را در پیجر/ربات روشن کنید.
3. «ند». 3: خلبان در 2-3 خدمات بحرانی ؛ اشکال زدایی SLA Comms و قالب ها.
4. «ند». ۴-۵: گسترش پوشش، معرفی هفتگی Escalation Review و معیارهای بلوغ.

15) خط پایین

ماتریس تشدید، قانون اساسی عملیاتی حوادث است: چه کسی، چه زمانی و چگونه متصل می شود. با SEVs روشن، زمان بندی، کانال ها، استثنائات امنیتی و ادغام با playbooks و یک صفحه وضعیت، تیم به سرعت، منسجم و شفاف واکنش نشان می دهد، و کاربران را ببینید به روز رسانی قابل پیش بینی و بهبود خدمات اعتماد به نفس.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.