ماتریس تشدید
1) هدف ماتریس
ماتریس تشدید قوانین یکنواخت در مورد اینکه چه کسی و چه زمانی متصل می شود، به طوری که حوادث به سرعت از هرج و مرج به یک فرآیند مدیریت شده حرکت می کنند. او مجموعه:- سطح SEV و معیارهای آنها ؛
- زمان بندی (تشخیص ack → → تشدید → به روز رسانی) ؛
- نقش ها/کانال ها برای هر مرحله
- استثنا (بدون ساعت آرام برای امنیت و انطباق)
- یک بسته نرم افزاری با playbooks و یک صفحه وضعیت.
2) طبقه بندی بر اساس شدت (SEV)
شماره های هدف برای دامنه و SLO خود را مشخص کنید.
3) ماتریس چه کسی/چه زمانی/کجا
4) درخت تشدید حیاتی (جوهر)
1. تاثیر تایید شده در SLO ؟
→ بله: اختصاص یک IC، اعلام SEV، باز کردن یک اتاق جنگ.
→ نه: بلیط/مشاهده، بدون صفحه.
2. یک ACK در زمان ؟
→ بله: ما در امتداد کتاب بازی ادامه می دهیم.
→ نه: P2 → IC → DM (نردبان در زمان).
3. امنیت/نشت/PII ؟
→ همیشه امنیت IR + ارتباطات حقوقی و عمومی هماهنگ شده است.
4. ارائه دهنده خارجی ؟
→ فروشنده تشدید مالک، تغییر مسیر، ثابت در وضعیت.
5) نقش ها و مسئولیت های تشدید (کوتاه)
P1 (اولیه): تریاژ، شروع playbook، پیوند به IC.
P2 (ثانویه): پشتیبان گیری، اقدامات پیچیده، حفظ متن.
IC (فرمانده حادثه): اعلام SEV، تصمیم می گیرد توقف/عقب نشینی، نگه می دارد سرعت.
مدیر وظیفه: قفل ها را حذف می کند، منابع را توزیع می کند، تصمیمات سازمانی را می گیرد.
ارتباطات: صفحه وضعیت، به روز رسانی SLA.
امنیت IR: انزوا، پزشکی قانونی، اطلاعیه های قانونی.
صاحب فروشنده: ارائه دهندگان خارجی، تعویض/بازپرداخت.
6) راهنماهای موقت (نشانه ها)
: ACK 5 ، اعلام 10، Comms اول 15، به روز رسانی q = 15-30.
نردبان پله برقی: P1 → P2 (5 متر) → IC (10 متر) → مدیر وظیفه (15 متر) → Exec on-call (30 متر).
امنیت: بدون تاخیر و «ساعت آرام»، به روز رسانی q = 15 متر است.
7) مسیریابی و تقسیم بندی
با سرویس/منطقه/مستاجر: کلید مسیریابی = «سرویس + منطقه + مستاجر».
حد نصاب پروب ها: فقط در صورت تأیید ≥2 منبع مستقل (مصنوعی از 2 منطقه + RUM/SLI تجاری) تشدید می شود.
Dedup: یک هشدار کارشناسی ارشد به جای ده ها تن از علائم (DB «قرمز» سر و صدای 5xx را سرکوب می کند).
8) استثنائات و حالت های خاص
امنیت/قانونی: افزایش امنیت IR و قانونی خارج از نوبت ؛ پیام های عمومی فقط از طریق هماهنگی.
ارائه دهندگان: ماتریس OLA/SLA جداگانه (مخاطبین، مناطق زمانی، اولویت).
Change Freeze: در صورت SEV-1/0 - فریز کردن خودکار نسخه ها و پیکربندی ها.
9) معیارهای بلوغ ماتریس
Ack p95 (SEV-1/0) ≤ 5 دقیقه
زمان اعلام (متوسط) ≤ 10 دقیقه.
Comms SLA پایبندی ≥ 95٪.
موفقیت تشدید (حل شده در سطح P1/P2) ≥ 70٪.
افزایش بدون ACK ↓ QoQ
زمان پاسخ فروشنده برای ارائه دهندگان مهم در قرارداد.
10) چک لیست
آنلاین (برای تماس)
- تاثیر SLO و SEV بالقوه شناسایی شده است.
- ACK ساخته شده و IC اختصاص داده شده (برای SEV-1/0).
- اتاق جنگ باز، دفترچه راهنما متصل شده است.
- به روز رسانی وضعیت منتشر شده/برنامه ریزی شده توسط SLA.
- یخ فعال (در صورت نیاز)، ارائه دهنده/امنیت افزایش یافته است.
فرآیند (بررسی هفتگی)
- آیا نردبان تشدید در SLA کار می کند ؟
- آیا هیچ افزایش غیر ضروری قبل از IC وجود دارد ؟
آیا اطلاعیه های مشتری به موقع و دقیق است ؟
- آیا مسدود کننده ها (دسترسی، مخاطبین ارائه دهنده، کانال خاموش) وجود داشت ؟
- CAPA ها برای شکست فرآیند نیز در جای خود قرار دارند.
11) قالب ها
11. 1 سیاست تشدید (ایده YAML)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 کارت تشدید زمان (برای ربات)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 الگو برای اولین به روز رسانی عمومی
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) ادغام
Alert-as-Code: هر قانون صفحه دقیقا یک playbook را ارجاع می دهد و ماتریس تشدید خود را می داند.
ChatOps: دستورات «/اعلام sev1 »، «/صفحه p2»، «/به روز رسانی وضعیت »، تایمر خودکار به روز رسانی.
CMDB/کاتالوگ: این سرویس دارای صاحبان، در تماس، ماتریس، ارائه دهندگان، کانال ها است.
صفحه وضعیت: قالب برای SEV-1/0، تاریخ به روز رسانی، لینک به RCA.
13) ضد الگوهای
«تشدید همه در یک بار» → سر و صدا و مسئولیت تار.
بدون IC/اتاق جنگ - راه حل خزش به چت.
تاخیر در به روز رسانی اول - افزایش شکایات و خطرات روابط عمومی.
بدون استثنا امنیتی - خطرات قانونی.
ارائه دهندگان خارجی بدون مالک و مخاطبین.
پله ها خودکار نیستند - همه چیز «بر روی ترمز دستی» است.
14) نقشه راه پیاده سازی (3-5 هفته)
1. «ند». 1: رفع معیارهای SEV و زمان بندی ؛ جمع آوری اطلاعات تماس نقش/ارائه دهنده کانال را انتخاب کنید.
2. «ند». 2: سیاست (YAML) را توصیف کنید، به Alert-as-Code متصل شوید، نردبان را در پیجر/ربات روشن کنید.
3. «ند». 3: خلبان در 2-3 خدمات بحرانی ؛ اشکال زدایی SLA Comms و قالب ها.
4. «ند». ۴-۵: گسترش پوشش، معرفی هفتگی Escalation Review و معیارهای بلوغ.
15) خط پایین
ماتریس تشدید، قانون اساسی عملیاتی حوادث است: چه کسی، چه زمانی و چگونه متصل می شود. با SEVs روشن، زمان بندی، کانال ها، استثنائات امنیتی و ادغام با playbooks و یک صفحه وضعیت، تیم به سرعت، منسجم و شفاف واکنش نشان می دهد، و کاربران را ببینید به روز رسانی قابل پیش بینی و بهبود خدمات اعتماد به نفس.