افزایش حوادث
1) اهداف و اصول
تشدید حادثه فرآیند مدیریت شده جذب سریع نقش ها و منابع مناسب برای به حداقل رساندن تأثیر بر کاربران و معیارهای تجاری است.
اصول کلیدی:- سرعت مهمتر از ایده آل بودن است. بهتر است حادثه را زودتر اعلام کنید تا اینکه دیر شود.
- فرماندهی یکپارچه یکی از افراد مسئول راه حل، فرمانده حادثه (IC) است.
- شفافیت. وضعیت های روشن و کانال های ارتباطی برای ذینفعان داخلی و خارجی.
- قابلیت مستند سازی تمام مراحل، تصمیمات و جدول زمانی برای حسابرسی و بهبود گرفته شده است.
2) درجه بندی شدت (SEV/P-سطح)
مقیاس مثال (انطباق با دامنه/حوزه های قضایی):- SEV-0/P0 (بحرانی) - در دسترس نبودن کامل از تابع کلیدی (ورود/پرداخت)، نشت داده ها، خطر قانونی است. صفحه بندی فوری کل هسته در تماس، انتشار یخ.
- SEV-1/P1 (بالا) - p95/p99 تخریب، افزایش سهم خطاها/شکست در روند کلیدی، عدم دسترسی منطقه/ارائه دهنده.
- SEV-2/P2 (متوسط) - تخریب جزئی برای یک گروه محدود (منطقه، ارائه دهنده)، یک راه حل وجود دارد.
- SEV-3/P3 (کم) - برای کاربر مهم نیست، اما نیاز به توجه (تاخیر پس زمینه ETL، گزارش عقب افتاده).
- شعاع ضایعه (چگونه بسیاری از کاربران/گردش) × مدت زمان × حساسیت (نظارتی/روابط عمومی) → سطح SEV.
3) KPI فرآیند
MTTD (زمان تشخیص) - از آغاز حادثه تا اولین سیگنال.
MTTA (زمان دریافت) - سیگنال به تصدیق IC.
MTTR (زمان بازیابی) - تا زمانی که SLO/عملکرد بازسازی شود.
Escalation Latency - از تأیید تا اتصال نقش/فرمان مورد نظر.
نرخ بازگشایی: نسبت حوادث بازگشایی شده پس از «حل و فصل».
Comm SLA - انطباق با فواصل به روز رسانی های خارجی/داخلی.
4) نقشها و مسئولیتها (RACI)
فرمانده حادثه (IC): صاحب راه حل، سطح، برنامه، توقف، تشدید، کاهش تنش را تعیین می کند. اصلاحات را نمی نویسد.
سرب فنی (TL): تشخیص فنی، فرضیه ها، هماهنگی مهندسان.
سرب Comms (CL): صفحات وضعیت، مشتری و ارتباطات داخلی، هماهنگی با حقوقی/روابط عمومی.
Scribe: ضبط دقیق حقایق، جدول زمانی، تصمیمات گرفته شده.
ارتباطات: نمایندگان ارائه دهندگان/تیم های خارجی (پرداخت، KYC، میزبانی).
مهندسین تماس: اجرای طرح، راه اندازی playbooks/rollbacks.
اختصاص برنامه های وظیفه و پشتیبان گیری برای هر نقش.
5) کانال ها و مصنوعات
کانال اتاق جنگ (ChatOps): یک نقطه هماهنگی (Slack/Teams) با یک قالب خودکار حاشیه نویسی (نسخه ها، پرچم ها، قناری ها).
پل ویدئو برای SEV-1 +.
بلیط حادثه (یک پیجر): ID، SEV، IC، شرکت کنندگان، فرضیه/تشخیص، مراحل، ETA، وضعیت، ضربه، لینک به نمودار.
صفحه وضعیت: عمومی/داخلی ؛ برنامه به روز رسانی منظم (به عنوان مثال، هر 15-30 دقیقه برای SEV-1 +).
6) جعبه های زمان و فواصل استاندارد
T0 (دقیقه 0-5): IC اختصاص داده شده، SEV اختصاص داده شده، انتشار یخ (در صورت لزوم)، اتاق جنگ باز است.
T + 15 دقیقه: اولین پیام عمومی/داخلی (چه چیزی تحت تاثیر قرار می گیرد، راه حل، پنجره به روز رسانی بعدی).
T + 30/60 دقیقه: تشدید سطح بعدی (پلت فرم/DB/امنیت/ارائه دهندگان)، اگر پویایی پایدار وجود ندارد.
به روز رسانی به طور منظم: SEV-0: هر 15 دقیقه ؛ SEV-1: هر 30 دقیقه SEV-2 +: هر ساعت
7) قوانین تشدید خودکار (سیاست های ماشه)
ثبت شده به عنوان کد و متصل به نظارت/هشدار:- بودجه خطای نرخ سوختگی بالاتر از آستانه در پنجره های کوتاه و بلند.
- حد نصاب از نمونه های خارجی: ≥2 مناطق ضبط تخریب HTTP/TLS/DNS.
- SLI کسب و کار (موفقیت پرداخت/ثبت نام) زیر SLO است.
- امضاهای امنیتی: مشکوک به نشت/مصالحه.
- سیگنال ارائه دهنده: وضعیت webhook «قطع عمده».
8) فرآیند از کشف تا راه حل
1. اعلامیه حادثه (IC): SEV، پوشش، انجماد، راه اندازی playbook.
2. تشخیص (TL): فرضیه ها، جداسازی شعاع (منطقه، ارائه دهنده، ویژگی)، چک (DNS/TLS/CDN/DB/caches/bus).
3. اقدامات کاهش (پیروزی سریع): بازگشت/ ↓ قناری، ویژگی پرچم تخریب، خرابی ارائه دهنده، محدودیت نرخ، پوشش کش.
4. ارتباطات (CL): صفحه وضعیت، مشتریان/شرکا، حقوقی/PR، به روز رسانی در برنامه.
5. تایید بازیابی: synthetics خارجی + معیارهای واقعی (SLI)، حذف یخ.
6. کاهش تنش: کاهش در SEV، انتقال به مشاهده N دقیقه/ساعت.
7. بسته شدن و RCA: آماده سازی پس از مرگ، موارد عمل، صاحبان و زمان بندی.
9) همکاری با ارائه دهندگان خارجی
نمونه های خود را به ارائه دهندگان از چندین منطقه + نمونه های ورود به سیستم آینه از درخواست/خطا.
موافقت نامه های تشدید (مخاطبین، SLA های پاسخ، اولویت، وب سایت های وضعیت).
خودکار شکست/انتقال ترافیک از طریق ارائه دهنده SLO.
پایه شواهد: جدول زمانی، درخواست نمونه/پاسخ، نمودار تاخیر/خطا، ID بلیط ارائه دهنده.
10) مقررات، ایمنی و روابط عمومی
Security/P0: جداسازی، جمع آوری مصنوعات، به حداقل رساندن افشای، اطلاعیه های اجباری (داخلی/خارجی/تنظیم کننده).
قانونی: تصویب جمله بندی به روز رسانی های خارجی، حسابداری SLA/جریمه های قراردادی.
PR/خدمات مشتری: قالب های پاسخ آماده، پرسش و پاسخ، جبران خسارت/اعتبار (در صورت لزوم).
11) قالب های پیام
اولیه (T + 15):- "ما در حال بررسی یک حادثه SEV-1 موثر بر [تابع/منطقه]. علائم: [به طور خلاصه] ما راه حل را فعال کردیم. خبر بعدی در [زمان] است"
- "تشخیص: [فرضیه/تایید]. اقدامات: [switched provider/rolled back release/enabled degradation]. تاثیر به [درصد/کوهورت] کاهش می یابد. گام بعدی [زمان] است"
- این حادثه SEV-1 حل نشده است. دلیل: [ریشه] زمان بازیابی: [MTTR]. مراحل بعدی: [fix/checks/watch N hours]. پست مورتم - [وقتی/کجا]"
12) کتاب های بازی (نمونه)
کاهش موفقیت پرداخت: کاهش سهم در ارائه دهنده A، انتقال X٪ به B ؛ فعال کردن کاهش پرداخت-UX شامل retras در محدودیت; به فرمان فين خبر بده.
رشد API p99: کاهش قناری از نسخه جدید ؛ ویژگی های سنگین را خاموش کنید افزایش کش TTL ؛ شاخص های DB/اتصالات را بررسی کنید.
مشکل DNS/TLS/CDN: تأیید گواهینامه ها/زنجیره ؛ به روز رسانی رکورد سوئیچ به CDN آماده به کار بازسازی کش.
سوء ظن امنیتی: جداسازی گره، چرخش کلید، فعال کردن قلم mTLS، جمع آوری مصنوعات، اطلاع رسانی قانونی.
13) تنش زدایی و معیارهای «حل و فصل»
یک حادثه کاهش می یابد اگر:- SLI/SLO پایدار در منطقه سبز ≥ فواصل N ؛
- اقدامات کاهش دهنده و مشاهده انجام شد - بدون رگرسیون ؛
- برای کلاس امنیتی - بردارها بسته می شوند، کلید ها/اسرار چرخانده می شوند.
بستن - تنها پس از تثبیت جدول زمانی، صاحبان آیتم های عمل و مهلت.
14) پس از مرگ (غیر تنبیهی)
ساختار:1. آمار (جدول زمانی، آنچه کاربران/معیارها دیده اند).
2. علت ریشه (فنی/فرآیند).
3. چه چیزی در تشدید کار کار کرد/کار نکرد.
4. اقدامات پیشگیرانه (تست ها، هشدارها، محدودیت ها، معماری).
5. برنامه عملی با مهلت و صاحبان.
6. پیوند به بودجه خطا و SLO/فرآیندها را تجدید نظر کنید.
15) معیارهای بلوغ فرآیند
درصد حوادث گزارش شده قبل از شکایت کاربران
MTTA توسط سطوح SEV ؛ زمان برای اتصال نقش مورد نظر.
انطباق با فواصل به روز رسانی (COMM SLA).
درصد حوادث حل شده توسط playbooks بدون «خلاقیت» دستی.
اجرای آیتم های عمل از پس از مرگ در زمان.
16) ضد الگوهای
«کسی کاری انجام دهد» - بدون IC/نقش.
Polyphony در اتاق جنگ اختلاف نظر در مورد نسخه ها به جای اقدامات است.
از دست دادن زمان برای جمع آوری مردم.
بدون حاشیه نویسی انجماد و انتشار - تغییرات همزمان علت را پنهان می کند.
فقدان ارتباطات خارجی - افزایش شکایات/خطر روابط عمومی
بستن بدون پس از مرگ و اقدامات - ما همان اشتباهات را تکرار می کنیم.
17) چک لیست IC (کارت جیبی)
- اختصاص یک SEV و باز کردن جنگ اتاق.
- اختصاص TL، CL، کاتب، چک در تماس حاضر.
- فعال کردن انتشار یخ (اگر SEV-1 +).
- منابع حقیقت را تأیید کنید: داشبورد SLI، مصنوعی، سیاهههای مربوط، ردیابی.
- اقدامات کاهش سریع (بازگشت/پرچم/شکست) را بپذیرید.
- ارائه به روز رسانی منظم برنامه ریزی شده.
- معیارهای ضبط برای حل و فصل و نظارت پس از بازیابی.
- آغاز پس از مرگ و اختصاص صاحبان آیتم های عمل.
18) تعبیه در عملیات روزانه
روزهای بازی: شبیه سازی در سناریوهای کلیدی
کاتالوگ Playbook: نسخه، تست شده، با پارامترها.
ابزار: دستورات ChatOps «/declare «، «/page »، «/status «، «/rollback».
ادغام: بلیط، صفحه وضعیت، پس از مرگ، کاتالوگ CMDB/خدمات.
مذاکره با SLO/Error Budget: باعث تشدید خودکار و توقف قوانین می شود.
19) خط پایین
تشدید یک نظم عملیاتی است، نه فقط یک تماس به همراه. پاک کردن سطوح SEV اختصاص داده شده توسط IC، playbooks آماده، به روز رسانی timeboxes، و ادغام با معیارهای SLO و سیاست های بودجه، یک آتش سوزی هرج و مرج را به یک فرایند قابل کنترل با یک نتیجه قابل پیش بینی تبدیل می کند - بهبود سریع خدمات، حداقل خطر PR/نظارتی و بهبود سیستمیک پس از هر حادثه.