پاسخ حادثه و حادثه
(بخش: عملیات و مدیریت)
1) تعریف و اهداف
حادثه - رویدادی که SLO/امنیت/انطباق را نقض می کند یا خطری برای مشتریان، پول، داده ها، شهرت ایجاد می کند.
اهداف واکنش: به سرعت بازگرداندن سرویس، به حداقل رساندن آسیب، تعمیر شواهد، برقراری ارتباط شفاف و جلوگیری از تکرار.
اصول کلیدی
ایمنی اول: حفاظت از مردم/داده ها/پول بیش از ویژگی های.
یک گلو برای خفه کردن: یک فرمانده حادثه (IC) تصمیم می گیرد.
اکنون قابل اجرا: هر فرضیه با یک آزمون/عمل دنبال می شود.
شواهد مهم است: همه چیز ثبت شده است، مصنوعات امضا شده اند، جدول زمانی دقیق است.
2) طبقه بندی (شدت و اولویت)
Trigger: نقض SLO، قانون هشدار، گزارش دستی، حادثه قانونی (DPO/CCO).
3) نقش ها و مسئولیت ها (RACI)
فرمانده حادثه (A) - رهبر حادثه، تنظیم وظیفه، تصمیم گیری، تغییرات IC برای حوادث طولانی.
سرب فنی (R) - تشخیص فنی/رفع، SRE/هماهنگی مهندسی.
Comms سرب (R) - می نویسد به روز رسانی وضعیت (در داخل/خارج)، صاحب صفحه وضعیت.
Scribe (R) - پروتکل، جدول زمانی، مجموعه ای از مصنوعات.
امنیت/حقوقی (C/A برای موارد امنیتی) - ارزیابی ریسک، اطلاعیه های اجباری.
پشتیبانی مشتری (C) - قالب های پاسخ، مسیریابی بلیط.
رابط شریک (C) - ارتباط با ارائه دهندگان/مستاجران.
مدیریت (I) - اطلاعات، تصمیمات تجاری (وام/جبران خسارت).
4) 15 دقیقه اول (قالب)
1. اختصاص یک IC و باز کردن یک کارت حادثه (کانال چت, پل های ویدئویی, جیرا/ردیاب).
2. یک SEV اختصاص دهید و علامت SLO را برطرف کنید (دقیقاً چه چیزی نقض شده است).
- شامل runbooks/runes: circuit-breakers، throttling، تعویض مسیر، توقف تبلیغی ؛
- در صورت سازش - توابع حساس kill-switch.
- 4. دستورات: فناوری سرب - تشخیص ؛ Comms - «برگزاری فنی» (در 10-15 دقیقه - اولین به روز رسانی).
- 5. شناسایی فرضیه ها (سه حداکثر)، اختصاص صاحبان، تنظیم تایمر برای تایید (5-10 دقیقه).
- 6. جمع آوری مصنوعات: عکس های فوری از معیارها، پیکربندی ها، هش های انتشار، سیاهههای مربوط به 'trace _ id'، رسید.
5) ساعت اول (قالب)
ارتباطات v1 (15-20 دقیقه): واقعیت، رسیدن، علائم، آنچه ما انجام می دهیم، به روز رسانی بعدی. بدون حدس و گمان
مرزهای حادثه: کدام مناطق/مستاجران/کانال ها/نسخه ها تحت تاثیر قرار می گیرند.
کنترل آسیب: محدودیت های موقت/محدودیت ها، قطع اتصالات «پر سر و صدا»، فعال سازی حالت تخریب.
پزشکی قانونی: چرخش ورود به سیستم یخ، محافظت از مصنوعات (WORM/امضا).
نقشه راه بازیابی: T + 30/T + 60 با نقاط چک.
6) صفحه ارتباطات و وضعیت
فواصل داخلی: P1 - هر 15 دقیقه، P2 - 30-60 دقیقه.
خارجی: صفحه وضعیت/مستاجران/شرکای SLA.
- آنچه شما می توانید ببینید: «با X: YY UTC، افزایش شکست های پرداخت در منطقه اتحادیه اروپا (p95> 250 ms)»
- اپراتورهای A/B/C 40٪ از ترافیک را ~ می دهند
- آنچه ما انجام می دهیم: "شامل یک مسیر جایگزین، تخفیف تبلیغی ؛ ما با تهیهکننده کار میکنیم" PSP-1
- داده ها/مهلت: «به روز رسانی بعدی در 15 دقیقه»
- جبران خسارت: «اعمال یادداشت های اعتباری به عنوان در هر SLA پس از بسته شدن حادثه»
7) کتاب های بازی (مراجع برای iGaming/fintech)
PriceMismatch (ویترین ≠ پرداخت): ناتوانی نیروی کش, 'fx _ version/tax _ rule _ version' آشتی, انجماد تبلیغی پویا, جبران اختلاف سیاست.
WebhookLag (شرکا/وابستگان): کارگران پوسته پوسته شدن, افزایش دسته ای, retrays اولویت, کلاه موقت در اشتراک های جدید.
قطع پرداخت/تخریب PSP: تعویض به PSP پشتیبان، کاهش زمان خروج مشتری، پاکسازی صف دستی، معاملات خاکستری در قرنطینه.
رانش RTP: مکث جایزه, paytable/چک نسخه, نظارت بر فرمت پنجره, برگشت مشخصات RTP.
Spike Fraud: سرعت/محدودیت ها را محدود می کند، شامل چک کردن KYC اضافی، جدا کردن گروه های مشکوک، دستی بررسی برنده های بالا.
قرار گرفتن در معرض داده/PII: جداسازی سیستم، اطلاع رسانی DPO/حقوقی، موجودی سوابق آسیب دیده، اطلاعیه های نظارتی توسط جدول زمانی.
8) ابزار و رونز (خودکار اقدامات)
Кнопки: مکث تبلیغی, دوباره مسیر, بالا بردن حد, برگشت, کش خیط و پیت کردن, غیر فعال کردن Webhooks, فعال کردن حالت امن.
ریل گارد: حفاظت در برابر «زین کردن» - عقب نشینی محدود است، سیاهههای مربوط امضا شده است، هر عمل ↔ IC/Scribe.
قابلیت اثبات: امضاهای DSSE، هش های عکس فوری، برش های Merkle log.
9) پایان حادثه
معیارهای: SLO بازسازی شده، صف بازخرید، داده ها/پول آشتی، خطرات بسته، ارتباطات ارسال شده است.
مراسم اختتامیه: به روز رسانی وضعیت نهایی، جدول زمانی ثابت، لیست تأثیرات، فرضیه های اولیه علل، تاریخ پس از مرگ اختصاص داده شده است.
10) پس از مرگ (بدون اتهام)
مدت: P1 - ظرف 3 روز کاری ؛ P2 - 5 روز کاری.
محتوا: حقایق/جدول زمانی، علل ریشه (5 Whys/FRAM)، تاثیر (SLO، امور مالی، مشتریان)، آنچه کار می کرد/نه، آیتم های عمل (مالک، مدت، اثر قابل اندازه گیری).
بررسی اثربخشی: پس از 30-60 روز - بررسی عملکرد و معیارها (تکرارپذیری، MTTR، سر و صدای هشدار).
11) معیارهای مدیریت حوادث و SLO ها
MTTD/MTTA/MTTR، تغییر نرخ شکست، زمان به Comms v1،٪ خودکار مجاز (runes).
هشدار سر و صدا: درصد سیگنال های بی ربط، صفحات در هر تغییر در تماس.
تکرار حوادث: نسبت تکرار در 90 روز.
SLA پس از مرگ: نسبت تکمیل/بسته به موقع.
واکنشهای SLO: P1 - اولین ارتباط ≤ 15 دقیقه ؛ MTTR ≤ 60 دقیقه ؛ کامل بودن مصنوعات = 100٪.
12) قانون/انطباق/حریم خصوصی
اطلاعیه های قانونی: زمان بندی تنظیم کننده های محلی برای نشت/حوادث.
به حداقل رساندن PII: دسترسی به اولیه تنها از طریق jabs تایید ؛ نشانه گذاری/ماسک کردن.
ذخیره سازی مصنوعی: سیاهههای مربوط به WORM، دوره نگهداری توسط صلاحیت ؛ کنترل دسترسی (RBAC/ABAC، JIT).
پیمانکاران: SLA های قراردادی، روند تشدید، رسیدهای دادرسی.
13) سازمان وظیفه و تشدید
24 × 7 در تماس: چرخش توسط نقش (SRE، برنامه، داده ها، امنیت، پرداخت).
ماتریس تشدید: چه کسی برای مناطق/محصولات/ارائه دهندگان ؛ مخاطبین تکراری (چت/صدا/اس ام اس).
تمرینات (GameDays): شبیه سازی - افت PSP، بهمن retray، ناهماهنگی قیمت، سازش کلیدی، شکست منطقه.
14) داشبورد حوادث
حرارت (در حال حاضر): وضعیت SLO، p95/p99، نقشه مناطق/مستاجران، صف وظیفه، مصنوعات جمع آوری شده/نه.
تاریخچه: روند بر اساس نوع حادثه، کارایی رونز، باعث عود می شود.
کنترل کیفیت: کامل بودن جدول زمانی، «پوشش» پس از مرگ، ارتباطات SLA.
15) چک لیست پیاده سازی
- مقیاس SEO و محرک های SLO را تأیید کنید.
- نقش ها (IC/Tech/Comms/Scribe/Sec/Legal) و چرخش 24 × 7 را اختصاص دهید.
- راه اندازی قالب کارت حادثه تنها و صفحه وضعیت.
- شرح playbooks (PriceMismatch/WebhookLag/پرداخت/RTP/تقلب/PII).
- پیاده سازی رونی با ممیزی و دکمه قرمز.
- فعال کردن مجموعه WORM/Signatures/Artifact.
- روش ارتباطات (داخلی/خارجی)، به روز رسانی SLA.
- فرآیند و قالب های پس از مرگ ؛ KPI اجرای آیتم های عمل.
- GameDays ماهانه ؛ بررسی فصلی روند حوادث.
- معیارهای IR داشبورد (MTTA/MTTR/Noise/Repeat/Comms SLA).
16) سوالات متداول
چرا «تنها» ؟
یک نقطه تصمیم گیری تنها هرج و مرج را از بین می برد و واکنش ها را تسریع می کند.
چه زمانی علنی اعلام کنیم ؟
به محض اینکه یک واقعیت تأیید شده و یک برنامه تثبیت وجود داشته باشد. مهلت های قانونی را ارزیابی کنید.
چه چیزی مهمتر است ؟ اصلاح یا گزارش ؟
اول، بهبود و امنیت. به موازات - مجموعه ای از مصنوعات. گزارش - پس از تثبیت.
آیا امکان اتوماتیک کردن همه چیز وجود دارد ؟
نه، اما رونی ها مراحل «مکرر و ساده» را نزدیک می کنند. بقیه از طریق کتابهای روشن و تمرینات است.
پاسخ قوی حادثه فقط در مورد PagerDuty و کانال چت نیست. این یک نظم و انضباط از نقش ها، سریع 15 دقیقه اول، رونی کنترل شده، ارتباطات شفاف، پزشکی قانونی با قابلیت اثبات و اجباری پس از مرگ است. با استفاده از این مدار، MTTR را کاهش می دهید، از پول و داده ها محافظت می کنید و اعتماد مشتری و نظارتی را افزایش می دهید.