GH GambleHub

پاسخ حادثه و حادثه

(بخش: عملیات و مدیریت)

1) تعریف و اهداف

حادثه - رویدادی که SLO/امنیت/انطباق را نقض می کند یا خطری برای مشتریان، پول، داده ها، شهرت ایجاد می کند.
اهداف واکنش: به سرعت بازگرداندن سرویس، به حداقل رساندن آسیب، تعمیر شواهد، برقراری ارتباط شفاف و جلوگیری از تکرار.

اصول کلیدی

ایمنی اول: حفاظت از مردم/داده ها/پول بیش از ویژگی های.
یک گلو برای خفه کردن: یک فرمانده حادثه (IC) تصمیم می گیرد.
اکنون قابل اجرا: هر فرضیه با یک آزمون/عمل دنبال می شود.
شواهد مهم است: همه چیز ثبت شده است، مصنوعات امضا شده اند، جدول زمانی دقیق است.

2) طبقه بندی (شدت و اولویت)

سئونشانه هاهدف MTTRنمونه ها
P1/ SEV-0عدم دسترسی گسترده/از دست دادن پول/نشت PII≤ 60 دقیقهپرداخت ناموفق است ؛ نشت اطلاعات شخصی ؛ نادرست نوشتن آف
P2/ SEV-1تخریب شدید/منطقه جزئی≤ 4 ساعتتاخیر webhooks، از قیمت همگام سازی ؛ خطاهای ارائه دهنده بالا
P3/ SEV-2تخریب محلی/رشد خطا≤ 24 ساعتاضافه بار صف شریک ؛ چلپ چلوپ از سیگنال های تقلب
P4/ SEV-3اشکالات جزئی/خطر روندطبق برنامهانحراف معیارها، گواهینامه های قدیمی

Trigger: نقض SLO، قانون هشدار، گزارش دستی، حادثه قانونی (DPO/CCO).

3) نقش ها و مسئولیت ها (RACI)

فرمانده حادثه (A) - رهبر حادثه، تنظیم وظیفه، تصمیم گیری، تغییرات IC برای حوادث طولانی.
سرب فنی (R) - تشخیص فنی/رفع، SRE/هماهنگی مهندسی.
Comms سرب (R) - می نویسد به روز رسانی وضعیت (در داخل/خارج)، صاحب صفحه وضعیت.
Scribe (R) - پروتکل، جدول زمانی، مجموعه ای از مصنوعات.
امنیت/حقوقی (C/A برای موارد امنیتی) - ارزیابی ریسک، اطلاعیه های اجباری.
پشتیبانی مشتری (C) - قالب های پاسخ، مسیریابی بلیط.
رابط شریک (C) - ارتباط با ارائه دهندگان/مستاجران.
مدیریت (I) - اطلاعات، تصمیمات تجاری (وام/جبران خسارت).

4) 15 دقیقه اول (قالب)

1. اختصاص یک IC و باز کردن یک کارت حادثه (کانال چت, پل های ویدئویی, جیرا/ردیاب).
2. یک SEV اختصاص دهید و علامت SLO را برطرف کنید (دقیقاً چه چیزی نقض شده است).

3. تثبیت کردن:
  • شامل runbooks/runes: circuit-breakers، throttling، تعویض مسیر، توقف تبلیغی ؛
  • در صورت سازش - توابع حساس kill-switch.
  • 4. دستورات: فناوری سرب - تشخیص ؛ Comms - «برگزاری فنی» (در 10-15 دقیقه - اولین به روز رسانی).
  • 5. شناسایی فرضیه ها (سه حداکثر)، اختصاص صاحبان، تنظیم تایمر برای تایید (5-10 دقیقه).
  • 6. جمع آوری مصنوعات: عکس های فوری از معیارها، پیکربندی ها، هش های انتشار، سیاهههای مربوط به 'trace _ id'، رسید.

5) ساعت اول (قالب)

ارتباطات v1 (15-20 دقیقه): واقعیت، رسیدن، علائم، آنچه ما انجام می دهیم، به روز رسانی بعدی. بدون حدس و گمان

مرزهای حادثه: کدام مناطق/مستاجران/کانال ها/نسخه ها تحت تاثیر قرار می گیرند.
کنترل آسیب: محدودیت های موقت/محدودیت ها، قطع اتصالات «پر سر و صدا»، فعال سازی حالت تخریب.
پزشکی قانونی: چرخش ورود به سیستم یخ، محافظت از مصنوعات (WORM/امضا).
نقشه راه بازیابی: T + 30/T + 60 با نقاط چک.

6) صفحه ارتباطات و وضعیت

فواصل داخلی: P1 - هر 15 دقیقه، P2 - 30-60 دقیقه.
خارجی: صفحه وضعیت/مستاجران/شرکای SLA.

قالب پیام:
  • آنچه شما می توانید ببینید: «با X: YY UTC، افزایش شکست های پرداخت در منطقه اتحادیه اروپا (p95> 250 ms)»
  • اپراتورهای A/B/C 40٪ از ترافیک را ~ می دهند
  • آنچه ما انجام می دهیم: "شامل یک مسیر جایگزین، تخفیف تبلیغی ؛ ما با تهیهکننده کار میکنیم" PSP-1
  • داده ها/مهلت: «به روز رسانی بعدی در 15 دقیقه»
  • جبران خسارت: «اعمال یادداشت های اعتباری به عنوان در هر SLA پس از بسته شدن حادثه»

7) کتاب های بازی (مراجع برای iGaming/fintech)

PriceMismatch (ویترین ≠ پرداخت): ناتوانی نیروی کش, 'fx _ version/tax _ rule _ version' آشتی, انجماد تبلیغی پویا, جبران اختلاف سیاست.
WebhookLag (شرکا/وابستگان): کارگران پوسته پوسته شدن, افزایش دسته ای, retrays اولویت, کلاه موقت در اشتراک های جدید.
قطع پرداخت/تخریب PSP: تعویض به PSP پشتیبان، کاهش زمان خروج مشتری، پاکسازی صف دستی، معاملات خاکستری در قرنطینه.
رانش RTP: مکث جایزه, paytable/چک نسخه, نظارت بر فرمت پنجره, برگشت مشخصات RTP.
Spike Fraud: سرعت/محدودیت ها را محدود می کند، شامل چک کردن KYC اضافی، جدا کردن گروه های مشکوک، دستی بررسی برنده های بالا.
قرار گرفتن در معرض داده/PII: جداسازی سیستم، اطلاع رسانی DPO/حقوقی، موجودی سوابق آسیب دیده، اطلاعیه های نظارتی توسط جدول زمانی.

8) ابزار و رونز (خودکار اقدامات)

Кнопки: مکث تبلیغی, دوباره مسیر, بالا بردن حد, برگشت, کش خیط و پیت کردن, غیر فعال کردن Webhooks, فعال کردن حالت امن.
ریل گارد: حفاظت در برابر «زین کردن» - عقب نشینی محدود است، سیاهههای مربوط امضا شده است، هر عمل ↔ IC/Scribe.
قابلیت اثبات: امضاهای DSSE، هش های عکس فوری، برش های Merkle log.

9) پایان حادثه

معیارهای: SLO بازسازی شده، صف بازخرید، داده ها/پول آشتی، خطرات بسته، ارتباطات ارسال شده است.
مراسم اختتامیه: به روز رسانی وضعیت نهایی، جدول زمانی ثابت، لیست تأثیرات، فرضیه های اولیه علل، تاریخ پس از مرگ اختصاص داده شده است.

10) پس از مرگ (بدون اتهام)

مدت: P1 - ظرف 3 روز کاری ؛ P2 - 5 روز کاری.
محتوا: حقایق/جدول زمانی، علل ریشه (5 Whys/FRAM)، تاثیر (SLO، امور مالی، مشتریان)، آنچه کار می کرد/نه، آیتم های عمل (مالک، مدت، اثر قابل اندازه گیری).
بررسی اثربخشی: پس از 30-60 روز - بررسی عملکرد و معیارها (تکرارپذیری، MTTR، سر و صدای هشدار).

11) معیارهای مدیریت حوادث و SLO ها

MTTD/MTTA/MTTR، تغییر نرخ شکست، زمان به Comms v1،٪ خودکار مجاز (runes).
هشدار سر و صدا: درصد سیگنال های بی ربط، صفحات در هر تغییر در تماس.
تکرار حوادث: نسبت تکرار در 90 روز.
SLA پس از مرگ: نسبت تکمیل/بسته به موقع.
واکنشهای SLO: P1 - اولین ارتباط ≤ 15 دقیقه ؛ MTTR ≤ 60 دقیقه ؛ کامل بودن مصنوعات = 100٪.

12) قانون/انطباق/حریم خصوصی

اطلاعیه های قانونی: زمان بندی تنظیم کننده های محلی برای نشت/حوادث.
به حداقل رساندن PII: دسترسی به اولیه تنها از طریق jabs تایید ؛ نشانه گذاری/ماسک کردن.
ذخیره سازی مصنوعی: سیاهههای مربوط به WORM، دوره نگهداری توسط صلاحیت ؛ کنترل دسترسی (RBAC/ABAC، JIT).
پیمانکاران: SLA های قراردادی، روند تشدید، رسیدهای دادرسی.

13) سازمان وظیفه و تشدید

24 × 7 در تماس: چرخش توسط نقش (SRE، برنامه، داده ها، امنیت، پرداخت).
ماتریس تشدید: چه کسی برای مناطق/محصولات/ارائه دهندگان ؛ مخاطبین تکراری (چت/صدا/اس ام اس).
تمرینات (GameDays): شبیه سازی - افت PSP، بهمن retray، ناهماهنگی قیمت، سازش کلیدی، شکست منطقه.

14) داشبورد حوادث

حرارت (در حال حاضر): وضعیت SLO، p95/p99، نقشه مناطق/مستاجران، صف وظیفه، مصنوعات جمع آوری شده/نه.
تاریخچه: روند بر اساس نوع حادثه، کارایی رونز، باعث عود می شود.
کنترل کیفیت: کامل بودن جدول زمانی، «پوشش» پس از مرگ، ارتباطات SLA.

15) چک لیست پیاده سازی

  • مقیاس SEO و محرک های SLO را تأیید کنید.
  • نقش ها (IC/Tech/Comms/Scribe/Sec/Legal) و چرخش 24 × 7 را اختصاص دهید.
  • راه اندازی قالب کارت حادثه تنها و صفحه وضعیت.
  • شرح playbooks (PriceMismatch/WebhookLag/پرداخت/RTP/تقلب/PII).
  • پیاده سازی رونی با ممیزی و دکمه قرمز.
  • فعال کردن مجموعه WORM/Signatures/Artifact.
  • روش ارتباطات (داخلی/خارجی)، به روز رسانی SLA.
  • فرآیند و قالب های پس از مرگ ؛ KPI اجرای آیتم های عمل.
  • GameDays ماهانه ؛ بررسی فصلی روند حوادث.
  • معیارهای IR داشبورد (MTTA/MTTR/Noise/Repeat/Comms SLA).

16) سوالات متداول

چرا «تنها» ؟

یک نقطه تصمیم گیری تنها هرج و مرج را از بین می برد و واکنش ها را تسریع می کند.

چه زمانی علنی اعلام کنیم ؟

به محض اینکه یک واقعیت تأیید شده و یک برنامه تثبیت وجود داشته باشد. مهلت های قانونی را ارزیابی کنید.

چه چیزی مهمتر است ؟ اصلاح یا گزارش ؟

اول، بهبود و امنیت. به موازات - مجموعه ای از مصنوعات. گزارش - پس از تثبیت.

آیا امکان اتوماتیک کردن همه چیز وجود دارد ؟

نه، اما رونی ها مراحل «مکرر و ساده» را نزدیک می کنند. بقیه از طریق کتابهای روشن و تمرینات است.

پاسخ قوی حادثه فقط در مورد PagerDuty و کانال چت نیست. این یک نظم و انضباط از نقش ها، سریع 15 دقیقه اول، رونی کنترل شده، ارتباطات شفاف، پزشکی قانونی با قابلیت اثبات و اجباری پس از مرگ است. با استفاده از این مدار، MTTR را کاهش می دهید، از پول و داده ها محافظت می کنید و اعتماد مشتری و نظارتی را افزایش می دهید.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.