عملیات و → مدیریت کاهش حادثه
1) اهداف و اصول
هدف: جلوگیری از تشدید حادثه به شکست خدمات و به حداقل رساندن آسیب: از لحاظ خرابی، پول، شهرت و خطرات قانونی.
اصول:- اول مهار (شعاع انفجار ↓).
- تخریب برازنده: بهتر است «کار می کند بدتر» از «کار نمی کند در همه».
- جدا و جایگزین: اجزای مستقل و جایگزین های امن.
- سرعت تصمیم گیری> اطلاعات کامل (پرچم ویژگی، سوئیچ مسیر).
- زود ارتباط برقرار کنید: یک منبع حقیقت، وضعیت روشن و مرحله به مرحله ETA ها.
2) مدل حادثه و طبقه بندی نتیجه
تاثیر: کاربران (منطقه، بخش)، پول (GGR/NGR، پردازش)، انطباق (KYC/AML)، شرکا/ارائه دهندگان.
انواع: تخریب عملکرد، شکست جزئی وابستگی (PSP، KYC، ارائه دهنده بازی)، رگرسیون انتشار، حادثه داده (نمایش تاخیر/ETL)، DDoS/بار سنبله.
سطح (P1-P4): از خرابی جریان هسته بحرانی به نقص محلی.
3) الگوهای کاهش (فنی)
3. 1 محلی سازی و محدودیت شعاع انفجار
جداسازی توسط نمودارها/مناطق: مشکل قطعه/منطقه را خاموش کنید، بقیه کار را ادامه می دهند.
قطع کننده مدار: انتشار سریع وابستگی ها در هنگام خطاها/وقفه ها ⇒ حفاظت از کارگران.
Bulkhead: استخرهای اتصال جداگانه/صف برای مسیرهای بحرانی.
Traffic Shadowing/Canary: اجرای بخشی از ترافیک از طریق نسخه جدید تا زمانی که به طور کامل روشن است.
3. 2 تخریب مدیریت شده (برازنده)
حالت فقط خواندنی: به طور موقت مسدود کردن جهش (به عنوان مثال، شرط/سپرده) در حالی که صرفه جویی در ناوبری و تاریخ.
برش های عملکردی: غیرفعال کردن ویجت های ثانویه/مناظر، توصیه های سنگین، جستجوهای «داغ».
Cashback: پاسخهای stale-while-revalidate، مدلهای ساده شده.
محدودیت های ساده: کاهش اندازه دسته/صفحه، طول TTL، خاموش کردن فیلترهای گران قیمت.
3. 3 مدیریت بار
Shed/Throttle: درخواست های اضافی «منصفانه» را کنار بگذارید: توسط IP/key/endpoint، با اولویت برای عملیات اصلی.
فشار پشتی: محدود کردن تولید کنندگان به تاخیر انداختن مصرف کنندگان ؛ سعی کنید بلندگو با Jitter.
شکل صف: صف های اختصاصی برای جریان P1 (پرداخت، مجوز) و تجزیه و تحلیل پس زمینه.
3. 4 سوئیچ های سریع
ویژگی Flags & Kill-switch: غیرفعال کردن فوری ویژگی مشکل ساز بدون انتشار.
مسیریابی ترافیک: ارائه دهنده سوئیچینگ (PSP A → B)، دور زدن یک مرکز داده شکست خورده، انتقال به یک ماکت «گرم».
تنظیمات را تغییر دهید: زمان بندی، بازپرداخت، محدودیت QPS - از طریق مرکز پیکربندی با ممیزی.
3. ۵ اطلاعات و گزارش
جهش های معوق: نوشتن به outbox/log به دنبال تحویل.
Denormalization موقت: کاهش بار در پایگاه داده با خواندن از فروشگاه های تحقق یافته.
Degrade BI: به طور موقت نشان می دهد آخرین عکس فوری خوب مشخص شده «داده ها در 12:00 UTC».
4) نمونه دامنه (iGaming)
خرابی ارائه دهنده KYC: یک ارائه دهنده جایگزین را روشن کنید ؛ برای محدودیت های «کم خطر» - تأیید موقت با توجه به یک سناریوی ساده با محدودیت های حساب کاهش می یابد.
تاخیر PSP بالا: اولویت موقت برای کیف پول های محلی، کاهش محدودیت های پرداخت، قرار دادن بخشی از پرداخت ها در صف «T + Δ».
شکست از ارائه دهنده بازی: مخفی کردن عناوین خاص/ارائه دهنده, صرفه جویی در لابی و جایگزین, نمایش بنر «کار در حال پیشرفت, سعی کنید X/Y».
5) سازمان و نقش ها (ICS - سیستم فرماندهی حادثه)
IC (فرمانده حادثه): هماهنگی واحد، اولویت بندی اقدامات.
عملیات سرب/SRE: مهار، ریشه کن کردن، پرچم های ویژگی، زیرساخت ها.
Comms سرب: به روز رسانی وضعیت، صفحات وضعیت، چت داخلی/ایمیل.
صاحب موضوع: صاحب زیر سیستم آسیب دیده (PSP، KYC، ارائه دهنده بازی).
ارتباط با کسب و کار: محصول، پشتیبانی، مالی، انطباق.
Scribe: جدول زمانی، راه حل ها، مصنوعات برای پس از مرگ.
قانون: بیش از 7 ± 2 نفر در «اتاق جنگ» فعال، بقیه - «در صورت درخواست».
6) ارتباطات
کانال: صفحه وضعیت, داخلی # کانال حادثه, PagerDuty/کنفرانس از راه دور, قالب به روز رسانی.
دما: P1 - هر 15-20 دقیقه ؛ P2 - 30-60 دقیقه.
به روز رسانی الگو: چه شکست → چه کسی اشاره کرد → که در حال حاضر ساخته شده → مرحله زیر → یک نقطه مرجع در زمان به روز رسانی زیر.
پشتیبانی مشتری: ماکروهای آماده شده و سوالات متداول برای L1/L2، نشانگرهای «تخریب جزئی»، سیاست جبران خسارت.
7) معیارها و عوامل موفقیت
MTTD/MTTA/MTTR، زمان مهار، نرخ سوزاندن SLO (پنجره های 1 ساعت/6 ساعت/24 ساعت).
درآمد در معرض خطر: ارزیابی GGR/NGR از دست رفته توسط بخش
شعاع انفجار٪: سهم کاربران/مناطق/توابع تحت نفوذ.
Comms SLA: به موقع بودن به روز رسانی وضعیت.
هشدارهای مثبت کاذب/منفی کاذب، حوادث ثانویه.
- p95 API کلیدی> آستانه 5 دقیقه در یک ردیف → فعال کردن حافظه پنهان و کاهش سرعت.
- تاخیر مصرف کننده> 2 دقیقه → انجماد تولید کنندگان غیر بحرانی، افزایش کارگران.
- موفقیت PSP <97٪ 10 دقیقه → انتقال سهم ترافیک به PSP آماده به کار.
8) کتاب های بازی (فشرده شده)
8. 1 «تاخیر ↑ y/api/سپرده»
1. Check error% and PSP external timeouts → فعال کردن زمانهای کوتاه و jitter retrays.
2. فعال کردن کش از محدودیت/دایرکتوری ها، غیر فعال کردن چک های سنگین «در محل».
3. تا حدی انتقال ترافیک به PSP آماده به کار.
4. به طور موقت محدودیت های پرداخت/سپرده را برای کاهش خطر کاهش دهید.
5. پست ثابت: شاخص/denormal، تقویت ناهمگونی.
8. 2 «KYC آویزان»
1. به یک ارائه دهنده جایگزین بروید، «KYC ساده شده» را با محدودیت فعال کنید.
2. وضعیت KYC نهانگاه برای آنهایی که قبلاً گذراندهاند.
3. ارتباطات: بنر در مشخصات، ETA.
8. 3 «ETL/BI عقب مانده است»
1. علامت گذاری به عنوان پانل «قدیمی» + برچسب زمان.
2. بازسازیهای سنگین را معلق کنید، افزایشی را فعال کنید.
3. موازی بودن مشاغل ↑، اولویت برای ویترین با KPI های عملیاتی.
9) طراحی قبل از حادثه (فعال)
جدول پرچم ویژگی: سوئیچ اتمی توسط نقطه پایانی/ارائه دهنده/ویجت.
سیاست های کاهش/ریختن: سطوح از پیش توافق شده «برنز/نقره/طلا» با اولویت.
آزمون تخریب: به طور منظم «آتش سوزی»، روز بازی، آزمایش هرج و مرج (اضافه کردن تاخیر/خطا).
سهمیه وابستگی های خارجی: محدودیت ها، بودجه خطا، استراتژی های بازپرداخت
Runbook "و: دستورالعمل های گام به گام کوتاه و دستورات/پیکربندی با نمونه.
10) ایمنی و انطباق
Fail-safe: هنگامی که تخریب می شود - عملیات بلوک با خطر نقض، و نه «افزایش retrai».
PII و داده های مالی: برای دور دستی - حسابرسی دقیق، حداقل امتیازات، نشانه گذاری.
ردیابی: ورود کامل از اقدامات IC/اپراتور، تغییر پرچم/پیکربندی، جدول زمانی صادرات.
11) ضد الگوهای
«ما صبر می کنیم تا روشن شود» - از دست دادن مهار زمان طلایی.
«پیچ و تاب retrai به پیروزی» - گلوله برفی و طوفان در اعتیاد.
پرچم های جهانی بدون تقسیم بندی - شمع را خاموش کنید، نه برق در شهر.
سکوت «تا نترسیم» - رشد بلیط ها، از دست دادن اعتماد.
روش های دستی شکننده بدون حسابرسی - ریسک انطباق.
12) چک لیست
قبل از انتشار تغییرات مهم
- مسیر قناری + پرچم ویژگی.
- گارد محافظ SLO و هشدار توسط p95/خطا٪.
- بار بر روی خدمات وابسته شبیه سازی شده است.
- طرح ارتباطات و صاحبان.
در طول حادثه
- IC و کانال های ارتباطی تعریف شده است.
- مهار (انزوا/پرچم/مسیر) اعمال می شود.
- تخریب مدیریت شده امکان پذیر است.
- صفحه وضعیت به روز شده است و پشتیبانی اطلاع داده شده است.
پس از حادثه
- پس از مرگ ≤ 5 روز کاری، بدون «پیدا کردن مجرمان».
- بازی های اکشن با صاحبان و مهلت.
- آزمون تکرارپذیری: اسکریپت تکثیر شده و با هشدارها/تست ها پوشش داده می شود.
- به روز شده playbooks و آموزش.
13) مصنوعات کوچک (قالب)
قالب وضعیت برای مشتریان (P1):- "ما در حال تجربه یک تخریب جزئی از پرداخت از ارائه دهنده X در منطقه اتحادیه اروپا. سپرده ها از طریق روش های جایگزین در دسترس هستند. ما یک بایپس داریم و با یک شریک کار میکنیم. خبر بعدي 20 دقيقه ديگه ميرسه
- چه اتفاقی افتاد → تاثیر → علت ریشه → چه کار کرد/کار نمی کند → رفع طولانی مدت → آیتم های عمل (صاحبان/مهلت).
14) خط پایین
کاهش عواقب حوادث یک رشته از راه حل های سریع و برگشت پذیر است: محلی سازی، کاهش کنترل پذیری، توزیع مجدد بار، برقراری ارتباط شفاف و تقویت پیشرفت ها. شما امروز یک دقیقه «ثبات تاکتیکی» را برنده می شوید و فردا آن را به ثبات استراتژیک تبدیل می کنید.