طرح تداوم کسب و کار
1) هدف، دامنه و اصول
هدف: اطمینان از ادامه خدمات مهم (سپرده، شرط/بازی، نتیجه گیری، KYC/AML، پشتیبانی) در صورت شکست و بهبود سریع بدون نقض مجوزها و قراردادها.
منطقه: پلت فرم آنلاین، حلقه پرداخت، ضد تقلب/CUS، DWH/BI، پشتیبانی، توابع عملیاتی و قانونی، فروشندگان کلیدی (PSP/KYC/ابر/CDN/استودیو/جمع).
اصول: اول ایمنی، اول بازیکن، صحت قانونی، به حداقل رساندن RTO/RPO، حالت تخریب ساده، اثبات پذیری و تمرینات منظم.
2) BIA - تجزیه و تحلیل تاثیر کسب و کار
شناسایی فرآیندهای مهم، ورودی/خروجی، وابستگی ها، جایگزین های دستی و RTO/RPO های هدف.
نمونه ای از قطعه BIA (YAML):yaml process: payouts owner: head_of_payments criticality: tier1 dependencies: [psp1, psp2, bank_api, kyc_service, ledger_db]
rto: "4h"
rpo: "15m"
manual_workaround: "limited manual VIP payments when the PSP is completely unavailable"
max_tolerable_downtime: "8h"
legal_constraints: ["AML/KYC check before payout," "regulatory notification windows"]
3) ریسک → تاثیر → پاسخ
کسانی که: سقوط منطقه ابر، شکست پایگاه داده، از دست دادن خوشه، حملات DDoS، شکست CDN.
فروشندگان: تخریب PSP/KYC، شکستن با جمع کننده بازی، عدم دسترسی به غربالگری ضد تقلب/تحریم.
سایبر: حساب/کلید سازش، ransomware، نشت PII.
فرآیندها/مردم: اعتصابات/بیماری ها، خروج از متخصص کلیدی، خطای انتشار.
Geo/force majeure: قطع ارتباطات/انرژی، خطرات نظامی/تحریم ها، انسداد دامنه/ترافیک.
برای هر یک: محرک ها، آستانه تشدید، اقدامات کنترل، تخریب خدمات و قالب های ارتباطی.
4) معماری و استراتژی های پایداری
فعال فعال/فعال آماده به کار توسط منطقه ؛ زیرساخت به عنوان کد برای صعود سریع.
حالت های تخریب: ویترین فقط خواندنی، قطع ارتباط از ارائه دهندگان بازی غیر بحرانی، محدودیت های پرداخت، «تنها سپرده» با cashouts معوق (اگر از نظر قانونی مجاز)، تجزیه و تحلیل پایین تر/فرکانس ETL.
مدیریت ترافیک: CDN Anycast، تعادل جغرافیایی، بررسی سلامت، مسیریابی قناری.
داده ها: پشتیبان گیری PITR، سیاهههای مربوط تغییر، تکرار بین منطقه، یکپارچگی رمزنگاری (هش/WORM).
کلید/اسرار: مستقل KMS در هر منطقه, «شکستن شیشه ای» با ورود به سیستم.
PSP/KYC multi-homing: automatic failover, SLA/latency routing.
5) سیستم فرماندهی حادثه
فرمانده حادثه (IC) - یک نقطه تصمیم گیری واحد.
Ops Lead (SRE/Platform) - تثبیت فنی، feilover، معیارها.
سرب تداوم کسب و کار - هماهنگی فرآیندها/روش کتابچه راهنمای کاربر.
Comms Lead - اطلاعیه های خارجی/داخلی (بازیکنان، شرکا، تنظیم کننده ها).
امنیت/DPO - حوادث سایبری/حریم خصوصی، پنجره های نظارتی.
پرداخت/KYC فرصت - حالات PSP/KYC.
ارتباطات: حقوقی، پشتیبانی، VIP/CRM، داده ها/BI.
قانون: یک IC در هر حادثه، کانال های روشن و سیاهههای مربوط به تصمیم گیری.
6) طرح ارتباطات
کانال ها: اتاق جنگ (چت/پل)، اتصالات پشتیبان (تلفن/رادیو/alt-messenger)، PSP/KYC/مخاطبین بانکی از قبل بررسی شده.
قالب های پیام خارجی: صفحه وضعیت، شبکه های اجتماعی، ایمیل/فشار ؛ تن - حقایق، زمان بندی، مراحل بعدی.
تنظیم کننده ها و شرکا: آدرس های از پیش تعیین شده، اطلاعیه های SLA ؛ متن توافق شده
بازیکنان: ETA های شفاف، جبران خسارت/پاداش (در صورت وجود)، سوالات متداول برای دوره تخریب.
7) برنامه های عملیاتی (کتاب های اجرا)
نمونه هایی از قطعات:7. 1 Feilover به یک منطقه دیگر
yaml trigger: "loss of primary availability> = 5m, p95_latency>threshold"
steps:
- IC approves region_failover
- SRE: flip traffic via GSLB to secondary
- Data: verify replication lag < RPO
- Apps: switch env vars/secrets; warm caches
- QA: smoke tests; Business: announce status rollback: "switch-back on 60m stability"
7. 2 تخریب PSP
yaml trigger: "auth_rate_psp1 < baseline-3σ 15m"
steps:
- Payments: route X%→psp2, include limits
- Comms: banner at the checkout, status page
- Finance: reconciliation plan for T + 0
- Legal: notification log and SLA letter
7. 3 ارائه دهنده KYC در دسترس نیست
yaml trigger: "kyc_sla_breach 30m"
steps:
- Risk: time limits of deposits/rates
- Ops: VIP/High-risk manual check
- Comms: KYC Time Increase Notice
- Vendor: escalation, protection switch
8) فناوری اطلاعات و بازیابی اطلاعات (DR)
دسته بندی سیستم: Tier-1 (پلت فرم/پرداخت/CCM)، Tier-2 (بازی/تجزیه و تحلیل)، Tier-3 (داخلی).
روش بلند کردن: تنظیم → sekrety/KMS → BD → kesh → API → front/CDN → integratsii → analitika.
بررسی یکپارچگی - checksums، تأیید ورود/تکرار، آشتی معامله.
آزمایشات DR: سالانه کامل (سوئیچ کردن)، سه ماهه جزئی ؛ تعهد RTO/RPO های واقعی
9) مردم، دفاتر و تدارکات
آماده از راه دور: لپ تاپ ها/مودم های اضافی، دسترسی از طریق SSO/MFA، دسترسی «قرمز» برای IC.
مکان های جایگزین: دفاتر یدکی/فضاهای کاری مشترک، لیست های عبور، برنامه تخلیه.
چرخش تغییرات: ماتریس شایستگی، تکرار نقش های کلیدی، برنامه جایگزینی.
ارتباطات انتقادی/ارائه دهندگان انرژی: مخاطبین، SLA، ژنراتورها/UPS (در صورت لزوم).
10) فروشندگان و زنجیره تامین
الزامات BCP/DR در قراردادها: RTO/RPO، آزمون های اجباری، حقوق حسابرسی و تمرینات مشترک.
ثبت نام از زیر پردازنده: اطلاعات تماس، برنامه های قطع، تایید حذف داده ها/صادرات زمانی که offboarding.
بررسی های سه ماهه Tier-1: حوادث، پروتکل های DR، وضعیت صدور گواهینامه، SLA ها.
11) آموزش، تمرین و آزمایش
Tabletop یک بار در سه ماهه: سناریوهای PSP/KYC/cloud/cyber.
تمرینات فنی: DR جزئی/کامل ؛ تعویض DDoS/CDN ؛ ارائه دهندگان SDK «kill-switch».
دریل ارتباطات: آزادی مطبوعات/به روز رسانی وضعیت/نامه های نظارتی.
بازنگری: جدول زمانی، RCA، CAPA، به روز رسانی runbooks و BIA.
12) معیارها (KPI/KRI)
RTO/RPO واقعی (با توجه به Tier-1): اهداف را ≥ 95٪ برآورده کنید.
MTTD/MTTR: روند رو به پایین ؛ MTTR حوادث بحرانی هدف قرار ≤.
موفقیت Feilover: بدون از دست دادن داده ها/سفارشات/نرخ، ≤ X دقیقه تخریب.
تمرینات پوشش: ≥ 2 تست کامل DR/سال + 4 قرص.
ارتباطات: زمان به روز رسانی برای اولین بار 15 دقیقه ≤، فرکانس به روز رسانی با توجه به سیاست.
انعطاف پذیری فروشنده: سهم Tier-1 با آزمایش های تایید شده DR در 12 ماه 100٪ است.
13) RACI (بزرگ شده)
14) چک لیست
14. 1 آماده برای شکست
- اطلاعات تماس فعلی IC/فروشنده/تنظیم کننده
- سلامت تکرار، پشتیبان گیری منظم PITR
- SDK/Webhook kill-switch تایید شده است
- مدیر ترافیک (GSLB/CDN) با معتبر سلامت چک
- وضعیت/نامه قالب و حقوق چاپ و نشر
- Runbooks و دسترسی (SSO/MFA) بررسی ماهانه
14. ۲ در هنگام حادثه
- IC اختصاص داده شده، اتاق جنگ باز، شروع سیاهههای مربوط به تصمیم گیری
- طبقه بندی (P1/P2)، انتخاب سناریو و تخریب
- اقدامات فنی (feilover/محدودیت/قطع)
- اولین به روز رسانی عمومی ≤ 15 دقیقه
- اطلاعیه های تنظیم مقررات/شریک SLA
- ضبط مصنوعات برای پس از مرگ
14. ۳ پس از حادثه
- پس از مرگ با RCA و CAPA
- به روز رسانی BIA/آستانه/روال
- آموزش/رفع مجدد، گزارش هیئت مدیره
- مالی/آشتی
15) قالب (قطعات)
15. 1 کارت اسکریپت
yaml scenario: "Region outage: cloud-eu1"
triggers: ["error_rate>5%", "loss of quorum", "cdn health fail"]
degradation: ["disable live-casino", "payments=psp2 only", "payouts=VIP manual"]
rto_target: "30m"
rpo_target: "15m"
contacts: {cloud: "...", isp: "...", regulator: "..."}
comms_templates: ["status_page_v1", "partner_notice_v2"]
15. 2 پیام به صفحه وضعیت
[UTC + 02] We are seeing the degradation of payments through PSP # 1. Transactions are automatically routed through an alternative provider. Player funds are safe. The next update is in 15 minutes.
16) مدیریت سند و نسخه
نسخه BCP/Runbooks در مخزن، تغییر ورود به سیستم، صاحب سند.
دوره تجدید نظر (سه ماهه برای Tier-1)، کنترل در دسترس بودن نسخه های آفلاین.
ذخیره سازی مته/مصنوعات حادثه و معیارهای عملکرد.
17) نقشه راه پیاده سازی (6-8 هفته)
هفته 1-2: BIA و فرآیندهای بحرانی، اهداف RTO/RPO، لیستی از سناریوها و صاحبان.
هفته 3-4: معماری حالت ثبات و تخریب، کتابهای اجرا، قالب های ارتباطی، مخاطبین.
هفته 5-6: ادغام فروشنده (PSP/KYC/ابر)، تمرینات خلبان (tabletop + جزئی DR)، تنظیمات.
هفته 7-8: آزمون DR کامل (در صورت امکان)، راه اندازی چرخه ورزش سه ماهه، گزارش هیئت مدیره و بسته نظارتی (در صورت لزوم).
18) بخش های ویکی مرتبط
ثبت ریسک، حوادث و نشت، تست های DR/BCP، TPRM و SLA، ISO 27001/27701، SOC 2، PCI DSS، IGA/RBAC/حداقل امتیاز، سیاست ورود به سیستم/WORM - برای یک حلقه واحد از استحکام و قابلیت اثبات.
TL ؛ دکتر متخصص
موثر BCP = BIA → RTO/RPO → stsenarii و degradatsii → چند فروشنده/چند منطقه + فرماندهی حادثه روشن، ارتباطات و تمرینات. سند را زنده نگه دارید، به طور مرتب تست کنید - و حتی یک تصادف بزرگ کسب و کار را متوقف نمی کند و یا مجوز ها را نمی گیرد.