ارزیابی ریسک
1) اهداف و اصول
هدف: تشخیص زود هنگام و اولویت بندی تهدیدات موثر بر SLO، درآمد، انطباق قانونی و شهرت.
اصول: سازگاری، اندازه گیری، تکرارپذیری، اتصال به ارزش کسب و کار، SLO اول.
نتیجه: مجموعه ای شفاف از خطرات با صاحبان قابل فهم، اقدامات و مهلت.
2) شرایط
ریسک: احتمال × تاثیر یک رویداد نامطلوب.
اشتهای ریسک: سطح ریسک باقی مانده قابل قبول برای سازمان است.
آسیب پذیری/تاثیر/کنترل: نقطه ضعف، ماشه و اقدامات موجود.
KRI (شاخص های کلیدی ریسک): شاخص های پیشرو (به عنوان مثال، رشد تاخیر p99، تاخیر مصرف کننده، رد تبدیل پرداخت).
3) طبقه بندی ریسک برای iGaming
عملیاتی: اضافه بار، خرابی انتشار، صف، تخریب پایگاه داده/کش، حوادث در مراکز داده/AZ/مناطق.
فناوری/امنیت: DDoS، آسیب پذیری ها، نشت ها، خطاهای پیکربندی، وابستگی به کتابخانه های کلیدی.
پرداخت/مالی: کاهش مجوز، رشد بازپرداخت، عدم دسترسی ارائه دهنده، ناآرامی FX، تقلب.
وابستگی ها/اکوسیستم: خرابی در ارائه دهندگان بازی، دروازه های CDN/WAF، KYC/AML، SMS/ایمیل.
انطباق/تنظیم مقررات: نقض الزامات مجوز، KYC/AML، بازی مسئولانه، ذخیره سازی داده ها.
محصول/بازاریابی: اوج ترافیک غیر قابل پیش بینی (مسابقات، مسابقات، تبلیغات)، تقسیم بندی پاداش از دست می رود.
اعتبار: منفی در رسانه ها/رسانه های اجتماعی به دلیل حوادث یا عدم رعایت.
4) فرآیند ارزیابی ریسک (جعبه)
1. ایجاد زمینه: اهداف، SLO ها، الزامات قانونی، مرزهای معماری، زنجیره ارزش.
2. شناسایی: مجموعه ای از رویدادهای نامزد: بازنگری حادثه، ممیزی وابستگی، جلسات طوفان مغزی، چک لیست.
3. تجزیه و تحلیل: کیفی (سناریوها، پاپیون) و کمی (فرکانس/توزیع).
4. ارزیابی: مقایسه با ریسک پذیری، رتبه بندی، تصویب اولویت ها.
5. پردازش: پیشگیری، کاهش، انتقال (بیمه/قرارداد)، پذیرش (آگاهانه).
6. نظارت و تجدید نظر: KRI، بررسی اثربخشی کنترل، به روز رسانی رجیستری، آزمون آمادگی.
5) تکنیک های کیفیت
ماتریس احتمال/تاثیر: مقیاس 1-5 (بسیار کم... بسیار بالا) تاثیر به طور جداگانه در امتداد محور در نظر گرفته: SLA/درآمد/نظارتی/شهرت.
Bow-Tie Analysis: Causes → Event → پیامدها; برای هر یک از طرفین - کنترل های پیشگیرانه و کاهش دهنده.
FTA (Fault Tree Analysis): درختان خطای منطقی برای خدمات بحرانی (سپرده، نرخ، خروجی).
HAZOP/چه-اگر: چه-اگر بررسی سیستماتیک در رابط و روش.
6) تکنیک های کمی
ALE (انتظار از دست دادن سالانه): ALE = SLE × ARO (آسیب سالانه مورد انتظار).
VaR/CVaR: سرمایه ریسک در سطح اطمینان داده شده (برای شکاف های نقدی/ارائه دهندگان پرداخت).
مونت کارلو: شبیه سازی قله های ترافیکی/خرابی ارائه دهنده/تبدیل پرداخت با فواصل اطمینان.
FMEA: شدت (S)، فرکانس (O)، آشکارسازی (D) → RPN = S × O × D، اولویت بندی پچ
ریاضی قابلیت اطمینان: headroom، MTTF/MTTR، نرخ سوزاندن بودجه خطا، احتمال شکست مشترک (AZ + ارائه دهنده).
7) ریسک اشتها و آستانه
تعریف دسته (بالا/متوسط/پایین) برای از دست دادن SLA، مجازات، از دست دادن درآمد در هر ساعت/روز.
تنظیم آستانه تشدید: زمانی که یک حادثه/خطر بین سطوح حرکت می کند، که مورد نیاز است برای جمع آوری اتاق var.
استثنائات (ریسک پذیری موقت) را با تاریخ تجدید نظر و برنامه بسته شدن بنویسید.
8) KRI و هشدار اولیه
نمونه هایی از KRI:- عملکرد: ↑ p95/p99، رشد timeout، عمق صف، افت کش ضربه، تاخیر تکرار.
- پرداخت ها: مجوزهای ↓ در یک GEO/بانک خاص، رشد نرم افزاری، ناهنجاری های AOV.
- ایمنی: سنبله های 4xx/5xx در نقاط پایانی بحرانی، افزایش محرک های WAF، CVE های جدید در وابستگی ها.
- انطباق: بیش از حد ذخیره سازی، تاخیر KYC، سهم خود حذف بدون پردازش.
- برای هر KRI - مالک، متریک، آستانه، منابع، هشدار خودکار.
9) ارزیابی تاثیر (چند محور)
SLA/SLO: دقیقه/ساعت هدف، تاثیر بر پاداش SLA به شرکای.
مالی: زیان مستقیم (معاملات برجسته، بازپرداخت)، غیر مستقیم (ریزش، جریمه).
مقررات: خطر تحریم/تعلیق مجوز/اطلاعیه های اجباری.
اعتبار: NPS/CSAT، اشاره های منفی، تاثیر بر شرکا و جریان ها
10) مدیریت ریسک (کاتالوگ اقدامات)
پیشگیری: رد ویژگی های خطرناک/الگوهای، محدودیت شعاع انفجار (انزوای مستاجر، محدودیت نرخ).
کاهش: sharding پایگاه داده، ذخیره سازی، استخر/سهمیه، ارائه دهنده چند پرداخت، انتشار قناری.
انتقال: بیمه ریسک سایبری، جبران خسارت SLA در قراردادها، سپرده.
پذیرش: تصمیم مستند در معرض خطر باقی مانده کنترل شده، با KRI و برنامه خروج.
11) نقش ها و RACI
مسئول: ریسک/عملیات/SRE/پرداخت/صاحبان دامنه SecOps.
پاسخگو: رئیس عملیات/CTO/CRO.
مشاوره: محصول، داده ها/DS، حقوقی/انطباق، امور مالی.
مطلع: پشتیبانی، بازاریابی، مدیریت شریک.
12) مصنوعات و الگوهای
ثبت ریسک: شناسه، توضیحات، دسته، دلایل، احتمال، تأثیر محور، کنترل های موجود، KRI، برنامه پردازش، مالک، اصطلاح.
نقشه حرارتی ریسک: نقشه جمع شده توسط بخش/سرویس.
نقشه وابستگی: وابستگی های مهم خارجی و داخلی، سطح پشتیبان گیری، اطلاعات تماس.
Runbooks/Playbooks: مراحل خاصی که توسط KRI/incident، kill-switches، degradation ایجاد می شود.
بررسی ریسک سه ماهه: مجموعه ای از تغییرات، خطرات بسته/جدید، روند KRI، اثربخشی کنترل.
13) ادغام با SLO/مدیریت حوادث
ریسک ها به اهداف SLO (تاخیر، نرخ خطا، در دسترس بودن) و بودجه خطا تبدیل می شوند.
KRI → سیاست های هشدار (نرخ سوختن سریع/آهسته).
در پس مرگ، ثبت به روز رسانی ارزیابی ریسک و تعدیل کنترلها الزامی است.
14) ابزار و داده ها
نظارت/مشاهده: معیارها، سیاهههای مربوط، ردیابی ؛ پانل های «نمایش ریسک».
دایرکتوری ها و CMDB ها: خدمات، صاحبان، اجزای وابسته.
GRC/ردیاب وظیفه: ذخیره سازی ثبت ریسک، وضعیت، اقدامات حسابرسی.
داده ها/ML: مدل های ناهنجاری، پیش بینی بار/شکست، شبیه سازی مونت کارلو.
15) نقشه راه پیاده سازی (8-10 هفته)
«ند». 1-2: زمینه و قاب ؛ لیست خدمات و وابستگی های مهم ؛ تصمیم گیری در مورد اشتهای ریسک
«ند». 3-4: شناسایی ریسک اولیه (کارگاه ها، یکپارچهسازی با سیستمعامل)، پر کردن رجیستری، پیش نویس نقشه گرما.
«ند». 5-6: تنظیم KRI و هشدار، لینک دادن به SLO ؛ راه اندازی Bow-Tie/FTA برای خطرات 5 بالا.
«ند». 7-8: اندازه گیری (ALE/VaR/Monte-Carlo) برای سناریوهای مهم مالی ؛ تصویب طرح های پردازش
«ند». 9-10: تست آمادگی (روز بازی، شکست)، اصلاح آستانه، راه اندازی بررسی های سه ماهه.
16) نمونه هایی از خطرات ارزیابی (iGaming)
1. عدم صدور مجوز PSP-1 در زمان نخست
احتمال: متوسط ؛ تاثیر: بالا (درآمد، SLA).
KRI: تبدیل مجوز بانک/GEO، رشد نرم افزاری.
اقدامات: چند ارائه دهنده، مسیریابی بهداشت و هزینه، عقب نشینی Jitter، محدودیت مکث.
2. اضافه بار از پایگاه داده شرط بندی در هر روز از بازی لیگ قهرمانان
احتمال: متوسط ؛ تاثیر: بالا (SLO).
KRI: replication lag, p99 requests, lock-wait growth.
اقدامات: کش/CQRS، sharding، preload خط، حالت فقط خواندنی بخشی از ویژگی.
3. DDoS به API های عمومی
احتمال: کم متوسط ؛ تاثیر: بالا (در دسترس بودن، شهرت).
KRI: سنبله SYN/HTTP، محرک های WAF.
اقدامات: CDN/WAF، نرخ محدود، نشانه ها، captchas، انزوا ترافیک ربات.
4. عدم انطباق قانونی برای ذخیرهسازی KYC
احتمال: کم ؛ تاثیر: بسیار بالا (مجازات/مجوز).
KRI: چک تاخیر> SLA، بیش از حفظ.
اقدامات: سیاست به عنوان کد، TTL اتوماتیک، ممیزی و تست داده های تولید.
17) ضد گلوله
ارزیابی توسط چشم بدون رجیستری و KRI.
ماتریس های بدون پول و SLO اولویت های نادرست
بررسی های نادر (رجیستری پس از حوادث به روز نمی شود).
«پردازش» تنها با اسناد و مدارک بدون کنترل اجرا/آزمون.
چشم پوشی از وابستگی های خارجی و SLA های قرارداد.
18) گزارش و ارتباطات
خلاصه Exec: خطرات 10 بالا، روند KRI، خطر باقی مانده در مقابل اشتها، برنامه بسته شدن.
گزارش های فنی: اثربخشی کنترل ها، نتایج روز بازی، تغییرات آستانه.
منظم بودن: بررسی ماهانه + تجدید نظر عمیق سه ماهه.
مجموع
ارزیابی ریسک یک سند ایستا نیست، بلکه یک چرخه زندگی است: آنها شناسایی → محاسبه شده → توافق شده در مورد ریسک پذیری → اقدامات انتخاب شده و اجرا شده → بررسی شده با داده ها و تمرینات → به روز شده ثبت نام. این چارچوب تصمیمات عملیاتی را به ارزش کسب و کار پیوند می دهد و فرکانس/مقیاس حوادث را کاهش می دهد در حالی که حفظ انطباق با SLO ها و الزامات قانونی.