تصحیح خودکار خطا
1) اهداف و اصول
هدف: کاهش MTTR و جلوگیری از تشدید حوادث با حفظ SLO، درآمد و انطباق.
اصول:- SLO-first: اقدامات خودکار تنها در صورتی مجاز است که یک تهدید تأیید شده برای بودجه خطا وجود داشته باشد.
- امنیت اول: حداقل شعاع انفجار، محدودیت صریح و timeboxes.
- توضیح با طراحی: هر اقدام قابل توضیح و حسابرسی است.
- Rollback-ready: هر مرحله با معیارهای بازگشت همراه است.
- انسان در حلقه که در آن خطر بالا است: تغییرات P1-critical - از طریق کنترل دوگانه یا تایید IC/on-call (مگر اینکه در غیر این صورت توسط سیاست ایجاد شود).
2) شرایط
اصلاح خودکار: واکنش برنامه ریزی شده به یک رویداد (هشدار/ناهنجاری) بدون دخالت انسان.
Guardrails: سیاست محدودیت (آستانه، مدت زمان، تعداد تلاش، منطقه تاثیر).
Runbook-Action: عملیات اتمی با چک های قبل/بعد و برگشت.
موتور تصمیم گیری - سرویسی که یک رویداد را به سیاست ها ترسیم می کند و باعث اقدامات می شود.
3) معماری راه حل
1. سیگنال ها: SLO/burn-rate، KRI، مصنوعی، RUM، سلامت عمیق.
2. همبستگی زمینه: انتشارات، پرچم های ویژگی، کار برنامه ریزی شده، ارائه دهندگان وابسته.
3. موتور تصمیم گیری: قوانین/سیاست ها (سیاست به عنوان کد)، ارزیابی تاثیر و ریسک، انتخاب سناریو.
4. اجرا: هماهنگ کننده اقدامات runbook (idempotency، retray با jitter).
5. کنترل: قبل از اعتبار سنج، پس از تایید، جعبه زمان، برگشت.
6. حسابرسی و مشاهده: ردیابی فعالیت، معیارهای موفقیت، ورود (WORM/تغییر ناپذیر).
7. ارتباطات: صفحه وضعیت (از طریق Comms سرب)، var-room، ماکرو برای پشتیبانی.
4) سیاست به عنوان کد
نمونه هایی از شرایط (pseudo-Rego/logic): شکست PSP:- "اجازه دهید اگر burn_rate (پرداخت. auth)> سریع و & ضربه> آستانه و & psp_alt. & سالم و within_limits («psp _ reroute») '
- 'allow if p99 (bet_settlement)> 3x & & queue_lag>limit & & ویژگی («replay _ center»). امکان پذیر است "
- 'allow if consumer_lag>target & & cost_budget. خوب و region_capacity. در دسترس است
- 'allow if export_spike & & no_ticket & & data_class=PII -> action = block + notify (Compliance)'
هر سیاست شامل: شرایط، عمل، محدودیت (محدوده/زمان/فرکانس)، معیارهای موفقیت، بازگشت.
5) دایرکتوری اقدامات امن (اتمی runbook-اقدامات)
پرداخت: سوئیچ ترافیک به PSP جایگزین/بانک ؛ تغییر اولویت های مسیریابی هزینه × سلامت × تبدیل ؛ فعال کردن ساده 3DS بالا بردن محدودیت retray با لرزش.
شرط بندی/بازی: مقیاس حل و فصل کارگران ؛ فعال کردن کش گرم کردن به طور موقت غیر فعال کردن ویژگی های غیر بحرانی (انیمیشن, خوراک ثانویه); فعال کردن اتاق انتظار/صفحه صف.
زیرساخت: حذف موارد تخریب شده (آشکارساز)، تخلیه ترافیک به همسایه AZ/منطقه ؛ افزایش استخر/سهمیه راه اندازی مجدد کارگران با چک پرز.
داده ها/صف ها: احزاب توزیع مجدد ؛ افزایش مصرف کنندگان به کلاه ؛ سوئیچ خواندن ترافیک به یک ماکت سالم ؛ فعالسازی نمونهبرداری مسیر انطباقی.
امنیت/انطباق: به طور موقت صادرات PII بدون بلیط را مسدود می کند ؛ تقویت محدودیت های خروجی سرعت را قادر می سازد کنترل دوگانه در عملیات حساس است.
لایه کاما: وضعیت خودکار پیش نویس + اسلات به روز رسانی برای Comms سرب ؛ شرکای اطلاع زمانی که PSP تنزل.
6) پیش و پس از اعتبار سنجی
قبل از:- بررسی کنید که مشکل واقعی و تازه است (پنجره های N-of-M ؛ بدون سکوت/کار برنامه ریزی شده).
- اطمینان حاصل کنید که این اقدام توسط سیاست مجاز است و بودجه منابع وجود دارد.
- برآورد هزینه (FinOps) و محدودیت های انطباق.
- کاهش میزان سوختگی/متریک را تأیید کنید. نتیجه را ثبت کنید ؛ برنامه ریزی خودکار با توجه به شرایط.
7) Rollback и «دریچه فرار»
بازگشت خودکار هنگام تثبیت معیارها و از طریق اقدامات max-TTL.
رول دکمه بازگشت برای IC/در تماس در اتاق var.
شکستن شیشه فقط برای دسترسی اضطراری ؛ پس از حسابرسی مورد نیاز است.
8) ادغام با هشدار و حوادث
هر اقدام خودکار به کارت حادثه متصل می شود: چه کسی/چه/چه زمانی/چرا، نتیجه، لینک به نمودار.
پیجر برای تکراری خاموش است، اما نه برای رفع خودکار شکست خورده (تشدید).
صفحه وضعیت از طریق Comms Lead از قالب به روز می شود.
9) طراحی ایمنی و انطباق
کمترین امتیازات برای ارکستر ؛ نقش های فردی در هر عمل/دامنه.
SoD و کنترل دوگانه برای ریسک بالا: مسیریابی PSP، محدودیت پاداش، صادرات PII.
بررسی WORM/غیر قابل تغییر از تمام راه حل های خودکار، از جمله ورودی ها و نسخه های سیاست.
بهداشت PII: بدون شناسه شخصی در برچسب ها و سیاهههای مربوط به عمل.
10) قابلیت مشاهده حلقه های خودکار
معیارها: میزان موفقیت اقدامات، زمان واکنش، بازگشت٪، پس انداز MTTR، تأثیر بر SLO.
ردپاها: ردپاهای پایان به پایان برای سیگنال → تصمیم → عمل → اثر.
سیاهههای مربوط: ساختار یافته، با policy_id، نسخه ها و چک های قبل/پست.
داشبورد: Exec (تاثیر درآمد/SLO)، Ops (ماتریس عمل × دامنه ها)، FinOps (هزینه اقدامات خودکار).
11) سناریوهای مثال (iGaming)
11. 1 تخریب PSP (TR/EU)
سیگنال: موفقیت خودکار در PSP-1 ↓ 25٪ در 10 دقیقه، پوشش> 30٪ از معاملات.
اقدامات: توزیع مجدد 40٪ از ترافیک به PSP-2/3 ؛ فعال کردن ساده 3DS بالا بردن retrays از درخواست بانک X با لرزش.
مرزها: بیش از 60٪ از کل ترافیک در هر PSP متناوب ؛ TTL 45 دقیقه
بازگشت: در عادی سازی هدف ≥ میزان موفقیت برای 15 دقیقه.
11. 2 افزایش p99 در سهام حل و فصل
سیگنال: p99 «شرط → حل و فصل»> 3 × هنجار + تاخیر مصرف کننده> آستانه.
اقدامات: مقیاس کارگران قبل از کلاه ؛ ضریب کش گرم کردن ؛ به طور موقت «redo history» را خاموش کنید.
Rollback: پس از headroom> X و p99 به طور معمول 20 دقیقه.
11. 3 ماکت پایگاه داده عقب مانده است
سیگنال: تکرار تاخیر> N ثانیه، رشد قفل صبر کنید.
اقدامات: ترافیک خوانده شده را به یک ماکت سالم هدایت کنید. عملیات نوشتن اولویت پایین را فعال کنید.
بازگشت: پس از عادی سازی تاخیر و خطاهای قفل.
11. 4 سنبله صادرات PII
سیگنال: نرخ صادرات> پایه × K، بدون بلیط.
اقدامات: بلوک صادرات، اطلاع رسانی انطباق، کنترل دوگانه فعال شده است.
Rollback: پس از تایید درخواست ها و بستن ناهنجاری.
12) KPI и KRI
MTTR↓ برای حوادثی که در آن تعمیر خودکار کار می کرد.
TTD → عمل: زمان از تشخیص تا عمل.
نرخ موفقیت اقدامات و نرخ بازگشت (پایین - خوب، اگر نه به دلیل مثبت کاذب).
نرخ عمل نادرست (اقدامات بدون اثر یا با اثر منفی).
تاثیر SLO را نجات داد.
fatigue↓ پیجر (پیگرهای دستی کمتر با SLO های مشابه/بهتر).
13) نقشه راه پیاده سازی (8-12 هفته)
«ند». 1-2: 3-5 سناریو ROI بالا را انتخاب کنید (PSP-feilover، autoscale توسط تاخیر، کاهش ویژگی) ؛ سیاست ها/محدودیت ها/عقب نشینی ها را توصیف کنید.
«ند». 3-4: پیاده سازی عمل ارکستر، اسرار و نقش ها، ادغام با پلت فرم حادثه ؛ قابلیت مشاهده و حسابرسی را اضافه کنید.
«ند». 5-6: خلبان در حالت «سایه» (فقط شبیه سازی) → برآورد اثر A/B ؛ سپس در محصول با پوشش کم قرار دهید.
«ند». 7-8: گسترش دایرکتوری اسکریپت ها (پایگاه داده/کش/صف/جلو)، ارتباط با صفحه وضعیت و Comms.
«ند». 9-10: اضافه کردن قوانین محدودیت FinOps (هزینه/SLI)، اجرای کنترل دوگانه برای ریسک بالا.
«ند». 11-12: آموزش تبلتب/هرج و مرج، تجدید نظر KPI/KRI، انتشار دستورالعمل ها و آموزش در تماس.
14) مصنوعات و الگوهای
سیاست بازسازی خودکار: شرایط، عمل، محدودیت ها، TTL، بازگشت، مالک، کلاس ریسک.
Runbook-Action Spec: پیش شرط ها، مراحل، چک ها، خطاها، نظارت، منطق برگشت.
کنترل تغییر: چه کسی می تواند سیاست ها، بررسی های روابط عمومی، تست ها، تفاوت و نسخه را کنترل کند.
بسته شواهد: SLO impact logs/trails/metrics، گزارش برای پس از مرگ/حسابرسی.
15) ضد گلوله
«درمان علائم» بدون بررسی علت و SLO → flapping.
اقدامات بدون برگشت و TTL → تخریب یخ زده.
اسکریپت های جهانی بدون guardrails → سقوط آبشار.
عدم حسابرسی و سیاست گذاری.
نادیده گرفتن هزینه (مقیاس خودکار بدون محدودیت) و انطباق (صادرات PII).
استقلال کامل بدون انسان در حلقه در خطرات P1.
مجموع
تصحیح خودکار خطا یک حلقه مدیریت شده است: سیگنال های SLO → سیاست ها با guardrails → اقدامات runbook امن با rollback → مشاهده پذیری و حسابرسی → آموزش حادثه. این رویکرد به طور قابل توجهی MTTR را کاهش می دهد، درآمد را در پیک نگه می دارد و روال را از تماس تلفنی حذف می کند در حالی که با الزامات ایمنی و قانونی سازگار است.