آموزش اپراتور و آموزش
1) اهداف برنامه آموزشی
کاهش MTTA/MTTR و افزایش احتمال اقدامات صحیح برای اولین بار.
استاندارد واکنش: playbooks، ماتریس تشدید، الگوهای comms.
حفظ انعطاف پذیری تیم: به اشتراک گذاری بار، اعتماد به نفس، فرهنگ ایمنی.
دانش را تجدید پذیر کنید: Docs/GitOps، LMS، بررسی های منظم.
2) ماتریس مهارت
3) ماژول های آموزشی (هسته برنامه)
1. معیارهای SLO و حادثه: SLI/SLO، نرخ سوختن، MTTD/MTTA/MTTM/MTTR.
2. ماتریس تشدید: معیارهای SEV، زمان بندی، نقش (P1/P2/IC/Comms).
3. Playbooks and runbook "و: ساختار، درخت تصمیم، عقب/عقب نشینی.
4. قابلیت مشاهده: logs/metrics/trails، همبستگی با حاشیه نویسی انتشار.
5. تغییر/انتشار: قناری/آبی سبز، بازگشت خودکار، پنجره تعمیر و نگهداری.
6. پایه امنیتی: دسترسی JIT/JEA، اسرار، حوادث امنیتی.
7. DataOps-basis: تازگی/کیفیت داده ها، backfills، قراردادها.
8. ارتباطات: اولین به روز رسانی، آهنگ، تونالیته و شفافیت.
هر ماژول: 60-90 دقیقه تئوری + 30-45 دقیقه تمرین (آزمایشگاه/شبیه سازی).
4) فرمت های تمرین
Tabletop (اسکریپت دسکتاپ): تجزیه مورد توسط جدول زمانی ؛ نقش ها با صدا در چت/سالن بازی می کنند.
روز بازی (تمرین عملی): در مرحله/» prod-light» با بار کنترل شده.
تزریق هرج و مرج: نقاط شکست (خطاهای شبکه/وابستگی) با gardrails SLO.
Runbook-drills: «کورکورانه» در چک لیست (برگشت، ارائه دهنده سوئیچینگ، چرخش گواهی).
On-call Shadow: 2-4 شیفت «در سایه» تحت نظارت یک مربی.
Hotwash/AAR: بلافاصله پس از تمرین - تجزیه و تحلیل، ضبط پیشرفت.
5) تقویم و ریتم
هفتگی: 1 تبلت کوتاه (30-45 دقیقه) در هر نقش/خدمات.
ماهانه: 1 روز بازی (2-3 ساعت) برای سناریوهای Tier-0/1 اولویت.
سه ماهه: تمرین DR (شکست/شکست) + حادثه امنیتی.
پس از تغییرات عمده: هدف دریل توسط playbook جدید/روند.
6) نصب اپراتور (4-6 هفته)
1. «ند». 1: ماژول های اساسی (SLO، ماتریس، playbooks)، دسترسی فقط خواندنی، تور داشبورد.
2. «ند». 2: آزمایشگاه: سیاهههای مربوط/مسیرهای پیاده روی, در حال اجرا playbooks در sandbox, comms قالب.
3. «ند». 3: شیفت سایه (اسلات 2-3)، مینی تبلت به عنوان P1.
4. «ند». 4: روز مینی بازی: بازگشت آزاد، تعویض ارائه دهنده ؛ صدور گواهینامه P1-L1 داخلی
5. «ند». 5-6: گسترش به P2/IC (توسط مسیر)، مشارکت در روز بازی ماهانه.
7) صدور گواهینامه و پذیرش به نقش
تئوری: تست (LMS) توسط ماژول، آستانه 80٪ +.
تمرین: چک لیست مهارت (پایین را ببینید) + مشارکت در 2 میز و 1 روز بازی.
سایه → انفرادی: 2-4 تغییر مشاهده → 1 تغییر تحت نظارت → پذیرش مستقل.
اعتبار: 12 ماه ؛ مجوز مجدد برای تغییرات playbook/policy.
8) معیارهای عملکرد آموزش
زمان به اولین اقدام (در تمرین/مبارزه): متوسط/p95.
صحت شاخه Playbook:% موارد بدون «حلقه».
Comms SLA پایبندی در تمرینات: سهم به روز رسانی به موقع.
MTTA/MTTR محلی در مقابل شبیه سازی عملکرد مبارزه با.
پوشش:٪ آموزش در تماس کامل در سه ماهه (≥ هدف 90٪).
نرخ نقص از playbooks: در بر داشت/ثابت پس از تمرینات (CAPA).
بررسی پالس (تغییر NPS): اعتماد به نفس/بار، روند QoQ.
9) قالب ها و چک لیست ها
9. 1 چک لیست جدول (سرب)
- طرح هدف/SEV/نقش اعلام شده است.
- جدول زمانی: T0، شناسایی، ACK، اعلام، کاهش، بازیابی.
- چنگال های کلیدی از playbook منتقل می شوند.
- قالب تجاری کامل است (اولین به روز رسانی و کادنس).
- نتیجه: 3-5 پیشرفت (playbook/alerts/dashboards).
9. 2 چک لیست روز بازی
- پایه/» تولید نور»، داده های آزمون، عقب نشینی و گاردریل آماده هستند.
- سناریوها: حداقل 2 (به عنوان مثال ارائه دهنده و پایگاه داده).
- نظارت SLO و حاشیه نویسی انتشار فعال هستند.
- شواهد دفترچه یادداشت: نمودارها، سیاهههای مربوط، زمان گام.
- AAR 30 دقیقه پس از اتمام ؛ CAPA ساخته شده است.
9. 3 نقشه مهارت P1 (قطعه)
SLO Triage: (4-level scale)
Playbook launch:
Comms first update:
Feature flags/limits:
Release rollback:
Logs/Trails:
9. 4 کارت مته (قالب)
ID: TR-2025-11-GD-PAY
Format: Game Day
Scenario: PSP-A degradation in EU (SEV-1)
Goals: TTFA≤10m, correct playbook branch, first update ≤15m
Gardrails: payment_success ≥98% on test traffic
Stages: canary 1%→5%→25%, switchover, rollback
Team: IC, P1, P2, Comms, Vendor
Evidence: graphs, logs, timeline
CAPA owners/deadlines:...
9. 5 مینی قالب اولین به روز رسانی (آموزش)
Impact: EU payment delays, -2. 8% to SLO (test traffic).
Diagnosis: confirmed by quorum; PSP-A increased latency.
Action: PSP-B overweight 30%→70%, degrade-UX included.
Next update: 14:30 UTC.
10) ابزار و اتوماسیون
LMS/Docs-as-Code: دوره ها، تست ها، نسخه های playbook و SOP ها.
هشدار شبیه ساز: بازی نرخ سوختگی، حد نصاب، طوفان (برای دریل طوفان صفحه).
ربات Comms: قالب های به روز رسانی، تایمر، کنترل کادنس.
شبیه سازهای وابستگی: PSP/KYC/CDN برای سناریوهای ارائه دهنده.
خودکار استخراج شواهد: لینک به نمودار، حاشیه نویسی انتشار، سیاهههای مربوط.
11) ارتباطات فرآیند
Alert Review, Postmortem Review, Change Advisory (بازبینی پس از مرگ, مشاوره تغییر)
به روز رسانی Playbook/alert - از طریق PR، با آموزش اجباری «خشک اجرا».
تمرینات در آستانه پنجره های سرویس/انتشار بزرگ مورد نیاز است.
12) ضد الگوهای
آموزش «برای نشان دادن» بدون اهداف و شواهد قابل اندازه گیری.
آموزش بیش از حد نادر → مهارت های تنزل.
تنها تئوری بدون عمل و تغییر سایه.
تمرینات بدون gardrails → خطر شکستن موضع و یا تحریک.
هیچ CPA وجود ندارد - اشتباهات مشابه تکرار می شوند.
عدم آموزش ارتباطات - رفع خوب, اما پیام های بد.
13) نقشه راه پیاده سازی (4-8 هفته)
1. «ند». 1: ثابت ماتریس مهارت، برنامه ماژول، معیارهای صدور گواهینامه.
2. «ند». 2: اجرای LMS، آماده سازی 10 playbooks کلیدی و 2 اسکریپت tabletop.
3. «ند». 3: شروع شیفت سایه، صرف 1 روز بازی در Tier-0.
4. «ند». 4: معرفی یک ریتم جدول هفتگی، یک ربات comms، یک شبیه ساز هشدار.
5. «ند». 5-6: گسترش به DataOps/امنیت، اضافه کردن تزریق هرج و مرج.
6. «ند». 7-8: تأیید همه P1-L1 در تماس، صرف DR-day سه ماهه.
14) خط پایین
آموزش و پرورش یک چرخه ثابت است: تئوری → تمرین → تغییر در سایه → تمرینات مبارزه → AAR → CAPA → به روز رسانی playbooks. با این ریتم، تیم با اطمینان بر روی playbooks عمل می کند، با ماتریس تشدید و SLO مطابقت دارد، MTTA/MTTR را کاهش می دهد و کیفیت ارتباطات را حفظ می کند - و کسب و کار یک عملکرد عملیاتی قابل پیش بینی و بالغ را دریافت می کند.