عملیات و مدیریت → کمک های AI برای اپراتورها
کمک های AI برای اپراتورها
1) چرا شما به آن نیاز دارید
اپراتورها در هشدارها، سیاهههای مربوط و مصنوعات پراکنده غرق می شوند. دستیار هوش مصنوعی سیگنال های ناهمگن را به توصیه های قابل فهم و اقدامات آماده تبدیل می کند: triages سریعتر، روال دستی کمتر، پیش بینی پذیری بالاتر SLO.
اهداف:- کاهش MTTD/MTTR و هشدار سر و صدا.
- بهبود کیفیت تحویل و اسناد پس از حادثه.
- خودکار «روال سنگین» (جستجو برای متن، خلاصه، بلیط).
- استانداردهای پاسخ/ارتباطات مشترک را ضبط کنید.
2) سناریوهای کاربردی (Top-12)
1. Triage حوادث: گروه بندی هشدارها → فرضیه های علل → اولویت/تاثیر
2. نکات عملی: «چه کاری باید انجام دهید» با پیوندهایی به کتاب اجرا و دکمه های راه اندازی.
3. خلاصه خودکار (حادثه TL ؛ DR): یک فشار کوتاه برای کانال حادثه/ذینفعان.
4. جستجوی دانش (RAG): پاسخ های سریع توسط ماتریس runbook/SOP/postmortems/escalation.
5. تولید بلیط/به روز رسانی: پیش نویس به روز رسانی جیرا/وضعیت با استفاده از یک قالب.
6. تجزیه و تحلیل هشدار: شناسایی «قوانین پر سر و صدا»، تنظیم پیشنهادات.
7. مشاهده Q&A: «نشان می دهد p99 شرط API در 1H» → نمودار آماده/درخواست.
8. زمینه فروشنده: خلاصه ارائه دهنده (سهمیه ها، SLA ها، پنجره ها، حوادث).
9. نکات پیش بینی شده: «burn- rate↑ + lag↑ → آماده یک feiler PSP».
10. تحویل Copilot: جمع آوری یک بسته تغییر از داشبورد/بلیط.
11. Copilot Postmortem: زمان بندی از سیاهههای مربوط/موضوعات + پیش نویس اقدامات اصلاحی/پیشگیرانه.
12. محلی سازی/تن از پیام ها: درست، به روز رسانی مشتری سازگار است.
3) معماری راه حل (سطح بالا)
منابع: metrics/logs/trails (Observability), tickets/incidents, configs/phicheflags, statuses provider, دایرکتوری SLO/OLA, runbook/SOP.
لایه RAG (جستجوی دانش): اسناد نمایه سازی با نشانه گذاری (دامنه، نسخه، تاریخ، مالک). ویوهی «برای اپراتور»
ابزار/اقدامات: عملیات امن: "مقیاس بالا HPA"، "مکث قناری"، "فعال کردن حالت امن"، "سوئیچ PSP"، "ایجاد بلیط"، "جمع آوری نمودار. "همه اقدامات از طریق یک کارگزار/ارکستر با حسابرسی است.
Policy-guardrails: حقوق توسط نقش، تایید HITL، محدودیت ها، خشک اجرا، مجله.
امنیت: KMS/اسرار، ماسک PII، mTLS، ممیزی دسترسی به داده ها.
رابط ها: چت/پانل در NOC، ویدجت در داشبورد، دستورات اسلش.
اصل: AI توصیه می کند - فرد تایید (HITL) برای فعالیت های حساس. اتوماسیون - فقط برای مراحل ایمن و برگشت پذیر (به عنوان مثال، انتشار خلاصه، ایجاد یک بلیط، تشکیل یک درخواست به داشبورد).
4) الگوهای UX (آنچه اپراتور می بیند)
کارتهای حادثه: «علائم → فرضیه (رتبه بندی شده) → 3 مرحله پیشنهادی → پیوند به داده ها → دکمه های عمل».
تنها فیلد فوری: «یک بسته تحویل در آخرین 4h برای پرداخت».
برجسته کردن اعتماد به نفس/منابع: «بر اساس: Grafana، Postgres سیاهههای مربوط، Runbook v3».
دکمه «Dry-Run»: نشان می دهد که چه کاری انجام می شود و خطرات کجا هستند.
تاریخچه تصمیم گیری: چه کسی مرحله، نتیجه، بازگشت/موفقیت را تأیید کرد.
5) ادغام و اقدامات (مثال)
قابلیت مشاهده: فیلترهای آماده PromQL/LogsQL/Trace، نمودارها با فشار دادن.
ویژگی پرچم: فعال کردن حالت امن/بازگشت پرچم (با تایید).
انتشار قناری: مکث/رول به عقب ؛ نمودارها را بنویسید.
K8s: قبل از اسکن HPA، راه اندازی مجدد شبح، PDB/گسترش چک کنید.
ارائه دهندگان: مسیر سوئیچینگ PSP-X → PSP-Y ؛ چک کردن سهمیه ها
ارتباطات: پیش نویس به روز رسانی به صفحه کانال/وضعیت حادثه.
بلیط: ایجاد یک جیرا با بخش های از پیش پر شده.
6) سیاست های امنیتی و حفظ حریم خصوصی
دسترسی از طریق نقش ها/دامنه ها: اپراتور فقط سیستم های «خود» و حداقل داده های کافی را می بیند.
ورود به سیستم اقدام: چه کسی/چه زمانی/چه تایید، نتیجه، عقبگرد.
PII/اسرار: ماسک در پاسخ/سیاهههای مربوط ؛ عدم دسترسی به اسرار «خام».
ذخیره سازی محتوا: نسخه های مصنوعات استخراج شده (RAGs) با TTL و برچسب زدن.
ممنوعیت «استدلال» به عنوان یک مصنوعات: ما نتیجه گیری ها و ارجاعات به منابع را حفظ می کنیم و نه بازتاب های داخلی مدل.
مرزهای فروشنده: یک لیست روشن از داده های خروج از محیط (صفر به طور پیش فرض).
7) معیارهای کیفیت و عملکرد
KPI های عملیاتی:- MTTD/MTTR ، قبل از حادثه تشخیص نرخ ، تغییر نرخ شکست ، دست کردن نمره کیفیت.
- هشدار خستگی ↓، زمان برای اولین بار به روز رسانی ↓.
- نرخ پذیرش، زمان ذخیره شده/مورد، دقت/فراخوانی توسط کلاس (به عنوان مثال P1)، میزان توهم، حوادث ایمنی = 0.
- یادآوری (P1) ≥ 0. 7، دقت ≥ 0. 6، پذیرش ≥ 0. 5، زمان ذخیره شده ≥ 25٪، توهم ≤ 2٪ با منابع اجباری به منابع.
8) مهندسی صنایع و مدیریت دانش
قالب پرس و جو: استاندارد جمله بندی (مثال های زیر).
لایه های زمینه: (الف) قوانین سیستم (امنیت، سبک پاسخ)، (ب) زمینه مختصر سوئیچ/دامنه، (ج) جستجوی RAG در اسناد/برنامه های جدید.
نسخه بندی دانش: هر runbook/SOP دارای یک «id @ version» و یک تاریخ است، AI یک لینک و یک نسخه را صادر می کند.
اعتبار سنجی پاسخ: نیاز به مرجع به منابع داده/داشبورد برای تمام اظهارات واقعی.
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) جاسازی فرآیند (SOP)
حوادث: AI TL را منتشر می کند ؛ DR هر N دقیقه، ETA بعدی را آماده می کند، مراحل را نشان می دهد.
انتشار: خلاصه قبل و بعد از گزارش ؛ خود را در معرض خطرات پیش بینی شده قرار دهید.
شیفت: بسته تحویل تشکیل شده است و اعتبار با توجه به چک لیست.
Postmortems: پیش نویس توسط جدول زمانی + لیست اقدامات اصلاحی/پیشگیرانه.
گزارش: هضم یک هفته ای از هشدارهای پر سر و صدا و پیشنهادات تنظیم.
10) داشبورد و ابزارک (حداقل)
AI Ops Overview: توصیه های پذیرفته شده، زمان ذخیره شده، موفقیت/بازگرداندن اقدامات.
کیفیت سه گانه: دقت/یادآوری توسط کلاس، موارد بحث برانگیز، اشکالات بالا.
دانش سلامت: کتاب اجرا/پوشش SOP، نسخه های میراث، فضاهای.
هشدار بهداشت: منابع سر و صدا، تنظیم نامزد قانون.
ایمنی و حسابرسی: ورود به سیستم از اقدامات، تلاش های شکست خورده، گزارش خشک اجرا.
11) ضد الگوهای
«جعبه جادویی همه چیز را حل خواهد کرد» - بدون RAG و لینک ها، با حقایق «حدس زدن».
خودکار اقدامات غیر قابل برگشت بدون HITL/نقش/محدودیت.
ترکیب مصنوعات prod/stage در جستجو.
اسرار/PII در پاسخ ها و سیاهههای مربوط دستیار.
عدم وجود معیارهای کیفیت و ارزیابی پس از سود.
«یک چت برای همه وظایف» - بدون کارت، وضعیت و دکمه های عمل.
12) چک لیست پیاده سازی
- دامنه ها و اسکریپت ها (تریاژ، خلاصه ها، تحویل، بلیط ها) تعریف می شوند.
- RAG پیکربندی شده: runbook/SOP/postmortem/escalation matrix index (با نسخه).
- یکپارچگی: مشاهده پذیری، پرچم ها، انتشار، بلیط ها، ارائه دهندگان - از طریق ابزارهای امن.
- سیاست ها: نقش ها، HITL، ورود به سیستم، خشک اجرا، PII/مخفی پوشش.
- UX: کارت های حادثه، دکمه های عمل، اعتماد به نفس و لینک ها.
- معیارها: داشبورد AI-KPI و Ops-KPI +.
- فرآیندها: SOPs برای حوادث/انتشار/تغییر/پس از مرگ و میر شامل AI.
- برنامه آموزش اپراتور و «قوانین ارتباطات» با دستیار.
13) نمونه هایی از اقدامات خودکار «امن»
انتشارات TL ؛ DR/ETA به کانال حادثه.
ایجاد/به روز رسانی یک بلیط، پیوند مصنوعات.
تولید/راه اندازی معیارهای خواندن و سیاهههای مربوط (بدون تغییر در سیستم).
حاشیه نویسی از انتشار/پرچم در نمودار.
آماده سازی playbook خشک اجرا (که پس از تایید انجام خواهد شد).
14) نقش ها و مسئولیت ها
صاحب عملیات: نتایج کسب و کار (MTTR، سر و صدا)، تایید SOP.
قابلیت مشاهده/SRE: RAG، ادغام، معیارهای ایمنی و کیفیت.
فرصت های دامنه: اعتبار توصیه ها، ارتباط runbook/SOP.
آموزش/توانمند سازی: اپراتورهای onboarding، «نحوه برقراری ارتباط با AI»، امتحانات.
انطباق/امنیت: سیاست داده، حسابرسی و ذخیره سازی ورود.
15) 30/60/90 - راه اندازی طرح
30 روز:- خلبان در یک دامنه (به عنوان مثال، پرداخت): تریاژ، TL ؛ دکتر، بليط
- نمایه سازی دانش (RAG) و کارت های حادثه، فعالیت های خشک اجرا می شود.
- معیارهای اصلی: پذیرش/زمان ذخیره شده/دقت/فراخوان.
- اضافه کردن دستیار/دستیار پس از مرگ، ادغام با پرچم/انتشار.
- شامل نکات پیش بینی کننده (میزان سوختگی، تاخیر) و پیشنهادات تنظیم هشدار.
- صرف دو روز بازی با استفاده از دستیار.
- فرمت به شرط/بازی/KYC, اتحاد قالب.
- SOP ها را با AI رسمی کنید، KPI ها را در اهداف سه ماهه وارد کنید.
- بهینه سازی اثر اقتصادی (هزینه/حادثه، کاهش اضافه کاری).
16) نمونه هایی از پاسخ دستیار (فرمت)
کارت حادثه (مثال):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
تحویل TL ؛ DR (به عنوان مثال):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
پیش نویس پس از مرگ (قطعه):
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) سوالات متداول
س: چه چیزی برای اولین بار به صورت خودکار ؟
A: خلاصه/بلیط/جستجوی دانش - امن و بلافاصله موجب صرفه جویی در زمان. سپس - سرنخ های پیش بینی شده و اقدامات نیمه اتوماتیک با HITL.
س: چگونه با «توهم» برخورد کنیم ؟
A: فقط RAG، تنها با لینک ها، ممنوعیت پاسخ بدون منابع، ارزیابی کیفیت آفلاین، پاسخ های بحث برانگیز برای علامت گذاری و جدا کردن در retro.
س: آیا می توان به یک دستیار حق «دکمه های فشار» را داد ؟
A: بله - برای مراحل برگشت پذیر و کم خطر (حاشیه نویسی، خلاصه، خشک اجرا، پیش مقیاس)، بقیه - از طریق HITL و نقش.