運營和→管理AI操作員助理
操作員的AI助手
1)為什麼需要它
運算符沈沒在Alert,Logs和分散的人工制品中。AI助手將異構信號轉換為易於理解的推薦和現成的動作:三合會更快,手動例程更少,SLO的可預測性更高。
目標是:- 降低MTTD/MTTR和Alert噪音。
- 提高風險管理和事後文件的質量。
- 自動化「繁重例程」(搜索上下文、摘要、字幕)。
- 提交統一的響應/通信標準。
2)應用方案(Top-12)
1.事件三重性:分組Alert →原因假設→優先級/影響。
2.動作指南(Action Hints):「現在該怎麼做」(runbook鏈接和啟動按鈕)。
3.自動摘要(Incident TL;DR):事件通道/堆積器的簡短擠壓。
4.知識搜索(RAG):對runbook/SOP/後驗表/升級矩陣的快速響應。
5.Ticket/Update生成:Jira/Status Update草稿按模板。
6.Alert分析:識別「嘈雜規則」,調音建議。
7.Observability Q&A:「在1小時內顯示p99 bets-api」 →完成的圖形/查詢。
8.供應商上下文:供應商摘要(配額,SLA,窗口,事件)。
9.謂詞提示: 「burn-rate↑+lag↑ →準備一個PSP feilover。」
10.Handover Copilot:從dashbords/tiket收集更換包。
11.Postmortem Copilot:來自log/treds的年表+Corrective/Preventive Actions草稿。
12.消息本地化/音調:正確、一致的客戶端升級。
3)解決方案架構(高級)
資料來源:度量/logi/traces(觀察力),滴答聲/事件,configi/ficheflagi,提供者狀態,SLO/OLA目錄,runbook/SOP。
RAG層(知識搜索):標記文檔索引(域、版本、日期、所有者)。Vyuhi「用於操作員」。
工具(工具/行動):安全操作:「scale-up HPA」,「暫停金絲雀」,「啟用安全模式」,「切換PSP」,「創建滴答聲」,「組裝圖形」。所有活動均通過經紀人/編曲員進行審核。
Policy-guardrails:角色權利,HITL確認,限制,幹跑(幹跑),日誌。
安全性:KMS/Secrets,PII掩碼,mTLS,數據訪問審核。
接口:NOC中的聊天/面板,dashbords中的小部件,slack slash命令。
4)UX模式(操作員可以看到)
事件卡: 「癥狀→假設(排名)→ 3個建議的步驟→指向數據→動作按鈕。」
單個prompt字段: 「在Payments的最後4小時內形成一個包裹。」
放心/來源突出顯示:「基於:Grafana,Postgres logs,Runbook v3」。
「Dry-Run」按鈕:顯示將做什麼以及風險在哪裏。
決策歷史:誰確認了步驟,結果,回滾/成功。
5)集成和操作(examples)
Observability:現成的PromQL/LogsQL/Trace過濾器,按下圖形。
Feature Flags:啟用安全模式/回滾標誌(帶確認)。
Release-canareica:暫停/回滾;將註釋添加到圖形。
K8s:HPA提前,可重啟,PDB/Spread檢查。
提供商:將PSP-X → PSP-Y路由切換;配額檢查。
通訊:升級到事件通道/狀態頁的草稿。
Tickets:創建帶有預填充部分的Jira。
6)安全和隱私政策
按角色/域進行訪問:操作員僅看到「自己的」系統和最低限度的足夠數據。
行動日誌:誰/何時確認,結果,回滾。
PII/秘密:在答復/記錄中偽裝;無法獲得「原始」秘密。
內容存儲:帶有TTL和標簽的檢索工件(RAG)版本。
禁止「推理」作為人工制品:我們保留結論和對來源的引用,而不是模型的內部反思。
供應商邊界:離開周邊的數據的清晰列表(默認為零)。
7)質量與績效指標
運營KPI:- MTTD/MTTR ↓, Pre-Incident Detect Rate ↑, Change Failure Rate ↓, Handoff Quality Score ↑.
- 警報Fatigue ↓(每個操作員/班次的變量),直到第一個更新↓。
AI-KPI:
接受率(接受建議),時間保存/案例,按類(例如P1)進行精制/恢復,萬事達率(無源錯誤陳述),安全事件=0。
目標默認:- Recall(P1) ≥ 0.7, Precision ≥ 0.6, Acceptance ≥ 0.5、Time Saved ≥ 25%,Hallucination ≤ 2%,強制參考來源。
8)Prompt工程和知識管理
查詢模板:標準化表述(以下為示例)。
上下文層:(a)系統規則(安全性、響應樣式)、(b)輪換/域的簡短上下文,(b)根據最新文檔/圖表搜索RAG。
知識驗證:每個runbook/SOP都有'id@version'和日期,AI提供鏈接和版本。
確認答復:我們要求為所有實際指控提供數據來源/dashborda的鏈接。
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9)嵌入過程(SOP)
事件:AI發布TL;DR每N分鐘,準備下一個ETA,提供步驟。
發行版本:前期和後期摘要;在謂詞風險下自動駕駛。
班次:打包成型,通過支票單驗證。
Postmortems:時間線草稿+Corrective/Preventive Actions列表。
報告:為期一周的噪音和調音建議摘要。
10)Dashbords和Widgets(最低)
AI Ops Overview:接受的建議、節省的時間、成功/回滾行動。
Triaging Quality:按年級、有爭議的案例、頂級錯誤。
知識健康:runbook/SOP覆蓋範圍,過時版本,空白。
警報Hygiene:噪音源,調音候選規則。
Safety&Audit:操作日誌、失敗嘗試、幹運行報告。
11)反模式
「魔術盒將決定一切」-沒有RAG和鏈接,帶有「猜測」事實。
在沒有HITL/角色/限制的情況下自動執行不可逆轉的活動。
在搜索中混合散文/堆棧文物。
響應和助手日誌中的秘密/PII。
缺乏質量指標和後期效益評估。
「對所有任務進行一次聊天」-沒有卡,狀態和動作按鈕。
12)實施支票
- 定義了域和腳本(triage,摘要,handover, tikets)。
- 配置了RAG: runbook/SOP/後驗表/升級矩陣索引(帶版本)。
- 集成:Observability, Flags, Release, Tickets, Providers-通過安全工具。
- 政治:角色,HITL,雜誌,幹跑,偽裝PII/秘密。
- UX:事件卡、動作按鈕、信心和鏈接。
- 度量標準:AI-KPI和Ops-KPI+dashbords。
- 過程:涉及AI的事件/釋放/輪班/驗屍的SOP。
- 操作員培訓計劃以及與助手的「溝通規則」。
13)「安全」自動輔助示例
TL出版;DR/ETA進入事件頻道。
創建/更新tiket,綁定工件。
生成/開始讀取指標和邏輯(不更改系統)。
圖表上的版本/標誌註釋。
準備幹跑花花公子(確認後將完成)。
14)角色和責任
Ops Owner:業務結果(MTTR,噪音),SOP批準。
Observability/SRE:RAG,集成,安全性和質量指標。
域領導:建議的驗證,運行手冊/SOP的相關性。
培訓/實施:提倡操作員,「如何與AI溝通」,考試。
Compliance/Security:數據策略、審核和日誌存儲。
15)30/60/90-啟動計劃
30天:- 一個域上的飛行員(例如Payments):三合會,TL;DR,滴答作響。
- 知識索引(RAG)和事件卡,幹跑動作。
- 基本指標:Acceptance/Time Saved/Precision/Recall。
- 添加handover/postmortem copilot,與Flags/Release集成。
- 包括謂詞提示(burn-rate,lag)和alerts調諧子句。
- 使用助手進行兩個遊戲日。
- 擴展到Bets/Games/KYC,統一模式。
- 將SOP與AI正式化,將KPI引入季度目標。
- 優化經濟影響(成本/事件,減少加班時間)。
16)助手答復示例(格式)
事件卡(示例):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
Handover TL;DR(示例):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
驗屍草稿(片段):
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) FAQ
問:首先自動化是什麼?
答:摘要/提要/知識搜索-安全且立即節省時間。然後是HITL的謂詞提示和半自動動作。
問:如何對抗「幻覺」?
答:只有RAG,只有鏈接響應,禁止無源響應,離線質量評估,有爭議的響應標記和分解為復古。
Q:助手有權「咀嚼按鈕」嗎?
答:是的-用於可逆和低風險步驟(註釋,摘要,幹跑,預賽),其余的則通過HITL和角色。