中央控制臺
1)任命和原則
中央控制儀表板(以下簡稱CDU)是操作決策的單個窗口。它匯總來自遙測,ITSM,CI/CD,服務目錄,工作日歷和提供商的信號,將其轉換為可操作(可操作)小部件。
原則:- SLO-first:頂部是目標SLO和Tier-0/1燃燒率。
- 單擊動作:從小部件到花花公子/運行簿或滴答聲。
- 單一字典:相同的SEV,狀態,顏色和閾值。
- 事件註釋:所有圖表上的發布/configi/窗口。
- 角色和授權:個人代表(電話,IC,管理)。
- 低噪音:源法定值、重復數據消除和窗口抑制。
2)角色和關鍵場景
呼叫上(P1/P2):快速了解「燃燒的東西」並打開花花公子(≤1點擊)。
IC:宣布SEV,運行戰爭室模式,控制comm-update的cadence。
Release Manager:查看門、金絲雀進度、回滾準備。
服務所有者/產品:業務SLI(付款/註冊成功),影響眼鏡。
SRE/平臺:容量,自動軌道,異常,DR準備就緒。
FinOps:$/單位,超支,預算差。
安全/法律:posture,關鍵證書,輪換窗口,WORM審核鏈接。
3) CDU信息架構
上架(英雄面板):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- SEV狀態:活動事件及其時間線。
- 發行狀態:金絲雀/藍綠色,活動門。
- 提供商的「交通燈」(PSP/KYC/CDN)。
- 服務窗口(現在/24小時),支持卡。
- 容量:預測CPU/RAM/IO/queue-depth/p95延遲。
- FinOps: $/1k txn, day spend vs預算,log卷異常。
- DataOps:店面新鮮度、SLA piplines、DQ錯誤。
- 安全:證書期限,保密輪換,關鍵漏洞(age/SLA)。
- 相關性「SLo ↔版本」,「提供商↔故障/潛伏期」。
- 快速鏈接:logs,tracks,tikets,花花公子,SOP,升級矩陣。
4)小部件(參考集)
1.SLO & Burn-rate
顯示當前錯誤預算的SLI、目標和支出(1h/6h)。
行動:打開服務降級的花花公子。
2.事件(SEV面板)
活動/最新,Declare/Comms計時器,IC/Comms角色。
行動:打開戰爭室,升級模板,IC支票清單。
3.發行版/Configi
金絲雀1→5→25%、標誌、回滾(按鈕/SOP鏈接)。
註釋:版本,commites,作者。
4.服務窗口
當前/即將到來的即興服務/區域;suppression面膜。
行動:同意通知,包括SLO監護人。
5.容量/自動軌道
消費預測(Naive/AR),熱點卡,warm-pool。
行動:要求配額/滑行規則(repo策略中的PR)。
6.FinOps
$/單位,頂部「昂貴」查詢/標誌,每日燒傷vs預算。
操作:打開報告和推薦(采樣日誌、存檔)。
7.提供商
SLA/PSP/KYC/CDN狀態,路線重量,後備狀態。
動作:切換重量,通信模板合作夥伴。
8.Security
證書(≤30d)、輪換延遲、漏洞(年齡)、可疑事件。
行動:打開IR 花花公子/tiket。
9.DataOps
店面新鮮,跳過百分比,pipline故障,DLQ。
行動:後盾/隔離/滾回轉型。
5)狀態/顏色/閾值(基準)
Green:目標內的SLI,burn-rate <1 ×。
琥珀色:SLI降解,burn-rate 1-2 ×,p95生長,但工作場是。
紅色:突破或預測爆發<1小時;打開SEV-1/0。
灰色:suppression(窗口),沒有遙測(源錯誤)。
6)註釋和相關性
版本/config/窗口/提供程序狀態顯示在 SLO圖上。
點擊標記→ diff,作者,門戶,「回滾/倒退/SOP」按鈕。
在事件中,時間線是根據ChatOps的註釋和動作構建的。
7)數據來源和驗證
遙測:trace_id度量/跟蹤器/邏輯。
ITSM:事件/問題/更改(狀態/SLA)。
CI/CD:版本,簽名,工件,測試。
服務/CMDB目錄:所有者,SLO,依存關系。
日歷:服務窗口。
提供商:states-API+手動確認(降落在單獨的展示櫃中)。
FinOps:計費/資源標簽、日誌卷、egress。
質量控制:法定人數,重復探針,SLA新鮮度,變為「無聲」源。
8)顯示模式
戰爭室:固定的SLO/Incidents/Releases/Comms計時器布局。
Executive (28天):MTTR/MTTD/SEV mix, $/ed., SLO-adgerens趨勢。
呼叫:緊湊的「夜間」面板(深色模式,大數字)。
多特南特/地區:服務/地區/特南特過濾器;預設。
9)導航和動作(單擊)
按鈕:'/declare sev1','/freeze','/rollback','/status update',「打開花花公子」。
Drill- ดาวn: SLO →帶有預填充過濾器的圖形→ logi/tresa(trace_id,release_id)。
Sharing:將面板截斷為滴答聲/狀態頁。
10)安全性、可用性、審計
SSO/OIDC+RBAC/ABAC:角色和漏洞(view/action)。
JIT/JEA:「危險」行動只有臨時升級才能使用。
審核不變:誰按了什麼,哪些請求/命令離開了。
秘密:不顯示,僅指向秘密管理器的鏈接。
11) CDU成熟度量
Actionability ≥ 90%:點擊導致行動,而不僅僅是時間表。
Time-to-First-Action在≤時從CDU SEV-1/0 2分鐘。
CDU是「真相之源」的事件比例≥ 95%。
Freshness Widgets:%數據為「新鮮的5分鐘」。
Coverage:具有SLO卡和版本註釋的關鍵服務的百分比。
零盲點:每周「無聲」來源=0。
12)支票單
設計
- 角色和場景描述(P1/P2/IC/Exec/FinOps/Security/DataOps)。
- 顏色字典/SEV/閾值一致。
- 具有法定人數和SLA新鮮度的數據源。
- 模擬戰爭室/電話/行政人員。
- ChatOps/ITSM/CI/CD/CMDB集成計劃。
運營
- Widgets通過linter(必填字段、主字段、閾值)。
- 每周一次-Escalation/Alert Review和CDU改進。
- 在AAR/RCA中應用了事件的快照。
- 深色模式/移動預設值班。
- 源的「靜音」測試和註釋的正確性。
13)模板(想法)
13.1小部件定義(YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13.2個事件卡(JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13.3與發行版的聯系
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13.4 FinOps小部件
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14)反模式
「圖形墻」沒有動作和花花公子。
各隊不同的顏色/閾值→ SEV混淆。
沒有版本/窗口註釋-復雜的原因相關性。
沒有法定人數的重復來源是虛假的頁面/噪音。
面板上的秘密/密鑰是泄漏的風險。
慢速渲染(不包含查詢/聚合)-在戰鬥中不打開面板。
15)實施路線圖(4-8周)
1.奈德。1:收集角色要求,狀態/顏色字典,三種模式的布局。
2.奈德。2: SLO/Incidents/Releases/Windows連接、註釋、ChatOps操作。
3.奈德。3:添加FinOps/Capacity/Providers/DataOps/Security,源法定人數。
4.奈德。4:戰爭室模式,ITSM中的快照,Tier-0上的飛行員。
5.奈德。5-6:性能優化,移動/呼叫預設,Widget linter。
6.奈德。7-8:成熟度量標準,每周審查,自動推薦(標本采樣,配額,後退)。
16)結果
CDU不是「美麗的圖形」,而是解決方案欄:頂部的SLO和burn-rate,同一上下文中的事件/版本/窗口,通過ChatOps和SOP的即時操作,確認的來源和註釋。這樣的行車記錄儀可降低MTTA/MTTR,簡化通信,支持FinOps,並使操作透明且可預測。