中央控制台
1)任命和原则
中央控制仪表板(以下简称CDU)是操作决策的单个窗口。它汇总来自遥测,ITSM,CI/CD,服务目录,工作日历和提供商的信号,将其转换为可操作(可操作)小部件。
原则:- SLO-first:顶部是目标SLO和Tier-0/1燃烧率。
- 单击动作:从小部件到花花公子/运行簿或滴答声。
- 单一字典:相同的SEV,状态,颜色和阈值。
- 事件注释:所有图表上的发布/configi/窗口。
- 角色和授权:个人代表(电话,IC,管理)。
- 低噪音:源法定值、重复数据消除和窗口抑制。
2)角色和关键场景
呼叫上(P1/P2):快速了解"燃烧的东西"并打开花花公子(≤1点击)。
IC:宣布SEV,运行战争室模式,控制comm-update的cadence。
Release Manager:查看门、金丝雀进度、回滚准备。
服务所有者/产品:业务SLI(付款/注册成功),影响眼镜。
SRE/平台:容量,自动轨道,异常,DR准备就绪。
FinOps:$/单位,超支,预算差。
安全/法律:posture,关键证书,轮换窗口,WORM审核链接。
3) CDU信息架构
上架(英雄面板):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- SEV状态:活动事件及其时间线。
- 发行状态:金丝雀/蓝绿色,活动门。
- 提供商的"交通灯"(PSP/KYC/CDN)。
- 服务窗口(现在/24小时),支持卡。
- 容量:预测CPU/RAM/IO/queue-depth/p95延迟。
- FinOps: $/1k txn, day spend vs预算,log卷异常。
- DataOps:店面新鲜度、SLA piplines、DQ错误。
- 安全:证书期限,保密轮换,关键漏洞(age/SLA)。
- 相关性"SLo ↔版本","提供商↔故障/潜伏期"。
- 快速链接:logs,tracks,tikets,花花公子,SOP,升级矩阵。
4)小部件(参考集)
1.SLO & Burn-rate
显示当前错误预算的SLI、目标和支出(1h/6h)。
行动:打开服务降级的花花公子。
2.事件(SEV面板)
活动/最新,Declare/Comms计时器,IC/Comms角色。
行动:打开战争室,升级模板,IC支票清单。
3.发行版/Configi
金丝雀1→5→25%、标志、回滚(按钮/SOP链接)。
注释:版本,commites,作者。
4.服务窗口
当前/即将到来的即兴服务/区域;suppression面膜。
行动:同意通知,包括SLO监护人。
5.容量/自动轨道
消费预测(Naive/AR),热点卡,warm-pool。
行动:要求配额/滑行规则(repo策略中的PR)。
6.FinOps
$/单位,顶部"昂贵"查询/标志,每日烧伤vs预算。
操作:打开报告和推荐(采样日志、存档)。
7.提供商
SLA/PSP/KYC/CDN状态,路线重量,后备状态。
动作:切换重量,通信模板合作伙伴。
8.Security
证书(≤30d)、轮换延迟、漏洞(年龄)、可疑事件。
行动:打开IR 花花公子/tiket。
9.DataOps
店面新鲜,跳过百分比,pipline故障,DLQ。
行动:后盾/隔离/滚回转型。
5)状态/颜色/阈值(基准)
Green:目标内的SLI,burn-rate <1 ×。
琥珀色:SLI降解,burn-rate 1-2 ×,p95生长,但工作场是。
红色:突破或预测爆发<1小时;打开SEV-1/0。
灰色:suppression(窗口),没有遥测(源错误)。
6)注释和相关性
版本/config/窗口/提供程序状态显示在 SLO图上。
点击标记→ diff,作者,门户,"回滚/倒退/SOP"按钮。
在事件中,时间线是根据ChatOps的注释和动作构建的。
7)数据来源和验证
遥测:trace_id度量/跟踪器/逻辑。
ITSM:事件/问题/更改(状态/SLA)。
CI/CD:版本,签名,工件,测试。
服务/CMDB目录:所有者,SLO,依存关系。
日历:服务窗口。
提供商:states-API+手动确认(降落在单独的展示柜中)。
FinOps:计费/资源标签、日志卷、egress。
质量控制:法定人数,重复探针,SLA新鲜度,变为"无声"源。
8)显示模式
战争室:固定的SLO/Incidents/Releases/Comms计时器布局。
Executive (28天):MTTR/MTTD/SEV mix, $/ed., SLO-adgerens趋势。
呼叫:紧凑的"夜间"面板(深色模式,大数字)。
多特南特/地区:服务/地区/特南特过滤器;预设。
9)导航和动作(单击)
按钮:'/declare sev1','/freeze','/rollback','/status update',"打开花花公子"。
Drill- ดาวn: SLO →带有预填充过滤器的图形→ logi/tresa(trace_id,release_id)。
Sharing:将面板截断为滴答声/状态页。
10)安全性、可用性、审计
SSO/OIDC+RBAC/ABAC:角色和漏洞(view/action)。
JIT/JEA:"危险"行动只有临时升级才能使用。
审核不变:谁按了什么,哪些请求/命令离开了。
秘密:不显示,仅指向秘密管理器的链接。
11) CDU成熟度量
Actionability ≥ 90%:点击导致行动,而不仅仅是时间表。
Time-to-First-Action在≤时从CDU SEV-1/0 2分钟。
CDU是"真相之源"的事件比例≥ 95%。
Freshness Widgets:%数据为"新鲜的5分钟"。
Coverage:具有SLO卡和版本注释的关键服务的百分比。
零盲点:每周"无声"来源=0。
12)支票单
设计
- 角色和场景描述(P1/P2/IC/Exec/FinOps/Security/DataOps)。
- 颜色字典/SEV/阈值一致。
- 具有法定人数和SLA新鲜度的数据源。
- 模拟战争室/电话/行政人员。
- ChatOps/ITSM/CI/CD/CMDB集成计划。
运营
- Widgets通过linter(必填字段、主字段、阈值)。
- 每周一次-Escalation/Alert Review和CDU改进。
- 在AAR/RCA中应用了事件的快照。
- 深色模式/移动预设值班。
- 源的"静音"测试和注释的正确性。
13)模板(想法)
13.1小部件定义(YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13.2个事件卡(JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13.3与发行版的联系
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13.4 FinOps小部件
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14)反模式
"图形墙"没有动作和花花公子。
各队不同的颜色/阈值→ SEV混淆。
没有版本/窗口注释-复杂的原因相关性。
没有法定人数的重复来源是虚假的页面/噪音。
面板上的秘密/密钥是泄漏的风险。
慢速渲染(不包含查询/聚合)-在战斗中不打开面板。
15)实施路线图(4-8周)
1.奈德。1:收集角色要求,状态/颜色字典,三种模式的布局。
2.奈德。2: SLO/Incidents/Releases/Windows连接、注释、ChatOps操作。
3.奈德。3:添加FinOps/Capacity/Providers/DataOps/Security,源法定人数。
4.奈德。4:战争室模式,ITSM中的快照,Tier-0上的飞行员。
5.奈德。5-6:性能优化,移动/呼叫预设,Widget linter。
6.奈德。7-8:成熟度量标准,每周审查,自动推荐(标本采样,配额,后退)。
16)结果
CDU不是"美丽的图形",而是解决方案栏:顶部的SLO和burn-rate,同一上下文中的事件/版本/窗口,通过ChatOps和SOP的即时操作,确认的来源和注释。这样的行车记录仪可降低MTTA/MTTR,简化通信,支持FinOps,并使操作透明且可预测。