GH GambleHub

中央控制台

1)任命和原则

中央控制仪表板(以下简称CDU)是操作决策的单个窗口。它汇总来自遥测,ITSM,CI/CD,服务目录,工作日历和提供商的信号,将其转换为可操作(可操作)小部件。

原则:
  • SLO-first:顶部是目标SLO和Tier-0/1燃烧率。
  • 单击动作:从小部件到花花公子/运行簿或滴答声。
  • 单一字典:相同的SEV,状态,颜色和阈值。
  • 事件注释:所有图表上的发布/configi/窗口。
  • 角色和授权:个人代表(电话,IC,管理)。
  • 低噪音:源法定值、重复数据消除和窗口抑制。

2)角色和关键场景

呼叫上(P1/P2):快速了解"燃烧的东西"并打开花花公子(≤1点击)。
IC:宣布SEV,运行战争室模式,控制comm-update的cadence。
Release Manager:查看门、金丝雀进度、回滚准备。
服务所有者/产品:业务SLI(付款/注册成功),影响眼镜。
SRE/平台:容量,自动轨道,异常,DR准备就绪。
FinOps:$/单位,超支,预算差。
安全/法律:posture,关键证书,轮换窗口,WORM审核链接。

3) CDU信息架构

上架(英雄面板):
  • SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
  • SEV状态:活动事件及其时间线。
  • 发行状态:金丝雀/蓝绿色,活动门。
  • 提供商的"交通灯"(PSP/KYC/CDN)。
中场(作战):
  • 服务窗口(现在/24小时),支持卡。
  • 容量:预测CPU/RAM/IO/queue-depth/p95延迟。
  • FinOps: $/1k txn, day spend vs预算,log卷异常。
  • DataOps:店面新鲜度、SLA piplines、DQ错误。
  • 安全:证书期限,保密轮换,关键漏洞(age/SLA)。
下架(诊断/演习-ดาวn):
  • 相关性"SLo ↔版本","提供商↔故障/潜伏期"。
  • 快速链接:logs,tracks,tikets,花花公子,SOP,升级矩阵。

4)小部件(参考集)

1.SLO & Burn-rate

显示当前错误预算的SLI、目标和支出(1h/6h)。
行动:打开服务降级的花花公子。

2.事件(SEV面板)

活动/最新,Declare/Comms计时器,IC/Comms角色。
行动:打开战争室,升级模板,IC支票清单。

3.发行版/Configi

金丝雀1→5→25%、标志、回滚(按钮/SOP链接)。
注释:版本,commites,作者。

4.服务窗口

当前/即将到来的即兴服务/区域;suppression面膜。
行动:同意通知,包括SLO监护人。

5.容量/自动轨道

消费预测(Naive/AR),热点卡,warm-pool。
行动:要求配额/滑行规则(repo策略中的PR)。

6.FinOps

$/单位,顶部"昂贵"查询/标志,每日烧伤vs预算。
操作:打开报告和推荐(采样日志、存档)。

7.提供商

SLA/PSP/KYC/CDN状态,路线重量,后备状态。
动作:切换重量,通信模板合作伙伴。

8.Security

证书(≤30d)、轮换延迟、漏洞(年龄)、可疑事件。
行动:打开IR 花花公子/tiket。

9.DataOps

店面新鲜,跳过百分比,pipline故障,DLQ。
行动:后盾/隔离/滚回转型。

5)状态/颜色/阈值(基准)

Green:目标内的SLI,burn-rate <1 ×。
琥珀色:SLI降解,burn-rate 1-2 ×,p95生长,但工作场是。
红色:突破或预测爆发<1小时;打开SEV-1/0。
灰色:suppression(窗口),没有遥测(源错误)。

6)注释和相关性

版本/config/窗口/提供程序状态显示在 SLO图上。
点击标记→ diff,作者,门户,"回滚/倒退/SOP"按钮。
在事件中,时间线是根据ChatOps的注释和动作构建的。

7)数据来源和验证

遥测:trace_id度量/跟踪器/逻辑。
ITSM:事件/问题/更改(状态/SLA)。
CI/CD:版本,签名,工件,测试。
服务/CMDB目录:所有者,SLO,依存关系。
日历:服务窗口。
提供商:states-API+手动确认(降落在单独的展示柜中)。
FinOps:计费/资源标签、日志卷、egress。

质量控制:法定人数,重复探针,SLA新鲜度,变为"无声"源。

8)显示模式

战争室:固定的SLO/Incidents/Releases/Comms计时器布局。
Executive (28天):MTTR/MTTD/SEV mix, $/ed., SLO-adgerens趋势。
呼叫:紧凑的"夜间"面板(深色模式,大数字)。
多特南特/地区:服务/地区/特南特过滤器;预设。

9)导航和动作(单击)

按钮:'/declare sev1','/freeze','/rollback','/status update',"打开花花公子"。
Drill- ดาวn: SLO →带有预填充过滤器的图形→ logi/tresa(trace_id,release_id)。
Sharing:将面板截断为滴答声/状态页。

10)安全性、可用性、审计

SSO/OIDC+RBAC/ABAC:角色和漏洞(view/action)。
JIT/JEA:"危险"行动只有临时升级才能使用。
审核不变:谁按了什么,哪些请求/命令离开了。
秘密:不显示,仅指向秘密管理器的链接。

11) CDU成熟度量

Actionability ≥ 90%:点击导致行动,而不仅仅是时间表。
Time-to-First-Action在≤时从CDU SEV-1/0 2分钟。
CDU是"真相之源"的事件比例≥ 95%。
Freshness Widgets:%数据为"新鲜的5分钟"。
Coverage:具有SLO卡和版本注释的关键服务的百分比。
零盲点:每周"无声"来源=0。

12)支票单

设计

  • 角色和场景描述(P1/P2/IC/Exec/FinOps/Security/DataOps)。
  • 颜色字典/SEV/阈值一致。
  • 具有法定人数和SLA新鲜度的数据源。
  • 模拟战争室/电话/行政人员。
  • ChatOps/ITSM/CI/CD/CMDB集成计划。

运营

  • Widgets通过linter(必填字段、主字段、阈值)。
  • 每周一次-Escalation/Alert Review和CDU改进。
  • 在AAR/RCA中应用了事件的快照。
  • 深色模式/移动预设值班。
  • 源的"静音"测试和注释的正确性。

13)模板(想法)

13.1小部件定义(YAML)

yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red:  { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"

13.2个事件卡(JSON)

json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}

13.3与发行版的联系

yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }

13.4 FinOps小部件

yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"

14)反模式

"图形墙"没有动作和花花公子。
各队不同的颜色/阈值→ SEV混淆。
没有版本/窗口注释-复杂的原因相关性。
没有法定人数的重复来源是虚假的页面/噪音。
面板上的秘密/密钥是泄漏的风险。
慢速渲染(不包含查询/聚合)-在战斗中不打开面板。

15)实施路线图(4-8周)

1.奈德。1:收集角色要求,状态/颜色字典,三种模式的布局。
2.奈德。2: SLO/Incidents/Releases/Windows连接、注释、ChatOps操作。
3.奈德。3:添加FinOps/Capacity/Providers/DataOps/Security,源法定人数。
4.奈德。4:战争室模式,ITSM中的快照,Tier-0上的飞行员。
5.奈德。5-6:性能优化,移动/呼叫预设,Widget linter。
6.奈德。7-8:成熟度量标准,每周审查,自动推荐(标本采样,配额,后退)。

16)结果

CDU不是"美丽的图形",而是解决方案栏:顶部的SLO和burn-rate,同一上下文中的事件/版本/窗口,通过ChatOps和SOP的即时操作,确认的来源和注释。这样的行车记录仪可降低MTTA/MTTR,简化通信,支持FinOps,并使操作透明且可预测。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。