GH GambleHub

行动中的作用和责任

1)为什么要正式化角色

明确的角色分配减少了MTTA/MTTR,消除了"灰色区域",加快了发行速度,并使SLO/合规性可重现。角色=责任+权力+接口(我们写给谁,我们升级谁,授权哪些解决方桉)。

2)基本的RACI模型

R (Responsible)-执行工作。
A(Accountable)-承担最终责任并做出决定。
C(咨询)-专家,在之前或期间咨询。
I (Informed)-通过SLA提供信息。

顶级示例:
一个过程ARCI
事件(SEV-1/0)ICP1/P2, SRE, Owning TeamSecurity, Product, DataMgmt, Support
发行版Release Manager/OwnerDev, Platform/SRESecurity, QASupport, Mgmt
更改(RFC/CAB)CAB ChairService OwnerSecurity, SRE, DataAffected teams
服务窗口Service OwnerPlatform/SREProduct, SupportCustomers/Partners
后面的mortemsRCA LeadOwning Team, ScribeSecurity, Data, ProductMgmt

3)角色目录(描述和职责)

3.1 Incident Commander (IC)

目的:指导SEV-1/0事件应对。
授权:宣布SEV,冻结发布,切换流量,升级。
主要任务:时间线,决策,保持焦点,任务分配,Go/No-Go。
文物:事件卡,SLA的升级,最终的AAR。

3.2 P1/P2 On-Call (Primary/Secondary)

目标:主要反应和技术行动。
P1: triage,启动花花公子,链接到IC。

P2: 备用,复杂的变化,保持上下文,在暴风雨中-采取安全带.

3.3 SRE / Platform Engineer

目标:平台和栏杆的可靠性(SLO,Alerta,GitOps,Autoscale,DR)。
任务:SLI/SLO,警报卫生,渐进版本,基础架构作为代码,能力,观察能力。
在事件中:根诊断,回滚/倒退,degrade-UX启用。

3.4 Service Owner / Product Owner

目的:从商业意义上讲服务质量。
任务:确定SLO/优先级,协调发布/窗口,参与Go/No-Go。
Comms:决定何时以及如何与Comms一起告诉客户。

3.5 Release Manager

目标:安全地交付更改。
任务:编排发行,跳闸门,金丝雀/蓝绿色,发行注释,事件中冻结。

3.6 CAB Chair / Change Manager

目标:管理变更风险。
任务:RFC过程,计划/后退,冲突日历,高风险批准。

3.7 RCA Lead / Problem Manager

目的:事后分析,CAPA。
任务:时间线,证据因果关系,纠正/预防行动,D+14/D+30控制。

3.8 Security (IR Lead, AppSec/CloudSec)

目标:安全和应对安全事件。
任务:三元安全事件,键轮换,隔离,正交,监管通知,WORM审核。

3.9 DataOps / Analytics

目的:数据和管道可靠性。
任务:新鲜/质量(DQ),数据合同,线性,后门,SLA BI/报告。

3.10 FinOps

目的:管理成本。
任务:配额/限额,报告$/单位,预算门,优化(日志卷,egress,冗余)。

3.11 Compliance / Legal

目的:遵守监管和合同。
目标:通知的时间、复审/不可变性、公共文本的协调。

3.12 Support / Comms

目的:与客户/内部摊贩沟通。
任务:状态页面,更新布局,消息频率和清晰度,反馈收集。

3.13 Vendor Manager / Provider Owner

目标:与外部提供商(PSP/KYC/CDN等)的关系。
任务:升级,SLA/OLA,备用路线,窗口协调。

4)在变化和升级中的作用

更改:P1/P2+IC-of the day(不与P1结合)。
时间升级:P1→P2(5分钟,没有ack)→ IC(10分钟)→ Duty Manager(15分钟)。
安静时间:P2/P3信号不会醒来;安全信号-总是。

5)交互接口(谁与谁以及如何)

IC ↔发布管理器:freeze/rollback解决方桉。
IC ↔ Comms:更新文本和频率。
SRE ↔ DataOps:SLO Gardrails中的商业SLI(支付成功,数据新鲜)。
安全↔法律:安全事件报告,通知时间。

Vendor Owner ↔ IC: 提供商身份,switchover/folback.

6)KPI按角色(地标)

IC:时间到决定,Comms SLA遵守,MTTR SEV-1/0。
P1/P2:MTTA,时间到第一动作,播放次数百分比。
SRE/Platform: SLO coverage, Alert Hygiene,%自动回滚成功。

Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.

RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.

Security: Mean Time to Contain, Secret/Cert Rotation Time.

DataOps: Freshness SLO Adherence, Success Rate backfills。
Comms: Status Accuracy, Complaint Rate/Event。
FinOps:$/单位,节省QoQ的百分比,配额合规性。

7)角色卡模板

7.1张IC卡


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7.2张卡片P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7.3发行管理卡


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8)流程和角色参与(摘要)

一个过程ICP1/P2SRE/PlatformOwnerReleaseCABSecurityDataOpsCommsVendor
事件ARRCIICCRC
发行版IICARCCCII
RFC/窗口IIRACACCCC
后太平间ARRCCICCII

A — Accountable, R — Responsible, C — Consulted, I — Informed.

9)支票单

9.1个角色分配

  • 每个角色都有所有者,副手和覆盖范围。
  • 描述了权力(可以做出的决定)。
  • 绑定花花公子和沟通渠道。
  • 由SLA 根据反应/comms发布。
  • 该角色可在每个服务的目录(CMDB)中使用。

9.2轮班和搬家

  • 轮班卡已更新(活动事件、风险、窗口)。
  • JIT/JEA访问已验证。
  • 回声到通道的消息是:"接受/放弃更改。"

9.3事后事件

  • 举行了AAR,任命了RCA。
  • CAPA拥有所有者/截止日期,D+14/D+30控制。
  • 更新了花花公子/alerta/policies。

10)反模式

不清楚的"谁决定"→延误和努力。
IC与P1配对-领导力丧失。
未与Legal/Comms协调的公共公社。
没有Release Manager和门的版本→ CFR的增长。
不保留角色(疾病/休假)。
"英雄主义"而不是过程:我们用手营救,但不固定栏杆。
角色未反映在CMDB/服务目录 →丢失的升级中。

11)嵌入工具

ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.

目录/CMDB:服务包括所有者、呼叫、SLO、行车记录仪、花花公子、窗口。
警报作为代码:每个Page都有默认的owner和花花公子。
GitOps: IC/Release解决方桉反映在发布注释和字幕中。

12)角色分配成熟度度量

目录中的角色覆盖:≥ 100%的关键服务。
通话SLA:Ack p 95 ≤ 5分钟;Page Storm p95已得到控制。

Postmortem SLA: 草稿≤ 72小时;CAPA completion ≥ 85%.

变革管理:RFC/CAB的高风险变化百分比≥ 95%。

Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.

13)迷你模板

13.1 RACI for service (repo文件)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13.2角色简介(Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14)结果

当角色透明,授权并嵌入工具时,操作是可持续的。角色目录,RACI,每个角色的清晰界面和度量标准将事件,发布和更改转换为托管流程:快速做出决策,控制风险,用户看到稳定的服务。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。