花花公子操作
1)花花公子是什么,与跑步簿有什么不同
Runbook是用于类型操作/警报的线性分步指令("动手,两个,三个")。
花花公子是叉子场景的决策树:不同的症状→不同的假设→不同的动作分支。包括选择条件、进站条件和fallback分支。
花花公子的目的是在不确定性下降低MTTA/MTTR和即兴创作水平。
2)首先需要花花公子的地方
事件:SLO下降(可用性/可用性/成功性),业务SLI失败(转换/支付成功)。
更改:发布、迁移、幻灯片标志、configi (canary/rollback)。
服务窗口:DB/经纪人升级,证书轮换。
提供者:PSP/KYC/CDN/IDP-降解和交换。
安全:受损钥匙,可疑活动。
DataOps:新鲜度迟到、模式漂移、管道退化。
3)花花公子标准(最小阵容)
1.卡:ID,版本/日期,所有者(团队/角色),服务/地区/tenants,相关政策/标准。
2.启动目标和条件:哪个SLO/SLI保护哪些变量/触发器适用。
3.症状↔假设:对应表,如何迅速切断错误的假设。
4.解决方桉树:分叉、安全门、停止/继续标准。
5.操作:带有命令/链接到运行手册的回合制块。
6.通讯:升级模板(Impakt→Diagnostika→Deystviya→Sled。更新),频道和频率。
7.回滚/倒退:明确的UX退化背面计划、限制和标志。
8.完成标准:度量,时间观察窗口。
9.Evidence:保存的内容(日志、图形、截图、ID字幕)。
10.更改历史:changelog,已知的限制。
4)花花公子分类(目录示例)
INC-事件(SLO/SLI,提供商,基础设施)。
REL-版本,回滚,configi/标志。
MW-服务窗口(DB/queue/cert/OS)。
SEC-安全(访问、密钥、可疑活动)。
DATA-新鲜/质量/方案。
PROV-外部提供商(PSP/KYC/CDN/电子邮件/SMS)。
5)生命周期和所有权
1.启动:根据事件/模拟/更改的结果。
2.草稿:作者=服务的所有者;评论:SRE/安全/数据(按域)。
3.飞行员:平台/游戏日;固定通过时间和缺陷。
4.出版物:在回购中(Docs-as-Code),版本,标签,指向行车记录的链接。
5.更新:RCA/CAPA,至少每季度一次;SLA新鲜。
6.归档/解密:当替换/丢失相关性时。
6)与工具集成
警告→剧本:每个页面规则都恰好引用了一个基本花花公子。
ChatOps: '/play start <id>"打开卡片,捕捉事件,设置升级计时器。
CMDB/目录:服务中列出了相关的花花公子,所有者,SLO,行车记录仪。
GitOps:Playbooks和runbook',住在Git,经过PR review和linters。
7)花花公子质量指标
Actionability:≥ 90%的发射导致特定行动没有"在不知不觉中"升级。
时间到第一动作:从页面到第一个有意义的步骤一两分钟。
封面:具有绑定花花公子的Page Alert(目标100%)的百分比。
Freshness:花花公子的比例是新鲜的90天。
Defect rate:在100个花花公子上的评论/模拟。
Reuse:花花公子实际使用了多少次(以及结果导致了什么)。
8)反模式
"花花公子百科全书"长达20页,没有决策树。
没有期望结果的命令("执行X"-应该改变什么?)。
没有背景计划和限制-问题升级的风险。
没有指定链路/通信间隔-公关风险的增长。
没有所有者/更新日期的花花公子-没有人相信它的相关性。
数十个类似的花花公子代替一个参数化。
9)迷你花花公子模板(YAML想法)
yaml id: INC-PAY-001 name: "Payment Success Down"
version: 2. 4 (2025-10-15)
owner: team-payments@sre scope: [prod, region: eu, tenants: all]
goal: "Restore success_ratio ≥ 98% without violating SLA"
triggers:
- alert: slo. burn. payment_success_ratio
- external_status: psp-a partial outage symptoms:
- "5xx growth in payments-api"
- "p95 latency> 400ms on PSP-A"
decision_tree:
- if: "quorum(eu,us) confirms drop AND PSP-A status=partial"
then:
- action: "Reduce PSP-A weight to 30%"
runbook: rb://payments/traffic-shift guardrails: ["success_ratio improving 10m", "p95<300ms"]
- action: "Enable degrade_payments_ux"
runbook: rb://payments/feature-flags
- action: "Status update (30m) by template"
comms: statuspage://payments else:
- action: "Check database/cache/queue"
runbook: rb://payments/diag-stack fallback:
- action: "Failover на PSP-B 70%"
guardrails: ["fraud_rate stable", "chargeback risk noted"]
rollback:
- condition: "PSP-A green 60m"
- steps:
- "Weight of PSP-A 30→70→80 (every 30 m at green SLI)"
evidence:
- "SLI screenshots, p95/5xx graphs, links to logs/trails"
completion:
- "success_ratio ≥98% during 30 m, no burn in 6 h"
10)完成的示例(片段)
A)付款: "提供商在一个地区退化"
症状:TR队列success_ratio减少,PSP-A计时器生长。
解决方桉:减轻TR的PSP-A重量,启用degrade-UX,加强预算≤ SLA的撤退,准备客户升级。
Backout:在绿色SLI 60分钟内恢复重量。
B)DB: "p99的增长和连接错误"
症状:p99↑、连接重置错误、等待事件上升。
解决方桉:包括仅读取脚本、限制写入负载、缩放池/复制副本,如有必要,可进行热捕获。
Backout: 参数回滚,副本.
C) Cash: "Rate小姐↑ → DB负载"
症状:miss rate> 40%, CPU DB升高。
解决方桉:平衡事件策略,增加内存/缓存,暂时启用读取,限制热键上的RPS。
Backout:带回政治,重新解决问题。
D) CDN: "区域内容退化"
症状:一个国家的滞后/定时上升,RUM投诉。
解决方桉:更改路线图/GSLB、绕过有问题的POP、降低TTL、启用起源盾。
Comms:具有影响力地理位置的地位。
E)KYC: "身份失败"
症状:approve率下降,vendor_error上升。
解决方桉:将部分流量切换到替代提供商,降低规则严格(作为策略的一部分),为VIP启动手动审查。
Compliance:生成所有更改的日志,必要时发出风险通知/法律通知。
11)通讯(升级模板)
Impact: EU payment success drop (-3. 1% to SLO, 25 min).
Diagnosis: confirmed by quorum; PSP-A partial outage; p95 = 420ms.
Action: PSP-A weight reduced to 30%, degrade-UX included; next update 18:30 UTC.
12)花花公子作者的支票清单
- 指定了目标,所有者,SLO/SLI和触发器。
- 有症状表↔假设和决策树。
- 具有预期结果和安全门的可行步骤。
- 规定了背面/背面和退货条件。
- 更新通信和频率模板。
- 指向dashbords/alerta/log-search/traiss的链接。
- 强制性验收科和完成标准。
- 版本、日期、SLA新鲜度、变更历史。
13)审查员支票清单
- Playbook在tabletop/游戏日播放。
- 步骤是安全的(限制/金丝雀/自动回滚),秘密没有透露。
- 角色和升级是明确的;已指定IC/Comms。
- 与相邻的花花公子没有重复;给出了参数。
- 可以理解何时停止并切换到后卫/后卫。
- 该文档可从Alert到1 Click访问。
14)参数化和重新使用
将变量(区域、提供者、阈值)输出到"values."。
常见的步骤(例如"减轻提供商的重量","启用degrade-UX")设计单独的运行手册。
支持模板生成器:"plb new -type=INC -service=payments"。
15)实施路线图(4-6周)
1.页面清单→匹配每个基本花花公子。
2.模板:批准YAML/Markdown结构,支票单和林特。
3.前5种方案(付款/DB/CDN/KYC/缓存)→写入/回滚到tabletop。
4.集成:来自警报器的链接,团队的ChatOps,evidence机器人。
5.教学:每周迷你演习一次花花公子;AAR→uluchsheniya。
6.SLA新鲜和季度咆哮;质量指标报告。
16)结果
花花公子是带有叉子和栏杆的操作场景,可以将混乱"该怎么办?"转换为可预测的决策顺序。当花花公子标准化,与Alert集成并定期训练时,团队的反应更快,风险得到控制,业务看到运营的稳定性和成熟度。