决策周期
1)什么是决策周期
决策周期是可重复的步骤序列,可将观察和知识转化为行动和可测量的效果。基本形式:- 问题 数据 分析/洞察力 解决方桉 行动 效果测量 学习(新)问题。
- OODA(Observe-Orient-Decide-Act)-循环速度比步骤的"理想性"更重要。
- PDCA(计划-Do-Check-Act)-质量控制和持续改进。
- DIKW(数据信息-知识-Wisdom)是从事实到规则的抽象度。
目的:缩短事件到行动的时间,提高可控成本(成本到决策)决策的质量。
2)角色、权利和责任
解决方桉所有者(Decision Owner):负责选择替代方桉并承担风险。
分析师/数据科学家:提出假设,选择方法,计算效果。
指标业务所有者:固定的KPI定义,目标阈值,guardrails。
操作/工程:提供数据、工具、SLO、自动化。
合规/风险:允许的风险参数、隐私和合规性。
实践:RACI/RAPID,升级矩阵,阈值/规则更改权。
3)解决方案类型和轮廓
手术(分钟/小时):事件,警报器,限制,防冻剂。
战术(天/周):战役,投标,预算变异,UX实验。
战略(季度/年份):产品组合,市场,建筑原则。
对于每种类型,定义:节奏(cadence)、SLA解决方桉、升级通道、报告格式。
4)参考周期(过程骨架)
1.问题和假设-制定问题,目标指标(primary/guardrail),MDE。
2.数据和上下文-来源,新鲜,质量,语义定义。
3.分析/建模-统计./ML方法,情景,灵敏度,风险。
4.解决方案-选择标准,风险限制,约定。
5.行动/实施-幻灯片,指示,负责,时间表。
6.效果测量-实验设计/观察性,置信区间。
7.回顾性-经验教训,标准/阈值更新,记录。
工件:单页模板,决策卡,回滚运行簿,假设日志。
5)循环度量(Decision KPIs)
决策延迟:从事件检测到选定操作的时间。
时间到洞察力:从查询到正确的洞察力。
时间到动作:从洞察到执行(包括匹配)。
Win-Rate解决方案:产生具有统计学意义的积极影响的解决方案的比例。
效果大小/超大:对初级KPI的影响程度(和置信区间)。
决策成本:准备和执行解决方案的金钱/时间。
Coverage:通过正式循环关闭的过程比例(包括所有者、SLO、运行簿)。
建议在产品/流程上输入Decision Scorecard。
6)数据和工具体系结构
收集/交付:流媒体(Kafka/PubSub),CDC,ELT;计划合同,新鲜度测试。
存储/店面:Lake+DWH/OLAP;根据需要进行HTAP;聚合/滚动。
语义层:单个KPI公式,版本,所有者,RLS/CLS。
洞察力交付:自适应行车记录仪,优先级,建议/NBA。
实验:幻灯片,A/B编排,实验日志,MDE计算器。
自动化:规则/策略(规则引擎)、活动编排器、系统API。
观察力:逻辑,度量,跟踪;审核解决方桉和导出。
7)解决方桉设计和风险控制
Guardrails:安全指标(例如保留、容错、投诉)。
阈值政策:谁改变阈值,如何验证,如何回滚。
数据可信度:质量测试、线性、模型可解释性(SHAP)。
道德和隐私:掩盖PII,RLS/CLS,DSAR,存储本地化。
8)实验与因果关系
随机化/分层,功率分析,CUPED/二叠纪,多检查调整。
无法进行RCT的准实验(DiD,合成控制)。
决策代码:将假设、指标和成功标准存储在存储库中。
9)速度vs质量: 权衡
快速路径:预先商定的runbook行动(自动应用↔低风险)。
安全路径:完全验证和A/B(高风险/错误成本)。
双轨:平行一组证据的快速"试用"解决方桉。
10)路径自动化(决策自动化)
规则→ ML → RL:从阈值和启发式到模型和上下文乐队。
人为循环:操作员确认/调整系统句子。
Explain&Override:解释解决方桉的原因,能够暂时重新定义。
版本/回滚:规则/模型版本号,滚回策略。
11)视觉和UX模式
优先磁带:差分和延迟成本递减解决方桉。
解决方桉卡:问题→替代方桉→预期效果→风险→所有者→截止日期。
演练:从KPI到主要事件/案例来验证假设。
零点击洞察力:简短的结论和现成的行动就在卡片上。
12)解决方桉目录和组织内存
存储库:模式,通过桉例,效果,反模式。
搜索和标签:按指标、域、风险、所有者。
重复使用:重复情况(事件、季节)的"食谱"。
13)反模式
无实验/铜锣方法的相关性解决方案。
变色龙度量:不同报告中不同的KPI公式。
警报风暴:没有优先级、重复数据消除、snooze和runbook's。
主人的缺席:"集体不负责任",拖累潜伏。
折断的反馈回路:效果不被衡量→组织不学习。
对OLTP的复杂实时查询:生产系统的退化。
14)实施路线图
1.发现:解决方案图(JTBD),关键的KPI,风险/限制;指定所有者。
2.MVP循环:2-3个优先桉例;决策卡模板;基本的变量;A/B基础设施。
3.量表:KPI语义层,食谱库,Alert优先级,决策量表。
4.自动化:快速路径、人间循环、审核、回滚的规则/模型。
5.优化:预算警卫(成本到决策),bandits/RL,员工培训,定期复古。
15)发行前的支票清单
- 记录决策所有者和升级矩阵。
- 定义了主要指标/guardrail,目标阈值和MDE。
- CI中包含语义层和数据质量测试。
- Alerta配置为优先级、重复数据消除和snooze。
- 有幻灯片和安全回滚;决定和行动的日志。
- 描述了隐私政策(RLS/CLS,PII掩盖),包括审计。
- 已记录实验和准实验;有电源计算器。
- Decision Scorecard和仪式在日历中绘制。
16)成熟度(maturity)
L1 Adik-hoc:解决方案是点的,度量是异构的,效果不变。
L2处理器:有模板和所有者,但自动化较弱。
L3洞察产品:语义层,默认的A/B,解决方案目录。
L4自动路径:具有规则/ML的快速路径,人间循环。
L5自学系统:RL/乐队,预算警卫,端到端审计和解释性。
17)解决方桉模板示例(快速工件)
"KPI X异常":如果正常情况下的delta> T和guardrail度量标准→在Z时钟上启用Y模式;否则升级。
"预算重新分配":每周比较ROI频道;如果ROI_A/ROI_B> R →转移Q%。
"Charn风险":p (churn)> P和保证金>M →提供S;构造uplift。
"SLO事件":在p95> S和原因-瓶颈N →运行回滚/解决方案计划。
底线:有效的决策周期不是报告或会议,而是将数据、人员、工具和规则连接到可重复系统的工程回路。减少潜伏期、增加确认效果的份额、自动化安全的"快速路径"、从每个周期中学习-您的组织智能将可预测且可管理地增长。