決策智能
決策智能
決策智能(Decision Intelligence,DI)是將數據轉化為托管決策和可測量效果的學科。DI在一個生命周期中結合了因果關系,預測,決策經濟學,策略設計和MLOps/操作。
1)框架DI: OODA/SSDL
Observe (Signal):標準化事件、質量/新鮮度、滯後和背景。
東方(Sense):解釋:隊列、段、因果圖、風險配置文件。
Decide:政策(規則/模型/強盜),考慮限制和錯誤成本。
法案:行動編排,渠道,相等性,優先級。
學習:對效果進行低溫評估,更新閾值/策略/模型。
2)決策經濟學
價值功能:收益/保存損壞/保留/服務質量。
錯誤成本:貨幣和風險的FP/FN(RG/合規/聲譽)。
[
EV=p_{\text{uspekh} }\cdot Value-p_{\text{vred} }\cdot Harm-成本
]
如果「EV≥0」和guardrails是正常的,則允許該動作。
風險胃口:FPR限制,幹預頻率,傷害/投訴預算,錯誤預算。
3)因果關系和預測
當預測足夠時:低風險的異位,按概率排名。
當需要因果關系時:ROMI,價格/限額政策,安全/合規性。使用A/B,DiD,RDD,IV,合成控制;定向-uplift和CATE。
Counterfactual loop:預測→動作→效果→重新計算uplift/閾值。
4)策略類型
規則(政策即代碼):確定性,可解釋;底座和故障安全。
基於得分:概率/爭吵,滯後,成本感應閾值。
上下文(土匪):ε-greedy/Thompson用於選擇離場/頻道。
串行(RL):多階段約束策略(安全RL)。
復合:級聯-安全/合規性→經濟→ UX。
5) DI架構
數據:規範事件(UTC,版本),fichestor (online/offline parity),目錄。
型號:註冊表/版本,校準,漂移監控(PSI/KL),PR- AUC/Recall@FPR≤x%。
語義和度量:單個KPI/guardrails字典,SLO新鮮度。
策略引擎:決策臺、AWAS/上下文、滯後、限制、優先級。
動作編排器:保證交付,轉發,「action_id」等效性,DLQ。
可觀察性:跟蹤「correlation_id」,漏鬥「signal→decision→action→outcome」。
安全性:RLS/CLS,PII掩碼,訪問和解決方案日誌。
6)DI度量
解決方案質量
Decision Precision/Recall:關於真正的行動成功。
Regret/Opportunity Loss:落後於最佳策略。
覆蓋:接受操作的對象的百分比。
Latency p95: Signal→Decision/Decision→Action.
Fairness/Harms:按細分、投訴、上訴劃分的錯誤差異。
業務效果
ROMI/ROI行動,uplift@k,Qini/AUUC。
Net Benefit:影響−成本−傷害。
時間到影響:時間從信號到可測量的結果。
7)解決方案設計(決策設計)
1.將問題表述為效果: 「Y的X保持在T上的增加是多少?」
2.繪制DAG,定義confounders/對撞機。
3.選擇設計:A/B、準實驗或凈預測+事後評估。
4.定義操作和替代方案、約束和guardrails。
5.設置價值函數和風險預算。
6.在決策表中描述策略:條件→操作→通道→冷卻。
7.分解估計值:效果度量、持續時間、CATE段。
8.定義事件運行手冊和倒退規則。
8)滯後、頻率和沖突
滯後:進出閾值不同;防止幹預的「閃爍」。
Cooldown:在同一對象的接觸/約束之間暫停。
政策沖突:優先級矩陣;「安全優先」。
配額/限額:每個頻道,部分,用戶;公平分配。
9)自治水平
1.Ad-hoc:人決定數據不足。
2.助手:系統提供解決方案+解釋。
3.自動化:guardrails內的自動解決方案。
4.Adaptive:自動調諧閾值/選擇離線(強盜)。
5.Safe-Autonomy:受正式限制和審核的自治。
10)不確定性下的解決方案
場景規劃:基本/壓力/極端;效果範圍。
Robustness:抗參數誤差的策略。
POMDP直覺:處理信息不完整;重視信息的成本(進行什麼實驗)。
Bayesian升級:結合歷史知識和當前數據。
11) 「↔政策模式」對話"
模型產生結果/分布。
該政策考慮了錯誤,限制和公平的成本。
分區線-在帶有版本日誌的顯式decision threshold策略中。
修訂閾值是電動汽車,而不僅僅是ROC/PR。
12)文件和文物
政策護照(template)
效果代碼/版本、目標和KPI
條件/fici/模型,滯後/culdown
行動和渠道、優先事項和相互排斥
Guardrails (FPR≤x%, latency p95≤y, RG/合規)
評分: 測試設計、指標、持續時間
用戶審核/解釋,所有者
決策表(示例)
「端到端」解決方案的構造方案
`signal_id` → `decision_id` → `action_id` → `outcome_id` (+ `correlation_id`).
13)Howernance和合規性
統一度量詞典和公式的忠誠度。
政策委員會:風險官員,產品,數據,合規性。
決定審計:解釋,拒絕的原因,上訴渠道。
道德與公平:按組監控錯誤;從法律要求的規則中排除受保護的特征。
14)常見錯誤
優化代理度量而不是業務效果(Goodhart)。
預測和因果關系的混合;ROMI「通過相關性」。
缺乏滯後和拳頭→垃圾郵件/「閃爍」。
錯誤成本和用戶傷害不計其數。
靜靜地編輯閾值/公式,沒有版本和changelog。
不評估效果和「循環閉合」的動作。
15)政策/系統DI發布前的支票清單
- 目標被表述為因果關系,設定了價值函數和風險預算
- 由DAG繪制;評分設計(A/B/DiD/SC)和指標
- 政策在決策表中描述;有滯後/kuldown/優先級
- 模型經過校準;從錯誤成本(EV)中推斷出閾值)
- 行動管弦樂隊是偶然的;包含「signal→decision→action→outcome」日誌
- Guardrails和Alertes定制;runbooks和fallback規則準備就緒
- Dashbords:解決方案漏鬥,效果(uplift/ROI),傷害/投訴,公平性
- 版本/所有者/訪問權/合規性已記錄
底線
決策智能是一個系統而不是一組模型:統一的數據和指標→對影響的因果和經濟觀點→明確的政策和安全的編排→嚴格的評估和持續的學習。這樣的系統可以降低風險,提高ROI,並使解決方案可復制,可解釋和可管理。