決策智能

決策智能（Decision Intelligence，DI）是將數據轉化為托管決策和可測量效果的學科。DI在一個生命周期中結合了因果關系，預測，決策經濟學，策略設計和MLOps/操作。

1）框架DI： OODA/SSDL

Observe （Signal）：標準化事件、質量/新鮮度、滯後和背景。
東方（Sense）：解釋：隊列、段、因果圖、風險配置文件。
Decide：政策（規則/模型/強盜）,考慮限制和錯誤成本。
法案：行動編排，渠道，相等性，優先級。
學習：對效果進行低溫評估，更新閾值/策略/模型。

2）決策經濟學

價值功能：收益/保存損壞/保留/服務質量。
錯誤成本：貨幣和風險的FP/FN（RG/合規/聲譽）。

預期價值（EV）：

[
EV=p_{\text{uspekh} }\cdot Value-p_{\text{vred} }\cdot Harm-成本
]

如果「EV≥0」和guardrails是正常的，則允許該動作。
風險胃口：FPR限制，幹預頻率，傷害/投訴預算，錯誤預算。

3）因果關系和預測

當預測足夠時：低風險的異位，按概率排名。
當需要因果關系時：ROMI，價格/限額政策，安全/合規性。使用A/B，DiD，RDD，IV，合成控制；定向-uplift和CATE。
Counterfactual loop：預測→動作→效果→重新計算uplift/閾值。

4）策略類型

規則（政策即代碼）：確定性，可解釋；底座和故障安全。
基於得分：概率/爭吵，滯後，成本感應閾值。
上下文（土匪）：ε-greedy/Thompson用於選擇離場/頻道。
串行（RL）：多階段約束策略（安全RL）。
復合：級聯-安全/合規性→經濟→ UX。

5） DI架構

數據：規範事件（UTC,版本）,fichestor （online/offline parity）,目錄。
型號：註冊表/版本，校準，漂移監控（PSI/KL），PR- AUC/Recall@FPR≤x％。
語義和度量：單個KPI/guardrails字典，SLO新鮮度。
策略引擎：決策臺、AWAS/上下文、滯後、限制、優先級。
動作編排器：保證交付，轉發，「action_id」等效性，DLQ。
可觀察性：跟蹤「correlation_id」，漏鬥「signal→decision→action→outcome」。
安全性：RLS/CLS，PII掩碼，訪問和解決方案日誌。

6）DI度量

解決方案質量

Decision Precision/Recall：關於真正的行動成功。
Regret/Opportunity Loss：落後於最佳策略。
覆蓋：接受操作的對象的百分比。

Latency p95: Signal→Decision/Decision→Action.

Fairness/Harms：按細分、投訴、上訴劃分的錯誤差異。

業務效果

ROMI/ROI行動，uplift@k，Qini/AUUC。
Net Benefit：影響−成本−傷害。
時間到影響：時間從信號到可測量的結果。

7）解決方案設計（決策設計）

1.將問題表述為效果： 「Y的X保持在T上的增加是多少？」

2.繪制DAG，定義confounders/對撞機。
3.選擇設計：A/B、準實驗或凈預測+事後評估。
4.定義操作和替代方案、約束和guardrails。
5.設置價值函數和風險預算。
6.在決策表中描述策略：條件→操作→通道→冷卻。
7.分解估計值：效果度量、持續時間、CATE段。
8.定義事件運行手冊和倒退規則。

8）滯後、頻率和沖突

滯後：進出閾值不同；防止幹預的「閃爍」。
Cooldown：在同一對象的接觸/約束之間暫停。
政策沖突：優先級矩陣；「安全優先」。
配額/限額：每個頻道，部分，用戶；公平分配。

9）自治水平

1.Ad-hoc：人決定數據不足。
2.助手：系統提供解決方案+解釋。
3.自動化：guardrails內的自動解決方案。
4.Adaptive：自動調諧閾值/選擇離線（強盜）。
5.Safe-Autonomy：受正式限制和審核的自治。

10）不確定性下的解決方案

場景規劃：基本/壓力/極端；效果範圍。
Robustness：抗參數誤差的策略。
POMDP直覺：處理信息不完整；重視信息的成本（進行什麼實驗）。
Bayesian升級：結合歷史知識和當前數據。

11）「↔政策模式」對話"

模型產生結果/分布。
該政策考慮了錯誤，限制和公平的成本。
分區線-在帶有版本日誌的顯式decision threshold策略中。
修訂閾值是電動汽車，而不僅僅是ROC/PR。

12）文件和文物

政策護照（template）

效果代碼/版本、目標和KPI

條件/fici/模型，滯後/culdown

行動和渠道、優先事項和相互排斥

Guardrails （FPR≤x%, latency p95≤y, RG/合規）

評分： 測試設計、指標、持續時間

用戶審核/解釋,所有者

決策表（示例）

條件是	上下文	行動	庫爾當	Guardrails
`churn_uplift ≥ 0.08` & `value_q ≥ 0.8`	重組	offer L	7 d	ROMI≥0, cap=1
`rg_risk ≥ τ` & `night`	RG	暫停+建議	1 d	FPR≤1%
`fraud_score∈[τ1,τ2]`	付款	手動檢查	—	SLA 2h

「端到端」解決方案的構造方案

`signal_id` → `decision_id` → `action_id` → `outcome_id` (+ `correlation_id`).

13）Howernance和合規性

統一度量詞典和公式的忠誠度。
政策委員會：風險官員，產品，數據，合規性。
決定審計：解釋，拒絕的原因，上訴渠道。
道德與公平：按組監控錯誤；從法律要求的規則中排除受保護的特征。

14）常見錯誤

優化代理度量而不是業務效果（Goodhart）。
預測和因果關系的混合；ROMI「通過相關性」。
缺乏滯後和拳頭→垃圾郵件/「閃爍」。
錯誤成本和用戶傷害不計其數。
靜靜地編輯閾值/公式，沒有版本和changelog。
不評估效果和「循環閉合」的動作。

15）政策/系統DI發布前的支票清單

目標被表述為因果關系，設定了價值函數和風險預算
由DAG繪制；評分設計（A/B/DiD/SC）和指標
政策在決策表中描述；有滯後/kuldown/優先級
模型經過校準；從錯誤成本（EV）中推斷出閾值)
行動管弦樂隊是偶然的；包含「signal→decision→action→outcome」日誌
Guardrails和Alertes定制；runbooks和fallback規則準備就緒
Dashbords：解決方案漏鬥，效果（uplift/ROI），傷害/投訴，公平性
版本/所有者/訪問權/合規性已記錄

底線

決策智能是一個系統而不是一組模型：統一的數據和指標→對影響的因果和經濟觀點→明確的政策和安全的編排→嚴格的評估和持續的學習。這樣的系統可以降低風險，提高ROI，並使解決方案可復制，可解釋和可管理。

決策智能

決策智能

業務效果

效果代碼/版本、目標和KPI

決策表（示例）

「端到端」解決方案的構造方案

底線

與我們聯繫

快速聯繫

影片即將更新

我們目前正忙於各項專案