Интеллект принятия решений

Интеллект принятия решений (Decision Intelligence, DI) — дисциплина, которая превращает данные в управляемые решения и измеримый эффект. DI объединяет причинность, прогнозирование, экономику решений, дизайн политик и MLOps/операции в одном жизненном цикле.

1) Каркас DI: OODA/SSDL

Observe (Signal): стандартизованные события, качество/свежесть, дедуп и контекст.
Orient (Sense): интерпретация: когорты, сегменты, причинные графы, риск-профили.
Decide: политика (правила/модели/бандиты), учет ограничений и стоимости ошибок.
Act: оркестрация действий, каналы, идемпотентность, приоритеты.
Learn: каузальная оценка эффекта, обновление порогов/политик/моделей.

2) Экономика решений

Функция ценности: выручка/сохраненный ущерб/удержание/качество сервиса.
Стоимость ошибки: FP/ FN в деньгах и рисках (RG/комплаенс/репутация).

Ожидаемая ценность (EV):

[
EV = p_{\text{успех}} \cdot Value - p_{\text{вред}} \cdot Harm - Cost
]

Действие допустимо, если `EV≥0` и guardrails в норме.
Риск-аппетит: лимиты на FPR, частоту интервенций, бюджет вреда/жалоб, error budget.

3) Причинность и прогнозы

Когда достаточно прогноза: аллокации с низким риском, ранжирование по вероятностям.
Когда нужна причинность: ROMI, политика цен/лимитов, безопасность/комплаенс. Используйте A/B, DiD, RDD, IV, синтетический контроль; при таргетинге — uplift и CATE.
Counterfactual loop: прогноз → действие → эффект → пересчет uplift/порогов.

4) Типы политик

Правила (policy-as-code): детерминированные, объяснимые; база и fail-safe.
Score-based: вероятности/скор, гистерезис, cost-sensitive пороги.
Контекстные (бандиты): ε-greedy/Thompson для выбора офферов/каналов.
Последовательные (RL): многошаговые стратегии с ограничениями (safe RL).
Составные: каскад — безопасность/комплаенс → экономика → UX.

5) Архитектура DI

Данные: канонические события (UTC, версии), фичестор (online/offline parity), каталог.
Модели: реестр/версии, калибровка, drift-мониторинг (PSI/KL), PR-AUC/Recall@FPR≤x%.
Семантика и метрики: единый словарь KPI/guardrails, SLO свежести.
Policy Engine: decision tables, ABAC/контексты, гистерезис, rate-limits, приоритеты.
Оркестратор действий: гарантированная доставка, ретраи, идемпотентность `action_id`, DLQ.
Наблюдаемость: трассировка `correlation_id`, воронка «signal→decision→action→outcome».
Безопасность: RLS/CLS, маскирование PII, журнал доступа и решений.

6) Метрики DI

Качество решений

Decision Precision/Recall: по истинным успехам действий.
Regret/Opportunity Loss: отставание от оптимальной политики.
Coverage: доля объектов, получивших действие.
Latency p95: Signal→Decision/Decision→Action.
Fairness/Harms: разница ошибок по сегментам, жалобы, апелляции.

Бизнес-эффект

ROMI/ROI действия, uplift@k, Qini/AUUC.
Net Benefit: эффект − стоимость − вред.
Time-to-Impact: время от сигнала до измеримого результата.

7) Проектирование решения (decision design)

1. Формулируйте вопрос как эффект: «Каков прирост удержания от X у Y за T?»

2. Нарисуйте DAG, определите confounders/коллайдеры.
3. Выберите дизайн: A/B, квазиэксперимент или чистый прогноз + ex-post оценка.
4. Определите действие и альтернативы, ограничения и guardrails.
5. Задайте функцию ценности и бюджет риска.
6. Опишите политику в decision table: условия → действие → каналы → кулдаун.
7. Спланируйте оценку: метрики эффекта, длительность, сегменты CATE.
8. Определите runbook инцидентов и fallback-правила.

8) Гистерезис, частота и конфликты

Гистерезис: пороги «вход/выход» разные; предотвращает «мигание» интервенций.
Cooldown: паузы между контактами/ограничениями у того же объекта.
Конфликты политик: матрица приоритетов; «безопасность имеет приоритет».
Квоты/Rate-limit: на канал, сегмент, пользователя; справедливое распределение.

9) Уровни автономии

1. Ad-hoc: человек решает, данных не хватает.
2. Assisted: система предлагает решение + объяснение.
3. Automated: авто-решения в пределах guardrails.
4. Adaptive: авто-тюнинг порогов/выбора офферов (бандиты).
5. Safe-Autonomy: автономия под формальными ограничениями и аудитом.

10) Решения под неопределенностью

Scenario planning: базовый/стресс/экстремум; диапазоны эффекта.
Robustness: стратегия, устойчивая к параметрическим ошибкам.
POMDP-интуиция: действуйте с неполной информацией; цените стоимость информации (какой эксперимент провести).
Bayesian updating: объединяйте исторические знания и текущие данные.

11) Диалог «модели ↔ политики»

Модель выдает скор/распределение результатов.
Политика учитывает стоимость ошибок, ограничения и fairness.
Линия раздела — в явном decision threshold policy с журналом версий.
Пересмотр порога — по EV, не только по ROC/PR.

12) Документы и артефакты

Паспорт политики (template)

Код/версия, цель и KPI эффекта

Условия/фичи/модель, гистерезис/кулдаун

Действия и каналы, приоритеты и взаимные исключения

Guardrails (FPR≤x%, latency p95≤y, RG/комплаенс)

Оценка: дизайн теста, метрики, длительность

Аудит/объяснение для пользователя, владельцы

Decision Table (пример)

Условие	Контекст	Действие	Кулдаун	Guardrails
`churn_uplift ≥ 0.08` & `value_q ≥ 0.8`	ретеншн	оффер L	7д	ROMI≥0, cap=1
`rg_risk ≥ τ` & `night`	RG	пауза+совет	1д	FPR≤1%
`fraud_score∈[τ1,τ2]`	платеж	ручная проверка	—	SLA 2ч

Схема логирования «сквозного» решения

`signal_id` → `decision_id` → `action_id` → `outcome_id` (+ `correlation_id`).

13) Говернанс и соответствие

Единый словарь метрик и версионность формул.
Комитет по политике: риск-офицер, продукт, данные, комплаенс.
Аудит решений: объяснения, причины отказов, каналы апелляций.
Этика и справедливость: мониторинг ошибок по группам; исключение protected-признаков из правил, где это требуется законом.

14) Частые ошибки

Оптимизация прокси-метрик вместо бизнес-эффекта (Goodhart).
Смешение прогнозов и причинности; ROMI «по корреляции».
Отсутствие гистерезиса и кулдаунов → спам/«мигание».
Неучтенная стоимость ошибок и вред пользователю.
Тихие правки порогов/формул без версий и changelog.
Действия без оценки эффекта и «замыкания цикла».

15) Чек-лист перед релизом политики/системы DI

Цель сформулирована как причинный эффект, задана функция ценности и бюджет риска
Нарисован DAG; выбран дизайн оценки (A/B/DiD/SC) и метрики
Политика описана в decision table; есть гистерезис/кулдаун/приоритеты
Модели откалиброваны; пороги выведены из стоимости ошибок (EV)
Оркестратор действий идемпотентен; журнал «signal→decision→action→outcome» включен
Guardrails и алерты настроены; runbooks и fallback-правила готовы
Дашборды: воронка решений, эффект (uplift/ROI), вред/жалобы, fairness
Версии/владельцы/права доступа/комплаенс задокументированы

Итог

Интеллект принятия решений — это система, а не набор моделей: единые данные и метрики → причинный и экономический взгляд на эффект → явные политики и безопасная оркестрация → строгая оценка и непрерывное обучение. Такая система снижает риск, повышает ROI и делает решения воспроизводимыми, объяснимыми и управляемыми.

Интеллект принятия решений