Inteligența decizională

Inteligența decizională (DI) este o disciplină care transformă datele în decizii ușor de gestionat și un efect măsurabil. DI integrează cauzalitatea, prognoza, economia decizională, proiectarea politicilor și MLOps/operațiuni într-un singur ciclu de viață.

1) Cadru DI: OODA/SSDL

Observați (Semnal): evenimente standardizate, calitate/prospețime, dedup și context.
Orient (Sens): interpretare: cohorte, segmente, grafice cauzale, profile de risc.
Decide: politica (reguli/modele/bandiți), luarea în considerare a limitărilor și costul erorilor.
Act: orchestrarea acțiunilor, canalelor, idempotenței, priorităților.
Aflați: estimarea efectului cauzal, actualizarea pragurilor/politicilor/modelelor.

2) Economia soluțiilor

Funcția de valoare: venituri/daune reținute/păstrarea/calitatea serviciului.
Costul erorii: FP/FN în bani și risc (RG/conformitate/reputație).

Valoarea preconizată (EV):

[
EV = p_{\text{uspekh} }\cdot Valoare - p_{\text{vred} }\cdot Rău - Cost
]

Acțiunea este permisă dacă „EV≥0” și parapetele sunt normale.
Apetitul de risc: limite privind FPR, frecvența intervențiilor, bugetul de daune/reclamații, bugetul de erori.

3) Cauzalitate și prognostic

Când predicția este suficientă: alocări cu risc scăzut, clasificare după probabilități.
Când este nevoie de cauzalitate: ROMI, politica de preț/limită, siguranță/conformitate. Utilizați A/B, DiD, RDD, IV, control sintetic; când țintiți - ridicați și CATE.
Buclă contrafactuală: previziune → efect → efect → conversie a ridicării/pragurilor.

4) Tipuri de politici

Reguli (ca și cod): deterministe, explicabile; bază și nu reușesc în condiții de siguranță.
Bazat pe scor: probabilități/rată, histerezis, praguri sensibile la costuri.
Contextual (bandiți): ε -greedy/Thompson pentru alegerea ofertelor/canalelor.
Secvențial (RL): strategii constrânse în mai multe etape (safe RL).
Componente: cascadă - securitate/conformitate → economie → UX.

5) Arhitectura DI

Date: evenimente canonice (UTC, versiuni), fichestor (paritate online/offline), director.
Modele: registry/versions, calibrare, drift monitoring (PSI/KL), PR- AUC/Recall@FPR≤x%.
Semantică și metrică: un singur dicționar de KPI/parapete, prospețime SLO.
Motor de politică: tabele de decizii, ABAC/contexte, isterezis, rate-limită, priorități.
Action orchestrator: livrare garantată, retrai, idempotency 'action _ id', DLQ.
Observabilitate: trace 'correlation _ id', pâlnie „signal→decision→action→outcome”.
Securitate: RLS/CLS, mascare PII, acces și jurnal de decizii.

6) DI Metrics

Calitatea soluțiilor

Decizia Precision/Rechemare: prin succesul real al acțiunilor.
Regret/Oportunitate Pierdere: rămas în urma politicii optime.
Acoperire: proporția obiectelor care au primit o acțiune.
Latență p95: Signal→Decision/Decision→Action.
Corectitudine/Harmuri: diferență de eroare de segment, reclamații, contestații.

Impactul afacerii

Acțiuni ROMI/ROI, uplift @ k, Qini/AUUC.
Beneficiu net: efect − cost − daune.
Timp-la-Impact: timp de la semnal la rezultat măsurabil.

7) Proiectarea deciziei

1. Încadrați întrebarea ca efect: „Care este câștigul de așteptare de la X la Y peste T?”

2. Desenați un DAG, definiți confounders/colliders.
3. Alegeți design: A/B, experiment cvasi sau prognoză netă + scor ex-post.
4. Definiți acțiunea și alternativele, restricțiile și parapetele.
5. Setați funcția de valoare și bugetul de risc.
6. Descrieți politica din tabelul de decizii: condiții → acțiune → canale → cooldown.
7. Planificați evaluarea: valorile efectelor, durata, segmentele CATE.
8. Definiți runbook incident și reguli de rezervă.

8) Histerezis, frecvență și coliziuni

Histerezis: pragurile de intrare/ieșire sunt diferite; împiedică intervențiile să „clipească”.
Cooldown: pauze între contacte/constrângeri pe același obiect.
Conflicte politice: matrice prioritară; „Securitatea are prioritate”.
Cote/rată-limită: pe canal, segment, utilizator; distribuție echitabilă.

9) Niveluri de autonomie

1. Ad-hoc: o persoană decide că nu există suficiente date.
2. Asistat: sistemul oferă o soluție + explicație.
3. Automatizat: auto-solutii in parapeti.
4. Adaptive: praguri de auto-tuning/selecție de oferte (bandiți).
5. Autonomie sigură: autonomie sub restricții oficiale și audit.

10) Soluții sub incertitudine

Planificarea scenariului: bază/stres/extremă; intervale de efect.
Robustețe: o strategie robustă pentru erorile parametrice.
Intuiția POMDP: acționează cu informații incomplete; valoarea costului informațiilor (ce experiment să faci).
Actualizarea bayesiană: Combinați cunoștințele istorice și datele actuale.

11) Model ↔ dialog politic

Modelul produce o rată/distribuție a rezultatelor.
Politica ia în considerare costul erorilor, limitările și corectitudinea.
Linia de partiție se află într-o politică de prag de decizie explicită cu un jurnal de versiune.
Revizuirea pragului - prin EV, nu numai prin ROC/PR.

12) Documente și artefacte

Pașaport de politică (șablon)

Codul/versiunea, scopul și KPI-ul efectului

Condiții/caracteristici/model, histerezis/cooldown

Acțiuni și canale, priorități și excepții reciproce

Guardrails (FPR≤x%, p95≤y de latență, RG/conformitate)

Scor: design de încercare, măsurători, durată

Audit/Explicație pentru utilizator, proprietari

Tabelul de decizii (exemplu)

Condiție	Context	Acțiune	Cooldown	Guardrails
'churn _ uplift ≥ 0. 08 '&' value _ q ≥ 0. 8`	retenţie	oferta L	7d	ROMI≥0, cap = 1
'rg _ risk ≥ τ' & 'night'	RG	pauză + sfat	1d	FPR≤1%
'fraud_score∈[τ1,τ2]'	plata	verificare manuală	—	SLA 2h

Schema de logare a soluțiilor "end-to-end'

'signal _ id' → 'decision _ id' →' action _ id' → 'result _ id' (+' corelation _ id').

13) Guvernanță și conformitate

Dicționar unificat de metrici și versioning formulă.
Comitetul de politică: responsabil cu riscurile, produs, date, conformitate.
Auditul deciziilor: explicații, motive de refuz, căi de atac.
Etică și corectitudine: monitorizarea erorilor pe grupuri; excluderea caracteristicilor protejate din norme, în cazul în care acest lucru este prevăzut de lege.

14) Erori frecvente

Optimizarea măsurătorilor proxy în loc de efectul de afaceri (Goodhart).
Confundarea predicțiilor și cauzalității; ROMI „prin corelare”.

Absența histerezisului și a răcelii → spam/” clipire„

Necontabilizate pentru costul de erori și prejudicii de utilizator.
Modificări silențioase ale pragurilor/formulelor fără versiuni și changelog.
Acțiuni fără efect de evaluare și „închiderea ciclului”.

15) Pre-Release Politica DI/Lista de verificare a sistemului

Obiectivul este declarat ca efect cauzal, funcția de valoare și bugetul de risc sunt date
DAG trase; proiectarea evaluării (A/B/DiD/SC) și valorile selectate
Politica este descrisă în tabelul decizional; au histerezis/cooldown/priorități
Modelele sunt calibrate; praguri derivate din costul de eroare (EV)
Orchestratorul acțiunilor este idempotent; signal→decision→action→outcome Log activat
Guardrails și alerte sunt configurate; runbooks și regulile de rezervă sunt gata
Tablouri de bord: pâlnie de decizii, efect (ridicare/ROI), rău/plângeri, corectitudine
Versiuni/proprietari/drepturi de acces/conformitate documentate

Total

Inteligența decizională este un sistem, nu un set de modele: date și valori uniforme → o viziune cauzală și economică a efectului → politici explicite și orchestrare sigură → evaluare riguroasă și învățare continuă. Un astfel de sistem reduce riscul, crește ROI și face deciziile reproductibile, explicabile și ușor de gestionat.

Inteligența decizională