გადაწყვეტილების დაზვერვა
გადაწყვეტილების ინტელექტი
გადაწყვეტილების მიღების ინტელექტი (DI) არის დისციპლინა, რომელიც მონაცემებს კონტროლირებად გადაწყვეტილებებად აქცევს და გაზომავს ეფექტს. DI აერთიანებს მიზეზს, პროგნოზირებას, გადაწყვეტილებების ეკონომიკას, პოლიტიკოსის დიზაინს და MLOps/ოპერაციებს ერთ ცხოვრებისეულ ციკლში.
1) DI ჩარჩო: OODA/SSDL
Observe (Signal): სტანდარტიზებული მოვლენები, ხარისხი/სიახლე, დედაპლატი და კონტექსტი.
Orient (Sense): ინტერპრეტაცია: კოჰორტები, სეგმენტები, მიზეზობრივი გრაფიკები, რისკის პროფილები.
Decide: პოლიტიკა (წესები/მოდელები/ბანდიტები), შეზღუდვების აღრიცხვა და შეცდომების ღირებულება.
აქტი: მოქმედების ორკესტრი, არხები, იდემპოტენტობა, პრიორიტეტები.
ლეარნი: ეფექტის კაუზალური შეფასება, ბარიერების განახლება/პოლიტიკოსი/მოდელები.
2) გადაწყვეტილების ეკონომიკა
ღირებულების ფუნქცია: შემოსავალი/შენახული ზიანი/შენარჩუნება/მომსახურების ხარისხი.
შეცდომის ღირებულება: FP/FN ფულით და რისკებით (RG/შესაბამისობა/რეპუტაცია).
[
EV = p _\\\text {წარმატება }\cdot Value - p _\\text {ზიანი }\cdot Harm - Cost
]
მოქმედება დასაშვებია, თუ 'EV-0' და guardrails ნორმალურია.
რისკის მადა: შეზღუდვები FPR- ზე, ინტერვენციის სიხშირე, ზიანის ბიუჯეტი/პრეტენზია, error budget.
3) გამომწვევი მიზეზები და პროგნოზები
როდესაც პროგნოზი საკმარისია: დაბალი რისკის მქონე ადგილები, რანჟირება ალბათობით.
როდესაც საჭიროა მიზეზი: ROMI, ფასების/ლიმიტების პოლიტიკა, უსაფრთხოება/შესაბამისობა. გამოიყენეთ A/B, DiD, RDD, IV, სინთეზური კონტროლი; მიზნობრივი - uplift და CATE.
Counterfactual loop: პროგნოზი - ეფექტი - uplift/რეიდების დათვლა.
4) პოლიტიკოსის ტიპები
წესები (policy-as-code): დეტერმინისტული, გასაგები; ბაზა და ფასის საფარი.
Score-based: ალბათობა/score, histeresis, cost-sensitive ბარიერები.
კონტექსტური (ბანდიტები)
თანმიმდევრული (RL): მრავალსაფეხურიანი სტრატეგიები შეზღუდვებით (safe RL).
რთული: კასკადი - უსაფრთხოება/შესაბამისობა - ეკონომიკა - UX.
5) არქიტექტურა DI
მონაცემები: კანონიკური მოვლენები (UTC, ვერსიები), შუამავალი (ონლაინ/ოფლაინ წვეულება), კატალოგი.
მოდელები: რეესტრი/ვერსიები, კალიბრაცია, დრიფტის მონიტორინგი (PSI/KL), PR-AUC/Recall @ FPR - x%.
სემანტიკა და მეტრიკა: ერთი ლექსიკონი KPI/guardrails, SLO ახალი.
Policy Engine: decision tables, AVAS/კონტექსტები, ჰისტესეზი, rate-limits, პრიორიტეტები.
სამოქმედო ორკესტრი: გარანტირებული მიწოდება, რესტავრაცია, იდემპოტენტობა 'action _ id', DLQ.
დაკვირვება: კვანძი 'correlation _ id', ძაბვა „signal-decision-action-outcome“.
უსაფრთხოება: RLS/CLS, შენიღბვა PII, წვდომისა და გადაწყვეტილებების ჟურნალი.
6) DI მეტრიკა
გადაწყვეტილების ხარისხი
Decision Precision/Recall: მოქმედების ნამდვილი წარმატების შესახებ.
Regret/Opportunity Loss: ოპტიმალური პოლიტიკის ჩამორჩენა.
Coverage: იმ ობიექტების წილი, რომლებმაც მიიღეს მოქმედება.
Latency p95: Signal→Decision/Decision→Action.
Fairness/Harms: შეცდომების სხვაობა სეგმენტებზე, საჩივრებზე, საჩივრებზე.
ბიზნეს ეფექტი
ROMI/ROI მოქმედებები, uplift @ k, Qini/AUUC.
Net Benefit: ეფექტი - ღირებულება - ზიანი.
დრო Impact: დრო სიგნალიდან გაზომილ შედეგამდე.
7) გამოსავლის დიზაინი
1. ჩამოაყალიბეთ კითხვა, როგორც ეფექტი: „რა არის X-დან T-ზე შეკუმშვის ზრდა?“
2. მიუთითეთ DAG, განსაზღვრეთ confoundounders/კოლაიდერები.
3. შეარჩიეთ დიზაინი: A/B, კვაზიექსპერიმენტი ან სუფთა პროგნოზი + ex-post შეფასება.
4. განსაზღვრეთ მოქმედება და ალტერნატივები, შეზღუდვები და guardrails.
5. დაუსვით ფასეულობის ფუნქცია და რისკის ბიუჯეტი.
6. აღწერეთ პოლიტიკა decision table- ში: პირობები და მოქმედება არხები.
7. შეავსეთ შეფასება: ეფექტის მეტრიკა, ხანგრძლივობა, CATE სეგმენტები.
8. დაადგინეთ runbook ინციდენტები და fallback წესები.
8) ჰისტერეზი, სიხშირე და კონფლიქტები
ჰისტერეზი: „შესასვლელი/გასასვლელი“ ბარიერები განსხვავებულია; ხელს უშლის ინტერვენციის „მოციმციმე“.
Cooldown: პაუზები იმავე ობიექტის კონტაქტებს/შეზღუდვებს შორის.
პოლიტიკოსი კონფლიქტები: პრიორიტეტული მატრიცა; „უსაფრთხოებას პრიორიტეტი აქვს“.
კვოტები/Rate-limit: არხზე, სეგმენტი, მომხმარებელი; სამართლიანი განაწილება.
9) ავტონომიის დონე
1. Ad-hoc: ადამიანი გადაწყვეტს, არ არის საკმარისი მონაცემები.
2. Assisted: სისტემა გთავაზობთ გადაწყვეტილებას + ახსნა.
3. ავტომატური: ავტომობილების გადაწყვეტილებები guardrails- ის ფარგლებში.
4. Adaptive: ბარიერების მანქანა/ოფშორული არჩევანი (ბანდიტები).
5. Safe-Autonomy: ავტონომია ოფიციალური შეზღუდვებისა და აუდიტისთვის.
10) გადაწყვეტილებები გაურკვევლობის ქვეშ
Scenario planning: ძირითადი/სტრესი/ექსტრემუმი; ეფექტის დიაპაზონი.
Robustness: სტრატეგია, რომელიც მდგრადია პარამეტრული შეცდომების მიმართ.
POMDP ინტუიცია: იმოქმედეთ არასრული ინფორმაციით; დააფასეთ ინფორმაციის ღირებულება (რა ექსპერიმენტი უნდა ჩატარდეს).
Bayesian განახლება: აერთიანებს ისტორიულ ცოდნას და მიმდინარე მონაცემებს.
11) დიალოგი „პოლიტიკის მოდელები“
მოდელი იძლევა შედეგების მწარე/განაწილებას.
პოლიტიკა ითვალისწინებს შეცდომების, შეზღუდვების და fairness- ის ღირებულებას.
განყოფილების ხაზი - აშკარა ციფრული პოლიტიკაში, ჟურნალის ვერსიით.
ბარიერის გადასინჯვა - EV- ს მიხედვით, არა მხოლოდ ROC/PR- ით.
12) დოკუმენტები და ნივთები
პოლიტიკის პასპორტი
კოდი/ვერსია, მიზანი და KPI ეფექტი
პირობები/ფიჩები/მოდელი, ჰისტესეზი/კულდუნი
მოქმედებები და არხები, პრიორიტეტები და ურთიერთგამომრიცხავი გამონაკლისები
Guardrails (FPR - x%, latency p95-y, RG/შესაბამისობა)
შეფასება: ტესტის დიზაინი, მეტრიკა, ხანგრძლივობა
აუდიტი/ახსნა მომხმარებლისთვის, მფლობელები
Decision Table (მაგალითი)
„საბოლოო“ გადაწყვეტილების შემუშავების სქემა
`signal_id` → `decision_id` → `action_id` → `outcome_id` (+ `correlation_id`).
13) ჰოვერნანსი და შესაბამისობა
ერთი მეტრული ლექსიკონი და ფორმულების ვერსია.
პოლიტიკის კომიტეტი: რისკის ოფიცერი, პროდუქტი, მონაცემები, შესაბამისობა.
გადაწყვეტილებების აუდიტი: ახსნა, უარის თქმის მიზეზები, სააპელაციო არხები.
ეთიკა და სამართლიანობა: შეცდომების მონიტორინგი ჯგუფებად; დამცავი ნიშნების გამორიცხვა იმ წესებიდან, სადაც ეს კანონით არის საჭირო.
14) ხშირი შეცდომები
მარიონეტული მეტრის ოპტიმიზაცია ბიზნესის ეფექტის ნაცვლად (Goodhart).
პროგნოზებისა და მიზეზების ნაზავი; ROMI „კორელაციით“.
ჰისტერეზისა და კულდუნის ნაკლებობა სპამი/„ მოციმციმე “.
შეცდომების მიუწვდომელი ღირებულება და მომხმარებლისთვის ზიანის მიყენება.
რეიდების/ფორმულების მშვიდი რედაქტირება ვერსიების გარეშე და changelog.
მოქმედებები ეფექტის შეფასების გარეშე და „ციკლის დახურვა“.
15) ჩეკის სია პოლიტიკის/DI სისტემის გამოქვეყნებამდე
- მიზანი ჩამოყალიბებულია, როგორც მიზეზობრივი ეფექტი, მოცემულია ღირებულების ფუნქცია და რისკის ბიუჯეტი
- ნახატი DAG; არჩეულია შეფასების დიზაინი (A/B/DiD/SC) და მეტრიკა
- პოლიტიკა აღწერილია decision table- ში; არსებობს hysteresis/culdown/პრიორიტეტები
- მოდელები გაუქმებულია; ბარიერები ამოღებულია შეცდომების ღირებულებიდან (EV)
- მოქმედების ორკესტრი იდემპოტენტურია; ჟურნალი „signal - decision - action - outcome“ შედის
- Guardrails და alertes მორგებული; runbooks და fallback წესები მზად არის
- დაშბორდები: გადაწყვეტილებების ძაბრი, ეფექტი (uplift/ROI), ზიანი/საჩივრები, fairness
- დოკუმენტირებული ვერსიები/მფლობელები/დაშვების უფლებები/შესაბამისობა
შედეგი
გადაწყვეტილების მიღების ინტელექტი არის სისტემა და არა მოდელების ერთობლიობა: ერთიანი მონაცემები და მეტრიკა, მიზეზობრივი და ეკონომიკური შეხედულება ეფექტზე, აშკარა პოლიტიკოსები და უსაფრთხო ორკესტრი, მკაცრი შეფასება და უწყვეტი ტრენინგი. ასეთი სისტემა ამცირებს რისკს, ზრდის ROI და ხდის გადაწყვეტილებებს რეპროდუქციული, გასაგები და კონტროლირებადი.