მოდელების მონიტორინგი
1) რატომ
მიზანია შეინარჩუნოს მოდელის გადაწყვეტილებების ხარისხი და უსაფრთხოება გაყიდვაში SLA/SLO, RG/AML/Legal და ბიუჯეტების შესაბამისად. მონიტორინგმა უნდა გამოავლინოს დეგრადაცია (მონაცემები, კალიბრაცია, ლატენტობა, ღირებულება), შეამციროს ექსპექტირებული შეცდომები და უზრუნველყოს რეპროდუქცია/აუდიტი.
2) მონიტორინგის სფეროები (რუკა)
1. წვდომა და შესრულება: latency p95/p99, error-rate, RPS, skale.
2. პროგნოზების ხარისხი: PR-AUC/KS (ონლაინ ეტიკეტზე), კალიბრაცია (ECD), ექსპექტირებული-cost @ threshold.
3. დრიფტი და სტაბილურობა: PSI/KL fiches და square, განაწილების/კატეგორიების შეცვლა.
4. დაფარვა და სისრულე: წარმატებით მომსახურე მოთხოვნების წილი, „ცარიელი“ ფიგურების წილი, ჰიტ-ქეში.
5. Slice/Fairness: მეტრიკა ბაზრის/პროვაიდერების/მოწყობილობების/ანგარიშის ასაკის მიხედვით.
6. Guardrails (RG/AML): პოლიტიკოსის დარღვევა, ინტერვენციის სიხშირე, ფალსური positives/negatives.
7. ღირებულება: cost/request, cost/feature, GPU/CPU საათი, small-files/IO (batch/near-RT).
8. მონაცემები/კონტრაქტები: fich სქემა, ვერსიები, ონლაინ/offline ექვივალენტი.
3) SLI/SLO (სახელმძღვანელო iGaming)
Latency p95: პერსონალიზაცია 150 ms, RG/AML ალერტები 5 e2e.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5% 5 წუთში ფანჯარა.
Coverage: მოთხოვნების 99% -ზე მეტი მიიღო წამყვანმა მწირმა და გადაწყვეტილებამ.
ონლაინ შეფასებისთვის Freshness ეტიკეტები: D + 1 (ყოველდღიური), სწრაფი მარიონეტებისთვის - 1 ევრო
Drift PSI: ფიჩები/სკორი <0. 2 (warning с 0. 1).
ECE კალიბრაცია: 0. 05.
Expected-cost _ live: არ აღემატება საბაზო მოდელს + X% (სამიზნე X ირჩევს ბიზნესს).
4) სიგნალები და ფორმულები
4. 1 დრიფი
PSI: შეაჯამეთ განაწილების განსხვავებები ბინებში (გადანაწილება).
KL დივერგენცია: მგრძნობიარეა „თხელი“ კუდების მიმართ; აკონტროლეთ ძირითადი დარტყმა/მწკრივი.
KS სკორებისთვის (ეტიკეტების თანდასწრებით): CDF სხვაობა პოზიტიური/ნეგატივებისთვის.
4. 2 კალიბრაცია
4. 3 Expected-Cost
ჩვენ მინიმუმამდე დავიყვანთ (C = c {fp }\cdot FPR + c {fn\\cdot FNR) სამუშაო ზღურბლზე; ჩვენ მიგვაჩნია ონლაინ მოცურების ფანჯარაში დაგვიანებული ეტიკეტებით.
5) ეტიკეტის წყაროები
ონლაინ ეტიკეტები (სწრაფი მარიონეტები): ღონისძიება „7 დღის ანაბარი“, დაწკაპუნება/კონვერტაცია, დასრულებული RG შემთხვევა.
დაგვიანებული ეტიკეტები: chargeback/frod (45-90 დღე), გრძელვადიანი churn/LTV.
წესები: დროის შენახვა; არ გამოიყენოთ მოვლენები „მომავალიდან“.
6) დაშბორდი (მინიმალური შემადგენლობა)
1. ოპერაციული: RPS, p50/p95/p99 latence, 4xx/5xx, saturation, autoscaling.
2. ხარისხი: score-distribution, PR-AUC (მარიონეტულ ეტიკეტებზე), ECE, expected-cost, KS.
3. Draif: PSI/KL ტოპ ფინალში, ნოველტურ კატეგორიებში, მიზნის მისაღწევად, feature-fetch latence.
4. Slice/Fairness: PR-AUC/ECE/Expected-cost ბაზრებზე/პროვაიდერებს/მოწყობილობებს.
5. Guardrails: RG/AML დარღვევები, ჩარევა/1k მოთხოვნა, false-stop rate.
6. ღირებულება: cost/request, CPU/GPU დრო, cache hit-rate, გარე lookups.
7) ალერტინგი (მაგალითის წესები)
HighP95Latency: p95> 150 ms (5 წთ) - page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 წთ) rollback სკრიპტი ხელმისაწვდომია.
PSI_Drift: PSI(amount_base) > 0. 2 (15 წუთი) - warm-up retrain/კანარის გამოტოვება.
ECE_Bad: ECE > 0. 07 (30 წუთი) - კალიბრაციის/ბარიერების გადაკეთება.
ExpectedCost _ Up: + X% ბენზინგასამართი სადგურის (1 დღე) გადახდა/გადატვირთვა.
Slice _ Failure: PR-AUC R ბაზარზე დაეცა> Y% (1 დღე) ticet დომენის მფლობელს.
Guardrails _ Breach: აგრესიული ოფისის პროპორცია> cap - დაუყოვნებლივი kill-switch.
8) ლოჯისტიკა და ტრეკირება
მოთხოვნის Logs (მინიმალური): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats', 'score', 'decision', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (სურვილისამებრ) ახსნა (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: მხოლოდ ფსევდონიმები/ნიშნები; შენიღბვა პოლიტიკის შესახებ, კლავიშების რეზიდენცია.
9) ხარისხის ონლაინ შეფასება
მოცურების ფანჯრები PR-AUC/KS სწრაფი ეტიკეტებისთვის (საათი/დღე).
დაკავებული ეტიკეტები: რეტროსპექტული მოხსენებები D + 7/D + 30/D + 90, კორექტირება ექსპექტირებული-კოდით.
კალიბრაცია: Isotonic/Platt- ის გადაფასება D + 1- ზე, auto-refresh არტეფაქტი.
10) ბარიერი და გადაწყვეტილების პოლიტიკა
ჩვენ ვატარებთ ბარიერს, როგორც კონფისკაციას რეესტრში; მიგვაჩნია, რომ ონლაინ ექსპექტირებული კოდია და შესწორებულია დასაშვები დიაპაზონში (დასაშვები დიაპაზონი).
Safety-caps: მოქმედების ზედა/ქვედა საზღვრები; სახელმძღვანელო override complaence.
Backtesting ზღურბლები: nightly სიმულაცია გუშინდელ მონაცემებზე.
11) Slice & Fairness
სეგმენტები: ბაზარი/იურისდიქცია, პროვაიდერი, მოწყობილობა/ASN, ანგარიშის ასაკი, ანაბრის ძალა.
მეტრიკა: PR-AUC, ECE, ექსპექტირებული კოდი, FPR/TPR განსხვავება (equalized odds), დისპარატი impact.
მოქმედებები: კალიბრაცია/ბარიერი სლაისებზე, წონის გადამზადება, ფიჩების გადასინჯვა.
12) ონლაინ/offline ეკვივალენტი
ფიკის თანასწორობის ტესტი: MAE/MAPE საკონტროლო ნიმუშზე; ალერტი განსხვავების დროს> ბარიერი.
ვერსია: 'feature _ spec _ version', 'logic _ version'; WORM არქივი.
სქემების კონტრაქტები: აკრძალულია ორმაგი ჩაწერის გარეშე (v1/v2).
13) Guardrails (RG/AML)
Pre-/Post filter მოქმედებები, სიხშირის ლიმიტები, cooldown, აკრძალვების სიები.
Логи `policy_id/propensity/mask/decision`; დარღვევების ანგარიში.
დრო და ინტერვენცია მეტრიკა.
14) ინციდენტები და runbook
სკრიპტები და ნაბიჯები:1. Latency of/5xx: შეამოწმეთ გარე წინსვლის პროვაიდერები - ჩართეთ ქეში/ტაიმაუტები და საჭიროების შემთხვევაში, rollback სკალირება.
2. PSI/ECD/Expected-cost გაუარესდა: უფასო ტრაფიკი, ჩართეთ fallback ბარიერები/მოდელი, დაიწყეთ retrain.
3. Slice წარუმატებლობა: დროებითი სლაისი სპეციფიკური ბარიერი, ტიკეტი დომენის მფლობელისთვის.
4. Guardrails breach: kill-switch, შემთხვევების აუდიტი, პოსტ-ზღვა.
15) ღირებულება და შესრულება
პროფილირება: დროის წილი feature-fetch vs score vs IO.
ქეშის სტრატეგიები: TTL/eviction, RAM- ის „ცხელი“ ფიჩები, ცივი - ლაზი.
მოდელის ქვითარი/ოპტიმიზაცია: FP16/INT8 ხარისხის შენარჩუნებისას.
Chargeback: cost/request, cost/feature გუნდები/ბაზრები.
16) მაგალითები (ფრაგმენტები)
ექსპექტირებული ბარიერი (ფსევდო კოდი):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus (მეტრიკის იდეები):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
ალერტი (იდეა):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) პროცესები და RACI
R (Responsible): MLOps (დაკვირვება/ალერტები/რეესტრი), მონაცემთა მეცნიერება (ხარისხის მეტრიკა/კალიბრაცია/ბარიერი), Data Eng (ფიჩები/კონტრაქტები/ექვივალენტი).
A (Accountable): Head of Data / CDO.
C (Consulted): კომპლექსი/DPO (PII/RG/AML/DSAR), უსაფრთხოება (KMS/აუდიტი), SRE (SLO/ინციდენტები), Finance (ღირებულება).
I (ინფორმირებული): პროდუქტი/მარკეტინგი/ოპერაციები/მხარდაჭერა.
18) საგზაო რუკა
MVP (2-4 კვირა):1. ძირითადი SLI/SLO (latency/5xx/coverage) + დაშბორდი.
2. PSI ათეულში და score-distribution; EUE და ექსპექტირებული კოდი მარიონეტულ ეტიკეტებზე.
3. გადაწყვეტილებების ლოგიკა + OTel ტრეისი; ონლაინ/ოფისის ეკვივალენტობის ტესტი.
4. Alerta HighP95Latency/PSI _ Drift/ECED _ Bad + runbook 'და
ეტაპი 2 (4-8 კვირა):- Slice/fairness პანელები, nightly backfill მეტრიკა დაგვიანებულ ეტიკეტებზე.
- კალიბრაციის მანქანა და რეიდების სიმულატორი.
- Cost dashboard და კვოტები/limites fici/raples.
- Auto Relaut/retrain დრიფტის კანარის კონტროლით.
- WORM არქივები ხარისხის და არტეფაქტების შესახებ.
- Chaos მონიტორინგის ტესტები და DR ვარჯიშები.
19) Prod List მზადყოფნა
- SLI/SLO შეთანხმდნენ და პრომონტიორები shadow/canary 24:
- PSI/KL, ECE, expected-cost და PR-AUC განიხილება ინტერნეტით; მითითებულია ბარიერები და ალერტები.
- Slice/fairness პანელები შედის; დანიშნულია სეგმენტის მფლობელები.
- Logs/trais სავსეა (გადაწყვეტილებები, ბარიერები, ნიღბები), PII ნიღბები და რეზიდენტობა.
- ონლაინ/offline ეკვივალენტობის ტესტი მწვანეა; ხელშეკრულების სქემები.
- Runbook 'და one-click rollback შემოწმებულია; kill-switch для guardrails.
- ღირებულება ჯდება ბიუჯეტებში; ქეში/კვოტები/ლიმიტები აქტიურია.
- დაცულია მეტრული/არტეფაქტების და ხარისხის მოხსენებების WORM არქივი.
20) ანტი შაბლონები და რისკები
ონლაინ ეტიკეტების არარსებობა და რეტროსპექტული შეფასება.
მხოლოდ ROC-AUC- ის მონიტორინგი ექსპექტირებული ფოსტის და კალიბრაციის გარეშე.
Slice/fairness- ის უგულებელყოფა ფარული წარუმატებლობაა რეგიონებში/მოწყობილობებში.
არ არსებობს ეკვივალენტი ონლაინ/offline fich - „ორმაგი რეალობა“.
ნულოვანი guardrails: ტოქსიკური ოფერები, RG/AML დარღვევები.
არ არსებობს დაბრუნების გეგმები/DR, არ არსებობს WORM არქივი.
21) შედეგი
მოდელების მონიტორინგი ადრეული გაფრთხილებისა და რისკის/ღირებულების მართვის სისტემაა და არა „კვირაში ერთხელ ნახვა“. შეიყვანეთ SLO, გაზომეთ დრიფტი/კალიბრაცია/ექსპექტირებული-cost, აკონტროლეთ სლაიდები და guardrails, შეინახეთ rollback/kill-switch ღილაკები, ავტომატიზირებული ანგარიშები და რეტრალები. ასე რომ, მოდელები სასარგებლო, ეთიკური და კომპლენტურად დარჩება მონაცემთა და ტრაფიკის ნებისმიერი ტურბულენტობისთვის.