მოდელების მონიტორინგი

1) რატომ

მიზანია შეინარჩუნოს მოდელის გადაწყვეტილებების ხარისხი და უსაფრთხოება გაყიდვაში SLA/SLO, RG/AML/Legal და ბიუჯეტების შესაბამისად. მონიტორინგმა უნდა გამოავლინოს დეგრადაცია (მონაცემები, კალიბრაცია, ლატენტობა, ღირებულება), შეამციროს ექსპექტირებული შეცდომები და უზრუნველყოს რეპროდუქცია/აუდიტი.

2) მონიტორინგის სფეროები (რუკა)

1. წვდომა და შესრულება: latency p95/p99, error-rate, RPS, skale.
2. პროგნოზების ხარისხი: PR-AUC/KS (ონლაინ ეტიკეტზე), კალიბრაცია (ECD), ექსპექტირებული-cost @ threshold.
3. დრიფტი და სტაბილურობა: PSI/KL fiches და square, განაწილების/კატეგორიების შეცვლა.
4. დაფარვა და სისრულე: წარმატებით მომსახურე მოთხოვნების წილი, „ცარიელი“ ფიგურების წილი, ჰიტ-ქეში.
5. Slice/Fairness: მეტრიკა ბაზრის/პროვაიდერების/მოწყობილობების/ანგარიშის ასაკის მიხედვით.
6. Guardrails (RG/AML): პოლიტიკოსის დარღვევა, ინტერვენციის სიხშირე, ფალსური positives/negatives.
7. ღირებულება: cost/request, cost/feature, GPU/CPU საათი, small-files/IO (batch/near-RT).
8. მონაცემები/კონტრაქტები: fich სქემა, ვერსიები, ონლაინ/offline ექვივალენტი.

3) SLI/SLO (სახელმძღვანელო iGaming)

Latency p95: პერსონალიზაცია 150 ms, RG/AML ალერტები 5 e2e.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5% 5 წუთში ფანჯარა.
Coverage: მოთხოვნების 99% -ზე მეტი მიიღო წამყვანმა მწირმა და გადაწყვეტილებამ.

ონლაინ შეფასებისთვის Freshness ეტიკეტები: D + 1 (ყოველდღიური), სწრაფი მარიონეტებისთვის - 1 ევრო

Drift PSI: ფიჩები/სკორი <0. 2 (warning с 0. 1).
ECE კალიბრაცია: 0. 05.
Expected-cost _ live: არ აღემატება საბაზო მოდელს + X% (სამიზნე X ირჩევს ბიზნესს).

4) სიგნალები და ფორმულები

4. 1 დრიფი

PSI: შეაჯამეთ განაწილების განსხვავებები ბინებში (გადანაწილება).
KL დივერგენცია: მგრძნობიარეა „თხელი“ კუდების მიმართ; აკონტროლეთ ძირითადი დარტყმა/მწკრივი.
KS სკორებისთვის (ეტიკეტების თანდასწრებით): CDF სხვაობა პოზიტიური/ნეგატივებისთვის.

4. 2 კალიბრაცია

ECE (Expected Calibration Error):	predicted-prob − empirical-rate	კალათებზე.
Reliability curve: სიზუსტის გრაფიკი vs ალბათობა.

4. 3 Expected-Cost

ჩვენ მინიმუმამდე დავიყვანთ (C = c {fp }\cdot FPR + c {fn\\cdot FNR) სამუშაო ზღურბლზე; ჩვენ მიგვაჩნია ონლაინ მოცურების ფანჯარაში დაგვიანებული ეტიკეტებით.

5) ეტიკეტის წყაროები

ონლაინ ეტიკეტები (სწრაფი მარიონეტები): ღონისძიება „7 დღის ანაბარი“, დაწკაპუნება/კონვერტაცია, დასრულებული RG შემთხვევა.
დაგვიანებული ეტიკეტები: chargeback/frod (45-90 დღე), გრძელვადიანი churn/LTV.
წესები: დროის შენახვა; არ გამოიყენოთ მოვლენები „მომავალიდან“.

6) დაშბორდი (მინიმალური შემადგენლობა)

1. ოპერაციული: RPS, p50/p95/p99 latence, 4xx/5xx, saturation, autoscaling.
2. ხარისხი: score-distribution, PR-AUC (მარიონეტულ ეტიკეტებზე), ECE, expected-cost, KS.
3. Draif: PSI/KL ტოპ ფინალში, ნოველტურ კატეგორიებში, მიზნის მისაღწევად, feature-fetch latence.
4. Slice/Fairness: PR-AUC/ECE/Expected-cost ბაზრებზე/პროვაიდერებს/მოწყობილობებს.
5. Guardrails: RG/AML დარღვევები, ჩარევა/1k მოთხოვნა, false-stop rate.
6. ღირებულება: cost/request, CPU/GPU დრო, cache hit-rate, გარე lookups.

7) ალერტინგი (მაგალითის წესები)

HighP95Latency: p95> 150 ms (5 წთ) - page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 წთ) rollback სკრიპტი ხელმისაწვდომია.
PSI_Drift: PSI(amount_base) > 0. 2 (15 წუთი) - warm-up retrain/კანარის გამოტოვება.
ECE_Bad: ECE > 0. 07 (30 წუთი) - კალიბრაციის/ბარიერების გადაკეთება.
ExpectedCost _ Up: + X% ბენზინგასამართი სადგურის (1 დღე) გადახდა/გადატვირთვა.
Slice _ Failure: PR-AUC R ბაზარზე დაეცა> Y% (1 დღე) ticet დომენის მფლობელს.
Guardrails _ Breach: აგრესიული ოფისის პროპორცია> cap - დაუყოვნებლივი kill-switch.

8) ლოჯისტიკა და ტრეკირება

მოთხოვნის Logs (მინიმალური): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats', 'score', 'decision', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (სურვილისამებრ) ახსნა (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: მხოლოდ ფსევდონიმები/ნიშნები; შენიღბვა პოლიტიკის შესახებ, კლავიშების რეზიდენცია.

9) ხარისხის ონლაინ შეფასება

მოცურების ფანჯრები PR-AUC/KS სწრაფი ეტიკეტებისთვის (საათი/დღე).
დაკავებული ეტიკეტები: რეტროსპექტული მოხსენებები D + 7/D + 30/D + 90, კორექტირება ექსპექტირებული-კოდით.
კალიბრაცია: Isotonic/Platt- ის გადაფასება D + 1- ზე, auto-refresh არტეფაქტი.

10) ბარიერი და გადაწყვეტილების პოლიტიკა

ჩვენ ვატარებთ ბარიერს, როგორც კონფისკაციას რეესტრში; მიგვაჩნია, რომ ონლაინ ექსპექტირებული კოდია და შესწორებულია დასაშვები დიაპაზონში (დასაშვები დიაპაზონი).
Safety-caps: მოქმედების ზედა/ქვედა საზღვრები; სახელმძღვანელო override complaence.
Backtesting ზღურბლები: nightly სიმულაცია გუშინდელ მონაცემებზე.

11) Slice & Fairness

სეგმენტები: ბაზარი/იურისდიქცია, პროვაიდერი, მოწყობილობა/ASN, ანგარიშის ასაკი, ანაბრის ძალა.
მეტრიკა: PR-AUC, ECE, ექსპექტირებული კოდი, FPR/TPR განსხვავება (equalized odds), დისპარატი impact.
მოქმედებები: კალიბრაცია/ბარიერი სლაისებზე, წონის გადამზადება, ფიჩების გადასინჯვა.

12) ონლაინ/offline ეკვივალენტი

ფიკის თანასწორობის ტესტი: MAE/MAPE საკონტროლო ნიმუშზე; ალერტი განსხვავების დროს> ბარიერი.
ვერსია: 'feature _ spec _ version', 'logic _ version'; WORM არქივი.
სქემების კონტრაქტები: აკრძალულია ორმაგი ჩაწერის გარეშე (v1/v2).

13) Guardrails (RG/AML)

Pre-/Post filter მოქმედებები, სიხშირის ლიმიტები, cooldown, აკრძალვების სიები.
Логи `policy_id/propensity/mask/decision`; დარღვევების ანგარიში.
დრო და ინტერვენცია მეტრიკა.

14) ინციდენტები და runbook

სკრიპტები და ნაბიჯები:

1. Latency of/5xx: შეამოწმეთ გარე წინსვლის პროვაიდერები - ჩართეთ ქეში/ტაიმაუტები და საჭიროების შემთხვევაში, rollback სკალირება.

2. PSI/ECD/Expected-cost გაუარესდა: უფასო ტრაფიკი, ჩართეთ fallback ბარიერები/მოდელი, დაიწყეთ retrain.

3. Slice წარუმატებლობა: დროებითი სლაისი სპეციფიკური ბარიერი, ტიკეტი დომენის მფლობელისთვის.

4. Guardrails breach: kill-switch, შემთხვევების აუდიტი, პოსტ-ზღვა.

15) ღირებულება და შესრულება

პროფილირება: დროის წილი feature-fetch vs score vs IO.
ქეშის სტრატეგიები: TTL/eviction, RAM- ის „ცხელი“ ფიჩები, ცივი - ლაზი.
მოდელის ქვითარი/ოპტიმიზაცია: FP16/INT8 ხარისხის შენარჩუნებისას.
Chargeback: cost/request, cost/feature გუნდები/ბაზრები.

16) მაგალითები (ფრაგმენტები)

ექსპექტირებული ბარიერი (ფსევდო კოდი):

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometheus (მეტრიკის იდეები):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

ალერტი (იდეა):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) პროცესები და RACI

R (Responsible): MLOps (დაკვირვება/ალერტები/რეესტრი), მონაცემთა მეცნიერება (ხარისხის მეტრიკა/კალიბრაცია/ბარიერი), Data Eng (ფიჩები/კონტრაქტები/ექვივალენტი).
A (Accountable): Head of Data / CDO.
C (Consulted): კომპლექსი/DPO (PII/RG/AML/DSAR), უსაფრთხოება (KMS/აუდიტი), SRE (SLO/ინციდენტები), Finance (ღირებულება).
I (ინფორმირებული): პროდუქტი/მარკეტინგი/ოპერაციები/მხარდაჭერა.

18) საგზაო რუკა

MVP (2-4 კვირა):

1. ძირითადი SLI/SLO (latency/5xx/coverage) + დაშბორდი.

2. PSI ათეულში და score-distribution; EUE და ექსპექტირებული კოდი მარიონეტულ ეტიკეტებზე.

3. გადაწყვეტილებების ლოგიკა + OTel ტრეისი; ონლაინ/ოფისის ეკვივალენტობის ტესტი.

4. Alerta HighP95Latency/PSI _ Drift/ECED _ Bad + runbook 'და

ეტაპი 2 (4-8 კვირა):

Slice/fairness პანელები, nightly backfill მეტრიკა დაგვიანებულ ეტიკეტებზე.
კალიბრაციის მანქანა და რეიდების სიმულატორი.
Cost dashboard და კვოტები/limites fici/raples.

ეტაპი 3 (8-12 კვირა):

Auto Relaut/retrain დრიფტის კანარის კონტროლით.
WORM არქივები ხარისხის და არტეფაქტების შესახებ.
Chaos მონიტორინგის ტესტები და DR ვარჯიშები.

19) Prod List მზადყოფნა

SLI/SLO შეთანხმდნენ და პრომონტიორები shadow/canary 24:
PSI/KL, ECE, expected-cost და PR-AUC განიხილება ინტერნეტით; მითითებულია ბარიერები და ალერტები.
Slice/fairness პანელები შედის; დანიშნულია სეგმენტის მფლობელები.
Logs/trais სავსეა (გადაწყვეტილებები, ბარიერები, ნიღბები), PII ნიღბები და რეზიდენტობა.
ონლაინ/offline ეკვივალენტობის ტესტი მწვანეა; ხელშეკრულების სქემები.
Runbook 'და one-click rollback შემოწმებულია; kill-switch для guardrails.
ღირებულება ჯდება ბიუჯეტებში; ქეში/კვოტები/ლიმიტები აქტიურია.
დაცულია მეტრული/არტეფაქტების და ხარისხის მოხსენებების WORM არქივი.

20) ანტი შაბლონები და რისკები

ონლაინ ეტიკეტების არარსებობა და რეტროსპექტული შეფასება.
მხოლოდ ROC-AUC- ის მონიტორინგი ექსპექტირებული ფოსტის და კალიბრაციის გარეშე.
Slice/fairness- ის უგულებელყოფა ფარული წარუმატებლობაა რეგიონებში/მოწყობილობებში.
არ არსებობს ეკვივალენტი ონლაინ/offline fich - „ორმაგი რეალობა“.
ნულოვანი guardrails: ტოქსიკური ოფერები, RG/AML დარღვევები.
არ არსებობს დაბრუნების გეგმები/DR, არ არსებობს WORM არქივი.

21) შედეგი

მოდელების მონიტორინგი ადრეული გაფრთხილებისა და რისკის/ღირებულების მართვის სისტემაა და არა „კვირაში ერთხელ ნახვა“. შეიყვანეთ SLO, გაზომეთ დრიფტი/კალიბრაცია/ექსპექტირებული-cost, აკონტროლეთ სლაიდები და guardrails, შეინახეთ rollback/kill-switch ღილაკები, ავტომატიზირებული ანგარიშები და რეტრალები. ასე რომ, მოდელები სასარგებლო, ეთიკური და კომპლენტურად დარჩება მონაცემთა და ტრაფიკის ნებისმიერი ტურბულენტობისთვის.

მოდელების მონიტორინგი

დაგვიკავშირდით

სწრაფი კავშირი

ვიდეო მალე განახლდება

ჩვენ ახლა ძალიან დაკავებული ვართ პროექტებით