Мониторинги моделӣ
1) Чаро
Ҳадаф нигоҳ доштани сифат ва бехатарии қарорҳои модел ҳангоми фурӯш ҳангоми риояи SLA/SLO, RG/AML/Legal ва буҷетҳо мебошад. Мониторинг бояд таназзули барвақтро (маълумот, калибрченкунӣ, ниҳонӣ, арзиш) муайян кунад, арзиши интизорравандаи хатогиҳоро кам кунад ва репродуктивӣ/аудитро таъмин кунад.
2) Минтақаҳои мониторинг (харита)
1. Мавҷудият ва иҷро: таъхири p95/p99, хатогӣ, RPS, autoscale.
2. Сифати пешгӯӣ: PR-AUC/KS (дар тамғакоғазҳои онлайн), калибрченкунӣ (ECE), ҳадди интизорӣ @ ҳадди.
3. Кашиш ва устуворӣ: PSI/KL аз рӯи хусусиятҳо ва суръат, тағир додани тақсимот/категорияҳо.
4. Фарогирӣ ва пуррагӣ: ҳиссаи дархостҳои бомуваффақият хидматшуда, ҳиссаи хусусиятҳои "холӣ", кэшҳои хит.
5. Бурида/Адолат: ченакҳо аз рӯи бозор/провайдер/дастгоҳ/синну соли ҳисоб.
6. Гвардияҳо (RG/AML): вайронкунии сиёсат, басомадҳои мудохила, мусбатҳои бардурӯғ/манфӣ.
7. Арзиш: арзиш/дархост, арзиш/хусусият, GPU/CPU-соат, файлҳои хурд/IO (барои партия/наздик-ҶТ).
8. Маълумот/шартномаҳо: схемаи хусусиятҳо, версияҳо, муодили онлайн/офлайн.
3) SLI/SLO (нишонаҳо барои IGaming)
Latency p95: фардикунонӣ ≤ 150 мс, огоҳиҳои RG/AML ≤ 5 бо e2e.
Мавҷудият: ≥ 99. 9%.
Хатои дараҷаи 5xx: ≤ 0. 5% дар 5 дақиқа тиреза.
Фарогирӣ: ≥ 99% дархостҳо суръат ва ҳалли дурустро гирифтанд.
Тозагии тамғакоғазҳо барои арзёбии онлайн: D + 1 (ҳаррӯза), барои шахсони боэътимоди зуд - ≤ 1 соат.
Drift PSI: Хусусият/Меъёри <0. 2 (огоҳӣ с 0. 1).
Калибрченкунии ECE: ≤ 0. 05.
Expected-cost_live: на баландтар аз модели асосӣ + X% (ҳадафи X аз ҷониби бизнес интихоб карда мешавад).
4) Сигналҳо ва формулаҳо
4. 1 Дрифт
PSI: бо фарқияти тақсимот ҷамъбаст кунед (қатора vs prod).
KL-фарқият: ҳассос ба думҳои "лоғар"; монитор барои хусусиятҳои калидӣ/суръат.
KS барои нархҳо (агар тамғакоғазҳо мавҷуд бошанд): Фарқияти CDF барои мусбат/манфӣ.
4. 2 Калибрченкунӣ
4. 3 Арзиши пешбинишуда
Кам кардани (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) дар ҳадди корӣ; ҳисобкунии онлайн дар равзанаи слайд бо тамғакоғазҳои таъхиршуда.
5) Манбаъҳои тамғакоғазҳо
Тамғакоғазҳои онлайн (проксиҳои зуд): ҳодисаи 7-рӯзаи пасандоз, клик/табдилдиҳӣ, ҳолати анҷомёфтаи RG.
Тамғакоғазҳои таъхиршуда: баргардонидан/қаллобӣ (45-90 рӯз), churn дарозмуддат/LTV.
Қоидаҳо: вақтро нигоҳ доред; аз рӯйдодҳо "аз оянда" истифода набаред.
6) Панели панелҳо (таркиби ҳадди аққал)
1. Амалиёт: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Сифат: тақсимоти холҳо, PR-AUC (дар тамғакоғазҳои прокси), ECE, арзиши пешбинишуда, KS.
3. Дрифт: PSI/KL аз рӯи хусусиятҳои боло, категорияҳои навоварӣ, сатҳи нопурра, таъхири хусусият.
4. Бурида/Адолат: PR-AUC/ECE/арзиши пешбинишуда аз ҷониби бозор/провайдер/дастгоҳ.
5. Гвардияҳо: вайронкунии RG/AML, мудохила/дархостҳои 1k, меъёри бардурӯғ.
6. Арзиш: арзиш/дархост, вақти CPU/GPU, меъёри хит-кэш, ҷустуҷӯи беруна.
7) Огоҳӣ (қоидаҳои намунавӣ)
HighP95Latency: p95> 150 ms (5 min) → саҳифаи SRE/MLOps.
Хатогӣ: 5xx> 0. 5% (5 дақ) → скрипти бозгашт дастрас аст.
PSI_Drift: PSI (amount_base)> 0. 2 (15 дақ.) → Бозомӯзии гармидиҳӣ.
ECE_Bad: ECE> 0. 07 (30 дақ.) → барқарор кардани калибрченкунӣ/ҳудудҳо.
ExpectedCost_Up: + X% ба нишондиҳанда (1 рӯз) → баррасии бозпас/изофабор.
Slice_Failure: PR-AUC дар бозори R афтод> Y% (1 рӯз) → соҳиби домени чипта.
Guardrails_Breach: ҳиссаи пешниҳодҳои хашмгин> cap → фавран куштор-гузариш.
8) Воридшавӣ ва пайгирӣ
Гузоришҳои дархостҳо (ҳадди аққал): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (бедарак%, шадид), 'хол', 'қарор', 'ҳадди', 'policy _ id', 'посбон _ mask', ',' latencenity _ ms ',' шарҳҳои ихтиёрӣ) (SHAP top-k).
ОТ жел-трейсы: спаны 'feature _ fetch' → 'preprocess' → 'score' → 'postprocess' → 'guardrail'.
PII: танҳо алафҳо/токенҳо; ниқоби сиёсат, иқоматгоҳи асосӣ.
9) Арзёбии сифат дар Интернет
Тирезаҳои лағжанда барои PR-AUC/KS аз рӯи тамғакоғазҳои тез (соат/рӯз).
Тамғакоғазҳои нигоҳдошташуда: D + 7/D + 30/D + 90 ҳисоботи ретроспективӣ, тасҳеҳи пешбинишуда.
Калибрченкунӣ: Арзёбии такрории изотоникӣ/платт дар D + 1, артефакти худкор.
10) Ҳадди қарор ва сиёсат
Мо ҳадди ниҳоиро ҳамчун конфигуратсия дар феҳрист нигоҳ медорем; онлайн мо арзиши пешбинишударо баррасӣ мекунем ва дар доираи иҷозатдодашуда танзим мекунем (меъёри маҳдуд).
Сарпӯшҳои бехатарӣ: маҳдудиятҳои болоӣ/поёнии амалҳо; дастӣ барои мувофиқат бекор карда мешавад.
Ҳадди ақибмонда: моделиронии шабона дар маълумоти дирӯз.
11) Бурида ва адолат
Сегментҳо: бозор/юрисдиксия, провайдер, дастгоҳ/ASN, синну соли ҳисоб, қудрати амонатӣ.
Нишондиҳандаҳо: PR-AUC, ECE, арзиши пешбинишуда, фарқиятҳои FPR/TPR (эҳтимолияти баробар), таъсири нобаробар.
Амалҳо: калибрченкунӣ/ҳадди барои иловаро, бозомӯзӣ бо тарозу, аз нав дида баромадани хусусият.
12) Эквиваленти онлайн/офлайн
Хусусияти санҷиши баробарӣ: MAE/MAPE дар намунаи назорат; ҳушдор ҳангоми ҷудо шудан> ҳадди.
Версия: 'feature _ spec _ version', 'мантиқ _ версия'; Бойгонии WORM.
Шартномаҳои ноҳиявӣ: шикастани тағирот бидуни вуруди дугона иҷозат дода намешавад (v1/v2).
13) Гвардияҳо (RG/AML)
Амалҳои пеш аз/пас аз филтр, маҳдудиятҳои басомад, сардшавӣ, рӯйхати мамнӯъҳо.
Логи 'policy _ id/майл/ниқоб/қарор'; дар бораи қонунвайронкуниҳо гузориш диҳед.
Нишондиҳандаҳои вақти мусоҳиба ва дахолати бардурӯғ.
14) Ҳодисаҳо ва дафтарчаи корӣ
Сенарияҳо ва қадамҳо:1. Latency (Latency) (Latency) (Latency )/5xx
2. PSI/ECE/Арзиши пешбинишуда бад шуд: трафики ях (canary↓), ҳадди ақалли бозгашт/модел, бозомӯзӣ.
3. Нокомии бурида: ҳадди муваққатии буридаи мушаххас, чипта ба соҳиби домейн.
4. Вайронкунии посбонҳо: куштани гузариш, санҷиши парванда, пас аз баҳр.
15) Арзиш ва иҷро
Маълумот: Фраксияи вақт дар хусусият-гирифтан vs хол vs IO.
Стратегияҳои кэш: TTL/хориҷшавӣ, хусусиятҳои гарм дар RAM, стратегияҳои хунук - танбал.
Квантизатсия/оптимизатсияи модел: FP16/INT8 ҳангоми нигоҳ доштани сифат.
Пардохт: арзиш/дархост, арзиш/хусусият аз ҷониби гурӯҳ/бозор.
16) Намунаҳо (пораҳо)
Ҳадди интизорравандаи хароҷот (псевдокод):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Прометей (ғояҳои метрӣ):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Ҳушдор (идея):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) Равандҳо ва RACI
R (Масъул): MLOps (мушоҳида/огоҳӣ/сабти ном), Илми маълумот (ченакҳои сифат/калибрченкунӣ/ҳадди ниҳоӣ), Eng Data (хусусиятҳо/шартномаҳо/эквивалент).
A (Ҳисоботдиҳанда): Роҳбари маълумот/CDO.
C (Машварат): Мувофиқат/DPO (PII/RG/AML/DSAR), Амният (KMS/Аудит), SRE (SLO/Ҳодисаҳо), Молия (Арзиш).
I (Маълумот): Маҳсулот/Маркетинг/Амалиёт/Дастгирӣ.
18) Харитаи роҳ
MVP (2-4 ҳафта):1. Basic SLI/SLO (ниҳонӣ/5xx/фарогирӣ) + панели панел.
2. PSI барои 10 хусусияти беҳтарин ва тақсимоти холҳо; ECE ва арзиши интизорравандаи тамғакоғазҳо.
3. Гузоришҳои қарор + пайраҳаҳои OT bel; санҷиши эквиваленти онлайн/офлайнӣ.
4. Огоҳиҳо HighP95Latency/PSI_Drift/ECE_Bad + дафтарчаи корӣ 'ва.
Марҳилаи 2 (4-8 ҳафта):- Панелҳои бурида/одилона, ченакҳои шабона дар тамғакоғазҳо.
- Худтанзимкунӣ ва симуляторҳои ҳадди аққал.
- Панели хароҷот ва квотаҳо/маҳдудиятҳои хусусиятҳо/такрорӣ.
- Кашиши худкор/бозомӯзӣ бо назорати канарӣ.
- Бойгонии WORM гузоришҳои босифат ва артефактҳо.
- Санҷишҳои мониторинги хаос ва машқҳои DR.
19) Рӯйхати назорати таҳвил
- SLI/SLO розӣ шуд ва дар сояи/канарӣ 24 соат назорат карда шуд.
- PSI/KL, ECE, арзиши пешбинишуда ва PR-AUC онлайн ҳисобида мешаванд; ҳудуд ва огоҳиҳо муайян карда шудаанд.
- Панелҳои бурида/адолат фаъол мебошанд; соҳибони сегмент таъин карда мешаванд.
- Гузоришҳо/роҳҳо ба итмом расиданд (қарорҳо, ҳудудҳо, ниқобҳо), ниқобҳои PII ва истиқомат.
- Санҷиши эквивалентӣ онлайн/офлайнии сабз; диаграммаҳои хусусият тибқи шартнома.
- Runbook 'ва як ангуштзанӣ санҷида шуд; kill-switch dlya посбон.
- Арзиш ба буҷа мувофиқат мекунад; кэш/квота/маҳдудиятҳо фаъоланд.
- Бойгонии WORM аз ченакҳо/артефактҳо ва ҳисоботҳои сифат сарфа карда мешавад.
20) Анти-намунаҳо ва хатарҳо
Набудани тамғакоғазҳои онлайн ва арзёбии ретроспективӣ.
ROC-AUC танҳо мониторингро бидуни арзиши пешбинишуда ва калибрченкунӣ назорат мекунад.
Ба хатогиҳои пинҳонӣ дар минтақаҳо/дастгоҳҳо аҳамият надиҳед.
Хусусияти эквиваленти онлайн/офлайнӣ → "воқеияти дугона" вуҷуд надорад.
Муҳофизони сифр: Пешниҳодҳои заҳролуд, вайронкунии RG/AML.
Не нақшаҳои бозгашт/DR, бойгонии WORM.
21) Сатри поён
Мониторинги моделӣ системаи огоҳкунии бармаҳал ва идоракунии хатар/хароҷот аст, на "дар як ҳафта як маротиба. "SLO-ро ворид кунед, дрифт/калибрченкунӣ/арзиши пешбинишударо чен кунед, иловаро пайгирӣ кунед ва посбонҳоро нигоҳ доред, тугмаҳои бозгашт/куштан, ҳисобот ва бозомӯзиро автоматӣ кунед. Ҳамин тавр, моделҳо муфид, ахлоқӣ боқӣ хоҳанд монд ва ба ҳама гуна нооромиҳои маълумот ва трафик мувофиқат мекунанд.