Моделдерди көзөмөлдөө
1) Эмне үчүн
Максаты - SLA/SLO, RG/AML/Legal жана бюджеттерди сактоо менен үлгү чечимдеринин сапатын жана коопсуздугун сактоо. Мониторинг эрте бузулууларды аныктоо керек (маалыматтар, калибрлөө, latency, наркы), expected cost каталарды азайтуу жана кайталануучулукту/аудитти камсыз кылуу.
2) Мониторинг чөйрөлөрү (карта)
1. Жеткиликтүү жана аткаруу: latency p95/p99, error-rate, RPS, автоскейл.
2. Алдын ала сапаты: PR-AUC/KS (онлайн этикеткаларда), калибрлөө (ECE), expected-cost @threshold.
3. Дрейф жана туруктуулук: PSI/KL физикалык жана тез, бөлүштүрүү/категорияларын өзгөртүү.
4. камтуу жана толуктугу: ийгиликтүү кызмат суроо үлүшү, "бош" fich үлүшү, hit-rate кэш.
5. Slice/Fairness: рыноктор/провайдерлер/түзмөктөр/эсеп курагы боюнча көрсөткүчтөр.
6. Guardrails (RG/AML): саясат бузуулар, интервенция жыштыгы, жалган positives/negatives.
7. Баасы: cost/request, cost/feature, GPU/CPU-саат, small-files/IO (batch/near-RT үчүн).
8. Маалыматтар/келишимдер: fich схемасы, версиялары, эквиваленттүүлүгү online/offline.
3) SLI/SLO (iGaming үчүн көрсөтмөлөр)
Latency p95: жекелештирүү ≤ 150 ms, RG/AML алерт ≤ 5 e2e менен.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5% 5 мүнөт терезе үчүн.
Coverage: ≥ 99% суроо-талаптардын натыйжалуулугун жана чечим кабыл алды.
Freshness лейблдер онлайн баа берүү үчүн: D + 1 (күнүмдүк), тез прокси үчүн - ≤ 1 ч.
Drift PSI: чүчүкулак/тез <0. 2 (warning с 0. 1).
ECE калибрлөө: ≤ 0. 05.
Expected-cost_live: негизги моделдин жогору эмес + X% (максаттуу X бизнес тандайт).
4) Сигналдар жана формулалар
4. 1 Дрейф
PSI: бөлүштүрүү айырмачылыктары (train vs prod) боюнча жалпы.
KL-дивергенция: "жука" куйруктарга сезгич; негизги көрсөткүч/ылдамдыгы үчүн мониторинг жүргүзүү.
KS Speed (лейблдер бар болсо): CDF айырмасы үчүн оң/терс.
4. 2 калибрлөө
4. 3 Expected-Cost
минималдаштыруу (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) босогосунда; онлайн кийинкиге калтырылган лейблдер менен терезеде эсептейбиз.
5) Лейблдердин булактары
Online лейблдер (Fast Proxy): иш-чара "депозиттик 7 күн", Click/Conversion, RG иши аяктады.
Кийинкиге калтырылган лейблдер: chargeback/frod (45-90 күн), узак мөөнөттүү churn/LTV.
Эрежелер: as-of убакыт сактоо; "келечектеги" окуяларды колдонбогула.
6) Dashbord (минималдуу курамы)
1. Операциялык: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Сапаты: score-distribution, PR-AUC (прокси-лейблдер боюнча), ECE, expected-cost, KS.
3. Дрейф: PSI/KL жогорку көрсөткүчтөр боюнча, novelty категориялар, missing-rate, feature-fetch latency.
4. Slice/Fairness: PR-AUC/ECE/expected-cost рыноктор/провайдерлер/түзмөктөр боюнча.
5. Guardrails: RG/AML бузуулар, интервенциялар/1k суроолор, false-stop rate.
6. Баасы: cost/request, CPU/GPU time, cache hit-rate, тышкы lookups.
7) Алертинг (үлгү эрежелери)
HighP95Latency: p95> 150 мс (5 мин) → page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 мин) → rollback скрипт бар.
PSI_Drift: PSI(amount_base) > 0. 2 (15 мин) → warm-up retrain/канареялык артка.
ECE_Bad: ECE > 0. 07 (30 мин) → калибрлөө/босоголорду кайра чогултуу.
ExpectedCost_Up: + X% чен (1 күн) → кайра/кайра карап чыгуу.
Slice_Failure: PR-AUC R рыногунда түштү> Y% (1 күн) → домен ээси билет.
Guardrails_Breach: агрессивдүү offers үлүшү> cap → токтоосуз өлтүрүү-switch.
8) Логинг жана Tracking
Суроо логдору (минималдуу): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (кошумча) түшүндүрмөлөр (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: жалаң псевдонимдер/токендер; саясат боюнча жашыруу, ачкычтардын резиденттүүлүгү.
9) Онлайн сапатын баалоо
PR-AUC/KS үчүн жылма терезелер тез этикеткалар боюнча (саат/күн).
Кармалган этикеткалар: D + 7/D + 30/D + 90 ретроспективдүү отчеттор, expected-cost корректировкалары.
Калибрлөө: Isotonic/Platt үчүн D + 1, авто-refresh артефакты кайра баалоо.
10) Босого жана чечим саясаты
Босогону реестрде сактайбыз; онлайн expected-cost деп эсептейбиз жана жол берилген диапазондо (rate-limited) тууралайбыз.
Safety-caps: жогорку/төмөнкү чектери иш-аракет; комплаенс үчүн кол override.
Backtesting босоголор: кечээки маалыматтар боюнча nightly симуляция.
11) Slice & Fairness
Сегменттер: базар/юрисдикция, провайдер, түзмөк/ASN, эсеп жашы, депозиттик күч.
Метрика: PR-AUC, ECE, expected-cost, FPR/TPR айырмачылыктар (equalized odds), disparate impact.
Иш-аракеттер: калибрлөө/слайстардын босогосу, таразалар менен кайра даярдоо, фич.
12) Online/offline барабар
Теңдик сыноо fich: MAE/MAPE текшерүү үлгү боюнча; айырмачылыктар> босого.
Версиялоо: 'feature _ spec _ version', 'logic _ version'; WORM архиви.
Схема келишимдери: breaking-change кош жазуусуз тыюу салынат (v1/v2).
13) Guardrails (RG/AML)
Pre-/Post-filter иш-аракеттер, жыштык чеги, cooldown, тыюу тизмеси.
Логи `policy_id/propensity/mask/decision`; мыйзам бузуулардын отчету.
убакыт-to-intervene жана false-intervention rate метрикасы.
14) Окуялар жана Runbook
Сценарийлер жана кадамдар:1. Latency ↑/5xx ↑: тышкы фич-провайдерлерди текшерүү → кэш/таймауттарды күйгүзүү → масштабдоо → керек болсо rollback.
2. PSI/ECE/Expected-cost начарлады: freeze traffic (canary ↓), fallback босоголорун/моделин күйгүзүү, retrain ишке киргизүү.
3. Slice ийгиликсиз: убактылуу слайс-белгилүү бир босого, домен ээсине билет.
4. Guardrails breach: kill-switch, cases аудит, post-sea.
15) Наркы жана аткаруу
Profile: feature-fetch vs score vs IO убакыт үлүшү.
Кэш стратегиялары: TTL/eviction, "ысык" RAM, муздак - lazy.
моделдин Quantization/оптималдаштыруу: сапатын сактоо менен FP16/INT8.
Chargeback: cost/request, cost/команда/рыноктор боюнча feature.
16) Мисалдар (фрагменттер)
expected-cost боюнча босого (псевдокод):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus (метрикалык идеялар):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Alert (идея):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) Процесстер жана RACI
R (Responsible): MLOps (байкоо/алерт/реестр), Data Science (сапат метрикасы/калибрлөө/босого), Data Eng (фич/келишимдер/эквиваленттүүлүк).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/аудит), SRE (SLO/инциденттер), Finance (наркы).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.
18) Жол картасы
MVP (2-4 жума):1. Негизги SLI/SLO (latency/5xx/coverage) + dashboard.
2. PSI үчүн жогорку 10 fich жана score-distribution; ECE жана expected-cost на прокси-лейблы.
3. Logy Solutions + OTel-соода; онлайн/оффлайн эквиваленттик тест.
4. Alerty HighP95Latency/PSI_Drift/ECE_Bad + runbook '.
2-этап (4-8 жума):- Slice/fairness панелдер, кийинкиге калтырылган лейблдер боюнча nightly backfill метрик.
- Авто калибрлөө жана босого симулятор.
- Cost-дашборд жана квоталар/Чич/репликаларга лимиттер.
- Авто Релаут/Ретрейн Канар контролдоо менен дрейф.
- WORM-Archives сапаты отчеттор жана экспонаттар.
- Chaos мониторинг тесттер жана DR-машыгуулар.
19) Прод-даярдыктын чек-тизмеси
- SLI/SLO макулдашылган жана shadow/canary боюнча monitor ≥ 24 саат.
- PSI/KL, ECE, expected-cost жана PR-AUC онлайн болуп эсептелет; чектери жана алерттери белгиленген.
- Slice/fairness панелдер камтылган; сегменттердин ээлери дайындалды.
- Толук Логи/Trades (чечимдер, босоголор, маскалар), PII-маска жана резиденттүүлүк сакталат.
- Online/offline жашыл барабар сыноо; контракттык схемалар.
- Runbook 'жана бир-click rollback текшерилген; kill-switch для guardrails.
- Наркы бюджеттерге туура келет; кэш/квота/лимиттер активдүү.
- WORM-Archive метрика/экспонаттар жана сапаттуу отчеттор сакталган.
20) Анти-үлгүлөрү жана тобокелдиктер
Онлайн этикеткалардын жана ретроспективдүү баалоонун жоктугу.
Мониторинг гана ROC-AUC жок expected-cost жана калибрлөө.
Ignor slice/fairness → региондордо/түзмөктөрдө жашыруун мүчүлүштүктөр.
Эч кандай барабар онлайн/оффлайн сүрөт → "кош чындык".
нөл guardrails: уулуу offers, RG/AML бузуулар.
Эч кандай кайра/DR пландары жок, WORM архиви жок.
21) Жыйынтык
Моделдерди көзөмөлдөө - бул "жумасына бир жолу көрүү" эмес, тобокелдик/наркты эрте эскертүү жана башкаруу системасы. SLO киргизүү, drift/калибрлөө/expected-cost өлчөө, слайддарды жана guardrails, rollback/kill-switch баскычтарын кармап, отчетторду жана ретрейндерди автоматташтыруу. Ошентип, моделдер маалыматтар жана трафиктин ар кандай турбуленттүүлүгүндө пайдалуу, этикалык жана комплаененттүү бойдон кала берет.