Модельдер мониторингі
1) Не үшін
Мақсаты - SLA/SLO, RG/AML/Legal және бюджеттерді сақтай отырып, өнімдегі модель шешімдерінің сапасы мен қауіпсіздігін сақтау. Мониторинг азып-тозуларды (деректер, калибрлеу, latency, құн) ерте анықтауға, expected cost қателерін азайтуға және жаңғыртуды/аудитті қамтамасыз етуге тиіс.
2) Мониторинг саласы (карта)
1. Қол жетімділігі және өнімділігі: latency p95/p99, error-rate, RPS, автоскейл.
2. Болжам сапасы: PR-AUC/KS (онлайн-лейблдерде), калибрлеу (ECE), expected-cost @threshold.
3. Дрейф және тұрақтылық: PSI/KL фич және скор бойынша, бөлуді/санаттарды ауыстыру.
4. Жабу және толықтығы: табысты қызмет көрсетілген сұраулардың үлесі, «бос» фич, hit-rate кэштердің үлесі.
5. Slice/Fairness: нарықтар/провайдерлер/құрылғылар/есеп жасының көрсеткіштері.
6. Guardrails (RG/AML): саясат бұзушылықтары, интервенция жиілігі, false positives/negatives.
7. Құны: cost/request, cost/feature, GPU/CPU-сағат, small-files/IO (batch/near-RT үшін).
8. Деректер/келісімшарттар: сызба, нұсқалар, online/offline баламалылығы.
3) SLI/SLO (iGaming үшін бағдарлар)
Latency p95: персоналдандыру ≤ 150 мс. RG/AML алерт ≤ 5 с e2e.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5 минут терезе үшін 5%.
Coverage: Сұраныстардың 99% ≥ валидті жылдамдықты және шешімді алды.
Freshness онлайн-бағалау үшін лейблдер: D + 1 (тәуліктік), жылдам прокси үшін - ≤ 1 сағ.
Drift PSI: фичи/скор <0. 2 (warning с 0. 1).
ECE калибрлеу: ≤ 0. 05.
Expected-cost_live: + X% базалық үлгісінен жоғары емес (мақсатты X бизнесті таңдайды).
4) Сигналдар мен формулалар
4. 1 дрейф
PSI: бөлу айырмашылығының биналары бойынша жиынтықтаймыз (train vs prod).
KL-дивергенция: «жұқа» құйрықтарға сезімтал; негізгі фич/скор үшін мониторинг жүргізу.
Жылдамдықтар үшін KS (лейблдер болған жағдайда): позитивтер/негативтер үшін CDF айырмасы.
4. 2 Калибрлеу
4. 3 Expected-Cost
Жұмыс шегінде барынша азайтамыз (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); онлайн-режимде лейблдері кейінге қалдырылған жылжымалы терезеде санаймыз.
5) Лейблдер көздері
Онлайн-лейблдер (жылдам прокси): «7 күндік депозит» оқиғасы, басу/конверсия, RG аяқталған кейс.
Кейінге қалдырылған лейблдер: chargeback/фрод (45-90 күн), ұзақ мерзімді churn/LTV.
Ережелер: as-of уақытын сақтау; «болашақтан» оқиғаларын пайдаланбаңыз.
6) Дашбордтар (ең аз құрамы)
1. Операциялық: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Сапасы: score-distribution, PR-AUC (прокси-лейблдерде), ECE, expected-cost, KS.
3. Дрейф: топ-сандар бойынша PSI/KL, novelty санаттары, missing-rate, feature-fetch latency.
4. Slice/Fairness: Нарықтар/провайдерлер/девайстар бойынша PR-AUC/ECE/expected-cost.
5. Guardrails: RG/AML бұзушылықтар, интервенциялар/1k сұрау, false-stop rate.
6. Құны: cost/request, CPU/GPU time, cache hit-rate, сыртқы lookups.
7) Алертинг (мысал ережесі)
HighP95Latency: p95> 150 мс (5 мин) → page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 мин) → rollback скрипті қол жетімді.
PSI_Drift: PSI(amount_base) > 0. 2 (15 мин) → warm-up retrain/канареялық қайту.
ECE_Bad: ECE > 0. 07 (30 мин) → калибрлеуді/табалдырықты қайта жинау.
ExpectedCost_Up: + X% бенчмаркке (1 күн) → қайтару/қайта қарау.
Slice_Failure: PR-AUC R нарығында құлады> Y% (1 күн) → домен иесі шот.
Guardrails_Breach: агрессивті офферлердің үлесі> cap → дереу kill-switch.
8) Логизация және трассировка
Сұрау логтары (ең аз): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (қосымша) түсіндірмелер (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: тек бүркеншік атаулар/токендер; саясат бойынша бүркемелеу, кілттердің резиденттігі.
9) Сапаны онлайн бағалау
Жылдам лейблдер бойынша PR-AUC/KS арналған жылжымалы терезелер (сағат/күн).
Ұсталған лейблдер: D + 7/D + 30/D + 90 ретроспективті есептер, expected-cost түзетулері.
Калибрлеу: Isotonic/Platt-ты D + 1-ге қайта бағалау, артефактіні auto-refresh.
10) Шешімдердің шегі мен саясаты
Табалдырықты тізілімдегідей ұстаймыз; онлайн expected-cost санаймыз және рұқсат етілген диапазон (rate-limited) шегінде түзетеміз.
Safety-caps: әрекеттің жоғарғы/төменгі шегі; комплаенс үшін қолмен override.
Backtesting шектері: кешегі деректерге түнгі симуляция.
11) Slice & Fairness
Сегменттер: нарық/юрисдикция, провайдер, құрылғы/ASN, шот жасы, депозит-күш.
Метриктер: PR-AUC, ECE, expected-cost, FPR/TPR айырмашылығы (equalized odds), disparate impact.
Іс-әрекеттер: слайстар бойынша калибрлеу/табалдырық, таразылармен қайта оқыту, фич.
12) Online/offline баламалылығы
Теңдік тестісі: бақылау іріктемесінде MAE/MAPE; > табалдырықтың айырмашылығы кезіндегі алерт.
Нұсқалау: 'feature _ spec _ version', 'logic _ version'; WORM мұрағаты.
Схемалардың келісімшарттары: breaking-change қосарлы жазбасыз тыйым салынған (v1/v2).
13) Guardrails (RG/AML)
Pre-/Post-filter әрекеттері, жиілік лимиттері, cooldown, тыйым салу тізімдері.
Логи `policy_id/propensity/mask/decision`; бұзушылықтар есебі.
Time-to-intervene және false-intervention rate метрикасы.
14) Оқиғалар және runbook
Сценарийлер мен қадамдар:1. Latency ↑/5xx ↑: сыртқы фич-провайдерлерді тексеру → кэш/таймауттарды қосу → масштабтау → қажет болған жағдайда rollback.
2. PSI/ECE/Expected-cost нашарлады: freeze трафик (canary ↓), fallback-табалдырығын/моделін қосу, retrain іске қосу.
3. Slice сәтсіздігі: уақытша слайс-арнайы шегі, домен иесіне тикет.
4. Guardrails breach: kill-switch, кейстер аудиті, пост-теңіз.
15) Құны және өнімділігі
Профильдеу: feature-fetch vs score vs IO-дағы уақыт үлесі.
Кэш-стратегиялар: TTL/eviction, RAM «ыстық» фичтер, суық - lazy.
Үлгіні кванталау/оңтайландыру: сапаны сақтау кезінде FP16/INT8.
Chargeback: командалар/нарықтар бойынша cost/request, cost/feature.
16) Мысалдар (фрагменттер)
expected-cost (жалған құжат) бойынша шегі:python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
Prometheus (метрикалық идеялар):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
Алерт (идея):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) Процестер және RACI
R (Responsible): MLOps (бақылау/алерта/тізілім), Data Science (сапа өлшемдері/калибрлеу/табалдырық), Data Eng (фичи/келісімшарттар/баламалылық).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/аудит), SRE (SLO/инциденттер), Finance (құны).
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.
18) Жол картасы
MVP (2-4 апта):1. Базалық SLI/SLO (latency/5xx/coverage) + дашборд.
2. PSI топ-10 үшін және score-distribution; ECE және прокси-лейблдердегі expected-cost.
3. Шешімдер логтары + OTel-трейдерлер; online/offline баламалық тест.
4. HighP95Latency/PSI_Drift/ECE_Bad + runbook 'алерттері.
2-фаза (4-8 апта):- Slice/fairness-панельдер, nightly backfill кейінге қалдырылған лейблдердегі метриктер.
- Калибрлеуді автоматты түрде қайта іріктеу және табалдырықтар симуляторы.
- Cost-дашборд және фичи/реплеяға квоталар/лимиттер.
- Канареялық бақылауы бар дрейф бойынша авто-релаут/ретрейн.
- WORM-сапа есептері мен артефактілердің мұрағаттары.
- Chaos-мониторинг тестілері және DR-жаттығулар.
19) Өнiм дайындығының чек-парағы
- SLI/SLO shadow/canary ≥ 24 сағ.
- PSI/KL, ECE, expected-cost және PR-AUC онлайн болып саналады; табалдырықтар мен алерттар берілген.
- Slice/fairness панелдері қосылған; сегменттердің иелері тағайындалды.
- Толық логтар/трестер (шешімдер, табалдырықтар, маскалар), PII-бүркемелеу және резиденттік сақталған.
- Баламалық тестілеу online/offline жасыл; келісімшарттағы сызбалар.
- Runbook 'және one-click rollback тексерілді; kill-switch для guardrails.
- Құны бюджеттерге сәйкес келеді; кэш/квоталар/лимиттер белсенді.
- WORM метрика/артефактілер мен сапа есептерінің мұрағаты сақталған.
20) Анти-паттерндер және тәуекелдер
Online-лейблдер мен ретроспективті бағалаудың болмауы.
Тек ROC-AUC мониторингі expected-cost және калибрлеусіз.
Игнор slice/fairness → өңірлердегі/құрылғылардағы жасырын істен шығулар.
online/offline фич → «қос шындық» баламасы жоқ.
Нөл guardrails: уытты оффералар, RG/AML бұзылулары.
Кері қайтару/DR жоспарлары жоқ, WORM мұрағаты жоқ.
21) Қорытынды
Модельдер мониторингі - бұл «аптасына бір рет қарау» емес, тәуекелді/құнды ерте ескерту және басқару жүйесі. SLO енгізіңіз, дрейф/калибрлеу/expected-cost өлшеңіз, слайдтар мен guardrails қадағалаңыз, rollback/kill-switch түймелерін ұстаңыз, есептер мен ретрейндерді автоматтандырыңыз. Осылайша, модельдер деректер мен трафиктің кез келген турбуленттілігі кезінде пайдалы, этикалық және комплаентті болып қалады.