Модельдер мониторингі

1) Не үшін

Мақсаты - SLA/SLO, RG/AML/Legal және бюджеттерді сақтай отырып, өнімдегі модель шешімдерінің сапасы мен қауіпсіздігін сақтау. Мониторинг азып-тозуларды (деректер, калибрлеу, latency, құн) ерте анықтауға, expected cost қателерін азайтуға және жаңғыртуды/аудитті қамтамасыз етуге тиіс.

2) Мониторинг саласы (карта)

1. Қол жетімділігі және өнімділігі: latency p95/p99, error-rate, RPS, автоскейл.
2. Болжам сапасы: PR-AUC/KS (онлайн-лейблдерде), калибрлеу (ECE), expected-cost @threshold.
3. Дрейф және тұрақтылық: PSI/KL фич және скор бойынша, бөлуді/санаттарды ауыстыру.
4. Жабу және толықтығы: табысты қызмет көрсетілген сұраулардың үлесі, «бос» фич, hit-rate кэштердің үлесі.
5. Slice/Fairness: нарықтар/провайдерлер/құрылғылар/есеп жасының көрсеткіштері.
6. Guardrails (RG/AML): саясат бұзушылықтары, интервенция жиілігі, false positives/negatives.
7. Құны: cost/request, cost/feature, GPU/CPU-сағат, small-files/IO (batch/near-RT үшін).
8. Деректер/келісімшарттар: сызба, нұсқалар, online/offline баламалылығы.

3) SLI/SLO (iGaming үшін бағдарлар)

Latency p95: персоналдандыру ≤ 150 мс. RG/AML алерт ≤ 5 с e2e.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5 минут терезе үшін 5%.
Coverage: Сұраныстардың 99% ≥ валидті жылдамдықты және шешімді алды.
Freshness онлайн-бағалау үшін лейблдер: D + 1 (тәуліктік), жылдам прокси үшін - ≤ 1 сағ.
Drift PSI: фичи/скор <0. 2 (warning с 0. 1).
ECE калибрлеу: ≤ 0. 05.
Expected-cost_live: + X% базалық үлгісінен жоғары емес (мақсатты X бизнесті таңдайды).

4) Сигналдар мен формулалар

4. 1 дрейф

PSI: бөлу айырмашылығының биналары бойынша жиынтықтаймыз (train vs prod).
KL-дивергенция: «жұқа» құйрықтарға сезімтал; негізгі фич/скор үшін мониторинг жүргізу.
Жылдамдықтар үшін KS (лейблдер болған жағдайда): позитивтер/негативтер үшін CDF айырмасы.

4. 2 Калибрлеу

ECE (Expected Calibration Error):	predicted-prob − empirical-rate	себеттер бойынша.
Reliability curve: дәлдік графигі vs ықтималдық.

4. 3 Expected-Cost

Жұмыс шегінде барынша азайтамыз (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR); онлайн-режимде лейблдері кейінге қалдырылған жылжымалы терезеде санаймыз.

5) Лейблдер көздері

Онлайн-лейблдер (жылдам прокси): «7 күндік депозит» оқиғасы, басу/конверсия, RG аяқталған кейс.
Кейінге қалдырылған лейблдер: chargeback/фрод (45-90 күн), ұзақ мерзімді churn/LTV.
Ережелер: as-of уақытын сақтау; «болашақтан» оқиғаларын пайдаланбаңыз.

6) Дашбордтар (ең аз құрамы)

1. Операциялық: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Сапасы: score-distribution, PR-AUC (прокси-лейблдерде), ECE, expected-cost, KS.
3. Дрейф: топ-сандар бойынша PSI/KL, novelty санаттары, missing-rate, feature-fetch latency.
4. Slice/Fairness: Нарықтар/провайдерлер/девайстар бойынша PR-AUC/ECE/expected-cost.
5. Guardrails: RG/AML бұзушылықтар, интервенциялар/1k сұрау, false-stop rate.
6. Құны: cost/request, CPU/GPU time, cache hit-rate, сыртқы lookups.

7) Алертинг (мысал ережесі)

HighP95Latency: p95> 150 мс (5 мин) → page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 мин) → rollback скрипті қол жетімді.
PSI_Drift: PSI(amount_base) > 0. 2 (15 мин) → warm-up retrain/канареялық қайту.
ECE_Bad: ECE > 0. 07 (30 мин) → калибрлеуді/табалдырықты қайта жинау.
ExpectedCost_Up: + X% бенчмаркке (1 күн) → қайтару/қайта қарау.
Slice_Failure: PR-AUC R нарығында құлады> Y% (1 күн) → домен иесі шот.
Guardrails_Breach: агрессивті офферлердің үлесі> cap → дереу kill-switch.

8) Логизация және трассировка

Сұрау логтары (ең аз): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (қосымша) түсіндірмелер (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: тек бүркеншік атаулар/токендер; саясат бойынша бүркемелеу, кілттердің резиденттігі.

9) Сапаны онлайн бағалау

Жылдам лейблдер бойынша PR-AUC/KS арналған жылжымалы терезелер (сағат/күн).
Ұсталған лейблдер: D + 7/D + 30/D + 90 ретроспективті есептер, expected-cost түзетулері.
Калибрлеу: Isotonic/Platt-ты D + 1-ге қайта бағалау, артефактіні auto-refresh.

10) Шешімдердің шегі мен саясаты

Табалдырықты тізілімдегідей ұстаймыз; онлайн expected-cost санаймыз және рұқсат етілген диапазон (rate-limited) шегінде түзетеміз.
Safety-caps: әрекеттің жоғарғы/төменгі шегі; комплаенс үшін қолмен override.
Backtesting шектері: кешегі деректерге түнгі симуляция.

11) Slice & Fairness

Сегменттер: нарық/юрисдикция, провайдер, құрылғы/ASN, шот жасы, депозит-күш.
Метриктер: PR-AUC, ECE, expected-cost, FPR/TPR айырмашылығы (equalized odds), disparate impact.
Іс-әрекеттер: слайстар бойынша калибрлеу/табалдырық, таразылармен қайта оқыту, фич.

12) Online/offline баламалылығы

Теңдік тестісі: бақылау іріктемесінде MAE/MAPE; > табалдырықтың айырмашылығы кезіндегі алерт.
Нұсқалау: 'feature _ spec _ version', 'logic _ version'; WORM мұрағаты.
Схемалардың келісімшарттары: breaking-change қосарлы жазбасыз тыйым салынған (v1/v2).

13) Guardrails (RG/AML)

Pre-/Post-filter әрекеттері, жиілік лимиттері, cooldown, тыйым салу тізімдері.
Логи `policy_id/propensity/mask/decision`; бұзушылықтар есебі.
Time-to-intervene және false-intervention rate метрикасы.

14) Оқиғалар және runbook

Сценарийлер мен қадамдар:

1. Latency ↑/5xx ↑: сыртқы фич-провайдерлерді тексеру → кэш/таймауттарды қосу → масштабтау → қажет болған жағдайда rollback.

2. PSI/ECE/Expected-cost нашарлады: freeze трафик (canary ↓), fallback-табалдырығын/моделін қосу, retrain іске қосу.

3. Slice сәтсіздігі: уақытша слайс-арнайы шегі, домен иесіне тикет.

4. Guardrails breach: kill-switch, кейстер аудиті, пост-теңіз.

15) Құны және өнімділігі

Профильдеу: feature-fetch vs score vs IO-дағы уақыт үлесі.
Кэш-стратегиялар: TTL/eviction, RAM «ыстық» фичтер, суық - lazy.
Үлгіні кванталау/оңтайландыру: сапаны сақтау кезінде FP16/INT8.
Chargeback: командалар/нарықтар бойынша cost/request, cost/feature.

16) Мысалдар (фрагменттер)

expected-cost (жалған құжат) бойынша шегі:

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometheus (метрикалық идеялар):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

Алерт (идея):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) Процестер және RACI

R (Responsible): MLOps (бақылау/алерта/тізілім), Data Science (сапа өлшемдері/калибрлеу/табалдырық), Data Eng (фичи/келісімшарттар/баламалылық).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/аудит), SRE (SLO/инциденттер), Finance (құны).
I (Informed): Өнім/Маркетинг/Операциялар/Қолдау.

18) Жол картасы

MVP (2-4 апта):

1. Базалық SLI/SLO (latency/5xx/coverage) + дашборд.

2. PSI топ-10 үшін және score-distribution; ECE және прокси-лейблдердегі expected-cost.

3. Шешімдер логтары + OTel-трейдерлер; online/offline баламалық тест.

4. HighP95Latency/PSI_Drift/ECE_Bad + runbook 'алерттері.

2-фаза (4-8 апта):

Slice/fairness-панельдер, nightly backfill кейінге қалдырылған лейблдердегі метриктер.
Калибрлеуді автоматты түрде қайта іріктеу және табалдырықтар симуляторы.
Cost-дашборд және фичи/реплеяға квоталар/лимиттер.

3-фаза (8-12 апта):

Канареялық бақылауы бар дрейф бойынша авто-релаут/ретрейн.
WORM-сапа есептері мен артефактілердің мұрағаттары.
Chaos-мониторинг тестілері және DR-жаттығулар.

19) Өнiм дайындығының чек-парағы

SLI/SLO shadow/canary ≥ 24 сағ.
PSI/KL, ECE, expected-cost және PR-AUC онлайн болып саналады; табалдырықтар мен алерттар берілген.
Slice/fairness панелдері қосылған; сегменттердің иелері тағайындалды.
Толық логтар/трестер (шешімдер, табалдырықтар, маскалар), PII-бүркемелеу және резиденттік сақталған.
Баламалық тестілеу online/offline жасыл; келісімшарттағы сызбалар.
Runbook 'және one-click rollback тексерілді; kill-switch для guardrails.
Құны бюджеттерге сәйкес келеді; кэш/квоталар/лимиттер белсенді.
WORM метрика/артефактілер мен сапа есептерінің мұрағаты сақталған.

20) Анти-паттерндер және тәуекелдер

Online-лейблдер мен ретроспективті бағалаудың болмауы.
Тек ROC-AUC мониторингі expected-cost және калибрлеусіз.
Игнор slice/fairness → өңірлердегі/құрылғылардағы жасырын істен шығулар.
online/offline фич → «қос шындық» баламасы жоқ.
Нөл guardrails: уытты оффералар, RG/AML бұзылулары.
Кері қайтару/DR жоспарлары жоқ, WORM мұрағаты жоқ.

21) Қорытынды

Модельдер мониторингі - бұл «аптасына бір рет қарау» емес, тәуекелді/құнды ерте ескерту және басқару жүйесі. SLO енгізіңіз, дрейф/калибрлеу/expected-cost өлшеңіз, слайдтар мен guardrails қадағалаңыз, rollback/kill-switch түймелерін ұстаңыз, есептер мен ретрейндерді автоматтандырыңыз. Осылайша, модельдер деректер мен трафиктің кез келген турбуленттілігі кезінде пайдалы, этикалық және комплаентті болып қалады.

Модельдер мониторингі

Бізбен байланысыңыз

Жылдам байланыс

Бейне жақында жаңартылады

Қазір біз жобалармен өте қатты айналысып жатырмыз