Моделдерди көзөмөлдөө

1) Эмне үчүн

Максаты - SLA/SLO, RG/AML/Legal жана бюджеттерди сактоо менен үлгү чечимдеринин сапатын жана коопсуздугун сактоо. Мониторинг эрте бузулууларды аныктоо керек (маалыматтар, калибрлөө, latency, наркы), expected cost каталарды азайтуу жана кайталануучулукту/аудитти камсыз кылуу.

2) Мониторинг чөйрөлөрү (карта)

1. Жеткиликтүү жана аткаруу: latency p95/p99, error-rate, RPS, автоскейл.
2. Алдын ала сапаты: PR-AUC/KS (онлайн этикеткаларда), калибрлөө (ECE), expected-cost @threshold.
3. Дрейф жана туруктуулук: PSI/KL физикалык жана тез, бөлүштүрүү/категорияларын өзгөртүү.
4. камтуу жана толуктугу: ийгиликтүү кызмат суроо үлүшү, "бош" fich үлүшү, hit-rate кэш.
5. Slice/Fairness: рыноктор/провайдерлер/түзмөктөр/эсеп курагы боюнча көрсөткүчтөр.
6. Guardrails (RG/AML): саясат бузуулар, интервенция жыштыгы, жалган positives/negatives.
7. Баасы: cost/request, cost/feature, GPU/CPU-саат, small-files/IO (batch/near-RT үчүн).
8. Маалыматтар/келишимдер: fich схемасы, версиялары, эквиваленттүүлүгү online/offline.

3) SLI/SLO (iGaming үчүн көрсөтмөлөр)

Latency p95: жекелештирүү ≤ 150 ms, RG/AML алерт ≤ 5 e2e менен.
Availability: ≥ 99. 9%.
Error-rate 5xx: ≤ 0. 5% 5 мүнөт терезе үчүн.
Coverage: ≥ 99% суроо-талаптардын натыйжалуулугун жана чечим кабыл алды.
Freshness лейблдер онлайн баа берүү үчүн: D + 1 (күнүмдүк), тез прокси үчүн - ≤ 1 ч.
Drift PSI: чүчүкулак/тез <0. 2 (warning с 0. 1).
ECE калибрлөө: ≤ 0. 05.
Expected-cost_live: негизги моделдин жогору эмес + X% (максаттуу X бизнес тандайт).

4) Сигналдар жана формулалар

4. 1 Дрейф

PSI: бөлүштүрүү айырмачылыктары (train vs prod) боюнча жалпы.
KL-дивергенция: "жука" куйруктарга сезгич; негизги көрсөткүч/ылдамдыгы үчүн мониторинг жүргүзүү.
KS Speed (лейблдер бар болсо): CDF айырмасы үчүн оң/терс.

4. 2 калибрлөө

ECE (Expected Calibration Error):	predicted-prob − empirical-rate	себет.
Reliability curve: тактык график vs ыктымалдуулук.

4. 3 Expected-Cost

минималдаштыруу (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) босогосунда; онлайн кийинкиге калтырылган лейблдер менен терезеде эсептейбиз.

5) Лейблдердин булактары

Online лейблдер (Fast Proxy): иш-чара "депозиттик 7 күн", Click/Conversion, RG иши аяктады.
Кийинкиге калтырылган лейблдер: chargeback/frod (45-90 күн), узак мөөнөттүү churn/LTV.
Эрежелер: as-of убакыт сактоо; "келечектеги" окуяларды колдонбогула.

6) Dashbord (минималдуу курамы)

1. Операциялык: RPS, p50/p95/p99 latency, 4xx/5xx, saturation, autoscaling.
2. Сапаты: score-distribution, PR-AUC (прокси-лейблдер боюнча), ECE, expected-cost, KS.
3. Дрейф: PSI/KL жогорку көрсөткүчтөр боюнча, novelty категориялар, missing-rate, feature-fetch latency.
4. Slice/Fairness: PR-AUC/ECE/expected-cost рыноктор/провайдерлер/түзмөктөр боюнча.
5. Guardrails: RG/AML бузуулар, интервенциялар/1k суроолор, false-stop rate.
6. Баасы: cost/request, CPU/GPU time, cache hit-rate, тышкы lookups.

7) Алертинг (үлгү эрежелери)

HighP95Latency: p95> 150 мс (5 мин) → page SRE/MLOps.
ErrorBurst: 5xx > 0. 5% (5 мин) → rollback скрипт бар.
PSI_Drift: PSI(amount_base) > 0. 2 (15 мин) → warm-up retrain/канареялык артка.
ECE_Bad: ECE > 0. 07 (30 мин) → калибрлөө/босоголорду кайра чогултуу.
ExpectedCost_Up: + X% чен (1 күн) → кайра/кайра карап чыгуу.
Slice_Failure: PR-AUC R рыногунда түштү> Y% (1 күн) → домен ээси билет.
Guardrails_Breach: агрессивдүү offers үлүшү> cap → токтоосуз өлтүрүү-switch.

8) Логинг жана Tracking

Суроо логдору (минималдуу): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extremes), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (кошумча) түшүндүрмөлөр (SHAP top-k).
OTel-трейсы: спаны `feature_fetch` → `preprocess` → `score` → `postprocess` → `guardrail`.
PII: жалаң псевдонимдер/токендер; саясат боюнча жашыруу, ачкычтардын резиденттүүлүгү.

9) Онлайн сапатын баалоо

PR-AUC/KS үчүн жылма терезелер тез этикеткалар боюнча (саат/күн).
Кармалган этикеткалар: D + 7/D + 30/D + 90 ретроспективдүү отчеттор, expected-cost корректировкалары.
Калибрлөө: Isotonic/Platt үчүн D + 1, авто-refresh артефакты кайра баалоо.

10) Босого жана чечим саясаты

Босогону реестрде сактайбыз; онлайн expected-cost деп эсептейбиз жана жол берилген диапазондо (rate-limited) тууралайбыз.
Safety-caps: жогорку/төмөнкү чектери иш-аракет; комплаенс үчүн кол override.
Backtesting босоголор: кечээки маалыматтар боюнча nightly симуляция.

11) Slice & Fairness

Сегменттер: базар/юрисдикция, провайдер, түзмөк/ASN, эсеп жашы, депозиттик күч.
Метрика: PR-AUC, ECE, expected-cost, FPR/TPR айырмачылыктар (equalized odds), disparate impact.
Иш-аракеттер: калибрлөө/слайстардын босогосу, таразалар менен кайра даярдоо, фич.

12) Online/offline барабар

Теңдик сыноо fich: MAE/MAPE текшерүү үлгү боюнча; айырмачылыктар> босого.
Версиялоо: 'feature _ spec _ version', 'logic _ version'; WORM архиви.
Схема келишимдери: breaking-change кош жазуусуз тыюу салынат (v1/v2).

13) Guardrails (RG/AML)

Pre-/Post-filter иш-аракеттер, жыштык чеги, cooldown, тыюу тизмеси.
Логи `policy_id/propensity/mask/decision`; мыйзам бузуулардын отчету.
убакыт-to-intervene жана false-intervention rate метрикасы.

14) Окуялар жана Runbook

Сценарийлер жана кадамдар:

1. Latency ↑/5xx ↑: тышкы фич-провайдерлерди текшерүү → кэш/таймауттарды күйгүзүү → масштабдоо → керек болсо rollback.

2. PSI/ECE/Expected-cost начарлады: freeze traffic (canary ↓), fallback босоголорун/моделин күйгүзүү, retrain ишке киргизүү.

3. Slice ийгиликсиз: убактылуу слайс-белгилүү бир босого, домен ээсине билет.

4. Guardrails breach: kill-switch, cases аудит, post-sea.

15) Наркы жана аткаруу

Profile: feature-fetch vs score vs IO убакыт үлүшү.
Кэш стратегиялары: TTL/eviction, "ысык" RAM, муздак - lazy.
моделдин Quantization/оптималдаштыруу: сапатын сактоо менен FP16/INT8.
Chargeback: cost/request, cost/команда/рыноктор боюнча feature.

16) Мисалдар (фрагменттер)

expected-cost боюнча босого (псевдокод):

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

Prometheus (метрикалык идеялар):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

Alert (идея):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) Процесстер жана RACI

R (Responsible): MLOps (байкоо/алерт/реестр), Data Science (сапат метрикасы/калибрлөө/босого), Data Eng (фич/келишимдер/эквиваленттүүлүк).
A (Accountable): Head of Data / CDO.
C (Consulted): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/аудит), SRE (SLO/инциденттер), Finance (наркы).
I (Informed): Продукт/Маркетинг/Операциялар/Колдоо.

18) Жол картасы

MVP (2-4 жума):

1. Негизги SLI/SLO (latency/5xx/coverage) + dashboard.

2. PSI үчүн жогорку 10 fich жана score-distribution; ECE жана expected-cost на прокси-лейблы.

3. Logy Solutions + OTel-соода; онлайн/оффлайн эквиваленттик тест.

4. Alerty HighP95Latency/PSI_Drift/ECE_Bad + runbook '.

2-этап (4-8 жума):

Slice/fairness панелдер, кийинкиге калтырылган лейблдер боюнча nightly backfill метрик.
Авто калибрлөө жана босого симулятор.
Cost-дашборд жана квоталар/Чич/репликаларга лимиттер.

Этап 3 (8-12 жума):

Авто Релаут/Ретрейн Канар контролдоо менен дрейф.
WORM-Archives сапаты отчеттор жана экспонаттар.
Chaos мониторинг тесттер жана DR-машыгуулар.

19) Прод-даярдыктын чек-тизмеси

SLI/SLO макулдашылган жана shadow/canary боюнча monitor ≥ 24 саат.
PSI/KL, ECE, expected-cost жана PR-AUC онлайн болуп эсептелет; чектери жана алерттери белгиленген.
Slice/fairness панелдер камтылган; сегменттердин ээлери дайындалды.
Толук Логи/Trades (чечимдер, босоголор, маскалар), PII-маска жана резиденттүүлүк сакталат.
Online/offline жашыл барабар сыноо; контракттык схемалар.
Runbook 'жана бир-click rollback текшерилген; kill-switch для guardrails.
Наркы бюджеттерге туура келет; кэш/квота/лимиттер активдүү.
WORM-Archive метрика/экспонаттар жана сапаттуу отчеттор сакталган.

20) Анти-үлгүлөрү жана тобокелдиктер

Онлайн этикеткалардын жана ретроспективдүү баалоонун жоктугу.
Мониторинг гана ROC-AUC жок expected-cost жана калибрлөө.
Ignor slice/fairness → региондордо/түзмөктөрдө жашыруун мүчүлүштүктөр.
Эч кандай барабар онлайн/оффлайн сүрөт → "кош чындык".
нөл guardrails: уулуу offers, RG/AML бузуулар.
Эч кандай кайра/DR пландары жок, WORM архиви жок.

21) Жыйынтык

Моделдерди көзөмөлдөө - бул "жумасына бир жолу көрүү" эмес, тобокелдик/наркты эрте эскертүү жана башкаруу системасы. SLO киргизүү, drift/калибрлөө/expected-cost өлчөө, слайддарды жана guardrails, rollback/kill-switch баскычтарын кармап, отчетторду жана ретрейндерди автоматташтыруу. Ошентип, моделдер маалыматтар жана трафиктин ар кандай турбуленттүүлүгүндө пайдалуу, этикалык жана комплаененттүү бойдон кала берет.

Моделдерди көзөмөлдөө

Биз менен байланышыңыз

Ыкчам байланыш

Видео жакында жаңыртылат

Азыр биз долбоорлор менен абдан алекпиз