MLOps: эксплуатация моделей

1) Роль эксплуатации в iGaming

В iGaming модели влияют на реальные деньги и регуляторику: RG-интервенции, антифрод, выплаты, KYC, лимиты, офферы и рекомендации. Эксплуатация — это надежная подача предсказаний с гарантированными SLO, прослеживаемостью и безопасностью.

Цели:

Предсказуемые релизы и откаты без простоя.
Согласованность данных и фич offline/online.
Наблюдаемость: качество, дрейф, честность, приватность.
Снижение TCO: производительность, кэш, GPU/CPU-миксы.
Соответствие требованиям (аудит/DSAR/Legal Hold/этика).

2) Архитектуры сервинга

Batch (офлайн): ночные/почасовые скоринги (лимиты, сегменты). Плюсы: дешевле, стабильнее. Минусы: нет мгновенной реакции.
Stream (near-real-time): обработка событий (ставки, аномалии) с окнами 1–5 мин.
Online (sync API): <100–300 мс p95 для UX/риск-решений, кэширование и деградации.
Гибрид: «baseline из batch + онлайн-уточнение» (пример: RG-риск за 7 дней + онлайн-триггеры сессии).

Паттерны:

Ensemble/Stacking с легким «гейт-моделью» на критическом пути.
Fallback-эвристики при отказе модели/фич.
Circuit Breaker и rate limiting на пиках либо при деградации провайдеров.

3) Реестр моделей и управление версиями

Model Registry: версии, владельцы, дата релиза, метрики (AUC/PR, калибровка), dataset_version, feature_set_version, ограничения использования.
Карточка модели (Model Card): задача, данные/фичи, fairness/privacy-раздел, риск-зоны, частота ревью.
Политика релизов: `MAJOR.MINOR.PATCH` + обязательный rollback-план.
Champion–Challenger: параллельный прогон challenger с отчетами; автоматическое повышение при выполнении критериев.

4) Онлайн-фичи и согласованность

Feature Store: offline (обучение) и online (инференс) витрины с строгими контрактами.
Time travel и point-in-time join при обучении.
Идемпотентные апдейты фич и защита от утечки таргета.
Согласованность: гарантии «read-your-writes» или SLA доставки (например, ≤ 60 сек).
Политика признаков: allow/deny-листы, маскирование, токенизация, запрет прокси-PII.

5) Стратегии релизов

Shadow: вся нагрузка → champion; challenger получает копию запросов, ответы не влияют на бизнес.
Canary: 1–10% трафика → новая версия; сравнение KPI/метрик, авто-откат по порогам.
Blue-Green: два пула сервера/эндпоинта; переключение DNS/маршрутом.
Флаги: тонкая настройка по рынкам/тенантам/каналам.

6) Наблюдаемость и алертинг

Сигналы (онлайн):

Надежность: error rate, timeouts, p50/p95/p99 latency, QPS, saturation.
Данные/фичи: свежесть, полнота, распределения, аномалии, пропуски, schema drift.
Качество: калибровка, post-fact метрики (AUC/PR, uplift), отклик интервенций.
Дрейф: у входов (PSI/KS) и у выходов (score drift).
Этика/справедливость: EO/EOp-дельты, disparate impact.
Приватность: Attack-AUC (membership/inversion) ≈ 0.5, ε-usage (если DP).
Бизнес: chargeback, RG-интервенции, конверсия офферов — с разложением по сегментам.

Типовые пороги:

p95 latency ≤ 200 мс (онлайн-скоринг RG/антифрод).
Error rate ≤ 0.1% 5-мин. среднее.
Drift PSI ≤ 0.2 по ключевым фичам; EOp-дельта ≤ 3 п.п.
Freshness фич ≤ 60 сек; пропуски ≤ 0.5%.
Калибровка ACE ≤ 0.02.

7) Инциденты и плейбуки

Sev-уровни: P1 (блокировка выплат/ошибка RG), P2 (рост ошибок > порога), P3 (деградация качества).
Авто-митигации: переключение на champion, понижение частоты запросов, включение fallback-правил, изоляция «токсичных» фич.
Runbooks: чеклисты для «фичи устарели», «вырос дрейф», «типизация фида изменилась», «GPU исчерпан».
Пост-мортем: RCA, фикс-план, обновление тестов/порогов/контрактов.

8) Эксперименты и контроль изменений

A/B и multi-armed bandit — только со стратификацией по ключевым группам (страна/канал/устройство).
Этические стоп-правила: при резком росте RG-риска/жалоб.
Dual-run витрин фич и моделей перед переключением.
Версионирование KPI и определений (BI contract) для стабильной интерпретации результатов.

9) Безопасность и приватность в проде

mTLS/TLS 1.3, подпись запросов, анти-replay (nonce/idempotency).
Секреты из Secrets Manager, JIT-выдача, аудит.
Токенизация входов/логов; запрет PII в трассах.
TEE/конфиденциальный инференс для VIP-выплат/AML (по необходимости).
Политики доступа (RBAC/ABAC/JIT) к фичам и эндпоинтам.
DSAR/Legal Hold: трасса решений для объяснимости и удаления по токену.

10) Производительность и стоимость

Кэш (feature/score) с TTL, особенно для стабильных сигналов.
Квантизация/дистилляция для ускорения (INT8/FP16).
Автоскейлинг: горизонтальный по QPS/latency, вертикальный по batch-size.
Гибрид CPU/GPU: latency-критичные на GPU, «масса» на CPU.
Трассировка холодных стартов, прогрев модели.
Пул моделей и «sticky routing» по рынкам/тенантам для кэш-локальности.

11) Кейсы iGaming (референсы)

RG-скоринг: онлайн-скоринг при входе и в сессии; строгие overrides (самоисключение), целевая метрика — EOp + калибровка.
Антифрод/выплаты: пред-авторизационные решения <150 мс; EO-контроль FPR, robust-агрегаторы сигналов.
KYC/AML: thin-file поддержка; PSI/MPC с партнером; DSAR-совместимость.
Персонализация: uplift-модели и частотные лимиты; исключение high-risk из агрессивных офферов.

12) Метрики и SLO эксплуатации (пример)

Категория	Метрика	Цель
Надежность	Job/Endpoint success rate	≥ 99.5%
Латентность	p95 / p99	≤ 200 мс / 400 мс
Качество	AUC (онлайн), ACE	≥ целевого / ≤ 0.02
Данные	Freshness фич	≤ 60 сек
Дрейф	PSI входов	≤ 0.2
Этика	EOp-дельта	≤ 3 п.п.
Приватность	Attack-AUC	~ 0.5
Бизнес	FPR антифрода	≤ целевого порога

13) Шаблоны артефактов

13.1 Release Notes (эскиз)

Модель: `rg_risk@2.1.0` (MINOR)

Изменения: добавлена фича `loss_streak_7d`; калибровка обновлена

Валидация: shadow 14 дней; delta KPI ≤ 0.3%; EOp-дельта в норме

Rollout: canary 10% EU → 50% → 100%

Rollback: флаг `rg.use_v1=true`

Владелец/дата/тикет

13.2 Карточка модели (фрагмент)

Задача: антифрод выплат

Данные: `payments_gold v3.2`, фич-сет `payout_signals v1.7`

Метрики: AUC=0.89, ACE=0.015, FPR@опер.порог=1.2%

Fairness: EO TPR/FPR Δ ≤ 2 п.п. по «country/method»

Ограничения: VIP-клиенты — только с human-review

Приватность: TEE-инференс; логирование без PII

Ревью: раз в 90 дней

13.3 Политика SLO эндпоинта (фрагмент)

yaml endpoint: /v1/score/rg slo:
latency_p95_ms: 200 success_rate: 0. 995 max_error_burst_per_5m: 50 data:
feature_freshness_s: 60 allowed_missing_pct: 0. 5 ethics:
eop_delta_pp: 3 privacy:
attack_auc_max: 0. 55

13.4 Runbook «Фичи устарели»

1. Проверить лаг в Feature Store и источник фида.
2. Переключить на запасной канал/кэш.
3. Снизить трафик/включить fallback-правила.
4. Коммуникация в #ml-status; инцидент P2/P1 по SLA.
5. RCA и правки контрактов/ретраев.

14) Процессы тестирования перед релизом

Контракты фич: schema/enum/nullable, SLA свежести.
Данные: DQ-тесты, point-in-time, утечка таргета.
Модель: unit/integration, калибровка, стресс/нагрузка.
Безопасность: секреты, mTLS, Zero-PII в логах.
Этика/приватность: fairness-чек, attack-suite.
Наблюдаемость: дашборды/алерты, SLO конфиги.
Документация: Release Notes + rollback-план.

15) RACI (пример)

ML Lead (A/R): качество, релизы, метрики.
Data Platform (R): Feature Store, регистр, оркестрация, наблюдаемость.
Domain Owners (R): контракты источников/фич.
Security/DPO (A/R): доступы, приватность, токенизация, TEE.
SRE/SecOps (R): инциденты, SLO, автоскейл, SOAR.
Analytics/Finance (C): влияние на KPI и отчеты.
Support/RG/Risk (C): human-in-the-loop и объяснимость.

16) Дорожная карта внедрения

0–30 дней (MVP)

1. Model Registry + карточки для high-impact моделей (RG/выплаты/антифрод).
2. Базовый мониторинг: latency, errors, freshness, drift входов.
3. Shadow-прогоны новых версий, canary-контуры.
4. Контракты фич и Zero-PII в логах.
5. Runbooks и канал #ml-status.

30–90 дней

1. Champion–Challenger и авто-повышение по критериям.
2. Fairness/privacy-гейты в CI/CD, attack-suite.
3. Кэширование, квантизация, автоскейл; бюджет SLO/стоимости.
4. BI/ML согласование KPI и online-метрик; дашборды SLO.

3–6 месяцев

1. Регулярные пост-мортемы, квартальные ревью моделей.
2. Гео/тенант-изоляция эндпоинтов, ключей и фич.
3. TEE/MPC для приватного инференса выплат/AML.
4. Полная автоматизация Release Notes из линейджа и diff.
5. Внешний аудит процессов (где требуется лицензией).

17) Анти-паттерны

Релиз без shadow/canary и rollback-плана.
Несогласованные offline/online фичи → деградация.
Логи с PII, отсутствие token-policy.
«Вечные» пороги без пересмотра; игнор дрейфа и калибровки.
Отсутствие human-in-the-loop для high-risk решений.
Эксперименты без стратификации и этических стоп-правил.

18) Связанные разделы

DataOps-практики, Контроль доступа, Токенизация данных, Безопасность и шифрование, Аудит и версионность, Снижение предвзятости, Конфиденциальное ML, Federated Learning, Политики хранения данных, Происхождение и путь данных, Этика данных.

Итог

Эксплуатация моделей — это инженерная дисциплина на уровне продакшн-сервисов: четкие контракты и версии, предсказуемые релизы, наблюдаемость 24/7, управляемые риски этики/приватности и прозрачное влияние на бизнес. Так ML становится надежным продуктом, а не «лучшим скриптом в ноутбуке».

MLOps: эксплуатация моделей

Итог

Свяжитесь с нами

Быстрая связь

Видео скоро обновится

Мы сейчас очень загружены проектами