MLOps: эксплуатация моделей
1) Роль эксплуатации в iGaming
В iGaming модели влияют на реальные деньги и регуляторику: RG-интервенции, антифрод, выплаты, KYC, лимиты, офферы и рекомендации. Эксплуатация — это надежная подача предсказаний с гарантированными SLO, прослеживаемостью и безопасностью.
Цели:- Предсказуемые релизы и откаты без простоя.
- Согласованность данных и фич offline/online.
- Наблюдаемость: качество, дрейф, честность, приватность.
- Снижение TCO: производительность, кэш, GPU/CPU-миксы.
- Соответствие требованиям (аудит/DSAR/Legal Hold/этика).
2) Архитектуры сервинга
Batch (офлайн): ночные/почасовые скоринги (лимиты, сегменты). Плюсы: дешевле, стабильнее. Минусы: нет мгновенной реакции.
Stream (near-real-time): обработка событий (ставки, аномалии) с окнами 1–5 мин.
Online (sync API): <100–300 мс p95 для UX/риск-решений, кэширование и деградации.
Гибрид: «baseline из batch + онлайн-уточнение» (пример: RG-риск за 7 дней + онлайн-триггеры сессии).
- Ensemble/Stacking с легким «гейт-моделью» на критическом пути.
- Fallback-эвристики при отказе модели/фич.
- Circuit Breaker и rate limiting на пиках либо при деградации провайдеров.
3) Реестр моделей и управление версиями
Model Registry: версии, владельцы, дата релиза, метрики (AUC/PR, калибровка), dataset_version, feature_set_version, ограничения использования.
Карточка модели (Model Card): задача, данные/фичи, fairness/privacy-раздел, риск-зоны, частота ревью.
Политика релизов: `MAJOR.MINOR.PATCH` + обязательный rollback-план.
Champion–Challenger: параллельный прогон challenger с отчетами; автоматическое повышение при выполнении критериев.
4) Онлайн-фичи и согласованность
Feature Store: offline (обучение) и online (инференс) витрины с строгими контрактами.
Time travel и point-in-time join при обучении.
Идемпотентные апдейты фич и защита от утечки таргета.
Согласованность: гарантии «read-your-writes» или SLA доставки (например, ≤ 60 сек).
Политика признаков: allow/deny-листы, маскирование, токенизация, запрет прокси-PII.
5) Стратегии релизов
Shadow: вся нагрузка → champion; challenger получает копию запросов, ответы не влияют на бизнес.
Canary: 1–10% трафика → новая версия; сравнение KPI/метрик, авто-откат по порогам.
Blue-Green: два пула сервера/эндпоинта; переключение DNS/маршрутом.
Флаги: тонкая настройка по рынкам/тенантам/каналам.
6) Наблюдаемость и алертинг
Сигналы (онлайн):- Надежность: error rate, timeouts, p50/p95/p99 latency, QPS, saturation.
- Данные/фичи: свежесть, полнота, распределения, аномалии, пропуски, schema drift.
- Качество: калибровка, post-fact метрики (AUC/PR, uplift), отклик интервенций.
- Дрейф: у входов (PSI/KS) и у выходов (score drift).
- Этика/справедливость: EO/EOp-дельты, disparate impact.
- Приватность: Attack-AUC (membership/inversion) ≈ 0.5, ε-usage (если DP).
- Бизнес: chargeback, RG-интервенции, конверсия офферов — с разложением по сегментам.
- p95 latency ≤ 200 мс (онлайн-скоринг RG/антифрод).
- Error rate ≤ 0.1% 5-мин. среднее.
- Drift PSI ≤ 0.2 по ключевым фичам; EOp-дельта ≤ 3 п.п.
- Freshness фич ≤ 60 сек; пропуски ≤ 0.5%.
- Калибровка ACE ≤ 0.02.
7) Инциденты и плейбуки
Sev-уровни: P1 (блокировка выплат/ошибка RG), P2 (рост ошибок > порога), P3 (деградация качества).
Авто-митигации: переключение на champion, понижение частоты запросов, включение fallback-правил, изоляция «токсичных» фич.
Runbooks: чеклисты для «фичи устарели», «вырос дрейф», «типизация фида изменилась», «GPU исчерпан».
Пост-мортем: RCA, фикс-план, обновление тестов/порогов/контрактов.
8) Эксперименты и контроль изменений
A/B и multi-armed bandit — только со стратификацией по ключевым группам (страна/канал/устройство).
Этические стоп-правила: при резком росте RG-риска/жалоб.
Dual-run витрин фич и моделей перед переключением.
Версионирование KPI и определений (BI contract) для стабильной интерпретации результатов.
9) Безопасность и приватность в проде
mTLS/TLS 1.3, подпись запросов, анти-replay (nonce/idempotency).
Секреты из Secrets Manager, JIT-выдача, аудит.
Токенизация входов/логов; запрет PII в трассах.
TEE/конфиденциальный инференс для VIP-выплат/AML (по необходимости).
Политики доступа (RBAC/ABAC/JIT) к фичам и эндпоинтам.
DSAR/Legal Hold: трасса решений для объяснимости и удаления по токену.
10) Производительность и стоимость
Кэш (feature/score) с TTL, особенно для стабильных сигналов.
Квантизация/дистилляция для ускорения (INT8/FP16).
Автоскейлинг: горизонтальный по QPS/latency, вертикальный по batch-size.
Гибрид CPU/GPU: latency-критичные на GPU, «масса» на CPU.
Трассировка холодных стартов, прогрев модели.
Пул моделей и «sticky routing» по рынкам/тенантам для кэш-локальности.
11) Кейсы iGaming (референсы)
RG-скоринг: онлайн-скоринг при входе и в сессии; строгие overrides (самоисключение), целевая метрика — EOp + калибровка.
Антифрод/выплаты: пред-авторизационные решения <150 мс; EO-контроль FPR, robust-агрегаторы сигналов.
KYC/AML: thin-file поддержка; PSI/MPC с партнером; DSAR-совместимость.
Персонализация: uplift-модели и частотные лимиты; исключение high-risk из агрессивных офферов.
12) Метрики и SLO эксплуатации (пример)
13) Шаблоны артефактов
13.1 Release Notes (эскиз)
Модель: `rg_risk@2.1.0` (MINOR)
Изменения: добавлена фича `loss_streak_7d`; калибровка обновлена
Валидация: shadow 14 дней; delta KPI ≤ 0.3%; EOp-дельта в норме
Rollout: canary 10% EU → 50% → 100%
Rollback: флаг `rg.use_v1=true`
Владелец/дата/тикет
13.2 Карточка модели (фрагмент)
Задача: антифрод выплат
Данные: `payments_gold v3.2`, фич-сет `payout_signals v1.7`
Метрики: AUC=0.89, ACE=0.015, FPR@опер.порог=1.2%
Fairness: EO TPR/FPR Δ ≤ 2 п.п. по «country/method»
Ограничения: VIP-клиенты — только с human-review
Приватность: TEE-инференс; логирование без PII
Ревью: раз в 90 дней
13.3 Политика SLO эндпоинта (фрагмент)
yaml endpoint: /v1/score/rg slo:
latency_p95_ms: 200 success_rate: 0. 995 max_error_burst_per_5m: 50 data:
feature_freshness_s: 60 allowed_missing_pct: 0. 5 ethics:
eop_delta_pp: 3 privacy:
attack_auc_max: 0. 55
13.4 Runbook «Фичи устарели»
1. Проверить лаг в Feature Store и источник фида.
2. Переключить на запасной канал/кэш.
3. Снизить трафик/включить fallback-правила.
4. Коммуникация в #ml-status; инцидент P2/P1 по SLA.
5. RCA и правки контрактов/ретраев.
14) Процессы тестирования перед релизом
Контракты фич: schema/enum/nullable, SLA свежести.
Данные: DQ-тесты, point-in-time, утечка таргета.
Модель: unit/integration, калибровка, стресс/нагрузка.
Безопасность: секреты, mTLS, Zero-PII в логах.
Этика/приватность: fairness-чек, attack-suite.
Наблюдаемость: дашборды/алерты, SLO конфиги.
Документация: Release Notes + rollback-план.
15) RACI (пример)
ML Lead (A/R): качество, релизы, метрики.
Data Platform (R): Feature Store, регистр, оркестрация, наблюдаемость.
Domain Owners (R): контракты источников/фич.
Security/DPO (A/R): доступы, приватность, токенизация, TEE.
SRE/SecOps (R): инциденты, SLO, автоскейл, SOAR.
Analytics/Finance (C): влияние на KPI и отчеты.
Support/RG/Risk (C): human-in-the-loop и объяснимость.
16) Дорожная карта внедрения
0–30 дней (MVP)
1. Model Registry + карточки для high-impact моделей (RG/выплаты/антифрод).
2. Базовый мониторинг: latency, errors, freshness, drift входов.
3. Shadow-прогоны новых версий, canary-контуры.
4. Контракты фич и Zero-PII в логах.
5. Runbooks и канал #ml-status.
30–90 дней
1. Champion–Challenger и авто-повышение по критериям.
2. Fairness/privacy-гейты в CI/CD, attack-suite.
3. Кэширование, квантизация, автоскейл; бюджет SLO/стоимости.
4. BI/ML согласование KPI и online-метрик; дашборды SLO.
3–6 месяцев
1. Регулярные пост-мортемы, квартальные ревью моделей.
2. Гео/тенант-изоляция эндпоинтов, ключей и фич.
3. TEE/MPC для приватного инференса выплат/AML.
4. Полная автоматизация Release Notes из линейджа и diff.
5. Внешний аудит процессов (где требуется лицензией).
17) Анти-паттерны
Релиз без shadow/canary и rollback-плана.
Несогласованные offline/online фичи → деградация.
Логи с PII, отсутствие token-policy.
«Вечные» пороги без пересмотра; игнор дрейфа и калибровки.
Отсутствие human-in-the-loop для high-risk решений.
Эксперименты без стратификации и этических стоп-правил.
18) Связанные разделы
DataOps-практики, Контроль доступа, Токенизация данных, Безопасность и шифрование, Аудит и версионность, Снижение предвзятости, Конфиденциальное ML, Federated Learning, Политики хранения данных, Происхождение и путь данных, Этика данных.
Итог
Эксплуатация моделей — это инженерная дисциплина на уровне продакшн-сервисов: четкие контракты и версии, предсказуемые релизы, наблюдаемость 24/7, управляемые риски этики/приватности и прозрачное влияние на бизнес. Так ML становится надежным продуктом, а не «лучшим скриптом в ноутбуке».