Конфіденційне машинне навчання
1) Суть і цілі
Конфіденційне (privacy-preserving) ML - це підходи, що дозволяють навчати і використовувати моделі, мінімізуючи доступ до вихідних даних і обмежуючи витоки про конкретних користувачів. Для iGaming це особливо важливо через PII/фінансових даних, регуляторики (KYC/AML, RG), партнерських інтеграцій (провайдери ігор, PSP), а також транскордонних вимог.
Ключові цілі:- Знизити ризик витоків і регуляторних штрафів.
- Дати можливість колаборативного навчання між брендами/ринками без обміну сирими даними.
- Зробити зрозумілою і перевіряється «ціни приватності» в ML (метрики, SLO).
2) Модель загроз в ML
Model Inversion: спроба відновити початкові приклади/атрибути з моделі.
Membership Inference: визначення, чи брав участь запис у навчанні.
Data Leakage в пайплайні: логи/фічестори, тимчасові файли, снепшоти.
Proxy/Linkage атаки: склеювання знеособлених даних із зовнішніми джерелами.
Insider/Partner risk: надмірні привілеї в доступах/логах.
3) Інструменти та підходи PPMl
3. 1 Диференціальна приватність (DP)
Ідея: додавання контрольованого шуму для гарантії, що внесок одиничного суб'єкта «нерозрізнимий».
Де застосовувати: агрегації, градієнти в навчанні (DP-SGD), звіти/дашборди, публікація статистик.
Параметри: ε (епсилон) - «бюджет приватності», δ - ймовірність «провалу».
Торг доречний: більше шуму → сильніше приватність, нижче точність; плануйте budget accounting на життєвий цикл моделі.
3. 2 Федеративне навчання (FL)
Ідея: модель їде до даних, а не навпаки; агрегуються градієнти/ваги, а не сирі записи.
Варіанти: cross-device (багато клієнтів, слабкі вузли), cross-silo (кілька надійних організацій/брендів).
Підсилювачі безпеки: Secure Aggregation, DP поверх FL, стійкість до неякісних/зловмисних клієнтів (byzantine-robust).
3. 3 Безпечні обчислення
MPC (Secure Multi-Party Computation): спільні обчислення без розкриття входів один одному.
HE (Homomorphic Encryption): обчислення над зашифрованими даними; дорого, але корисно для точкових завдань (скоринг/інференс).
TEE/Confidential Computing: довірені виконувані оточення (enclave), ізоляція коду і даних на рівні HW.
3. 4 Додатково
Знання-без-розкриття (ZKP): довести коректність без розкриття даних (нішеві кейси).
Псевдонімізація/анонімізація: перед навчанням; перевірка re-identification ризику.
Private Set Intersection (PSI): перетин множин (списки фроду/санкцій) без розкриття всього набору.
4) Патерни архітектури для iGaming
4. 1 Приватні фічепайплайни
PII відокремлена від подій ігрової телеметрії; ключі - через tokenization/salted hashing.
Фічестор з рівнями доступу: raw (Restricted), derived (Confidential), агрегати (Internal).
DP-агрегації для звітності та досліджень; квоти ε за доменами (маркетинг/ризик/RG).
4. 2 Колаборативне навчання
Cross-brand FL: загальний антифрод/RG-скоринг для холдингу → локальні градієнти, центральна агрегація з Secure Agg.
MPC-інференс з PSP: скоринг ризику платежу на стороні PSP і оператора без обміну сирими фічами.
4. 3 Приватний інференс
Запити скорингу для VIP/виплат йдуть через TEE-сервіс або HE-оцінку обраної підмоделі.
Кешування тільки агрегованих результатів; заборона на серіалізацію «сирого» фічевого зліпка.
5) Процеси і Governance
5. 1 Політика «мінімальних даних»
Чітка мета обробки, список допустимих фіч, терміни зберігання.
PII окремо, доступ - RBAC/ABAC, Just-in-Time, журналювання.
5. 2 RACI для PPMl
CDO/DPO - політика приватності, DPIA/DEIA, узгодження ε -бюджетів.
ML Lead/Data Owner - вибір технік (DP/FL/MPC/TEE), валідація якості.
Security/Platform - ключі/секрети, конфіденційні оточення, аудит.
Stewards - каталог/класифікація, data statements, паспорти наборів.
5. 3 Чеки перед релізом
DPIA/етична оцінка впливу.
Fairness + калібрування по групах (немає «прихованих проксі»).
Privacy-тести: membership inference, gradient leakage, re-identification.
6) Метрики і SLO приватності
ε-budget usage: накопичене споживання за моделями/домнами.
Re-identification risk: ймовірність де-анонімізації (симуляції/атак-тести).
Attack AUC↓: успіх membership/inversion атак повинен бути ≈ випадковості.
Leakage rate: інциденти логування/снапшотів з PII = 0.
Coverage: % моделей з DP/FL/MPC/TEE там, де потрібно.
Latency/Cost SLO: накладні витрати приватних обчислень <цільового порогу для прод-шляхів.
7) Практика по доменах iGaming
7. 1 KYC/AML
PSI + MPC для матчингу санкційних списків/РЕР без розкриття повного набору.
DP-агрегації для звітності по ризикових патернах.
7. 2 Responsible Gaming (RG)
FL між брендами ринку для загального детектора ризику; строгі overrides за самовиключенням.
DP-публікації досліджень RG, щоб виключити deanonymization кейсів.
7. 3 Антифрод/Виплати
TEE для скорингу high-risk виплат; MPC-оцінка ймовірності chargeback з PSP.
Аудит логів інференса: без фіч-дампів і PII в трасах.
7. 4 Персоналізація/CRM
DP-агрегати для сегментації; «вузькі» фічі (частота, жанри, сесії) без детальної траєкторії гравця.
Off-device FL для look-alike-моделей за зернистими ознаками.
8) Тестування та верифікація приватності
Membership Inference Challenge: публічний (внутрішній) змагальний тест проти моделі.
Gradient/Activation Leakage Tests: перевірка витоків через зворотний прохід.
K- anonimnost/ℓ -diversity/t-closeness: формальні критерії для знеособлених вибірок.
Canary records: штучні записи для виявлення витоків в лозі/моделі.
9) MLOps: від розробки до продакшену
Policy-as-Code: лінтер фіч/контракти з мітками PII; CI блокує недозволені фічі.
DP-навчання в контурах: контроль ε в CI, звіт про знос бюджету.
Secrets/KMS: ключі для MPC/HE/TEE, ротація і подвійний контроль.
Observability без витоків: маскування в логах, семплування, заборона PII в трасуваннях.
Model Registry: версія даних, ε/ δ, техніка приватності, дата рев'ю, власник.
10) Шаблони (готово до використання)
10. 1 Картка приватної моделі (фрагмент)
Завдання/вплив: (RG/AML/антифрод/CRM)
Техніка приватності: (DP ε=?, FL, MPC/TEE/HE)
Дані/фічі: (класи, PII-мітки, джерела)
Метрики якості: AUC/PR, калібрування
Метрики приватності: ε-usage, Attack AUC, re-id risk
Fairness-розділ: цільові ЕО/ЕОр + калібрування
Обмеження: де модель не застосовується
Оточення: конфіденційні вузли/ключі/політики логування
10. 2 Політика DP (ескіз)
Бюджети по доменах: маркетинг ≤ X, ризик ≤ Y
Облік ε: репорт інкременту під час навчання/аналітики
Мінімальні пороги якості: щоб не «зашумити» в нуль
Винятки: за рішенням DPO/CDO із записом обґрунтування
10. 3 Чек-лист приватного релізу
- DPIA/етика пройдені, власники призначені
- PII відокремлено, фічі дозволені політикою
- DP/FL/TEE/MPC налаштовані і протестовані
- Attack-suite: membership/inversion ≈ random
- Логи/траси без PII, ретеншн налаштований
- Документи: model card + privacy appendix
11) Дорожня карта впровадження
0-30 днів (MVP)
1. Каталог фіч з PII-мітками; заборона PII в логах/трасах.
2. Включити DP для ключових агрегатів і дослідницьких звітів.
3. Запустити базові атака-тести (membership/inversion) і звітність.
4. Картки моделей з privacy-параметрами і власниками.
30-90 днів
1. Пілот FL (cross-silo) для однієї задачі (наприклад, RG або антифрод).
2. Конфіденційні оточення (TEE) для скорингу виплат/VIP.
3. Policy-as-Code: лінтер фіч + CI-блокування по приватності.
4. Налаштувати облік ε і дашборд privacy-SLO.
3-6 місяців
1. MPC/PSI для матчингу санкційних/фрод-списків з PSP/партнерами.
2. HE/TEE для точкових сценаріїв приватного інференса.
3. Регулярний privacy-пентест ML, canary-записи, пост-морТеми.
4. Покриття DP/FL на всіх high-impact моделях; річний аудит.
12) Анти-патерни
«Анонімізація» без оцінки re-identification ризику.
FL без Secure Aggregation і без DP - градієнти можуть текти.
Логи інференса/фічестора з PII.
Відсутність обліку ε та публічних (внутрішніх) звітів з приватності.
Нульовий план на випадок інциденту (немає плейбука і комунікацій).
13) Інцидент-плейбук (коротко)
1. Виявлення: сигнал з attack-suite/моніторингу/скарги.
2. Стабілізація: зупинити реліз/модель/кампанію, ізолювати оточення.
3. Оцінка: масштаб/типи даних/час, хто торкнеться.
4. Комунікація: гравці/партнери/регулятор (де потрібно).
5. Мітигація: патчі в пайплайні, відкликати ключі, посилити DP/політики.
6. Уроки: оновити політику, тести, навчання команд.
14) Зв'язок з сусідніми практиками
Data Governance, Походження і шлях даних, Етика даних, Зниження упередженості, DSAR/Privacy, Моніторинг моделей, Дрейф даних - основа для керованої, відповідальної і перевіряється приватності.
Підсумок
Конфіденційне ML - це інженерна та управлінська дисципліна: правильні техніки (DP/FL/MPC/TEE), строгі процеси (Policy-as-Code, ε-облік, тести атак), усвідомлені компроміси між точністю і приватністю і постійний моніторинг. У iGaming виграють ті, хто вміє масштабувати аналітику і AI, не розкриваючи зайвого і зберігаючи довіру гравців, партнерів і регуляторів.