Мультимодальні моделі
1) Навіщо мультимодальність iGaming
iGaming - це відразу тексти (тікети, відгуки, правила), зображення/відео (KYC, креативи, стріми), таби/події (платежі, раунди), іноді аудіо (дзвінки/стріми). Мультимоделі з'єднують ці канали, щоб:- знизити фрод (KYC + liveness, «екран-на-екран», підміна картинок);
- прискорити модерацію та бренд-сейфті креативів/відео за юрисдикціями;
- розуміти контекст стримів і згадок провайдерів/ігор;
- знаходити корені UX-проблем (відео + лог-події + коментарі);
- давати агентам саппорту «багаті» відповіді (текст + скрін/відео/посилання);
- покращувати RG-процеси (текст скарги + патерн візуальної фрустрації + історія сесії).
2) Архітектури і патерни
2. 1 CLIP-подібні (dual encoders, contrastive)
Два енкодери (текст/візуал) навчаються на ITC (image-text contrastive). Швидкий пошук/матчинг: логотипи, igra↔kreativ, strim↔provayder.
2. 2 Encoder→Decoder / VLM
Візуальний енкодер + LLM-декодер для «описування» картинки/відео, відповіді на питання по UI/скріншоту, пояснення KYC-рішень. Підтримує Grounding (bbox/маски) і Toolformer-стиль виклику інструментів.
2. 3 Perceiver/Perceiver IO/Flamingo-подібні
Довгі послідовності та змішані модальності (кадри + текст + табличні фічі). Корисно для стрімів і послідовних KYC-кадрів.
2. 4 LLM-як-оркестратор (Router/Agent)
Легкі спеціалізовані моделі на критичному шляху (детекція карти/обличчя, OCR, ASR) + LLM, який стикує результати, викликає правила, пише людино-читані причини.
2. 5 Fusion-Late / Fusion-Early / Co-attention
Пізніше злиття - надійно і дешево; раннє - потужніше, але дорожче. Для прод-шляху: частіше late + co-attention (баланс точності/вартості).
3) Дані та розмітка
Синхронізація: кадри/субтитри/події гри/чати → вирівнювання за часом (ASR/діаризація для аудіо).
PII/біометрія: редагуємо обличчя/документи (бокси/маски), токенізуємо ідентифікатори; DSAR-сумісність.
Доменні словники: PSP/провайдери/ігри, терміни RG/бонусів, локальні платіжки (Papara/Mefete/PIX).
Синтетика: документи/селфі з варіаціями світла/кута; креативи з різними логотипами/СТА; «пере-знімемо» екрану.
Активне навчання: модель позначає невпевнені/прикордонні кейси; HITL-контур.
Баланс: рідкісні класи (спуф, заборонений символ, 18 +) - не рідше основної маси.
4) Вирівнювання та навчання
ITC (InfoNCE): tekst↔izobrazheniye/kadr (багато негативів, температурний софтмакс).
ITM (Image-Text Matching): бінарка «відповідає/ні».
Instruction tuning: діалоги «питання по UI/документу → відповідь + обґрунтування».
Grounding: supervision на bbox/масках для посилань «ось де помилка».
Causal/Tool use: шаблони «побачив → викликав OCR/NER → звірив ліміти PSP».
RLHF/RLAIF: переваги рев'юерів для «захисних» сценаріїв (реклама/18 +/RG).
5) Приватність, безпека, етика
Biometrics-by-design: on-device передвалідація, edge-інференс, шифрування ембеддингів, термін зберігання.
Zero-PII в логах: ні сирих кадрів, ні повного тексту документа; токени і посилання на кейси.
DSAR/Legal Hold: криптостирання, незмінні логи рішень (WORM).
Fairness/Bias: освітлення/тон шкіри/камера/мова → регулярні звіти і паритетні допуски.
Юрисдикції: фільтри 18 +, «відповідальна реклама», зберігання та ключі в регіоні ліцензії.
6) Ключові сценарії (iGaming)
1. KYC + Liveness (відео + текст)
OCR полів документа, порівняння із заявкою (табличні).
Селфі/кадри → ембеддинги/спуф-скор; пояснення «чому deny» з посиланням на регіон правила.
2. Модерація креативів/відео
Детекція заборонених текстів/логотипів/символів, вікові плашки, ставки/вводять в оману повідомлення.
Генерація «політичного» звіту для маркетингу: що виправити і чому.
3. Стрім-аналітика (відео + чат)
Лого/гра/події (великий виграш, дисконнект), тональність чату, токсичність.
Атрибуція промо-показів провайдеру, вирівнювання за таймкодами.
4. Саппорт/UX (скріншоти + текст)
Q&A по скріну: "Де кнопка виводу? ", "Чому помилка KYC?" - з підсвічуванням області UI.
5. RG/Антифрод
Відеопатерни «screen re-capture», зіставлення з текстом скарг і сигналами сесії; HITL-ескалації.
7) Метрики та бенчмарки
Онлайн-SLO: success rate ≥ 99. 5%, p95 ≤ 300-500 мс (залежить від маршруту), drift-алерти.
8) Експлуатація та вартість (MLOps)
Registry: версії моделі/даних/аугментацій; policy «де можна застосовувати».
Релізи: shadow/canary/blue-green; автоматичний відкат по FPR/latency/drift.
Спостережуваність: latency p50/95/99, error rate, GPU/CPU util, PSI дрейфу (сцени/мови).
Cost control: дистиляція/квантизація (FP16/INT8), кадр-семплінг, кеш ембеддингів, роутинг «легка/важка».
HITL: черга спірних; активне навчання та поповнення golden-сету.
Гео/тенант-ізоляція: різні ключі, квоти, route-політики.
9) Шаблони (готово до використання)
9. 1 API мультимодального модератора
yaml
POST /v1/moderation/mm request:
image_token: "img_..."
text: "Join now and win..."
market: "TR"
channel: "display"
response:
violations: ["age_rating_missing","misleading_promise"]
grounding:
- type: "bbox"
label: "misleading_promise"
box: [x1,y1,x2,y2]
decision: "deny"
trace_id: "..."
slo: {p95_ms: 350}
privacy: {pii: false}
9. 2 Політика SLO/Privacy
yaml service: multimodal.core slo:
success_rate: 0.995 latency_p95_ms: 300 drift_psi_max: 0.2 privacy:
store_raw_media: false biometrics_tokenized: true retention: "P30D"
ethics:
bias_gap_pp_max: 3
9. 3 Картка моделі (фрагмент)
yaml model: "mm_clip_ui_vlm@2.3.1"
task: ["creative_moderation","ui_qa","kyc_support"]
data: {images: 2.1M, texts: 12M, videos: 90k clips}
metrics:
moderation_precision_deny: 0.92 ui_qa_f1: 0.81 ocr_cer: 0.055 limits:
no_personal_photos_in_training: true region_keys: ["EEA","LATAM","TR"]
review_cycle_days: 90
9. 4 Схема «events_mm_gold»
yaml ts: TIMESTAMP brand: STRING country: STRING modality: STRING # image video text mix task: STRING # moderation kyc ui_qa stream_logo decision: STRING # allow manual deny scores: MAP<STRING,FLOAT>
grounding: JSON # bboxes/masks/timecodes trace_id: STRING
9. 5 Prompt-шаблон (UI Q&A, безпека)
Ты ассистент по UI. На входе: описание экрана (OCR/объекты) и вопрос.
1) Отвечай только тем, что видно на экране или в правилах бренда.
2) Если данных не хватает — скажи «недостаточно информации» и предложи шаг.
3) Никогда не проси пользователя присылать документы в чат.
Верни: ответ, краткое обоснование, при наличии — координаты области.
10) Дорожня карта впровадження
0-30 днів (MVP)
1. CLIP-пошук логотипів/ігор + проста модерація креативів (текст/18 +).
2. UI Q&A на скріншотах (виділення zonas), інтеграція в саппорт.
3. Пайплайн PII-редакції та токенізації; спостережуваність latency/success.
30-90 днів
1. Відеомодуль стрімів: лого/хайлайти + прив'язка чату (ASR/тон).
2. KYC-помічник: пояснення рішень (grounding на документ/селфі), hitl-черга.
3. Canary-релізи, дрейф-альберти (сцени/мови), звіти bias/fairness.
3-6 місяців
1. Інструкційне навчання на доменних задачах (модерація/UX/PSP-правила).
2. Конфіденційний інференс (TEE) в платіжних потоках/VIP.
3. Дистиляція/квантизація, кеш ембеддингів; бюджет вартості на запит.
4. Авто-генерація golden-кейсів зі спірних і пост-мортемів.
11) Анти-патерни
Сирі кадри/аудіо в логах і тривале зберігання без причини.
«Одна модель для всього» на критичному шляху платежів - без роутера і fallback.
Відсутність grounding/пояснюваності в модерації: спори з маркетингом і регуляторами.
Ігнор bias/освітлення/камер - локальні провали KYC.
Ніяких дрейф-алертів: деградації «розповзаються» по регіонах.
Моделі без HITL: немає поліпшення на крайових кейсах.
12) Пов'язані розділи
Комп'ютерний зір в iGaming, NLP і обробка текстів, Сентимент-аналіз відгуків, DataOps-практики, MLOps: експлуатація моделей, Аналіз аномалій і кореляцій, Алерти з потоків даних, API аналітики і метрик, Безпека даних і шифрування, Контроль доступу, Етика даних і прозорість.
Підсумок
Мультимодальні моделі перетворюють розрізнені канали - текст, зображення, відео, звук і події - в узгоджений, зрозумілий і безпечний потік рішень. У iGaming це означає швидше і чесніше KYC, менше фроду, безпечні креативи, прозору атрибуцію провайдерів на стрімах і розумні відповіді саппорту - при суворому дотриманні приватності, бюджетів і регуляторики.