Multimodal modellar
1) Nega iGaming multimodalligi
iGaming - bu darhol matnlar (tiketlar, sharhlar, qoidalar), tasvirlar/videolar (KYC, kreativlar, oqimlar), tablar/voqealar (to’lovlar, raundlar), ba’zan audio (qo’ng’iroqlar/oqimlar). Multimodellar ushbu kanallarni:- frodni kamaytirish (KYC + liveness, «ekran-ekranga», rasmlarni almashtirish);
- yurisdiksiyalar bo’yicha kreativlar/videolarning moderatsiyasi va brend-seyfini tezlashtirish;
- provayderlar/o’yinlarning strimlari va eslatmalari kontekstini tushunish;
- UX-muammolarning ildizlarini topish (video + log-hodisa + sharhlar);
- sapport agentlariga «boy» javoblar berish (matn + skrin/video/havolalar);
- RG-jarayonlarni yaxshilash (shikoyat matni + vizual frussiya patterni + sessiya tarixi).
2) Arxitektura va patternlar
2. 1 CLIP kabi (dual encoders, contrastive)
Ikkita enkoder (matn/vizual) ITC (image-text contrastive) da oʻqitiladi. Tezkor qidiruv/matching: logotiplar, kreativ o’yin, provayder oqimi.
2. 2 Encoder→Decoder / VLM
Rasm/videoni «tasvirlash» uchun vizual enkoder + LLM-dekoder, UI/skrinshot bo’yicha savollarga javob berish, KYC-yechimlarni tushuntirish. Grounding (bbox/niqoblar) va Toolformer asboblarni chaqirish uslubini qoʻllab-quvvatlaydi.
2. 3 Perceiver/Perceiver IO/Flamingo kabi
Uzoq ketma-ketlik va aralash modalliklar (kadrlar + matn + jadval fichlari). Oqimlar va ketma-ket KYC kadrlari uchun foydalidir.
2. 4 LLM-orkestrator sifatida (Router/Agent)
Tanqidiy yo’ldagi engil ixtisoslashgan modellar (karta/yuz deteksiyasi, OCR, ASR) + natijalarni birlashtiradigan, qoidalarni keltirib chiqaradigan, inson o’qiydigan sabablar haqida yozadi.
2. 5 Fusion-Late / Fusion-Early / Co-attention
Keyinchalik qo’shilish - ishonchli va arzon; erta - qudratliroq, lekin qimmatroq. Prod-yo’l uchun: ko’pincha late + co-attention (aniqlik/qiymat balansi).
3) Ma’lumotlar va belgilar
Sinxronizatsiya: kadrlar/subtitrlar/oʻyin voqealari/chatlar → vaqt boʻyicha tekislash (ASR/audio uchun diarizatsiya).
PII/biometriya: shaxslar/hujjatlarni tahrir qilamiz (bokslar/niqoblar), identifikatorlarni tokenizatsiya qilamiz; DSAR mosligi.
Domen lugʻatlari: PSP/provayderlar/oʻyinlar, RG/bonuslar atamalari, mahalliy toʻlovlar (Papara/Mefete/PIX).
Sintetika: yorug’lik/burchak o’zgarishlari bo’lgan hujjatlar/selfi; turli logotipli kreativlar/STA; ekranni «qayta olish».
Faol o’qitish: model ishonchsiz/chegara keyslarini belgilaydi; HITL konturi.
Balans: kamyob sinflar (spuf, taqiqlangan belgi, 18 +) - kamida asosiy massa.
4) Tekislash va o’qitish
ITC (InfoNCE) - rasm/kadr matni.
ITM (Image-Text Matching): binar «mos/mos emas».
Instruction tuning: dialoglar «UI/hujjat savollari → javob + asoslash».
Grounding: bbox/niqoblardagi supervision «xato shu yerda».
Causal/Tool use: «koʻrdi → OCR/NER → solishtirdi PSP limitlari».
RLHF/RLAIF: «himoya» stsenariylari uchun revyuerlarning afzalliklari (reklama/18 +/RG).
5) Maxfiylik, xavfsizlik, odob
Biometrics-by-design: on-device prevalidatsiya, edge-inferens, embeddingi shifrlash, saqlash muddati.
Zero-PII loglarda: xom kadrlar ham, hujjatning to’liq matni ham; tokenlar va keyslarga havolalar.
DSAR/Legal Hold: kriptovalyuta, oʻzgarmas yechimlar (WORM).
Fairness/Bias: yoritish/teri toni/kamera/til → muntazam hisobotlar va paritet ruxsatnomalar.
Yurisdiksiyalar: 18 + filtrlar, «mas’uliyatli reklama», litsenziya hududida saqlash va kaliti.
6) Asosiy stsenariylar (iGaming)
1. KYC + Liveness (video + matn)
Hujjat maydonlarining OCR, buyurtmanoma bilan taqqoslash (jadval).
Selfi/kadrlar → embeddingi/spuf-skor; «nima uchun deny» tushuntirish qoidalarning mintaqasiga havola qilingan holda.
2. Kreativlarni/videolarni moderatsiya qilish
Taqiqlangan matnlar/logotiplar/belgilar, yoshga oid plashkalar, stavkalar/chalg’ituvchi xabarlar deteksiyasi.
Marketing uchun «siyosiy» hisobotni yaratish: nimani va nima uchun tuzatish kerak.
3. Strim-tahlil (video + chat)
Logo/o’yin/voqea (katta yutuq, diskonnekt), suhbatning ohangliligi, toksikligi.
Provayderga reklama ko’rsatuvlarini atributlash, taymkodlar bo’yicha tekislash.
4. Sapport/UX (skrinshotlar + matn)
Q&A: "Chiqish tugmasi qayerda? ", "Nega KYC xatosi?" - UI sohasi yoritilgan holda.
5. RG/Antifrod
«screen re-capture» videopatternlari, shikoyatlar matni va sessiya signallari bilan taqqoslash; HITL eskalatsiyasi.
7) Metrika va benchmarklar
Onlayn SLO: success rate ≥ 99. 5%, p95 ≤ 300-500 ms (yo’nalishga bog’liq), drift-alert.
8) Foydalanish va qiymati (MLOps)
Registry: model/ma’lumotlar/augmentatsiyalar versiyasi; policy «qayerda qoʻllash mumkin».
Relizlar: shadow/canary/blue-green; FPR/latency/drift boʻyicha avtomatik orqaga qaytish.
Kuzatilganlik: latency p50/95/99, error rate, GPU/CPU util, PSI dreyfa (sahnalar/tillar).
Cost control: distillatsiya/kvantizatsiya (FP16/INT8), kadr-sampling, embedding keshlari, «yengil/og’ir» routing.
HITL: bahsli navbat; golden-setni faol o’qitish va to’ldirish.
Geo/tenant-izolyatsiya: turli kalitlar, kvotalar, route-siyosatlar.
9) Shablonlar (foydalanishga tayyor)
9. 1 multimodal moderator API
yaml
POST /v1/moderation/mm request:
image_token: "img_..."
text: "Join now and win..."
market: "TR"
channel: "display"
response:
violations: ["age_rating_missing","misleading_promise"]
grounding:
- type: "bbox"
label: "misleading_promise"
box: [x1,y1,x2,y2]
decision: "deny"
trace_id: "..."
slo: {p95_ms: 350}
privacy: {pii: false}
9. 2 SLO/Privacy siyosati
yaml service: multimodal.core slo:
success_rate: 0.995 latency_p95_ms: 300 drift_psi_max: 0.2 privacy:
store_raw_media: false biometrics_tokenized: true retention: "P30D"
ethics:
bias_gap_pp_max: 3
9. 3 Model kartochkasi (parcha)
yaml model: "mm_clip_ui_vlm@2.3.1"
task: ["creative_moderation","ui_qa","kyc_support"]
data: {images: 2.1M, texts: 12M, videos: 90k clips}
metrics:
moderation_precision_deny: 0.92 ui_qa_f1: 0.81 ocr_cer: 0.055 limits:
no_personal_photos_in_training: true region_keys: ["EEA","LATAM","TR"]
review_cycle_days: 90
9. 4. «events_mm_gold» sxemasi
yaml ts: TIMESTAMP brand: STRING country: STRING modality: STRING # image video text mix task: STRING # moderation kyc ui_qa stream_logo decision: STRING # allow manual deny scores: MAP<STRING,FLOAT>
grounding: JSON # bboxes/masks/timecodes trace_id: STRING
9. 5 Prompt-shablon (UI Q&A, xavfsizlik)
Ты ассистент по UI. На входе: описание экрана (OCR/объекты) и вопрос.
1) Отвечай только тем, что видно на экране или в правилах бренда.
2) Если данных не хватает — скажи «недостаточно информации» и предложи шаг.
3) Никогда не проси пользователя присылать документы в чат.
Верни: ответ, краткое обоснование, при наличии — координаты области.
10) Joriy etish yo’l xaritasi
0-30 kun (MVP)
1. CLIP-logotiplar/o’yinlarni qidirish + kreativlarning oddiy moderatsiyasi (matn/18 +).
2. UI Q&A (zonas tanlash), safportga integratsiya.
3. Payplayn PII-tahriri va tokenlashtirish; latency/success kuzatilishi.
30-90 kun
1. Video modul oqimlari: logo/xailayt + chat bogʻlamasi (ASR/ton).
2. KYC yordamchisi: qarorlarni tushuntirish (hujjat/selfi uchun grounding), hitl-navbat.
3. Canary-relizlar, dreyf-alertlar (sahnalar/tillar), bias/fairness hisobotlari.
3-6 oy
1. Domen vazifalarida yo’riqnoma bo’yicha qo’shimcha o’qitish (moderatsiya/UX/PSP qoidalari).
2. To’lov oqimlaridagi maxfiy inferens (TEE )/VIP.
3. Distillatsiya/kvantizatsiya, embeddinglar keshi; so’rov qiymatining budjeti.
4. Bahsli va post-mortemlardan golden-keyslarni avto-ishlab chiqarish.
11) Anti-patternlar
Log’larda xom kadrlar/audio va sababsiz uzoq saqlash.
To’lovlarning tanqidiy yo’lida «Hammasi uchun bitta model» - router va fallbacksiz.
Moderatsiyada grounding/tushuntirish yo’qligi: marketing va regulyatorlar bilan tortishuvlar.
Ignor bias/yoritish/kameralar - KYC lokal muvaffaqiyatsizliklari.
Hech qanday dreyf-alertlar yo’q: degradatsiyalar mintaqalar bo’ylab tarqalmoqda.
HITLsiz modellar: chekka holatlarda yaxshilanish yoʻq.
12) Bog’liq bo’limlar
iGaming, NLP va matnlarni qayta ishlash, Sentiment-tahlil, DataOps-amaliyot, MLOps: modellardan foydalanish, Anomaliyalar va korrelyatsiyalarni tahlil qilish, Ma’lumotlar oqimidan alertalar, API analitika va metrika, Ma’lumotlar xavfsizligi va shifrlash, Kirish nazorati, Ma’lumotlar etikasi va shaffoflik.
Jami
Multimodal modellar turli xil kanallarni - matn, tasvir, video, ovoz va hodisalarni kelishilgan, tushunarli va xavfsiz yechimlarga aylantiradi. iGaming’da bu KYCga qaraganda tezroq va halol, kamroq frod, xavfsiz kreativlar, oqimlarda provayderlarning shaffof atributi va maxfiylik, byudjet va tartibga solish qoidalariga qat’iy rioya qilgan holda sapportning aqlli javoblarini anglatadi.