Multimodal modellar

1) Nega iGaming multimodalligi

iGaming - bu darhol matnlar (tiketlar, sharhlar, qoidalar), tasvirlar/videolar (KYC, kreativlar, oqimlar), tablar/voqealar (to’lovlar, raundlar), ba’zan audio (qo’ng’iroqlar/oqimlar). Multimodellar ushbu kanallarni:

frodni kamaytirish (KYC + liveness, «ekran-ekranga», rasmlarni almashtirish);
yurisdiksiyalar bo’yicha kreativlar/videolarning moderatsiyasi va brend-seyfini tezlashtirish;
provayderlar/o’yinlarning strimlari va eslatmalari kontekstini tushunish;
UX-muammolarning ildizlarini topish (video + log-hodisa + sharhlar);
sapport agentlariga «boy» javoblar berish (matn + skrin/video/havolalar);
RG-jarayonlarni yaxshilash (shikoyat matni + vizual frussiya patterni + sessiya tarixi).

2) Arxitektura va patternlar

2. 1 CLIP kabi (dual encoders, contrastive)

Ikkita enkoder (matn/vizual) ITC (image-text contrastive) da oʻqitiladi. Tezkor qidiruv/matching: logotiplar, kreativ o’yin, provayder oqimi.

2. 2 Encoder→Decoder / VLM

Rasm/videoni «tasvirlash» uchun vizual enkoder + LLM-dekoder, UI/skrinshot bo’yicha savollarga javob berish, KYC-yechimlarni tushuntirish. Grounding (bbox/niqoblar) va Toolformer asboblarni chaqirish uslubini qoʻllab-quvvatlaydi.

2. 3 Perceiver/Perceiver IO/Flamingo kabi

Uzoq ketma-ketlik va aralash modalliklar (kadrlar + matn + jadval fichlari). Oqimlar va ketma-ket KYC kadrlari uchun foydalidir.

2. 4 LLM-orkestrator sifatida (Router/Agent)

Tanqidiy yo’ldagi engil ixtisoslashgan modellar (karta/yuz deteksiyasi, OCR, ASR) + natijalarni birlashtiradigan, qoidalarni keltirib chiqaradigan, inson o’qiydigan sabablar haqida yozadi.

2. 5 Fusion-Late / Fusion-Early / Co-attention

Keyinchalik qo’shilish - ishonchli va arzon; erta - qudratliroq, lekin qimmatroq. Prod-yo’l uchun: ko’pincha late + co-attention (aniqlik/qiymat balansi).

3) Ma’lumotlar va belgilar

Sinxronizatsiya: kadrlar/subtitrlar/oʻyin voqealari/chatlar → vaqt boʻyicha tekislash (ASR/audio uchun diarizatsiya).
PII/biometriya: shaxslar/hujjatlarni tahrir qilamiz (bokslar/niqoblar), identifikatorlarni tokenizatsiya qilamiz; DSAR mosligi.
Domen lugʻatlari: PSP/provayderlar/oʻyinlar, RG/bonuslar atamalari, mahalliy toʻlovlar (Papara/Mefete/PIX).
Sintetika: yorug’lik/burchak o’zgarishlari bo’lgan hujjatlar/selfi; turli logotipli kreativlar/STA; ekranni «qayta olish».
Faol o’qitish: model ishonchsiz/chegara keyslarini belgilaydi; HITL konturi.
Balans: kamyob sinflar (spuf, taqiqlangan belgi, 18 +) - kamida asosiy massa.

4) Tekislash va o’qitish

ITC (InfoNCE) - rasm/kadr matni.
ITM (Image-Text Matching): binar «mos/mos emas».
Instruction tuning: dialoglar «UI/hujjat savollari → javob + asoslash».
Grounding: bbox/niqoblardagi supervision «xato shu yerda».
Causal/Tool use: «koʻrdi → OCR/NER → solishtirdi PSP limitlari».
RLHF/RLAIF: «himoya» stsenariylari uchun revyuerlarning afzalliklari (reklama/18 +/RG).

5) Maxfiylik, xavfsizlik, odob

Biometrics-by-design: on-device prevalidatsiya, edge-inferens, embeddingi shifrlash, saqlash muddati.
Zero-PII loglarda: xom kadrlar ham, hujjatning to’liq matni ham; tokenlar va keyslarga havolalar.
DSAR/Legal Hold: kriptovalyuta, oʻzgarmas yechimlar (WORM).
Fairness/Bias: yoritish/teri toni/kamera/til → muntazam hisobotlar va paritet ruxsatnomalar.
Yurisdiksiyalar: 18 + filtrlar, «mas’uliyatli reklama», litsenziya hududida saqlash va kaliti.

6) Asosiy stsenariylar (iGaming)

1. KYC + Liveness (video + matn)

Hujjat maydonlarining OCR, buyurtmanoma bilan taqqoslash (jadval).
Selfi/kadrlar → embeddingi/spuf-skor; «nima uchun deny» tushuntirish qoidalarning mintaqasiga havola qilingan holda.

2. Kreativlarni/videolarni moderatsiya qilish

Taqiqlangan matnlar/logotiplar/belgilar, yoshga oid plashkalar, stavkalar/chalg’ituvchi xabarlar deteksiyasi.
Marketing uchun «siyosiy» hisobotni yaratish: nimani va nima uchun tuzatish kerak.

3. Strim-tahlil (video + chat)

Logo/o’yin/voqea (katta yutuq, diskonnekt), suhbatning ohangliligi, toksikligi.
Provayderga reklama ko’rsatuvlarini atributlash, taymkodlar bo’yicha tekislash.

4. Sapport/UX (skrinshotlar + matn)

Q&A: "Chiqish tugmasi qayerda? ", "Nega KYC xatosi?" - UI sohasi yoritilgan holda.

5. RG/Antifrod

«screen re-capture» videopatternlari, shikoyatlar matni va sessiya signallari bilan taqqoslash; HITL eskalatsiyasi.

7) Metrika va benchmarklar

Blok	Metrika
CLIP qidirish	Recall@k, nDCG@k, mAP; latency p95
OCR/hujjatlar	CER/WER, F1 maydonlari boʻyicha, belgilar coverage
Liveness/spuf	APCER/BPCER, EER, AUC; bias-gap (pp)
Moderatsiya	Precision @deny/Recall @deny, FPR
UI bo’yicha savol-javob	EM/F1, Faithfulness (iqtiboslar/grounding), p95
Oqim/logo	mAP @ 50/75, lag to event, hit-rate
Xavfsizlik/axloq	PII-oqish = 0, DSAR SLA, Fairness-delta

Onlayn SLO: success rate ≥ 99. 5%, p95 ≤ 300-500 ms (yo’nalishga bog’liq), drift-alert.

8) Foydalanish va qiymati (MLOps)

Registry: model/ma’lumotlar/augmentatsiyalar versiyasi; policy «qayerda qoʻllash mumkin».
Relizlar: shadow/canary/blue-green; FPR/latency/drift boʻyicha avtomatik orqaga qaytish.
Kuzatilganlik: latency p50/95/99, error rate, GPU/CPU util, PSI dreyfa (sahnalar/tillar).
Cost control: distillatsiya/kvantizatsiya (FP16/INT8), kadr-sampling, embedding keshlari, «yengil/og’ir» routing.
HITL: bahsli navbat; golden-setni faol o’qitish va to’ldirish.
Geo/tenant-izolyatsiya: turli kalitlar, kvotalar, route-siyosatlar.

9) Shablonlar (foydalanishga tayyor)

9. 1 multimodal moderator API

yaml
POST /v1/moderation/mm request:
image_token: "img_..."
text: "Join now and win..."
market: "TR"
channel: "display"
response:
violations: ["age_rating_missing","misleading_promise"]
grounding:
- type: "bbox"
label: "misleading_promise"
box: [x1,y1,x2,y2]
decision: "deny"
trace_id: "..."
slo: {p95_ms: 350}
privacy: {pii: false}

9. 2 SLO/Privacy siyosati

yaml service: multimodal. core slo:
success_rate: 0. 995 latency_p95_ms: 300 drift_psi_max: 0. 2 privacy:
store_raw_media: false biometrics_tokenized: true retention: "P30D"
ethics:
bias_gap_pp_max: 3

9. 3 Model kartochkasi (parcha)

yaml model: "mm_clip_ui_vlm@2. 3. 1"
task: ["creative_moderation","ui_qa","kyc_support"]
data: {images: 2. 1M, texts: 12M, videos: 90k clips}
metrics:
moderation_precision_deny: 0. 92 ui_qa_f1: 0. 81 ocr_cer: 0. 055 limits:
no_personal_photos_in_training: true region_keys: ["EEA","LATAM","TR"]
review_cycle_days: 90

9. 4. «events_mm_gold» sxemasi

yaml ts: TIMESTAMP brand: STRING country: STRING modality: STRING   # image    video    text    mix task: STRING     # moderation    kyc    ui_qa    stream_logo decision: STRING   # allow    manual    deny scores: MAP<STRING,FLOAT>
grounding: JSON    # bboxes/masks/timecodes trace_id: STRING

9. 5 Prompt-shablon (UI Q&A, xavfsizlik)


You're a UI assistant. At the input: screen description (OCR/objects) and question.
1) Answer only what is visible on the screen or in the brand rules.
2) If there is not enough data - say "not enough information" and suggest a step.
3) Never ask the user to send documents to the chat.
Return: answer, brief justification, if any - coordinates of the area.

10) Joriy etish yo’l xaritasi

0-30 kun (MVP)

1. CLIP-logotiplar/o’yinlarni qidirish + kreativlarning oddiy moderatsiyasi (matn/18 +).
2. UI Q&A (zonas tanlash), safportga integratsiya.
3. Payplayn PII-tahriri va tokenlashtirish; latency/success kuzatilishi.

30-90 kun

1. Video modul oqimlari: logo/xailayt + chat bogʻlamasi (ASR/ton).
2. KYC yordamchisi: qarorlarni tushuntirish (hujjat/selfi uchun grounding), hitl-navbat.
3. Canary-relizlar, dreyf-alertlar (sahnalar/tillar), bias/fairness hisobotlari.

3-6 oy

1. Domen vazifalarida yo’riqnoma bo’yicha qo’shimcha o’qitish (moderatsiya/UX/PSP qoidalari).
2. To’lov oqimlaridagi maxfiy inferens (TEE )/VIP.
3. Distillatsiya/kvantizatsiya, embeddinglar keshi; so’rov qiymatining budjeti.
4. Bahsli va post-mortemlardan golden-keyslarni avto-ishlab chiqarish.

11) Anti-patternlar

Log’larda xom kadrlar/audio va sababsiz uzoq saqlash.
To’lovlarning tanqidiy yo’lida «Hammasi uchun bitta model» - router va fallbacksiz.
Moderatsiyada grounding/tushuntirish yo’qligi: marketing va regulyatorlar bilan tortishuvlar.
Ignor bias/yoritish/kameralar - KYC lokal muvaffaqiyatsizliklari.
Hech qanday dreyf-alertlar yo’q: degradatsiyalar mintaqalar bo’ylab tarqalmoqda.
HITLsiz modellar: chekka holatlarda yaxshilanish yoʻq.

12) Bog’liq bo’limlar

iGaming, NLP va matnlarni qayta ishlash, Sentiment-tahlil, DataOps-amaliyot, MLOps: modellardan foydalanish, Anomaliyalar va korrelyatsiyalarni tahlil qilish, Ma’lumotlar oqimidan alertalar, API analitika va metrika, Ma’lumotlar xavfsizligi va shifrlash, Kirish nazorati, Ma’lumotlar etikasi va shaffoflik.

Jami

Multimodal modellar turli xil kanallarni - matn, tasvir, video, ovoz va hodisalarni kelishilgan, tushunarli va xavfsiz yechimlarga aylantiradi. iGaming’da bu KYCga qaraganda tezroq va halol, kamroq frod, xavfsiz kreativlar, oqimlarda provayderlarning shaffof atributi va maxfiylik, byudjet va tartibga solish qoidalariga qat’iy rioya qilgan holda sapportning aqlli javoblarini anglatadi.

Multimodal modellar

Jami

Biz bilan bog‘laning

Tez aloqa

Video tez orada yangilanadi

Hozir loyihalar bilan juda bandmiz