Multimodal modellər

1) Niyə iGaming multimodallığı

iGaming dərhal mətnlər (biletlər, rəylər, qaydalar), şəkillər/videolar (KYC, kreativlər, axınlar), tablar/hadisələr (ödənişlər, raundlar), bəzən audio (zənglər/axınlar). Multimodellər bu kanalları birləşdirir:

(KYC + liveness, «ekran-ekran», şəkillərin dəyişdirilməsi);
yurisdiksiyalar üzrə kreativlərin/videoların moderasiyasını və marka-seyfini sürətləndirmək;
axınların və provayderlərin/oyunların qeyd kontekstini başa düşmək;
UX problemlərinin köklərini tapmaq (video + log hadisələri + şərhlər);
sapport agentlərinə «zəngin» cavablar vermək (mətn + ekran/video/link);
RG proseslərini yaxşılaşdırın (şikayət mətni + vizual üzülmə nümunəsi + sessiya tarixi).

2) Memarlıq və nümunələr

2. 1 CLIP bənzər (dual encoders, contrastive)

İki enkoder (mətn/vizual) ITC (image-text contrastive) üzrə öyrənilir. Sürətli axtarış/matç: loqotiplər, yaradıcı oyun, axın, provayder.

2. 2 Encoder→Decoder / VLM

Vizual enkoder + şəkil/video «təsvir» üçün LLM-dekoder, UI/ekran haqqında suallara cavab, KYC həllərinin izahı. Grounding (bbox/maskalar) və Toolformer-stil zəng alətləri dəstəkləyir.

2. 3 Perceiver/Perceiver IO/Flamingo-oxşar

Uzun ardıcıllıq və qarışıq modalizm (çərçivələr + mətn + cədvəl fiçləri). Axınlar və ardıcıl KYC çərçivələri üçün faydalıdır.

2. 4 LLM-kimi-orkestrator (Router/Agent)

Kritik yolda yüngül ixtisaslaşmış modellər (kart/üz deteksiyası, OCR, ASR) + nəticələri birləşdirən, qaydalara səbəb olan, insan oxu səbəbləri yazır.

2. 5 Fusion-Late / Fusion-Early / Co-attention

Daha sonra birləşmə - etibarlı və ucuz; erkən - daha güclü, lakin daha bahalı. Prod yolu üçün: daha çox late + co-attention (dəqiqlik/dəyər balansı).

3) Məlumatlar və nişanlar

Sinxronizasiya: çərçivələr/altyazılar/oyun hadisələri/söhbətlər → zaman hizalaması (ASR/audio üçün ishal).
PII/biometrik: şəxsləri/sənədləri (qutuları/maskaları) redaktə edirik, identifikatorları tokenləşdiririk; DSAR uyğunluğu.
Domen lüğətləri: PSP/provayderlər/oyunlar, RG/bonus şərtləri, yerli ödənişlər (Papara/Mefete/PIX).
Sintetika: sənədlər/selfie işıq/bucaq variasiyaları ilə; müxtəlif loqotiplər/STA ilə yaradıcılıq; ekranı «yenidən sökmək».
Aktiv təlim: model qeyri-müəyyən/sərhəd hallarını qeyd edir; HITL konturu.
Balans: nadir siniflər (spuf, qadağan olunmuş simvol, 18 +) - ən azı əsas kütlə.

4) Hizalama və təlim

ITC (InfoNCE): şəkil/kadr mətni (bir çox mənfi, temperatur softmaks).
ITM (Image-Text Matching): Binar «uyğun/uyğun deyil».
Instruction tuning: dialoqlar «sual UI/sənəd → cavab + əsaslandırma».
Grounding: bbox/link maskalarında supervision «səhv budur».
Causal/Tool use: «gördüm → OCR/NER çağırıldı → PSP limitlərini müqayisə etdi» şablonları.
RLHF/RLAIF: «qoruyucu» ssenarilər üçün reviewers üstünlük (reklam/18 +/RG).

5) Gizlilik, təhlükəsizlik, etika

Biometrics-by-design: on-device prevalidation, edge-inference, embeddinq şifrələmə, saxlama müddəti.
Sıfır-PII: nə xam çərçivələr, nə də sənədin tam mətni; tokenlər və case linklər.
DSAR/Legal Hold: kriptovalyutası, dəyişməz log həllər (WORM).
Fairness/Bias: işıqlandırma/dəri tonu/kamera/dil → müntəzəm hesabatlar və paritet toleranslar.
Yurisdiksiyalar: 18 + filtrlər, «məsuliyyətli reklam», bölgədə saxlama və lisenziya açarları.

6) Əsas ssenarilər (iGaming)

1. KYC + Həyat (video + mətn)

OCR sənəd sahələri, ərizə ilə müqayisə (cədvəl).
Selfie/kadrlar → embeddinq/spuf-skor; region qaydalarına istinad edərək «niyə deny» izahı.

2. Yaradıcı moderasiya/video

Qadağan olunmuş mətnlərin/loqotiplərin/simvolların, yaş formalarının, bahislərin/yanıltıcı mesajların deteksiyası.
Marketinq üçün «siyasi» hesabat yaratmaq: nəyi düzəltmək və niyə.

3. Axın analitikası (video + söhbət)

Logo/oyun/hadisələr (böyük uduşlar, endirim), söhbət tonallığı, toksiklik.
Provayderə reklam atributları, taymkodlar üzrə bərabərləşdirmə.

4. Sapport/UX (ekran görüntüləri + mətn)

Q&A ekran: "Harada çıxış düyməsi? ", "Niyə KYC səhv?" - UI sahəsinin işıqlandırılması ilə.

5. RG/Antifrod

«screen re-capture» video patternləri, şikayət mətni və sessiya siqnalları ilə müqayisə; HITL eskalasiyası.

7) Metriklər və bençmarklar

Blok	Metrika
CLIP axtarış	Recall@k, nDCG@k, mAP; latency p95
OCR/sənədlər	CER/WER, F1 sahələri, coverage simvol
Liveness/Spoof	APCER/BPCER, EER, AUC; bias-gap (pp)
Moderasiya	Precision @deny/Recall @deny, Regionlar üzrə FPR
UI Sual-Cavab	EM/F1, Faithfulness (sitatlar/grounding), p95
Axınlar/loqo	mAP @ 50/75, hadisədən əvvəl lag, hit-rate
Təhlükəsizlik/etika	PII sızması = 0, DSAR SLA, Fairness Deltası

Online SLO: success rate ≥ 99. 5%, p95 ≤ 300-500 ms (marşrutdan asılıdır), drift-alert.

8) Əməliyyat və dəyəri (MLOps)

Registry: model/data/augmentation versiyası; policy «harada tətbiq edilə bilər».
Buraxılışlar: shadow/canary/blue-green; avtomatik geri FPR/latency/drift.
Müşahidə: latency p50/95/99, error rate, GPU/CPU util, PSI drift (səhnələr/dillər).
Cost control: distillə/kvantlaşdırma (FP16/INT8), kadr-sampling, embeddinq cache, routing «yüngül/ağır».
HITL: mübahisəli sıra; aktiv təlim və golden-set doldurulması.
Geo/tenant izolyasiyası: müxtəlif açarlar, kvotalar, route siyasəti.

9) Şablonlar (istifadəyə hazır)

9. 1 multimodal moderator API

yaml
POST /v1/moderation/mm request:
image_token: "img_..."
text: "Join now and win..."
market: "TR"
channel: "display"
response:
violations: ["age_rating_missing","misleading_promise"]
grounding:
- type: "bbox"
label: "misleading_promise"
box: [x1,y1,x2,y2]
decision: "deny"
trace_id: "..."
slo: {p95_ms: 350}
privacy: {pii: false}

9. 2 SLO/Gizlilik Siyasəti

yaml service: multimodal. core slo:
success_rate: 0. 995 latency_p95_ms: 300 drift_psi_max: 0. 2 privacy:
store_raw_media: false biometrics_tokenized: true retention: "P30D"
ethics:
bias_gap_pp_max: 3

9. 3 Model kartı (fraqment)

yaml model: "mm_clip_ui_vlm@2. 3. 1"
task: ["creative_moderation","ui_qa","kyc_support"]
data: {images: 2. 1M, texts: 12M, videos: 90k clips}
metrics:
moderation_precision_deny: 0. 92 ui_qa_f1: 0. 81 ocr_cer: 0. 055 limits:
no_personal_photos_in_training: true region_keys: ["EEA","LATAM","TR"]
review_cycle_days: 90

9. 4 «events_mm_gold» sxemi

yaml ts: TIMESTAMP brand: STRING country: STRING modality: STRING   # image    video    text    mix task: STRING     # moderation    kyc    ui_qa    stream_logo decision: STRING   # allow    manual    deny scores: MAP<STRING,FLOAT>
grounding: JSON    # bboxes/masks/timecodes trace_id: STRING

9. 5 Prompt şablon (UI Q&A, təhlükəsizlik)


You're a UI assistant. At the input: screen description (OCR/objects) and question.
1) Answer only what is visible on the screen or in the brand rules.
2) If there is not enough data - say "not enough information" and suggest a step.
3) Never ask the user to send documents to the chat.
Return: answer, brief justification, if any - coordinates of the area.

10) Tətbiqi yol xəritəsi

0-30 gün (MVP)

1. CLIP-axtarış loqotipləri/oyunları + yaradıcı sadə moderasiya (mətn/18 +).
2. Ekran görüntülərində (zonas seçimi) Q&A UI, sapport inteqrasiyası.
3. Paypline PII-redaktə və tokenizasiya; latency/success müşahidə.

30-90 gün

1. Video modul axını: logo/heilight + chat bağlama (ASR/ton).
2. KYC köməkçisi: qərar izahları (sənəd/selfie grounding), hitl-növbə.
3. Canary-relizlər, dreyf-alertlər (səhnələr/dillər), bias/fairness hesabatları.

3-6 ay

1. Domen tapşırıqlarında təlimatların tamamlanması (moderasiya/UX/PSP qaydaları).
2. Ödəniş axınlarında məxfi inferens (TEE )/VIP.
3. Distillə/kvantlaşdırma, embeddinq cache; sorğu üçün büdcə dəyəri.
4. Mübahisəli və post-mortemlərdən golden-cases avtomatik istehsal.

11) Anti-nümunələr

Çiy kadrlar/səs log və səbəbsiz uzun müddət saxlama.
Kritik ödəniş yolunda «hər şey üçün bir model» - router və fallback olmadan.
Moderasiyada grounding/izahın olmaması: marketinq və tənzimləyicilərlə mübahisələr.
Ignor bias/işıqlandırma/kamera - KYC lokal uğursuzluqlar.
Heç bir sürüklənmə: deqradasiyalar bölgələrə yayılır.
HITL olmadan modellər: kənar hallarda heç bir təkmilləşdirmə.

12) Əlaqəli bölmələr

Kompüter görmə iGaming, NLP və mətn emalı, Sentiment təhlili, DataOps təcrübələri, MLOps: modellərin istismarı, Anomaliyalar və korrelyasiyaların təhlili, Məlumat axınlarının alertləri, API analitikası və metrikası, Məlumat təhlükəsizliyi və şifrələmə, Giriş nəzarəti, Məlumat etikası və şəffaflıq.

Yekun

Multimodal modellər müxtəlif kanalları - mətn, şəkil, video, səs və hadisələri razılaşdırılmış, izah edilə bilən və təhlükəsiz həll axınına çevirir. iGaming-də bu, KYC-dən daha sürətli və daha dürüst, daha az freud, təhlükəsiz yaradıcılıq, axınlarda provayderlərin şəffaf atributu və məxfiliyə, büdcəyə və tənzimləyiciyə ciddi riayət etməklə ağıllı sapport cavabları deməkdir.

Multimodal modellər

Yekun

Bizimlə əlaqə

Sürətli əlaqə

Video tezliklə yenilənəcək

Hazırda layihələrlə çox məşğuluq