Multimodal modeller
1) Näme üçin iGaming multimodallygy
iGaming tekstler (biletler, synlar, düzgünler), şekiller/wideolar (KYC, döredijilik, akymlar), tablar/wakalar (tölegler, tapgyrlar), käwagt ses (jaňlar/akymlar). Multimodeller bu kanallary:- peseltmek (KYC + liveness, "ekran-ekrana", suratlary çalyşmak);
- ýurisdiksiýalar boýunça döredijilik/wideo moderasiýasyny we marka-seýfini çaltlaşdyrmak;
- akymlaryň we üpjün edijileriň/oýunlaryň agzalmalarynyň mazmunyna düşünmek;
- UX-meseleleriň köklerini tapmak (wideo + log-wakalar + teswirler);
- sapport agentlerine "baý" jogap bermek (tekst + ekran/wideo/baglanyşyk);
- RG-prosesleri gowulandyrmak (şikaýatyň teksti + wizual çökgünlik patterni + sessiýanyň taryhy).
2) Arhitektura we patternler
2. 1 CLIP meňzeş (dual encoders, contrastive)
Iki kod (tekst/wizual) ITC (image-text contrastive) -de öwrenilýär. Çalt gözlemek/oýnamak: logotipler, döredijilik oýny, akym, üpjün ediji.
2. 2 Encoder→Decoder / VLM
Suraty/wideony "suratlandyrmak", UI/skrinshot baradaky soraglara jogap bermek, KYC çözgütlerini düşündirmek üçin wizual koder + LLM-dekoder. Grounding (bbox/maskalar) we Toolformer-gural çagyryş stilini goldaýar.
2. 3 Perceiver/Perceiver IO/Flamingo-meňzeş
Uzyn yzygiderlilik we garyşyk modalizm (çarçuwalar + tekst + tablisa şekilleri). Akymlar we yzygiderli KYC-çarçuwalar üçin peýdalydyr.
2. 4 LLM-orkestrator (Router/Agent)
Kritiki ýolda ýeňil ýöriteleşdirilen modeller (kartanyň/ýüzüň detekasiýasy, OCR, ASR) + netijeleri birleşdirýän, düzgünleri döredýän, adam tarapyndan okalýan sebäpleri ýazýan LLM.
2. 5 Fusion-Late / Fusion-Early / Co-attention
Soň birleşmek - ygtybarly we arzan; irki - has güýçli, ýöne has gymmat. Prod-ýol üçin: köplenç late + co-attention (takyklyk/baha balansy).
3) Maglumatlar we bellikler
Sinhronizasiýa: çarçuwalar/subtitrler/oýun wakalary/söhbetdeşlikler → wagt taýdan deňleşdirmek (ASR/ses üçin içgeçme).
PII/biometriýa: adamlary/resminamalary (gutulary/maskalary) redaktirleýäris, kesgitleýjileri belleýäris; DSAR gabat gelýär.
Domen sözlükleri: PSP/üpjün edijiler/oýunlar, RG/bonus adalgalary, ýerli tölegler (Papara/Mefete/PIX).
Sintetika: ýagtylygyň/burçuň üýtgemeleri bolan resminamalar/selfi; dürli logotipli döredijilik/STA; Ekrany "täzeden almak".
Işjeň okuw: model näbelli/serhet ýagdaýlaryny bellik edýär; HITL kontury.
Balans: seýrek synplar (spuf, gadagan nyşan, 18 +) - esasy massadan azyndan.
4) Deňleşdirmek we öwrenmek
ITC (InfoNCE): surat/kadr teksti (köp negatiwler, temperatura softmaks).
ITM (Image-Text Matching): binarka "gabat gelýär/ýok".
Instruction tuning: dialoglar "UI/resminama boýunça sorag → jogap + esas".
Grounding: bbox/maskalarda supervision.
Causal/Tool use: "gördüm → OCR/NER diýip atlandyrdy → PSP çäklerini barlady".
RLHF/RLAIF: "gorag" ssenariýalary üçin isleýjileriň islegleri (mahabat/18 +/RG).
5) Gizlinlik, howpsuzlyk, ahlak
Biometrics-by-design: on-device deslapky baha bermek, edge-inferens, embeddingi şifrlemek, saklanyş möhleti.
Loglarda Zero-PII: ne çig çarçuwalar, ne resminamanyň doly teksti; tokenler we ýagdaýlara salgylanmalar.
DSAR/Legal Hold: kriptografik silme, üýtgewsiz çözgütler (WORM).
Fairness/Bias: yşyklandyryş/deriniň äheňi/kamera/dil → yzygiderli hasabatlar we deňlik çäkleri.
Ýurisdiksiýalar: süzgüçler 18 +, "jogapkärli mahabat", sebitde ygtyýarnamanyň saklanylmagy we açarlary.
6) Esasy ssenariýalar (iGaming)
1. KYC + Liveness (wideo + tekst)
Resminama meýdançalarynyň OCR, anketa bilen deňeşdirme (tablisalar).
Selfi/çarçuwalar → embeddings/spuf-skor; düzgünleriň sebitine salgylanmak bilen "näme üçin deny" düşündirişi.
2. Döredijilik/wideo moderasiýasy
Gadagan edilen tekstleri/logotipleri/nyşanlary, ýaş belliklerini, jedelleri/ýalňyş habarlary anyklamak.
Marketing üçin "syýasy" hasabat döretmek: näme düzetmeli we näme üçin?
3. Akym-analitika (wideo + söhbetdeşlik)
Logo/oýun/wakalar (uly ýeňiş, arzanladyş), söhbetdeşligiň äheňliligi, zäherliligi.
Mahabat görkezişlerini üpjün edijä atributlamak, taýkodlar boýunça deňleşdirmek.
4. Sapport/UX (ekran suratlary + tekst)
Ekranda Q&A: "Çykyş düwmesi nirede? ", "Näme üçin KYC ýalňyşlygy?" - UI meýdanyny yşyklandyrmak bilen.
5. RG/Antifrod
"screen re-capture" wideo patternleri, şikaýatlaryň teksti we sessiýanyň signallary bilen deňeşdirmek; HITL-eskalasiýa.
7) Metrikler we bençmarklar
Onlaýn SLO: success rate ≥ 99. 5%, p95 ≤ 300-500 ms (ugruna bagly), drift-alertler.
8) Peýdalanmak we bahasy (MLOps)
Registry: modeliň/maglumatlaryň/augmentasiýalaryň wersiýalary; policy "nirede ulanylyp bilner".
Relizler: shadow/canary/blue-green; FPR/latency/drift.
Syn edilişi: latency p50/95/99, error rate, GPU/CPU util, PSI drift (sahnalar/diller).
Cost control: distilýasiýa/kwantizasiýa (FP16/INT8), kadr-sampling, embedding nagt, "ýeňil/agyr" marşrut.
HITL: jedelleriň nobaty; golden-seti işjeň öwrenmek we doldurmak.
Geo/tenant-izolýasiýa: dürli açarlar, kwotalar, route-syýasatlar.
9) Şablonlar (ulanmaga taýýar)
9. 1 multimodal moderatoryň API
yaml
POST /v1/moderation/mm request:
image_token: "img_..."
text: "Join now and win..."
market: "TR"
channel: "display"
response:
violations: ["age_rating_missing","misleading_promise"]
grounding:
- type: "bbox"
label: "misleading_promise"
box: [x1,y1,x2,y2]
decision: "deny"
trace_id: "..."
slo: {p95_ms: 350}
privacy: {pii: false}
9. 2 SLO/Privacy syýasaty
yaml service: multimodal.core slo:
success_rate: 0.995 latency_p95_ms: 300 drift_psi_max: 0.2 privacy:
store_raw_media: false biometrics_tokenized: true retention: "P30D"
ethics:
bias_gap_pp_max: 3
9. 3 Model kartoçkasy (bölek)
yaml model: "mm_clip_ui_vlm@2.3.1"
task: ["creative_moderation","ui_qa","kyc_support"]
data: {images: 2.1M, texts: 12M, videos: 90k clips}
metrics:
moderation_precision_deny: 0.92 ui_qa_f1: 0.81 ocr_cer: 0.055 limits:
no_personal_photos_in_training: true region_keys: ["EEA","LATAM","TR"]
review_cycle_days: 90
9. 4 "events_mm_gold" shemasy
yaml ts: TIMESTAMP brand: STRING country: STRING modality: STRING # image video text mix task: STRING # moderation kyc ui_qa stream_logo decision: STRING # allow manual deny scores: MAP<STRING,FLOAT>
grounding: JSON # bboxes/masks/timecodes trace_id: STRING
9. 5 Prompt şablon (UI Q&A, howpsuzlyk)
Ты ассистент по UI. На входе: описание экрана (OCR/объекты) и вопрос.
1) Отвечай только тем, что видно на экране или в правилах бренда.
2) Если данных не хватает — скажи «недостаточно информации» и предложи шаг.
3) Никогда не проси пользователя присылать документы в чат.
Верни: ответ, краткое обоснование, при наличии — координаты области.
10) Durmuşa geçirmegiň ýol kartasy
0-30 gün (MVP)
1. CLIP-logotipleri/oýunlary gözlemek + döredijiligiň ýönekeý moderasiýasy (tekst/18 +).
2. Skrinshotlarda UI Q&A (zonas saýlamak), sapporta integrasiýa.
3. Pipline PII-redaksiýa we tokenizasiýa; latency/success.
30-90 gün
1. Akym wideo moduly: logo/highlight + söhbetdeşlik baglanyşygy (ASR/ton).
2. KYC-kömekçi: kararlaryň düşündirişleri (resminama/selfi), hitl-nobat.
3. Kanary-relizler, dreýf-alertler (sahnalar/diller), bias/fairness hasabatlary.
3-6 aý
1. Domen meselelerinde görkezmäni tamamlamak (moderasiýa/UX/PSP düzgünleri).
2. Töleg akymlarynda gizlin inferens (TEE )/VIP.
3. Distilýasiýa/kwantizasiýa, embeddingler keş; haýyşnama üçin çykdajy býudjeti.
4. Jedelli we post-mortemlerden altyn-keýsleriň awto-öndürilmegi.
11) Anti-patternler
Çygly çarçuwalar/ses ýazgylarda we sebäpsiz uzak wagtlap saklanylýar.
"Hemme zat üçin bir model" möhüm töleg ýolunda - marşrutsyz we fallback.
Moderasiýada grounding/düşündirişiň ýoklugy: marketing we düzgünleşdirijiler bilen jedeller.
Bias/yşyklandyryş/kameralar - KYC ýerli şowsuzlyklar.
Hiç hili alert ýok: zaýalanmalar sebitlere ýaýraýar.
HITL-siz modeller: Gyradaky ýagdaýlarda gowulaşma ýok.
12) Baglanyşykly bölümler
iGaming-de kompýuter görüşi, NLP we tekstleri gaýtadan işlemek, Synlaryň sentiment-derňewi, DataOps-praktikalar, MLOps: Modelleriň işleýşi, Anomaliýalaryň we korrelýasiýalaryň derňewi, Maglumat akymlarynyň alertleri, API analitikleri we metrikleri, Maglumat howpsuzlygy we şifrlemek, Giriş gözegçiligi, Maglumatlaryň etikasy we aç-açanlygy.
Jemi
Multimodal modeller dürli kanallary - tekst, şekil, wideo, ses we wakalary utgaşdyrylan, düşündirilýän we ygtybarly çözgütlere öwürýär. "iGaming" -de bu, gizlinligi, býudjetleri we düzgünleşdirijileri berk berjaý etmek bilen, KYC-den has çalt we dogruçyl, az girdeji, howpsuz döredijilik, akymlarda üpjün edijileriň aç-açan atributy we akylly sapport jogaplaryny aňladýar.