NLP va matnlarni qayta ishlash
1) Nima uchun iGaming-platforma NLP
Qo’llab-quvvatlash va ushlab qolish: chiptalarning avto-tasnifi, marshrutlash, tayyor javoblar.
Mahsulot va ASO: sharhlar/reliz-notalarni tahlil qilish, yangilanishlar ta’sirini monitoring qilish.
Komplayens va xavf: PII/moliya aniqlanishi, RG-signallar, shubhali sxemalar.
Marketing/CRM: mavzular/niyatlar bo’yicha segmentatsiya, shaxsiy xabarlar yaratish.
Bilimlarni qidirish: SSS/provayderlar siyosati/qoidalariga, Q & A.
Operatsiyalar: aksiyalar shartlari, PSP, SLA sheriklar limitlari parsingi.
2) Matn manbalari va injest
Kanallar: sapport chiptalari va chatlari, App Store/Google Play, ijtimoiy tarmoqlar/forumlar/telegrammalar, e-mail/veb-shakllar, ichki viklar/siyosatlar, oʻyin va PSP provayderlarining reliz-notalari, qoʻngʻiroqlar/oqimlarning transkriptlari (ASR), PDF (OCR) hujjatlari.
Normallashtirish:- dekuplikatsiya, bot/spamni bartaraf etish;
- tilni aniqlash (ru/tr/es/pt/en/ka/...);
- UTF-8 ga keltirish, emoji/sleng/translitni normallashtirish;
- meta ma’lumotlarni belgilash: kanal, til, ilova/versiya, mamlakat, brend, o’yin/provayder, ustuvorlik.
3) Maxfiylik va PII-tahririyat (by default)
Topish va tahrirlash PII: F.I.O., telefonlar, e-mail, kartalar/IBAN, manzillar, doc-ids.
Identifikatorlarni tokenlash (player_id→'u_tok_'), xom PII ni log/fichlarda taqiqlash.
DSAR: subʼektni tezda izlash/token boʻyicha olib tashlash; Legal Hold - WORM-log.
Geo/tenant-izolyatsiya: litsenziya hududida matn va kalitlarni saqlash.
4) Bazaviy tilshunoslik
Tokenizatsiya (emoji/xeshteglar/smaillarni hisobga olgan holda) va takliflarni segmentlash.
Normallashtirish: lowercasing, diakritikani olib tashlash (tillar bo’yicha), xatolarni tuzatish.
Lemmatizatsiya/stemming (ru/tr/es/pt/en), morfologik belgilar (POS).
Stop-so’zlar: til/domenga bog’liq ro’yxatlar (iGaming-leksika kesib tashlanmasligi kerak).
Sleng/jargon: lug’atlar («frispinlar», «o’ynash», «yeydi balans», «Papara», «withdraw pending»).
5) Matnning taqdimnomalari
Klassika: n-gramm, TF-IDF - klassifikatsiya/qidirish uchun tezkor bazeline.
Embeddingi: ko’p tilli transformatorlar (sentence/dual encoders) → qidirish, klasterlash, RAG, deduplikatsiya.
Domenda oʻqigan embeddinglar: qoʻshimcha ravishda sapport/sharhlar/siyosat korpusida mashq qilamiz → ↑ relevantlik.
Gibrid: BM25 + vektor qidiruv (ANN) → yuqori qoplama va aniqlik.
6) Vazifalar klassi va misollar
Tasniflash: mavzu (to’lovlar, KYC, bonuslar, provayder, RG), jiddiylik, niyat.
NER/RE: mohiyatlar (PSP, provayderlar, o’yinlar, valyutalar, hujjatlar), aloqalar (provayder, PSP, mamlakat/usul).
Qoidalarni ajratib olish: bonuslar/o’yin shartlari, PSP limitlari (summa, vaqt, mamlakat).
Jami: tiketlar/tredlar/siyosatlar, "TL; DR sapport va menejer uchun".
Q & A/bilimlarni qidirish: viki/SSS/reglamentlardan javoblar, RG/AML jarayonlarining tushuntirishlari.
Moderatsiya/toksiklik: normativ bo’lmagan so’zlarni, tahdidlarni, firibgarlikni aniqlash.
Tarjima/mahalliylashtirish: MT bilan domen, post-edit.
ASR/OCR → matn: xatlar, skanerlar, qo’ng’iroqlar, oqimlar - tahlil qilinadigan matnga.
7) Qidirish va RAG (Retrieval-Augmented Generation)
Indekslash: «uzun dumi» uchun BM25, embeddinglar uchun ANN (HNSW/IVF).
Chunking: 512-2048 token, s overlap; bo’limlar/sarlavhalar bo’yicha segmentatsiya.
Rerankerlar: top-k aniqligini oshirish uchun cross-encoder.
Iqtibos: manbalar koʻrsatilgan javoblar (id/sarlavha/vikining versiyasi).
Guardrails: korpusdan tashqarida gallyutsinatsiyalarni taqiqlash; domen bilan cheklash.
Ko’p tillilik: foydalanuvchi tilida so’rov, turli tillarda hujjatlar → use ko’p tilli embeddingi.
8) Mavzular va jihatlar
Mavzu modellashtirish: discovery mavzular uchun BERTopic/LDA.
Aspect-based NLP: jihatlar va tonallikning qo’shma modeli («Sentiment-tahlil sharhlari» bo’limiga qarang).
Aspektlar katalogi: to’lovlar/xulosalar/KTS/bonuslar/krashi/mahalliylashtirish/qo’llab-quvvatlash/aniq provayder.
9) Moderatsiya va tavakkalchilik
Toksiklik/abyuz: ko’p darajali tasnif (offensive, hate, threat).
Firibgarlik/sots-injiniring: «chargeback advice», «KYCni chetlab o’tish» patternlari, kulrang sxemalarga havolalar.
RG-signallar: fustratsiya/tajovuz/o’zini o’zi cheklash - alohida kanal va harakatlar siyosatiga.
Maxfiylik: moderatsiyadan oldin redaction; PIIsiz loglar.
10) Sifat metrikasi
Tasniflash/NER: Accuracy, macro/micro F1, per-class F1 (ayniqsa «noyob» sinflar).
NER/RE: F1 @span mavjudotlar uchun, F1 @rel aloqalar uchun.
Qidirish: nDCG @k, Recall @k, MRR; gibridlar uchun - iqtibosli javoblar ulushi.
Yig’indisi: ROUGE/BERTScore + human rubric (tushunuvchanlik/aniqlik/qisqacha).
RAG/Q & A: Exact/Partial Match, Faithfulness (iqtibos keltiriladigan faktlar foizi), Answer Rate.
Ko’p tillilik: tillar/kanallar bo’yicha metrika.
Operatsiya: p95 latentlik, cost/soʻrov, hit-rate kesh,% Zero-PII.
11) Arxitektura va payplaynlar
11. 1 «Xom matn → signal» oqimi
1. Ingest (API/webhooks/parserlar/OCR/ASR)
2. PII-redact → til → normallashtirish (emoji/sleng/tokenlar)
3. Embeddingi/fichi (belgilar katalogi)
4. Vazifalar : /NER/ton/moderatsiya/qoidalarni ajratib olish
5. Agregatsiyalar (Gold), alertlar va dashbordlar
11. 2 Qidirish/RAG
Indeks BM25 + vektor; rerank, iqtiboslar, javoblar keshi; «minimal hujjatlar N» siyosati (k-anonimlik).
11. 3 Serving
Klassifikatsiya/qidirish uchun onlayn API/Q & A; qayta indeksatsiya/ASO-tahlil uchun batch; chat/oqimlarni moderatsiya qilish uchun stream.
12) MLOps va ekspluatatsiya
Modellar ro’yxati: versiya, sana, o’qitish ma’lumotlari, metrika, foydalanish cheklovlari.
Shadow/Canary/Blue-Green relizlari; sifat/axloq/latentlik chegaralari bo’yicha rollback.
Monitoring: leksika/tillar dreyfi (PSI), yashirin, zaharli FP/FN, faithfulness RAG.
Cost-menejment: embedding/javoblarni keshlash, distillash/kvantlashtirish, «engil/og’ir» model routing.
13) Integratsiya (use-cases)
Sapport: avto-triaj tiketlari (to’lovlar/KTS/bonuslar), jiddiyligi bo’yicha ustuvorlik, tayyor javoblar; post-muharrir bilan tarjima.
Mahsulot/Dev: haq-reportlarni klasterlash, tredlarni jamlash, «boʻyoq shablonlarini» olish (model/OS/oʻyin).
Marketing/ASO: «1» sabablarini olish, SSS/maqom bannerlarini yaratish.
RG/Komplayens: sezgir keyslarni avtomatik yo’naltirish, toksiklikni nazorat qilish.
Operatsiyalar: provayder qoidalari/PSP limitlari parsinglari, formulalar o’zgarganda alertlar.
14) Shablonlar (foydalanishga tayyor)
14. 1 Inferens siyosati (SLO/Privacy)
yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses
14. 2 «Gold: nlp_events» sxemasi
yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING # appstore, support, social, faq, policy topic: STRING # payments, kyc, promo, provider, rg,...
sentiment: STRING # neg/neu/pos toxicity: STRING # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING> # routed_to_support, faq_update, rg_notify source_id: STRING # trace/корреляция
14. 3 DSL qoidalari misoli (xavf-leksikonga alert)
yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}
14. 4 Domen leksikasi katalogi (parcha)
yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]
15) Muvaffaqiyat metrikasi (biznes/operatsiya)
Sapport: eskalatsiyasiz avto-marshrutlash, MTTA/MTTR,% "to’g" ri "makroslar.
ASO/NPS: SI/tonallikni reyting va ushlab qolish bilan bog’lash.
Komplayens: nol PII-oqish; SLA DSAR; to’g "ri RG-yo’nalishlar ulushi.
Qidirish/RAG: iqtibosli javoblar ulushi, javobgacha bo’lgan vaqt, agentlarning qoniqishi.
Narxi: $/1k so’rovlar, hit-rate kesh, distillash uchun tejash.
16) Joriy etish yo’l xaritasi
0-30 kun (MVP)
1. Ingest sapport va sharhlar, PII tahriri, til/normallashtirish.
2. Beyzlaynlar: mavzular tasnifi, tonalligi, toksikligi (ko’p tilli modellar).
3. FAQ/siyosat bo’yicha gibrid qidiruv (VM25 + vektor); iqtibosli RAG.
4. SLO/sifatli dashbordlar; Loglarda Zero-PII.
30-90 kun
1. PSP/provayderlar/bonuslar qoidalari uchun NER/RE; limitlarni ajratib olish.
2. Aspect-based SA, chiptalar yig’indisi, avto javoblar (HITL).
3. Shadow → canary relizlari, leksika/tillar dreyfining monitoringi.
4. Realtaymda oqim/chatlarni moderatsiya qilish; RG alertlari/to’lovlar.
3-6 oy
1. Domen-to’liq o’rganilgan embeddinglar, distillatsiya; budgets qiymati bo’yicha.
2. RAG’dan maʼlumotnoma/FAQ/e-mail shablonlarini avtogeneratsiya qilish.
3. Shartlar o’zgarganda shartnomalar parsingi/provayderlarning reliz-notalari, alertlar.
4. Maxfiylikning tashqi auditi va lug’atlar/jihatlarning muntazam gigiyena-sessiyalari.
17) Anti-patternlar
PII bilan logi/dashbordlar; tahrirlashsiz qum qutilariga o’tkazish.
barcha tillar/kanallar uchun «Bir o’lcham»; ignor slenga/emoji.
manbalardan iqtibos keltirmasdan Q&A (gallyutsinatsiyalar).
Tiketlarning «abadiy» qo’l triaji - avto-tasnifsiz va SLOsiz.
Dreyf/axloq monitoringi va rollback-rejasiz model.
18) Bog’liq bo’limlar
Sentiment-tahlil sharhlar, API tahlillar va metriklar, DataOps-amaliyotlar, MLOps: modellardan foydalanish, Anomaliyalar va korrelyatsiyalar tahlili, Ma’lumotlar oqimidan alertalar, Kirish nazorati, Saqlash siyosati, Ma’lumotlar etikasi va shaffoflik.
Jami
NLP - bu ishlab chiqarish konveyeri: xavfsiz injest, til va domen normallashuvi, sifatli embeddinglar va vazifalar (tasniflash/NER/RAG), kuzatuv va SLO. iGaming’da u sharhlar, chatlar, hujjatlar va oqimlardan tartibsiz matnni yechimlarga o’tkazadi: tezroq sapport, shaffof komplayens, oldindan aytib bo’ladigan relizlar va o’yinchi uchun tushunarli qoidalar.