NLP ва коркарди калимаҳо
1) Чаро платформаи NLP IGaming
Дастгирӣ ва нигоҳдорӣ: таснифи худкори чиптаҳо, масир, ҷавобҳои тайёр.
Маҳсулот ва ASO: таҳлили фикру мулоҳизаҳо/қайдҳо, мониторинги таъсири навсозиҳо.
Мувофиқат ва хатар: муайянкунии PII/молия, сигналҳои RG, нақшаҳои шубҳанок.
Маркетинг/CRM: сегментатсия аз рӯи мавзӯъ/ният, тавлиди паёмҳои шахсӣ.
Ҷустуҷӯи дониш: дастрасии зуд ба провайдери FAQ/сиёсатҳо/қоидаҳо, Q & A.
Амалиётҳо: таҳлили шартҳои саҳмияҳо, маҳдудиятҳои PSP, шарикони SLA.
2) Манбаъҳои матнҳо ва анҷир
Каналҳо: чиптаҳо ва чатҳои дастгирӣ, App Store/Google Play, шабакаҳои иҷтимоӣ/форумҳо/телеграммаҳо, викиҳо/сиёсатҳои дохилӣ, қайдҳои бозӣ ва провайдерҳои PSP, транскриптҳои занг/ҷараён (ASR), ҳуҷҷатҳои PDF (OCR).
Нормализатсия:- Партофтан, бартараф кардани бот/спам
- таърифи забон (ru/tr/es/pt/en/ka/...);
- коҳиш ба UTF-8, ба эътидол овардани emoji/slang/translite;
- нишонаи метамаълумот: канал, забон, барнома/версия, кишвар, бренд, бозӣ/провайдер, афзалият.
3) Нашри махфият ва PII (бо нобаёнӣ)
Муайянкунӣ ва таҷдиди PII: номи пурра, рақамҳои телефон, почтаи электронӣ, харитаҳо/IBAN, суроғаҳо, ҳуҷҷатҳо.
Токенизатсияи идентификаторҳо (player_id→'u_tok_'), манъи PII хом дар гузоришҳо/хусусиятҳо.
DSAR: ҷустуҷӯи зуд/несткунӣ аз рӯи аломати мавзӯъ; Нигоҳдории ҳуқуқӣ - сабти WORM.
Ҷудокунии гео/иҷорагир: нигоҳ доштани матн ва калидҳо дар минтақаи иҷозатнома.
4) Забоншиносии асосӣ
Токенизатсия (аз ҷумла emoji/hashtags/emoticons) ва сегментатсияи ҳукм.
Нормализатсия: хурд кардан, хориҷ кардани диакритика (бо забон), ислоҳи чопҳо.
Lemmatization/stemming (ru/tr/es/pt/en), тамғакоғазҳои морфологӣ (POS).
Боздоштани калимаҳо: рӯйхати забон/доменҳо (луғати луғат набояд бурида шавад).
Slang/jargon: луғатҳо ("freespins", "wagering", "тавозуни хӯрокхӯрӣ", "Папара", "бозпас гирифтан").
5) Пешниҳоди матн
Классикҳо: n-грамм, TF-IDF - заминаи зуд барои тасниф/ҷустуҷӯ.
Воридкунӣ: трансформаторҳои бисёрзабона (ҳукм/рамзгузорҳои дугона) → ҷустуҷӯ, кластер, RAG, дедупликация.
Ҷобаҷогузории аз ҷониби домейн омӯхташуда: илова бар ин, дар бадани дастгирӣ/баррасиҳо/сиёсатҳо →
Гибрид: BM25 + Ҷустуҷӯи векторӣ (ANN) → фарогирии баланд ва дақиқ.
6) Синфи супориш ва мисолҳо
Таснифот: мавзӯъ (пардохтҳо, KYC, мукофотпулӣ, провайдер, RG), ҷиддӣ, ният.
NER/RE: субъектҳо (PSP, провайдерҳо, бозиҳо, асъорҳо, ҳуҷҷатҳо), муносибатҳо (provayder↔igra, PSP↔strana/metod).
Истихроҷи қоидаҳо: таҳлили шароити бонус/wagering, маҳдудиятҳои PSP (миқдор, вақт, кишварҳо).
Ҷамъбаст: чиптаҳо/риштаҳо/сиёсатҳо, "TL; DR барои дастгирӣ ва менеҷер"
Саволу ҷавоб/ҷустуҷӯи дониш: ҷавобҳо аз wiki/FAQ/низомнома, шарҳи равандҳои RG/AML.
Модератсия/заҳролудшавӣ: ошкор кардани таҳқир, таҳдид, қаллобӣ.
Тарҷума/маҳаллисозӣ: МТ бо луғати домейн, пас аз таҳрир.
ASR/OCR → tekst: ҳарфҳо, сканҳо, зангҳо, ҷараёнҳо - ба матни таҳлилшуда.
7) Ҷустуҷӯ ва RAG (Насли ҷустуҷӯ-афзоишёфта)
Индексатсия: BM25 барои "думи дароз", ANN (HNSW/IVF) барои воридкунӣ.
Chunking: 512-2048 токенҳо, бо такрори; сегментатсия аз рӯи бахшҳо/сарлавҳаҳо.
Rerankers: кросс-рамзгузор барои беҳтар кардани дақиқии боло k.
Иқтибос: Ҷавобҳои манбаъ (id/title/wiki version).
Гвардияҳо: манъ кардани "галлюцинацияҳо" берун аз корпус; маҳдудкунии домен.
Бисёрзабонӣ: пурсиш бо забони корбар, ҳуҷҷатҳо бо забонҳои гуногун → ҷобаҷогузории бисёрзабониро истифода мебаранд.
8) Мавзӯъҳо ва ҷанбаҳо
Моделсозии мавзӯӣ: BERT popic/LDA барои мавзӯъҳои кашф.
NLP-и ба ҷанба асосёфта: модели муштараки ҷанбаҳо ва тоналӣ (нигаред ба бахши "Таҳлили ҳиссиёти баррасиҳо").
Каталоги ҷанба: пардохтҳо/баромадҳо/CCM/бонусҳо/crushes/маҳаллисозӣ/дастгирӣ/провайдери мушаххас.
9) Модератсия ва хатар
Заҳролудшавӣ/сӯиистифода: таснифи бисёрсатҳа (таҳқиромез, нафрат, таҳдид).
Қаллобӣ/муҳандисии иҷтимоӣ: намунаҳои "маслиҳати баргардонидан", "гузариши KYC", ба нақшаҳои хокистарӣ пайванданд.
Сигналҳои RG: рӯҳафтодагӣ/таҷовуз/худдорӣ - ба канали алоҳида ва сиёсати амал.
Махфият: таҳрир пеш аз модератсия; гузоришҳо бе PII.
10) Нишондиҳандаҳои сифат
Таснифот/NER: Дақиқӣ, макро/микро F1, ҳар як синфи F1 (махсусан синфҳои "нодир").
NER/RE: F1 @ span барои субъектҳо, F1 @ rel барои муносибатҳо.
Ҷустуҷӯ: NDCG @ k, Recall @ k, MRR; барои гибридҳо, таносуби ҷавобҳо бо нохунакҳо.
Ҷамъбаст: ROUGE/BERTS 'core + рубрикаи инсонӣ (фаҳмиш/дақиқӣ/кӯтоҳ).
RAG/Q & A: Бозии дақиқ/қисман, вафодорӣ, меъёри ҷавоб.
Бисёрзабонӣ: ченакҳо аз рӯи забон/канал.
Системаи амалиётӣ: таъхири p95, арзиш/дархост, кэши нархгузорӣ,% Zero-PII дар гузоришҳо.
11) Меъморӣ ва қубурҳо
11. 1 Матни хом → ҷараёни сигнал
1. Inest (API/webhooks/parsers/OCR/ASR)
2. PII-redact → забон → нормализатсия (emoji/slang/tokens)
3. Дохилкунӣ/Хусусиятҳо (Каталоги хусусиятҳо)
4. Вазифаҳо: Таснифот/NER/Оҳанг/Модератсия/Истихроҷи қоидаҳо
5. Агрегатҳо (тилло), огоҳиҳо ва панелҳои панелӣ
11. 2 Ҷустуҷӯ/RAG
Индекс BM25 + вектор; rerank, нохунакҳо, кэши посух; сиёсати "ҳадди аққали N ҳуҷҷатҳо" (k-беном).
11. 3 Хизмат
API онлайн барои тасниф/ҷустуҷӯ/Q & A; партия барои индексатсияи баръакс/таҳлили ASO; ҷараён барои чат/ҷараёнҳои мӯътадил.
12) MLO ва амалиёт
Моделҳои сабти ном: версия, сана, маълумоти омӯзишӣ, ченакҳо, маҳдудиятҳои истифода.
Варақаҳои сояи/Canary/кабуд-сабз; бозгашт ба сифат/ахлоқ/ҳадди ниҳоӣ.
Мониторинг: лағжиши луғат/забон (PSI), ниҳонӣ, заҳролудшавии FP/FN, вафодорӣ RAG.
Идоракунии хароҷот: нигоҳдории воридкунӣ/посухҳо, дистиллятсия/квантизатсия, масири модели "сабук/вазнин".
13) Интегратсия (ҳолатҳои истифода)
Дастгирӣ: санҷиши худкори чиптаҳо (пардохтҳо/CUS/бонусҳо), афзалият дар вазнинӣ, ҷавобҳои тайёр; тарҷума бо пост-таҳрир.
Маҳсулот/Дев: гурӯҳбандии гузоришҳо дар бораи хатогиҳо, ҷамъбасти риштаҳо, истихроҷи "намунаҳои садама" (модел/OS/бозӣ).
Маркетинг/ASO: гирифтани сабабҳои "1", тавлиди баннерҳои FAQ/status.
RG/Мутобиқат: масири автоматии парвандаҳои ҳассос, назорати заҳролудшавӣ.
Амалиётҳо: таҳлили қоидаҳои провайдер/маҳдудиятҳои PSP, ҳангоми тағир додани матн ҳушдор медиҳад.
14) Қолибҳо (барои истифода омодаанд)
14. 1 Сиёсати фарогирӣ (SLO/Махфият)
yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses
14. 2 Нақшаи "Тилло: nlp_events"
yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING # appstore, support, social, faq, policy topic: STRING # payments, kyc, promo, provider, rg,...
sentiment: STRING # neg/neu/pos toxicity: STRING # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING> # routed_to_support, faq_update, rg_notify source_id: STRING # trace/корреляция
14. 3 Намунаи қоидаҳои DSL (ҳушдор ба лексикаи хатар)
yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}
14. 4 Феҳристи луғати домейн (фрагмент)
yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]
15) Нишондиҳандаҳои муваффақият (Бизнес/Амалиёт)
Дастгирӣ: масири худкор бидуни шиддат, MTTA/MTTR,% макросҳои "дуруст".
ASO/NPS: SI/таносуби тоналӣ бо рейтинг ва нигоҳдорӣ.
Мувофиқат: ихроҷи сифрии PII; SLA DSAR; Таносуби хатсайрҳои дурусти RG
Ҷустуҷӯ/RAG: таносуби посухҳо бо иқтибосҳо, вақт барои посух, қаноатмандии агентҳо.
Арзиш: дархостҳои $/1k, кэши хит, пасандозҳои дистилятсия.
16) Харитаи роҳсозӣ
0-30 рӯз (MVP)
1. Дастгирӣ ва баррасиҳо, нашри PII, забон/муътадилсозӣ.
2. Асосҳо: таснифи мавзӯъҳо, тоналӣ, заҳролудӣ (моделҳои бисёрзабонӣ).
3. Ҷустуҷӯи гибридӣ (BM25 + вектор) аз ҷониби FAQ/сиёсатҳо; RAG бо нохунакҳо.
4. Панели панели SLO/сифат; Zero-PII дар гузоришҳо.
30-90 рӯз
1. NER/RE барои PSP/провайдерҳо/қоидаҳои бонус; истихроҷи маҳдудиятҳо.
2. SA-асоси Aspect, ҷамъбасти чиптаҳо, посухҳои худкор (HITL).
3. Сояи → релизҳои канарӣ, мониторинги лексикон/забонҳо.
4. Модератсияи ҷараёнҳо/чатҳо дар вақти воқеӣ; Огоҳиҳо/пардохтҳои RG.
3-6 моҳ
1. Ҷобаҷогузории домейн, distillation; буҷетҳо аз рӯи арзиш.
2. Тавлиди худкори истинодҳо/қолабҳои FAQ/почтаи электронӣ аз RAG.
3. Таҳлили шартномаҳо/қайдҳои барориши провайдерҳо, ҳангоми тағир ёфтани шароит огоҳ карда мешавад.
4. Аудити берунии дахолатнопазирӣ ва ҷаласаҳои мунтазами гигиенаи луғатҳо/ҷанбаҳо.
17) Анти-намунаҳо
Гузоришҳо/панели панелҳо бо PII; тарҷума ба қуттиҳои қуттӣ бе таҳрир.
"Як андоза" барои ҳама забонҳо/каналҳо; сарфи назар кардани slang/emoji.
Саволу ҷавоб бидуни истинод ба манбаъҳо (галлюцинацияҳо).
Триажи дастии чиптаҳо "то абад" - бидуни таснифи худкор ва SLO.
Модел бидуни мониторинги дрифт/этика ва нақшаи бозгашт.
18) Қисматҳои марбут
Таҳлили эҳсосоти бозгашт, таҳлил ва ченакҳои API, амалияи додаҳо, MLOps: Истифодаи моделҳо, таҳлили аномалия ва коррелятсия, огоҳиҳои ҷараёни маълумот, назорати дастрасӣ, сиёсати нигоҳдорӣ, этикаи маълумот ва шаффофият.
Ҷамъ
NLP як лӯлаи истеҳсолии тазриқи бехатар, танзими забон ва домейн, ҷобаҷогузории сифат ва вазифаҳо (Таснифот/NER/RAG), мушоҳидакорӣ ва SLO мебошад. Дар IGaming, ӯ матни бетартибиҳоро аз баррасиҳо, чатҳо, ҳуҷҷатҳо ва ҷараёнҳо ба ҳалли онҳо тарҷума мекунад: дастгирии тезтар, риояи шаффоф, релизҳои пешгӯишаванда ва қоидаҳои возеҳ барои плеер.