NLP və mətn emalı
1) Niyə iGaming platforması NLP
Dəstək və saxlama: biletlərin avtomatik təsnifatı, marşrutlaşdırma, hazır cavablar.
Məhsul və ASO: rəylərin təhlili/buraxılış notları, yeniləmələrin təsirinin monitorinqi.
Uyğunluq və risk: PII/maliyyə aşkarlanması, RG siqnalları, şübhəli sxemlər.
Marketinq/CRM: mövzu/niyyət seqmentləşdirilməsi, şəxsi mesajların yaradılması.
Bilik axtarışı: FAQ/Siyasətlər/Provayder Qaydaları, Q&A
Əməliyyatlar: səhmlərin şərtlərinin, PSP limitlərinin, SLA tərəfdaşlarının parsinqi.
2) Mətn mənbələri və incest
Kanallar: biletlər və sapport söhbətləri, App Store/Google Play, sosial şəbəkələr/forumlar/teleqramlar, e-mail/veb formaları, daxili viki/siyasətlər, oyun provayderlərinin və PSP-lərin buraxılış notları, zəng/axın transkriptləri (ASR), PDF (OCR) sənədləri.
Normallaşma:- deuplikasiya, bot/spam aradan qaldırılması;
- dil tərifi (tr/tr/es/pt/en/ka/...);
- UTF-8-ə gətirib çıxarmaq, emoji/jarqon/translit normallaşması;
- meta məlumat nişanı: kanal, dil, tətbiq/versiya, ölkə, marka, oyun/provayder, prioritet.
3) Gizlilik və PII-redaktə (by default)
PII-nin aşkarlanması və redaktəsi: tam adı, telefonlar, e-mail, kartlar/IBAN, ünvanlar, doc-ids.
İdentifikatorların tokenizasiyası (player_id→'u_tok_'), çiy PII-nin log/fich-də qadağan edilməsi.
DSAR: mövzunun tokenində sürətli axtarış/silinmə; Legal Hold - WORM-log.
Geo/tenant-izolyasiya: lisenziya bölgəsində mətn və açarları saxlamaq.
4) Əsas dilçilik
Tokenizasiya (emoji/hashtag/smiles nəzərə alınmaqla) və təkliflərin seqmentləşdirilməsi.
Normallaşma: lowercasing, diakritik aradan qaldırılması (dillər üzrə), səhv yazıların düzəldilməsi.
Lemmatizasiya/stemminq (tr/tr/es/pt/en), morfoloji etiketlər (POS).
Stop-sözlər: dil/domain-asılı siyahılar (iGaming-lüğət kəsilməməlidir).
Sleng/jarqon: lüğətlər («frispins», «lotereya», «balans yeyir», «Papara», «withdraw pending»).
5) Mətn təqdimatları
Klassika: n-qram, TF-IDF - təsnifat/axtarış üçün sürətli bazeline.
Embeddinq: çoxdilli transformatorlar (sentence/dual encoders) → axtarış, klasterləşdirmə, RAG, deduplikasiya.
Domen-öyrənilmiş embeddinq: əlavə olaraq sapport/rəy/siyasət korpusunda məşq edirik → ↑ relevantlıq.
Hibrid: BM25 + vektor axtarış (ANN) → yüksək əhatə və dəqiqlik.
6) Tapşırıqların sinfi və nümunələri
Təsnifat: mövzu (ödənişlər, KYC, bonuslar, provayder, RG), ciddilik, niyyət.
NER/RE: mahiyyətlər (PSP, provayderlər, oyunlar, valyutalar, sənədlər), əlaqələr (provayder, PSP, ölkə/metod).
Qaydaların çıxarılması: bonuslar/oyun şərtlərinin, PSP limitlərinin (məbləğlər, vaxt, ölkələr) parsinqi.
Cəmi: biletlər/tredlər/siyasətlər, "TL; DR sapport və menecer üçün".
Q & A/bilik axtarışı: viki/FAQ/reqlamentlərdən cavablar, RG/AML proseslərinin izahları.
Moderasiya/toksiklik: söyüşün, təhdidlərin, fırıldaqçılığın aşkarlanması.
Tərcümə/lokalizasiya: MT domen sözlüyü, post-edit.
ASR/OCR → mətn: məktublar, skanlar, zənglər, axınlar - təhlil olunan mətnə.
7) Axtarış və RAG (Retrieval-Augmented Generation)
Indeksləşdirmə: «uzun quyruq» üçün BM25, embeddinq üçün ANN (HNSW/IVF).
Chunking: 512-2048 token, overlap ilə; bölmələr/başlıqlar üzrə seqmentasiya.
Roerankers: üst k dəqiqliyini artırmaq üçün cross-encoder.
Sitat: mənbələri göstərən cavablar (id/başlıq/wiki versiyası).
Guardrails: gövdə xaricində «halüsinasiyaların» qadağan edilməsi; domen məhdudiyyəti.
Çoxdilli: istifadəçi dilində sorğu, müxtəlif dillərdə sənədlər → use çoxdilli embeddinq.
8) Mövzular və aspektlər
Tematik modelləşdirmə: discovery mövzular üçün BERTopic/LDA.
Aspect-based NLP: aspektlərin və tonallığın birgə modeli (baxın «Sentiment təhlili» bölməsi).
Aspektlər kataloqu: ödənişlər/nəticələr/KUS/bonuslar/boyalar/lokalizasiya/dəstək/konkret provayder.
9) Moderasiya və risk
Zəhərlənmə/təhqir: çox səviyyəli təsnifat (offensive, hate, threat).
Fırıldaqçılıq/sosial mühəndislik: «chargeback advice», «KYC-dan yan keçmək» nümunələri, boz sxemlərə istinadlar.
RG siqnalları: üzülmə/təcavüz/özünü məhdudlaşdırma - ayrı bir kanal və fəaliyyət siyasətinə.
Gizlilik: moderasiyadan əvvəl redaction; PII olmadan log.
10) Keyfiyyət metrikası
Təsnifat/NER: Accuracy, macro/micro F1, per-class F1 (xüsusilə «nadir» siniflər).
NER/RE: F1 varlıqlar üçün @span, F1 əlaqələr üçün @rel.
Axtarış: nDCG @k, Recall @k, MRR; hibridlər üçün - sitatlarla cavabların payı.
Toplama: ROUGE/BERTScore + human rubric (aydınlıq/dəqiqlik/qısalıq).
RAG/Q & A: Exact/Partial Match, Faithfulness (istinad faktlarının faizi), Answer Rate.
Çox dillilik: dillər/kanallar üzrə metriklər.
Əməliyyat: p95 gecikmə, cost/sorğu, hit-rate cache,% Zero-PII log.
11) Memarlıq və paylaynlar
11. 1 axını «xam mətn → siqnal»
1. Ingest (API/webhooks/parsers/OCR/ASR)
2. PII-redact → dil → normallaşma (emoji/sleng/tokenlər)
3. Embeddinq/fiçalar (əlamətlər kataloqu)
4. Tapşırıqlar: təsnifat/NER/ton/moderasiya/qaydaların çıxarılması
5. Aqreqasiyalar (Gold), alertlər və daşbordlar
11. 2 Axtarış/RAG
BM25 indeksi + vektor; rerank, sitatlar, cavab cache; «minimum N sənəd» siyasəti (k-anonimlik).
11. 3 Servinq
Təsnifat/axtarış üçün online API/Q & A; əks indeksləşdirmə/ASO analitikası üçün batch; söhbət/axınlar moderasiya üçün stream.
12) MLOps və əməliyyat
Modellərin qeydiyyatı: versiya, tarix, təlim məlumatları, metriklər, istifadə məhdudiyyətləri.
Shadow/Canary/Blue-Green buraxılışları; rollback keyfiyyət/etika/gecikmə hədləri.
Monitorinq: leksika/dillərin sürüklənməsi (PSI), gecikmə, FP/FN toksikliyi, faithfulness RAG.
Cost-menecment: embeddinq/cavabların keşləşdirilməsi, distillə/kvantlaşdırma, routing «yüngül/ağır» model.
13) İnteqrasiya (use-cases)
Sapport: avto-triaj biletləri (ödənişlər/KUS/bonuslar), ciddiliyə görə prioritet, hazır cavablar; post-redaktor ilə tərcümə.
Məhsul/Dev: səhv hesabatların klasterləşdirilməsi, tredlərin cəmləşdirilməsi, «boya şablonlarının» çıxarılması (model/OS/oyun).
Marketinq/ASO: «1» səbəblərinin çıxarılması, FAQ/status bannerlərinin generasiyası.
RG/Complayance: həssas halların avtomatik marşrutlaşdırılması, toksiklik nəzarəti.
Əməliyyatlar: provayder qaydalarının/PSP limitlərinin parsinqi, formulaların dəyişməsi zamanı alertlər.
14) Şablonlar (istifadəyə hazır)
14. 1 Infeners Siyasəti (SLO/Privacy)
yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses
14. 2 «Gold: nlp_events» sxemi
yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING # appstore, support, social, faq, policy topic: STRING # payments, kyc, promo, provider, rg,...
sentiment: STRING # neg/neu/pos toxicity: STRING # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING> # routed_to_support, faq_update, rg_notify source_id: STRING # trace/корреляция
14. 3 DSL qaydaları nümunə (risk-leksikon alert)
yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}
14. 4 Domen leksikası kataloqu (fraqment)
yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]
15) Uğur metrikası (biznes/əməliyyat)
Sapport: eskalasiyasız avto marşrutlaşdırma, MTTA/MTTR,% «doğru» makroslar.
ASO/NPS: reytinq və saxlama ilə SI/ton korrelyasiyası.
Komplayens: sıfır PII sızması; SLA DSAR; düzgün RG marşrutlarının payı.
Axtarış/RAG: sitatlarla cavabların payı, cavabdan əvvəl vaxt, agentlərin məmnunluğu.
Dəyəri: $/1k sorğular, hit-rate cache, distillə qənaət.
16) Tətbiqi yol xəritəsi
0-30 gün (MVP)
1. Ingest sapport və rəylər, PII-edition, dil/normallaşma.
2. Beyzlaynlar: mövzuların təsnifatı, tonallığı, toksikliyi (çoxdilli modellər).
3. Hibrid axtarış (VM25 + vektor) FAQ/siyasətlər üzrə; RAG sitatları ilə.
4. SLO/keyfiyyətli daşbordlar; Loglarda Zero-PII.
30-90 gün
1. PSP/provayderləri/bonus qaydaları üçün NER/RE; limitlərin çıxarılması.
2. Aspect-based SA, biletlərin cəmlənməsi, avtomatik cavablar (HITL).
3. Shadow → canary relizlər, leksika/dillərin sürüklənməsi monitorinqi.
4. Realtaymda axınların/söhbətlərin moderasiyası; RG/ödənişlər.
3-6 ay
1. Domen öyrənilmiş embeddinq, distillə; budgets dəyəri.
2. RAG-dən/FAQ/e-mail şablonlarının avtomatik generasiyası.
3. Müqavilələrin parsinqi/provayderlərin buraxılış notları, şərtlərin dəyişməsi zamanı alertlər.
4. Məxfiliyin xarici auditi və lüğətlərin/aspektlərin müntəzəm gigiyena sessiyaları.
17) Anti-nümunələr
PII ilə loqlar/daşbordlar; redaktə olmadan qum qutusuna tərcümə.
Bütün dillər/kanallar üçün «bir ölçü»; ignor slenga/emoji.
Mənbələrdən sitat gətirmədən Q&A (halüsinasiyalar).
«Əbədi» biletlərin əl triajı - avtomatik təsnifat və SLO olmadan.
Drift/etika və rollback planı izləmədən model.
18) Əlaqəli bölmələr
Sentiment-analitik rəylər, API analitika və metrika, DataOps-praktikalar, MLOps: modellərin istismarı, Anomaliyalar və korrelyasiyaların təhlili, Məlumat axınlarının alertləri, Access Control, Saxlama Siyasəti, Məlumatların etikası və şəffaflığı.
Yekun
NLP istehsal konveyeridir: təhlükəsiz enjest, dil və domen normallaşması, keyfiyyətli embeddinq və vəzifələr (təsnifat/NER/RAG), müşahidə və SLO. iGaming-də o, xaotik mətni rəylərdən, söhbətlərdən, sənədlərdən və axınlardan həllərə çevirir: daha sürətli sapport, şəffaf uyğunluq, proqnozlaşdırıla bilən buraxılışlar və oyunçu üçün başa düşülən qaydalar.