NLP we tekstleri gaýtadan işlemek
1) Näme üçin iGaming-platforma NLP
Goldaw we saklamak: biletleriň awto-klassifikasiýasy, marşrutlaşdyrylmagy, taýýar jogaplar.
Önüm we ASO: synlaryň/goýberiş bellikleriniň seljermesi, täzelenmeleriň täsirine gözegçilik.
Laýyklyk we töwekgelçilik: PII/maliýe, RG-signallary, şübheli shemalary ýüze çykarmak.
Marketing/CRM: mowzuklar/niýetler boýunça segmentasiýa, şahsy habarlary döretmek.
Bilim gözlemek: üpjün edijileriň SSS/syýasatlaryna/düzgünlerine çalt girmek, Q&A.
Amallar: paýnamalaryň şertleriniň, PSP, SLA hyzmatdaşlarynyň çäkleriniň parsingi.
2) Tekst çeşmeleri we injest
Kanallar: bilet we sapport söhbetdeşlikleri, App Store/Google Play, sosial ulgamlar/forumlar/telegrammalar, e-mail/web-formalar, içerki wiki/syýasatlar, oýun üpjün edijileriniň we PSP-leriň goýberiş bellikleri, jaňlaryň/akymlaryň transkriptleri (ASR), PDF (OCR) resminamalary.
Kadalaşma:- botlar/spamlary aýyrmak, aýyrmak;
- dili kesgitlemek (ru/tr/es/pt/en/ka/...);
- UTF-8-e getirilmegi, emoji/sleng/translit kadalaşmagy;
- meta-maglumatlary bellemek: kanal, dil, programma/wersiýa, ýurt, marka, oýun/üpjün ediji, ileri tutulýan ugur.
3) Gizlinlik we PII-redaksiýa (by default)
PII tapylmagy we redaksiýasy: doly ady, telefonlary, e-poçtalary, kartlary/IBAN, salgylary, doc-ids.
Kesgitleýjileriň belligi (player_id→'u_tok_'), çig PII-iň sahypalarda gadagan edilmegi.
DSAR: subýektiň belligi boýunça çalt gözlemek/aýyrmak; Legal Hold - WORM-log.
Geo/tenant-izolýasiýa: ygtyýarnamanyň sebitinde teksti we açarlary saklamak.
4) Esasy lingwistika
Tokenizasiýa (emoji/hastaglar/smaýllary göz öňünde tutup) we teklipleri bölmek.
Normalizasiýa: lowercasing, diakritikany aýyrmak (dillere görä), ýalňyşlyklary düzetmek.
Lemmatizasiýa/stemming (ru/tr/es/pt/en), morfologiki bellikler (POS).
Stop-sözler: dil/domen-garaşly sanawlar (iGaming-leksika kesilmeli däldir).
Sleng/jargon: sözlükler ("frispinler", "oýnamak", "balans iýýär", "Papara", "withdraw pending").
5) Tekstiň teklipleri
Klassika: n-gramlar, TF-IDF - klassifikasiýa/gözleg üçin çalt baseline.
Embeddingler: köp dilli transformatorlar (sentence/dual encoders) → gözleg, toplama, RAG, de-duplikasiýa.
Domen-öwrenilen embeddingler: goşmaça sapport/synlar/syýasat korpusynda tälim alýarys → ↑ degişlilik.
Gibrid: BM25 + wektor gözleg (ANN) → ýokary örtük we takyklyk.
6) Wezipeleriň synpy we mysallar
Klassifikasiýa: mowzuk (tölegler, KYC, bonuslar, üpjün ediji, RG), çynlakaýlyk, niýet.
NER/RE: düýp manysy (PSP, üpjün edijiler, oýunlar, walýutalar, resminamalar), baglanyşyklary (üpjün ediji, PSP, ýurt/usul).
Düzgünleri aýyrmak: bonuslaryň/oýnuň şertleriniň, PSP çäkleriniň (jemi, wagt, ýurt) parsingi.
Jemi: biletler/tredler/syýasatlar, "TL; DR sapport we dolandyryjy üçin".
Q & A/bilim gözlemek: wiki/SSS/düzgünlerinden jogaplar, RG/AML prosesleriniň düşündirişleri.
Moderasiýa/zäherlilik: kemsidiji sözleri, howplary, galplyklary ýüze çykarmak.
Terjime/lokalizasiýa: Domen sözlügi bilen MT, post-edit.
ASR/OCR → tekst: harplar, skanlar, jaňlar, akymlar - seljerilýän tekst.
7) Gözleg we RAG (Retrieval-Augmented Generation)
Indeksirlemek: "uzyn guýruk" üçin BM25, embeddingler üçin ANN (HNSW/IVF).
Çunking: 512-2048 token, overlap bilen; bölümler/sözbaşylar boýunça segmentasiýa.
Rerankerler: top-k takyklygyny ýokarlandyrmak üçin cross-encoder.
Sitasiýa: çeşmeleri görkezilen jogaplar (id/sözbaşy/wiki wersiýasy).
Guardrails: bedeniň daşyndaky "galýusinasiýalary" gadagan etmek; domen bilen çäklendirme.
Köp dillilik: ulanyjynyň dilinde haýyş, resminamalar - dürli dillerde → use köp dilli embeddingler.
8) Mowzuklar we taraplar
Tema modellemesi: discovery temalar üçin BERTopic/LDA.
Aspect-based NLP: aspektleriň we äheňleriň bilelikdäki modeli (Synlaryň sentiment-seljermesi bölümine serediň).
Taraplar katalogy: tölegler/netijeler/KUS/bonuslar/boýaglar/lokalizasiýa/goldaw/anyk üpjün ediji.
9) Moderasiýa we töwekgelçilik
Zäherlilik/hyýanatçylyk: köp derejeli klassifikasiýa (offensive, hate, threat).
Galplyk/jemgyýetçilik in engineeringenerçiligi: "chargeback advice", "KYC-den aýlanyp geçmek" patternleri, çal shemalara salgylanmalar.
RG-signallary: lapykeçlik/agressiýa/öz-özüňi çäklendirmek - aýratyn kanala we hereket syýasatyna.
Gizlinlik: moderasiýadan öň redaction; PII-siz ýazgylar.
10) Hil ölçegleri
Klassifikasiýa/NER: Accuracy, macro/micro F1, per-class F1 (esasanam "seýrek" synplar).
NER/RE: F1 @span zatlar üçin, F1 @rel baglanyşyklar üçin.
Gözleg: nDCG @k, Recall @k, MRR; gibridler üçin - sitatalar bilen jogaplaryň paýy.
Jemleme: ROUGE/BERTScore + human rubric (düşnüklilik/takyklyk/gysgalyk).
RAG/Q & A: Exact/Partial Match, Faithfulness (getirilen faktlaryň göterimi), Answer Rate.
Köp dillilik: diller/kanallar boýunça metrikler.
Operasiýa: p95 gizlinlik, cost/haýyş, hit-rate kesiş,% Zero-PII.
11) Arhitektura we paýlaýynlar
11. 1 "Çig tekst → signal" akymy
1. Ingest (API/webhooks/parsers/OCR/ASR)
2. PII-redact → dil → kadalaşma (emoji/sleng/token)
3. Embeddingi/fiçler (alamatlar katalogy)
4. Wezipeler: klassifikasiýa/NER/ton/moderasiýa/düzgünleri çykarmak
5. Agregasiýalar (Gold), alertler we daşbordlar
11. 2 Gözlemek/RAG
BM25 indeksi + wektor; rerank, sitatalar, jogap keşi; "Iň az N resminama" syýasaty (k-anonimlik).
11. 3 Serwing
Klassifikasiýa/gözleg üçin onlaýn API/Q & A; ters indeksasiýa/ASO-analitika üçin batch; söhbetdeşlik/akym moderasiýasy üçin akym.
12) MLOps we ekspluatasiýa
Modelleriň sanawy: wersiýa, senesi, okuw maglumatlary, metrikler, ulanyş çäklendirmeleri.
Shadow/Canary/Blue-Green relizleri; hil/etika/gizlinlik çäkleri boýunça rollback.
Gözegçilik: leksikanyň/dilleriň süýşmegi (PSI), gizlinlik, zäherlilik FP/FN, faithfulness RAG.
Cost-menejment: embeddingleri/jogaplary kesmek, distilýasiýa/kwantizasiýa, "ýeňil/agyr" modeli marşrutlaşdyrmak.
13) Integrasiýa (use-cases)
Sapport: bilet awto-üçlügi (tölegler/KUS/bonuslar), agyrlyk boýunça ileri tutulýan ugur, taýýar jogaplar; post-redaktor bilen terjime.
Önüm/Dev: hata-hasabatlaryň toparlanmagy, tredleriň jemlenmegi, "boýag şablonlaryny" çykarmak (model/OS/oýun).
Marketing/ASO: sebäpleri çykarmak "1", statusyň SSS/bannerlerini döretmek.
RG/Complayens: duýgur ýagdaýlaryň awtomatiki marşrutlaşdyrylmagy, zäherlilige gözegçilik.
Amallar: prowaýder düzgünleriniň/PSP çäkleriniň parsingi, formulanyň üýtgemegi bilen baglanyşykly töwekgelçilikler.
14) Şablonlar (ulanmaga taýýar)
14. 1 Içgysgynç syýasaty (SLO/Privacy)
yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses
14. 2 "Altyn: nlp_events" shemasy
yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING # appstore, support, social, faq, policy topic: STRING # payments, kyc, promo, provider, rg,...
sentiment: STRING # neg/neu/pos toxicity: STRING # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING> # routed_to_support, faq_update, rg_notify source_id: STRING # trace/корреляция
14. 3 Mysal DSL düzgünleri (töwekgelçilik-leksikon üçin alert)
yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}
14. 4 Domen sözlügi katalogy (bölek)
yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]
15) Üstünligiň ölçegleri (iş/amallar)
Sapport: eskalasiýasyz awto-marşrut, MTTA/MTTR, "dogry" makroslar%.
ASO/NPS: SI/tonallygyň reýting we saklamak bilen baglanyşygy.
Gabat gelmek: nol PII syzmak; SLA DSAR; dogry RG-marşrutlaşdyrmalaryň paýy.
Gözleg/RAG: sitatalar bilen jogaplaryň paýy, jogaplara çenli wagt, agentleriň kanagatlanmagy.
Bahasy: $/1k soraglar, hit-rate nagt pul, distillýasiýa tygşytlamak.
16) Durmuşa geçirmegiň ýol kartasy
0-30 gün (MVP)
1. Ingest sapport we synlar, PII-redaksiýa, dil/kadalaşma.
2. Beýzlaýnlar: mowzuklaryň klassifikasiýasy, äheňliligi, zäherliligi (köp dilli modeller).
3. FAQ/syýasatlar boýunça gibrid gözleg (VM25 + wektor); Sitatalar bilen RAG.
4. SLO/hil Daşbordlary; Loglarda Zero-PII.
30-90 gün
1. PSP/üpjün edijiler/bonus düzgünleri üçin NER/RE; çäkleri çykarmak.
2. Aspect-based SA, biletleriň jemlenmegi, awto jogaplar (HITL).
3. Shadow → canary relizleri, leksikanyň/dilleriň süýşmegine gözegçilik etmek.
4. Realtaýmda akymlaryň/söhbetdeşlikleriň moderasiýasy; alertler RG/tölegler.
3-6 aý
1. Domen-öwrenilen embeddingler, distilýasiýa; bahasy boýunça budgets.
2. RAG-dan şahadatnamalaryň/SSS/e-mail şablonlarynyň awtogenerasiýasy.
3. Şertnamalaryň parsingi/üpjün edijileriň goýberiş-bellikleri, şertler üýtgän mahalynda alertler.
4. Gizlinligiň daşarky barlagy we sözlükleriň/aspektleriň yzygiderli arassaçylyk-sessiýalary.
17) Anti-patternler
PII bolan loglar/daşbordlar; redaktirlemezden gum gutusyna terjime etmek.
Ähli diller/kanallar üçin "Bir ölçegli"; ignor slenga/emoji.
Çeşmelere salgylanmazdan Q&A (galýusinasiýa).
"Hemişelik" biletleriň goly - awto-klassifikasiýa we SLO bolmazdan.
Dreýf/etika we rollback-meýilnama gözegçiligi bolmadyk model.
18) Baglanyşykly bölümler
Synlaryň sentiment-seljermesi, Analitikanyň we metrikanyň API-leri, DataOps-praktikalar, MLOps: Modelleriň işleýşi, Anomaliýalaryň we korrelýasiýalaryň seljermesi, Maglumat akymlaryndan töwekgelçilikler, Giriş gözegçiligi, Saklamak syýasaty, Maglumatlaryň etikasy we aç-açanlygy.
Jemi
NLP - bu önümçilik konweýeri: howpsuz injest, dil we domen kadalaşmagy, hil embeddingleri we meseleler (klassifikasiýa/NER/RAG), gözegçilik we SLO. iGaming-de ol synlardan, söhbetdeşliklerden, resminamalardan we akymlardan bulam-bujar teksti çözgütlere geçirýär: has çalt sapport, aç-açan laýyklyk, öňünden aýdyp boljak goýberişler we oýunçy üçin düşnükli düzgünler.