NLP ve kelime işleme
1) Neden NLP iGaming Platformu
Destek ve saklama: Biletlerin otomatik sınıflandırılması, yönlendirme, hazır cevaplar.
Ürün ve ASO: Geri bildirim analizi/sürüm notları, güncellemelerin etkisini izleme.
Uyum ve risk: PII/finans tespiti, RG sinyalleri, şüpheli şemalar.
Pazarlama/CRM: Konuya/niyete göre segmentasyon, kişisel mesajların oluşturulması.
Bilgi arama: sağlayıcı SSS/politikalar/kurallar, Q&A'ya hızlı erişim
İşlemler: Hisse şartları, PSP limitleri, SLA ortaklarının ayrıştırılması.
2) Metin ve incir kaynakları
Kanallar: biletler ve destek sohbetleri, App Store/Google Play, sosyal ağlar/forumlar/telgraflar, e-posta/web formları, dahili wikiler/politikalar, oyun ve PSP sağlayıcılarının yayın notları, çağrı/akış transkriptleri (ASR), PDF belgeleri (OCR).
Normalleştirme:- Veri tekilleştirme, bot/spam eliminasyonu
- Dil tanımı (ru/tr/es/pt/en/ka/...);
- UTF-8'e indirgeme, emoji/argo/translitin normalleştirilmesi;
- Meta veri işaretlemesi: kanal, dil, uygulama/sürüm, ülke, marka, oyun/sağlayıcı, öncelik.
3) Gizlilik ve PII sürümü (varsayılan olarak)
PII algılama ve revizyon: tam adı, telefon numaraları, e-posta, haritalar/IBAN, adresler, doc-ids.
Tanımlayıcıların tokenizasyonu (player_id→'u_tok_'), günlüklerde/özelliklerde ham PII'nın yasaklanması.
DSAR: konu belirteci ile hızlı arama/silme; Yasal Tutma - WORM günlüğü.
Coğrafi/kiracı izolasyonu: lisans bölgesinde metin ve anahtarların saklanması.
4) Temel dilbilim
Tokenization (emoji/hashtag'ler/ifadeler dahil) ve cümle segmentasyonu.
Normalleştirme: küçük harf yazma, diyakritikleri kaldırma (dile göre), yazım hatalarını düzeltme.
Lemmatizasyon/stemming (ru/tr/es/pt/en), morfolojik etiketler (POS).
Kelimeleri durdurun: dil/etki alanına bağlı listeler (iGaming kelime bilgisi kesilmemelidir).
Argo/jargon: sözlükler ("freespins", "bahis", "yeme dengesi", "Papara", "beklemede çekilme").
5) Metnin temsilleri
Klasikler: N-gram, TF-IDF - sınıflandırma/arama için hızlı temel.
Gömme: çok dilli transformatörler (cümle/çift kodlayıcılar) - arama, kümeleme, RAG, veri tekilleştirme.
Etki alanı tarafından eğitilmiş gömmeler: Ayrıca, destek/inceleme/politikaların gövdesi üzerinde eğitim ↑relevantnost.
Hybrid: BM25 + Vector Search (ANN) - yüksek kapsama alanı ve doğruluk.
6) Görev sınıfı ve örnekler
Sınıflandırma: konu (ödemeler, KYC, bonuslar, sağlayıcı, RG), ciddiyet, niyet.
NER/RE: varlıklar (PSP, sağlayıcılar, oyunlar, para birimleri, belgeler), ilişkiler (provayder↔igra, PSP↔strana/metod).
Kuralların çıkarılması: Bonus/bahis koşullarının ayrıştırılması, PSP limitleri (miktarlar, zaman, ülkeler).
Özetleme: biletler/iplikler/poliçeler, "TL; Destek ve yönetici için DR"
Q & A/bilgi arama: wiki/SSS/yönetmeliklerden cevaplar, RG/AML süreçlerinin açıklamaları.
Moderasyon/toksisite: küfür, tehdit, dolandırıcılık tespiti.
Çeviri/yerelleştirme: Alan adı sözlüğü ile MT, düzenleme sonrası.
ASR/OCR - tekst: harfler, taramalar, çağrılar, akışlar - analiz edilen metne.
7) Geri Alma ve RAG (Geri Alma-Artırılmış Nesil)
Dizinleme: "Uzun kuyruk" için BM25, gömmeler için ANN (HNSW/IVF).
Gruplama: Çakışan 512-2048 belirteçleri; Bölümlere/başlıklara göre bölümleme.
Rerankers: Üst k doğruluğunu artırmak için çapraz kodlayıcı.
Alıntı: Kaynak yanıtları (id/title/wiki sürümü).
Korkuluklar: gövde dışında "halüsinasyonları" yasaklamak; Domain kısıtlaması.
Çok dillilik: kullanıcının dilinde sorgu, farklı dillerdeki belgeler - çok dilli gömmeleri kullanın.
8) Konular ve yönleri
Tematik modelleme: Keşif temaları için BERTopic/LDA.
Aspect-based NLP: Ortak yönler ve tonalite modeli ("Değerlendirmelerin duygu analizi" bölümüne bakın).
En boy kataloğu: ödemeler/çıktılar/CCM/bonuslar/ezmeler/yerelleştirme/destek/belirli sağlayıcı.
9) Moderasyon ve risk
Toksisite/kötüye kullanım: Çok düzeyli sınıflandırma (saldırgan, nefret, tehdit).
Dolandırıcılık/sosyal mühendislik: kalıplar "ters ibraz tavsiyesi", "KYC bypass", gri şemalara bağlantılar.
RG sinyalleri: hayal kırıklığı/saldırganlık/kendini kısıtlama - ayrı bir kanal ve eylem politikasına.
Gizlilik: Moderasyondan önce redaksiyon; PII olmadan günlükleri.
10) Kalite metrikleri
Sınıflandırma/NER: Doğruluk, makro/mikro F1, sınıf başına F1 (özellikle "nadir" sınıflar).
NER/RE: Varlıklar için F1 @ span, ilişkiler için F1 @ rel.
Arama: nDCG @ k, Recall @ k, MRR; Melezler için, alıntılar ile yanıtların oranı.
Özetleme: ROUGE/BERTScore + insan rubriği (anlaşılırlık/doğruluk/kısalık).
RAG/Q & A: Tam/Kısmi Eşleşme, Sadakat, Cevap Oranı.
Çok dillilik: dil/kanala göre metrikler.
İşletim sistemi: p95 gecikme, maliyet/istek, isabet oranı önbelleği, günlüklerde % Zero-PII.
11) Mimari ve boru hatları
11. 1 Ham metin - sinyal akışı
1. Ingest (API/webhooks/ayrıştırıcılar/OCR/ASR)
2. PII-redact - dil - normalleştirme (emoji/argo/belirteçler)
3. Gömmeler/Özellikler (Özellikler Kataloğu)
4. Görevler: Sınıflandırma/NER/Ton/Moderasyon/Kural Çıkarma
5. Toplamalar (Altın), uyarılar ve gösterge panoları
11. 2 Arama/RAG
Dizin BM25 + vektör; Rerank, tırnak işaretleri, yanıt önbelleği; "Minimum N belge" politikası (k-anonimlik).
11. 3 Servis
Sınıflandırma/arama/Q & A için çevrimiçi API; Ters indeksleme/ASO analitiği için toplu iş; Sohbetleri/akışları denetlemek için akış.
12) MLOps ve çalışma
Kayıt defteri modelleri: sürüm, tarih, eğitim verileri, metrikler, kullanım sınırları.
Gölge/Kanarya/Mavi-Yeşil sürümleri; Kalite/etik/gecikme eşiklerinin geri alınması.
İzleme: kelime/dil kayması (PSI), gecikme, FP/FN toksisitesi, sadakat RAG.
Maliyet yönetimi: Gömme/yanıtların önbelleğe alınması, damıtma/niceleme, yönlendirme "hafif/ağır" modeli.
13) Entegrasyonlar (kullanım durumları)
Destek: Biletlerin otomatik triyajı (ödemeler/CUS/bonuslar), ciddiyette öncelik, hazır cevaplar; Post-edit ile çeviri.
Ürün/Dev: hata raporlarının kümelenmesi, iş parçacıklarının toplanması, "çökme modellerinin" çıkarılması (model/OS/oyun).
Pazarlama/ASO: "1" nedenlerini alma, SSS/durum afişleri oluşturma.
RG/Uyumluluk: Hassas vakaların otomatik olarak yönlendirilmesi, toksisite kontrolü.
İşlemler: Sağlayıcı kurallarının/PSP sınırlarının ayrıştırılması, ifadeler değiştiğinde uyarılar.
14) Şablonlar (kullanıma hazır)
14. 1 Çıkarım Politikası (SLO/Gizlilik)
yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses
14. 2 "Altın: nlp_events" şeması
yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING # appstore, support, social, faq, policy topic: STRING # payments, kyc, promo, provider, rg,...
sentiment: STRING # neg/neu/pos toxicity: STRING # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING> # routed_to_support, faq_update, rg_notify source_id: STRING # trace/корреляция
14. 3 DSL kuralı örneği (risk sözlüğüne karşı uyarı)
yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}
14. 4 Domain kelime kataloğu (fragman)
yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]
15) Başarı Metrikleri (İşletme/Operasyonlar)
Destek: Tırmanma olmadan otomatik yönlendirme, MTTA/MTTR, "doğru" makroların %'si.
ASO/NPS: Derecelendirme ve tutma ile SI/tonalite korelasyonu.
Uyumluluk: sıfır PII sızıntısı; SLA DSAR; Doğru RG yönlendirmelerinin oranı
Arama/RAG: Alıntılarla verilen yanıtların oranı, yanıt verme süresi, temsilci memnuniyeti.
Maliyet: $/1k istekleri, hit-rate önbellek, damıtma tasarrufu.
16) Uygulama Yol Haritası
0-30 gün (MVP)
1. Ingest desteği ve değerlendirmeleri, PII sürümü, dil/normalleştirme.
2. Temel çizgiler: konuların sınıflandırılması, tonalite, toksisite (çok dilli modeller).
3. SSS/politikalara göre hibrit arama (BM25 + vektör); Tırnak içinde RAG.
4. Panolar SLO/kalite; Kayıtlarda sıfır PII.
30-90 gün
1. PSP/sağlayıcılar/bonus kuralları için NER/RE; limitleri çıkarmak.
2. En boy tabanlı SA, bilet özetleme, otomatik yanıtlar (HITL).
3. Gölge - kanarya bültenleri, sözlüğü/dil sürüklenme izleme.
4. Akışların/sohbetlerin gerçek zamanlı olarak denetlenmesi; RG uyarıları/ödemeleri.
3-6 ay
1. Etki alanı eğitimli gömme, damıtma; Bütçeler değer bazında.
2. RAG'den referansların/SSS/e-posta şablonlarının otomatik oluşturulması.
3. Sözleşmelerin ayrıştırılması/sağlayıcıların serbest bırakma notları, koşullar değiştiğinde uyarılar.
4. Dış gizlilik denetimi ve sözlüklerin/bölümlerin düzenli hijyen oturumları.
17) Anti-desenler
PII ile günlükleri/panoları; Düzenleme olmadan sanal alanlara çeviri.
Tüm diller/kanallar için'tek boyut "; argo/emojiyi görmezden gelin.
Kaynak gösterilmeden Q&A (halüsinasyonlar).
Biletlerin "sonsuza dek" manuel triyajı - otomatik sınıflandırma ve SLO olmadan.
Sürüklenme/etik ve geri alma planını izlemeden model.
18) İlgili bölümler
Geri Bildirim Duyarlılık Analizi, Analitik ve Metrikler API'leri, DataOps Uygulamaları, MLOps: Model Sömürü, Anomali ve Korelasyon Analizi, Veri Akışı Uyarıları, Erişim Kontrolü, Saklama Politikaları, Veri Etiği ve Şeffaflık.
Toplam
NLP, Güvenli Enjeksiyon, Dil ve Alan Normalleştirme, Kalite Gömme ve Görevler (Sınıflandırma/NER/RAG), Gözlemlenebilirlik ve SLO'nun bir üretim hattıdır. İGaming'de, incelemelerden, sohbetlerden, belgelerden ve akışlardan kaotik metinleri çözümlere dönüştürür: daha hızlı destek, şeffaf uyumluluk, öngörülebilir sürümler ve oyuncu için net kurallar.