एनएलपी और वर्ड प्रोसेसिंग
1) एनएलपी आईगेमिंग प्लेटफॉर्म क्यों
समर्थन और प्रतिधारण: टिकटों का ऑटो-वर्गीकरण, रूटिंग, तैयार उत्तर।
उत्पाद और एएसओ: प्रतिक्रिया विश्लेषण/रिलीज नोट्स, अपडेट के प्रभाव की निगरानी।
अनुपालन और जोखिम: पीआईआई/वित्त का पता लगाना, आरजी संकेत, संदिग्ध योजनाएं।
विपणन/सीआरएम: विषय/इरादे से विभाजन, व्यक्तिगत संदेशों की पीढ़ी।
ज्ञान खोज: प्रदाता FAQ/नीतियों/नियमों, Q&A तक त्वरित पहुंच
संचालन: शेयरों की शर्तों, पीएसपी सीमा, एसएलए भागीदारों को पार्स करना।
2) ग्रंथों और अंजीर के स्रोत
चैनल: टिकट और सपोर्ट चैट, ऐप स्टोर/गूगल प्ले, सोशल नेटवर्क/फोरम/टेलीग्राम, ई-मेल/वेब फॉर्म, आंतरिक विकिस/नीतियां, गेम और पीएसपी प्रदाताओं के जारी नोट, कॉल/स्ट्रीम टेप्स (एएसआर), पीडीएफ दस्स (ओसीआर)।
सामान्यीकरण:- Deduplication, बॉट/स्पैम उन्मूलन
- भाषा की परिभाषा (ru/tr/es/pt/en/ka/...);
- यूटीएफ -8 में कमी, इमोजी/स्लैंग/ट्रांसलाइट का सामान्यीकरण;
- मेटाडेटा मार्कअप: चैनल, भाषा, एप्लिकेशन/संस्करण, देश, ब्रांड, गेम/प्रदाता, प्राथमिकता।
3) गोपनीयता और पीआईआई संस्करण (डिफ़ॉल्ट रूप से)
PII का पता लगाना और संशोधन: पूरा नाम, फोन नंबर, ई-मेल, नक्शे/IBAN, पता, डॉक्टर-आईडी।
पहचानकर्ताओं का टोकन (player_id→'u_tok_'), लॉग/सुविधाओं में कच्चे पीआईआई का निषेध।
DSAR: विषय टोकन द्वारा त्वरित खोज/विलोपन; कानूनी पकड़ - WORM लॉग।
भू/किरायेदार अलगाव: लाइसेंस क्षेत्र में पाठ और चाबियों का भंडारण।
4) बुनियादी भाषाविज्ञान
टोकेनाइजेशन (इमोजी/हैशटैग/इमोटिकॉन सहित) और वाक्य विभाजन।
सामान्यीकरण: कम करना, डायक्रिटिक्स को हटाना (भाषा द्वारा), टाइपो को सही करना।
Lemmatization/stemming (ru/tr/es/pt/en), रूपात्मक लेबल (POS)।
शब्द बंद करें: भाषा/डोमेन-निर्भर सूची (iGaming शब्दावली बाहर नहीं काटा जाना चाहिए).
स्लैंग/शब्दजाल: शब्दकोश ("फ्रीस्पिन्स", "वैगरिंग", "खाने का संतुलन", "पापारा", "वापस लेना लंबित")।
5) पाठ का प्रतिनिधित्व
क्लासिक्स: एन-ग्राम, टीएफ-आईडीएफ - वर्गीकरण/खोज के लिए तेज आधारभूत।
एम्बेडिंग: बहुभाषी ट्रांसफार्मर (वाक्य/दोहरे एनकोडर) → खोज, क्लस्टरिंग, आरएजी, डीडुप्लिकेशन।
डोमेन-प्रशिक्षित एम्बेडिंग: इसके अलावा समर्थन/समीक्षा/नीतियों के शरीर पर प्रशिक्षण।
हाइब्रिड: BM25 + वेक्टर सर्च (एएनएन) → उच्च कवरेज और सटीकता।
6) कार्य वर्ग और उदाहरण
वर्गीकरण: विषय (भुगतान, केवाईसी, बोनस, प्रदाता, आरजी), गंभीरता, इरादा।
NER/RE: संस्थाएं (PSP, प्रदाता, खेल, मुद्राएं, दस्तावेज), रिश्ते (provayder↔igra, PSP↔strana/metod)।
नियमों का निष्कर्षण: बोनस/वैगरिंग शर्तों का पार्सिंग, पीएसपी सीमा (मात्रा, समय, देश)।
सारांश: टिकट/धागे/नीतियां, "टीएल; समर्थन और प्रबंधक के लिए डीआर।"
प्रश्नोत्तर/ज्ञान खोज: विकी/एफएक्यू/विनियमों से उत्तर, आरजी/एएमएल प्रक्रियाओं की व्याख्या।
मॉडरेशन/विषाक्तता: अपवित्रता, खतरों, धोखाधड़ी का पता लगाना।
अनुवाद/स्थानीयकरण: डोमेन शब्दावली के साथ एमटी, पोस्ट-एडिट।
ASR/OCR→tekst: अक्षर, स्कैन, कॉल, धाराएँ - विश्लेषित पाठ में।
7) रिट्रीवल और आरएजी (रिट्रीवल-संवर्धित पीढ़ी)
अनुक्रमण: "लंबी पूंछ" के लिए, एएनएन (एचएनएसडब्ल्यू/आईवीएफ) एम्बेडिंग के लिए।
चंकिंग: ओवरलैप के साथ 512-2048 टोकन; खंडों/शीर्षकों द्वारा विभाजन।
Rerankers: शीर्ष k की सटीकता में सुधार करने के लिए क्रॉस-एनकोडर।
उद्धरण: स्रोत प्रतिक्रियाएँ (आईडी/शीर्षक/विकी संस्करण)।
रेलिंग: पतवार के बाहर "मतिभ्रम" पर प्रतिबंध; डोमेन प्रतिबंध।
बहुभाषावाद: उपयोगकर्ता की भाषा में क्वेरी, विभिन्न भाषाओं में दस्तावेज → बहुभाषी एम्बेडिंग का उपयोग करते हैं।
8) विषय और पहलू
विषयगत मॉडलिंग: खोज विषयों के लिए BERTopic/LDA।
पहलू-आधारित एनएलपी: पहलुओं और टोनलिटी के संयुक्त मॉडल (अनुभाग "समीक्षाओं की भावना विश्लेषण" देखें)।
पहलू सूची: भुगतान/आउटपुट/सीसीएम/बोनस/क्रश/स्थानीयकरण/समर्थन/विशिष्ट प्रदाता।
9) मॉडरेशन और जोखिम
विषाक्तता/दुरुपयोग: बहुस्तरीय वर्गीकरण (आक्रामक, घृणा, खतरा)।
धोखाधड़ी/सोशल इंजीनियरिंग: पैटर्न "चार्जबैक सलाह", "केवाईसी बाईपास", ग्रे योजनाओं से लिंक।
आरजी संकेत: हताशा/आक्रामकता/आत्म-संयम - एक अलग चैनल और कार्रवाई नीति में।
गोपनीयता: मॉडरेशन से पहले रिडेक्शन; PII के बिना लॉग।
10) गुणवत्ता मैट्रिक्स
वर्गीकरण/एनईआर: सटीकता, मैक्रो/माइक्रो एफ 1, प्रति वर्ग एफ 1 (विशेष रूप से "दुर्लभ" वर्ग)।
NER/RE: संस्थाओं के लिए F1 @ स्पैन, रिश्तों के लिए F1 @ rel।
खोज: nDCG @ k, Recall @ k, MRR; संकर के लिए, उद्धरण के साथ प्रतिक्रियाओं का अनुपात।
सारांश: ROUGE/BERTScore + मानव रूब्रिक (समझ/सटीकता/संक्षिप्तता)।
RAG/Q & A: सटीक/आंशिक मैच, वफादारी, उत्तर दर।
बहुभाषावाद: भाषा/चैनल द्वारा मैट्रिक्स।
ऑपरेटिंग सिस्टम: p95 विलंबता, लागत/अनुरोध, हिट-दर कैश, लॉग में% शून्य-पीआईआई।
11) वास्तुकला और पाइपलाइनें
11. 1 कच्चा पाठ → सिग्नल स्ट्रीम
1. Ingest (API/webhooks/parser/OCR/ASR)
2. PII-redact → भाषा → सामान्यीकरण (इमोजी/स्लैंग/टोकन)
3. एम्बेडिंग/फीचर्स (विशेषताएं कैटलॉग)
4. कार्य: वर्गीकरण/एनईआर/टोन/मॉडरेशन/नियम निष्कर्षण
5. एकत्रीकरण (स्वर्ण), अलर्ट और डैशबोर्ड
11. 2 खोज/आरएजी
सूचकांक BM25 + वेक्टर; रेरैंक, उद्धरण, प्रतिक्रिया कैश; "न्यूनतम एन दस्तावेज़" नीति (के-गुमनामी)।
11. 3 सेवा करना
वर्गीकरण/खोज/क्यू एंड ए के लिए ऑनलाइन एपीआई; रिवर्स इंडेक्सिंग/एएसओ एनालिटिक्स के लिए बैच; चैट/धाराओं को मॉडरेट करने के लिए धारा।
12) MLOps और ऑपरेशन
रजिस्ट्री मॉडल: संस्करण, तिथि, प्रशिक्षण डेटा, मैट्रिक्स, उपयोग सीमा।
छाया/कैनरी/ब्लू-ग्रीन रिलीज; गुणवत्ता/नैतिकता/विलंबता सीमा पर रोलबैक।
निगरानी: शब्दावली/भाषा बहाव (पीएसआई), विलंबता, एफपी/एफएन विषाक्तता, वफादारी आरएजी।
लागत प्रबंधन: एम्बेडिंग/प्रतिक्रियाओं का कैशिंग, आसवन/परिमाणीकरण, "प्रकाश/भारी" मॉडल का मार्ग।
13) एकीकरण (उपयोग-मामले)
समर्थन: टिकटों का ऑटो-ट्राइएज (भुगतान/सीयूएस/बोनस), गंभीरता में प्राथमिकता, तैयार उत्तर; पोस्ट-एडिट के साथ अनुवाद।
उत्पाद/देव: बग रिपोर्ट का क्लस्टरिंग, थ्रेड्स का योग, "क्रैश पैटर्न" (मॉडल/ओएस/गेम) का निष्कर्षण।
विपणन/एएसओ: "1" कारणों को पुनः प्राप्त करना, एफएक्यू/स्थिति बैनर उत्पन्न करना।
आरजी/अनुपालन: संवेदनशील मामलों का स्वचालित मार्ग, विषाक्तता नियंत्रण।
संचालन: प्रदाता नियमों/पीएसपी सीमाओं का पार्सिंग, परिवर्तन के समय अलर्ट।
14) साँचा (उपयोग के लिए तैयार)
14. 1 अनुमान नीति (एसएलओ/गोपनीयता)
yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses
14. 2 "गोल्ड: nlp_events" योजना
yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING # appstore, support, social, faq, policy topic: STRING # payments, kyc, promo, provider, rg,...
sentiment: STRING # neg/neu/pos toxicity: STRING # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING> # routed_to_support, faq_update, rg_notify source_id: STRING # trace/корреляция
14. डीएसएल नियम का 3 उदाहरण (लेक्सिकॉन को जोखिम में डालने के लिए सतर्क)
yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}
14. 4 डोमेन शब्दावली सूची (टुकड़ा)
yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]
15) सफलता मेट्रिक्स (व्यवसाय/संचालन)
समर्थन: एस्केलेशन के बिना ऑटो-रूटिंग, MTTA/MTTR, "सही" मैक्रोस का%।
एएसओ/एनपीएस: रेटिंग और प्रतिधारण के साथ एसआई/टोनैलिटी सहसंबंध।
अनुपालन: शून्य पीआईआई लीक; एसएलए डीएसएआर; सही आरजी मार्गों का अनुपात
खोज/आरएजी: उद्धरणों के साथ प्रतिक्रियाओं का अनुपात, प्रतिक्रिया का समय, एजेंट संतुष्टि।
लागत: $/1k अनुरोध, हिट-रेट कैश, आसवन बचत।
16) कार्यान्वयन रोडमैप
0-30 दिन (एमवीपी)
1. सबसे अधिक समर्थन और समीक्षा, पीआईआई संस्करण, भाषा/सामान्यीकरण।
2. बेसिन: विषयों का वर्गीकरण, टॉनलिटी, विषाक्तता (बहुभाषी मॉडल)।
3. एफएक्यू/नीतियों द्वारा हाइब्रिड खोज (BM25 + वेक्टर); उद्धरणों के साथ आरएजी।
4. डैशबोर्ड एसएलओ/गुणवत्ता; लॉग में शून्य-पीआईआई।
30-90 दिन
1. पीएसपी/प्रदाताओं/बोनस नियमों के लिए एनईआर/आरई; सीमा निकालना।
2. पहलू-आधारित एसए, टिकट सारांश, ऑटो-प्रतिक्रियाएं (एचआईटीएल)।
3. Shadow→canary रिलीज, लेक्सिकॉन/भाषा बहाव की निगरानी।
4. वास्तविक समय में धाराओं/चैट का मॉडरेशन; आरजी अलर्ट/भुगतान।
3-6 महीने
1. डोमेन-प्रशिक्षित एम्बेडिंग, आसवन; मूल्य द्वारा बजट।
2. RAG से संदर्भों/FAQ/ई-मेल टेम्पलेट का ऑटो-जनरेशन।
3. परिस्थितियों में परिवर्तन होने पर प्रदाताओं के संविदाओं/जारी नोटों को पार्स करना।
4. बाह्य गोपनीयता लेखा परीक्षा और शब्दकोशों/पहलुओं के नियमित स्वच्छता सत्र।
17) एंटी-पैटर्न
PII के साथ लॉग/डैशबोर्ड; संपादन के बिना सैंडबॉक्स में अनुवाद।
सभी भाषाओं/चैनलों के लिए "एक आकार"; स्लैंग/इमोजी को अनदेखा करें।
स्रोतों के प्रशस्ति पत्र के बिना प्रश्नोत्तर (मतिभ्रम)।
टिकटों का मैनुअल ट्राइएज "हमेशा के लिए" - ऑटो-वर्गीकरण और एसएलओ के बिना।
बहाव/नैतिकता और रोलबैक योजना की निगरानी के बिना मॉडल।
18) संबंधित अनुभाग
फीडबैक सेंटीमेंट एनालिटिक्स, एनालिटिक्स और मेट्रिक्स एपीआई, डेटाऑप्स प्रैक्टिस, एमएलओपी: मॉडल शोषण, विसंगति और सहसंबंध विश्लेषण, डेटा स्ट्रीम अलर्ट, एक्सेस कंट्रोल, रिटेंशन पॉलिटिक्स, डेटा एथिक्स और ट्स।
कुल
एनएलपी सुरक्षित इंजेक्शन, भाषा और डोमेन सामान्यीकरण, गुणवत्ता एम्बेडिंग और कार्यों (वर्गीकरण/एनईआर/आरएजी), अवलोकन और एसएलओ की एक उत्पादन पाइपलाइन है। आईगेमिंग में, वह समीक्षाओं, चैट, दस्तावेजों और धाराओं से अराजक पाठ का समाधान में अनुवाद करता है: तेज समर्थन, पारदर्शी अनुपालन, खिलाड़ी के लिए अनुमानित रिलीज और स्पष्ट नियम।