NLP և տեքստերի մշակում
1) Ինչու՞ iGaming-պլատֆորմը NLP
Աջակցություն և պահպանում 'թիկետների ավտոտիկ դասակարգում, միկրոօրգանիզացիա, պատրաստ պատասխաններ։
Արտադրանքը և ASO-ը 'ակնարկների վերլուծություն/ռելիզի-նոտ, ռուսական ազդեցությունները։
Կոմպլենսը և ռիսկը 'PII/ֆինանսական հայտնաբերումը, RG ազդանշանները, կասկածելի սխեմաները։
Մարքեթինգը/CRM 'ինտեգրման/մտադրությունների հատվածներ, անձնական հաղորդագրությունների արտադրություն։
Գիտելիքի որոնում 'արագ հասանելիություն FAQ/քաղաքական/պրովայդերների կանոններին, Q & A.
Վիրահատություններ ՝ գործողությունների պայմանների, PSA-ի, SLA գործընկերների սահմանափակումների պարսինգը։
2) Տեքստերի և ներարկումների աղբյուրները
Ալիքները ՝ tikets և chates sapport, App Store/Google Play, սոցիալական ցանցեր/հեռագրեր, e-mail/վեբ ձևեր, ներքին վիկ/քաղաքականություն, խաղերի և PBS-ի մասսայական նոտաներ, զանգերի/strimes (ASR), PDF (OCCR) փաստաթղթեր։
Նորմալացում
deduplication, bot/spama;
լեզվի սահմանումը (ru/tr/es/pt/en/ka/...);
հանգեցրեք UTF-8-ին, էմոջիի/սլենգի/տրանզլիտի նորմալացումը;
մետատվյալներ 'ջրանցք, լեզու, ծրագիր/տարբերակ, երկիր, բրենդ, խաղ/պրովայդեր, գերակայություն։
3) Մասնավորությունը և PII խմբագրությունը (by no)
PII-ի հայտնաբերումն ու խմբագրությունը 'FIO, հեռախոսներ, e-mail, քարտեզներ/IBAN, 108, doc-ids։
Ֆոսֆատորների թոկենիզացիան (player _ id 'u _ tok _ "), հում PII-ի արգելքը լոգարաններում/ֆիչներում։
DSAR 'արագ փնտրել/հեռացնել առարկայի հոսքը; Legal Hold-ը WORM-լոգ է։
Geo/tenant-մեկուսացում 'տեքստի պահպանումը և պահպանումը լիցենզիայի տարածքում։
4) Ռուսական լեզվաբանությունը
Տոկենիզացիան (հաշվի առնելով էմոջին/հեշթեգները/սմայլները) և առաջարկների հատվածը։
Նորմալացում ՝ lowercasing, դիակրիտիկայի վերացում (լեզուներով), տպագրության ուղղում։
Lemmatization/stemmming (ru/tr/es/pt/en), մորֆոլոգիական միացություններ (POS)։
Stop-բառերը 'լեզուն/տոմեն-կախվածության ցուցակները (iGaming-բառապաշար չպետք է կտրվի)։
Սլենգ/ժարգոն 'բառարաններ («ֆրիպիններ», «հավաքում», «հավասարակշռություն», «Papara», «withdrenspending»)։
5) Տեքստի ներկայացումները
Դասական 'n-գրամ, TF-IDF-ը արագ baseline-ն է դասակարգման/որոնման համար։
Էմբեդինգները 'բազմալեզու տրանսֆորմատորներ (sentence/densencoders) են որոնում, կլաստերիզացիա, RAG, deduplication։
Սանիտարահիգիենիկ սաղմեդդինգներ 'մենք լրացուցիչ դասընթացներ ենք անցկացնում կոշիկների/ակնարկների/քաղաքական գործչի դիակների վրա։
Հիբրիդ ՝ BM25 + վեկտորային որոնումը (ANN) բացատրվում է բարձր ծածկույթով և ճշգրտությամբ։
6) Առաջադրանքների դասը և օրինակները
Դասակարգումը 'թեման (վճարումներ, KYC, բոնուսներ, պրովայդեր, RG), լրջությունը, մտադրությունը։
NER/RE: Էության (PSA, պրովայդերներ, խաղեր, արժույթներ, փաստաթղթեր), կապեր (պրովայդեր ռուսական խաղը, PSA/մեթոդ)։
Կանոնների ներհոսքը 'բոնուսների/հավաքման պայմանների պարսինգը, PSA-ի սահմանները (գումարներ, ժամանակ, երկրներ)։
Ամփոփում ՝ թիկետներ/տրեդներ/քաղաքականություն, "TL; DR կոշիկի և մենեջերի համար"։
Q & A/գիտելիքների որոնումը 'պատասխաններ վիկայից/FAQ/լուծումներից, RG/AML գործընթացներից։
Մոդերացիա/թունավորություն 'սխալ բառապաշարի, սպառնալիքների, խաբեությունների հայտնաբերումը։
Թարգմանություն/տեղայնացում ՝ MT, տիրույթի գլոսարիում, post-edit։
ASR/OCR-ն նկարագրում է տեքստը ՝ նամակներ, սկաններ, զանգեր, ստրիմաներ, վերլուծված տեքստում։
7) Որոնում և RAG (Retrieval-Augmented Generation)
Ինդեքսավորում: BM25 «երկար պոչի» համար, ANN (HNSW/IVF) սաղմների համար։
Chunking: 512-2048 հոսքեր, overlap; հատվածներ/վերնագրեր։
Reankers: cross-encoder-ը լավագույն k-ի ճշգրտությունը բարձրացնելու համար։
Մեջբերում 'պատասխաններ, որոնք ցույց են տալիս աղբյուրները (id/վերնագիր/վիքի տարբերակը)։
Guardrails '«հալյուցինացիաների» արգելքը շենքից դուրս։ սահմանափակում։
Բազմալեզու ՝ օգտագործողի լեզվով հարցումը, փաստաթղթերը տարբեր լեզուներով են։
8) Թեմաներ և ասպեկտներ
Թեմատիկ մոդելավորում ՝ BERTOpic/LDA-ի համար covery թեմաների համար։
Aspast-based NLP-ը ասպեկտների և տոնայնության համատեղ մոդել է (տե՛ ս «Sentiment-ակնարկների վերլուծություն» բաժինը)։
Ասպեկտների կատալոգը 'վճարումներ/եզրակացություններ/CUS/բոնուսներ/ներկեր/աջակցություն/հատուկ պրովայդեր։
9) Մոդերացիա և ռիսկ
Թունավորությունը/աբյուզը 'բազմաբնույթ դասակարգում (dive, hate, threat)։
Խարդախություն/soz-ingininining 'chargeback advice-ի արտոնագրեր, «շրջանցել KYC», հղում մոխրագույն սխեմաներին։
RG ազդանշաններ 'մրգություն/ագրեսիա/ինքնազարգացում' առանձին ալիքի և գործողությունների քաղաքականության մեջ։
Գաղտնիությունը 'redaction մոդերացիայից առաջ; լոգներ առանց PII։
10) Որակի մետրերը
Դասակարգում/NER: Accuracy, macro/micro F1, per-class F1 (հատկապես «հազվագյուտ» դասարաններ)։
NER/RE: F1 @ in էակների համար, F1 @ rel կապերի համար։
Որոնում: nDCG @ k, Recall @ k, MRR; հիբրիդների համար մեջբերումների պատասխանների մի մասն է։
Ամփոփում ՝ ROUGE/BERSA 35+ human rubric (հասկանալի/ճշգրտություն/համառություն)։
RAG/Q & A: Exact/Partial Match, Faithfulness (մեջբերված փաստերի տոկոսը), Answer Rate-ը։
Բազմապատկություն 'մետրիտներ լեզուներով/108։
Վիրահատություն ՝ p95 լատենտ, cost/հարցում, hit-rate,% Zero-PII լոգարաններում։
11) Ճարտարապետությունը և փետուրները
11. 1 Հոսք «հում տեքստը ազդանշան է»
1. Ingest (API/webhooks/parsers/OCR/ASR)
2. PII-redact-ը բացատրում է լեզուն նորմալացում (էմոջի/լենգ/հոսանքներ)
3. Էմբեդինգներ/ֆիչին (նշանների կատալոգ)
4. Առաջադրանքներ ՝ դասակարգում/NER/ton/մոդերացիա/կանոնների ոլորտ
5. Ագրեգացիաներ (Gold), ալտերտներ և դաշբորդներ
11. 2 Որոնում/RAG
BM25 + վեկտորային ինդեքսը; ռելանկը, մեջբերումները, պատասխանների քեշը; «Առնվազն N փաստաթղթերի» քաղաքականությունը (k-անունություն)։
11. 3 Սերվինգ
Առցանց API դասակարգման/որոնման/Q & A; batch հետադարձ ինդեքսավորման/ASO վերլուծաբաններ; stream chats/strimes մոդերնիզացիայի համար։
12) MLOps-ը և գործողությունը
Registry մոդելները 'տարբերակը, ամսաթիվը, ուսուցման տվյալները, մետրիկները, օգտագործման սահմանափակումները։
Shadow/Canary/Blue-Green ենթախմբերը; rollback որակի/էթիկայի/լատենտության շեմերով։
Իսպանիան 'բառապաշարի/լեզուների (PSI), լատենտ, FP/FN թունավորությունը, faithfulness RAG։
Կոստ-մենեջմենթ 'էմբեդինգների/պատասխանների քեշինգը, ինդեքսավորումը/քվանտիզացիան, ռոտինգը «թեթև/ծանր» մոդելը։
13) Մոսկվա (use-cases)
Sapport: tikets (վճարումներ/CUS/բոնուսներ), գերակայություն լուրջ, պատրաստ պատասխաններ։ թարգմանություն փոստի խմբագրից։
Ապրանքը/Dev 'բագ ռեպորտերի կլաստերիզացիա, տրեդների ամփոփում, «ներկերի ձևանմուշների» (մոդել/OS/խաղ)։
Մարքեթինգը/ASO '«1» պատճառների, FAQ/Fanner կարգավիճակի։
RG/Complaens: զգայուն դեպքերի ավտոմատ միկրոակտիվացում, թունավորության վերահսկում։
Վիրահատություններ 'պրովայդերական կանոնների/PBS-ի լիմիտների պարսինգը, ալերտները ձևակերպման փոփոխության ժամանակ։
14) Ձևանմուշները (պատրաստ են օգտագործման համար)
14. 1 Ինֆիլսի քաղաքականությունը (SLO/Privacy)
yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses
14. 2 «Gold: nlp _ events» սխեման
yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING # appstore, support, social, faq, policy topic: STRING # payments, kyc, promo, provider, rg,...
sentiment: STRING # neg/neu/pos toxicity: STRING # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING> # routed_to_support, faq_update, rg_notify source_id: STRING # trace/корреляция
14. 3 DSL կանոնների օրինակ (ռիսկի լեքսիկոնի ալերտ)
yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}
14. 4 Կատալոգի բառապաշարի կատալոգ (հատված)
yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]
15) Հաջողության մետրերը (բիզնես/վիրահատություն)
Սապպորտը 'առանց էսկալացիայի, MTTA/MTTR, «հավատարիմ» մակրոնների տոկոսը։
ASO/NPS: SI/tonaly հարաբերակցությունը վարկանիշի և պահպանման հետ։
Կոմպլենսը 'զրոյական PII արտահոսքեր; SLA DSAR; ճիշտ RG երթուղիների մասնաբաժինը։
Որոնում/RAG 'պատասխանների մասնաբաժինը մեջբերումներով, մինչև պատասխանը, գործակալների բավարարվածությունը։
Արժեքը ՝ դոլար/1k հարցումներ, hit-rate, խնայողություններ։
16) Իրականացման ճանապարհային քարտեզը
0-30 օր (MVP)
1. Ingest sapports և ակնարկներ, PII խմբագրություն, լեզուն/նորմալացում։
2. Բեյզլիններ 'դասակարգում թեմաներով, տոնայնությամբ, թունավորությամբ (բազմալեզու մոդելներ)։
3. Ստացիոնար որոնումը (VM25 + վեկտոր) FAQ/քաղաքական։ RAG-ը մեջբերումներով։
4. Dashbords SLO/որակը; Zero-PII լոգարաններում։
30-90 օր
1. NER/RE-ի համար PMS/պրովայդերների/բոնուսների կանոնները։ լիմիտների բուժումը։
2. Aspast-based SA-ը, tikets, auto-պատասխանները (HITL)։
3. Shadow www.canary, dreefa բառապաշար/լեզուներ։
4. Ստրիմների/չաթի մոդերացիան ռեալթայմայում; RG/վճարումներ։
3-6 ամիս
1. Սանիտարահիգիենիկ սաղմեդդինգները, պլանավորումը։ budgets արժեքով։
2. Հավաստագրերի ավտոմատ արտադրությունը/FAQ/e-mail-ը RAG-ից։
3. Պայմանագրերի պարսինգը/Express-not-sproiders, ալտերտերը պայմանների փոփոխության ժամանակ։
4. Գաղտնիության արտաքին աուդիտը և բառարանների/ասպեկտների հիգիենայի նստաշրջանը։
17) Anti-patterna
Logs/dashbords PII-ից; թարգմանություն առանց խմբագրման։
«Մեկ չափսը» բոլոր լեզուների/ալիքների համար։ ծառայի/էմոջիի անտեսումը։
Q & A-ն առանց աղբյուրների մեջբերման (հալյուցինացիաներ)։
Թիկետների ձեռքով եռյակը «ընդմիշտ» 'առանց մեքենայի դասակարգման և SLO-ի։
Մոդելը առանց դրեյֆի/էթիկայի և rollback պլանի մոնիտորինգի։
18) Կապված հատվածներ
Ակնարկների սենտիմենտալ վերլուծություն, API վերլուծություններ և մետրիկ, Intel Ops, MLOps-ը, մոդելների շահագործումը, անոմալիաների և հարաբերակցությունների վերլուծությունը, Alerta-ը տվյալների հոսքերից, հասանելիության վերահսկումից, պահեստային քաղաքականությունից, տվյալների էթիկայից և թափանցիկությունից։
Արդյունքը
NLP-ն արտադրողական փոխակրիչ է 'անվտանգ ներարկումը, լեզվական և երկրորդային նորմալացումը, որակավոր սաղմեդդինգը և առաջադրանքները (դասակարգում/NER/RAG), դիտարկումը և SLO-ն։ IGaming-ում նա թարգմանում է քաոսային տեքստը ակնարկներից, չատներից, փաստաթղթերից և ստրիմներից որոշումների մեջ 'ավելի արագ կոշիկներ, թափանցիկ համակրանքներ, կանխատեսելի օրինագծեր և խաղացողի համար հասկանալի կանոններ։