GH GambleHub

NLP და ტექსტების დამუშავება

1) რატომ არის iGaming პლატფორმა NLP

მხარდაჭერა და შენარჩუნება: თიკეტების მანქანის კლასიფიკაცია, მარშრუტიზაცია, მზა პასუხები.
პროდუქტი და ASO: მიმოხილვების ანალიზი/გამოშვება, განახლებების გავლენის მონიტორინგი.
შესაბამისობა და რისკი: PII/ფინანსების აღმოჩენა, RG სიგნალები, საეჭვო სქემები.
მარკეტინგი/CRM: სეგმენტი თემებზე/განზრახვებზე, პირადი შეტყობინებების წარმოქმნა.
ცოდნის ძიება: სწრაფი წვდომა FAQ/პოლიტიკოსებზე/პროვაიდერების წესები, Q & A.
ოპერაციები: აქციების პირობების პარსინგი, PSP, SLA პარტნიორების ლიმიტები.

2) ტექსტებისა და ინჟესტის წყაროები

არხები: ticets და sapport ჩეთები, App Store/Google Play, სოციალური ქსელები/ფორუმები/ტელეგრაფები, ელექტრონული ფოსტის/ვებ ფორმები, შიდა ვიკები/პოლიტიკოსები, თამაშის პროვაიდერების და PSP- ის გამოშვება, ზარის/ნაკადის (ASR), Pდოკუმენტები (OCCCD).

ნორმალიზაცია:
  • დედუპლიკაცია, ბოტების/სპამის აღმოფხვრა;
  • ენის განმარტება (ru/tr/es/pt/en/ka/...);
  • UTF-8- ის მიტანა, ემოჯი/ჟარგონის/ტრანსლიტის ნორმალიზაცია;
  • მეტამონაცემების აღნიშვნა: არხი, ენა, აპლიკაცია/ვერსია, ქვეყანა, ბრენდი, თამაში/პროვაიდერი, პრიორიტეტი.

3) კონფიდენციალურობა და PII გამოცემა (by default)

PII აღმოჩენა და გამოცემა: FIO, ტელეფონები, ელ.ფოსტა, ბარათები/IBAN, მისამართები, doc-ids.
იდენტიფიკატორების ტოქსიკაცია (player _ id 'u _ tok _'), ნედლეული PII- ის აკრძალვა ლოგოებში/იხვებში.
DSAR: საგნის ნიშნის სწრაფი ძებნა/მოცილება; Legal Hold - WORM ჟურნალი.
Geo/tenant იზოლაცია: ტექსტი და გასაღებები რეგიონში ლიცენზია.

4) ძირითადი ენათმეცნიერება

ტოკენიზაცია (emoji/hashtags/smayles) და წინადადებების სეგმენტი.
ნორმალიზაცია: lowercasing, დიაკრიტიკის მოხსნა (ენებზე), ტიპების გამოსწორება.
ლემატიზაცია/სტემინგი (ru/tr/es/pt/en), მორფოლოგიური ეტიკეტები (POS).
Stop სიტყვები: ენა/დომენის დამოკიდებული სიები (iGaming-lensia არ უნდა იყოს მოჭრილი).
ჟარგონი/ჟარგონი: ლექსიკონები („frispins“, „opation“, „წონასწორობა“, „Papara“, „withdraw pending“).

5) ტექსტის წარმოდგენა

კლასიკური: n-grams, TF-IDF - სწრაფი ბასი კლასიფიკაციისთვის/ძებნისთვის.
Ambedings: მრავალენოვანი ტრანსფორმატორები (sentence/dual encoders) - ძებნა, კლასტერიზაცია, RAG, დედუპლიკაცია.
დომენურ-დამატებითი ემბედინგები: ჩვენ დამატებით ვვარჯიშობთ საფოსტო/მიმოხილვების შემთხვევას/პოლიტიკოსს, როგორც შესაბამისობას.
ჰიბრიდი: BM25 + ვექტორული ძებნა (ANN) - მაღალი საფარი და სიზუსტე.

6) დავალებების კლასი და მაგალითები

კლასიფიკაცია: თემა (გადახდა, KYC, პრემია, პროვაიდერი, RG), სერიოზულობა, განზრახვა.
NER/RE: არსებები (PSP, პროვაიდერები, თამაშები, ვალუტები, დოკუმენტები), კომუნიკაციები (პროვაიდერი, თამაში, PSP, ქვეყანა/მეთოდი).
წესების მოპოვება: ბონუსის/ნომინაციის პირობების პარსინგი, PSP ლიმიტები (თანხები, დრო, ქვეყანა).

შეჯამება: თიკეტები/ძაფები/პოლიტიკა, "TL; DR საფორტეპიანო და მენეჯერისთვის."

Q & A/ცოდნის ძებნა: პასუხები ვიკიდან/FAQ/რეგულაციებიდან, RG/AML პროცესების ახსნა.
მოდერაცია/ტოქსიკურობა: ამპარტავანი ლექსიკის, მუქარის, თაღლითობის გამოვლენა.
გადაცემა/ლოკალიზაცია: MT დომენის ტერმინალით, post-edit.
ASR/OCR - ტექსტი: წერილები, სკანერები, ზარები, სტრიმები - ანალიზურ ტექსტში.

7) ძებნა და RAG (Retrieval-Augmented თაობა)

ინდექსირება: BM25 „გრძელი კუდისთვის“, ANN (HNSW/IVF) ემბედინგისთვის.
Chunking: 512-2048 ნიშანი, overlap; სეგმენტი სექციებში/სათაურებში.
Reancers: cross-encoder, რომ გაზარდოს ტოპ k სიზუსტე.
ციტირება: პასუხები წყაროების მითითებით (id/სათაური/Viki ვერსია).
Guardrails: „ჰალუცინაციების“ აკრძალვა სხეულის გარეთ; დომენის შეზღუდვა.
მრავალენოვანი: მოთხოვნა მომხმარებლის ენაზე, დოკუმენტები - სხვადასხვა ენაზე - use მრავალენოვანი ემბედინგი.

8) თემები და ასპექტები

თემატური მოდელირება: BERTopic/LDA თემებისთვის.
Aspect-based NLP: ასპექტებისა და ტონალობის ერთობლივი მოდელი (იხ. სექცია „მიმოხილვების სენტიმენტი-ანალიზი“).
ასპექტების კატალოგი: გადახდები/დასკვნები/CCC/ბონუსები/კრამიტები/ლოკალიზაცია/მხარდაჭერა/კონკრეტული პროვაიდერი.

9) მოდერაცია და რისკი

ტოქსიკურობა/აბიუსი: მრავალ დონის კლასიფიკაცია (offensive, hate, threat).
თაღლითობა/სოციალური ინჟინერია: ნიმუშები „chargeback advice“, „გვერდის ავლით KYC“, ბმულები ნაცრისფერ სქემებზე.
RG სიგნალები: იმედგაცრუება/აგრესია/თვითშეფასება - ცალკეულ არხსა და მოქმედების პოლიტიკაში.
კონფიდენციალურობა: კონფიდენციალურობა მოდერაციამდე; ლოგოები PII გარეშე.

10) ხარისხის მეტრიკა

კლასიფიკაცია/NER: Accuracy, macro/micro F1, per კლასის F1 (განსაკუთრებით „იშვიათი“ კლასები).
NER/RE: F1 @ span ერთეულებისთვის, F1 @ rel კომუნიკაციებისთვის.
ძებნა: nDCG @ k, Recall @ k, MRR; ჰიბრიდებისთვის - ციტატებით პასუხების წილი.
შეჯამება: ROUGE/BERTSORE + human rubric (გაგება/სიზუსტე/სიმკვრივე).
RAG/Q & A: Exact/Partial Match, Faithfulness (ციტირებული ფაქტების პროცენტი), Answer Rate.
მრავალენოვანი: მეტრიკა ენებზე/არხებზე.
ოპერატორი: p95 ლატენტობა, cost/მოთხოვნა, hit-rate ქეში,% Zero-PII ლოგოებში.

11) არქიტექტურა და დალაგება

11. 1 „ნედლეული ტექსტის“ ნაკადი

1. Ingest (API/webhooks/პარსერები/OCR/ASR)

2. PII-redact - ენა - ნორმალიზაცია (ემოჯი/ჟარგონი/ნიშნები)

3. Ambedingi/fichi (ნიშნების კატალოგი)

4. დავალებები: კლასიფიკაცია/NER/ტონი/მოდერაცია/წესების მოპოვება

5. აგრეგაციები (ოქროს), ალერტები და დაშბორდები

11. 2 ძებნა/RAG

BM25 + ვექტორული ინდექსი; მდინარე, ციტატები, პასუხის ქეში; პოლიტიკა „მინიმალური N დოკუმენტები“ (კ-ანონიმურობა).

11. 3 სერვინგი

ონლაინ API კლასიფიკაცია/ძებნა/Q & A; batch საპირისპირო ინდექსაციისთვის/ASO ანალიტიკოსები; stream chats/strimes.

12) MLOps და ოპერაცია

მოდელების შერჩევა: ვერსია, თარიღი, სასწავლო მონაცემები, მეტრიკა, გამოყენების შეზღუდვები.
Shadow/Canary/Blue-Green გამოშვებები; rollback ხარისხის/ეთიკის/ლატენტობის ზღურბლზე.
მონიტორინგი: ლექსიკის/ენების დრიფტი (PSI), ლატენტობა, ტოქსიკურობა FP/FN, faithfulness RAG.
Cost მენეჯმენტი: ემბედინგის/პასუხების კაშხალი, დისტილაცია/ქვითარი, როუტინგი „მსუბუქი/მძიმე“ მოდელი.

13) ინტეგრაცია (use-cases)

Sapport: ticets auto-traight (გადახდები/KUS/პრემია), პრიორიტეტი სერიოზულობაში, მზა პასუხები; თარგმანი პოსტ რედაქტორით.
პროდუქტი/Dev: ბარგის რეპორტების კლასტერიზაცია, ძაფების შეჯამება, „საღებავების შაბლონების“ მოპოვება (მოდელი/OS/თამაში).
მარკეტინგი/ASO: მიზეზების მოპოვება „1“, FAQ/ბანერების სტატუსი.
RG/Complaens: მგრძნობიარე შემთხვევების ავტომატური მარშრუტიზაცია, ტოქსიკურობის კონტროლი.
ოპერაციები: პროვაიდერის წესების/PSP ლიმიტის პარსინგი, ალერტები ფორმულირების ცვლილებებში.

14) შაბლონები (გამოსაყენებლად მზად)

14. 1 ინვესტიციის პოლიტიკა (SLO/Privacy)

yaml nlp_service: texts. core slo:
p95_latency_ms: 250 success_rate: 0. 995 privacy:
pii_redaction: true min_group_size: 20 monitoring:
drift_psi_max: 0. 2 faithfulness_min: 0. 9 # for RAG responses

14. 2 ოქროს: nlp _ events სქემა

yaml timestamp: TIMESTAMP brand: STRING country: STRING lang: STRING channel: STRING     # appstore, support, social, faq, policy topic: STRING      # payments, kyc, promo, provider, rg,...
sentiment: STRING    # neg/neu/pos toxicity: STRING     # none/low/med/high entities: ARRAY<STRUCT<type STRING, text STRING, norm STRING>>
actions: ARRAY<STRING>  # routed_to_support, faq_update, rg_notify source_id: STRING    # trace/корреляция

14. 3 DSL წესის მაგალითი (რისკის ლექსიკონის ალერტი)

yaml rule_id: rg_escalation_lang source: stream:nlp_events when:
topic: ["rg"]
toxicity: ["med","high"]
sentiment: ["neg"]
lang: ["ru","tr","es","pt"]
confirm: {breaches_required: 2, within: PT10M}
actions:
- route: pagerduty:rg
- create_case: {type: "rg_review", ttl: P14D}
privacy: {pii_in_payload: false}

14. 4 აფეთქების ღუმელის ლექსიკის კატალოგი (ფრაგმენტი)

yaml glossary:
payments: ["deposit","withdraw","Papara","Mefete","chargeback","KYC","IBAN"]
promo: ["bonus","freespins","wagering","cashback","RTP"]
rg: ["self-exclusion","limit","cooldown","loss streak"]
provider: ["Pragmatic Play","NetEnt","Spribe","Hacksaw"]

15) წარმატების მეტრიკა (ბიზნესი/ოპერაციები)

საფოსტო: ავტომატური მარშრუტი ესკალაციის გარეშე, MTTA/MTTR, „ერთგული“ მაკროების%.
ASO/NPS: SI/ტონალობის კორელაცია რეიტინგთან და შენარჩუნებასთან.
შესაბამისობა: ნულოვანი PII გაჟონვა; SLA DSAR; სწორი RG მარშრუტიზაციის წილი.
ძებნა/RAG: ციტატებით პასუხების წილი, პასუხის დრო, აგენტების კმაყოფილება.
ღირებულება: $1k მოთხოვნა, hit-rate ქეში, დისტილაციის დაზოგვა.

16) გზის განხორციელების რუკა

0-30 დღე (MVP)

1. Ingest sapports და მიმოხილვები, PII გამოცემა, ენა/ნორმალიზაცია.
2. ბასლაინები: თემების კლასიფიკაცია, ტონალობა, ტოქსიკურობა (მრავალენოვანი მოდელები).
3. ჰიბრიდული ძებნა (VM25 + ვექტორი) FAQ/პოლიტიკოსებისთვის; RAG ციტატებით.
4. დაშბორდები SLO/ხარისხი; Zero-PII ლოგებში.

30-90 დღე

1. NER/RE PSP/პროვაიდერების/ბონუსის წესების შესახებ; ლიმიტების ამობეჭდვა.
2. Aspect-based SA, ტიკეტების შეჯამება, ავტო პასუხები (HITL).
3. Shadow - ჟანრული გამოშვებები, ლექსიკის/ენების დრიფტის მონიტორინგი.
4. სტრიმების/ჩატების მოდერაცია რეალურ დროში; ალერტები RG/გადახდები.

3-6 თვე

1. აფეთქების ღუმელის ემბედინგი, დისტილაცია; budgets ღირებულებით.
2. სერტიფიკატების ავტომატური წარმოება/FAQ/ელექტრონული ფოსტის შაბლონები RAG- დან.
3. კონტრაქტების პარსინგი/პროვაიდერების განთავისუფლება, ალერტები პირობების ცვლილებისას.
4. კონფიდენციალურობის გარე აუდიტი და ლექსიკონის/ასპექტების რეგულარული ჰიგიენის სესიები.

17) ანტი შაბლონები

ლოგები/დაშბორდები PII- ით; ქვიშის ყუთებში თარგმნა რედაქტირების გარეშე.
„ერთი ზომა“ ყველა ენაზე/არხზე; ჟარგონის/ემოჯის უგულებელყოფა.
Q&A წყაროების ციტირების გარეშე (ჰალუცინაციები).
ტიკეტების ხელით სამჯერ „სამუდამოდ“ - მანქანის კლასიფიკაციისა და SLO- ს გარეშე.
მოდელი დრიფტის/ეთიკის და როლბაკის გეგმის მონიტორინგის გარეშე.

18) დაკავშირებული მონაკვეთები

მიმოხილვების, API ანალიტიკოსებისა და მეტრიკის, DataOps პრაქტიკის, MLOps: მოდელების ექსპლუატაცია, ანომალიების და კორელაციების ანალიზი, ალერტა მონაცემთა ნაკადებიდან, წვდომის კონტროლი, შენახვის პოლიტიკა, მონაცემთა ეთიკა და გამჭვირვალობა.

შედეგი

NLP არის წარმოების კონვეიერი: უსაფრთხო ინჟესტი, ენისა და აფეთქების ღუმელის ნორმალიზაცია, მაღალი ხარისხის ემბედინგი და დავალებები (კლასიფიკაცია/NER/RAG), დაკვირვება და SLO. IGaming- ში იგი თარგმნის ქაოტურ ტექსტს მიმოხილვების, ჩატის, დოკუმენტების და ნაკადების გადაწყვეტილებებში: უფრო სწრაფად, ვიდრე sapport, გამჭვირვალე შესაბამისობა, პროგნოზირებადი გამოშვებები და მოთამაშისთვის გასაგები წესები.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.