GH GambleHub

ხმოვანი ინტერფეისები და თანაშემწეები

1) რა არის VUI და როდის არის ეს საჭირო

ხმოვანი ინტერფეისი (VUI) არის მეტყველების საშუალებით ურთიერთქმედების მეთოდი: აპლიკაციის/ბრაუზერის ასისტენტები, ჭკვიანი სვეტები, IVR/ტელეფონი, ხმა მანქანაში და ტელევიზორში.
შესაფერისია: ოკუპირებული სცენარები (მართვა, სამზარეულო), სწრაფი გუნდები („ჩართეთ“..., „დარეკეთ“...), ხელმისაწვდომობა, ნავიგაცია რთულ მენიუში.
არ არის შესაფერისი: ზუსტი ვიზუალური არჩევანი (დირექტორია, ცხრილი), სტრუქტურირებული მონაცემების გრძელვადიანი შეყვანა ეკრანის გარეშე.

2) დიალოგის მოდელი: ინტენტი, ბუნება და კონტექსტი

ინტენტი (მიზანი): რაც მომხმარებელს სურს: 'შექმენით _ გადახდა', 'შემოწმება _ ბალანსი'.
სლოტი/არსება: მიზნის პარამეტრები: თანხა, ვალუტა, ადრესატი, თარიღი.
კონტექსტი/დიალოგის სახელმწიფო: რა უკვე ცნობილია, რომ ჩვენ განვმარტავთ, სად ვართ ფილიალი.
დადასტურების წესები: რასაც აშკარად ვადასტურებთ (ფული, პერსონალური მონაცემები).

ინტენტის სქემის მაგალითი (ფსევდო-JSON):
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}

3) დიალოგის ნიმუშები

1. გუნდი ერთი ფრაზით: „შეავსეთ ანგარიში Apple Pay- ის 500 ჰივირნიაზე“. - დადასტურება.
2. დაზუსტებული დიალოგი: „ვინ უნდა თარგმნოს?“ • „რა ოდენობით?“ დადასტურება.
3. ეტაპობრივი ოსტატი: რთული სკრიპტები მონაცემთა გადამოწმებით და საპირისპირო ნაბიჯით.
4. განზრახვა + NLU რეფრაზების აღიარება: ცვალებადი ფორმულირების მხარდაჭერა.
5. სწრაფი ცნობები: „რა არის დასკვნის ზღვრები?“ - მოკლე პასუხი + „აჩვენეთ ეკრანზე“.

4) სიტყვები: ხმა და ტონი

ბრენდის ხმა: თავდაჯერებული, მშვიდი, მეგობრული; შემცირებული და „ხუმრობის“ გარეშე კრიტიკულ ნაბიჯებში (გადახდა, უსაფრთხოება).

მაქს. ასისტენტის რეპლიკის სიგრძე: 1-2 წინადადება; გრძელი პასუხები - დაშლა და შეთავაზება „გაგრძელება?“

კითხვები - კონკრეტული: „რა ოდენობით უნდა შეავსოთ?“ „რას ვაკეთებთ შემდეგ?“

5) დადასტურება, უსაფრთხოება და ეთიკა

მგრძნობიარე ქმედებების მკაცრი დადასტურება: ძირითადი პარამეტრების განხილვა ("ბარათის შევსება 500 ჰირონია... 4581? »)

ორმაგი დადასტურება შეუქცევადი ოპერაციებისთვის.
სრული პერსონალური მონაცემების ხმის გარეშე.
გაუქმების/დაბრუნების შესაძლებლობა: „გაუქმება“, „გაჩერება“, „გაუქმება ბოლო ნაბიჯი“.

6) შეცდომები და გაუგებრობა

წარუმატებლობის და პასუხების ტიპები:
  • ASR შეცდომა (არ მოისმინა): "მე არ მოვისმინე თანხა. გაეცანით, გთხოვთ"
  • NLU უცნობია: "მე არ მესმოდა მოთხოვნა. შემიძლია ანგარიშის შევსება ან ბალანსის ჩვენება. რას აირჩევთ?"
  • არ არსებობს მონაცემები/შეზღუდვა: "ეს მეთოდი მიუწვდომელია თქვენს რეგიონში. დაასახელეთ სხვა ვარიანტები?"
  • ქსელი/სერვისი: "ახლა არ არის კავშირი გადახდის მომსახურებასთან. ერთი წუთის შემდეგ გამეორება?"

წესი: მაქსიმუმ 2 ჩხრეკის მცდელობა ალტერნატივის შეთავაზება (ეკრანზე/ადამიანზე).

7) სიჩქარე და ბარგი (შეფერხება)

TTFB ლატენტობა: სამიზნე <300-500 ms; თუ უფრო გრძელი - მოკლე „em-mm“ - სიგნალი/earcon.
Barge-in: მომხმარებელს შეუძლია შეუშალოს ასისტენტი ნებისმიერ დროს; ჩვენ სწორად ვამუშავებთ შეწყვეტას.
პასუხის ნაკადი: ჩვენ ვიწყებთ საუბარს უფრო ადრე, ვიდრე მთელი ტექსტი მზად არის, მაგრამ აზრი არ აქვს.

8) TTS/ASR და SSML: როგორ ვილაპარაკოთ „ჰუმანურად“

რიცხვების/ვალუტის/თარიღების გამოთქმა: ადგილობრივი ფორმატები („p 'yatsot hryvnin“, „15 ფოთლოვანი პადა“).
პაუზები და სტრესი: SSML '<break time = „300ms “/>„, <emphasis level = “moderate„> “.
აბრევიატურა/კოდების კითხვა: '<say-as interpret-as = „characters“> IBAN </say-as>'.
სიჩქარე და ტემბრი: არა უფრო სწრაფად, ვიდრე 0. 9 × ბაზა, ისე, რომ გააზრებული იყოს.

SSML მაგალითი:
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>

9) მულტიმედიური: ხმა + ეკრანი

ვიზუალური რჩევები: დადასტურების ბარათი, მეთოდების სია, პროგრესი.

Hand-off ეკრანზე: "ეკრანზე გამოვგზავნე პარამეტრები. შეარჩიეთ მეთოდი"

სახელმწიფოს სინქრონიზაცია: ხმა ინიცირდება, ეკრანი მთავრდება (და პირიქით).

10) მრავალენოვანი და ლოკალიზაცია

ენის ავტოინდუსტრია სესიაზე/კონფიგურაციაში და არა ერთი ფრაზით.
ტერმინების გლოსარიუმი: ერთი ტერმინოლოგია RU/UA/TR/EN.
რეგიონალური რიცხვების/ვალუტის/თარიღების ფორმატები, სახელების/ტოპონიმების გამოთქმა.
დიალოგში გადართვა: „წასვლა უკრაინულ ენაზე“ აშკარა გუნდია.

11) ხმაში წვდომა (A11y)

მოქმედებების დადასტურება მკაფიო და მოკლეა.
გამეორება თხოვნით: „განმეორება“ გამოთქვამს ბოლო შენიშვნას.
მოცულობა/სიჩქარე: „ილაპარაკე ნელა/მშვიდად/ხმამაღლა“.
სმენადაქვეითებულთათვის: ეკრანზე სუბტიტრები/ტრანსკრიპტი, ვიბრაციული სიგნალები.
მეტყველების დარღვევისთვის: შეყვანის ალტერნატიული მეთოდები (ღილაკი, პრესეტები).

12) კონფიდენციალურობა, ლოჯისტიკა და შესაბამისობა

Wake word და ჩაწერის ინდიკატორი: აშკარა მდგომარეობა „ვუსმენ“.
ადგილობრივი დამუშავება, თუ შესაძლებელია; წინააღმდეგ შემთხვევაში - მონაცემთა შემცირება.
მგრძნობიარე ფრაგმენტების შენიღბვა ლოგებში (PAN, IBAN, მისამართი) და აუდიო მანქანის რედაქტორები.
შენახვის დრო და მოთხოვნის ამოღების უფლება; პარამეტრები „არ შეინახოთ ისტორია“.
ასაკობრივი შეზღუდვები/მშობლების კონტროლი (ბავშვთა ხმები/გუნდები).

გამჭვირვალობა: "მე ვწერდი ამ გუნდს აღიარების გასაუმჯობესებლად. თქვენ შეგიძლიათ გამორთოთ პარამეტრებში"

13) პიროვნება ასისტენტი

სახელი/პიროვნება: მოკლე ბიოგრაფია, კომპეტენციის სფერო, რომელსაც შეუძლია/არ იცის როგორ.
სიტუაციების ტონი: ჩვეულებრივი (მეგობრული), კრიტიკული (ნეიტრალური), ტრენინგი (დამხმარე).

საზღვრები: „არ ვაძლევ ფინანსურ რჩევებს, მაგრამ შემიძლია ვაჩვენო სერთიფიკატი.“

14) VUI ხარისხის მეტრიკა

Intent recognition (NLU სიზუსტე).
Slot fill rate и avg. turns to fill.
ASR WER/CER (სიტყვის/სიმბოლოების ამოცნობის შეცდომა).
Task Success / Completion rate и Time-to-Complete.
ესკალაცია (ოპერატორ/ეკრანზე).
Barge-in usage и Latency p95.
User Satisfaction/CSAT სცენარის შემდეგ.
Abandonment ერთი ნაბიჯით.

15) ტესტირება და QA ხმები

ტესტის ფრაზების ნაკრები: სინონიმები, კოლოქური ფორმები, აქცენტები, შეცდომები.
გარემოს ხმაური: ქუჩა/მანქანა/სამზარეულო, სხვადასხვა მიკროფონები.
მიმღები დიალოგი: რეპროდუქციული სკრიპტები, ოქროს ნაკრები რეგრესიისთვის.
Wizard-of-Oz ადრეულ ეტაპზე.
იურიდიული სცენარები: როგორ რეაგირებს ასისტენტი პოტენციურად სახიფათო მოთხოვნებზე.

16) ინტეგრაცია პროდუქტთან (iGaming შემთხვევები)

ბალანსი/ანაბარი/დასკვნა: "რა ბალანსია? "", შეავსეთ 200 UAH"..., "დასკვნის სტატუსი".
პრემიები/მისიები: "რა პრემიებია ხელმისაწვდომი? "", გააქტიურე ყოველკვირეული ფულადი სახსრები".

საპასუხისმგებლო თამაში: „დააწესეთ დეპოზიტის ლიმიტი კვირაში 1000 UAH.“

სისტემების სტატუსი: „ახლა არსებობს ტექნიკური სამუშაოები?“

17) ანტი შაბლონები

ასისტენტის გრძელი მონოლოგები შეფერხების გარეშე.
ფულადი ოპერაციების აშკარა დადასტურება.
ალტერნატიული „არ მესმის“ ვარიანტების გარეშე.
ხელახალი ბგერები/ჯინგლები, რომლებიც ხელს უშლის აღქმას.
„ხმის“ მცდელობა პრობლემების გადასაჭრელად, სადაც საჭიროა დეტალური ვიზუალური არჩევანი.

18) პრომტებისა და პასუხების შაბლონები

სლოტის განმარტება (თანხა):
  • ასისტენტი: „რა ოდენობით შეავსეთ ანგარიში?“
  • მომხმარებელი: „ხუთასი.“
  • ასისტენტი: "შეავსეთ 500 გრივნა? დაადასტურა, გთხოვთ"
მგრძნობიარე მოქმედების დადასტურება:
  • "დაადასტურეთ ბარათით 500 ჰივირნიის შევსება... 4581. თქვით "მე ვადასტურებ" ან "გაუქმება""
გაუგებრობა + სახელმძღვანელო რჩევა:
  • "არ მესმოდა გადახდის მეთოდი. შემიძლია შემოგთავაზოთ: Apple Pay, რუკა, კრიპტოვალუტა. რას აირჩევთ?"
ეკრანზე ესკალაცია:
  • "ეკრანზე გააგზავნა ხელმისაწვდომი მეთოდები. შეარჩიეთ და უთხარით, რომ მზად ხართ. "

19) SSML ნიმუშების მაგალითები

რიცხვები/ვალუტა და პაუზა:
xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
აქცენტი მნიშვნელოვან სიტყვაზე:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
აბრევიატურა:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>

20) ჩეკის ფურცლები

დიალოგი/შინაარსი გამოსვლამდე

  • თითოეული ინტენტისთვის - სინონიმების სია/ფრაზის ვარიანტები.
  • ყოველი სავალდებულო სლოტისთვის - ერთი მკაფიო კითხვა.
  • მგრძნობიარე მოქმედებები - აშკარა დადასტურებით.
  • არსებობს მოკლე ალტერნატივა „ეკრანზე „/„ ოპერატორი “.
  • შენიშვნები - 2 წინადადება; გრძელი - "გაგრძელება? ».

ტექნიკა და ხარისხი

  • მხარი დაუჭირა ბარგი-ინ და დიალოგის დაბრუნება შეფერხების შემდეგ.

ლატენტობა p95 ნორმალურია; შეფერხების დროს არის earcons.

  • SSML მორგებულია: პაუზები, რიცხვები, სტრესი.
  • ლოგოები ანონიმურია/შენიღბული; არსებობს ისტორიის მენეჯმენტი.

შემოწმებულია მრავალენოვანი და ადგილობრივი ფორმატები.

A11y და უსაფრთხოება

  • „გამეორება/ლაპარაკი უფრო ნელა/ხმამაღლა“ მუშაობს.
  • სრული პერსონალური/გადახდის მონაცემები არ არის გამოცხადებული.
  • არსებობს ხმის გაუქმება/გამოტოვება.

შემოწმებულია ასაკობრივი და რეგიონალური შეზღუდვები.

21) დიალოგის სპეციფიკაციის ჩარჩო (შაბლონი)

სცენარის მიზანი: (მაგალითად, დეპოზიტი 90 წამი)

ინტენტები და სინონიმები: ფრაზების მაგალითების სია.
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
დადასტურების წესები: რა ღირებულებები/ბარიერები მოითხოვს განმეორებას.
შეცდომების ვარიანტები: ASR, NLU, არ არსებობს მომსახურება - ტექსტები + ფილიალი.
მულტიმოდური გასასვლელი: რა ბარათებს/ეკრანებს ვაჩვენებთ.
ლოგოები და კონფიდენციალურობა: რაც შენიღბულია, TTL შენახვა.

საბოლოო ყალბი ფურცელი

ჯერ ინტენტი/სლოტი/დადასტურების წესები, შემდეგ ტექსტები.
მოკლედ ისაუბრეთ, შეუშალეთ ხელი და გააუქმა.
SSML პარამეტრები, ადგილობრივი ფორმატები და კონტექსტის ტონი.
შეინარჩუნეთ კონფიდენციალურობა და ლოჯისტიკა კონტროლის ქვეშ.
გაზომეთ Intent/Slot/ASR მეტრიკა, Task Success და ლატენტობა.
ყოველთვის გქონდეთ ალტერნატივა ეკრანზე და გზა ადამიანისკენ.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

Telegram
@Gamble_GC
ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.