ხმოვანი ინტერფეისები და თანაშემწეები
1) რა არის VUI და როდის არის ეს საჭირო
ხმოვანი ინტერფეისი (VUI) არის მეტყველების საშუალებით ურთიერთქმედების მეთოდი: აპლიკაციის/ბრაუზერის ასისტენტები, ჭკვიანი სვეტები, IVR/ტელეფონი, ხმა მანქანაში და ტელევიზორში.
შესაფერისია: ოკუპირებული სცენარები (მართვა, სამზარეულო), სწრაფი გუნდები („ჩართეთ“..., „დარეკეთ“...), ხელმისაწვდომობა, ნავიგაცია რთულ მენიუში.
არ არის შესაფერისი: ზუსტი ვიზუალური არჩევანი (დირექტორია, ცხრილი), სტრუქტურირებული მონაცემების გრძელვადიანი შეყვანა ეკრანის გარეშე.
2) დიალოგის მოდელი: ინტენტი, ბუნება და კონტექსტი
ინტენტი (მიზანი): რაც მომხმარებელს სურს: 'შექმენით _ გადახდა', 'შემოწმება _ ბალანსი'.
სლოტი/არსება: მიზნის პარამეტრები: თანხა, ვალუტა, ადრესატი, თარიღი.
კონტექსტი/დიალოგის სახელმწიფო: რა უკვე ცნობილია, რომ ჩვენ განვმარტავთ, სად ვართ ფილიალი.
დადასტურების წესები: რასაც აშკარად ვადასტურებთ (ფული, პერსონალური მონაცემები).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) დიალოგის ნიმუშები
1. გუნდი ერთი ფრაზით: „შეავსეთ ანგარიში Apple Pay- ის 500 ჰივირნიაზე“. - დადასტურება.
2. დაზუსტებული დიალოგი: „ვინ უნდა თარგმნოს?“ • „რა ოდენობით?“ დადასტურება.
3. ეტაპობრივი ოსტატი: რთული სკრიპტები მონაცემთა გადამოწმებით და საპირისპირო ნაბიჯით.
4. განზრახვა + NLU რეფრაზების აღიარება: ცვალებადი ფორმულირების მხარდაჭერა.
5. სწრაფი ცნობები: „რა არის დასკვნის ზღვრები?“ - მოკლე პასუხი + „აჩვენეთ ეკრანზე“.
4) სიტყვები: ხმა და ტონი
ბრენდის ხმა: თავდაჯერებული, მშვიდი, მეგობრული; შემცირებული და „ხუმრობის“ გარეშე კრიტიკულ ნაბიჯებში (გადახდა, უსაფრთხოება).
მაქს. ასისტენტის რეპლიკის სიგრძე: 1-2 წინადადება; გრძელი პასუხები - დაშლა და შეთავაზება „გაგრძელება?“
კითხვები - კონკრეტული: „რა ოდენობით უნდა შეავსოთ?“ „რას ვაკეთებთ შემდეგ?“
5) დადასტურება, უსაფრთხოება და ეთიკა
მგრძნობიარე ქმედებების მკაცრი დადასტურება: ძირითადი პარამეტრების განხილვა ("ბარათის შევსება 500 ჰირონია... 4581? »)
ორმაგი დადასტურება შეუქცევადი ოპერაციებისთვის.
სრული პერსონალური მონაცემების ხმის გარეშე.
გაუქმების/დაბრუნების შესაძლებლობა: „გაუქმება“, „გაჩერება“, „გაუქმება ბოლო ნაბიჯი“.
6) შეცდომები და გაუგებრობა
წარუმატებლობის და პასუხების ტიპები:- ASR შეცდომა (არ მოისმინა): "მე არ მოვისმინე თანხა. გაეცანით, გთხოვთ"
- NLU უცნობია: "მე არ მესმოდა მოთხოვნა. შემიძლია ანგარიშის შევსება ან ბალანსის ჩვენება. რას აირჩევთ?"
- არ არსებობს მონაცემები/შეზღუდვა: "ეს მეთოდი მიუწვდომელია თქვენს რეგიონში. დაასახელეთ სხვა ვარიანტები?"
- ქსელი/სერვისი: "ახლა არ არის კავშირი გადახდის მომსახურებასთან. ერთი წუთის შემდეგ გამეორება?"
წესი: მაქსიმუმ 2 ჩხრეკის მცდელობა ალტერნატივის შეთავაზება (ეკრანზე/ადამიანზე).
7) სიჩქარე და ბარგი (შეფერხება)
TTFB ლატენტობა: სამიზნე <300-500 ms; თუ უფრო გრძელი - მოკლე „em-mm“ - სიგნალი/earcon.
Barge-in: მომხმარებელს შეუძლია შეუშალოს ასისტენტი ნებისმიერ დროს; ჩვენ სწორად ვამუშავებთ შეწყვეტას.
პასუხის ნაკადი: ჩვენ ვიწყებთ საუბარს უფრო ადრე, ვიდრე მთელი ტექსტი მზად არის, მაგრამ აზრი არ აქვს.
8) TTS/ASR და SSML: როგორ ვილაპარაკოთ „ჰუმანურად“
რიცხვების/ვალუტის/თარიღების გამოთქმა: ადგილობრივი ფორმატები („p 'yatsot hryvnin“, „15 ფოთლოვანი პადა“).
პაუზები და სტრესი: SSML '<break time = „300ms “/>„, <emphasis level = “moderate„> “.
აბრევიატურა/კოდების კითხვა: '<say-as interpret-as = „characters“> IBAN </say-as>'.
სიჩქარე და ტემბრი: არა უფრო სწრაფად, ვიდრე 0. 9 × ბაზა, ისე, რომ გააზრებული იყოს.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) მულტიმედიური: ხმა + ეკრანი
ვიზუალური რჩევები: დადასტურების ბარათი, მეთოდების სია, პროგრესი.
Hand-off ეკრანზე: "ეკრანზე გამოვგზავნე პარამეტრები. შეარჩიეთ მეთოდი"
სახელმწიფოს სინქრონიზაცია: ხმა ინიცირდება, ეკრანი მთავრდება (და პირიქით).
10) მრავალენოვანი და ლოკალიზაცია
ენის ავტოინდუსტრია სესიაზე/კონფიგურაციაში და არა ერთი ფრაზით.
ტერმინების გლოსარიუმი: ერთი ტერმინოლოგია RU/UA/TR/EN.
რეგიონალური რიცხვების/ვალუტის/თარიღების ფორმატები, სახელების/ტოპონიმების გამოთქმა.
დიალოგში გადართვა: „წასვლა უკრაინულ ენაზე“ აშკარა გუნდია.
11) ხმაში წვდომა (A11y)
მოქმედებების დადასტურება მკაფიო და მოკლეა.
გამეორება თხოვნით: „განმეორება“ გამოთქვამს ბოლო შენიშვნას.
მოცულობა/სიჩქარე: „ილაპარაკე ნელა/მშვიდად/ხმამაღლა“.
სმენადაქვეითებულთათვის: ეკრანზე სუბტიტრები/ტრანსკრიპტი, ვიბრაციული სიგნალები.
მეტყველების დარღვევისთვის: შეყვანის ალტერნატიული მეთოდები (ღილაკი, პრესეტები).
12) კონფიდენციალურობა, ლოჯისტიკა და შესაბამისობა
Wake word და ჩაწერის ინდიკატორი: აშკარა მდგომარეობა „ვუსმენ“.
ადგილობრივი დამუშავება, თუ შესაძლებელია; წინააღმდეგ შემთხვევაში - მონაცემთა შემცირება.
მგრძნობიარე ფრაგმენტების შენიღბვა ლოგებში (PAN, IBAN, მისამართი) და აუდიო მანქანის რედაქტორები.
შენახვის დრო და მოთხოვნის ამოღების უფლება; პარამეტრები „არ შეინახოთ ისტორია“.
ასაკობრივი შეზღუდვები/მშობლების კონტროლი (ბავშვთა ხმები/გუნდები).
გამჭვირვალობა: "მე ვწერდი ამ გუნდს აღიარების გასაუმჯობესებლად. თქვენ შეგიძლიათ გამორთოთ პარამეტრებში"
13) პიროვნება ასისტენტი
სახელი/პიროვნება: მოკლე ბიოგრაფია, კომპეტენციის სფერო, რომელსაც შეუძლია/არ იცის როგორ.
სიტუაციების ტონი: ჩვეულებრივი (მეგობრული), კრიტიკული (ნეიტრალური), ტრენინგი (დამხმარე).
საზღვრები: „არ ვაძლევ ფინანსურ რჩევებს, მაგრამ შემიძლია ვაჩვენო სერთიფიკატი.“
14) VUI ხარისხის მეტრიკა
Intent recognition (NLU სიზუსტე).
Slot fill rate и avg. turns to fill.
ASR WER/CER (სიტყვის/სიმბოლოების ამოცნობის შეცდომა).
Task Success / Completion rate и Time-to-Complete.
ესკალაცია (ოპერატორ/ეკრანზე).
Barge-in usage и Latency p95.
User Satisfaction/CSAT სცენარის შემდეგ.
Abandonment ერთი ნაბიჯით.
15) ტესტირება და QA ხმები
ტესტის ფრაზების ნაკრები: სინონიმები, კოლოქური ფორმები, აქცენტები, შეცდომები.
გარემოს ხმაური: ქუჩა/მანქანა/სამზარეულო, სხვადასხვა მიკროფონები.
მიმღები დიალოგი: რეპროდუქციული სკრიპტები, ოქროს ნაკრები რეგრესიისთვის.
Wizard-of-Oz ადრეულ ეტაპზე.
იურიდიული სცენარები: როგორ რეაგირებს ასისტენტი პოტენციურად სახიფათო მოთხოვნებზე.
16) ინტეგრაცია პროდუქტთან (iGaming შემთხვევები)
ბალანსი/ანაბარი/დასკვნა: "რა ბალანსია? "", შეავსეთ 200 UAH"..., "დასკვნის სტატუსი".
პრემიები/მისიები: "რა პრემიებია ხელმისაწვდომი? "", გააქტიურე ყოველკვირეული ფულადი სახსრები".
საპასუხისმგებლო თამაში: „დააწესეთ დეპოზიტის ლიმიტი კვირაში 1000 UAH.“
სისტემების სტატუსი: „ახლა არსებობს ტექნიკური სამუშაოები?“
17) ანტი შაბლონები
ასისტენტის გრძელი მონოლოგები შეფერხების გარეშე.
ფულადი ოპერაციების აშკარა დადასტურება.
ალტერნატიული „არ მესმის“ ვარიანტების გარეშე.
ხელახალი ბგერები/ჯინგლები, რომლებიც ხელს უშლის აღქმას.
„ხმის“ მცდელობა პრობლემების გადასაჭრელად, სადაც საჭიროა დეტალური ვიზუალური არჩევანი.
18) პრომტებისა და პასუხების შაბლონები
სლოტის განმარტება (თანხა):- ასისტენტი: „რა ოდენობით შეავსეთ ანგარიში?“
- მომხმარებელი: „ხუთასი.“
- ასისტენტი: "შეავსეთ 500 გრივნა? დაადასტურა, გთხოვთ"
- "დაადასტურეთ ბარათით 500 ჰივირნიის შევსება... 4581. თქვით "მე ვადასტურებ" ან "გაუქმება""
- "არ მესმოდა გადახდის მეთოდი. შემიძლია შემოგთავაზოთ: Apple Pay, რუკა, კრიპტოვალუტა. რას აირჩევთ?"
- "ეკრანზე გააგზავნა ხელმისაწვდომი მეთოდები. შეარჩიეთ და უთხარით, რომ მზად ხართ. "
19) SSML ნიმუშების მაგალითები
რიცხვები/ვალუტა და პაუზა:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
აქცენტი მნიშვნელოვან სიტყვაზე:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
აბრევიატურა:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) ჩეკის ფურცლები
დიალოგი/შინაარსი გამოსვლამდე
- თითოეული ინტენტისთვის - სინონიმების სია/ფრაზის ვარიანტები.
- ყოველი სავალდებულო სლოტისთვის - ერთი მკაფიო კითხვა.
- მგრძნობიარე მოქმედებები - აშკარა დადასტურებით.
- არსებობს მოკლე ალტერნატივა „ეკრანზე „/„ ოპერატორი “.
- შენიშვნები - 2 წინადადება; გრძელი - "გაგრძელება? ».
ტექნიკა და ხარისხი
- მხარი დაუჭირა ბარგი-ინ და დიალოგის დაბრუნება შეფერხების შემდეგ.
ლატენტობა p95 ნორმალურია; შეფერხების დროს არის earcons.
- SSML მორგებულია: პაუზები, რიცხვები, სტრესი.
- ლოგოები ანონიმურია/შენიღბული; არსებობს ისტორიის მენეჯმენტი.
შემოწმებულია მრავალენოვანი და ადგილობრივი ფორმატები.
A11y და უსაფრთხოება
- „გამეორება/ლაპარაკი უფრო ნელა/ხმამაღლა“ მუშაობს.
- სრული პერსონალური/გადახდის მონაცემები არ არის გამოცხადებული.
- არსებობს ხმის გაუქმება/გამოტოვება.
შემოწმებულია ასაკობრივი და რეგიონალური შეზღუდვები.
21) დიალოგის სპეციფიკაციის ჩარჩო (შაბლონი)
სცენარის მიზანი: (მაგალითად, დეპოზიტი 90 წამი)
ინტენტები და სინონიმები: ფრაზების მაგალითების სია.
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
დადასტურების წესები: რა ღირებულებები/ბარიერები მოითხოვს განმეორებას.
შეცდომების ვარიანტები: ASR, NLU, არ არსებობს მომსახურება - ტექსტები + ფილიალი.
მულტიმოდური გასასვლელი: რა ბარათებს/ეკრანებს ვაჩვენებთ.
ლოგოები და კონფიდენციალურობა: რაც შენიღბულია, TTL შენახვა.
საბოლოო ყალბი ფურცელი
ჯერ ინტენტი/სლოტი/დადასტურების წესები, შემდეგ ტექსტები.
მოკლედ ისაუბრეთ, შეუშალეთ ხელი და გააუქმა.
SSML პარამეტრები, ადგილობრივი ფორმატები და კონტექსტის ტონი.
შეინარჩუნეთ კონფიდენციალურობა და ლოჯისტიკა კონტროლის ქვეშ.
გაზომეთ Intent/Slot/ASR მეტრიკა, Task Success და ლატენტობა.
ყოველთვის გქონდეთ ალტერნატივა ეკრანზე და გზა ადამიანისკენ.