Интерфейси овозӣ ва ассистентҳо
1) VUI чист ва кай лозим аст
Интерфейси овозӣ (VUI) - тарзи муносибати мутақобила тавассути нутқ: ассистентҳо дар барнома/браузер, баландгӯякҳои интеллектуалӣ, IVR/телефония, овоз дар авто ва ТВ.
Мувофиқ аст: сенарияҳои дастӣ (ронандагӣ, ошхона), фармонҳои зуд ("фурӯзон"..., "занг..."), дастрасӣ, паймоиш тавассути менюҳои мураккаб.
Мувофиқ нест: интихоби дақиқи визуалӣ (каталогҳо, ҷадвалҳо), воридшавии тӯлонии маълумоти сохташуда бидуни экран.
2) Модели муколама: ниятҳо, субъектҳо ва контекст
Ният: он чизе ки корбар мехоҳад: 'Эҷод _ пардохт', 'Check _ balance'.
Слотҳо/объектҳо: параметрҳои мақсаднок: маблағ, асъор, суроға, сана.
Контекст/муколама-давлат: он чизе ки аллакай маълум аст, мо аниқ мекунем, дар куҷо филиал дорем.
Қоидаҳои тасдиқ: ки мо ба таври возеҳ тасдиқ мекунем (пул, маълумоти шахсӣ).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Намунаҳои муколама
1. Гурӯҳ бо як ибора: "Ҳисобро барои 500 гривни Apple Pay пур кунед. "→ тасдиқи → амал.
2. Муколамаи возеҳ: "Ба кӣ тарҷума кардан лозим аст?" → "Чӣ қадар?" → тасдиқ.
3. Устоди қадам ба қадам: сенарияҳои мураккаб бо тасдиқи маълумот ва қадами баръакс.
4. Шинохти ният + парафрази NLU: дастгирии формулаҳои тағирёбанда.
5. Кӯмаки фаврӣ: "Маҳдудиятҳои хуруҷӣ кадомҳоянд?" - ҷавоби кӯтоҳ + "Намоиш дар экран".
4) Ибора: овоз ва оҳанг
Овози бренд: боварӣ, ором, дӯстона; бидуни коҳиш ва "шӯхиҳо" дар қадамҳои муҳим (пардохтҳо, амният).
Макс. Дарозии нусхаи ёрирасон: 1-2 ҳукм; ҷавобҳои дароз - танаффус ва пешниҳод "Идома диҳед?"
Саволҳо - мушаххас: "Чӣ қадар бояд пур кард?" ба ҷои "Мо минбаъд чӣ кор мекунем?"
5) Тасдиқҳо, бехатарӣ ва ахлоқ
Тасдиқи сахти амалҳои ҳассос: талаффузи параметрҳои калидӣ ("500 гривнияро бо корт пур кунед... 4581? »)
Тасдиқи дукарата барои амалиёти бебозгашт.
Бе садо додани маълумоти пурраи шахсӣ.
Параметри Бекор/Бекор кардан: Бекор кардан, Қатъ кардан, Барҳам додани Қадами охирин.
6) Хатогиҳо ва нофаҳмиҳо
Намудҳо ва посухҳои ноком:- Хатои ASR (нашунидааст): "Ман маблағро нашунидаам. Лутфан онро такрор кунед"
- NLU-нофаҳмо: "Ман дархостро нафаҳмидам. Ман метавонам ҳисоби худро пур кунам ё тавозуни худро нишон диҳам. Шумо чиро интихоб мекунед?"
- Маълумот/маҳдудияти гумшуда: "Ин усул дар минтақаи шумо дастрас нест. Вариантҳои дигар кадомҳоянд?"
- Шабака/хизматрасонӣ: "Ҳоло робита бо хизматрасонии пардохт вуҷуд надорад. Оё шумо мехоҳед дар як дақиқа бори дигар кӯшиш кунед?
Қоида: ҳадди аксар 2 кӯшиши пурсидани → пешниҳоди алтернатива (экран/шахс).
7) Суръат ва барж-дар (қатъ)
Таъхири TTFB: ҳадаф <300-500 мс; агар дарозтар бошад - сигнали кӯтоҳ "em-mm "/earcon.
Barge-in: корбар метавонад дар вақти дилхоҳ ба ёрдамчӣ халал расонад; кандашавиро дуруст идора кунед.
Ҷараён додани ҷавоб: мо сӯҳбатро барвақттар аз тамоми матн омода мекунем, аммо бидуни шикастани сатр.
8) TTS/ASR ва SSML: Чӣ гуна "инсон" гуфтан мумкин аст
Талаффузи рақамҳо/асъорҳо/санаҳо: форматҳои маҳаллӣ ("p 'yatsot hryvnia", "15 барг афтид").
Таваққуф ва стресс: SSML '<вақти танаффус = "300ms "/> ', <сатҳи таъкид = "мӯътадил">'.
Хондани ихтисорот/рамзҳо: '<say-as тафсир-as = "аломатҳо"> IBAN </say-as>'.
Суръат ва ҷадвал: на тезтар аз 0. 9 × асосӣ барои фаҳмо будан.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Мултимодалӣ: овоз + экран
Нишонаҳои визуалӣ: корти тасдиқкунӣ, рӯйхати усулҳо, пешрафт.
Дастӣ ба экран: "Ман имконотро ба экран фиристодам. Марҳамат карда методро интихоб кунед"
Ҳамоҳангсозии давлатӣ: овоз оғоз меёбад, экран қатъ мешавад (ва баръакс).
10) Бисёрзабонӣ ва маҳаллисозӣ
Муайян кардани худкори забон аз рӯи сеанс/танзим, на аз рӯи ибораи ягона.
Луғати истилоҳот: истилоҳоти умумӣ барои RU/UA/TR/EN.
Форматҳои минтақавии рақамҳо/асъорҳо/санаҳо, талаффузи номҳо/топонимҳо.
Гузариш ба диалог: "Гузаштан ба ukraїnsku" фармони возеҳ аст.
11) Дастрасӣ (A11y) дар овоз
Тасдиқи амал равшан ва кӯтоҳ аст.
Такрори талабот: "Такрор" хати ниҳоиро садо медиҳад.
Ҳаҷм/суръат: "Оҳиста/оромтар/баландтар гӯед".
Барои нуқсонҳои шунавоӣ: субтитрҳо/транскриптҳо дар экран, сигналҳои ларзиш.
Барои ихтилоли нутқ: усулҳои алтернативии вуруд (тугма, пешнамоиш).
12) Махфият, сабти ном ва мувофиқат
Нишондиҳандаи бедорӣ ва сабти овоз: ҳолати возеҳи "гӯш кардан".
Коркарди маҳаллӣ, агар имкон бошад; дар акси ҳол, кам кардани маълумот.
Пинҳон кардани пораҳои ҳассос дар гузоришҳо (PAN, IBAN, суроға) ва аудиои худкори таҳриркунӣ.
Мӯҳлатҳои нигоҳдорӣ ва ҳуқуқи хориҷ кардани дархост; Танзимоти таърихро захира накунед.
Маҳдудиятҳои синну сол/назорати волидайн (овозҳо/гурӯҳҳои кӯдакон).
Шаффофият: "Ман ин фармонро барои беҳтар кардани шинохтан сабт мекунам. Дар танзимотҳо хомӯш карда мешавад"
13) Ёрдамчии шахс
Ном/шахс: тарҷумаи мухтасар, соҳаи салоҳият, ки метавонад/наметавонад.
Оҳанг барои ҳолатҳо: муқаррарӣ (дӯстона), танқидӣ (бетараф), таълимӣ (дастгирикунанда).
Сарҳадҳо: "Ман маслиҳати молиявӣ намедиҳам, аммо ман кӯмак карда метавонам".
14) Нишондиҳандаҳои сифати VUI
Сатҳи шинохти ният.
Сатҳи пур кардани слот i avg. барои пур кардан рӯй медиҳад.
ASR WER/CER (Хатои шинохтани калимаҳо/аломатҳо).
Муваффақияти вазифа/Сатҳи анҷомёбӣ аз вақти ба итмом расидан.
Сатҳи афзоиш (ба як оператор/экран).
Истифодаи Barge-in i Latency p95.
Қаноатмандии корбар/CSAT пас аз скрипт.
Даст кашидан аз қадам.
15) Санҷиши овозӣ ва QA
Маҷмӯи ибораҳои санҷишӣ: синонимҳо, шаклҳои гуфтугӯӣ, акцентҳо, хатогиҳо.
Овозҳои муҳити зист: кӯча/мошин/ошхона, микрофонҳои гуногун.
Муколамаи такрорӣ: скриптҳои бозикунанда, маҷмӯи тиллоӣ барои регрессия.
Ҷодугар-аз-Оз дар марҳилаҳои аввал.
Сенарияҳои ҳуқуқӣ: Чӣ гуна ёрдамчӣ ба дархостҳои эҳтимолан хатарнок посух медиҳад.
16) Интегратсияи маҳсулот (ҳолатҳои бозӣ)
Тавозун/пасандоз/бозхонд: "Тавозун чист? ", "Пур кардани 200 UAH"..., "Ҳолати баромад".
Бонусҳо/Миссияҳо: "Кадом мукофотпулӣ мавҷуданд? ", "Фаъол кардани пули нақд дар ҳафта".
Бозии масъул: "Меъёри амонатро дар як ҳафта 1000 UAH муқаррар кунед".
Вазъи системаҳо: "Ҳоло ягон кори техникӣ ҳаст?"
17) Анти-намунаҳо
Монологҳои дарозмуддати ассистент бе имкони халал расондан.
Тасдиқи номаълуми муомилоти пулӣ.
Бе имконоти дархостшуда "нафаҳмиданд".
Овозҳо/шӯхиҳои аз ҳад зиёд ба дарк халал мерасонанд.
Кӯшиши "овоз" мушкилотро дар ҷое, ки интихоби визуалии муфассал лозим аст, ҳал мекунад.
18) Қолибҳо ва ҷавобҳо
Такмилдиҳии слот (ҷамъ):- Ёрдамчӣ: "Ҳисобро чӣ қадар пур кардан лозим аст?"
- Корбар: "Панҷсад".
- Ёрдамчӣ: "Бо 500 гривния пур кунед? Лутфан тасдиқ кунед"
- "Пур кардани корти 500 гривнияро тасдиқ кунед... 4581. Бигӯед "тасдиқ кунед" ё "бекор кунед""
- 'Ман усули пардохтро нашунидаам. Ман пешниҳод карда метавонам: Apple Pay, корт, ҳамёни крипто. Шумо чиро интихоб мекунед?"
- "Усулҳои дастрасро ба экран ирсол намуд. Интихоб кунед ва бигӯед, ки "иҷро шуд" барои идома додан"
19) Намунаҳои намунаҳои SSML
Рақамҳо/асъор ва таваққуф:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Таъкид ба калимаи муҳим:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Талаффузи ихтисорот:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Рӯйхати санҷишҳо
Муколамаи пешакӣ/мундариҷа
- Барои ҳар як ният - рӯйхати вариантҳои синонимҳо/ибораҳо.
- Як саволи возеҳ барои як ковокии зарурӣ.
- Амалҳои ҳассос - бо тасдиқи возеҳ.
- Алтернативаи кӯтоҳ дар экран/оператор мавҷуд аст.
- Нусхаҳои ≤ 2 пешниҳод; дароз - бо "Идома диҳед? ».
Техника ва сифат
- barge-in дастгирӣ карда мешавад ва пас аз қатъ шудан ба муколама бармегардад.
- p95 таъхири муқаррарӣ аст; гӯшмонакҳо ба таъхир меафтанд.
- SSML танзим шудааст: таваққуф, рақамҳо, стресс.
- Гузоришҳо ғайришахсӣ/ниқоб; идоракунии таърих аст.
- Бисёрзабонӣ ва форматҳои маҳаллӣ озмуда шуданд.
A11y ва бехатарӣ
- "Такрор/сухан гуфтан сусттар/баландтар" кор мекунад.
- Маълумоти пурраи шахсӣ/пардохт эълон карда намешавад.
- Бекор кардан/баргардонидани амал бо овоз вуҷуд дорад.
- Маҳдудиятҳои синну сол ва минтақавӣ санҷида шуданд.
21) Чаҳорчӯбаи мушаххасоти муколама (қолаб)
Мақсади сенария: (масалан, "Амонат ≤ 90 сония")
Ният ва синонимҳо: рӯйхати ибораҳои намунавӣ.
Слоты: 'маблағ' (req, тасдиқ), 'асъор' (пешфарз = UAH), 'усул' (enum).
Қоидаҳои тасдиқи он, ки кадом арзишҳо/ҳудудҳо такрор мешаванд.
Имконоти хатогӣ: ASR, NLU, ягон хидмат - матнҳо + филиалҳо.
Натиҷаҳои мултимодалӣ: кадом кортҳо/экранҳоро нишон медиҳем.
Гузоришҳо ва махфият: чӣ ва чӣ гуна мо ниқоб мекунем, нигаҳдории TTL.
Варақаи ниҳоии фиреб
Аввал ниятҳо/слотҳо/қоидаҳои тасдиқ, баъд матнҳо.
Мухтасар гап занед, бигзор онҳо халал расонанд ва бекор кунанд.
Танзими SSML, форматҳои маҳаллӣ ва оҳанг аз рӯи контекст.
Махфият ва сабти номро таҳти назорат нигоҳ доред.
Нишондиҳандаҳои ният/слот/ASR, муваффақияти вазифаҳо ва таъхирро чен кунед.
Ҳамеша алтернатива ба экран ва роҳ барои шахс дошта бошед.