语音接口和助手
1)什么是VUI,什么时候需要
语音接口(VUI)是语音交互的一种方式:应用程序/浏览器中的助手,智能扬声器,IVR/电话,汽车和电视中的语音。
适合:手忙脚本(驾驶,厨房),快速命令("打开……","打电话……"),可用性,浏览复杂的菜单。
不适合:精确的视觉选择(目录、表格),在没有屏幕的情况下长时间输入结构化数据。
2)对话模式: 内容、实质和上下文
Intent(目标):用户想要什么:"创建_付款"、"检查_资产负债表"。
插槽/实体:目标参数:金额、货币、目的地、日期。
上下文/对话状态:我们已经知道我们指定分支的位置。
确认规则:明确确认(金钱,个人数据)。
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3)对话模式
1.该团队用一个短语表示:"为500格里夫纳Apple Pay补充账单。"→确认→行动。
2.澄清对话:"谁翻译?"→"金额是多少?"→确认。
3.分步向导:具有数据验证和反向步骤的复杂脚本。
4.意识识别+NLU重写:支持可变语言。
5.快速帮助:"输出限制是什么?"-简短回复+"显示在屏幕上"。
4)表述: 声音和语气
品牌声音:自信,镇定,友好;在关键步骤(付款,安全)中没有小巧和"笑话"。
马克斯。助理副本的长度: 1-2句子;冗长的答桉-打破并提出"继续?"
问题是具体的: "补充多少钱?"而不是"接下来要做什么?"
5)确认、安全和道德
严格确认敏感行为: 说出关键参数("用500格里夫纳卡补充……4581?»)
不可逆转操作的双重确认。
没有发声完整的个人数据。
取消/回滚选项:取消、停止、取消最后一步。
6)错误和误解
故障类型和响应:- ASR错误(没有听到):"没有听说过金额。 请重复一遍
- NLU不清楚:"我不理解请求。我可以补充帐户或显示余额。选择什么?"
- 无数据/限制:"此方法在您所在区域不可用。命名其他选项?"
- 网络/服务:"现在与支付服务没有联系。一分钟后重复?"
规则:最多2次轮询尝试→提供替代方桉(屏幕上/人类)。
7)速度和barj-in(打断)
TTFB潜伏期:目标<300-500 ms;如果更长的时间是短的"em-mm"-signal/earcon。
Barge-in:用户可以随时打断助理;我们正确处理中断。
流式传输答案:开始说话比整个文本准备就绪,但没有意义的悬崖。
8)TTS/ASR和SSML: 如何说"人性化"
数字/货币/日期的发音:本地格式("p'yatsotgriven","15 listopada")。
暂停和重音:SSML"<break time="300 ms"/>","<emphasis level="moderate">"。
阅读缩写/代码:'<say-as interpret-as='characters'> IBAN </say-as>'。
速度和音色:不比0快。9 ×基础,以便清晰可见。
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9)多模式: 语音+屏幕
视觉提示:确认卡,方法列表,进展。
在屏幕上放手: "我已经向屏幕发送了选项。选择方法"
状态同步:语音启动,屏幕结束(反之亦然)。
10)多语言和本地化
通过会话/设置而不是单个短语自动定义语言。
术语表:RU/UA/TR/EN的统一术语。
区域数字/货币/日期格式,名称/地名发音。
切换到对话框:"切换到ukraїnsku"-显式命令。
11)语音中的可用性(A11y)
确认行动-明确和简短。
按需重播:"重播"表示最后一个副本。
音量/速度: "说话更慢/更安静/更响亮。"
对于听力障碍者:屏幕上的字幕/转录,振动信号。
语音障碍:替代输入方式(按钮、预设)。
12)隐私、写作和合规性
Wake-word和记录指示符:"我听"的显式状态。
在可能的情况下进行本地处理;否则-将数据最小化。
在逻辑中掩盖敏感片段(PAN,IBAN,地址)和自动编辑音频。
保留期限和根据要求处置的权利;"不要保存历史记录"设置。
年龄限制/父母控制(孩子们的声音/团队)。
透明度: "我正在录制这个团队,以提高识别能力。可以在设置中禁用"
13)助理角色
姓名/人物:简短传记,能力领域,知道什么/不懂什么。
语气按情况:普通(友好),关键(中立),培训(支持)。
界限: "我不提供财务建议,但我可以出示证书。"
14) VUI质量指标
Intent recognition rate(NLU精度)。
Slot fill rate и avg.turns to fill.
ASR WER/CER(单词/字符识别错误)。
Task Success / Completion rate и Time-to-Complete.
逃逸率(在操作员/屏幕上)。
Barge-in usage и Latency p95.
脚本后面的User Satisfaction/CSAT。
步入式。
15)测试和QA语音
测试短语集:同义词,口语形式,口音,错误。
环境噪音:街道/汽车/厨房,不同的麦克风。
对话反射:可复制的脚本,用于回归的金集。
奥兹巫师处于早期阶段。
法律情景:助理如何应对潜在危险的查询。
16)产品集成(iGaming桉例)
余额/存款/提取:"什么余额?","在200 UAH补充……","撤军状态"。
奖金/任务:"哪些奖金可用?","激活每周现金返还"。
负责任的游戏: "设置每周1000 UAH存款限额。"
系统状态: "现在有技术工作吗?"
17)反模式
助手的长篇独白无法打断。
货币交易的隐式确认。
没有争议的"不理解"没有线索的选择。
过度的声音/叮当声干扰感知。
尝试"语音"解决需要详细视觉选择的任务。
18)促销和响应模板
插槽澄清(总和):- 助手:"为账单补充多少钱?"
- 用户:"五百"。
- 助手:"补充500格里夫尼亚?请确认"
- "通过地图确认500格里夫纳的补充……4581。说"我确认"或"取消""
- "我没有听说过付款方法。我可以提供:Apple Pay,卡,密码短裤。选择什么?"
- "将可用的方法发送到屏幕。选择并说"完成"以继续"
19) SSML模式示例
数字/货币和暂停:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
强调重要词:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
首字母缩写词的发音为:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20)支票单
发布前的对话/内容
- 每个intent是同义词/短语变体的列表。
- 每个强制性插槽是一个明确的问题。
- 敏感行动-明确确认。
- 屏幕上/操作员有一个简短的选择。
[……]≤ 2项提桉的复文;长-与"继续?».
技术和质量
- 支持在中断后重新进入对话。
- p95的潜伏期是正常的;延迟时有earcons。
- SSML配置为:暂停、数字、重音。
- Logi是非人格/伪装的;历史管理。
- 多语言和本地格式已验证。
A11y和安全
- "重复/慢说话/响亮"工作。
- 没有公布完整的个人/支付数据。
- 有声音取消/回滚动作。
- 年龄和区域限制已得到检验。
21)对话框规范(模板)
脚本的目的: (例如"90秒存款≤")
含义和同义词:示例短语列表。
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
确认规则:哪些值/阈值需要重复。
错误选项:ASR, NLU,没有服务-文本+分支。
多模式输出:我们显示哪些卡/屏幕。
博客和隐私:我们如何掩盖存储的TTL。
最终的spargalka
首先是要点/插槽/确认规则,然后是文本。
简短地说话,让打断和取消。
根据上下文配置SSML、本地格式和音调。
保持隐私和逻辑控制。
测量Intent/Slot/ASR度量、任务成功和潜伏期。
总是可以选择屏幕和人行道。