語音接口和助手
1)什麼是VUI,什麼時候需要
語音接口(VUI)是語音交互的一種方式:應用程序/瀏覽器中的助手,智能揚聲器,IVR/電話,汽車和電視中的語音。
適合:手忙腳本(駕駛,廚房),快速命令(「打開……」,「打電話……」),可用性,瀏覽復雜的菜單。
不適合:精確的視覺選擇(目錄、表格),在沒有屏幕的情況下長時間輸入結構化數據。
2)對話模式: 內容、實質和上下文
Intent(目標):用戶想要什麼:「創建_付款」、「檢查_資產負債表」。
插槽/實體:目標參數:金額、貨幣、目的地、日期。
上下文/對話狀態:我們已經知道我們指定分支的位置。
確認規則:明確確認(金錢,個人數據)。
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3)對話模式
1.該團隊用一個短語表示:「為500格裏夫納Apple Pay補充賬單。」→確認→行動。
2.澄清對話:「誰翻譯?」→「金額是多少?」→確認。
3.分步向導:具有數據驗證和反向步驟的復雜腳本。
4.意識識別+NLU重寫:支持可變語言。
5.快速幫助:「輸出限制是什麼?」-簡短回復+「顯示在屏幕上」。
4)表述: 聲音和語氣
品牌聲音:自信,鎮定,友好;在關鍵步驟(付款,安全)中沒有小巧和「笑話」。
馬克斯。助理副本的長度: 1-2句子;冗長的答案-打破並提出「繼續?」
問題是具體的: 「補充多少錢?」而不是「接下來要做什麼?」
5)確認、安全和道德
嚴格確認敏感行為: 說出關鍵參數("用500格裏夫納卡補充……4581?»)
不可逆轉操作的雙重確認。
沒有發聲完整的個人數據。
取消/回滾選項:取消、停止、取消最後一步。
6)錯誤和誤解
故障類型和響應:- ASR錯誤(沒有聽到):"沒有聽說過金額。 請重復一遍
- NLU不清楚:"我不理解請求。我可以補充帳戶或顯示余額。選擇什麼?"
- 無數據/限制:"此方法在您所在區域不可用。命名其他選項?"
- 網絡/服務:"現在與支付服務沒有聯系。一分鐘後重復?"
規則:最多2次輪詢嘗試→提供替代方案(屏幕上/人類)。
7)速度和barj-in(打斷)
TTFB潛伏期:目標<300-500 ms;如果更長的時間是短的「em-mm」-signal/earcon。
Barge-in:用戶可以隨時打斷助理;我們正確處理中斷。
流式傳輸答案:開始說話比整個文本準備就緒,但沒有意義的懸崖。
8)TTS/ASR和SSML: 如何說「人性化」
數字/貨幣/日期的發音:本地格式(「p'yatsotgriven」,「15 listopada」)。
暫停和重音:SSML「<break time=」300 ms「/>」,「<emphasis level=」moderate「>」。
閱讀縮寫/代碼:'<say-as interpret-as='characters'> IBAN </say-as>'。
速度和音色:不比0快。9 ×基礎,以便清晰可見。
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9)多模式: 語音+屏幕
視覺提示:確認卡,方法列表,進展。
在屏幕上放手: "我已經向屏幕發送了選項。選擇方法"
狀態同步:語音啟動,屏幕結束(反之亦然)。
10)多語言和本地化
通過會話/設置而不是單個短語自動定義語言。
術語表:RU/UA/TR/EN的統一術語。
區域數字/貨幣/日期格式,名稱/地名發音。
切換到對話框:「切換到ukraїnsku」-顯式命令。
11)語音中的可用性(A11y)
確認行動-明確和簡短。
按需重播:「重播」表示最後一個副本。
音量/速度: 「說話更慢/更安靜/更響亮。」
對於聽力障礙者:屏幕上的字幕/轉錄,振動信號。
語音障礙:替代輸入方式(按鈕、預設)。
12)隱私、寫作和合規性
Wake-word和記錄指示符:「我聽」的顯式狀態。
在可能的情況下進行本地處理;否則-將數據最小化。
在邏輯中掩蓋敏感片段(PAN,IBAN,地址)和自動編輯音頻。
保留期限和根據要求處置的權利;「不要保存歷史記錄」設置。
年齡限制/父母控制(孩子們的聲音/團隊)。
透明度: "我正在錄制這個團隊,以提高識別能力。可以在設置中禁用"
13)助理角色
姓名/人物:簡短傳記,能力領域,知道什麼/不懂什麼。
語氣按情況:普通(友好),關鍵(中立),培訓(支持)。
界限: 「我不提供財務建議,但我可以出示證書。」
14) VUI質量指標
Intent recognition rate(NLU精度)。
Slot fill rate и avg.turns to fill.
ASR WER/CER(單詞/字符識別錯誤)。
Task Success / Completion rate и Time-to-Complete.
逃逸率(在操作員/屏幕上)。
Barge-in usage и Latency p95.
腳本後面的User Satisfaction/CSAT。
步入式。
15)測試和QA語音
測試短語集:同義詞,口語形式,口音,錯誤。
環境噪音:街道/汽車/廚房,不同的麥克風。
對話反射:可復制的腳本,用於回歸的金集。
奧茲巫師處於早期階段。
法律情景:助理如何應對潛在危險的查詢。
16)產品集成(iGaming案例)
余額/存款/提取:"什麼余額?","在200 UAH補充……","撤軍狀態"。
獎金/任務:"哪些獎金可用?","激活每周現金返還"。
負責任的遊戲: 「設置每周1000 UAH存款限額。」
系統狀態: 「現在有技術工作嗎?」
17)反模式
助手的長篇獨白無法打斷。
貨幣交易的隱式確認。
沒有爭議的「不理解」沒有線索的選擇。
過度的聲音/叮當聲幹擾感知。
嘗試「語音」解決需要詳細視覺選擇的任務。
18)促銷和響應模板
插槽澄清(總和):- 助手:「為賬單補充多少錢?」
- 用戶:「五百」。
- 助手:"補充500格裏夫尼亞?請確認"
- "通過地圖確認500格裏夫納的補充……4581。說"我確認"或"取消""
- "我沒有聽說過付款方法。我可以提供:Apple Pay,卡,密碼短褲。選擇什麼?"
- "將可用的方法發送到屏幕。選擇並說"完成"以繼續"
19) SSML模式示例
數字/貨幣和暫停:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
強調重要詞:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
首字母縮寫詞的發音為:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20)支票單
發布前的對話/內容
- 每個intent是同義詞/短語變體的列表。
- 每個強制性插槽是一個明確的問題。
- 敏感行動-明確確認。
- 屏幕上/操作員有一個簡短的選擇。
[……]≤ 2項提案的復文;長-與"繼續?».
技術和質量
- 支持在中斷後重新進入對話。
- p95的潛伏期是正常的;延遲時有earcons。
- SSML配置為:暫停、數字、重音。
- Logi是非人格/偽裝的;歷史管理。
- 多語言和本地格式已驗證。
A11y和安全
- 「重復/慢說話/響亮」工作。
- 沒有公布完整的個人/支付數據。
- 有聲音取消/回滾動作。
- 年齡和區域限制已得到檢驗。
21)對話框規範(模板)
腳本的目的: (例如「90秒存款≤」)
含義和同義詞:示例短語列表。
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
確認規則:哪些值/閾值需要重復。
錯誤選項:ASR, NLU,沒有服務-文本+分支。
多模式輸出:我們顯示哪些卡/屏幕。
博客和隱私:我們如何掩蓋存儲的TTL。
最終的spargalka
首先是要點/插槽/確認規則,然後是文本。
簡短地說話,讓打斷和取消。
根據上下文配置SSML、本地格式和音調。
保持隱私和邏輯控制。
測量Intent/Slot/ASR度量、任務成功和潛伏期。
總是可以選擇屏幕和人行道。