音声インターフェイスとアシスタント
1) VUIが何であり、必要なとき
音声インターフェイス(VUI)-音声を介してやり取りする方法:アプリケーション/ブラウザのアシスタント、スマートスピーカー、IVR/テレフォニー、自動車やテレビの音声。
適しています:手作業のシナリオ(運転、キッチン)、クイックコマンド(「オン」……「、コール」……)、アクセシビリティ、複雑なメニューによるナビゲーション。
適していません:正確な視覚的選択(カタログ、テーブル)、スクリーンなしで構造化データの長いエントリ。
2)対話モデル: インテント、エンティティ、コンテキスト
意図:ユーザーが望むもの:'Create_payment'、 'Check_balance'。
スロット/エンティティ:ターゲットパラメータ:金額、通貨、アドレス、日付。
Context/dialogue-state:既知のもの、明確なもの、分岐先。
確認ルール:当社が明示的に確認すること(金銭、個人データ)。
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3)対話のパターン
1.1つのフレーズを持つチーム:"500グリブナのApple Payのアカウントをトップ。"→確認→アクション。
2.明確な対話:「誰に翻訳するか?」→「いくら?」→確認のため。
3.ステップバイステップウィザード:データ検証とリバースステップを備えた複雑なシナリオ。
4.意図認識+NLUパラフレーズ:可変製剤のサポート。
5.クイックヘルプ:「引き出し制限は何ですか?」-短い回答+「画面に表示」。
4)言葉遣い: 声および調子
ブランドの声:自信を持って、落ち着いた、フレンドリー。重要なステップ(支払い、セキュリティ)の「冗談」と「小規模」なし。
マックス・マックス。アシスタントレプリカの長さ: 1-2文;長い回答-ブレークし、提案「続行?」
質問-具体的に: 「どのくらい補充する?」「次はどうすればいいの?」
5)確認、安全および倫理
敏感なアクションの厳しい確認: キーパラメータの発音("カードで500グリブナ補充……4581?»)
取り返しのつかない操作のための二重確認。
完全な個人データを発信することなく。
元に戻す/元に戻すオプション:元に戻す、停止、最後のステップを元に戻す。
6)間違いと誤解
障害の種類と応答:- ASRエラー(聞こえませんでした):"私はその量を聞きませんでした。繰り返してください"
- NLU理解できない:"私は要求を理解していませんでした。私は自分のアカウントをトップにするか、残高を表示することができます。あなたは何を選びますか"
- 欠落しているデータ/制限:"このメソッドはあなたの地域では使用できません。他の選択肢は何ですか?"
- ネットワーク/サービス:"今、決済サービスとの接続はありません。もう一度やり直したいですか?
ルール:最大2回のクエリ→オファーの代替(スクリーン/人)。
7)速度およびはしけ(中断)
TTFBレイテンシー:ターゲット<300-500ミリ秒;長ければ-短い「em-mm」信号/イヤコン。
バージイン:ユーザーはいつでもアシスタントを中断することができます。割込みを正しく処理します。
答えのストリーミング:テキスト全体が準備できているよりも早く話し始めますが、行を壊すことはありません。
8) TTS/ASRとSSML: 「人間」と言う方法"
数字/通貨/日付の発音:ローカルフォーマット(「p 'yatsot hryvnia」、 「15葉が落ちる」)。
一時停止とストレス:SSML '<break time=「300ms「/>'、'<強調レベル=」moderate「>'。
略語/コードを読む:'<say-as interpret-as="characters'> IBAN </say-as>'。
速度と音色:0より速くはありません。9 ×読みやすくするための基本。
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9)マルチモーダリティ: 音声+画面
ビジュアルキュー:確認カード、メソッドのリスト、進捗状況。
画面にハンドオフ: "私は画面にオプションを送信しました。方法を選択してください"
状態同期:音声の開始、画面の終了(およびその逆)。
10)多言語化とローカリゼーション
単一のフレーズではなく、セッション/チューニングで言語を自動検出します。
用語集:RU/UA/TR/ENの一般的な用語。
数字/通貨/日付の地域形式、名前/表義の発音。
ダイアログの切り替え:「Go to ukraїnsku」は明示的なコマンドです。
11)可用性(A11y)声で
アクションの確認は明確かつ短いです。
Repeat on Demand: 「Repeat」は最終行を表示します。
音量/スピード:「より遅く/静か/大声で話す」。
聴覚障害者のために:スクリーンの字幕/トランスクリプト、振動信号。
音声障害の場合:代替入力方法(ボタン、プリセット)。
12)機密性、ロギングおよびコンプライアンス
Wake-wordと録音インジケータ:明示的な「リスニング」状態。
可能であれば、ローカル処理。さもなければ、データの最小化。
ログ(PAN、 IBAN、アドレス)および自動編集オーディオの機密フラグメントをマスキングします。
要求に応じて削除する保持期間と権利。履歴設定を保存しないでください。
年齢制限/ペアレンタルコントロール(子供の声/チーム)。
透明性: "私は認識を改善するためにこのコマンドを記録しています。設定で無効にすることができます"
13)アシスタントパーソナリティ
名前/人:短い伝記、できる/できない能力の領域。
状況のトーン:ノーマル(フレンドリー)、クリティカル(ニュートラル)、教育(サポート)。
境界:"私は財政的な助言を与えませんが、私は助けを示すことができます。
14) VUI品質指標
意図的な認識率。
スロットの塗りつぶし速度。AV。塗りつぶしになります。
ASR WER/CER (Word/Character Recognition Error)。
タスクサクセス/完了率;完了までの時間。
エスカレーションレート(オペレータ/スクリーンあたり)。
Barge-inの使用法;遅延P95。
スクリプトの後のユーザー満足度/CSAT。
ステップの放棄。
15)音声テストとQA
テストフレーズセット:同義語、口語形式、アクセント、エラー。
環境騒音:通り/車/台所、別のマイク。
再生ダイアログ:再生可能なスクリプト、回帰のためのゴールデンセット。
初期段階でのウィザードオブオズ。
法的シナリオ:アシスタントが潜在的に危険な要求にどのように応答するか。
16)製品統合(iGamingケース)
残高/預金/出金:「残高は何ですか?「、「200 UAHで補充……」、「出力ステータス」。
ボーナス/ミッション:「利用可能なボーナスは何ですか?「、「毎週キャッシュバックを有効にする」。
責任あるプレイ: 「1週間に1000 UAHのデポジット制限を設定します。」
システムの状態: 「技術的な作品は今ありますか?」
17)アンチパターン
機会を中断することなく、アシスタントの長いモノローグ。
金融取引の暗黙の確認。
テストされていない「理解できませんでした」オプションを促すことなく。
供給過剰な音/ジングルが知覚を妨害します。
「声」の試みは、詳細な視覚的選択が必要な問題を解決する。
18)プロンプトと回答テンプレート
スロット洗練(合計):- アシスタント:「アカウントを補充するにはいくらですか?」
- ユーザー:「500」。
- アシスタント:"500グリブナで補充?確認してください"
- "500グリブナカードによる補充を確認してください……4581.「確認」または「キャンセル」と言う"
- "支払い方法が聞こえなかった。私は提供することができます:Apple Pay、カード、暗号財布。あなたは何を選びますか"
- "利用可能なメソッドを画面に送信しました。選択して"完了"と続けます"
19) SSMLパターンの例
数字/通貨と一時停止:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
重要な言葉に重点を置く:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
略語の発音:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20)チェックリスト
プレリリースの対話/コンテンツ
- 各インテント-同義語/フレーズのバリアントのリスト。
- 必要なスロットごとに1つの明確な質問。
- 機密行為-明示的な確認。
- 短い画面/演算子の代替があります。
- レプリカ≤ 2つの提案;long-"Continue?».
技術と品質
- barge-inがサポートされ、中断後に対話に戻ります。
- p95レイテンシーは正常です。遅れているイヤーコンがある。
- SSML構成:一時停止、数値、応力。
- 非人格的/マスクを記録します。歴史管理です。
- 多言語主義とローカルフォーマットをテストしました。
A11yと安全性
- 「Repeat/Speak Slower/Louder」作品。
- 完全な個人データ/支払いデータは発表されません。
- 音声によるアクションのキャンセル/ロールバックがあります。
- テストされた年齢と地域の制限。
21)ダイアログ仕様フレームワーク(テンプレート)
シナリオの目的: (例えば「、預金≤ 90秒」)
意図と同義語:サンプルフレーズのリスト。
「量」(req、 confirm)、「通貨」(デフォルト=UAH)、「メソッド」(enum)。
値/しきい値が繰り返される確認ルール。
エラーオプション:ASR、 NLU、サービスなし-テキスト+ブランチ。
マルチモーダル出力:私たちが表示するカード/スクリーン。
ログとプライバシー:私たちは何とどのようにマスク、TTLストレージ。
最終チートシート
最初のインテント/スロット/確認ルール、次にテキスト。
簡単に話して、中断してキャンセルさせてください。
コンテキストごとにSSML、ローカルフォーマット、トーンを設定します。
プライバシーとログを管理下に保ちます。
Intent/Slot/ASRメトリック、Task Success、およびレイテンシを測定します。
常に画面と人へのパスに代わるものを持っています。