GH GambleHub

音声インターフェイスとアシスタント

1) VUIが何であり、必要なとき

音声インターフェイス(VUI)-音声を介してやり取りする方法:アプリケーション/ブラウザのアシスタント、スマートスピーカー、IVR/テレフォニー、自動車やテレビの音声。
適しています:手作業のシナリオ(運転、キッチン)、クイックコマンド(「オン」……「、コール」……)、アクセシビリティ、複雑なメニューによるナビゲーション。
適していません:正確な視覚的選択(カタログ、テーブル)、スクリーンなしで構造化データの長いエントリ。

2)対話モデル: インテント、エンティティ、コンテキスト

意図:ユーザーが望むもの:'Create_payment'、 'Check_balance'。
スロット/エンティティ:ターゲットパラメータ:金額、通貨、アドレス、日付。
Context/dialogue-state:既知のもの、明確なもの、分岐先。
確認ルール:当社が明示的に確認すること(金銭、個人データ)。

インテントスキーム(pseudo-JSON)の例:
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}

3)対話のパターン

1.1つのフレーズを持つチーム:"500グリブナのApple Payのアカウントをトップ。"→確認→アクション。
2.明確な対話:「誰に翻訳するか?」→「いくら?」→確認のため。
3.ステップバイステップウィザード:データ検証とリバースステップを備えた複雑なシナリオ。
4.意図認識+NLUパラフレーズ:可変製剤のサポート。
5.クイックヘルプ:「引き出し制限は何ですか?」-短い回答+「画面に表示」。

4)言葉遣い: 声および調子

ブランドの声:自信を持って、落ち着いた、フレンドリー。重要なステップ(支払い、セキュリティ)の「冗談」と「小規模」なし。

マックス・マックス。アシスタントレプリカの長さ: 1-2文;長い回答-ブレークし、提案「続行?」

質問-具体的に: 「どのくらい補充する?」「次はどうすればいいの?」

5)確認、安全および倫理

敏感なアクションの厳しい確認: キーパラメータの発音("カードで500グリブナ補充……4581?»)

取り返しのつかない操作のための二重確認。
完全な個人データを発信することなく。
元に戻す/元に戻すオプション:元に戻す、停止、最後のステップを元に戻す。

6)間違いと誤解

障害の種類と応答:
  • ASRエラー(聞こえませんでした):"私はその量を聞きませんでした。繰り返してください"
  • NLU理解できない:"私は要求を理解していませんでした。私は自分のアカウントをトップにするか、残高を表示することができます。あなたは何を選びますか"
  • 欠落しているデータ/制限:"このメソッドはあなたの地域では使用できません。他の選択肢は何ですか?"
  • ネットワーク/サービス:"今、決済サービスとの接続はありません。もう一度やり直したいですか?

ルール:最大2回のクエリ→オファーの代替(スクリーン/人)。

7)速度およびはしけ(中断)

TTFBレイテンシー:ターゲット<300-500ミリ秒;長ければ-短い「em-mm」信号/イヤコン。
バージイン:ユーザーはいつでもアシスタントを中断することができます。割込みを正しく処理します。
答えのストリーミング:テキスト全体が準備できているよりも早く話し始めますが、行を壊すことはありません。

8) TTS/ASRとSSML: 「人間」と言う方法"

数字/通貨/日付の発音:ローカルフォーマット(「p 'yatsot hryvnia」、 「15葉が落ちる」)。
一時停止とストレス:SSML '<break time=「300ms「/>'、'<強調レベル=」moderate「>'。
略語/コードを読む:'<say-as interpret-as="characters'> IBAN </say-as>'。
速度と音色:0より速くはありません。9 ×読みやすくするための基本。

SSMLの例:
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>

9)マルチモーダリティ: 音声+画面

ビジュアルキュー:確認カード、メソッドのリスト、進捗状況。

画面にハンドオフ: "私は画面にオプションを送信しました。方法を選択してください"

状態同期:音声の開始、画面の終了(およびその逆)。

10)多言語化とローカリゼーション

単一のフレーズではなく、セッション/チューニングで言語を自動検出します。
用語集:RU/UA/TR/ENの一般的な用語。
数字/通貨/日付の地域形式、名前/表義の発音。
ダイアログの切り替え:「Go to ukraїnsku」は明示的なコマンドです。

11)可用性(A11y)声で

アクションの確認は明確かつ短いです。
Repeat on Demand: 「Repeat」は最終行を表示します。
音量/スピード:「より遅く/静か/大声で話す」。
聴覚障害者のために:スクリーンの字幕/トランスクリプト、振動信号。
音声障害の場合:代替入力方法(ボタン、プリセット)。

12)機密性、ロギングおよびコンプライアンス

Wake-wordと録音インジケータ:明示的な「リスニング」状態。
可能であれば、ローカル処理。さもなければ、データの最小化。
ログ(PAN、 IBAN、アドレス)および自動編集オーディオの機密フラグメントをマスキングします。
要求に応じて削除する保持期間と権利。履歴設定を保存しないでください。
年齢制限/ペアレンタルコントロール(子供の声/チーム)。

透明性: "私は認識を改善するためにこのコマンドを記録しています。設定で無効にすることができます"

13)アシスタントパーソナリティ

名前/人:短い伝記、できる/できない能力の領域。
状況のトーン:ノーマル(フレンドリー)、クリティカル(ニュートラル)、教育(サポート)。
境界:"私は財政的な助言を与えませんが、私は助けを示すことができます。

14) VUI品質指標

意図的な認識率。
スロットの塗りつぶし速度。AV。塗りつぶしになります。
ASR WER/CER (Word/Character Recognition Error)。
タスクサクセス/完了率;完了までの時間。
エスカレーションレート(オペレータ/スクリーンあたり)。
Barge-inの使用法;遅延P95。
スクリプトの後のユーザー満足度/CSAT。
ステップの放棄。

15)音声テストとQA

テストフレーズセット:同義語、口語形式、アクセント、エラー。
環境騒音:通り/車/台所、別のマイク。
再生ダイアログ:再生可能なスクリプト、回帰のためのゴールデンセット。
初期段階でのウィザードオブオズ。
法的シナリオ:アシスタントが潜在的に危険な要求にどのように応答するか。

16)製品統合(iGamingケース)

残高/預金/出金:「残高は何ですか?「、「200 UAHで補充……」、「出力ステータス」。
ボーナス/ミッション:「利用可能なボーナスは何ですか?「、「毎週キャッシュバックを有効にする」。

責任あるプレイ: 「1週間に1000 UAHのデポジット制限を設定します。」

システムの状態: 「技術的な作品は今ありますか?」

17)アンチパターン

機会を中断することなく、アシスタントの長いモノローグ。
金融取引の暗黙の確認。
テストされていない「理解できませんでした」オプションを促すことなく。
供給過剰な音/ジングルが知覚を妨害します。
「声」の試みは、詳細な視覚的選択が必要な問題を解決する。

18)プロンプトと回答テンプレート

スロット洗練(合計):
  • アシスタント:「アカウントを補充するにはいくらですか?」
  • ユーザー:「500」。
  • アシスタント:"500グリブナで補充?確認してください"
敏感な行為の確認:
  • "500グリブナカードによる補充を確認してください……4581.「確認」または「キャンセル」と言う"
誤解+ガイドのヒント:
  • "支払い方法が聞こえなかった。私は提供することができます:Apple Pay、カード、暗号財布。あなたは何を選びますか"
スクリーンへのエスカレーション:
  • "利用可能なメソッドを画面に送信しました。選択して"完了"と続けます"

19) SSMLパターンの例

数字/通貨と一時停止:
xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
重要な言葉に重点を置く:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
略語の発音:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>

20)チェックリスト

プレリリースの対話/コンテンツ

  • 各インテント-同義語/フレーズのバリアントのリスト。
  • 必要なスロットごとに1つの明確な質問。
  • 機密行為-明示的な確認。
  • 短い画面/演算子の代替があります。
  • レプリカ≤ 2つの提案;long-"Continue?».

技術と品質

  • barge-inがサポートされ、中断後に対話に戻ります。
  • p95レイテンシーは正常です。遅れているイヤーコンがある。
  • SSML構成:一時停止、数値、応力。
  • 非人格的/マスクを記録します。歴史管理です。
  • 多言語主義とローカルフォーマットをテストしました。

A11yと安全性

  • 「Repeat/Speak Slower/Louder」作品。
  • 完全な個人データ/支払いデータは発表されません。
  • 音声によるアクションのキャンセル/ロールバックがあります。
  • テストされた年齢と地域の制限。

21)ダイアログ仕様フレームワーク(テンプレート)

シナリオの目的: (例えば「、預金≤ 90秒」)

意図と同義語:サンプルフレーズのリスト。
「量」(req、 confirm)、「通貨」(デフォルト=UAH)、「メソッド」(enum)。
値/しきい値が繰り返される確認ルール。
エラーオプション:ASR、 NLU、サービスなし-テキスト+ブランチ。
マルチモーダル出力:私たちが表示するカード/スクリーン。
ログとプライバシー:私たちは何とどのようにマスク、TTLストレージ。

最終チートシート

最初のインテント/スロット/確認ルール、次にテキスト。
簡単に話して、中断してキャンセルさせてください。
コンテキストごとにSSML、ローカルフォーマット、トーンを設定します。
プライバシーとログを管理下に保ちます。
Intent/Slot/ASRメトリック、Task Success、およびレイテンシを測定します。
常に画面と人へのパスに代わるものを持っています。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

Telegram
@Gamble_GC
統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。