واجهات صوتية ومساعدون
1) ما هي VUI ومتى تكون هناك حاجة إليها
الواجهة الصوتية (VUI) - طريقة للتفاعل من خلال الكلام: مساعدون في التطبيق/المتصفح، مكبرات الصوت الذكية، IVR/الهاتف، الصوت في التلقائي والتلفزيون.
مناسب لـ: سيناريوهات مشغولة باليد (القيادة، المطبخ)، أوامر سريعة («تشغيل»...، «اتصال...»)، إمكانية الوصول، التنقل من خلال قوائم معقدة.
غير مناسب: اختيار بصري دقيق (كتالوجات، جداول)، إدخال طويل للبيانات المنظمة بدون شاشة.
2) نموذج الحوار: المقاصد والكيانات والسياق
النية: ما يريده المستخدم: «إنشاء _ الدفع»، «الشيك _ الرصيد».
الفترات/الكيانات: البارامترات المستهدفة: المبلغ، العملة، المرسل إليه، التاريخ.
السياق/حالة الحوار: ما هو معروف بالفعل، ما نوضحه، أين نتفرع.
قواعد التأكيد: نؤكد صراحة (المال والبيانات الشخصية).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) أنماط الحوار
1. الفريق بعبارة واحدة: "قم بتعبئة حساب 500 hryvnia Apple Pay. "→ تأكيد → إجراء.
2. توضيح الحوار: «لمن يترجم ؟» → «كم الثمن ؟» → تأكيد.
3. الساحر خطوة بخطوة: سيناريوهات معقدة مع التحقق من صحة البيانات والخطوة العكسية.
4. الاعتراف بالنية + إعادة صياغة NLU: دعم الصيغ المتغيرة.
5. مساعدة سريعة: «ما هي حدود الانسحاب ؟» - إجابة قصيرة + «عرض على الشاشة».
4) الصياغة: الصوت والنبرة
صوت العلامة التجارية: واثق وهادئ وودود ؛ بدون «نكات» ضئيلة في خطوات حاسمة (مدفوعات، أمن).
ماكس. مساعد نسخة طبق الأصل: 1-2 جملة ؛ إجابات طويلة - كسر واقتراح «تابع ؟»
أسئلة - محددة: «كم يجب تجديده ؟» بدلاً من «ماذا سنفعل بعد ذلك ؟»
5) التأكيدات والسلامة والأخلاق
تأكيد صارم للإجراءات الحساسة: نطق المعلمات الرئيسية ("تجديد 500 هريفنيا ببطاقة... 4581? »)
تأكيد مزدوج للعمليات التي لا رجعة فيها.
دون التعبير عن البيانات الشخصية الكاملة.
خيار التراجع/التراجع: التراجع، التوقف، التراجع عن الخطوة الأخيرة.
6) الأخطاء وسوء الفهم
أنواع الفشل والردود:- خطأ ASR (لم يسمع): "لم أسمع المبلغ. أكرر ، من فضلك
- لا يمكن فهم NLU: "لم أفهم الطلب. يمكنني زيادة حسابي أو إظهار رصيدي. ماذا ستختار ؟"
- البيانات/القيود المفقودة: "هذه الطريقة غير متوفرة في منطقتك. ما هي الخيارات الأخرى ؟"
- الشبكة/الخدمة: "الآن لا توجد صلة بخدمة الدفع. هل تريد المحاولة مرة أخرى في دقيقة ؟
القاعدة: الحد الأقصى من المحاولات 2 للاستفسار → تقديم بديل (شاشة/شخص).
7) السرعة والصندل (المقاطعة)
زمن انتقال TTFB: الهدف <300-500 مللي ثانية ؛ إذا كانت أطول - إشارة/أذان قصيرة "em-mm'.
Barge-in: يمكن للمستخدم مقاطعة المساعد في أي وقت ؛ تعامل مع المقاطعة بشكل صحيح.
بث الإجابة: نبدأ الحديث قبل أن يكون النص بأكمله جاهزًا، ولكن دون كسر الخط.
8) TTS/ASR و SSML: كيف تقول «إنسان»
نطق الأرقام/العملات/التواريخ: الأشكال المحلية ("p 'yatsot hryvnia", "15 leaf falls').
التوقفات والضغوط: SSML' <وقت الاستراحة = «300 مللي ثانية »/>،« <مستوى التركيز = »معتدل«> ».
قراءة المختصرات/الرموز: «<say-as interprete-as =» أحرف «> IBAN </say-as>».
السرعة والجرس: ليس أسرع من 0. 9 × أساسية لتكون مقروءة.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) الوسائط المتعددة: صوت + شاشة
الإشارات المرئية: بطاقة تأكيد، قائمة الأساليب، التقدم.
تسليم إلى الشاشة: "أرسلت خيارات إلى الشاشة. يرجى اختيار طريقة"
تزامن الحالة: يبدأ الصوت، وتنتهي الشاشة (والعكس صحيح).
10) تعدد اللغات والتوطين
اكتشاف اللغة تلقائيًا حسب الجلسة/الضبط، وليس بعبارة واحدة.
مسرد المصطلحات: المصطلحات الشائعة لـ RU/UA/TR/EN.
النماذج الإقليمية للأرقام/العملات/التواريخ، ونطق الأسماء/أسماء المواقع الجغرافية.
التبديل في الحوار: «اذهب إلى ukraїnsku» أمر صريح.
11) التوافر (A11y) بالصوت
تأكيد العمل واضح وقصير.
كرر عند الطلب: «كرر» أصوات السطر الأخير.
الحجم/السرعة: «تحدث بشكل أبطأ/أكثر هدوءًا/أعلى صوتًا».
لضعاف السمع: ترجمة/نص على الشاشة، إشارات اهتزاز.
لاضطرابات الكلام: طرق إدخال بديلة (زر، تجهيزات مسبقة).
12) السرية وقطع الأشجار والامتثال
مؤشر كلمة الاستيقاظ والتسجيل: حالة «الاستماع» الصريحة.
التجهيز المحلي، إن أمكن ؛ خلاف ذلك، تقليل البيانات إلى أدنى حد.
إخفاء الأجزاء الحساسة في السجلات (PAN، IBAN، العنوان) والتحرير التلقائي للصوت.
فترات الاحتفاظ والحق في الإزالة عند الطلب ؛ لا تحفظ إعدادات التاريخ.
القيود العمرية/الرقابة الأبوية (أصوات/أفرقة الأطفال).
الشفافية: "أنا أسجل هذا الأمر لتحسين الاعتراف. يمكن تعطيلها في بيئات"
13) مساعد شخصية
الاسم/الشخص: سيرة ذاتية قصيرة، مجال اختصاص يمكن/لا يمكن.
نغمة المواقف: عادية (ودية)، حاسمة (محايدة)، تعليمية (داعمة).
الحدود: «أنا لا أعطي نصائح مالية، لكن يمكنني إظهار المساعدة».
14) مقاييس جودة VUI
معدل التعرف على النية.
معدل ملء الفتحة и av. يتحول إلى ملء.
ASR WER/CER (خطأ التعرف على الكلمة/الحرف).
نجاح المهمة/معدل الإنجاز и الوقت اللازم لإكماله.
معدل التصعيد (لكل مشغل/شاشة).
Barge-in usage и Latency p95.
رضا المستخدم/CSAT بعد النص.
التخلي عن الخطوة.
15) الاختبار الصوتي و QA
مجموعات عبارات الاختبار: المرادفات، النماذج العامية، اللهجات، الأخطاء.
ضوضاء البيئة: الشارع/السيارة/المطبخ، ميكروفونات مختلفة.
حوار إعادة التشغيل: نصوص قابلة للعب، مجموعة ذهبية للانحدار.
ساحر أوز في المراحل الأولى.
السيناريوهات القانونية: كيف يستجيب المساعد للطلبات التي يحتمل أن تكون خطرة.
16) تكامل المنتج (حالات iGaming)
الرصيد/الإيداع/السحب: «ما هو الرصيد ؟ «، «تجديد في 200 UAH»...، «حالة الخرج».
المكافآت/المهام: «ما هي المكافآت المتاحة ؟ «، «تفعيل استرداد النقود الأسبوعي».
اللعب المسؤول: «ضع حدًا للإيداع يبلغ 1000 هرمون في الأسبوع».
حالة الأنظمة: «هل هناك أي أعمال فنية الآن ؟»
17) الأنماط المضادة
مونولوجات طويلة من المساعد دون فرصة للمقاطعة.
تأكيدات ضمنية للمعاملات النقدية.
«لم يفهم» غير المتنازع عليه دون طرح خيارات.
الأصوات/الأناشيد المفرطة في العرض تتداخل مع الإدراك.
محاولة «الصوت» لحل المشكلات حيث تكون هناك حاجة إلى خيار بصري مفصل.
18) نماذج الوعود والإجابات
صقل الفتحة (مجموع):- المساعد: «ما مقدار تجديد الحساب ؟»
- المستخدم: «خمسمائة».
- مساعد: "تجديد 500 هريفنيا ؟ يرجى تأكيد"
- "تأكد من التجديد بـ 500 بطاقة هريفنيا... 4581. قل "تأكيد" أو "إلغاء""
- لم أسمع طريقة الدفع. يمكنني أن أعرض: Apple Pay، بطاقة، محفظة تشفير. ماذا ستختار ؟"
- "أرسل الأساليب المتاحة إلى الشاشة. اختر وقل «تم» للاستمرار
19) أمثلة على أنماط SSML
الأرقام/العملة والتوقف المؤقت:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
التأكيد على الكلمة الهامة:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
نطق المختصر:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) القوائم المرجعية
حوار/محتوى ما قبل الإصدار
- لكل نية - قائمة بالمرادفات/متغيرات العبارات.
- سؤال واحد واضح لكل فتحة مطلوبة.
- إجراءات حساسة - مع تأكيد صريح.
- هناك بديل قصير على الشاشة/المشغل.
- نسخ طبق الأصل ≤ 2 الاقتراحات ؛ طويل - مع "تابع ؟ ».
التقنية والجودة
- يتم دعم الاقتحام والعودة إلى الحوار بعد المقاطعة.
- كمون p95 طبيعي ؛ هناك أذن على التأخير.
- تكوين SSML: توقف مؤقت، أرقام، ضغوط.
- سجلات غير شخصية/مقنعة ؛ إدارة التاريخ.
- اختبار تعدد اللغات والأشكال المحلية.
A11y والسلامة
- يعمل «كرر/تحدث ببطء/بصوت أعلى».
- لم يتم الإعلان عن بيانات شخصية/مدفوعات كاملة.
- هناك إلغاء/تراجع عن الإجراء بالصوت.
- اختبار الحدود العمرية والإقليمية.
21) إطار مواصفات الحوار (نموذج)
الغرض من السيناريو: (على سبيل المثال، «الإيداع ≤ 90 ثانية»)
المقاصد والمرادفات: قائمة بعبارات مثالية.
Слоты: «المبلغ» (req، تأكيد)، «العملة» (الافتراضي = UAH)، «الطريقة» (enum).
قواعد تأكيد القيم/العتبات التي يجب تكرارها.
خيارات الخطأ: ASR، NLU، لا توجد خدمة - نصوص + فروع.
المخرجات متعددة الوسائط: البطاقات/الشاشات التي نعرضها.
السجلات والخصوصية: ماذا وكيف نخفي، تخزين TTL.
ورقة الغش النهائية
القصد الأول/الفتحات/قواعد التأكيد، ثم النصوص.
تحدث باختصار، دعهم يقاطعون ويلغون.
قم بتهيئة SSML، والتنسيقات المحلية، والنبرة حسب السياق.
حافظ على الخصوصية وقطع الأشجار تحت السيطرة.
قياس مقاييس القصد/الفتحة/ASR، نجاح المهمة، والكمون.
احصل دائمًا على بديل للشاشة وطريق إلى الشخص.