رابط های صوتی و دستیاران
1) VUI چیست و چه زمانی مورد نیاز است
رابط صوتی (VUI) - راهی برای تعامل از طریق گفتار: دستیاران در برنامه/مرورگر، بلندگوهای هوشمند، تلفن گویا/تلفنی، صدا در خودکار و تلویزیون.
مناسب برای: سناریوهای دستی (رانندگی، آشپزخانه)، دستورات سریع («روشن کردن»...، «تماس»...)، دسترسی، ناوبری از طریق منوهای پیچیده.
مناسب برای: انتخاب بصری دقیق (کاتالوگ، جداول)، ورود طولانی از داده های ساخت یافته بدون صفحه نمایش.
2) مدل گفتگو: اهداف، اشخاص و زمینه
هدف: آنچه کاربر می خواهد: «Create _ payment»، «Check _ balance».
شکافها/اشخاص: پارامترهای هدف: مقدار، ارز، مخاطب، تاریخ.
زمینه/گفتگو دولت: آنچه در حال حاضر شناخته شده است، آنچه ما روشن، که در آن ما شاخه.
قوانین تایید: که ما به صراحت تایید (پول، اطلاعات شخصی).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) الگوهای گفتگو
1. تیم با یک عبارت: "بالا تا حساب برای 500 hryvnia اپل پرداخت. "→ تایید → عمل.
2. توضیح گفتگو: «به چه کسی ترجمه کنم ؟» → «چقدر ؟» → تایید.
3. جادوگر گام به گام: سناریوهای پیچیده با اعتبار سنجی داده ها و گام معکوس.
4. تشخیص قصد + نقل قول NLU: پشتیبانی از فرمولاسیون متغیر.
5. کمک سریع: «محدودیت برداشت چیست ؟» - پاسخ کوتاه + «نمایش روی صفحه».
4) جمله بندی: صدا و تن
صدای نام تجاری: اعتماد به نفس، آرام، دوستانه ؛ بدون کوچک و «جوک» در مراحل بحرانی (پرداخت، امنیت).
حداکثر. طول ماکت دستیار: 1-2 جمله ؛ پاسخ های طولانی - شکستن و پیشنهاد «ادامه ؟»
سوالات - خاص: «چقدر برای پر کردن ؟» به جای اینکه بگویید «حالا باید چه کار کنیم ؟»
5) تأییدها، ایمنی و اخلاق
تایید سختی از اقدامات حساس: پارامترهای کلیدی را تلفظ کنید ("500 hryvnia را با یک کارت پر کنید... 4581? »)
تایید دوگانه برای عملیات غیر قابل برگشت.
بدون ارائه اطلاعات کامل شخصی.
واگرد/واگرد گزینه: واگرد, توقف, واگرد آخرین مرحله.
6) اشتباهات و سوء تفاهمات
انواع شکست و پاسخ:- خطای ASR (نمی شنود): "من مقدار را نمی شنوم. لطفا تکرار کنید"
- NLU غیر قابل درک: "من درخواست را درک نمی کنم. من می توانم حساب خود را بالا ببرم یا تعادل خود را نشان دهم. چه چیزی را انتخاب می کنید ؟"
- اطلاعات گمشده/محدودیت: "این روش در منطقه شما موجود نیست. گزینههای دیگر چه هستند ؟"
- شبکه/سرویس: "اکنون هیچ ارتباطی با سرویس پرداخت وجود ندارد. ميخواي يه دقيقه ديگه دوباره امتحان کني ؟
قانون: حداکثر 2 تلاش برای پرس و جو → ارائه یک جایگزین (صفحه نمایش/شخص).
7) سرعت و بارج در (قطع)
TTFB تاخیر: هدف <300-500 ms ؛ اگر طولانی تر - کوتاه «em-mm» سیگنال/earcon.
Barge-in: کاربر می تواند دستیار را در هر زمان قطع کند. وقفه را به درستی مدیریت کنید
جریان پاسخ: ما شروع به صحبت کردن قبل از کل متن آماده است، اما بدون شکستن خط.
8) TTS/ASR و SSML: چگونه می گویند «انسان»
تلفظ اعداد/ارز/تاریخ: فرمت های محلی («p 'yatsot hryvnia»، «15 برگ سقوط»).
مکث و تاکید: SSML '<زمان شکستن = «300ms «/> '،' <تاکید سطح = »متوسط«> '.
خواندن اختصارات/کدها: <say-as-interprete-as = «characters»> IBAN </say-as> '.
سرعت و تمبر: سریعتر از 0 نیست. 9 × اساسی قابل خواندن است.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) چند منظوره: صدا + صفحه نمایش
نشانه های بصری: کارت تایید، لیست روش ها، پیشرفت.
دستی به صفحه نمایش: "من گزینه ها را به صفحه نمایش فرستادم. لطفا یک روش را انتخاب کنید"
هماهنگ سازی حالت: صدا آغاز می شود، صفحه پایان می یابد (و بالعکس).
10) چند زبانه و محلی سازی
زبان خودکار تشخیص توسط جلسه/تنظیم، نه با یک عبارت واحد.
واژه نامه اصطلاحات: اصطلاحات مشترک برای RU/UA/TR/EN.
فرمت های منطقه ای از اعداد/ارز/تاریخ، تلفظ نام/toponyms.
سوئیچینگ در گفتگو: «برو به ukraїnsku» یک دستور صریح است.
11) در دسترس بودن (A11y) در صدا
تأیید عمل واضح و کوتاه است.
تکرار در تقاضا: «تکرار» صدای خط نهایی.
صدا/سرعت: «آهسته تر/ساکت تر/بلندتر صحبت کنید».
برای اختلال شنوایی: زیرنویس/متن بر روی صفحه نمایش، سیگنال های ارتعاش.
برای اختلالات گفتاری: روش های ورودی جایگزین (دکمه، ایستگاه از پیش تنظیم).
12) محرمانه بودن، ورود به سیستم و انطباق
Wake-word و ضبط نشانگر: حالت صریح «گوش دادن».
پردازش محلی، در صورت امکان ؛ در غیر این صورت، به حداقل رساندن داده ها.
پوشش قطعات حساس در سیاهههای مربوط (PAN، IBAN، آدرس) و صوتی خودکار ویرایش.
دوره نگهداری و حق حذف در صورت درخواست ؛ تنظیمات تاریخچه را ذخیره نکنید.
محدودیت های سنی/کنترل والدین (صدای کودکان/تیم ها).
شفافیت: "من این فرمان را برای بهبود شناخت ضبط می کنم. را می توان در تنظیمات غیر فعال"
13) شخصیت دستیار
نام/شخص: بیوگرافی کوتاه، حوزه صلاحیت که می تواند/نمی تواند.
تن برای شرایط: طبیعی (دوستانه)، انتقادی (خنثی)، آموزشی (حمایتی).
مرزها: «من مشاوره مالی نمی دهم، اما می توانم کمک کنم».
14) معیارهای کیفیت VUI
نرخ تشخیص قصد.
نرخ پر کردن اسلات и AVG. تبدیل به پر کردن.
ASR WER/CER (خطای تشخیص کلمه/کاراکتر).
موفقیت کار/میزان تکمیل и زمان برای تکمیل.
نرخ افزایش (در هر اپراتور/صفحه نمایش).
استفاده از بارج и p95 تاخیر.
رضایت کاربر/CSAT پس از اسکریپت.
رها کردن در مرحله
15) تست صدا و QA
مجموعه عبارات تست: مترادف، فرم های محاوره، لهجه ها، خطاها.
صداهای محیطی: خیابان/ماشین/آشپزخانه، میکروفون های مختلف.
پخش گفتگو: اسکریپت های قابل پخش، مجموعه طلایی برای رگرسیون.
جادوگر شهر اُز در مراحل اوليه
سناریوهای قانونی: چگونه یک دستیار به درخواست های بالقوه خطرناک پاسخ می دهد.
16) ادغام محصول (موارد iGaming)
تعادل/سپرده/خروج: «تعادل چیست ؟ «، «دوباره پر کردن در 200 UAH»...، «وضعیت خروجی».
پاداش/ماموریت: «چه پاداش در دسترس هستند? «, «فعال کردن بازپرداخت نقدی هفتگی».
بازی مسئول: «تعیین حد سپرده 1000 UAH در هفته».
وضعیت سیستم: «آیا در حال حاضر کار فنی وجود دارد ؟»
17) ضد الگوهای
مونولوگهای طولانی از دستیار بدون فرصتی برای قطع.
تأییدهای ضمنی معاملات پولی.
بی قید و شرط «نمی فهمید» بدون تحریک گزینه ها.
صداهای بیش از حد/jingles دخالت در ادراک.
تلاش برای «صدا» حل مشکلات که در آن یک انتخاب بصری دقیق مورد نیاز است.
18) وعده و پاسخ قالب
پالایش اسلات (مجموع):- دستیار: «چقدر برای پر کردن حساب ؟»
- کاربر: «پانصد»
- دستیار: "500 hryvnia را دوباره پر کنید ؟ لطفا تایید کنید"
- "تایید دوباره پر کردن توسط 500 hryvnia کارت... 4581. بگویید «تأیید» یا «لغو»
- روش پرداخت را نشنیدم. من می توانم ارائه دهم: Apple Pay، کارت، کیف پول رمزنگاری. چه چیزی را انتخاب می کنید ؟"
- "ارسال روش های موجود به صفحه نمایش. انتخاب کنید و بگویید "انجام شده" برای ادامه"
19) نمونه هایی از الگوهای SSML
اعداد/ارز و مکث:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
تاکید بر کلمه مهم:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
تلفظ مخفف:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) چک لیست
گفتگوی پیش از انتشار/محتوا
- برای هر قصد - یک لیست از مترادف/عبارت انواع.
- یک سوال روشن در هر اسلات مورد نیاز است.
- اقدامات حساس - با تایید صریح.
- یک جایگزین کوتاه روی صفحه نمایش/اپراتور وجود دارد.
- کپی ≤ پیشنهادات 2 ؛ طولانی - با «ادامه» ؟ ».
تکنیک و کیفیت
- barge-in پشتیبانی می شود و پس از قطع شدن به گفتگو باز می گردد.
- تاخیر p95 طبیعی است ؛ earcons در تاخیر وجود دارد.
- SSML پیکربندی شده: مکث، اعداد، تنش.
- سیاهههای مربوط غیر شخصی/ماسک ؛ مدیریت تاریخ است.
- چند زبانه و فرمت های محلی تست شده است.
A11y و ایمنی
- «تکرار/صحبت کندتر/بلندتر» کار می کند.
- اطلاعات کامل شخصی/پرداخت اعلام نشده است.
- لغو/لغو عمل توسط صدا وجود دارد.
- سن و محدودیت های منطقه ای تست شده است.
21) چارچوب مشخصات محاوره (قالب)
هدف سناریو: (به عنوان مثال، «واریز ≤ 90 ثانیه»)
Intents و مترادف: لیستی از عبارات مثال.
Слоты: 'مقدار' (req، تایید)، 'ارز' (به طور پیش فرض = UAH)، 'روش' (enum).
قوانین تایید برای که ارزش/آستانه به تکرار.
گزینه های خطا: ASR، NLU، بدون سرویس - متون + شاخه ها.
خروجی های چند منظوره: کدام کارت/صفحه نمایش ما نشان می دهد.
سیاهههای مربوط و حریم خصوصی: چه و چگونه ما ماسک، ذخیره سازی TTL.
ورق تقلب نهایی
اول مفاهیم/اسلات/قوانین تایید، پس از آن متون.
به طور خلاصه صحبت کنید، اجازه دهید آنها قطع و لغو کنند.
پیکربندی SSML، فرمت های محلی، و تن توسط زمینه.
حفظ حریم خصوصی و ورود به سیستم تحت کنترل است.
معیارهای Intent/Slot/ASR، Task Success و Latency را اندازه گیری کنید.
همیشه یک جایگزین برای صفحه نمایش و یک مسیر برای فرد داشته باشید.