Үн интерфейстери жана жардамчылары
1) VUI деген эмне жана ал керек болгондо
Үн интерфейси (VUI) - сөз аркылуу өз ара аракеттенүү ыкмасы: тиркемедеги/браузердеги жардамчылар, акылдуу колонкалар, IVR/телефония, авто жана ТВдагы үн.
Ылайыктуу: колу-бош скрипт (айдоо, ашкана), тез командалар ("күйгүзүү"..., "чал"...), жеткиликтүүлүк, татаал меню боюнча багыттоо.
Ылайыктуу эмес: так визуалдык тандоо (каталогдор, таблицалар), экран жок структураланган маалыматтарды узак киргизүү.
2) Диалогдун модели: интенттер, маңыз жана контекст
Intent (максаты): колдонуучу каалайт: 'Түзүү _ төлөм', 'Текшерүү _ баланс'.
Слоттор/маңыздар: максаттын параметрлери: сумма, валюта, адресат, дата.
Контекст/диалог-мамлекет: кайсы жерде бутактанганыбызды тактайбыз.
Тастыктоо эрежелери: ачык-айкын тастыктайбыз (акча, жеке маалыматтар).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Диалог үлгүлөрү
1. Команда бир сөз айкашы менен: "500 Hryvnia Apple Pay эсебин толук". → ырастоо → аракет.
2. Тактоочу диалог: "Кимге которуу керек?" → "Канча суммага?" → тастыктоо.
3. Step Master: маалыматтарды текшерүү жана артка кадам менен татаал жагдайлар.
4. Ниетти таануу + NLU-сөз айкашы: вариативдик формулировкаларды колдоо.
5. Тез маалымат: "Кандай чегерүү?" - кыска жооп + "экранда көрсөтүү".
4) Формулировкалар: үн жана тон
бренд үнү: ишенимдүү, тынч, достук; маанилүү кадамдарда кыскартуу жана "тамашалар" жок (төлөмдөр, коопсуздук).
Макс. ассистенттин репликасынын узундугу: 1-2 сунуш; узак жооптор - сындырып, "улантуу?"
Суроолор - конкреттүү: "Канча суммага толукталсын?" "Мындан ары эмне кылабыз?"
5) ырастоо, коопсуздук жана этика
сезимтал иш-аракеттердин катуу ырастоо: негизги параметрлерин ("500 Hryvnia карта менен толукталсын... 4581? »)
Кайтарылгыс операциялар үчүн кош ырастоо.
толук жеке маалыматтарды үн жок.
Жокко чыгаруу/кайтаруу мүмкүнчүлүгү: "Жокко чыгаруу", "Токто", "Акыркы кадамды жокко чыгаруу".
6) Каталар жана түшүнбөстүктөр
Мүчүлүштүктөрдүн түрлөрү жана жооптор:- ASR ката (уккан жокмун): "Сумманы уккан жокмун. Сураныч, кайталаңыз"
- NLU-түшүнүксүз: "Мен өтүнүчтү түшүнгөн жокмун. Эсепти толуктап же балансты көрсөтө алам. Эмне тандайсыз?"
- Эч кандай маалымат/чектөө: "Бул ыкма сиздин аймакта жеткиликтүү эмес. Башка варианттарды аташ керекпи?"
- Тармак/кызмат: "Азыр төлөм кызматы менен байланыш жок. Бир мүнөттөн кийин кайталайбы?"
Эреже: максималдуу 2 аракет сурап → альтернатива сунуш (экранда/адам).
7) ылдамдыгы жана барж-ин (токтотуу)
TTFB жашыруун: максаттуу <300-500 ms; узак болсо - кыска "em-mm" -сигнал/earcon.
Barge-in: колдонуучу каалаган учурда жардамчыны өлтүрө алат; үзгүлтүккө туура мамиле.
Жооп агымы: Биз бүт текст даяр алдында сүйлөй баштайт, бирок эч кандай мааниси жок.
8) TTS/ASR жана SSML: кантип "адам" деп
Сандардын/валюталардын/даталардын айтылышы: жергиликтүү форматтар ("беш жүз гривен", "15 жалбырак түшүү").
Тыныгуу жана басым: SSML '<break time = "300ms "/>', '<emphasis level =" moderate ">'.
Аббревиатураларды/коддорду окуу: '<say-as interpret-as = "characters"> IBAN </say-as>'.
ылдамдыгы жана тембр: 0 тез эмес. 9 × түшүнүктүү болушу үчүн негизги.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Multimodality: үн + экран
Визуалдык кеңештер: ырастоо картасы, ыкмалардын тизмеси, прогресс.
Hand-off экранда: "Мен экранда параметрлерин жөнөттү. ыкмасын тандоо"
Статус синхрондоштуруу: үн башталат, экран аяктайт (жана тескерисинче).
10) Көп тилдүүлүк жана локализация
Бир сөз айкашы эмес, сессия/орнотуу боюнча тилди автоматтык аныктоо.
Терминдердин сөздүгү: RU/UA/TR/EN үчүн бирдиктүү терминология.
Сандардын/валюталардын/даталардын аймактык форматтары, аттардын/топонимдердин айтылышы.
Диалогдо которуу: "Украинага өтүү" - ачык команда.
11) Жеткиликтүүлүк (A11y) үнү
Иш-аракеттерди ырастоо - так жана кыска.
Суроо-талап боюнча кайталоо: "Кайталоо" акыркы репликаны угат.
Үн/ылдамдыгы: "Жай/тынч/катуу сүйлө".
Угуусу начар адамдар үчүн: субтитрлер/транскрипт экранда, термелүү сигналдары.
Сүйлөө бузулушу үчүн: киргизүүнүн альтернативдүү жолдору (баскычы, алдын ала жазуулар).
12) Купуялык, логика жана комплаенс
Wake-word жана жазуу көрсөткүчү: ачык абалы "угуу".
Мүмкүн болсо, жергиликтүү иштетүү; болбосо - маалыматтарды минималдаштыруу.
Логдордо сезгич фрагменттерди жашыруу (PAN, IBAN, дарек) жана аудио авто редакциясы.
Сактоо мөөнөттөрү жана суроо-талап боюнча алып салуу укугу; "Тарыхты сактабагыла" параметрлери.
Курактык чектөөлөр/ата-энелик көзөмөл (балдардын үнү/командасы).
Ачык-айкындуулук: "Мен таанууну жакшыртуу үчүн бул команданы жаздырып жатам. Орнотууларда өчүрсө болот"
13) Жардамчы адам
Аты-жөнү: кыскача өмүр баяны, компетенттүүлүк чөйрөсү, ал билет/билбейт.
жагдайлар боюнча тон: жөнөкөй (достук), сын (бейтарап), окутуу (колдоо).
Чек аралар: "Мен каржылык кеңеш бербейм, бирок справка көрсөтө алам."
14) сапаты VUI Метрика
Intent recognition rate (NLU тактыгы).
Slot fill rate и avg. turns to fill.
ASR WER/CER (сөздөрдү/символдорду таануу катасы).
Task Success / Completion rate и Time-to-Complete.
Escalation rate (оператор/экран боюнча).
Barge-in usage и Latency p95.
Колдонуучу Satisfaction/CSAT скрипт кийин.
кадам Abandonment.
15) тестирлөө жана QA добуш
Тесттик фразалар топтому: синонимдер, сүйлөө формалары, акценттер, каталар.
Айлана-чөйрөнүн ызы-чуусу: көчө/авто/ашкана, ар кандай микрофондор.
Диалог-репликалар: кайталануучу сценарийлер, регрессия үчүн алтын-комплект.
Wizard-of-Oz алгачкы этаптарында.
Юридикалык сценарийлер: жардамчы катары потенциалдуу коркунучтуу суроо-талаптарга жооп берет.
16) продукт менен бириктирүү (iGaming-учурларда)
Баланс/депозит/чыгаруу: "Кандай баланс? ", "200 UAH толуктоо"..., "чыгаруу статусу".
Бонустар/миссиялар: "Кандай бонустар бар? ", "Жумалык кэшбэкти активдештирүү".
Жооптуу оюн: "Депозиттин лимитин жумасына 1000 грн."
Системалардын статусу: "Азыр техникалык иштер барбы?"
17) Анти-үлгүлөрү
Жардамчынын узун монологдору жок.
Акча операцияларын ачык тастыктоо.
Эч кандай альтернатива "түшүнгөн жокмун" эч кандай нускасы жок.
Ашыкча үндөр/джинглдер, кабылдоого тоскоол.
Майда-чүйдөсүнө чейин визуалдык тандоо керек болгон маселелерди "үн менен" чечүүгө аракет кылуу.
18) Промт жана жооп үлгүлөрү
Слотту тактоо (сумма):- Ассистент: "Эсеп канча суммага толукталсын?"
- Колдонуучу: "Беш жүз."
- Ассистент: "500 Hryvnia толуктоо? Сураныч, тастыктаңыз"
- "Карта менен 500 Hryvnia толуктоо тастыктоо... 4581. "Тастыктайм" же "жокко чыгаруу" деп"
- "Мен төлөм ыкмасын уккан жокмун. Мен сунуш кыла алам: Apple Pay, карта, крипто капчык. Эмне тандайсыз?"
- "Экранга жеткиликтүү ыкмаларды жөнөттү. Тандоо жана улантуу үчүн "даяр" деп"
19) SSML үлгүлөрү мисалдар
сандар/акча жана тыныгуу:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Маанилүү сөзгө басым:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Аббревиатуранын айтылышы:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Чек баракчалары
Чыгаруу алдында диалог/мазмун
- Ар бир интент үчүн - синонимдердин/сөз айкаштарынын тизмеси.
- Ар бир милдеттүү слот үчүн - бир так суроо.
- Сезгич иш-аракеттер - ачык ырастоо менен.
- Кыска альтернатива бар "экранда "/" оператор ".
- 2 сунуштар ≤ сын-пикирлер; узун - менен "улантуу? ».
Техника жана сапат
- Колдоо барж-ин жана үзгүлтүккө кийин диалогго кайтып.
- p95 жылдыруу нормалдуу; кечигип жатканда earcons бар.
- SSML орнотулган: тыныгуу, сандар, басым.
- Логи аноним/маскировка; башкаруу бар.
- Көп тилдүүлүк жана жергиликтүү форматтар текшерилди.
A11y жана коопсуздук
- "Кайталоо/Жай/Катуу сүйлө" иштеп жатат.
- Толук жеке/төлөм маалыматтары айтылбайт.
- үн менен жокко чыгаруу/артка кайтаруу бар.
- Курактык жана аймактык чектөөлөр текшерилет.
21) Диалог Specification алкагы (шаблон)
Сценарийдин максаты: (мисалы, "Депозит ≤ 90 сек")
Интенттер жана синонимдер: сөз айкаштарынын мисалдарынын тизмеси.
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
Тастыктоо эрежелери: кайсы баалуулуктар/босоголор үчүн кайталоо талап кылынат.
ката жолдору: ASR, NLU, эч кандай кызмат - текст + бутактары.
Multimodal чыгаруу: карталар/экрандар көрсөтүп турат.
Логи жана купуялык: эмне жана кантип жашыруу, TTL сактоо.
Акыркы шпаргалка
Адегенде интенттер/слоттор/тастыктоо эрежелери, андан кийин тексттер.
Кыскача сүйлөңүз, үзгүлтүккө учуратыңыз жана жокко чыгарыңыз.
Контекстке жараша SSML, жергиликтүү форматтарды жана тондорду жөндөө.
купуялуулукту жана логинди көзөмөлгө алуу.
Intent/Slot/ASR-метрика, Task Success жана жашыруун өлчөө.
Ар дайым экранда альтернатива жана адамга жол бар.