Interfețe vocale și asistenți
1) Ce este VUI și când este necesar
Interfață vocală (VUI) - un mod de a interacționa prin vorbire: asistenți în aplicație/browser, difuzoare inteligente, IVR/telefonie, voce în auto și TV.
Potrivit pentru: scenarii ocupate manual (conducere, bucătărie), comenzi rapide („porniți”..., „apel”...), accesibilitate, navigare prin meniuri complexe.
Nu este potrivit pentru: selecție vizuală precisă (cataloage, tabele), intrare lungă de date structurate fără un ecran.
2) Model de dialog: intenții, entități și context
Intenție: ce dorește utilizatorul: 'Create _ payment', 'Check _ balance'.
Sloturi/entități: parametrii țintă: suma, moneda, destinatar, data.
Context/dialog-stat: ce se știe deja, ce clarificăm, unde ne ramificăm.
Reguli de confirmare: pe care le confirmăm explicit (bani, date personale).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Modele de dialog
1. Echipa cu o singură frază: "Reîncărcați contul pentru 500 de grivne Apple Pay. "→ confirmare → acţiune.
2. Clarificarea dialogului: „Cui să traducă?” → „Cât de mult?” Confirmarea →.
3. Expertul pas cu pas: scenarii complexe cu validarea datelor și pas invers.
4. Recunoașterea intențiilor + parafraza NLU: suport pentru formulări variabile.
5. Ajutor rapid: „Care sunt limitele de retragere?” - răspuns scurt + „Arată pe ecran”.
4) Formulare: voce și ton
Voce de brand: încrezător, calm, prietenos; fără diminutive și „glume” în pași critici (plăți, securitate).
Max. Lungimea replica asistent: 1-2 propoziții; răspunsuri lungi - pauză și sugerează „Continuați?”
Întrebări - specifice: „Cât de mult pentru a umple?” în loc de „Ce facem mai departe?”
5) Confirmări, siguranță și etică
Confirmarea dură a acțiunilor sensibile: pronunță parametrii cheie ("Completați cu 500 de grivne cu un card... 4581? »)
Confirmare dublă pentru operaţiuni ireversibile.
Fără a exprima datele personale complete.
Anulare/Anulare opţiune: Anulare, Oprire, Anulare ultimă etapă.
6) Greșeli și neînțelegeri
Tipuri de eșecuri și răspunsuri:- Eroare ASR (nu a auzit): "Nu am auzit suma. Te rog repetă"
- NLU-de neînțeles: "Nu am înțeles cererea. Pot să-mi completez contul sau să-mi arăt soldul. Ce vei alege?"
- Lipsă de date/limitare: "Această metodă nu este disponibilă în regiunea dvs. Care sunt celelalte opțiuni?"
- Rețea/serviciu: "Acum nu există nici o legătură cu serviciul de plată. Vrei să încerci din nou într-un minut?
Regulă: un maxim de 2 încercări de a interoga → de a oferi o alternativă (ecran/persoană).
7) Viteza și barge-in (întrerupere)
Latența TTFB: țintă <300-500 ms; dacă mai mult - un semnal scurt „em-mm ”/earcon.
Barge-in: utilizatorul poate întrerupe asistentul în orice moment; gestionați corect întreruperea.
Streaming răspunsul: începem să vorbim mai devreme decât întregul text este gata, dar fără a rupe linia.
8) TTS/ASR și SSML: Cum să spui „uman”
Pronunția numerelor/valutelor/datelor: formate locale ("p 'yatsot hryvnia", "15 frunze falls').
Pauzele și stresurile: SSML '<break time = "300ms'/>', '<accent level =" moderat ">'.
Citirea abrevierilor/codurilor: '<say-as interpret-as = „characters”> IBAN </say-as>'.
Viteza și timbrul: nu mai repede de 0. 9 × de bază pentru a fi lizibil.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Multimodalitate: voce + ecran
Indicii vizuale: carte de confirmare, listă de metode, progres.
Mână-off pe ecran: "Am trimis opțiuni pe ecran. Vă rugăm să selectați o metodă"
Sincronizarea stării: inițiază vocea, termină ecranul (și invers).
10) Multilingvism și localizare
Detectați automat limbajul prin sesiune/tuning, nu printr-o singură frază.
Glosar de termeni: terminologie comună pentru RU/UA/TR/EN.
Formate regionale de numere/valute/date, pronunțarea numelor/toponimelor.
Comutarea în dialog: „Du-te la ukraїnsku” este o comandă explicită.
11) Disponibilitate (A11y) în voce
Confirmarea acțiunii este clară și scurtă.
Repetați la cerere: „Repetați” voci linia finală.
Volum/viteză: „Vorbiți mai încet/mai liniștit/mai tare”.
Pentru persoanele cu deficiențe de auz: subtitrare/transcriere pe ecran, semnale de vibrații.
Pentru tulburări de vorbire: metode alternative de intrare (buton, presetări).
12) Confidențialitate, exploatare forestieră și conformitate
Wake-word și indicator de înregistrare: explicit „ascultare” stare.
Prelucrarea locală, dacă este posibil; în caz contrar, minimizarea datelor.
Mascarea fragmentelor sensibile în jurnale (PAN, IBAN, adresa) și audio de editare automată.
Perioade de păstrare și dreptul de a elimina la cerere; Nu salvați setările istoricului.
Restricții de vârstă/control parental (voci/echipe pentru copii).
Transparență: "Înregistrez această comandă pentru a îmbunătăți recunoașterea. Poate fi dezactivat în setări"
13) Asistent persona
Nume/persoană: o scurtă biografie, domeniu de competență care poate/nu poate.
Ton pentru situații: normale (prietenoase), critice (neutre), educaționale (de susținere).
Limite: „Nu dau sfaturi financiare, dar pot arăta ajutor”.
14) Măsurători de calitate VUI
Rata de recunoaștere a intențiilor.
Rata de umplere a sloturilor и medie se transformă în umplere.
ASR WER/CER (Word/Eroare de recunoaștere a caracterelor).
Task Success/Rata de finalizare и Time-to-Complete.
Rata de escaladare (per operator/ecran).
Utilizarea Barge-in и Latency p95.
Satisfacția utilizatorului/CSAT după script.
Abandonarea pe treaptă.
15) Testarea vocii și QA
Seturi de fraze de testare: sinonime, forme colocviale, accente, erori.
Zgomote de mediu: strada/masina/bucatarie, microfoane diferite.
Dialogul Replay: scripturi redate, aur-set pentru regresie.
Vrăjitorul din Oz în stadiile incipiente.
Scenarii juridice: Cum răspunde un asistent la solicitări potențial periculoase.
16) Integrarea produsului (cazuri iGaming)
Balanță/depozit/retragere: „Care este soldul? „, „Completați la 200 UAH”..., „Starea de ieșire”.
Bonusuri/Misiuni: „Ce bonusuri sunt disponibile? „, „Activați cashback săptămânal”.
Joc responsabil: „Stabiliți o limită de depozit de 1000 UAH pe săptămână”.
Starea sistemelor: „Există lucrări tehnice acum?”
17) Anti-modele
Monologuri lungi ale asistentului fără posibilitatea de a întrerupe.
Confirmări implicite ale tranzacțiilor monetare.
Necontestat „nu a înțeles” fără a solicita opțiuni.
Sunete suprapuse/jingle care interferează cu percepția.
O încercare de „voce” rezolva problemele în care este necesară o alegere vizuală detaliată.
18) Șabloane pentru promoții și răspunsuri
Rafinament slot (sumă):- Asistent: „Cât de mult pentru a umple contul?”
- Utilizator: „Cinci sute”.
- Asistent: "Completați cu 500 de grivne? Vă rugăm să confirmați"
- "Confirmați reaprovizionarea cu 500 de grivne... 4581. Spune „confirma” sau „anula”
- "Nu am auzit metoda de plată. Pot oferi: Apple Pay, card, portofel cripto. Ce vei alege?"
- "A trimis metode disponibile pe ecran. Selectați și spuneți "făcut" pentru a continua"
19) Exemple de modele SSML
Numere/valută și pauză:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Accentul pe cuvântul important:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Pronunţia abrevierii:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Liste de verificare
Dialogul/conținutul înainte de lansare
- Pentru fiecare intenție - o listă de sinonime/variante de frază.
- O întrebare clară pe slot necesar.
- Acțiuni sensibile - cu confirmare explicită.
- Există o scurtă alternativă pe ecran/operator.
- Replici ≤ 2 sugestii; lung - cu "Continua? ».
Tehnica si calitate
- barge-in este sprijinit și reveniți la dialog după întrerupere.
- latența p95 este normală; există earcons pe întârziere.
- SSML configurat: pauze, numere, stres.
- Jurnale impersonale/mascate; managementul istoriei este.
- Multilingvismul și formatele locale testate.
A11y și siguranță
- „Repetați/Vorbiți mai încet/mai tare” funcționează.
- Completarea datelor personale/de plată nu este anunțată.
- Există o anulare/revenire a acțiunii prin voce.
- Vârsta și limitele regionale testate.
21) Cadru de specificații de dialog (șablon)
Scopul scenariului: (de exemplu, „Depozit ≤ 90 secunde”)
Intenții și sinonime: o listă de fraze exemplu.
Слоты: 'sumă' (req, confirm), 'monedă' (default = UAH), 'metodă' (enum).
Reguli de confirmare pentru care valorile/pragurile să se repete.
Opțiuni de eroare: ASR, NLU, nici un serviciu - texte + sucursale.
Ieșiri multimodale: ce carduri/ecrane afișăm.
Jurnale și confidențialitate: ce și cum mascăm, stocare TTL.
Foaie de trișat finală
Mai întâi intenții/sloturi/reguli de confirmare, apoi texte.
Vorbeşte scurt, lasă-i să întrerupă şi să anuleze.
Configurați SSML, formatele locale și tonul în funcție de context.
Păstrați confidențialitatea și înregistrarea sub control.
Măsurați metrica intenției/slotului/ASR, succesul sarcinii și latența.
Aveți întotdeauna o alternativă la ecran și o cale către persoană.