Interfacce vocali e assistenti
1) Cos'è il VUI e quando serve
L'interfaccia vocale (VUI) è un modo per interagire attraverso il linguaggio: assistenti in applicazione/browser, colonne intelligenti, IVR/telefonia, voce in auto e TV.
Adatto per scenari di mano (guida, cucina), comandi rapidi («accendi»..., «chiama»...), accessibilità, navigazione su menu complessi.
Non è adatto per: una selezione visiva accurata (directory, tabelle), una lunga immissione di dati strutturati senza schermata.
2) Modello di interazione: intenti, entità e contesto
Intent: cosa desidera l'utente: «Crea un _ pagamento», «Controlla _ saldo».
Slot/entità - Opzioni di destinazione: importo, valuta, destinatario, data.
Contesto/interazione-state: ciò che è già noto è che sappiamo dove siamo.
Regole di conferma: cosa confermiamo chiaramente (denaro, dati personali).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Pattern di dialogo
1. Comando con una frase: « il conto per 500 criniere Apple Pay».
2. «Chi vuole tradurre?» «A che cifra?» → la conferma.
3. Procedura guidata: script complessi con controllo dei dati e passo indietro.
4. Riconoscimento intento + NLU - Supporto di formulazioni variabili.
5. Guida rapida: Quali limiti di output? - Risposta breve + Mostra sullo schermo.
4) Formulazione: voce e tono
La voce del marchio è sicura, tranquilla, amichevole; senza ridursi o «scherzare» nelle fasi critiche (pagamenti, sicurezza).
Max. lunghezza della replica dell'assistente: 1-2 frasi Risposte lunghe: rompere e suggerire «Continua?»
Le domande sono specifiche: «A che cifra serve?» Invece di «Cosa facciamo?»
5) Conferma, sicurezza ed etica
La conferma rigida delle azioni sensibili è di visualizzare i parametri chiave ("Aggiungi a 500 criniere con... 4581? »)
Doppia conferma per operazioni irreversibili.
Senza la pronuncia dei dati personali completi.
Annullamento/annullamento: Annulla, Stop, Annulla ultimo passo.
6) Errori e incomprensioni
Tipi di guasti e risposte:- Errore ASR (non sentito): "Non ho capito la cifra. Ripetilo, per favore"
- NLU-non è chiaro: "Non ho capito la richiesta. Posso ripagare il conto o mostrare il saldo. Cosa sceglierete?"
- Nessun dato/vincolo: "Questo metodo non è disponibile nella tua regione. Per nominare altre opzioni?"
- Rete/servizio: "Nessun collegamento con il servizio di pagamento. Lo ripeto tra un minuto?"
Regola: il massimo del tentativo di fare sesso è offrire un'alternativa (su schermo/persona).
7) Velocità e barj-in (interruzione)
Latenza TTFB: obiettivo <300-500 ms; se più a lungo è un MMM breve.
Barge-in: l'utente può interrompere l'assistente in qualsiasi momento; gestiamo correttamente l'interruzione.
La risposta è che iniziamo a parlare prima che tutto il testo sia pronto, ma senza senso.
8) TTS/ASR e SSML: come dire «umano»
Pronuncia numeri/valute/date: formati locali (p 'yatsot crinen, 15 fogli).
Pause e accenti: SSML «<break time =» 300ms «/> »,« <emphasis level = »contemporate«> ».
Leggi gli acronimi/codici: '<say-as interpret-as = «characters»> BAN </say-as>'.
Velocità e timbro non più veloce di 0. 9 ° base, così da essere .
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Multimodalità: voce + schermo
Suggerimenti visivi: scheda di conferma, elenco dei metodi, progressi.
Hand-off sullo schermo: "Ho mandato le opzioni sullo schermo. Selezionare un metodo
Sincronizzazione dello stato: la voce inizia, la schermata termina (e viceversa).
10) Multitasking e localizzazione
Definisci automaticamente la lingua per sessione/impostazione, non per frase.
Glossario termini: terminologia unificata per RU/UA/TR/EN.
Formati regionali di numeri/valute/date, pronuncia di nomi/toponimi.
La finestra di dialogo «Vai al ukraїnsku» è un comando esplicito.
11) Disponibilità (A11y) nella voce
Confermare le azioni è chiaro e breve.
Ripetizione su richiesta: «Ripeti» dà voce all'ultima replica.
Volume/velocità: «Parla più lentamente/silenzioso/più forte».
Per i meno udenti, sottotitoli/trascrizione sullo schermo, segnali vibro.
Per le violazioni vocali: metodi alternativi di immissione (pulsante, preset).
12) Privacy, logistica e compliance
Wake-word e indicatore di scrittura: stato di ascolto esplicito.
Elaborazione locale, se possibile; in caso contrario, ridurre al minimo i dati.
Maschera i frammenti sensibili nei fogli (PAN, BAN, indirizzo) e la revisione automatica dell'audio.
Conservazione e rimozione su richiesta Impostazioni Non salvare cronologia.
Limiti di età/controllo genitoriale (voci/comandi per bambini).
Trasparenza: "Sto registrando questo comando per migliorare il riconoscimento. È possibile disattivare le impostazioni
13) Persona dell'assistente
Nome/persona: biografia breve, area di competenza che sa/non sa fare.
Il tono di situazione è normale (amichevole), critico (neutro), apprendistato (supportato).
Limiti: «Non do consigli finanziari, ma posso mostrare il certificato».
14) Metriche VUI di qualità
Intent recognition rate (precisione NLU).
Slot fill rate и avg. turns to fill.
ASR WER/CER (errore nel riconoscere parole/caratteri).
Task Success / Completion rate и Time-to-Complete.
Escalation rate (sull'operatore/schermo).
Barge-in usage и Latency p95.
User Isolation/CSAT dopo lo script.
Abandonment è al passo.
15) Test e QA della voce
I set di frasi di prova sono sinonimi, forme di conversazione, accenti, errori.
Rumori dell'ambiente: strada/auto/cucina, microfoni diversi.
Interazioni repliche: script riproducibili, golden-set per la regressione.
Wizard-of-Oz nelle prime fasi.
Gli scenari legali sono come un assistente risponde a richieste potenzialmente pericolose.
16) Integrazione con il prodotto (valigette iGaming)
Saldo/deposito/conclusione: "Qual è il saldo? ", "Aggiungi a 200 UAH"..., "Stato di output".
Bonus/missioni: "Quali bonus sono disponibili? «Attiva la cache di una settimana».
Gioco responsabile: «Imposta un limite di deposito di 1000 UAH a settimana».
Lo stato dei sistemi è: «Ci sono dei lavori in corso?»
17) Anti-pattern
I lunghi monologhi dell'assistente non possono essere interrotti.
Conferma implicita delle transazioni.
«Non ho capito» senza suggerimenti.
Suoni/jingle rieletti che interferiscono con la percezione.
Tentare di risolvere le attività che richiedono una selezione visiva dettagliata.
18) Modelli di prompt e risposte
Chiarimento slot (importo):- L'assistente dice: «A che cifra devo versare il conto?»
- Utente: «Cinquecento».
- L'assistente dice: "Aggiungi 500 crinali? Confermate, per favore"
- "Confermate l'aggiunta di 500 criniere con... 4581. Dire «conferma» o «annullamento»
- "Non ho sentito il metodo di pagamento. Posso suggerire Apple Pay, mappa, cryptochelec. Cosa sceglierete?"
- "Ho mandato i metodi disponibili sullo schermo. Selezionare e dire «finito» per continuare
19) Esempi di pattern SSML
Numeri/valuta e pausa:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
L'accento su una parola importante:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Pronuncia acronimo:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Assegno fogli
Finestra di dialogo/contenuto prima del lancio
- Per ogni intent è un elenco di sinonimi/frasi.
- Per ogni slot obbligatorio, una domanda chiara.
- Azioni sensibili - con una chiara conferma.
- C'è una breve alternativa a schermo/operatore.
- Repliche di 2 frasi; "Continua? ».
Tecnica e qualità
- Supporto di barge-in e ritorno alla finestra dopo l'interruzione.
- La latenza p95 è normale; Ci sono degli earcons in ritardo.
- SSML configurato: pause, numeri, accenti.
- I loghi sono impersonalizzati/mascherati; c'è la gestione della storia.
- Multi-lingue e formati locali testati.
A11y e protezione
- «Ripeti/Parla più lentamente/Più forte» funziona.
- Non vengono comunicati dati personali/pagamenti completi.
- C'è un annullamento/annullamento dell'azione con voce.
- I limiti di età e regionali sono stati verificati.
21) Wireframe delle specifiche di interazione (modello)
Scopo script: (ad esempio Deposito da 90 secondi)
Intenti e sinonimi sono una lista di esempi di frasi.
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
Regole di conferma: per quali valori/soglie è necessario ripetere.
Le opzioni di errore sono ASR, NLU, nessun servizio - testi + rami.
Uscite multimodali: quali schede/schermate visualizzare.
Fogli e privacy: cosa e come camuffare, TTL di storage.
Scorciatoie totali
Prima intenti, slot, regole di conferma, poi testi.
Parlate brevemente, lasciate interrompere e annullare.
Configurare SSML, formati locali e tonalità in base al contesto.
Tenete la privacy e la logica sotto controllo.
Misurare le metriche Intent/Slot/ASR, Task Success e la latitanza.
Trovate sempre un'alternativa allo schermo e alla strada verso l'uomo.