Interfacce vocali e assistenti

1) Cos'è il VUI e quando serve

L'interfaccia vocale (VUI) è un modo per interagire attraverso il linguaggio: assistenti in applicazione/browser, colonne intelligenti, IVR/telefonia, voce in auto e TV.
Adatto per scenari di mano (guida, cucina), comandi rapidi («accendi»..., «chiama»...), accessibilità, navigazione su menu complessi.
Non è adatto per: una selezione visiva accurata (directory, tabelle), una lunga immissione di dati strutturati senza schermata.

2) Modello di interazione: intenti, entità e contesto

Intent: cosa desidera l'utente: «Crea un _ pagamento», «Controlla _ saldo».
Slot/entità - Opzioni di destinazione: importo, valuta, destinatario, data.
Contesto/interazione-state: ciò che è già noto è che sappiamo dove siamo.
Regole di conferma: cosa confermiamo chiaramente (denaro, dati personali).

Esempio di schema di intent (pseudo-JSON):

json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}

3) Pattern di dialogo

1. Comando con una frase: « il conto per 500 criniere Apple Pay».
2. «Chi vuole tradurre?» «A che cifra?» → la conferma.
3. Procedura guidata: script complessi con controllo dei dati e passo indietro.
4. Riconoscimento intento + NLU - Supporto di formulazioni variabili.
5. Guida rapida: Quali limiti di output? - Risposta breve + Mostra sullo schermo.

4) Formulazione: voce e tono

La voce del marchio è sicura, tranquilla, amichevole; senza ridursi o «scherzare» nelle fasi critiche (pagamenti, sicurezza).

Max. lunghezza della replica dell'assistente: 1-2 frasi Risposte lunghe: rompere e suggerire «Continua?»

Le domande sono specifiche: «A che cifra serve?» Invece di «Cosa facciamo?»

5) Conferma, sicurezza ed etica

La conferma rigida delle azioni sensibili è di visualizzare i parametri chiave ("Aggiungi a 500 criniere con... 4581? »)

Doppia conferma per operazioni irreversibili.
Senza la pronuncia dei dati personali completi.
Annullamento/annullamento: Annulla, Stop, Annulla ultimo passo.

6) Errori e incomprensioni

Tipi di guasti e risposte:

Errore ASR (non sentito): "Non ho capito la cifra. Ripetilo, per favore"
NLU-non è chiaro: "Non ho capito la richiesta. Posso ripagare il conto o mostrare il saldo. Cosa sceglierete?"
Nessun dato/vincolo: "Questo metodo non è disponibile nella tua regione. Per nominare altre opzioni?"
Rete/servizio: "Nessun collegamento con il servizio di pagamento. Lo ripeto tra un minuto?"

Regola: il massimo del tentativo di fare sesso è offrire un'alternativa (su schermo/persona).

7) Velocità e barj-in (interruzione)

Latenza TTFB: obiettivo <300-500 ms; se più a lungo è un MMM breve.
Barge-in: l'utente può interrompere l'assistente in qualsiasi momento; gestiamo correttamente l'interruzione.
La risposta è che iniziamo a parlare prima che tutto il testo sia pronto, ma senza senso.

8) TTS/ASR e SSML: come dire «umano»

Pronuncia numeri/valute/date: formati locali (p 'yatsot crinen, 15 fogli).
Pause e accenti: SSML «<break time =» 300ms «/> »,« <emphasis level = »contemporate«> ».
Leggi gli acronimi/codici: '<say-as interpret-as = «characters»> BAN </say-as>'.
Velocità e timbro non più veloce di 0. 9 ° base, così da essere .

Esempio SSML:

xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>

9) Multimodalità: voce + schermo

Suggerimenti visivi: scheda di conferma, elenco dei metodi, progressi.

Hand-off sullo schermo: "Ho mandato le opzioni sullo schermo. Selezionare un metodo

Sincronizzazione dello stato: la voce inizia, la schermata termina (e viceversa).

10) Multitasking e localizzazione

Definisci automaticamente la lingua per sessione/impostazione, non per frase.
Glossario termini: terminologia unificata per RU/UA/TR/EN.
Formati regionali di numeri/valute/date, pronuncia di nomi/toponimi.
La finestra di dialogo «Vai al ukraїnsku» è un comando esplicito.

11) Disponibilità (A11y) nella voce

Confermare le azioni è chiaro e breve.
Ripetizione su richiesta: «Ripeti» dà voce all'ultima replica.
Volume/velocità: «Parla più lentamente/silenzioso/più forte».
Per i meno udenti, sottotitoli/trascrizione sullo schermo, segnali vibro.
Per le violazioni vocali: metodi alternativi di immissione (pulsante, preset).

12) Privacy, logistica e compliance

Wake-word e indicatore di scrittura: stato di ascolto esplicito.
Elaborazione locale, se possibile; in caso contrario, ridurre al minimo i dati.
Maschera i frammenti sensibili nei fogli (PAN, BAN, indirizzo) e la revisione automatica dell'audio.
Conservazione e rimozione su richiesta Impostazioni Non salvare cronologia.
Limiti di età/controllo genitoriale (voci/comandi per bambini).

Trasparenza: "Sto registrando questo comando per migliorare il riconoscimento. È possibile disattivare le impostazioni

13) Persona dell'assistente

Nome/persona: biografia breve, area di competenza che sa/non sa fare.
Il tono di situazione è normale (amichevole), critico (neutro), apprendistato (supportato).
Limiti: «Non do consigli finanziari, ma posso mostrare il certificato».

14) Metriche VUI di qualità

Intent recognition rate (precisione NLU).
Slot fill rate и avg. turns to fill.
ASR WER/CER (errore nel riconoscere parole/caratteri).
Task Success / Completion rate и Time-to-Complete.
Escalation rate (sull'operatore/schermo).
Barge-in usage и Latency p95.
User Isolation/CSAT dopo lo script.
Abandonment è al passo.

15) Test e QA della voce

I set di frasi di prova sono sinonimi, forme di conversazione, accenti, errori.
Rumori dell'ambiente: strada/auto/cucina, microfoni diversi.
Interazioni repliche: script riproducibili, golden-set per la regressione.
Wizard-of-Oz nelle prime fasi.
Gli scenari legali sono come un assistente risponde a richieste potenzialmente pericolose.

16) Integrazione con il prodotto (valigette iGaming)

Saldo/deposito/conclusione: "Qual è il saldo? ", "Aggiungi a 200 UAH"..., "Stato di output".
Bonus/missioni: "Quali bonus sono disponibili? «Attiva la cache di una settimana».
Gioco responsabile: «Imposta un limite di deposito di 1000 UAH a settimana».

Lo stato dei sistemi è: «Ci sono dei lavori in corso?»

17) Anti-pattern

I lunghi monologhi dell'assistente non possono essere interrotti.
Conferma implicita delle transazioni.
«Non ho capito» senza suggerimenti.
Suoni/jingle rieletti che interferiscono con la percezione.
Tentare di risolvere le attività che richiedono una selezione visiva dettagliata.

18) Modelli di prompt e risposte

Chiarimento slot (importo):

L'assistente dice: «A che cifra devo versare il conto?»
Utente: «Cinquecento».
L'assistente dice: "Aggiungi 500 crinali? Confermate, per favore"

Conferma azione sensibile:

"Confermate l'aggiunta di 500 criniere con... 4581. Dire «conferma» o «annullamento»

Fraintendimento + guida suggerimento:

"Non ho sentito il metodo di pagamento. Posso suggerire Apple Pay, mappa, cryptochelec. Cosa sceglierete?"

Escalation sullo schermo:

"Ho mandato i metodi disponibili sullo schermo. Selezionare e dire «finito» per continuare

19) Esempi di pattern SSML

Numeri/valuta e pausa:

xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>

L'accento su una parola importante:

xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>

Pronuncia acronimo:

xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>

20) Assegno fogli

Finestra di dialogo/contenuto prima del lancio

Per ogni intent è un elenco di sinonimi/frasi.
Per ogni slot obbligatorio, una domanda chiara.
Azioni sensibili - con una chiara conferma.
C'è una breve alternativa a schermo/operatore.
Repliche di 2 frasi; "Continua? ».

Tecnica e qualità

Supporto di barge-in e ritorno alla finestra dopo l'interruzione.
La latenza p95 è normale; Ci sono degli earcons in ritardo.
SSML configurato: pause, numeri, accenti.
I loghi sono impersonalizzati/mascherati; c'è la gestione della storia.
Multi-lingue e formati locali testati.

A11y e protezione

«Ripeti/Parla più lentamente/Più forte» funziona.
Non vengono comunicati dati personali/pagamenti completi.
C'è un annullamento/annullamento dell'azione con voce.
I limiti di età e regionali sono stati verificati.

21) Wireframe delle specifiche di interazione (modello)

Scopo script: (ad esempio Deposito da 90 secondi)

Intenti e sinonimi sono una lista di esempi di frasi.
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
Regole di conferma: per quali valori/soglie è necessario ripetere.
Le opzioni di errore sono ASR, NLU, nessun servizio - testi + rami.
Uscite multimodali: quali schede/schermate visualizzare.
Fogli e privacy: cosa e come camuffare, TTL di storage.

Scorciatoie totali

Prima intenti, slot, regole di conferma, poi testi.
Parlate brevemente, lasciate interrompere e annullare.
Configurare SSML, formati locali e tonalità in base al contesto.
Tenete la privacy e la logica sotto controllo.
Misurare le metriche Intent/Slot/ASR, Task Success e la latitanza.
Trovate sempre un'alternativa allo schermo e alla strada verso l'uomo.

Interfacce vocali e assistenti

Tecnica e qualità

A11y e protezione

Scorciatoie totali

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti