GH GambleHub

Interfețe vocale și asistenți

1) Ce este VUI și când este necesar

Interfață vocală (VUI) - un mod de a interacționa prin vorbire: asistenți în aplicație/browser, difuzoare inteligente, IVR/telefonie, voce în auto și TV.
Potrivit pentru: scenarii ocupate manual (conducere, bucătărie), comenzi rapide („porniți”..., „apel”...), accesibilitate, navigare prin meniuri complexe.
Nu este potrivit pentru: selecție vizuală precisă (cataloage, tabele), intrare lungă de date structurate fără un ecran.

2) Model de dialog: intenții, entități și context

Intenție: ce dorește utilizatorul: 'Create _ payment', 'Check _ balance'.
Sloturi/entități: parametrii țintă: suma, moneda, destinatar, data.
Context/dialog-stat: ce se știe deja, ce clarificăm, unde ne ramificăm.
Reguli de confirmare: pe care le confirmăm explicit (bani, date personale).

Exemplu de schemă de intenție (pseudo-JSON):
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}

3) Modele de dialog

1. Echipa cu o singură frază: "Reîncărcați contul pentru 500 de grivne Apple Pay. "→ confirmare → acţiune.
2. Clarificarea dialogului: „Cui să traducă?” → „Cât de mult?” Confirmarea →.
3. Expertul pas cu pas: scenarii complexe cu validarea datelor și pas invers.
4. Recunoașterea intențiilor + parafraza NLU: suport pentru formulări variabile.
5. Ajutor rapid: „Care sunt limitele de retragere?” - răspuns scurt + „Arată pe ecran”.

4) Formulare: voce și ton

Voce de brand: încrezător, calm, prietenos; fără diminutive și „glume” în pași critici (plăți, securitate).

Max. Lungimea replica asistent: 1-2 propoziții; răspunsuri lungi - pauză și sugerează „Continuați?”

Întrebări - specifice: „Cât de mult pentru a umple?” în loc de „Ce facem mai departe?”

5) Confirmări, siguranță și etică

Confirmarea dură a acțiunilor sensibile: pronunță parametrii cheie ("Completați cu 500 de grivne cu un card... 4581? »)

Confirmare dublă pentru operaţiuni ireversibile.
Fără a exprima datele personale complete.
Anulare/Anulare opţiune: Anulare, Oprire, Anulare ultimă etapă.

6) Greșeli și neînțelegeri

Tipuri de eșecuri și răspunsuri:
  • Eroare ASR (nu a auzit): "Nu am auzit suma. Te rog repetă"
  • NLU-de neînțeles: "Nu am înțeles cererea. Pot să-mi completez contul sau să-mi arăt soldul. Ce vei alege?"
  • Lipsă de date/limitare: "Această metodă nu este disponibilă în regiunea dvs. Care sunt celelalte opțiuni?"
  • Rețea/serviciu: "Acum nu există nici o legătură cu serviciul de plată. Vrei să încerci din nou într-un minut?

Regulă: un maxim de 2 încercări de a interoga → de a oferi o alternativă (ecran/persoană).

7) Viteza și barge-in (întrerupere)

Latența TTFB: țintă <300-500 ms; dacă mai mult - un semnal scurt „em-mm ”/earcon.
Barge-in: utilizatorul poate întrerupe asistentul în orice moment; gestionați corect întreruperea.
Streaming răspunsul: începem să vorbim mai devreme decât întregul text este gata, dar fără a rupe linia.

8) TTS/ASR și SSML: Cum să spui „uman”

Pronunția numerelor/valutelor/datelor: formate locale ("p 'yatsot hryvnia", "15 frunze falls').
Pauzele și stresurile: SSML '<break time = "300ms'/>', '<accent level =" moderat ">'.
Citirea abrevierilor/codurilor: '<say-as interpret-as = „characters”> IBAN </say-as>'.
Viteza și timbrul: nu mai repede de 0. 9 × de bază pentru a fi lizibil.

Exemplu SSML:
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>

9) Multimodalitate: voce + ecran

Indicii vizuale: carte de confirmare, listă de metode, progres.

Mână-off pe ecran: "Am trimis opțiuni pe ecran. Vă rugăm să selectați o metodă"

Sincronizarea stării: inițiază vocea, termină ecranul (și invers).

10) Multilingvism și localizare

Detectați automat limbajul prin sesiune/tuning, nu printr-o singură frază.
Glosar de termeni: terminologie comună pentru RU/UA/TR/EN.
Formate regionale de numere/valute/date, pronunțarea numelor/toponimelor.
Comutarea în dialog: „Du-te la ukraїnsku” este o comandă explicită.

11) Disponibilitate (A11y) în voce

Confirmarea acțiunii este clară și scurtă.
Repetați la cerere: „Repetați” voci linia finală.
Volum/viteză: „Vorbiți mai încet/mai liniștit/mai tare”.
Pentru persoanele cu deficiențe de auz: subtitrare/transcriere pe ecran, semnale de vibrații.
Pentru tulburări de vorbire: metode alternative de intrare (buton, presetări).

12) Confidențialitate, exploatare forestieră și conformitate

Wake-word și indicator de înregistrare: explicit „ascultare” stare.
Prelucrarea locală, dacă este posibil; în caz contrar, minimizarea datelor.
Mascarea fragmentelor sensibile în jurnale (PAN, IBAN, adresa) și audio de editare automată.
Perioade de păstrare și dreptul de a elimina la cerere; Nu salvați setările istoricului.
Restricții de vârstă/control parental (voci/echipe pentru copii).

Transparență: "Înregistrez această comandă pentru a îmbunătăți recunoașterea. Poate fi dezactivat în setări"

13) Asistent persona

Nume/persoană: o scurtă biografie, domeniu de competență care poate/nu poate.
Ton pentru situații: normale (prietenoase), critice (neutre), educaționale (de susținere).
Limite: „Nu dau sfaturi financiare, dar pot arăta ajutor”.

14) Măsurători de calitate VUI

Rata de recunoaștere a intențiilor.
Rata de umplere a sloturilor и medie se transformă în umplere.
ASR WER/CER (Word/Eroare de recunoaștere a caracterelor).
Task Success/Rata de finalizare и Time-to-Complete.
Rata de escaladare (per operator/ecran).
Utilizarea Barge-in и Latency p95.
Satisfacția utilizatorului/CSAT după script.
Abandonarea pe treaptă.

15) Testarea vocii și QA

Seturi de fraze de testare: sinonime, forme colocviale, accente, erori.
Zgomote de mediu: strada/masina/bucatarie, microfoane diferite.
Dialogul Replay: scripturi redate, aur-set pentru regresie.
Vrăjitorul din Oz în stadiile incipiente.
Scenarii juridice: Cum răspunde un asistent la solicitări potențial periculoase.

16) Integrarea produsului (cazuri iGaming)

Balanță/depozit/retragere: „Care este soldul? „, „Completați la 200 UAH”..., „Starea de ieșire”.
Bonusuri/Misiuni: „Ce bonusuri sunt disponibile? „, „Activați cashback săptămânal”.
Joc responsabil: „Stabiliți o limită de depozit de 1000 UAH pe săptămână”.

Starea sistemelor: „Există lucrări tehnice acum?”

17) Anti-modele

Monologuri lungi ale asistentului fără posibilitatea de a întrerupe.
Confirmări implicite ale tranzacțiilor monetare.
Necontestat „nu a înțeles” fără a solicita opțiuni.
Sunete suprapuse/jingle care interferează cu percepția.
O încercare de „voce” rezolva problemele în care este necesară o alegere vizuală detaliată.

18) Șabloane pentru promoții și răspunsuri

Rafinament slot (sumă):
  • Asistent: „Cât de mult pentru a umple contul?”
  • Utilizator: „Cinci sute”.
  • Asistent: "Completați cu 500 de grivne? Vă rugăm să confirmați"
Confirmarea acțiunii sensibile:
  • "Confirmați reaprovizionarea cu 500 de grivne... 4581. Spune „confirma” sau „anula”
Neînțelegere + sfat ghid:
  • "Nu am auzit metoda de plată. Pot oferi: Apple Pay, card, portofel cripto. Ce vei alege?"
Escaladarea ecranului:
  • "A trimis metode disponibile pe ecran. Selectați și spuneți "făcut" pentru a continua"

19) Exemple de modele SSML

Numere/valută și pauză:
xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Accentul pe cuvântul important:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Pronunţia abrevierii:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>

20) Liste de verificare

Dialogul/conținutul înainte de lansare

  • Pentru fiecare intenție - o listă de sinonime/variante de frază.
  • O întrebare clară pe slot necesar.
  • Acțiuni sensibile - cu confirmare explicită.
  • Există o scurtă alternativă pe ecran/operator.
  • Replici ≤ 2 sugestii; lung - cu "Continua? ».

Tehnica si calitate

  • barge-in este sprijinit și reveniți la dialog după întrerupere.
  • latența p95 este normală; există earcons pe întârziere.
  • SSML configurat: pauze, numere, stres.
  • Jurnale impersonale/mascate; managementul istoriei este.
  • Multilingvismul și formatele locale testate.

A11y și siguranță

  • „Repetați/Vorbiți mai încet/mai tare” funcționează.
  • Completarea datelor personale/de plată nu este anunțată.
  • Există o anulare/revenire a acțiunii prin voce.
  • Vârsta și limitele regionale testate.

21) Cadru de specificații de dialog (șablon)

Scopul scenariului: (de exemplu, „Depozit ≤ 90 secunde”)

Intenții și sinonime: o listă de fraze exemplu.
Слоты: 'sumă' (req, confirm), 'monedă' (default = UAH), 'metodă' (enum).
Reguli de confirmare pentru care valorile/pragurile să se repete.
Opțiuni de eroare: ASR, NLU, nici un serviciu - texte + sucursale.
Ieșiri multimodale: ce carduri/ecrane afișăm.
Jurnale și confidențialitate: ce și cum mascăm, stocare TTL.

Foaie de trișat finală

Mai întâi intenții/sloturi/reguli de confirmare, apoi texte.
Vorbeşte scurt, lasă-i să întrerupă şi să anuleze.
Configurați SSML, formatele locale și tonul în funcție de context.
Păstrați confidențialitatea și înregistrarea sub control.
Măsurați metrica intenției/slotului/ASR, succesul sarcinii și latența.
Aveți întotdeauna o alternativă la ecran și o cale către persoană.

Contact

Contactați-ne

Scrieți-ne pentru orice întrebare sau solicitare de suport.Suntem mereu gata să ajutăm!

Telegram
@Gamble_GC
Pornește integrarea

Email-ul este obligatoriu. Telegram sau WhatsApp sunt opționale.

Numele dumneavoastră opțional
Email opțional
Subiect opțional
Mesaj opțional
Telegram opțional
@
Dacă indicați Telegram — vă vom răspunde și acolo, pe lângă Email.
WhatsApp opțional
Format: cod de țară și număr (de exemplu, +40XXXXXXXXX).

Apăsând butonul, sunteți de acord cu prelucrarea datelor dumneavoastră.