Interfejsy głosowe i asystenci

1) Co to jest VUI i kiedy jest to potrzebne

Interfejs głosowy (VUI) - sposób interakcji przez mowę: asystenci w aplikacji/przeglądarce, inteligentne głośniki, IVR/telefonia, głos w auto i TV.
Nadaje się do: ręcznie zajmowanych scenariuszy (jazda, kuchnia), szybkich poleceń („włącz”..., „call”...), dostępności, nawigacji przez złożone menu.
Nie nadaje się do: dokładnego wyboru wizualnego (katalogi, tabele), długiego wpisu ustrukturyzowanych danych bez ekranu.

2) Model dialogu: intencje, podmioty i kontekst

Intent: czego chce użytkownik: 'Create _ payment', 'Check _ balance'.
Sloty/podmioty: parametry docelowe: kwota, waluta, adresat, data.
Kontekst/dialog-stan: to, co już wiadomo, co wyjaśniamy, gdzie oddział.
Zasady potwierdzania: potwierdzamy wyraźnie (pieniądze, dane osobowe).

Przykład schematu intencji (pseudo-JSON):

json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}

3) Wzorce dialogu

1. Zespół z jednym wyrażeniem: "Doładuj konto dla 500 hrywny Apple Pay. "→ potwierdzenie → działanie.
2. Wyjaśnienie dialogu: „Komu należy tłumaczyć?” → „Ile?” → potwierdzenie.
3. Kreator krok po kroku: złożone scenariusze z walidacją danych i krokiem odwrotnym.
4. Uznanie intencji + parafraza NLU: wsparcie dla postaci zmiennych.
5. Szybka pomoc: „Jakie są limity wypłat?” - krótka odpowiedź + „Pokaż na ekranie”.

4) Brzmienie: głos i ton

Głos marki: pewny siebie, spokojny, przyjazny; bez wymiarowych i „żartów” w krytycznych krokach (płatności, bezpieczeństwo).

Max. Długość repliki asystenta: 1-2 zdania; długie odpowiedzi - przerwać i zasugerować „Kontynuuj?”

Pytania szczegółowe: „Ile uzupełnić?” zamiast „Co zrobimy dalej?”

5) Potwierdzenia, bezpieczeństwo i etyka

Trudne potwierdzenie wrażliwych działań: wymawiaj kluczowe parametry ("Uzupełnij o 500 hrywny kartą... 4581? »)

Podwójne potwierdzenie nieodwracalnych operacji.
Bez wyrażania pełnych danych osobowych.
Cofnij/Cofnij opcję: Cofnij, Zatrzymaj, Cofnij ostatni krok.

6) Błędy i nieporozumienie

Rodzaje awarii i odpowiedzi:

Błąd ASR (nie słyszałem): "Nie słyszałem kwoty. Proszę to powtórzyć"
NLU-niezrozumiałe: "Nie rozumiałem wniosku. Mogę doładować konto lub pokazać saldo. Co wybierzesz?"
Brakujące dane/ograniczenie: "Ta metoda nie jest dostępna w Twoim regionie. Jakie są inne opcje?"
Sieć/usługa: "Teraz nie ma połączenia z usługą płatniczą. Chcesz spróbować jeszcze raz?

Zasada: maksymalnie 2 próby zapytania → oferują alternatywę (ekran/osoba).

7) Prędkość i barka (przerywanie)

Opóźnienie TTFB: cel <300-500 ms; jeśli dłużej - krótki sygnał „em-mm ”/earcon.
Bark-in: użytkownik może przerwać asystenta w dowolnym momencie; prawidłowo obsługiwać przerwę.
Streaming odpowiedź: zaczynamy rozmawiać wcześniej niż cały tekst jest gotowy, ale bez łamania linii.

8) TTS/ASR i SSML: Jak powiedzieć „człowiek”

Wymowa liczb/walut/dat: formaty lokalne („p 'yatsot hrywna”, „15 upadków liści”).
Pauzy i naprężenia: SSML '<break time = „300ms „/> ',' <emphasis level = ”moderate„> '.
Czytanie skrótów/kodów: '<say-as interpret-as = „znaki”> IBAN </say-as>'.
Prędkość i barwa: nie szybciej niż 0. 9 × podstawowe do czytelności.

Przykład SSML:

xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>

9) Multimodalność: głos + ekran

Wskazówki wizualne: karta potwierdzająca, lista metod, postęp.

Ręcznie na ekranie: "Wysłałem opcje na ekran. Wybierz metodę"

Synchronizacja stanu: inicjuje głos, wygasa ekran (i odwrotnie).

10) Wielojęzyczność i lokalizacja

Automatyczne wykrywanie języka przez sesję/dostrajanie, a nie przez pojedyncze wyrażenie.
Słownik terminów: wspólna terminologia dla RU/UA/TR/EN.
Regionalne formaty numerów/walut/dat, wymowa nazw/toponimów.
Przełączanie w oknie dialogowym: „Przejdź do ukraińskiego” jest wyraźnym poleceniem.

11) Dostępność (A11y) w głosie

Potwierdzenie działania jest jasne i krótkie.
Powtórz na żądanie: „Powtórz” głosy końcowej linii.
Objętość/prędkość: „Mówić wolniej/cichej/głośniej”.
Dla upośledzenia słuchu: napisy/transkrypt na ekranie, sygnały wibracyjne.
W przypadku zaburzeń mowy: alternatywne metody wprowadzania (przycisk, ustawienia wstępne).

12) Poufność, rejestrowanie i zgodność

Wake-word and recording indicator: explicit „listening” state.
Przetwarzanie lokalne, jeśli to możliwe; w przeciwnym razie minimalizacja danych.
Maskowanie wrażliwych fragmentów w dziennikach (PAN, IBAN, adres) i automatycznej edycji audio.
okresy przechowywania i prawo do usunięcia na żądanie; Nie zapisuj ustawień historii.
Ograniczenia wiekowe/kontrola rodzicielska (głosy/zespoły dziecięce).

Przejrzystość: "Nagrywam to polecenie, aby poprawić rozpoznawalność. Może być wyłączony w ustawieniach"

13) Asystent persona

Nazwisko/osoba: krótka biografia, obszar kompetencji, który może/nie może.
Ton sytuacji: normalny (przyjazny), krytyczny (neutralny), edukacyjny (wspomagający).
Granice: „Nie udzielam porad finansowych, ale mogę okazać pomoc”.

14) Wskaźniki jakości VUI

Wskaźnik uznania intencji.
Szybkość napełniania gniazda, włącza się do wypełnienia.
ASR WER/CER (błąd rozpoznawania słów/znaków).
Zadanie Sukces/Szybkość ukończenia - Time-to-Complete.
Wskaźnik eskalacji (na operatora/ekran).
Użycie barki przez Latency p95.
Zadowolenie użytkownika/CSAT po skrypcie.
Porzucenie na krok.

15) Testy głosowe i QA

Zestawy zwrotów testowych: synonimy, formy kolokwialne, akcenty, błędy.
Hałas środowiskowy: ulica/samochód/kuchnia, różne mikrofony.
Okno dialogowe powtórzenia: skrypty do odtwarzania, złoty zestaw do regresji.
Wizard-of-Oz na wczesnych etapach.
Scenariusze prawne: Jak asystent odpowiada na potencjalnie niebezpieczne wnioski.

16) Integracja produktu (przypadki iGaming)

Saldo/depozyt/wypłata: „Jakie jest saldo? „, „Uzupełnienie przy 200 UAH”..., „Stan wyjściowy”.
Bonusy/Misje: „Jakie bonusy są dostępne? „, „Aktywuj cotygodniowy zwrot gotówki”.
Odpowiedzialna gra: „Ustaw limit depozytu w wysokości 1000 UAH tygodniowo”.

Stan systemów: „Czy są jakieś prace techniczne teraz?”

17) Anty-wzory

Długie monologi asystenta bez możliwości przerwania.
Dorozumiane potwierdzenia transakcji pieniężnych.
Bezsporny „nie rozumiał” bez wywoływania opcji.
Nadmierne dźwięki/dżingle zakłócające percepcję.
Próba „głosu” rozwiązywania problemów, w których potrzebny jest szczegółowy wybór wizualny.

18) Szablony promów i odpowiedzi

Rafinacja czasu na start lub lądowanie (suma):

Asystent: „Ile do uzupełnienia konta?”
Użytkownik: „Pięćset”.
Asystent: "Uzupełnić przez 500 hrywna? Potwierdź"

Potwierdzenie działania wrażliwego:

"Potwierdź uzupełnienie o 500 kart hrywny... 4581. Powiedz "potwierdzić" lub "anulować""

Nieporozumienie + wskazówka przewodnika:

Nie słyszałem sposobu płatności. Mogę zaoferować: Apple Pay, kartę, portfel krypto. Co wybierzesz?"

Eskalacja do ekranu:

"Wysłano dostępne metody na ekran. Wybierz i powiedz "done", aby kontynuować"

19) Przykłady wzorców SSML

Numery/Waluta i pauza:

xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>

Nacisk na ważne słowo:

xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>

Wymowa skrótu:

xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>

20) Listy kontrolne

Dialog/treść przed wydaniem

Dla każdego zamiaru - lista synonimów/wariantów frazy.
Jedno jasne pytanie na wymagany czas na start lub lądowanie.
Wrażliwe działania - z wyraźnym potwierdzeniem.
Istnieje krótka alternatywa na ekranie/operatora.
Repliki ≤ 2 sugestie; long - z "Kontynuuj? ».

Technika i jakość

wspiera się barki i powraca do dialogu po przerwaniu.
opóźnienie p95 jest normalne; Są słuchawki na opóźnienie.
SSML skonfigurowane: pauzy, liczby, naprężenia.
Kłody bezosobowe/zamaskowane; zarządzanie historią jest.
Przetestowano wielojęzyczność i formaty lokalne.

A11y i bezpieczeństwo

„Powtarzaj/mów wolniej/głośniej” działa.
Kompletne dane osobowe/płatnicze nie są ogłaszane.
Istnieje anulowanie/odwrócenie akcji głosem.
Przetestowane limity wiekowe i regionalne.

21) Ramy specyfikacji dialogów (szablon)

Cel scenariusza: (na przykład „Depozyt ≤ 90 sekund”)

Intencje i synonimy: lista przykładowych zwrotów.
Слота: „kwota” (req, potwierdzenie), „waluta” (domyślnie = UAH), „metoda” (enum).
Zasady potwierdzania, dla których wartości/progi mają być powtarzane.
Opcje błędów: ASR, NLU, brak usługi - teksty + oddziały.
Wyjścia multimodalne: które karty/ekrany pokazujemy.
Dzienniki i prywatność: co i jak maskujemy, przechowywanie TTL.

Końcowy arkusz oszustwa

Pierwsze intencje/sloty/zasady potwierdzania, a następnie teksty.
Mów krótko, niech przeszkadzają i anulują.
Konfiguruj SSML, formaty lokalne i ton według kontekstu.
Zachowaj prywatność i rejestrowanie pod kontrolą.
Pomiar mierników Intent/Slot/ASR, Sukces zadania i opóźnienia.
Zawsze mieć alternatywę dla ekranu i ścieżkę do osoby.

Interfejsy głosowe i asystenci

Technika i jakość

A11y i bezpieczeństwo

Końcowy arkusz oszustwa

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami