Interfejsy głosowe i asystenci
1) Co to jest VUI i kiedy jest to potrzebne
Interfejs głosowy (VUI) - sposób interakcji przez mowę: asystenci w aplikacji/przeglądarce, inteligentne głośniki, IVR/telefonia, głos w auto i TV.
Nadaje się do: ręcznie zajmowanych scenariuszy (jazda, kuchnia), szybkich poleceń („włącz”..., „call”...), dostępności, nawigacji przez złożone menu.
Nie nadaje się do: dokładnego wyboru wizualnego (katalogi, tabele), długiego wpisu ustrukturyzowanych danych bez ekranu.
2) Model dialogu: intencje, podmioty i kontekst
Intent: czego chce użytkownik: 'Create _ payment', 'Check _ balance'.
Sloty/podmioty: parametry docelowe: kwota, waluta, adresat, data.
Kontekst/dialog-stan: to, co już wiadomo, co wyjaśniamy, gdzie oddział.
Zasady potwierdzania: potwierdzamy wyraźnie (pieniądze, dane osobowe).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Wzorce dialogu
1. Zespół z jednym wyrażeniem: "Doładuj konto dla 500 hrywny Apple Pay. "→ potwierdzenie → działanie.
2. Wyjaśnienie dialogu: „Komu należy tłumaczyć?” → „Ile?” → potwierdzenie.
3. Kreator krok po kroku: złożone scenariusze z walidacją danych i krokiem odwrotnym.
4. Uznanie intencji + parafraza NLU: wsparcie dla postaci zmiennych.
5. Szybka pomoc: „Jakie są limity wypłat?” - krótka odpowiedź + „Pokaż na ekranie”.
4) Brzmienie: głos i ton
Głos marki: pewny siebie, spokojny, przyjazny; bez wymiarowych i „żartów” w krytycznych krokach (płatności, bezpieczeństwo).
Max. Długość repliki asystenta: 1-2 zdania; długie odpowiedzi - przerwać i zasugerować „Kontynuuj?”
Pytania szczegółowe: „Ile uzupełnić?” zamiast „Co zrobimy dalej?”
5) Potwierdzenia, bezpieczeństwo i etyka
Trudne potwierdzenie wrażliwych działań: wymawiaj kluczowe parametry ("Uzupełnij o 500 hrywny kartą... 4581? »)
Podwójne potwierdzenie nieodwracalnych operacji.
Bez wyrażania pełnych danych osobowych.
Cofnij/Cofnij opcję: Cofnij, Zatrzymaj, Cofnij ostatni krok.
6) Błędy i nieporozumienie
Rodzaje awarii i odpowiedzi:- Błąd ASR (nie słyszałem): "Nie słyszałem kwoty. Proszę to powtórzyć"
- NLU-niezrozumiałe: "Nie rozumiałem wniosku. Mogę doładować konto lub pokazać saldo. Co wybierzesz?"
- Brakujące dane/ograniczenie: "Ta metoda nie jest dostępna w Twoim regionie. Jakie są inne opcje?"
- Sieć/usługa: "Teraz nie ma połączenia z usługą płatniczą. Chcesz spróbować jeszcze raz?
Zasada: maksymalnie 2 próby zapytania → oferują alternatywę (ekran/osoba).
7) Prędkość i barka (przerywanie)
Opóźnienie TTFB: cel <300-500 ms; jeśli dłużej - krótki sygnał „em-mm ”/earcon.
Bark-in: użytkownik może przerwać asystenta w dowolnym momencie; prawidłowo obsługiwać przerwę.
Streaming odpowiedź: zaczynamy rozmawiać wcześniej niż cały tekst jest gotowy, ale bez łamania linii.
8) TTS/ASR i SSML: Jak powiedzieć „człowiek”
Wymowa liczb/walut/dat: formaty lokalne („p 'yatsot hrywna”, „15 upadków liści”).
Pauzy i naprężenia: SSML '<break time = „300ms „/> ',' <emphasis level = ”moderate„> '.
Czytanie skrótów/kodów: '<say-as interpret-as = „znaki”> IBAN </say-as>'.
Prędkość i barwa: nie szybciej niż 0. 9 × podstawowe do czytelności.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Multimodalność: głos + ekran
Wskazówki wizualne: karta potwierdzająca, lista metod, postęp.
Ręcznie na ekranie: "Wysłałem opcje na ekran. Wybierz metodę"
Synchronizacja stanu: inicjuje głos, wygasa ekran (i odwrotnie).
10) Wielojęzyczność i lokalizacja
Automatyczne wykrywanie języka przez sesję/dostrajanie, a nie przez pojedyncze wyrażenie.
Słownik terminów: wspólna terminologia dla RU/UA/TR/EN.
Regionalne formaty numerów/walut/dat, wymowa nazw/toponimów.
Przełączanie w oknie dialogowym: „Przejdź do ukraińskiego” jest wyraźnym poleceniem.
11) Dostępność (A11y) w głosie
Potwierdzenie działania jest jasne i krótkie.
Powtórz na żądanie: „Powtórz” głosy końcowej linii.
Objętość/prędkość: „Mówić wolniej/cichej/głośniej”.
Dla upośledzenia słuchu: napisy/transkrypt na ekranie, sygnały wibracyjne.
W przypadku zaburzeń mowy: alternatywne metody wprowadzania (przycisk, ustawienia wstępne).
12) Poufność, rejestrowanie i zgodność
Wake-word and recording indicator: explicit „listening” state.
Przetwarzanie lokalne, jeśli to możliwe; w przeciwnym razie minimalizacja danych.
Maskowanie wrażliwych fragmentów w dziennikach (PAN, IBAN, adres) i automatycznej edycji audio.
okresy przechowywania i prawo do usunięcia na żądanie; Nie zapisuj ustawień historii.
Ograniczenia wiekowe/kontrola rodzicielska (głosy/zespoły dziecięce).
Przejrzystość: "Nagrywam to polecenie, aby poprawić rozpoznawalność. Może być wyłączony w ustawieniach"
13) Asystent persona
Nazwisko/osoba: krótka biografia, obszar kompetencji, który może/nie może.
Ton sytuacji: normalny (przyjazny), krytyczny (neutralny), edukacyjny (wspomagający).
Granice: „Nie udzielam porad finansowych, ale mogę okazać pomoc”.
14) Wskaźniki jakości VUI
Wskaźnik uznania intencji.
Szybkość napełniania gniazda, włącza się do wypełnienia.
ASR WER/CER (błąd rozpoznawania słów/znaków).
Zadanie Sukces/Szybkość ukończenia - Time-to-Complete.
Wskaźnik eskalacji (na operatora/ekran).
Użycie barki przez Latency p95.
Zadowolenie użytkownika/CSAT po skrypcie.
Porzucenie na krok.
15) Testy głosowe i QA
Zestawy zwrotów testowych: synonimy, formy kolokwialne, akcenty, błędy.
Hałas środowiskowy: ulica/samochód/kuchnia, różne mikrofony.
Okno dialogowe powtórzenia: skrypty do odtwarzania, złoty zestaw do regresji.
Wizard-of-Oz na wczesnych etapach.
Scenariusze prawne: Jak asystent odpowiada na potencjalnie niebezpieczne wnioski.
16) Integracja produktu (przypadki iGaming)
Saldo/depozyt/wypłata: „Jakie jest saldo? „, „Uzupełnienie przy 200 UAH”..., „Stan wyjściowy”.
Bonusy/Misje: „Jakie bonusy są dostępne? „, „Aktywuj cotygodniowy zwrot gotówki”.
Odpowiedzialna gra: „Ustaw limit depozytu w wysokości 1000 UAH tygodniowo”.
Stan systemów: „Czy są jakieś prace techniczne teraz?”
17) Anty-wzory
Długie monologi asystenta bez możliwości przerwania.
Dorozumiane potwierdzenia transakcji pieniężnych.
Bezsporny „nie rozumiał” bez wywoływania opcji.
Nadmierne dźwięki/dżingle zakłócające percepcję.
Próba „głosu” rozwiązywania problemów, w których potrzebny jest szczegółowy wybór wizualny.
18) Szablony promów i odpowiedzi
Rafinacja czasu na start lub lądowanie (suma):- Asystent: „Ile do uzupełnienia konta?”
- Użytkownik: „Pięćset”.
- Asystent: "Uzupełnić przez 500 hrywna? Potwierdź"
- "Potwierdź uzupełnienie o 500 kart hrywny... 4581. Powiedz "potwierdzić" lub "anulować""
- Nie słyszałem sposobu płatności. Mogę zaoferować: Apple Pay, kartę, portfel krypto. Co wybierzesz?"
- "Wysłano dostępne metody na ekran. Wybierz i powiedz "done", aby kontynuować"
19) Przykłady wzorców SSML
Numery/Waluta i pauza:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Nacisk na ważne słowo:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Wymowa skrótu:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Listy kontrolne
Dialog/treść przed wydaniem
- Dla każdego zamiaru - lista synonimów/wariantów frazy.
- Jedno jasne pytanie na wymagany czas na start lub lądowanie.
- Wrażliwe działania - z wyraźnym potwierdzeniem.
- Istnieje krótka alternatywa na ekranie/operatora.
- Repliki ≤ 2 sugestie; long - z "Kontynuuj? ».
Technika i jakość
- wspiera się barki i powraca do dialogu po przerwaniu.
- opóźnienie p95 jest normalne; Są słuchawki na opóźnienie.
- SSML skonfigurowane: pauzy, liczby, naprężenia.
- Kłody bezosobowe/zamaskowane; zarządzanie historią jest.
- Przetestowano wielojęzyczność i formaty lokalne.
A11y i bezpieczeństwo
- „Powtarzaj/mów wolniej/głośniej” działa.
- Kompletne dane osobowe/płatnicze nie są ogłaszane.
- Istnieje anulowanie/odwrócenie akcji głosem.
- Przetestowane limity wiekowe i regionalne.
21) Ramy specyfikacji dialogów (szablon)
Cel scenariusza: (na przykład „Depozyt ≤ 90 sekund”)
Intencje i synonimy: lista przykładowych zwrotów.
Слота: „kwota” (req, potwierdzenie), „waluta” (domyślnie = UAH), „metoda” (enum).
Zasady potwierdzania, dla których wartości/progi mają być powtarzane.
Opcje błędów: ASR, NLU, brak usługi - teksty + oddziały.
Wyjścia multimodalne: które karty/ekrany pokazujemy.
Dzienniki i prywatność: co i jak maskujemy, przechowywanie TTL.
Końcowy arkusz oszustwa
Pierwsze intencje/sloty/zasady potwierdzania, a następnie teksty.
Mów krótko, niech przeszkadzają i anulują.
Konfiguruj SSML, formaty lokalne i ton według kontekstu.
Zachowaj prywatność i rejestrowanie pod kontrolą.
Pomiar mierników Intent/Slot/ASR, Sukces zadania i opóźnienia.
Zawsze mieć alternatywę dla ekranu i ścieżkę do osoby.