Sprachschnittstellen und Assistenten
1) Was ist VUI und wann wird es benötigt
Voice Interface (VUI) - eine Möglichkeit der Interaktion durch Sprache: Assistenten in der App/Browser, intelligente Lautsprecher, IVR/Telefonie, Stimme in Auto und TV.
Geeignet für: handbesetzte Szenarien (Fahren, Küche), schnelle Befehle („Einschalten“..., „Anrufen“...), Barrierefreiheit, Navigation in komplexen Menüs.
Nicht geeignet für: genaue visuelle Auswahl (Kataloge, Tabellen), lange Eingabe strukturierter Daten ohne Bildschirm.
2) Dialogmodell: Intentionen, Entitäten und Kontext
Intent (Zweck): Was der Benutzer will: 'Create _ payment', 'Check _ balance'.
Slots/Entitäten: Zielparameter: Betrag, Währung, Ziel, Datum.
Kontext/Dialogstaat: Was schon bekannt ist, was wir klären, wo wir uns verzweigen.
Bestätigungsregeln: Was wir ausdrücklich bestätigen (Geld, persönliche Daten).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Dialogmuster
1. Das Team mit einem Satz: „Füllen Sie das Konto auf 500 Griwna Apple Pay“. → Bestätigung → Aktion.
2. Klärender Dialog: „An wen soll ich übersetzen?“ → „Wie viel?“ → Bestätigung.
3. Schritt-für-Schritt-Assistent: Komplexe Szenarien mit Datenvalidierung und umgekehrtem Schritt.
4. Intention Recognition + NLU-Reframe: Unterstützung variabler Formulierungen.
5. Schnelle Hilfe: „Was sind die Grenzen der Ausgabe?“ - kurze Antwort + „Auf dem Bildschirm anzeigen“.
4) Formulierungen: Stimme und Ton
Markenstimme: selbstbewusst, ruhig, freundlich; ohne Verkleinerung und „Witze“ in kritischen Schritten (Zahlungen, Sicherheit).
Max. Replikatlänge des Assistenten: 1-2 Sätze; lange Antworten - Aufschlüsseln und „Weiter?“ vorschlagen
Fragen - konkret: „Wie viel aufzufüllen?“ statt „Was machen wir als nächstes?“
5) Bestätigungen, Sicherheit und Ethik
Harte Bestätigung von empfindlichen Handlungen: Sprechen Sie die Schlüsselparameter aus ("Um 500 hryvnias mit einer Karte aufzufüllen... 4581? »)
Doppelte Bestätigung für irreversible Operationen.
Ohne Angabe vollständiger personenbezogener Daten.
Stornierungs-/Rollback-Möglichkeit: „Abbrechen“, „Stopp“, „Letzten Schritt abbrechen“.
6) Fehler und Missverständnisse
Fehlertypen und Antworten:- ASR-Fehler (nicht gehört): "Ich habe die Summe nicht gehört. Wiederholen Sie bitte"
- NLU-unverständlich: "Ich habe die Anfrage nicht verstanden. Ich kann mein Konto aufladen oder mein Guthaben zeigen. Was werden Sie wählen?"
- Keine Daten/Einschränkung: "Diese Methode ist in Ihrer Region nicht verfügbar. Andere Optionen nennen?"
- Netzwerk/Service: "Es gibt gerade keine Verbindung zum Bezahldienst. In einer Minute wiederholen?"
Regel: Maximal 2 Nachfrageversuche → eine Alternative vorschlagen (pro Bildschirm/Person).
7) Geschwindigkeit und Barge-in (Unterbrechung)
TTFB-Latenz: Ziel <300-500 ms; wenn länger - ein kurzes „em-mm“ -Signal/earcon.
Barge-in: Der Benutzer kann den Assistenten jederzeit unterbrechen. Wir behandeln die Unterbrechung korrekt.
Streaming der Antwort: Wir beginnen zu sprechen, bevor der gesamte Text fertig ist, aber ohne Sinnbruch.
8) TTS/ASR und SSML: Wie man „menschlich“ sagt
Aussprache von Zahlen/Währungen/Daten: lokale Formate („p 'yatsoth Griwna“, „15 Blattfall“).
Pausen und Betonungen: SSML'<break time = „300ms “/>','<emphasis level =„ moderate “>'.
Abkürzungen/Codes lesen:'<say-as interpret-as = 'characters'> IBAN </say-as>'.
Geschwindigkeit und Timbre: nicht schneller als 0. 9 × Basis, um lesbar zu sein.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Multimodalität: Stimme + Bildschirm
Visuelle Hinweise: Bestätigungskarte, Methodenliste, Fortschritt.
Handoff auf dem Bildschirm: "Ich habe Optionen auf den Bildschirm geschickt. Wählen Sie eine Methode aus"
Status Synchronisation: Stimme initiiert, Bildschirm beendet (und umgekehrt).
10) Mehrsprachigkeit und Lokalisierung
Automatische Erkennung der Sprache nach Sitzung/Einstellung, nicht nach Phrase.
Glossar der Begriffe: einheitliche Terminologie für RU/UA/TR/EN.
Regionale Zahlen-/Währungs-/Datumsformate, Aussprache von Namen/Ortsnamen.
Umschalten im Dialog: „Go to Ukraine“ ist ein klares Kommando.
11) Zugänglichkeit (A11y) in der Stimme
Handlungsbestätigung - klar und kurz.
Wiederholung auf Anfrage: „Wiederholen“ stimmt die letzte Replik an.
Lautstärke/Geschwindigkeit: „Sprechen Sie langsamer/leiser/lauter“.
Für Hörgeschädigte: Untertitel/Transkript auf dem Bildschirm, Vibrationssignale.
Bei Sprachstörungen: alternative Eingabemethoden (Button, Presets).
12) Vertraulichkeit, Protokollierung und Compliance
Weckwort und Aufnahmeindikator: der explizite Zustand „Ich höre zu“.
Lokale Verarbeitung, wenn möglich; ansonsten Datenminimierung.
Maskierung empfindlicher Fragmente in Protokollen (PAN, IBAN, Adresse) und Auto-Revision von Audio.
Aufbewahrungsfristen und Recht auf Löschung auf Verlangen; Einstellungen „Verlauf nicht speichern“.
Altersbeschränkung/elterliche Kontrolle (Kinderstimmen/-teams).
Transparenz: "Ich nehme diesen Befehl auf, um die Erkennung zu verbessern. Kann in den Einstellungen deaktiviert werden"
13) Die Person des Assistenten
Name/Person: Kurzbiografie, Kompetenzbereich, was kann/kann nicht.
Ton nach Situation: gewöhnlich (freundlich), kritisch (neutral), lehrreich (unterstützend).
Grenzen: „Ich gebe keine Finanzberatung, sondern kann ein Attest vorweisen“.
14) VUI Qualitätsmetriken
Intent recognition rate (NLU-Genauigkeit).
Slot fill rate и avg. turns to fill.
ASR WER/CER (Word/Character Recognition Error).
Task Success / Completion rate и Time-to-Complete.
Escalation rate (pro Operator/Bildschirm).
Barge-in usage и Latency p95.
User Satisfaction/CSAT nach dem Skript.
Abandonment im Schritt.
15) Stimmprüfung und QA
Sätze von Testphrasen: Synonyme, Konversationsformen, Akzente, Fehler.
Umgebungsgeräusche: Straße/Auto/Küche, verschiedene Mikrofone.
Dialog-Repliken: reproduzierbare Szenarien, Golden-Set für Regression.
Wizard-of-Oz in der Anfangsphase.
Rechtliche Szenarien: Wie der Assistent auf potenziell gefährliche Anfragen reagiert.
16) Integration mit dem Produkt (iGaming-Fälle)
Guthaben/Einzahlung/Auszahlung: "Wie hoch ist das Guthaben? ", "200 UAH nachfüllen"..., "Ausgangsstatus".
Boni/Missionen: "Welche Boni gibt es? ", "Aktivieren Sie den wöchentlichen Cashback".
Verantwortungsvolles Spielen: „Legen Sie ein Einzahlungslimit von 1000 UAH pro Woche fest“.
Status der Systeme: „Gibt es jetzt technische Arbeiten?“
17) Anti-Muster
Lange Monologe des Assistenten ohne die Möglichkeit zu unterbrechen.
Implizite Bestätigungen von Geldtransaktionen.
Das alternativlose „nicht verstanden“ ohne einen Hinweis auf die Optionen.
Wiedergewinnbare Klänge/Jingles, die die Wahrnehmung stören.
Ein Versuch, „mit der Stimme“ Probleme zu lösen, bei denen eine detaillierte visuelle Auswahl erforderlich ist.
18) Prompt- und Antwortvorlagen
Slot-Verfeinerung (Betrag):- Assistent: „Wie viel Geld soll ich auf mein Konto einzahlen?“
- Nutzer: „Fünfhundert“.
- Assistent: "Um 500 Griwna aufzufüllen? Bitte bestätigen Sie"
- "Bestätigen Sie die Auffüllung auf 500 hryvnias mit einer Karte... 4581. Sagen Sie „bestätigen“ oder „stornieren“
- "Ich habe die Zahlungsmethode nicht verstanden. Ich kann anbieten: Apple Pay, Karte, Krypto-Wallet. Was werden Sie wählen?"
- "Schickte die verfügbaren Methoden auf den Bildschirm. Wählen Sie und sagen Sie "fertig", um fortzufahren"
19) Beispiele für SSML-Muster
Zahlen/Währung und Pause:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Betonung eines wichtigen Wortes:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Aussprache der Abkürzung:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Checklisten
Dialog/Inhalt vor der Veröffentlichung
- Pro Intent - eine Liste von Synonymen/Varianten von Phrasen.
- Für jeden obligatorischen Slot gibt es eine klare Frage.
- Sensible Aktionen - mit ausdrücklicher Bestätigung.
- Es gibt eine kurze „on screen „/„ operator “Alternative.
- Repliken ≤ 2 Sätze; lang - mit "Weiter? ».
Technik und Qualität
- Unterstützt durch Barge-in und Rückkehr zum Dialog nach der Unterbrechung.
- Die Latenz von p95 ist normal; Es gibt Earcons bei Verspätung.
- SSML konfiguriert: Pausen, Zahlen, Betonungen.
- Protokolle sind unpersönlich/maskiert; Die Geschichtsverwaltung ist da.
- Mehrsprachigkeit und lokale Formate getestet.
A11y und Sicherheit
- „Wiederholen/Sprechen langsamer/Lauter“ funktioniert.
- Es werden keine vollständigen persönlichen/Zahlungsdaten bekannt gegeben.
- Es gibt einen Abbruch/Rollback der Aktion mit der Stimme.
- Die Alters- und Regionalgrenzen wurden überprüft.
21) Dialog Spezifikationsrahmen (Vorlage)
Szenario-Ziel: (z.B. „Einzahlung ≤ 90 Sekunden“)
Intents und Synonyme: eine Liste von Beispielphrasen.
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
Bestätigungsregeln: Für welche Werte/Schwellenwerte eine Wiederholung erforderlich ist.
Fehlervarianten: ASR, NLU, kein Service - Texte + Zweige.
Multimodale Ausgänge: Welche Karten/Bildschirme wir zeigen.
Protokolle und Privatsphäre: Was und wie wir maskieren, TTL-Speicher.
Abschließender Spickzettel
Erst Intents/Slots/Bestätigungsregeln, dann Texte.
Kurz sprechen, unterbrechen und absagen lassen.
Passen Sie SSML, lokale Formate und Ton nach Kontext an.
Behalten Sie Ihre Privatsphäre und Protokollierung unter Kontrolle.
Messen Sie Intent/Slot/ASR-Metriken, Task-Erfolg und Latenz.
Haben Sie immer eine Alternative zum Bildschirm und den Weg zur Person.