GH GambleHub

Sprachschnittstellen und Assistenten

1) Was ist VUI und wann wird es benötigt

Voice Interface (VUI) - eine Möglichkeit der Interaktion durch Sprache: Assistenten in der App/Browser, intelligente Lautsprecher, IVR/Telefonie, Stimme in Auto und TV.
Geeignet für: handbesetzte Szenarien (Fahren, Küche), schnelle Befehle („Einschalten“..., „Anrufen“...), Barrierefreiheit, Navigation in komplexen Menüs.
Nicht geeignet für: genaue visuelle Auswahl (Kataloge, Tabellen), lange Eingabe strukturierter Daten ohne Bildschirm.

2) Dialogmodell: Intentionen, Entitäten und Kontext

Intent (Zweck): Was der Benutzer will: 'Create _ payment', 'Check _ balance'.
Slots/Entitäten: Zielparameter: Betrag, Währung, Ziel, Datum.
Kontext/Dialogstaat: Was schon bekannt ist, was wir klären, wo wir uns verzweigen.
Bestätigungsregeln: Was wir ausdrücklich bestätigen (Geld, persönliche Daten).

Beispiel für ein Intent-Schema (Pseudo-JSON):
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}

3) Dialogmuster

1. Das Team mit einem Satz: „Füllen Sie das Konto auf 500 Griwna Apple Pay“. → Bestätigung → Aktion.
2. Klärender Dialog: „An wen soll ich übersetzen?“ → „Wie viel?“ → Bestätigung.
3. Schritt-für-Schritt-Assistent: Komplexe Szenarien mit Datenvalidierung und umgekehrtem Schritt.
4. Intention Recognition + NLU-Reframe: Unterstützung variabler Formulierungen.
5. Schnelle Hilfe: „Was sind die Grenzen der Ausgabe?“ - kurze Antwort + „Auf dem Bildschirm anzeigen“.

4) Formulierungen: Stimme und Ton

Markenstimme: selbstbewusst, ruhig, freundlich; ohne Verkleinerung und „Witze“ in kritischen Schritten (Zahlungen, Sicherheit).

Max. Replikatlänge des Assistenten: 1-2 Sätze; lange Antworten - Aufschlüsseln und „Weiter?“ vorschlagen

Fragen - konkret: „Wie viel aufzufüllen?“ statt „Was machen wir als nächstes?“

5) Bestätigungen, Sicherheit und Ethik

Harte Bestätigung von empfindlichen Handlungen: Sprechen Sie die Schlüsselparameter aus ("Um 500 hryvnias mit einer Karte aufzufüllen... 4581? »)

Doppelte Bestätigung für irreversible Operationen.
Ohne Angabe vollständiger personenbezogener Daten.
Stornierungs-/Rollback-Möglichkeit: „Abbrechen“, „Stopp“, „Letzten Schritt abbrechen“.

6) Fehler und Missverständnisse

Fehlertypen und Antworten:
  • ASR-Fehler (nicht gehört): "Ich habe die Summe nicht gehört. Wiederholen Sie bitte"
  • NLU-unverständlich: "Ich habe die Anfrage nicht verstanden. Ich kann mein Konto aufladen oder mein Guthaben zeigen. Was werden Sie wählen?"
  • Keine Daten/Einschränkung: "Diese Methode ist in Ihrer Region nicht verfügbar. Andere Optionen nennen?"
  • Netzwerk/Service: "Es gibt gerade keine Verbindung zum Bezahldienst. In einer Minute wiederholen?"

Regel: Maximal 2 Nachfrageversuche → eine Alternative vorschlagen (pro Bildschirm/Person).

7) Geschwindigkeit und Barge-in (Unterbrechung)

TTFB-Latenz: Ziel <300-500 ms; wenn länger - ein kurzes „em-mm“ -Signal/earcon.
Barge-in: Der Benutzer kann den Assistenten jederzeit unterbrechen. Wir behandeln die Unterbrechung korrekt.
Streaming der Antwort: Wir beginnen zu sprechen, bevor der gesamte Text fertig ist, aber ohne Sinnbruch.

8) TTS/ASR und SSML: Wie man „menschlich“ sagt

Aussprache von Zahlen/Währungen/Daten: lokale Formate („p 'yatsoth Griwna“, „15 Blattfall“).
Pausen und Betonungen: SSML'<break time = „300ms “/>','<emphasis level =„ moderate “>'.
Abkürzungen/Codes lesen:'<say-as interpret-as = 'characters'> IBAN </say-as>'.
Geschwindigkeit und Timbre: nicht schneller als 0. 9 × Basis, um lesbar zu sein.

Beispiel für SSML:
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>

9) Multimodalität: Stimme + Bildschirm

Visuelle Hinweise: Bestätigungskarte, Methodenliste, Fortschritt.

Handoff auf dem Bildschirm: "Ich habe Optionen auf den Bildschirm geschickt. Wählen Sie eine Methode aus"

Status Synchronisation: Stimme initiiert, Bildschirm beendet (und umgekehrt).

10) Mehrsprachigkeit und Lokalisierung

Automatische Erkennung der Sprache nach Sitzung/Einstellung, nicht nach Phrase.
Glossar der Begriffe: einheitliche Terminologie für RU/UA/TR/EN.
Regionale Zahlen-/Währungs-/Datumsformate, Aussprache von Namen/Ortsnamen.
Umschalten im Dialog: „Go to Ukraine“ ist ein klares Kommando.

11) Zugänglichkeit (A11y) in der Stimme

Handlungsbestätigung - klar und kurz.
Wiederholung auf Anfrage: „Wiederholen“ stimmt die letzte Replik an.
Lautstärke/Geschwindigkeit: „Sprechen Sie langsamer/leiser/lauter“.
Für Hörgeschädigte: Untertitel/Transkript auf dem Bildschirm, Vibrationssignale.
Bei Sprachstörungen: alternative Eingabemethoden (Button, Presets).

12) Vertraulichkeit, Protokollierung und Compliance

Weckwort und Aufnahmeindikator: der explizite Zustand „Ich höre zu“.
Lokale Verarbeitung, wenn möglich; ansonsten Datenminimierung.
Maskierung empfindlicher Fragmente in Protokollen (PAN, IBAN, Adresse) und Auto-Revision von Audio.
Aufbewahrungsfristen und Recht auf Löschung auf Verlangen; Einstellungen „Verlauf nicht speichern“.
Altersbeschränkung/elterliche Kontrolle (Kinderstimmen/-teams).

Transparenz: "Ich nehme diesen Befehl auf, um die Erkennung zu verbessern. Kann in den Einstellungen deaktiviert werden"

13) Die Person des Assistenten

Name/Person: Kurzbiografie, Kompetenzbereich, was kann/kann nicht.
Ton nach Situation: gewöhnlich (freundlich), kritisch (neutral), lehrreich (unterstützend).
Grenzen: „Ich gebe keine Finanzberatung, sondern kann ein Attest vorweisen“.

14) VUI Qualitätsmetriken

Intent recognition rate (NLU-Genauigkeit).
Slot fill rate и avg. turns to fill.
ASR WER/CER (Word/Character Recognition Error).
Task Success / Completion rate и Time-to-Complete.
Escalation rate (pro Operator/Bildschirm).
Barge-in usage и Latency p95.
User Satisfaction/CSAT nach dem Skript.
Abandonment im Schritt.

15) Stimmprüfung und QA

Sätze von Testphrasen: Synonyme, Konversationsformen, Akzente, Fehler.
Umgebungsgeräusche: Straße/Auto/Küche, verschiedene Mikrofone.
Dialog-Repliken: reproduzierbare Szenarien, Golden-Set für Regression.
Wizard-of-Oz in der Anfangsphase.
Rechtliche Szenarien: Wie der Assistent auf potenziell gefährliche Anfragen reagiert.

16) Integration mit dem Produkt (iGaming-Fälle)

Guthaben/Einzahlung/Auszahlung: "Wie hoch ist das Guthaben? ", "200 UAH nachfüllen"..., "Ausgangsstatus".
Boni/Missionen: "Welche Boni gibt es? ", "Aktivieren Sie den wöchentlichen Cashback".
Verantwortungsvolles Spielen: „Legen Sie ein Einzahlungslimit von 1000 UAH pro Woche fest“.

Status der Systeme: „Gibt es jetzt technische Arbeiten?“

17) Anti-Muster

Lange Monologe des Assistenten ohne die Möglichkeit zu unterbrechen.
Implizite Bestätigungen von Geldtransaktionen.
Das alternativlose „nicht verstanden“ ohne einen Hinweis auf die Optionen.
Wiedergewinnbare Klänge/Jingles, die die Wahrnehmung stören.
Ein Versuch, „mit der Stimme“ Probleme zu lösen, bei denen eine detaillierte visuelle Auswahl erforderlich ist.

18) Prompt- und Antwortvorlagen

Slot-Verfeinerung (Betrag):
  • Assistent: „Wie viel Geld soll ich auf mein Konto einzahlen?“
  • Nutzer: „Fünfhundert“.
  • Assistent: "Um 500 Griwna aufzufüllen? Bitte bestätigen Sie"
Bestätigung der sensiblen Handlung:
  • "Bestätigen Sie die Auffüllung auf 500 hryvnias mit einer Karte... 4581. Sagen Sie „bestätigen“ oder „stornieren“
Missverständnis + Wegweiser:
  • "Ich habe die Zahlungsmethode nicht verstanden. Ich kann anbieten: Apple Pay, Karte, Krypto-Wallet. Was werden Sie wählen?"
Eskalation auf den Bildschirm:
  • "Schickte die verfügbaren Methoden auf den Bildschirm. Wählen Sie und sagen Sie "fertig", um fortzufahren"

19) Beispiele für SSML-Muster

Zahlen/Währung und Pause:
xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Betonung eines wichtigen Wortes:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Aussprache der Abkürzung:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>

20) Checklisten

Dialog/Inhalt vor der Veröffentlichung

  • Pro Intent - eine Liste von Synonymen/Varianten von Phrasen.
  • Für jeden obligatorischen Slot gibt es eine klare Frage.
  • Sensible Aktionen - mit ausdrücklicher Bestätigung.
  • Es gibt eine kurze „on screen „/„ operator “Alternative.
  • Repliken ≤ 2 Sätze; lang - mit "Weiter? ».

Technik und Qualität

  • Unterstützt durch Barge-in und Rückkehr zum Dialog nach der Unterbrechung.
  • Die Latenz von p95 ist normal; Es gibt Earcons bei Verspätung.
  • SSML konfiguriert: Pausen, Zahlen, Betonungen.
  • Protokolle sind unpersönlich/maskiert; Die Geschichtsverwaltung ist da.
  • Mehrsprachigkeit und lokale Formate getestet.

A11y und Sicherheit

  • „Wiederholen/Sprechen langsamer/Lauter“ funktioniert.
  • Es werden keine vollständigen persönlichen/Zahlungsdaten bekannt gegeben.
  • Es gibt einen Abbruch/Rollback der Aktion mit der Stimme.
  • Die Alters- und Regionalgrenzen wurden überprüft.

21) Dialog Spezifikationsrahmen (Vorlage)

Szenario-Ziel: (z.B. „Einzahlung ≤ 90 Sekunden“)

Intents und Synonyme: eine Liste von Beispielphrasen.
Слоты: `amount` (req, confirm), `currency` (default=UAH), `method` (enum).
Bestätigungsregeln: Für welche Werte/Schwellenwerte eine Wiederholung erforderlich ist.
Fehlervarianten: ASR, NLU, kein Service - Texte + Zweige.
Multimodale Ausgänge: Welche Karten/Bildschirme wir zeigen.
Protokolle und Privatsphäre: Was und wie wir maskieren, TTL-Speicher.

Abschließender Spickzettel

Erst Intents/Slots/Bestätigungsregeln, dann Texte.
Kurz sprechen, unterbrechen und absagen lassen.
Passen Sie SSML, lokale Formate und Ton nach Kontext an.
Behalten Sie Ihre Privatsphäre und Protokollierung unter Kontrolle.
Messen Sie Intent/Slot/ASR-Metriken, Task-Erfolg und Latenz.
Haben Sie immer eine Alternative zum Bildschirm und den Weg zur Person.

Contact

Kontakt aufnehmen

Kontaktieren Sie uns bei Fragen oder Support.Wir helfen Ihnen jederzeit gerne!

Telegram
@Gamble_GC
Integration starten

Email ist erforderlich. Telegram oder WhatsApp – optional.

Ihr Name optional
Email optional
Betreff optional
Nachricht optional
Telegram optional
@
Wenn Sie Telegram angeben – antworten wir zusätzlich dort.
WhatsApp optional
Format: +Ländercode und Nummer (z. B. +49XXXXXXXXX).

Mit dem Klicken des Buttons stimmen Sie der Datenverarbeitung zu.