Φωνητικές διεπαφές και βοηθοί
1) Τι είναι το VUI και πότε χρειάζεται
Φωνητική διεπαφή (VUI) - ένας τρόπος αλληλεπίδρασης μέσω της ομιλίας: βοηθοί στο πρόγραμμα εφαρμογής/περιήγησης, έξυπνοι ομιλητές, IVR/τηλεφωνία, φωνή στο αυτοκίνητο και τηλεόραση.
Κατάλληλο για: χειροκίνητα σενάρια (οδήγηση, κουζίνα), γρήγορες εντολές («ενεργοποιήστε»..., «κλήση»...), προσβασιμότητα, πλοήγηση μέσω σύνθετων μενού.
Δεν είναι κατάλληλο για: ακριβή οπτική επιλογή (κατάλογοι, πίνακες), μακρά εισαγωγή δομημένων δεδομένων χωρίς οθόνη.
2) Πρότυπο διαλόγου: προθέσεις, οντότητες και πλαίσιο
Πρόθεση: τι θέλει ο χρήστης: 'Create _ payment', 'Check _ balance'.
Χρονοθυρίδες/οντότητες: στοχευόμενες παράμετροι: ποσό, νόμισμα, αποδέκτης, ημερομηνία.
Πλαίσιο/κράτος-διάλογος: αυτό που είναι ήδη γνωστό, αυτό που αποσαφηνίζουμε, πού διακλαδίζουμε.
Κανόνες επιβεβαίωσης: ότι επιβεβαιώνουμε ρητά (χρήματα, προσωπικά δεδομένα).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Πρότυπα διαλόγου
1. Η ομάδα με μία φράση: "Συμπληρώστε το λογαριασμό για 500 hryvnia Apple Pay. "→ επιβεβαίωση → δράσης.
2. Αποσαφήνιση του διαλόγου: «Σε ποιον να μεταφράσετε» «Πόσα» επιβεβαίωση.
3. Βήμα προς βήμα μάγος: σύνθετα σενάρια με επικύρωση δεδομένων και αντίστροφο βήμα.
4. Αναγνώριση πρόθεσης + παραφράση NLU: υποστήριξη για μεταβλητές συνθέσεις.
5. Ταχεία βοήθεια: «Ποια είναι τα όρια απόσυρσης» - σύντομη απάντηση + «Εμφάνιση στην οθόνη».
4) Διατύπωση: φωνή και τόνος
Φωνή εμπορικού σήματος: με αυτοπεποίθηση, ήρεμη, φιλική. χωρίς υποτιμητικά και «αστεία» σε κρίσιμα στάδια (πληρωμές, ασφάλεια).
Το μέγιστο. Μήκος βοηθητικού αντιγράφου: 1-2 προτάσεις· μακροσκελείς απαντήσεις - διάλειμμα και πρόταση «Συνέχιση»
Ερωτήσεις - συγκεκριμένα: «Πόσο να αναπληρώσετε» αντί για «Τι θα κάνουμε μετά»
5) Επιβεβαιώσεις, ασφάλεια και δεοντολογία
Αυστηρή επιβεβαίωση ευαίσθητων ενεργειών: προφέρετε βασικές παραμέτρους ("Αναπληρώστε με 500 hryvnia με ένα φύλλο... 4581? »)
Διπλή επιβεβαίωση για μη αναστρέψιμες λειτουργίες.
Χωρίς να εκφράζονται πλήρη προσωπικά δεδομένα.
Επιλογή Undo/Undo: Undo, Stop, Undo Last Step.
6) Σφάλματα και παρανοήσεις
Τύποι αστοχιών και απαντήσεις:- Σφάλμα ASR (δεν άκουσα): "Δεν άκουσα το ποσό. Παρακαλώ επαναλάβετε το"
- NLU-ακατανόητο: "Δεν κατάλαβα το αίτημα. Μπορώ να συμπληρώσω το λογαριασμό μου ή να δείξω την ισορροπία μου. Τι θα επιλέξετε"
- Ελλείποντα στοιχεία/περιορισμός: "Η μέθοδος αυτή δεν είναι διαθέσιμη στην περιφέρειά σας. Ποιες είναι οι άλλες επιλογές"
- Δίκτυο/υπηρεσία: "Τώρα δεν υπάρχει σύνδεση με την υπηρεσία πληρωμών. Θέλετε να δοκιμάσετε ξανά σε ένα λεπτό
Κανόνας: το πολύ 2 απόπειρες αναζήτησης → προσφοράς εναλλακτικής λύσης (οθόνη/πρόσωπο).
7) Ταχύτητα και φορτηγίδα (διακοπή)
TTFB λανθάνουσα χρήση: στόχος <300-500 ms· εάν είναι μεγαλύτερο - ένα σύντομο σήμα «em-mm »/ακρωνύμιο.
Φορτηγίδα: ο χρήστης μπορεί να διακόψει τον βοηθό ανά πάσα στιγμή. χειρισμός της διακοπής σωστά.
Στρέφοντας την απάντηση: αρχίζουμε να μιλάμε νωρίτερα από όσο είναι έτοιμο ολόκληρο το κείμενο, αλλά χωρίς να σπάσουμε τη γραμμή.
8) TTS/ASR και SSML: Πώς να πείτε «Άνθρωπος»
Προφορά των αριθμών/νομισμάτων/ημερομηνιών: τοπικές μορφές («p 'yatsot hryvnia», «15 πτώσεις φύλλων»).
Παύση και πίεση: SSML '<χρόνος διακοπής = "300m />', '<επίπεδο έμφασης =" μέτρια ">'.
Ανάγνωση συντομογραφιών/κωδικών: '<say-as interpret-as = "character > IBAN </say-as>'.
Ταχύτητα και timbre: όχι γρηγορότερα από 0. 9 × βασικό προς ευανάγνωστο.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Πολυτροπικότητα: φωνή + οθόνη
Οπτικές ενδείξεις: κάρτα επιβεβαίωσης, κατάλογος μεθόδων, πρόοδος.
Hand-off στην οθόνη: "Έστειλα επιλογές στην οθόνη. Παρακαλώ επιλέξτε μια μέθοδο"
Συγχρονισμός κατάστασης: η φωνή ξεκινά, η οθόνη τερματίζεται (και αντιστρόφως).
10) Πολυγλωσσία και τοπική προσαρμογή
Αυτόματη ανίχνευση γλώσσας με συνεδρία/ρύθμιση, όχι με μία φράση.
Γλωσσάριο όρων: κοινή ορολογία για RU/UA/TR/EN.
Περιφερειακές μορφές αριθμών/νομισμάτων/ημερομηνιών, προφορά ονομάτων/τοπονύμων.
Αλλαγή στο διάλογο: Το «Go to ukraїnsku» είναι μια ρητή εντολή.
11) Διαθεσιμότητα (A11y) φωνητικά
Η επιβεβαίωση της δράσης είναι σαφής και σύντομη.
Επαναλάβετε κατά παραγγελία: «Επαναλάβετε» φωνάζει την τελική γραμμή.
Όγκος/ταχύτητα: «Μιλήστε πιο αργά/πιο ήσυχα/πιο δυνατά».
Για προβλήματα ακοής: υπότιτλοι/μεταγραφή στην οθόνη, σήματα κραδασμών.
Για διαταραχές του λόγου: εναλλακτικές μέθοδοι εισόδου (κουμπί, προκαθορισμένα σημεία).
12) Εμπιστευτικότητα, υλοτομία και συμμόρφωση
Ένδειξη αφύπνισης και καταγραφής: ρητή κατάσταση «ακρόασης».
Τοπική επεξεργασία, εάν είναι δυνατόν· διαφορετικά, ελαχιστοποίηση των δεδομένων.
Κάλυψη ευαίσθητων τμημάτων σε κούτσουρα (PAN, IBAN, διεύθυνση) και αυτόματη επεξεργασία ήχου.
Περίοδοι διατήρησης και δικαίωμα απομάκρυνσης κατόπιν αιτήματος· Μη αποθηκεύσετε ρυθμίσεις ιστορικού.
Περιορισμοί ηλικίας/γονικοί έλεγχοι (φωνές/ομάδες παιδιών).
Διαφάνεια: "Καταγράφω αυτή την εντολή για τη βελτίωση της αναγνώρισης. Μπορεί να απενεργοποιηθεί στις ρυθμίσεις"
13) Βοηθός προσώπου
Όνομα/πρόσωπο: σύντομη βιογραφία, τομέας ικανότητας που μπορεί/δεν μπορεί.
Τόνος για καταστάσεις: φυσιολογικός (φιλικός), κρίσιμος (ουδέτερος), εκπαιδευτικός (υποστηρικτικός).
Όρια: «Δεν δίνω οικονομικές συμβουλές, αλλά μπορώ να δείξω βοήθεια».
14) Μετρήσεις ποιότητας VUI
Ποσοστό αναγνώρισης πρόθεσης.
Ρυθμός πλήρωσης χρονοθυρίδων и avg. γυρίζει προς πλήρωση.
ASR WER/CER (Σφάλμα αναγνώρισης λέξεων/χαρακτήρων).
Task success/ρυθμός ολοκλήρωσης и Time-to-Complete.
Ρυθμός κλιμάκωσης (ανά χειριστή/οθόνη).
Χρήση φορτηγίδας и Latency p95.
Ικανοποίηση χρήστη/CSAT μετά το σενάριο.
Εγκατάλειψη στο βήμα.
15) Φωνητικές δοκιμές και QA
Σύνολα φράσεων δοκιμής: συνώνυμα, ομαδικές μορφές, προφορές, σφάλματα.
Θόρυβοι περιβάλλοντος: δρόμος/αυτοκίνητο/κουζίνα, διαφορετικά μικρόφωνα.
Διάλογος αναπαραγωγής: playable scripts, golden-set για παλινδρόμηση.
Μάγος του Οζ στα πρώτα στάδια.
Νομικά σενάρια: Πώς ανταποκρίνεται ένας βοηθός σε δυνητικά επικίνδυνα αιτήματα.
16) Ολοκλήρωση προϊόντων (περιπτώσεις iGaming)
Υπόλοιπο/κατάθεση/απόσυρση: «Ποιο είναι το υπόλοιπο; «, «Αναπληρώστε στα 200 UAH»..., «Κατάσταση εξόδου».
Μπόνους/Αποστολές: «Τι μπόνους είναι διαθέσιμα; «, «Ενεργοποίηση εβδομαδιαίας επιστροφής μετρητών».
Υπεύθυνο παιχνίδι: «Ορίστε όριο καταθέσεων 1000 UAH την εβδομάδα».
Κατάσταση των συστημάτων: «Υπάρχουν τώρα τεχνικά έργα»
17) Αντι-μοτίβα
Μακροχρόνιοι μονόλογοι του βοηθού χωρίς την ευκαιρία να διακόψουν.
Έμμεσες επιβεβαιώσεις νομισματικών συναλλαγών.
Το αδιαμφισβήτητο «δεν κατάλαβε» χωρίς να προτείνει επιλογές.
Υπερπροσφορά ήχων/κουδουνίσματα που παρεμβαίνουν στην αντίληψη.
Μια προσπάθεια «φωνητικής» επίλυσης προβλημάτων όπου απαιτείται λεπτομερής οπτική επιλογή.
18) Προσφορές και υποδείγματα απαντήσεων
Βελτίωση των χρονοθυρίδων (άθροισμα):- Βοηθός: «Πόσο να αναπληρώσετε το λογαριασμό»
- Χρήστης: «Πεντακόσια».
- Βοηθός: "Αναπληρώστε με 500 hryvnia Παρακαλείσθε να επιβεβαιώσετε"
- "Επιβεβαιώστε την αναπλήρωση με κάρτα 500 hryvnia... 4581. Πείτε «επιβεβαίωση» ή «ακύρωση»
- "Δεν άκουσα τη μέθοδο πληρωμής. Μπορώ να προσφέρω: Apple Pay, κάρτα, crypto πορτοφόλι. Τι θα επιλέξετε"
- "Έστειλε διαθέσιμες μεθόδους στην οθόνη. Επιλέξτε και πείτε "έγινε" για να συνεχιστεί"
19) Παραδείγματα προτύπων SSML
Αριθμοί/νόμισμα και παύση:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Έμφαση στη σημαντική λέξη:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Προφορά της συντομογραφίας:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Κατάλογοι ελέγχου
Διάλογος/περιεχόμενο πριν την απελευθέρωση
- Για κάθε πρόθεση - μια λίστα με συνώνυμα/παραλλαγές φράσεων.
- Ένα σαφές ερώτημα ανά απαιτούμενη χρονοθυρίδα.
- Ευαίσθητες ενέργειες - με ρητή επιβεβαίωση.
- Υπάρχει μια σύντομη εναλλακτική λύση στην οθόνη/χειριστή.
- Replicas ≤ 2 προτάσεις. μακρύ - με το "Συνεχίστε ».
Τεχνική και ποιότητα
- η φορτηγίδα υποστηρίζεται και επιστρέφει στο διάλογο μετά τη διακοπή.
- Η καθυστέρηση είναι κανονική. υπάρχουν ακροδάχτυλα σε καθυστέρηση.
- Ρυθμισμένο SSML: παύσεις, αριθμοί, πιέσεις.
- Κούτσουρα απρόσωπα/μασκοφόροι. η διαχείριση του ιστορικού είναι.
Η πολυγλωσσία και οι τοπικές μορφές δοκιμάστηκαν.
A11y και ασφάλεια
- «Επαναλάβετε/Μιλήστε πιο αργά/πιο δυνατά» έργα.
- Δεν ανακοινώνονται πλήρη δεδομένα προσωπικού χαρακτήρα/πληρωμής.
- Υπάρχει ακύρωση/ανατροπή της δράσης με φωνή.
Δοκιμή ηλικιακών και περιφερειακών ορίων.
21) Πλαίσιο προδιαγραφών διαλόγου (υπόδειγμα)
Σκοπός του σεναρίου: (για παράδειγμα, «κατάθεση ≤ 90 δευτερόλεπτα»)
Προθέσεις και συνώνυμα: ένας κατάλογος παραδειγματικών φράσεων.
: «ποσό» (req, επιβεβαίωση), «νόμισμα» (προεπιλογή = UAH), «μέθοδος» (enum).
Κανόνες επιβεβαίωσης για τους οποίους πρέπει να επαναληφθούν τιμές/κατώτατα όρια.
Επιλογές σφάλματος: ASR, NLU, καμία υπηρεσία - κείμενα + κλάδοι.
Πολυτροπικές εξόδους: ποιες κάρτες/οθόνες παρουσιάζουμε.
Αρχεία καταγραφής και ιδιωτικότητας: τι και πώς κρύβουμε, αποθήκευση TTL.
Τελικό φύλλο εξαπάτησης
Πρώτη πρόθεση/χρονοθυρίδες/κανόνες επιβεβαίωσης, στη συνέχεια κείμενα.
Μιλήστε εν συντομία, αφήστε τους να διακόψουν και να ακυρώσουν.
Ρυθμίστε το SSML, τις τοπικές μορφές και τον τόνο ανά πλαίσιο.
Διατήρηση της ιδιωτικής ζωής και της υλοτομίας υπό έλεγχο.
Μέτρηση προθέσεων/χρονοθυρίδων/μετρήσεων ASR, επιτυχία εργασίας και καθυστέρηση.
Πάντα να έχετε μια εναλλακτική στην οθόνη και μια διαδρομή προς το άτομο.