ממשקי קול ועוזרים
1) מהו VUI ומתי הוא נחוץ
ממשק קול (VUI) - דרך אינטראקציה באמצעות דיבור: עוזרים ביישום/דפדפן, רמקולים חכמים, IVR/telephony, קול באוטו וטלוויזיה.
מתאים: תרחישים ידניים (נהיגה, מטבח), פקודות מהירות (”להפעיל”..., ”להתקשר”...), נגישות, ניווט בתפריטים מורכבים.
לא מתאים: בחירה ויזואלית מדויקת (קטלוגים, טבלאות), כניסה ארוכה של נתונים מובנים ללא מסך.
2) מודל דיאלוג: כוונות, ישויות והקשר
כוונה: מה המשתמש רוצה: ”צור _ תשלום”, ”Check _ balance”.
חריצים/ישויות: פרמטרים מטרה: סכום, מטבע, כתובת, תאריך.
הקשר/דיאלוג-מצב: מה שכבר ידוע, מה שאנו מבהירים, היכן אנו מסתעפים.
כללי אישור: שאנו מאשרים במפורש (כסף, נתונים אישיים).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) דפוסי דיאלוג
1. צוות עם משפט אחד: "למעלה את החשבון עבור 500 Hryvnia Apple Pay. # "אישור פעולה.
2. דיאלוג מבהיר: ”למי לתרגם?” □ ”כמה?” = אישור.
3. אשף צעד אחר צעד: תרחישים מורכבים עם אימות נתונים וצעד הפוך.
4. זיהוי כוונות + פרפרזה NLU: תמיכה בנוסחאות משתנות.
5. עזרה מהירה: ”מה גבולות הנסיגה?” -תשובה קצרה + ”הצג על המסך”.
4) ניסוח: קול וטון
קול מותג: בטוח, רגוע, ידידותי; בלי בדיחות קטנות וצעדים קריטיים (תשלומים, ביטחון).
מקס. אורך העתק עוזר: 1-2 משפטים; תשובות ארוכות - לשבור ולהציע ”להמשיך?”
שאלות - ספציפיות: ”כמה לחדש?” במקום ”מה עושים הלאה?”
5) אימות, בטיחות ואתיקה
אישור קשוח לפעולות רגישות: לבטא פרמטרים מרכזיים ("Repenish by 500 hryvnia עם כרטיס... 4581? »)
אישור כפול לפעולות בלתי הפיכות.
בלי להשמיע מידע אישי מלא.
ביטול/ביטול אפשרות: לבטל, לעצור, לבטל את הצעד האחרון.
6) טעויות ואי ־ הבנה
סוגי כישלון ותגובות:- שגיאה של ASR (לא שמעתי): "לא שמעתי את הסכום. אנא חזור על זה
- לא מובן מאליו: "לא הבנתי את הבקשה. אני יכול להתעלות על החשבון שלי או להראות את האיזון שלי. מה תבחר?"
- חסר מידע/מגבלה: "שיטה זו אינה זמינה באזור שלך. מה האפשרויות האחרות?"
- רשת/שירות: "עכשיו אין קשר עם שירות התשלום. אתה רוצה לנסות שוב בעוד דקה?
חוק: מקסימום 2 ניסיונות לשאילתה * מציעים חלופה (מסך/אדם).
7) מהירות והתפרצות (הפרעה)
TFB latency: המטרה <300-500 ms; אם ארוך יותר - אות ”אם-אם” קצר/אוזנון.
בארג 'ב: המשתמש יכול להפריע העוזר בכל עת; להתמודד עם ההפרעה בצורה נכונה.
הזרמת התשובה: אנחנו מתחילים לדבר מוקדם יותר מכל הטקסט מוכן, אבל בלי לשבור את הקו.
8) TTS/ASR ו ־ SSML: כיצד לומר ”אנושי”
הגייה של מספרים/מטבעות/תאריכים: פורמטים מקומיים (”Pyatsot hryvnia”, ”15 עלים נופלים”).
הפסקה ולחצים: SSML '<הפסקה = ”300 ms'/>”, ”<דגש רמה =” מתון ”>”.
קריאה של קיצורים/קודים: ”<say-as presents-as =” תווים ”> IBAN </say-as>”.
מהירות וגוון: לא יותר מהר מ-0. 9 × בסיסי להיות קריא.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) מולטימודליות: מסך + קול
רמזים חזותיים: כרטיס אישור, רשימת שיטות, התקדמות.
מסירה למסך: "שלחתי אפשרויות למסך. בחר שיטה"
סינכרון מצב: הקול מתחיל, המסך מסתיים (ולהיפך).
10) ריבוי לשוניות ולוקליזציה
זיהוי אוטומטי של שפה על ידי הפעלה/כוונון, לא על ידי ביטוי אחד.
גלוסרי מונחים: מינוח נפוץ עבור RU/UA/TR/EN.
פורמטים אזוריים של מספרים/מטבעות/תאריכים, הגייה של שמות/טופונימים.
החלפה בדו ־ שיח: ”עבור ukraїnsku” היא פקודה מפורשת.
11) זמינות (A11y) בקול
אישור הפעולה הוא ברור וקצר.
חזור על דרישה: ”חוזר” קולות השורה האחרונה.
נפח/מהירות: ”דבר לאט יותר/שקט/חזק יותר”.
עבור לקויי השמיעה: כתוביות/תעתיק על המסך, אותות רטט.
עבור הפרעות דיבור: שיטות קלט חלופיות (כפתור, קלט מראש).
12) סודיות, כריתת עצים וציות
מילת השכמה ואינדיקטור הקלטה: מדינה ”מקשיבה” מפורשת.
עיבוד מקומי, במידת האפשר; אחרת, מזעור נתונים.
מיסוך קטעים רגישים ביומנים (PAN, IBAN, כתובת) ועריכת שמע אוטומטית.
שימור תקופות וזכות להסרה לפי בקשה; אל תשמור את הגדרות ההיסטוריה.
הגבלות גיל/בקרת הורים (קולות/צוותים של ילדים).
שקיפות: "אני מקליט את הפקודה הזו כדי לשפר את ההכרה. ניתן לבטל את ההגדרות"
13) עוזר אישיות
שם/אדם: ביוגרפיה קצרה, תחום של יכולת שיכול/לא יכול.
טון למצבים: נורמלי (ידידותי), ביקורתי (ניטרלי), חינוכי (תומך).
גבולות: ”אני לא נותן עצות כלכליות, אבל אני יכול להראות עזרה”.
14) מדדי איכות VUI
שיעור זיהוי כוונות.
קצב מילוי חריץ הופך למילוי.
ASR WER/CER (שגיאת זיהוי מילים/תווים).
הצלחה במשימה/השלמה שיעור הזמן להשלמה.
קצב הסלמה (לכל מפעיל/מסך).
שימוש באריג 'ב Barge Latency p95.
שביעות רצון המשתמש/CSAT לאחר התסריט.
נטישה בשלב.
15) בדיקת קול ו ־ QA
משפט מבחן קובע: מילים נרדפות, צורות דיבור, מבטא, שגיאות.
רעשי סביבה: רחוב/מכונית/מטבח, מיקרופונים שונים.
דו ־ שיח חוזר: תסריטים ניתנים למשחק, סט זהב לרגרסיה.
קוסם מארץ עוץ בשלבים המוקדמים.
תרחישים משפטיים: כיצד עוזר מגיב לבקשות מסוכנות.
16) שילוב מוצרים (מקרים של iGaming)
שיווי משקל/הפקדה/משיכה: ”מהו האיזון? ”, ”חידוש ב 200 UAH...”, ”מצב פלט”.
בונוסים/משימות: ”אילו בונוסים זמינים?”
משחק אחראי: ”קבע מגבלת הפקדה של 1000 UAH לשבוע”.
מצב המערכות: ”האם יש עבודות טכניות עכשיו?”
17) אנטי דפוסים
מונולוגים ארוכים של העוזר בלי הזדמנות להפריע.
אישור מרומז של עסקאות כספיות.
”לא מבין” ללא אפשרויות.
קולות מופרזים/ג 'ינגלים מפריעים לתפיסה.
ניסיון ”קול” לפתור בעיות שבו יש צורך בבחירה חזותית מפורטת.
18) בקשות ותשובות לתבניות
עידון חריצים (סכום):- עוזר: ”כמה כדי לחדש את החשבון?”
- משתמש: ”חמש מאות”.
- עוזר: "לחדש על ידי 500 הריבניה? אנא אשר"
- "אשר חידוש על ידי 500 כרטיסי הריבניה... 4581. תגיד ”לאשר” או ”לבטל”
- לא שמעתי את שיטת התשלום. אני יכול להציע: Apple Pay, כרטיס, ארנק קריפטו. מה תבחר?"
- "נשלח שיטות זמינות למסך. בחר ואמור "נעשה" להמשך"
19) דוגמאות לדפוסי SSML
מספרים/מטבע והשהייה:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
דגש על המילה החשובה:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
הגייה של הקיצור:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) רשימות בדיקה
דיאלוג/תוכן לפני שחרור
[ ] לכל כוונה - רשימה של מילים נרדפות/ביטויים וריאציות.
[ ] שאלה אחת ברורה לכל חריץ נדרש.
[ ] פעולות רגישות - באישור מפורש.
[ ] יש חלופה קצרה על המסך/מפעיל.
[ ] Replas Industries 2 industries; ארוך עם "המשך? ».
טכניקה ואיכות
[ ] הדוברה נתמכת וחוזרת לדיאלוג לאחר ההפרעה.
[ ] latency p95 הוא נורמלי; יש אוזניות על עיכוב.
[ ] SSML מוגדר: הפסקה, מספרים, לחצים.
[ ] לוגים לא אישיים/רעולי פנים; ניהול ההיסטוריה הוא.
[ ] רב-לשוניות ופורמטים מקומיים שנבדקו.
A11y ובטיחות
[ ] ”חוזר/דבר לאט יותר/חזק יותר” עובד.
[ ] נתונים אישיים/תשלומים מלאים אינם מוכרזים.
[ ] יש ביטול/rollback של הפעולה בקול.
[ ] גיל ומגבלות אזוריות נבחנו.
21) מסגרת מפרט דו ־ שיח (תבנית)
מטרת התרחיש: (לדוגמה, ”הפקדת 90 שניות”)
כוונות ומילים נרדפות: רשימה של ביטויים לדוגמה.
Summent: ”כמות” (req, לאשר), ”מטבע” (ברירת מחדל = UAH), ”שיטה” (enum).
כללי אישור לאילו ערכים/סף לחזור.
אפשרויות שגיאה: ASR, NLU, ללא שירות - טקסטים + סניפים.
יציאות מולטימודליות: אילו כרטיסים/מסכים אנו מציגים.
יומנים ופרטיות: מה ואיך אנחנו מסכות, אחסון טי-טי-אל.
גיליון רמאות סופי
ראשית מכוון/חריצים/כללי אישור, לאחר מכן טקסטים.
דבר בקצרה, תן להם להפריע ולבטל.
הגדרת SSML, פורמטים מקומיים, וטון לפי הקשר.
לשמור על פרטיות וכריתת עצים תחת שליטה.
מדידת כוונה/חריץ/מדדים של ASR, הצלחה במשימה, ולאורך.
תמיד יש אלטרנטיבה למסך ונתיב לאדם.