Ses arayüzleri ve asistanlar
1) VUI nedir ve ne zaman ihtiyaç duyulur
Ses arayüzü (VUI) - konuşma yoluyla etkileşim kurmanın bir yolu: uygulama/tarayıcıdaki asistanlar, akıllı hoparlörler, IVR/telefon, otomatik ve TV'de ses.
Şunlar için uygundur: Elle kullanılan senaryolar (sürüş, mutfak), hızlı komutlar ("aç"..., "ara"...), erişilebilirlik, karmaşık menülerde gezinme.
Uygun değil: doğru görsel seçim (kataloglar, tablolar), ekran olmadan yapılandırılmış verilerin uzun girişi.
2) Diyalog modeli: niyetler, varlıklar ve bağlam
Amaç: Kullanıcının istediği: 'Create _ payment', 'Check _ balance'.
Slotlar/varlıklar: hedef parametreler: miktar, para birimi, adres, tarih.
Bağlam/diyalog-devlet: Zaten bilinen, açıklığa kavuşturduğumuz, dallandığımız yer.
Onay kuralları: açıkça onayladığımız kurallar (para, kişisel veriler).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) Diyalog kalıpları
1. Bir cümle ile ekip: "500 Grivnası Apple Pay hesabını toplayın. "- onay - eylem.
2. Açıklayıcı diyalog: "Kime tercüme etmek?" "Ne kadar?" Onaylandı.
3. Adım adım sihirbaz: veri doğrulama ve geri adım içeren karmaşık senaryolar.
4. Niyet tanıma + NLU açıklaması: değişken formülasyonlar için destek.
5. Hızlı yardım: "Para çekme limitleri nelerdir?" - kısa cevap + "Ekranda göster".
4) İfadeler: ses ve ton
Marka sesi: kendinden emin, sakin, arkadaş canlısı; Kritik adımlarda (ödemeler, güvenlik) küçültme ve "şakalar" olmadan.
Max. Yardımcı kopya uzunluğu: 1-2 cümle; Uzun cevaplar - mola ve "Devam?"
Sorular - özel: "Ne kadar doldurmak için?" Bunun yerine "Şimdi ne yapacağız?"
5) Onaylar, güvenlik ve etik
Hassas eylemlerin Zor onay: anahtar parametreleri telaffuz ("Bir kart ile 500 Grivnası tarafından yenilemek... 4581? »)
Geri dönüşümsüz işlemler için çifte onay.
Tam kişisel verileri dile getirmeden.
Geri Al/Geri Al seçeneği: Geri Al, Durdur, Son Adımı Geri Al.
6) Hatalar ve yanlış anlaşılmalar
Başarısızlık türleri ve yanıtları:- ASR hatası (duymadım): "Miktarı duymadım. Lütfen tekrar et.»
- NLU-anlaşılmaz: "İsteği anlamadım. Hesabımı doldurabilir veya bakiyemi gösterebilirim. Neyi seçeceksiniz?"
- Eksik veri/sınırlama: "Bu yöntem bölgenizde kullanılamıyor. Diğer seçenekler neler?"
- Ağ/hizmet: "Artık ödeme hizmetiyle bağlantı yok. Bir dakika sonra tekrar denemek ister misin?
Kural: Sorgulamak için en fazla 2 deneme - alternatif (ekran/kişi) sunar.
7) Hız ve mavna girişi (kesme)
TTFB gecikmesi: hedef <300-500 ms; Eğer daha uzunsa - kısa bir'em-mm "sinyali/earcon.
Barge-in: Kullanıcı asistanı istediği zaman kesebilir; Kesme işlemini doğru şekilde yapın.
Cevabı yayınlamak: metnin tamamı hazır olmadan önce konuşmaya başlıyoruz, ancak çizgiyi kırmadan.
8) TTS/ASR ve SSML: "İnsan" Nasıl Söylenir?
Sayıların/para birimlerinin/tarihlerin telaffuzu: yerel formatlar ("p 'yatsot grivnası", "15 yaprak düşüşü").
Duraklar ve vurgular: SSML '<break time = "300ms "/> ',' <vurgu seviyesi = "moderate"> '.
Okuma kısaltmaları/kodları: '<say-as interpretation-as = "characters"> IBAN </say-as>'.
Hız ve tını: 0'dan daha hızlı değil. 9 × okunaklı olmak için temel.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) Multimodalite: ses + ekran
Görsel ipuçları: onay kartı, yöntemlerin listesi, ilerleme.
Ekrana teslim: "Seçenekleri ekrana gönderdim. Lütfen bir yöntem seçin"
Durum senkronizasyonu: ses başlatır, ekran sona erer (ve tersi).
10) Çok dillilik ve yerelleştirme
Tek cümle ile değil, oturum/ayarlama ile dili otomatik olarak algıla.
Terimler sözlüğü: RU/UA/TR/EN için ortak terminoloji.
Sayıların/para birimlerinin/tarihlerin bölgesel biçimleri, isimlerin/toponymlerin telaffuzu.
Pencerede geçiş: "ukraїnsku git" açık bir komuttur.
11) Seste kullanılabilirlik (A11y)
Eylem onayı açık ve kısadır.
Talep Üzerine Tekrar: "Tekrar" son satırı seslendirir.
Ses/hız: "Daha yavaş/daha sessiz/daha yüksek sesle konuşun".
İşitme engelliler için: ekrandaki altyazılar/transkript, titreşim sinyalleri.
Konuşma bozuklukları için: alternatif giriş yöntemleri (düğme, hazır ayarlar).
12) Gizlilik, kayıt ve uyumluluk
Uyandırma kelimesi ve kayıt göstergesi: açık "dinleme" durumu.
Mümkünse yerel işleme; Aksi takdirde, veri minimizasyonu.
Hassas parçaların günlüklerde (PAN, IBAN, adres) maskelenmesi ve sesin otomatik olarak düzenlenmesi.
Saklama süreleri ve talep üzerine kaldırma hakkı; Geçmiş ayarlarını kaydetmeyin.
Yaş kısıtlamaları/ebeveyn kontrolleri (çocukların sesleri/ekipleri).
Şeffaflık: "Bu komutu tanımayı geliştirmek için kaydediyorum. Ayarlarda devre dışı bırakılabilir"
13) Yardımcı persona
İsim/kişi: kısa bir biyografi, yapabilen/yapamayan yeterlilik alanı.
Durumlar için ton: normal (arkadaş canlısı), eleştirel (nötr), eğitici (destekleyici).
Sınırlar: "Finansal tavsiye vermem, ancak yardım gösterebilirim".
14) VUI Kalite Metrikleri
Niyet tanıma oranı.
Boşluk doldurma oranı и avg. turns to fill.
ASR WER/CER (Kelime/Karakter Tanıma Hatası).
Görev Başarı/Tamamlanma oranı и Tamamlanma Süresi.
Tırmanma oranı (operatör/ekran başına).
Mavna kullanımı и Gecikme p95.
Komut dosyasından sonra Kullanıcı Memnuniyeti/CSAT.
Adım adım terk edilme.
15) Ses testi ve QA
Test cümle setleri: eş anlamlılar, konuşma biçimleri, vurgular, hatalar.
Çevre sesleri: sokak/araba/mutfak, farklı mikrofonlar.
Yeniden oynatma diyaloğu: oynanabilir komut dosyaları, regresyon için altın set.
Oz Büyücüsü ilk aşamalarda.
Yasal senaryolar: Bir asistanın potansiyel olarak tehlikeli taleplere nasıl yanıt verdiği.
16) Ürün entegrasyonu (iGaming kılıfları)
Bakiye/para yatırma/çekme: "Bakiye nedir? ", "200 UAH'da yenileyin"..., "Çıkış durumu".
Bonuslar/Görevler: "Hangi bonuslar mevcut? ", "Haftalık para iadesini etkinleştirin".
Sorumlu oyun: "Haftada 1000 UAH depozito limiti ayarlayın".
Sistemlerin durumu: "Şu anda herhangi bir teknik çalışma var mı?"
17) Anti-desenler
Araya girme fırsatı olmadan asistanın uzun monologları.
Parasal işlemlerin örtülü onayları.
Tartışmasız "anlamadı" seçenekleri sormadan.
Algıya müdahale eden aşırı desteklenmiş sesler/jingles.
Ayrıntılı bir görsel seçimin gerekli olduğu problemleri "seslendirme" girişimi.
18) Tanıtımlar ve cevaplar şablonları
Yuva inceltme (toplam):- Asistan: "Hesabı doldurmak için ne kadar?"
- Kullanıcı: "Beş yüz".
- Asistan: "500 Grivnası ile doldurun? Lütfen onaylayın"
- "500 Grivnası kartı ile yenilemeyi onaylayın... 4581. "Onayla" veya "iptal et'de
- Ödeme yöntemini duymadım. Ben sunabilir: Apple Pay, kart, kripto cüzdan. Neyi seçeceksiniz?"
- "Mevcut yöntemleri ekrana gönderdi. Devam etmek için "bitti'yi seçin ve söyleyin"
19) SSML modellerine örnekler
Sayılar/Para Birimi ve Duraklatma:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
Önemli kelimeye vurgu:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
Kısaltmanın telaffuzu:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) Kontrol listeleri
Yayın Öncesi Diyalog/İçerik
- Her niyet için - eşanlamlıların/ifade varyantlarının bir listesi.
- Gerekli yuva başına bir net soru.
- Hassas eylemler - açık onay ile.
- Kısa bir ekran/operatör alternatifi var.
- Kopyalar ≤ 2 öneri; uzun - "Devam? ».
Teknik ve kalite
- mavna-in desteklenir ve kesildikten sonra diyaloğa geri döner.
- p95 gecikme normaldir; Geciken kulaklıklar var.
- SSML yapılandırılmış: duraklamalar, sayılar, gerilmeler.
- Kişisel olmayan/maskeli günlükler; tarih yönetimidir.
- Çok dillilik ve yerel formatlar test edildi.
A11y ve güvenlik
- "Repeat/Speak Slower/Louder" çalışır.
- Kişisel/ödeme verilerinin tamamı açıklanmaz.
- Sesli olarak eylemin iptali/geri alınması var.
- Yaş ve bölgesel sınırlar test edildi.
21) Diyalog belirtimi çerçevesi (şablon)
Senaryonun amacı: (Örneğin, "90 saniye ≤ para yatırma")
Niyetler ve eş anlamlılar: örnek ifadelerin bir listesi.
Слоты: 'amount' (req, confirm), 'currency' (default = UAH), 'method' (enum).
Hangi değerlerin/eşiklerin tekrarlanacağına dair onay kuralları.
Hata seçenekleri: ASR, NLU, hizmet yok - metinler + dallar.
Multimodal çıkışlar: gösterdiğimiz kartlar/ekranlar.
Günlükleri ve gizlilik: ne ve nasıl maske, TTL depolama.
Son hile sayfası
Önce niyetler/yuvalar/onay kuralları, sonra metinler.
Kısaca konuşun, kesmelerine ve iptal etmelerine izin verin.
SSML'yi, yerel formatları ve tonu bağlama göre yapılandırın.
Gizlilik ve günlüğü kontrol altında tutun.
Amaç/Yuva/ASR metriklerini, Görev Başarısını ve gecikmeyi ölçün.
Her zaman ekrana bir alternatif ve kişiye bir yol var.