GH GambleHub

वॉयस इंटरफेस और सहायक

1) VUI क्या है और जब इसकी आवश्यकता होती है

वॉयस इंटरफेस (VUI) - भाषण के माध्यम से बातचीत करने का एक तरीका: एप्लिकेशन/ब्राउज़र, स्मार्ट स्पीकर, आईवीआर/टेलीफोनी, ऑटो और टीवी में आवाज।

के लिए उपयुक्त: हाथ से कब्जे वाले परिदृश्य (ड्राइविंग, रसोई), त्वरित आदेश ("चालू करें"..., "कॉल"...), पहुंच, जटिल मेनू के माध्यम से नेविगेशन।

इसके लिए उपयुक्त नहीं: सटीक दृश्य चयन (कैटलॉग, टेबल), स्क्रीन के बिना संरचित डेटा की लंबी प्रविष्टि।

2) संवाद मॉडल: इरादे, संस्थाएं और संदर्भ

इरादा: उपयोगकर्ता क्या चाहता है: 'क्रिएट _ पेमेंट', 'चेक _ बैलेंस'।

स्लॉट/इकाइयाँ: लक्ष्य मापदंड: राशि, मुद्रा, पता, तिथि।

संदर्भ/वार्ता-राज्य: क्या पहले से ही ज्ञात है, हम क्या स्पष्ट करते हैं, हम कहां शा

पुष्टि नियम: कि हम स्पष्ट रूप से पुष्टि करते हैं (धन, व्यक्तिगत डेटा)।

इरादे योजना का उदाहरण (छद्म-JSON):
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}

3) संवाद के पैटर्न

1. एक वाक्यांश के साथ टीम: "500 hryvnia Apple पे के लिए खाते को ऊपर करें। " पुष्टि - कार्रवाई।

2. स्पष्ट संवाद: "किसका अनुवाद करना है?" → "कितना?" → पुष्टि।

3. चरण-दर-चरण जादूगर: डेटा सत्यापन और रिवर्स चरण के साथ जटिल परिदृश्य।

4. इरादा मान्यता + एनएलयू पैराफ्रेज़: चर योगों के लिए समर्थन।

5. त्वरित मदद: "वापसी की सीमा क्या है?" - संक्षिप्त उत्तर + "स्क्रीन पर दिखाएँ"

4) शब्द: आवाज और स्वर

ब्रांड आवाज: आत्मविश्वास, शांत, अनुकूल; महत्वपूर्ण चरणों (भुगतान, सुरक्षा) में कम और "चुटकुले" के बिना।

अधिकतम। सहायक प्रतिकृति लंबाई: 1-2 वाक्य; लंबे जवाब - तोड़ें और सुझाव दें "जारी रखें?"

प्रश्न - विशिष्ट: "कितना भरना है?" "हम आगे क्या करते हैं?"

5) पुष्टि, सुरक्षा और नैतिकता

संवेदनशील कार्यों की कठिन पुष्टि: प्रमुख मापदंडों का उच्चारण करें ("कार्ड के साथ 500 hryvnia द्वारा फिर से भरना... 4581? »)

अपरिवर्तनीय कार्यों के लिए दोहरी पुष्टि।

पूर्ण व्यक्तिगत डेटा को आवाज़ दिए बिना।

पूर्ववत/पूर्ववत विकल्प: पूर्ववत, स्टॉप, अंतिम चरण।

6) गलतियाँ और गलतफहमी

विफलता प्रकार और प्रतिक्रिया

एएसआर त्रुटि (सुना नहीं गया): "मैंने राशि नहीं सुनी। कृपया इसे दोहराएं।"

एनएलयू-समझ से बाहर: "मुझे अनुरोध समझ में नहीं आया। मैं अपना खाता ऊपर कर सकता हूं या अपना संतुलन दिखा सकता हूं। आप क्या चुनेंगे?"

गुम डेटा/सीमा: "यह विधि आपके क्षेत्र में उपलब्ध नहीं है। अन्य विकल्प क्या हैं?"

नेटवर्क/सेवा: "अब भुगतान सेवा के साथ कोई संबंध नहीं है। क्या आप एक मिनट में फिर से कोशिश करना चाहते हैं?

नियम: क्वेरी करने के लिए अधिकतम 2 प्रयास - एक वैकल्पिक (स्क्रीन/व्यक्ति)

7) गति और बजरा-इन (बाधित)

TTFB विलंबता: लक्ष्य <300-500 ms; यदि लंबा - एक छोटा "एम-मिमी" सिग्नल/इयरकॉन।

बजरा-इन: उपयोगकर्ता किसी भी समय सहायक को बाधित कर सकता है; बाधित को सही ढंग से संभालें।

जवाब स्ट्रीमिंग: हम पूरे पाठ की तुलना में पहले बात करना शुरू करते हैं, लेकिन लाइन को तोड़ ने के बिना।

8) टीटीएस/एएसआर और एसएसएमएल: कैसे कहें "मानव"

संख्याओं/मुद्राओं/तिथियों का उच्चारण: स्थानीय प्रारूप ("पी 'यात्सोट ह्रीवनिया", "15 पत्ती गिरता है")।

ठहराव और तनाव: SSML '<ब्रेक टाइम = "300ms "/>, '<जोर स्तर = "मध्यम">'।

संक्षिप्ताक्षर/कोड पढ़ ना: ' IBAN '।

गति और समय: 0 से अधिक तेज नहीं। 9 × सुपाठ्य होने के लिए मूल।

SSML उदाहरण:
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>

9) मल्टीमॉडलिटी: वॉयस + स्क्रीन

दृश्य संकेत: पुष्टि कार्ड, विधियों की सूची, प्रगति।

स्क्रीन पर हैंड-ऑफ: "मैंने स्क्रीन पर विकल्प भेजे। कृपया कोई विधि चुनें"

राज्य तुल्यकालन: आवाज आरंभ करता है, स्क्रीन समाप्त होता है (और इसके विपरीत)।

10) बहुभाषावाद और स्थानीयकरण

सत्र/ट्यूनिंग द्वारा भाषा का पता लगाएं, एकल वाक्यांश से नहीं।

शब्दों की शब्दावली: आरयू/यूए/टीआर/ईएन के लिए सामान्य शब्दावली।

संख्याओं/मुद्राओं/तिथियों के क्षेत्रीय प्रारूप, नामों/शीर्षकों का उच्चारण।

संवाद में स्विच करना: "Go ukraїnsku" एक स्पष्ट कमांड है।

11) आवाज में उपलब्धता (A11y)

कार्रवाई की पुष्टि स्पष्ट और संक्षिप्त है।

मांग पर दोहराएं: "दोहराएं" अंतिम पंक्ति की आवाज़ें।

वॉल्यूम/गति: "धीमी/शांत/लाउडर बोलें।"

श्रवण बिगड़ा हुआ के लिए: स्क्रीन पर उपशीर्षक/प्रतिलेख, कंपन संकेत।

भाषण विकारों के लिए: वैकल्पिक इनपुट विधियाँ (बटन, प्रीसेट)।

12) गोपनीयता, लॉगिंग और अनुपालन

वेक-वर्ड और रिकॉर्डिंग संकेतक: स्पष्ट "सुनने" की स्थिति।

स्थानीय प्रसंस्करण, यदि संभव अन्यथा, डेटा न्यूनतम।

लॉग (PAN, IBAN, पता) और ऑटो-एडिटिंग ऑडियो में संवेदनशील टुकड़े मास्किंग।

अवधारण अवधि और अनुरोध पर हटाने का अधिकार; इतिहास सेटिंग सहेजें नहीं।

आयु प्रतिबंध/माता-पिता नियंत्रण (बच्चों की आवाज ़/टीम)।

पारदर्शिता: "मैं मान्यता में सुधार के लिए इस आदेश को रिकॉर्ड कर रहा हूं। सेटिंग में अक्षम किया जा सकता है"

13) सहायक व्यक्तित्व

नाम/व्यक्ति: एक लघु जीवनी, क्षमता का क्षेत्र जो/नहीं कर सकता।

स्थितियों के लिए टोन: सामान्य (दोस्ताना), महत्वपूर्ण (तटस्थ), शैक्षिक (सहायक)।

सीमाएँ: "मैं वित्तीय सलाह नहीं देता, लेकिन मैं मदद दिखा सकता हूं।"

14) वीयूआई क्वालिटी मेट्रिक्स

इरादा मान्यता दर।

स्लॉट भरने की दर и avg। भरने के लिए बदल जाता है।

ASR WER/CER (वर्ड/कैरेक्टर रिकॉग्निशन त्रुटि)।

कार्य सफलता/पूर्णता दर и समय-से-पूर्ण।

वृद्धि दर (प्रति ऑपरेटर/स्क्रीन)।

Barge-in उपयोग и Latency p95।

स्क्रिप्ट के बाद उपयोक्ता संतुष्टि/सीसैट।

कदम पर परित्याग।

15) वॉयस टेस्टिंग और क्यूए

टेस्ट वाक्यांश सेट: पर्यायवाची शब्द, बोलचाल के रूप, लहजे, त्रुटियां।

पर्यावरण शोर: सड़ क/कार/रसोई, विभिन्न माइक्रोफोन।

रीप्ले संवाद: बजाने योग्य स्क्रिप्ट, प्रतिगमन के लिए सुनहरा सेट।

शुरुआती चरणों में जादूगर-ऑफ-ओज।

कानूनी परिदृश्य: कैसे एक सहायक संभावित खतरनाक अनुरोधों का जवाब देता है।

16) उत्पाद एकीकरण (आईगेमिंग मामले)

शेष/जमा/निकासी: "संतुलन क्या है? ", "200 यूएएच पर फिर से भरना"..., "आउटपुट स्थिति।"

बोनस/मिशन: "क्या बोनस उपलब्ध हैं? ", "साप्ताहिक कैशबैक सक्रिय करें।"

जिम्मेदार नाटक: "प्रति सप्ताह 1000 यूएएच की जमा सीमा निर्धारित करें।"

सिस्टम की स्थिति: "क्या अब कोई तकनीकी काम है?"

17) एंटी-पैटर्न

बाधित करने के अवसर के बिना सहायक का लंबा एकालाप।

मौद्रिक लेनदेन की निहित पुष्टि।

निर्विवाद विकल्पों के बिना "समझ में नहीं आया"।

ओवरस्पीड ध्वनियाँ/जिंगल्स धारणा के साथ हस्तक्षेप करते हैं।

"आवाज" समस्याओं को हल करने का एक प्रयास जहां एक विस्तृत दृश्य विकल्प की आवश्यकता है।

18) प्रोम्ट और उत्तर टेम्पलेट

स्लॉट शोधन (योग):
  • सहायक: "खाते को फिर से भरने के लिए कितना?"
  • उपयोगकर्ता: "पाँच सौ।"
  • सहायक: "500 hryvnia द्वारा फिर से भरना? कृपया पुष्टि करें"
संवेदनशील कार्रवाई की पुष्टि:
  • "500 hryvnia कार्ड द्वारा पुनर्पूर्ति की पुष्टि करें... 4581. "पुष्टि करें" या "रद्द करें" कहें।
गलतफहमी + गाइड टिप:
  • 'मैंने भुगतान विधि नहीं सुनी। मैं पेशकश कर सकता हूं: Apple पे, कार्ड, क्रिप्टो वॉलेट। आप क्या चुनेंगे?"
स्क्रीन पर वृद्धि:
  • "स्क्रीन पर उपलब्ध तरीके भेजे। जारी रखने के लिए "किया" चुनें और कहें

19) एसएसएमएल पैटर्न के उदाहरण

संख्या/मुद्रा और ठहराव:
xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
महत्वपूर्ण शब्द पर जोर:
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
संक्षिप्त नाम का उच्चारण:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>

20) चेकलिस्ट

प्री-रिलीज़डायलॉग/कंटेंट

  • प्रत्येक इरादे के लिए - पर्यायवाची शब्दों/वाक्यांशों की एक सूची।
  • प्रति आवश्यक स्लॉट एक स्पष्ट प्रश्न।
  • संवेदनशील कार्रवाई - स्पष्ट पुष्टि के साथ।
  • एक छोटा ऑन-स्क्रीन/ऑपरेटर विकल्प है।
  • प्रतिकृतियाँ ≤ 2 सुझाव; लंबे समय तक - "जारी रखें? ».

तकनीक और गुणवत्ता

  • बजरा-इन का समर्थन किया जाता है और बाधित होने के बाद संवाद में लौटता है।
  • p95 विलंबता सामान्य है; देरी पर कान के टुकड़े हैं।
  • एसएसएमएल कॉन्फ़िगर किया गया: ठहराव, संख्या, तनाव।
  • लॉग्स अवैयक्तिक/नकाबपोश; इतिहास प्रबंधन है।
  • बहुभाषावाद और स्थानीय प्रारूपों का परीक्षण किया।

A11y और सुरक्षा

  • "दोहराएं/बोलें धीमा/लाउडर" काम करता है।
  • पूर्ण व्यक्तिगत/भुगतान डेटा की घोषणा नहीं की
  • आवाज द्वारा कार्रवाई का एक रद्द/रोलबैक है।
  • आयु और क्षेत्रीय सीमाओं का परीक्षण

21) संवाद विनिर्देश ढांचा (टेम्पलेट)

परिदृश्य का उद्देश्य: (उदाहरण के लिए, "जमा ≤ 90 सेकंड")

इरादे और पर्यायवाची शब्द: उदाहरण वाक्यांशों की एक सूची।

Слоты: 'राशि' (req, पुष्टि), 'मुद्रा' (डिफ़ॉल्ट = UAH), 'विधि' (enum)।

पुष्टिकरण नियम जिसके लिए मान/थ्रेसहोल्ड को दोहराना होता है।

त्रुटि विकल्प: एएसआर, एनएलयू, कोई सेवा - पाठ + शाखाएँ नहीं।

मल्टीमॉडल आउटपुट: कौन से कार्ड/स्क्रीन हम दिखाते हैं।

लॉग और गोपनीयता: हम क्या और कैसे मुखौटा, टीटीएल भंडारण।

फाइनल धोखा शीट

पहले इरादे/स्लॉट/पुष्टि नियम, फिर ग्रंथ।

संक्षेप में बोलें, उन्हें बाधित और रद्द करने दें।

SSML, स्थानीय प्रारूपों और संदर्भ द्वारा टोन कॉन्फ़िगर करें।

गोपनीयता और लॉगिंग को नियंत्रण में रखें।

माप इरादा/स्लॉट/एएसआर मैट्रिक्स, टास्क सक्सेस और विलंबता।

हमेशा स्क्रीन का विकल्प और व्यक्ति के लिए एक रास्ता होता है।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।