음성 인터페이스 및 어시스턴트
1) VUI가 무엇이며 필요할 때
음성 인터페이스 (VUI) -음성을 통해 상호 작용하는 방법: 응용 프로그램/브라우저의 보조, 스마트 스피커, IVR/전화, 자동 및 TV의 음성.
휴대용 시나리오 (운전, 주방), 빠른 명령 ("켜기"..., "전화"...), 접근성, 복잡한 메뉴를 통한 탐색.
정확한 시각적 선택 (카탈로그, 테이블), 화면이없는 구조화 된 데이터의 긴 항목.
2) 대화 모델: 의도, 실체 및 상황
의도: 사용자가 원하는 것: 'Create _ payment', 'Q _ balance'.
슬롯/엔터티: 목표 매개 변수: 금액, 통화, 수신자, 날짜.
상황/대화 상태: 이미 알려진 것, 명확한 것, 지점 위치.
확인 규칙: 명시 적으로 확인합니다 (돈, 개인 데이터).
json
{
"intent": "MakeDeposit",
"slots": {
"amount": {"type": "number", "required": true, "confirm": "sensitive"},
"currency": {"type": "currency", "required": true, "default": "UAH"},
"method": {"type": "payment_method", "required": false}
}
}
3) 대화의 패턴
1. 한 문구를 가진 팀: "500 hryvnia Apple Pay의 계정을 채우십시오. "→ 확인 → 행동.
2. 설명하는 대화: "누가 번역 할 것인가?" → "얼마예요?" → 확인.
3. 단계별 마법사: 데이터 검증 및 역 단계가있는 복잡한 시나리오.
4. 의도 인식 + NLU 문구: 가변 공식에 대한 지원.
5. 빠른 도움: "철회 한계는 무엇입니까?" -짧은 답변 + "화면에 표시".
4) 단어: 음성 및 톤
브랜드 음성: 자신감 있고 차분하며 친근한; 중요한 단계 (지불, 보안) 에서 작고 "농담" 없이.
최대. 보조 복제 길이: 1-2 문장; 긴 대답-휴식을 취하고 "계속?"
질문-구체적으로: "보충해야 할 금액?" "우리는 다음에 무엇을해야합니까?"
5) 확인, 안전 및 윤리
민감한 행동에 대한 엄격한 확인: 키 매개 변수를 발음하십시오 ("카드로 500 그리브 니아로 보충... 4581? »)
돌이킬 수없는 작업에 대한 이중 확인.
전체 개인 데이터를 표시하지 않고.
실행 취소/실행 취소 옵션: 실행 취소, 중지, 실행 취소 마지막 단계.
6) 실수와 오해
실패 유형 및 응답:- ASR 오류 (들리지 않음): "금액이 들리지 않았습니다. 반복하십시오. "
- NLU 이해할 수 없음: "요청을 이해하지 못했습니다. 계정을 보충하거나 잔액을 보여줄 수 있습니다. 무엇을 선택하겠습니까? "
- 누락 된 데이터/제한: "이 방법은 해당 지역에서 사용할 수 없습니다. 다른 옵션은 무엇입니까? "
- 네트워크/서비스: "이제 결제 서비스와 관련이 없습니다. 잠시 후에 다시 시도하고 싶습니까?
규칙: 최대 2 번의 쿼리 시도 → 대안을 제공합니다 (화면/사람).
7) 속도 및 바지선 (중지)
TTFB 대기 시간: 표적 <300-500 ms; 더 길면-짧은 "em-mm" 신호/earcon.
바지선: 사용자는 언제든지 어시스턴트를 중단 할 수 있습니다. 인터럽트를 올바르게 처리합
답변 스트리밍: 전체 텍스트가 준비된 것보다 일찍 대화를 시작하지만 줄을 깨지 않습니다.
8) TTS/ASR 및 SSML: "인간" 이라고 말하는 방법
숫자/통화/날짜의 발음: 로컬 형식 ("p 'yatsot hryvnia", "15 잎 낙하").
일시 중지 및 스트레스: SSML '<브레이크 타임 = "300ms "/>', '<강조 수준 =" 보통 ">'.
약어/코드 읽기: '<say-as 해석-as = "문자"> IBAN </say-as>'.
속도와 음색: 0보다 빠릅니다. 읽을 수있는 9 × 기본.
xml
<speak>
Top up on <say-as interpret-as = "cardinal"> 500 </say-as>
<sub alias = "hryvnia"> UAH </sub>?
<break time="300ms"/>
Please confirm.
</speak>
9) 다중 양식: 음성 + 화면
시각적 신호: 확인 카드, 방법 목록, 진행 상황.
화면으로 핸드 오프: "화면에 옵션을 보냈습니다. 방법을 선택하십시오 "
상태 동기화: 음성 시작, 화면 종료 (및 그 반대).
10) 다국어와 현지화
단일 문구가 아닌 세션/튜닝별로 언어를 자동 감지합니다.
용어집: RU/UA/TR/EN에 대한 일반적인 용어.
숫자/통화/날짜의 지역 형식, 이름/지명 발음.
대화상자에서 전환하기: "우크라 엔 스쿠로 이동" 은 명시 적 명령입니다.
11) 음성 가용성 (A11y)
행동 확인은 명확하고 짧습니다.
주문형 반복: "반복" 은 최종 라인의 목소리를냅니다.
볼륨/속도: "느리게 말하기/조용히/더 크게".
청각 장애의 경우: 화면의 자막/대화, 진동 신호.
음성 장애의 경우: 대체 입력 방법 (버튼, 사전 설정).
12) 기밀 유지, 로깅 및 규정 준수
웨이크 워드 및 녹음 표시기: 명시 적 "청취" 상태.
가능한 경우 로컬 처리; 그렇지 않으면 데이터 최소화.
로그 (PAN, IBAN, 주소) 및 자동 편집 오디오의 마스킹 민감한 조각.
보존 기간 및 요청시 제거 할 권리; 기록 설정을 저장하지 마십시오.
연령 제한/자녀 보호 (어린이의 목소리/팀).
투명성: "인식을 향상시키기 위해이 명령을 기록하고 있습니 설정에서 비활성화 할 수 있습니다 "
13) 보조 페르소나
이름/사람: 짧은 전기, 할 수없는 역량 영역.
상황에 대한 톤: 정상 (친절한), 비판적 (중립적), 교육적 (지지적).
경계: "재정적 인 조언은하지 않지만 도움을 줄 수 있습니다".
14) VUI 품질 지표
의도적 인 인식률.
슬롯 채우기 비율) avg. 채우기 시작합니다.
ASR WER/CER (단어/문자 인식 오류).
작업 성공/완료율 (시간 대 완료)
에스컬레이션 속도 (운영자/화면 당).
바지선 사용법 (Latency p95).
스크립트 후 사용자 만족/CSAT.
단계적으로 포기.
15) 음성 테스트 및 QA
테스트 문구 세트: 동의어, 구어체 양식, 악센트, 오류.
환경 소음: 거리/자동차/주방, 다른 마이크.
재생 가능한 스크립트, 회귀 용 골든 세트.
초기 단계에서 오즈의 마법사.
법적 시나리오: 조수가 잠재적으로 위험한 요청에 응답하는 방
16) 제품 통합 (iGaming 케이스)
잔액/예금/인출: "잔액은 무엇입니까?", "200 UAH에서 보복"..., "출력 상태".
보너스/미션: "어떤 보너스를 사용할 수 있습니까?", "매주 캐쉬백 활성화".
책임있는 플레이: "주당 1000 UAH의 예금 한도를 설정하십시오".
시스템 상태: "현재 기술 작업이 있습니까?"
17) 반 패턴
방해 할 기회없이 조수의 긴 독백.
통화 거래의 암시 적 확인.
옵션을 요구하지 않고 논쟁의 여지가없는 "이해하지 못했
지각을 방해하는 과잉 공급 된 소리/징글.
"음성" 시도는 세부적인 시각적 선택이 필요한 문제를 해결합니다.
18) 프롬프트 및 응답 템플릿
슬롯 개선 (합산):- 조교: "계정을 얼마나 보충해야합니까?"
- 사용자: "오백".
- 조교: "500 그리브 니아에 의해 보충? 확인하십시오 "
- "500 그리브 니아 카드로 보충 확인... 4581. "확인" 또는 "취소" 라고 말하십시오
- '결제 방법을 듣지 못했습니다. Apple Pay, 카드, 암호화 지갑을 제공 할 수 있습니다. 무엇을 선택하겠습니까? "
- "화면에 사용 가능한 방법을 보냈습니다. 계속하려면 "완료" 를 선택하고 말하십시오 "
19) SSML 패턴의 예
숫자/통화 및 일시 정지:xml
<speak>
Your current balance is
<say-as interpret-as="cardinal">1250</say-as>
<sub alias = "hryvnia"> UAH </sub>.
<break time="250ms"/>
Shall we continue?
</speak>
중요한 단어에 중점을 둡니다
xml
<speak>
<emphasis level = "moderate "> Caution </emphasis>: Verification is required for output.
</speak>
약어의 발음:
xml
<speak>
Recharge with <say-as interpret-as = "characters"> IBAN </say-as>?
</speak>
20) 점검표
사전 릴리스 대화/내용
- 각 의도에 대해-동의어/구문 변형 목록.
- 필요한 슬롯 당 하나의 명확한 질문.
- 민감한 행동-명시 적 확인.
- 짧은 화면/운영자 대안이 있습니다.
- 복제본은 2 개의 제안을 제안합니다. 긴 - "계속? ».
기술과 품질
- 바지선이 지원되고 중단 된 후 대화로 돌아갑니다.
- p95 대기 시간은 정상입니다. 지연에 이어콘이 있습니다.
- SSML 구성: 일시 정지, 숫자, 응력.
- 로그 비인간/가면; 역사 관리입니다.
- 다국어 및 로컬 형식이 테스트되었습니다.
A11y 및 안전
- "반복/느린 말하기/큰 소리" 가 작동합니다.
- 완전한 개인/지불 데이터는 발표되지 않았습니다.
- 음성으로 동작을 취소/롤백합니다.
- 연령 및 지역 한계 테스트.
21) 대화 상자 사양 프레임 워크 (템플릿)
시나리오의 목적:- 강의와 동의어: 예제 문구 목록.
- 확인: '마운트' (req, 확인), '통화' (기본 = UAH), '메소드' (enum).
- 값/임계 값이 반복되는 확인 규칙.
- 오류 옵션: ASR, NLU, 서비스 없음-텍스트 + 브랜치.
- 복합 모달 출력: 우리가 보여주는 카드/화면.
- 로그 및 개인 정보 보호: TTL 스토리지 마스킹 방법.
최종 치트 시트
첫 번째 의도/슬롯/확인 규칙, 텍스트.
잠깐 말하고 방해하고 취소하십시오.
컨텍스트별로 SSML, 로컬 형식 및 톤을 설정합니다.
개인 정보 보호 및 로깅을 제어하십시오
측정 의도/슬롯/ASR 지표, 작업 성공 및 대기 시간.
항상 화면에 대한 대안과 사람에게 경로가 있습니다.