ai-device/intelligent_cabin/archive/patents/texts/CN115394300A.txt

(19)国家知识产权局

(12)发明专利申请
(10)申请公布号 CN 115394300 A
(43)申请公布日 2022.11.25
(21)申请号 202211332377 .8
(22)申请日 2022 .10 .28
(71)申请人 广州小鹏汽车科技有限公司
地址 510000 广东省广州市天河区岑村松
岗大街8号
(72)发明人 唐祥光
鲍鹏丽

胡梓垣 孙仿逊
王合心

左佑

(74)专利代理机构 北京清亦华知识产权代理事
务所(普通合伙) 11201
专利代理师 雷玉龙
(51)Int .Cl .
G10L 15/26 (2006 .01)
G06F 40/30 (2020 .01)

G10L 15/34 (2013 .01)
B60R 16/037 (2006 .01)
权利要求书2页

CN 115394300 A

(54)发明名称
语音交互方法、语音交互装置、车辆和可读
存储介质
(57)摘要
本发明公开了一种语音交互方法、
语音交互
装置、车辆和可读存储介质，
属于车载语音交互
技术领域。所述语音交互方法，
包括：
获取本地端
确定的至少一路第一对话结果；
对第一对话结果
进行分级处理，
确定各第一对话结果对应的融合
等级；
在未接收到云端发送的第二对话结果，
且
将第一对话结果对应的融合等级确定为最高级
的情况下，
将最高级对应的第一对话结果确定为
目标对话结果；
在接收到云端发送的第二对话结
果的情况下，
将第二对话结果确定为目标对话结
果；
按目标对话结果执行语音交互。本发明的语
音交互方法，
能在保证识别准确性的同时，
提高
语音交互系统的响应速度及灵敏性，
在保证准确
性的同时体验更快，
实现极速对话。

说明书16页

附图4页

CN 115394300 A

权

利

要

求

书

1/2 页

1 .一种语音交互方法，
其特征在于，
包括：
获取本地端确定的至少一路第一对话结果；
所述本地端包括至少一个支路，
各所述支
路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话结果，
各所述支路的计算
时延不同；
对所述第一对话结果进行分级处理，
确定各所述第一对话结果对应的融合等级；
在未接收到云端发送的第二对话结果，
且将所述第一对话结果对应的融合等级确定为
最高级的情况下，
将所述最高级对应的第一对话结果确定为目标对话结果；
在接收到云端发送的第二对话结果的情况下，
将所述第二对话结果确定为目标对话结
果；
按所述目标对话结果执行语音交互；
其中，
所述第二对话结果为所述云端基于所述用户语音请求确定的。
2 .根据权利要求1所述的语音交互方法，
其特征在于，
在所述用户语音请求包括多个连
续的子语音请求的情况下，
所述对所述第一对话结果进行分级处理，
确定各所述第一对话
结果对应的融合等级，
包括：
在第一目标子对话结果为所述云端识别的结果的情况下，
确定第二目标子对话结果对
应的融合等级为第二级；
在第一目标子对话结果为所述本地端识别的结果的情况下，
确定第二目标子对话结果
对应的融合等级为所述最高级；
其中，
所述第一目标子对话结果为第一目标子语音请求对应的目标对话结果，
所述第
二目标子对话结果为第二目标子语音请求对应的第一对话结果，
所述第一目标子语音请求
为所述多个连续的子语音请求中，
位于所述第二目标子语音请求之前，
且与所述第二目标
子语音请求相邻的子语音请求。
3 .根据权利要求1所述的语音交互方法，
其特征在于，
所述对所述第一对话结果进行分
级处理，
确定各所述第一对话结果对应的融合等级，
包括：
对所述第一对话结果进行基于文本识别结果和所述第一对话结果中的至少一种结果
的分级处理，
确定所述第一对话结果对应的融合等级；
其中，
所述文本识别结果为对所述用户语音请求进行文本识别确定的 ，
所述第一对话
结果为对所述文本识别结果进行语义理解确定的。
4 .根据权利要求3所述的语音交互方法，
其特征在于，
所述对所述第一对话结果进行基
于文本识别结果和所述第一对话结果中的至少一种结果的分级处理，
确定所述第一对话结
果对应的融合等级，
包括：
获取所述文本识别结果中的文本识别置信度和文本识别清晰度，
获取所述第一对话结
果中的领域、
所述领域对应的第一置信度、
意图和所述意图对应的第二置信度；
基于所述文本识别置信度、文本识别清晰度、所述领域、所述第一置信度、所述意图和
所述第二置信度中的至少两种，
确定所述第一对话结果对应的融合等级。
5 .根据权利要求1‑4任一项所述的语音交互方法，
其特征在于，
在所述获取本地端确定
的至少一路第一对话结果之后，
且在所述对所述第一对话结果进行分级处理，
确定各所述
第一对话结果对应的融合等级之前，
所述方法还包括：
基于所述第一对话结果，
确定所述第一对话结果对应的频率等级和所述第一对话结果
2

CN 115394300 A

权

利

要

求

书

2/2 页

对应的可信度；
在所述可信度大于目标阈值，
且所述频率等级为最高频的情况下，
确定所述第一对话
结果对应的融合等级为所述最高级。
6 .根据权利要求5所述的语音交互方法，
其特征在于，
所述基于所述第一对话结果，
确
定所述第一对话结果对应的频率等级和所述第一对话结果对应的可信度，
包括：
获取文本识别结果中的文本识别清晰度，
获取所述第一对话结果中的领域对应的第一
置信度、
意图对应的第二置信度和所述用户语音请求；
其中，
所述文本识别结果为对所述用
户语音请求进行文本识别确定的；
采用前缀树匹配所述用户语音请求，
确定所述频率等级；
基于所述文本识别清晰度、
所述第一置信度和所述第二置信度，
确定所述可信度。
7 .根据权利要求1‑4任一项所述的语音交互方法，
其特征在于，
在所述按所述目标对话
结果执行语音交互之后，
所述方法还包括：
基于所述目标对话结果，
更新所述用户语音请求对应的初始上下文信息，
所述初始上
下文信息为所述本地端或所述云端基于所述用户语音请求确定。
8 .根据权利要求1‑4任一项所述的语音交互方法，
其特征在于，
在所述用户语音请求包
括多个连续的子语音请求的情况下，
所述方法还包括：
接收目标设备发送的打断信号，
所述打断信号包括被打断的任务ID；
响应于所述打断信号，
清空所述任务ID对应的任务栈及所述任务ID对应的上下文信
息。
9 .一种语音交互装置，
其特征在于，
包括：
第一获取模块，用于获取本地端确定的至少一路第一对话结果；
所述本地端包括至少
一个支路，
各所述支路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话结
果，
各所述支路的计算时延不同；
第一处理模块，用于对所述第一对话结果进行分级处理，
确定各所述第一对话结果对
应的融合等级；
第二处理模块，用于在未接收到云端发送的第二对话结果，
且将所述第一对话结果对
应的融合等级确定为最高级的情况下，
将所述最高级对应的第一对话结果确定为目标对话
结果；
第三处理模块，用于在接收到云端发送的第二对话结果的情况下，
将所述第二对话结
果确定为目标对话结果；
第四处理模块，
用于按所述目标对话结果执行语音交互；
其中，
所述第二对话结果为所述云端基于所述用户语音请求确定的。
10 .一种车辆，
包括存储器、
处理器及存储在存储器上并可在处理器上运行的计算机程
序，
其特征在于，
所述处理器执行所述程序时实现如权利要求1‑8任一项所述的语音交互方
法。
11 .一种非暂态计算机可读存储介质，
其上存储有计算机程序，
其特征在于，
该计算机
程序被处理器执行时实现如权利要求1‑8任一项所述的语音交互方法。

3

CN 115394300 A

说

明

书

1/16 页

语音交互方法、语音交互装置、车辆和可读存储介质
技术领域
[0001] 本发明属于车载语音交互技术领域，
尤其涉及一种语音交互方法、
语音交互装置、
车辆和可读存储介质。
背景技术
[0002] 随着车载语音系统的广泛应用，
用户越来越注重车载语音系统的识别精确度以及
响应速度。相关技术中，
往往通过将自然语言解析服务放置于云端以提高语音识别的精确
度，
但耗时较高，
导致响应速度较慢，
从而影响用户的使用体验。
发明内容
[0003] 本发明旨在至少解决现有技术中存在的技术问题之一。
为此，
本发明提出一种语
音交互方法、语音交互装置、
车辆和可读存储介质，
在保证识别准确性的同时，
提高语音交
互系统的响应速度以及灵敏性。
[0004] 第一方面，
本发明提供了一种语音交互方法，
该方法包括：
所述本地端包括至少一个支路，
各所
获取本地端确定的至少一路第一对话结果；
述支路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话结果，
各所述支路的
计算时延不同；
对所述第一对话结果进行分级处理，
确定各所述第一对话结果对应的融合等级；
在未接收到云端发送的第二对话结果，
且将所述第一对话结果对应的融合等级确
定为最高级的情况下，
将所述最高级对应的第一对话结果确定为目标对话结果；
在接收到云端发送的第二对话结果的情况下，
将所述第二对话结果确定为目标对
话结果；
按所述目标对话结果执行语音交互；
其中，
所述第二对话结果为所述云端基于所述用户语音请求确定的。
[0005] 根据本发明的语音交互方法，
通过对本地端多支路发送的第一对话结果进行分级
处理以得到对应的融合等级，
并基于融合等级以及是否接收到云端发送的第二对话结果来
确定最终用于执行语音交互的目标对话结果，
有助于在保证识别准确性的同时，
提高语音
交互系统的响应速度以及灵敏性，
在保证准确性的同时体验更快，
实现极速对话，
从而提高
用户的使用体验。
[0006] 根据本发明的语音交互方法，
在所述用户语音请求包括多个连续的子语音请求的
情况下，
所述对所述第一对话结果进行分级处理，
确定各所述第一对话结果对应的融合等
级，
包括：
在第一目标子对话结果为所述云端识别的结果的情况下，
确定第二目标子对话结
果对应的融合等级为第二级；
确定第二目标子对话
在第一目标子对话结果为所述本地端识别的结果的情况下，
结果对应的融合等级为所述最高级；
4

CN 115394300 A

说

明

书

2/16 页

其中，
所述第一目标子对话结果为第一目标子语音请求对应的目标对话结果，
所
述第二目标子对话结果为第二目标子语音请求对应的第一对话结果，
所述第一目标子语音
且与所述第二
请求为所述多个连续的子语音请求中，
位于所述第二目标子语音请求之前，
目标子语音请求相邻的子语音请求。
[0007] 根据本发明的语音交互方法，
所述对所述第一对话结果进行分级处理，
确定各所
述第一对话结果对应的融合等级，
包括：
对所述第一对话结果进行基于文本识别结果和所述第一对话结果中的至少一种
结果的分级处理，
确定所述第一对话结果对应的融合等级；
其中，
所述文本识别结果为对所述用户语音请求进行文本识别确定的，
所述第一
对话结果为对所述文本识别结果进行语义理解确定的。
[0008] 根据本发明的语音交互方法，
所述对所述第一对话结果进行基于文本识别结果和
所述第一对话结果中的至少一种结果的分级处理，确定所述第一对话结果对应的融合等
级，
包括：
获取所述文本识别结果中的文本识别置信度和文本识别清晰度，
获取所述第一对
话结果中的领域、
所述领域对应的第一置信度、
意图和所述意图对应的第二置信度；
基于所述文本识别置信度、文本识别清晰度、所述领域、所述第一置信度、所述意
图和所述第二置信度中的至少两种，
确定所述第一对话结果对应的融合等级。
[0009] 根据本发明的语音交互方法，
在所述获取本地端确定的至少一路第一对话结果之
后，
且在所述对所述第一对话结果进行分级处理，
确定各所述第一对话结果对应的融合等
级之前，
所述方法还包括：
基于所述第一对话结果，
确定所述第一对话结果对应的频率等级和所述第一对话
结果对应的可信度；
在所述可信度大于目标阈值，
且所述频率等级为最高频的情况下，
确定所述第一
对话结果对应的融合等级为所述最高级。
[0010] 根据本发明的语音交互方法，
所述基于所述第一对话结果，
确定所述第一对话结
果对应的频率等级和所述第一对话结果对应的可信度，
包括：
获取文本识别结果中的文本识别清晰度，
获取所述第一对话结果中的领域对应的
第一置信度、
意图对应的第二置信度和所述用户语音请求；
其中，
所述文本识别结果为对所
述用户语音请求进行文本识别确定的；
采用前缀树匹配所述用户语音请求，
确定所述频率等级；
基于所述文本识别清晰度、
所述第一置信度和所述第二置信度，
确定所述可信度。
[0011] 根据本发明的语音交互方法，
在所述按所述目标对话结果执行语音交互之后，
所
述方法还包括：
基于所述目标对话结果，
更新所述用户语音请求对应的初始上下文信息，
所述初
始上下文信息为所述本地端或所述云端基于所述用户语音请求确定。
[0012] 根据本发明的语音交互方法，
在所述用户语音请求包括多个连续的子语音请求的
情况下，
所述方法还包括：
接收目标设备发送的打断信号，
所述打断信号包括被打断的任务ID；
响应于所述打断信号，
清空所述任务ID对应的任务栈及所述任务ID对应的上下文
5

CN 115394300 A

说

明

书

3/16 页

信息。
[0013]

第二方面，
本发明提供了一种语音交互装置，
该装置包括：
所述本地端包括
第一获取模块，用于获取本地端确定的至少一路第一对话结果；
至少一个支路，
各所述支路基于车辆座舱的用户语音请求确定与所述支路对应的第一对话
结果，
各所述支路的计算时延不同；
第一处理模块，用于对所述第一对话结果进行分级处理，
确定各所述第一对话结
果对应的融合等级；
第二处理模块，用于在未接收到云端发送的第二对话结果，
且将所述第一对话结
果对应的融合等级确定为最高级的情况下，
将所述最高级对应的第一对话结果确定为目标
对话结果；
第三处理模块，用于在接收到云端发送的第二对话结果的情况下，
将所述第二对
话结果确定为目标对话结果；
第四处理模块，
用于按所述目标对话结果执行语音交互；
其中，
所述第二对话结果为所述云端基于所述用户语音请求确定的。
[0014] 根据本发明的语音交互装置，
通过对本地端多支路发送的第一对话结果进行分级
处理以得到对应的融合等级，
并基于融合等级以及是否接收到云端发送的第二对话结果来
提高语音
确定最终用于执行语音交互的目标对话结果，
有助于在保证识别准确性的同时，
交互系统的响应速度以及灵敏性，
在保证准确性的同时体验更快，
实现极速对话，
从而提高
用户的使用体验。
[0015] 第三方面，
本发明提供了一种车辆，
包括存储器、
处理器及存储在所述存储器上并
可在所述处理器上运行的计算机程序，
所述处理器执行所述计算机程序时实现如上述第一
方面所述的语音交互方法。
[0016] 第四方面，
本发明提供了一种非暂态计算机可读存储介质，
其上存储有计算机程
序，
所述计算机程序被处理器执行时实现如上述第一方面所述的语音交互方法。
[0017] 第五方面，
本发明提供了一种芯片，
所述芯片包括处理器和通信接口，
所述通信接
口和所述处理器耦合，
所述处理器用于运行程序或指令，
实现如第一方面所述的语音交互
方法。
[0018] 第六方面，
本发明提供了一种计算机程序产品，
包括计算机程序，
所述计算机程序
被处理器执行时实现如上述第一方面所述的语音交互方法。
[0019] 本发明的上述一个或多个技术方案，
至少具有如下技术效果之一：
通过对本地端多支路发送的第一对话结果进行分级处理以得到对应的融合等级，
并基于融合等级以及是否接收到云端发送的第二对话结果来确定最终用于执行语音交互
的目标对话结果，
有助于在保证识别准确性的同时，
提高语音交互系统的响应速度以及灵
敏性，
在保证准确性的同时体验更快，
实现极速对话，
从而提高用户的使用体验。
[0020] 进一步的，
通过在多轮对话场景下，
基于上一轮的结果对下一轮的融合等级进行
调整，
实现融合等级的动态分级，
从而能够保障不同架构不同体系的端云服务能较好地兼
容，
降低实施难度。
[0021] 更进一步的，
通过在进行分级处理之前，
对第一对话结果进行高频分级处理，
以判
断第一对话结果是否为用户的高频语音指令，
当确定第一对话结果为用户在车载环境下的
6

CN 115394300 A

说

明

书

4/16 页

高频语音指令的情况下，
则将该第一对话结果确定为目标对话结果，
在保证精确性的基础
上，
还能进一步提高响应速率。
[0022] 再进一步的，
通过对第一对话结果进行基于文本识别结果和第一对话结果中的至
少一种结果的分级处理，
确定第一对话结果对应的融合等级，
能够提高最终所确定的融合
等级的精确性以及准确性，
从而有助于提高语音交互系统的准确性。
[0023] 本发明的附加方面和优点将在下面的描述中部分给出，
部分将从下面的描述中变
得明显，
或通过本发明的实践了解到。
附图说明
[0024] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得
明显和容易理解，
其中：
图1是本发明提供的语音交互方法的流程示意图之一；
图2是本发明提供的语音交互方法的流程示意图之二；
图3是本发明提供的语音交互方法的流程示意图之三；
图4是本发明提供的语音交互方法的流程示意图之四；
图5是本发明提供的语音交互方法的流程示意图之五；
图6是本发明提供的语音交互装置的结构示意图；
图7是本发明提供的车辆的结构示意图。
具体实施方式
[0025] 下面将结合本发明实施例中的附图，
对本发明实施例中的技术方案进行清楚地描
述，
显然，
所描述的实施例是本发明一部分实施例，
而不是全部的实施例。基于本发明中的
实施例，
本领域普通技术人员获得的所有其他实施例，
都属于本发明保护的范围。
[0026] 本发明的说明书和权利要求书中的术语“第一”、
“第二”等是用于区别类似的对
象，
而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互
换，
以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，
且“第一”、
“第二”等所区分的对象通常为一类，
并不限定对象的个数，
例如第一对象可以是一个，
也可
以是多个。此外，
说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，
字符
“/”，
一般表示前后关联对象是一种“或”的关系。
[0027]
相关技术中，
语音交互有三种方式：
其一，
将车载语音系统中的大量神经网络系统部署于云端以进行语音识别，
然后
通过本地端来执行语音识别结果，
通过网络进行云端与本地端的通信；
然而该方法耗时较
长，
且响应速度较慢，
从而导致用户体验差，
极大降低了用户的语音交互欲望。
[0028] 其二，
同时部署云服务和端服务，
在本地端无法支持语音识别时再采用云服务进
行语音识别；
然而该方法极大地影响了在本地端无法支持语音识别的情况下的响应速度，
无法满足较为复杂的语音识别情境下的快速响应，
从而导致用户体验差。
[0029] 其三，
采用边缘计算进行语音识别，
然而该方法需要外接较多的设备，
导致设计成
本较高，
且边缘计算不稳定且算力具有局限性，
导致语音识别系统的大多功能无法实现，
影
响用户的使用体验。
7

CN 115394300 A

说

明

[0030]

书

5/16 页

下面结合附图 ，
通过具体的实现方式及其应用场景对本发明提供的语音交互方
法、
语音交互装置、
车辆和可读存储介质进行详细地说明。
[0031] 其中，
语音交互方法可应用于终端，
具体可由，
终端中的硬件或软件执行。
[0032] 该终端可以为车机，
终端可以为包括诸如拾音器或触控面板或其它物理用户接口
的设备。
[0033] 以下各个实现方式中，
描述了包括显示器和触摸敏感表面的终端。然而，
应当理解
的是，
终端可以包括诸如物理键盘、
鼠标和控制杆的一个或多个其它物理用户接口设备。
[0034] 本发明提供的语音交互方法，
该语音交互方法的执行主体可以为车机或者车机中
能够实现该语音交互方法的功能模块或功能实体（如端云融合管理系统）。在车载环境下，
由于网络情况复杂，
比如车辆行驶时，
由于地点切换导致网络状态动态变化，
语音交互的复
杂性以及计算时延也远高于居家环境的语音交互。
[0035] 如图1所示，
该语音交互方法包括：
步骤110、步骤120、步骤130、步骤140和步骤
150。
[0036] 步骤110、
获取本地端确定的至少一路第一对话结果；
本地端包括至少一个支路，
各支路基于车辆座舱的用户语音请求确定与支路对应的第一对话结果，
各支路的计算时延
不同；
在该步骤中，用户语音请求为车辆座舱的用户在进行语音交互情境下，
所发出的
语音信息。
[0037] 可以理解的是，
语音交互场景包括单轮对话场景和多轮对话场景。
[0038] 其中，
在单轮对话场景下，用户语音请求为一条请求；
在多轮对话场景下，用户语
音请求可以包括多条连续的子语音请求，
后一条子语音请求为基于上一条子语音请求对应
的执行结果所发出的后续请求指令。
[0039] 本地端包括至少一路支路，
各支路独立对用户语音请求进行识别。
[0040] 不同的支路设置有不同的算力，
对应有不同的计算时延，
例如，
可阶梯式逐级提升
各支路的算力。
[0041] 第一对话结果为由本地端的支路对用户语音请求进行语音识别所得到的结果。
[0042] 在实际执行过程中，
各支路应对同一用户语音请求分别进行独立识别，
以生成与
各支路对应的第一对话结果。
[0043] 第一对话结果的确定方式将在下文中进行说明，
在此暂不作赘述。
[0044] 步骤120、
对第一对话结果进行分级处理，
确定各第一对话结果对应的融合等级；
在该步骤中，
融合等级用于表征第一对话结果的优先级。
[0045]
例如，
融合等级可以包括A/B/C/D/E等多个等级，
各等级对应的优先级依次降低。
[0046] 可以理解的是，
不同支路处理得到的第一对话结果的精确度可能各不相同，
不同
的精确度对应有不同的优先级。
[0047] 在后续执行过程中，
可基于融合等级从得到的多个第一对话结果中确定一个进行
执行。
[0048] 在实际执行过程中，
可以采用预训练的神经网络模型对第一对话结果进行分级处
理，
以得到各第一对话结果对应的融合等级，
其中，
神经网络模型可以为任意可实现的模
型。
8

CN 115394300 A

说

明

[0049]

书

6/16 页

在一些实施方式中，
步骤120，
可以包括：
对第一对话结果进行基于文本识别结果和第一对话结果中的至少一种结果的分
确定第一对话结果对应的融合等级；
级处理，
其中，
文本识别结果为对用户语音请求进行文本识别确定的，
第一对话结果为对
文本识别结果进行语义理解确定的。
[0050] 在该实施方式中，
文本识别结果为对用户语音请求进行文本识别（ASR）所得到的。
[0051] 在得到文本识别结果后，
对所得到的文本识别结果进行语义理解（NLU）即可获取
第一对话结果。
[0052] 在实际执行过程中，
可对进行ASR处理后得到的文本识别结果进行保存，
在需要时
进行调取即可。
[0053] 在得到第一对话结果后，
对第一对话结果对应的文本识别结果进行分级处理；
或
者对第一对话结果进行分级处理；
或者对第一对话结果以及第一对话结果对应的文本识别
即可确定第一对话结果对应的融合等级。
结果进行分级处理，
[0054] 根据本发明提供的语音交互方法，
通过对第一对话结果进行基于文本识别结果和
第一对话结果中的至少一种结果的分级处理，
确定第一对话结果对应的融合等级，
能够提
高最终所确定的融合等级的精确性以及准确性，
从而有助于提高语音交互系统的准确性。
[0055] 在一些实施方式中，
对第一对话结果进行基于文本识别结果和第一对话结果中的
确定第一对话结果对应的融合等级，
可以包括：
至少一种结果的分级处理，
获取文本识别结果中的文本识别置信度和文本识别清晰度，
获取第一对话结果中
的领域、
领域对应的第一置信度、
意图和意图对应的第二置信度；
基于文本识别置信度、文本识别清晰度、领域、第一置信度、意图和第二置信度中
的至少两种，
确定第一对话结果对应的融合等级。
[0056] 在该实施方式中，
文本识别结果可以包括文本识别置信度（ASR nbest置信度）和
文本识别清晰度（ASR清晰度）。
[0057] 第一对话结果可以包括：
领域、
领域对应的第一置信度（即领域置信度）、
意图以及
意图对应的第二置信度（即意图置信度）。
[0058] 对ASR nbest置信度、
ASR清晰度、领域、第一置信度、意图和第二置信度中的至少
两种进行处理，
确定第一对话结果对应的融合等级。
[0059] 在实际执行过程中，
可以采用预先训练的分级模型来执行该步骤。
[0060] 如图2所示，
在得到第一对话结果和文本识别结果后，
将ASR nbest置信度、ASR清
晰度、
领域、第一置信度、
意图和第二置信度输入至分级模型，
由分级模型对ASR nbest置信
度进行计算方差以及计算均值等处理，
对ASR清晰度、
领域、第一置信度、
意图和第二置信度
等进行其他处理，
然后对得到的结果进行cat以及linear等处理，
以输出第一对话结果对应
的融合等级。
[0061] 表1示例了分别对各支路输出的第一对话结果进行分级处理后所得到的各第一对
话结果对应的融合等级，
其中，
第一对话结果为各支路对用户语音请求“打开车窗”进行识
别后得到的。
[0062] 表1

9

CN 115394300 A

说

明

书

7/16 页

其中，
支路2所输出的第一对话结果对应的融合等级最高，
为A级。
[0063] 需要说明的是，
分级模型可以基于样本第一对话结果以及样本第一对话结果对应
的样本融合等级训练得到；
或者分级模型可以基于样本文本识别结果以及样本文本识别结
果对应的样本融合等级训练得到；
或者分级模型还可以基于样本文本识别结果、样本文本
识别结果以及与样本文本识别结果对应的样本融合等级训练得到。
[0064] 下面对分级模型的训练过程进行说明。
[0065] 1、
数据采集与标注
先对样本用户语音请求进行听音，
并标注其对应的领域以及意图等，
获取样本领
域和样本意图；
将样本领域以及样本意图标注是否在可抢跑清单里面；
根据样本用户语音的清晰度和完整度判定融合等级（如A/B/C/D/E等），
并对等级
进行标注以获取样本融合等级；
基于上述所获取的数据即可获取分级模型的训练样本。
[0066] 2、
训练
样本用户语音请求过一遍ASR以获取ASR nbest置信度，
过一遍AJ系统（其他语音
模型）以获取ASR清晰度；
将ASR nbest置信度、
ASR清晰度，
样本领域及其置信度、
样本意图及其置信度分别
编码后即可训练多类模型。
[0067] 3、
训练语料示例。
[0068] 4、
标注标准可以基于清晰度（可以包括0、
0 .3、
0 .6以及1等级别）、
样本领域置信度
（可以包括0、
0 .5以及1等级别），
样本意图置信度（可以包括0、
0 .5以及1等级别）和样本用户
语音请求是否为背景音以及是否属于随意聊天内容等进行降级处理来确定。
[0069] 在本发明中，
通过采用预训练的分级模型确定第一对话结果的融合等级，
可以提
10

CN 115394300 A

说

明

书

8/16 页

高计算结果的准确性以及计算速率，
且具有较高的学习能力。
[0070] 根据本发明提供的语音交互方法，
基于文本识别置信度、文本识别清晰度、领域、
确定第一对话结果对应的融合等级，
能够提
第一置信度、
意图和第二置信度中的至少两种，
高最终所确定的融合等级的精确性以及准确性，
从而有助于提高语音交互系统的准确性。
[0071] 步骤130、
在未接收到云端发送的第二对话结果，
且将第一对话结果对应的融合等
级确定为最高级的情况下，
将最高级对应的第一对话结果确定为目标对话结果；
在该步骤中，
目标对话结果为最终用于执行的对话结果。
[0072] 其中，
第二对话结果为云端基于用户语音请求确定的，
该用户语音请求与本地端
对应的用户语音请求相同。
[0073] 需要说明的是，
在本发明中，
默认将云端发送的第二对话结果对应的融合等级确
定为最高级，
即确定为A级。
[0074] 可以理解的是，
在车机正常工作时，
用户唤醒语音交互系统后，
用户语音请求可以
通过本地端的至少一条支路以及云端的处理路线进行处理，
云端的计算时延可能会高于本
地端部分支路的计算时延。在接收云端发送的第二对话结果之前，
可能会接收到一路或多
路本地端的支路所发送的第一对话结果。
[0075] 在未接收到第二对话结果之前，
则比较已接收的各支路发送的第一对话结果对应
的融合等级，
若确定存在最高级对应的第一对话结果（即A级对应的第一对话结果），
则将A
级对应的第一对话结果确定为目标对话结果，
即由本地端识别得到的该A级对应的第一对
话结果为本轮用于执行的对话结果。
[0076] 在未接收到第二对话结果且未得到最高级对应的第一对话结果的情况下，
则持续
接收各支路发送的第一对话结果并对第一对话结果进行分级处理，
基于融合等级进行如下
处理。
[0077] 在一些示例中，
在目标时段内，
在未接收到第二对话结果且未得到最高级对应的
第一对话结果的情况下，
将确定的融合等级为第二级（即B级）的第一对话结果确定为目标
对话结果。
[0078] 其中，
目标时段可以基于用户自定义，
如设置为自本轮语音交互开始起第3s至第
5s之间的时段，
当然，
也可以基于实际需求设置为其他时间段，
如第2s至第4秒等，
本发明不
作限定。
[0079] 在另一些示例中，
在目标时段内，
在未接收到第二对话结果且未得到最高级对应
的第一对话结果以及第二级对应的第一对话结果的情况下，
则结束本轮语音交互。
[0080]
例如，
在第3s‑5s期间，
在未接收到第二对话结果的情况下，
若得到融合等级为A级
的第一对话结果，
则将融合等级为A级的第一对话结果确定为目标对话结果；
在第3s‑5s期间，
在未接收到第二对话结果且未得到A级的第一对话结果的情况
下，
则还可以将在第3s‑5s期间得到的融合等级为B级的第一对话结果确定为目标对话结
果。
[0081] 在第3s‑5s期间，
在未接收到第二对话结果，
未得到A级的第一对话结果，
且未得到
融合等级为B级的第一对话结果的情况下，
则结束本轮语音交互。
[0082] 步骤140、
在接收到云端发送的第二对话结果的情况下，
将第二对话结果确定为目
标对话结果；
11

CN 115394300 A

说

明

书

9/16 页

在该步骤中，
在未得到最高级对应的第一对话结果且接收到云端发送的第二对话
结果的情况下，
则将第二对话结果的等级确定为最高级，
并将第二对话结果确定为目标对
话结果，
即由云端识别得到的第二对话结果为本轮用于执行的对话结果。
[0083] 步骤150、
按目标对话结果执行语音交互。
[0084] 在该步骤中，
目标对话结果为第一对话结果和第二对话结果中的一种。
[0085] 目标对话结果对应的融合等级为最高级。
[0086] 执行语音交互可以有多种形式：
其一，
执行语音交互对应的控制指令。
[0087] 比如，
用户语音请求为“打开天窗”，
执行语音交互可以包括开启天窗。
[0088] 其二，
播报语音回复。
[0089] 比如，
用户语音请求为“还有多久到目的地”，
执行语音交互可以包括播报“离目的
地还有30分钟路程”。
[0090] 其三，
执行语音交互对应的控制指令且播报语音回复。
[0091] 比如，
用户语音请求为“打开天窗”，
执行语音交互可以包括开启天窗且播报“天窗
已开启”。
[0092] 在本发明中，
通过阶梯式配置多通道+端云融合的半无状态特性，
可以解决云服务
和端服务协作时无法权衡响应速度和准确性的问题；
通过端云融合管理技术可以解决端服
务和云服务完全割裂的问题。
[0093] 根据本发明提供的语音交互方法，
通过对本地端多支路发送的第一对话结果进行
分级处理以得到对应的融合等级，
并基于融合等级以及是否接收到云端发送的第二对话结
果来确定最终用于执行语音交互的目标对话结果，
有助于在保证识别准确性的同时，
提高
语音交互系统的响应速度以及灵敏性，
在保证准确性的同时体验更快，
实现极速对话，
从而
提高用户的使用体验。
[0094] 在一些实施方式中，
在步骤110之后且在步骤120之前，
该方法还可以包括：
基于第一对话结果，
确定第一对话结果对应的频率等级和第一对话结果对应的可
信度；
在可信度大于目标阈值，
且频率等级为最高频的情况下，
确定第一对话结果对应
的融合等级为最高级。
[0095] 在该实施方式中，
频率等级用于表征第一对话结果是否为车辆座舱的用户日常使
用的高频语音指令。
[0096] 可以理解的是，
在车载环境下，
存在有该环境下特有的高频语音指令，
如“打开车
窗”以及“导航至XX地点”等。
[0097] 目标阈值可以基于用户自定义，
如设置为0 .99、
0 .98或0 .8等，
本发明不作限定，
在
实际应用过程中，
可基于实际需求确定最佳的数值。
[0098] 在进行分级处理之前，
可以先进行高频分级处理。通过对第一对话结果进行处理
以确定第一对话结果对应的频率等级和第一对话结果对应的可信度，
并将可信度与目标阈
值进行比较。
[0099] 需要说明的是，
在本发明中，
当基于频率等级和第一对话结果对应的可信度确定
将第一对话结果的融合等级确定为最高级后，
则可不进行步骤120，
跳转至步骤130。
12

说

CN 115394300 A
[0100]

例如，
在可信度

明

书

10/16 页

＞0 .99且第一对话结果对应的频率等级为高频的情况下，

则将该第一对话结果对应的融合等级确定为A级；
在将该第一对话结果对应的融合等级确
定为A级后，
在未接收到云端发送的第二对话结果的情况下，
则将该A级对应的第一对话结
果确定为目标对话结果。
[0101] 在实际执行过程中，
可以采用训练好的高频分级模型对第一对话结果进行高频分
级处理，
以确定第一对话结果的融合等级。
[0102] 可以理解的是，
高频分级处理对应的算法的时延应低于上文通用的分级处理的算
法的时延。
[0103] 如图3所示，
将第一对话结果输入至高频分级模型，
获取高频分级模型输出的融合
等级，
并判断融合等级。
[0104] 在高频分级模型输出的融合等级为最高级的情况下，
则直接将该最高级对应的第
一对话结果确定为目标对话结果；
在高频分级模型输出的融合等级非最高级的情况下，
则将第一对话结果输入至分
级模型进行进一步地分级处理，
具体分级处理过程已在上文实施方式中进行了说明，
在此
不作赘述。
[0105] 根据本发明提供的语音交互方法，
通过在进行分级处理之前，
对第一对话结果进
行高频分级处理，
以判断第一对话结果是否为用户的高频语音指令，
当确定第一对话结果
为用户在车载环境下的高频语音指令的情况下，
则将该第一对话结果确定为目标对话结
果，
在保证精确性的基础上，
还能进一步提高响应速率。
[0106] 在一些实施方式中，
基于第一对话结果，
确定第一对话结果对应的频率等级和第
一对话结果对应的可信度，
可以包括：
获取文本识别结果中的文本识别清晰度，
获取第一对话结果中的领域对应的第一
置信度、
意图对应的第二置信度和用户语音请求；
其中，
文本识别结果为对用户语音请求进
行文本识别确定的；
采用前缀树匹配用户语音请求，
确定频率等级；
基于文本识别清晰度、
第一置信度和第二置信度，
确定可信度。
[0107] 在该实施方式中，
文本识别清晰度即ASR清晰度。
[0108] 领域对应的第一置信度以及意图对应的第二置信度即入NLU的领域意图的置信
度。
[0109]
用户语音请求即Query。
[0110]
例如，
在实际执行过程中，
可以输入NLU的领域意图的置信度、ASR清晰度和Query
至高频分级模型；
采用前缀树匹配Query是否属于高频，
以确定频率等级；
并通过如下公式
计算可信度。

[0111]

其中，

为可信度；

为第一置信度；

置信度；
a、
b和c分别为调节因子，
浮点数标量。

13

为第二

CN 115394300 A
[0112]

在一些示例中，
当

说

明

书

11/16 页

>0 .99且频率等级属于高频时，
则将融合等级确定为A，

其他情况分配默认等级D。
[0113] 根据本发明提供的语音交互方法，
采用前缀树匹配用户语音请求，
确定频率等级，
确定可信度，
具有较高的准确度和精确
并基于文本识别清晰度、第一置信度和第二置信度，
度。
[0114] 在一些实施方式中，
在步骤150之后，
该方法还可以包括：
基于目标对话结果，
更新
用户语音请求对应的初始上下文信息，
初始上下文信息为本地端或云端基于用户语音请求
确定。
[0115] 在该实施方式中，
初始上下文信息包括初始识别的领域、
意图和状态等信息。
[0116] 如图4所示，
对经NLU处理后得到的第一对话结果进行分级处理，
并由车载大屏执
行器采纳某一路结果后，
将采纳信号（即目标对话结果）和采纳详情通知部署在车载大屏的
端云融合管理系统，
由其进行状态和信息的融合。
[0117] 大屏执行器采用后回传的结果包括领域、
意图、状态（continue/end）、采纳来源
（端/云）以及通道ID等信息。
[0118] 然后更新上下文，
读取暂存区中与采纳结果最相近的上下文，
其中，
若是采用本地
端的识别结果则根据通道ID读取，
若是采用云端的识别结果则读取任一个端结果；用回传
的信息来校验初始上下文信息。
[0119] 最后基于采纳状态更新任务栈。
其中，
如果采纳状态=end，
则退出语音助手，
清空
整个对话管理系统；
在确定为新任
如果采纳状态=continue，
则判定当前用户语音请求是否为新任务，
务的情况下则退出旧任务，
进入新任务；
在确定为旧任务的情况下则更新领域以及意图等
信息。
[0120] 根据本发明提供的语音交互方法，
基于目标对话结果，
更新用户语音请求对应的
初始上下文信息，
在实现快速响应的基础上，
还能进一步实现信息的及时更新，
确保端云信
息保持一致。
[0121] 下面对多轮对话场景下本发明的实现方式进行说明。
[0122] 在一些实施方式中，
在用户语音请求包括多个连续的子语音请求的情况下，
步骤
120，
可以包括：
在第一目标子对话结果为云端识别的结果的情况下，
确定第二目标子对话结果对
应的融合等级为第二级；
在第一目标子对话结果为本地端识别的结果的情况下，
确定第二目标子对话结果
对应的融合等级为最高级；
其中，
第一目标子对话结果为第一目标子语音请求对应的目标对话结果，
第二目
标子对话结果为第二目标子语音请求对应的第一对话结果，
第一目标子语音请求为多个连
续的子语音请求中，
位于第二目标子语音请求之前，
且与第二目标子语音请求相邻的子语
音请求。
[0123] 在该实施方式中，
第一目标子语音请求为多轮对话场景下，
上一轮已执行的子语
音请求。可以理解的是，
第一目标子对话结果可能为云端输出的第二对话结果，
也可能为本
14

CN 115394300 A

说

明

书

12/16 页

地端某支路输出的第一对话结果。
[0124]
第二目标子语音请求为多轮对话场景下，
本轮将要执行的子语音请求。第二目标
子对话结果基于上一轮所执行的端的类型来确定。
[0125] 需要说明的是，
在多轮对话场景下，
得出初步的分级结果后，
在发给车载大屏执行
器之前，
需要针对多轮任务的情况做分级调整，
以保障不同架构不同体系的端云服务能较
好地兼容，
降低实施难度。
[0126]
例如，
在多轮对话场景下，
若上一轮采用是本地端输出的第一对话结果，
则本轮融
合等级分级强制确定为A级；
若上一轮采用的是云端输出的第二对话结果，
则本轮融合等级分级强制确定为B
级。
[0127] 将最终确定的分级结果发送至车载大屏执行器进行执行。
[0128] 在本发明中，
通过动态分级技术，
能够解决以往单纯靠一级服务完全无法承接才
退化到二级服务的简单协作方式的问题。
[0129] 根据本发明提供的语音交互方法，
通过在多轮对话场景下，
基于上一轮的结果对
下一轮的融合等级进行调整，
实现融合等级的动态分级，
从而能够保障不同架构不同体系
的端云服务能较好地兼容，
降低实施难度。
[0130] 在一些实施方式中，
在将分级结果发给车载大屏执行器之后，
且在端云融合前，
还
可以将结果暂存至暂存队列。
[0131] 暂存期间不更新上下文，
并且可以接受同一个msgId的不同通道多次请求，
如图5
所示。
[0132] 若msgId1在处理后采纳前 ，
msgId2开始处理并采纳msgId2，则抛弃msgId1 ，且
msgId1和msgId2的上下文是同一份，
msgId1并未被采纳来更新上下文（即上下文更新的条
件是采纳信号）。
[0133] 在一些实施方式中，
在用户语音请求包括多个连续的子语音请求的情况下，
该方
法还可以包括：
接收目标设备发送的打断信号，
打断信号包括被打断的任务ID；
响应于打断信号，
清空任务ID对应的任务栈及任务ID对应的上下文信息。
[0134] 在该实施方式中，
表2示例了一种分级处理结果以及打断情况下的处理结果。
[0135] 表2

15

CN 115394300 A

说

明

书

13/16 页

可以理解的是，
在多轮对话情境下，
可能会出现异常打断，
即某一些操作导致当前
任务无法继续，
需通过打断源广播出打断信号和打断详情，
以维护了多轮状态的各个系统
或者模块进行状态更新。
[0136] 目标设备可以为任意车载设备，
如车载大屏或车载大屏的UI管理器等。
[0137]
例如，
在UI变动引起的任务打断的情况下，
车载大屏的UI管理器给端云融合管理
系统发送打断信号，
告知被打断的任务ID；
端云融合管理系统接收到任务ID判断是否需要
销毁任务栈里面的对应任务，
在确定需要清空的情况下则清空任务ID对应的任务栈及任务
ID对应的上下文信息。
[0138] 在语音切换意图导致的任务打断的情况下，
端云融合管理系统给车载大屏UI管理
器发送打断信号，
告知被打断的任务ID；
车载大屏UI管理器判断是否需要销毁UI显示的卡
片和其维护的其他资源。
[0139] 根据本发明提供的语音交互方法，
通过在多轮对话场景下，
当出现异常打断时，
发
送包括被打断的任务ID的打断信号以清空任务ID对应的任务栈及任务ID对应的上下文信
息，
能够有效维护更系统的工作状态，
保证其处于正常工作状态。
[0140] 本发明提供的语音交互方法，
执行主体可以为语音交互装置。本发明中以语音交
互装置执行语音交互方法为例，
说明本发明提供的语音交互装置。

16

CN 115394300 A

说

明

[0141]

书

14/16 页

本发明还提供一种语音交互装置。
[0142] 如图6所示，
该语音交互装置包括：
第一获取模块610、第一处理模块620、第二处理
第三处理模块640和第四处理模块650。
模块630、
[0143] 第一获取模块610，
用于获取本地端确定的至少一路第一对话结果；
本地端包括至
少一个支路，
各支路基于车辆座舱的用户语音请求确定与支路对应的第一对话结果，
各支
路的计算时延不同；
第一处理模块620，
用于对第一对话结果进行分级处理，
确定各第一对话结果对应
的融合等级；
第二处理模块630，
用于在未接收到云端发送的第二对话结果，
且将第一对话结果
对应的融合等级确定为最高级的情况下，
将最高级对应的第一对话结果确定为目标对话结
果；
第三处理模块640，
用于在接收到云端发送的第二对话结果的情况下，
将第二对话
结果确定为目标对话结果；
第四处理模块650，
用于按目标对话结果执行语音交互；
其中，
第二对话结果为云端基于用户语音请求确定的。
[0144] 根据本发明提供的语音交互装置，
通过对本地端多支路发送的第一对话结果进行
分级处理以得到对应的融合等级，
并基于融合等级以及是否接收到云端发送的第二对话结
果来确定最终用于执行语音交互的目标对话结果，
有助于在保证识别准确性的同时，
提高
语音交互系统的响应速度以及灵敏性，
在保证准确性的同时体验更快，
实现极速对话，
从而
提高用户的使用体验。
[0145] 在一些示例中，
在用户语音请求包括多个连续的子语音请求的情况下，
第一处理
模块620，
还可以用于：
在第一目标子对话结果为云端识别的结果的情况下，
确定第二目标子对话结果对
应的融合等级为第二级；
在第一目标子对话结果为本地端识别的结果的情况下，
确定第二目标子对话结果
对应的融合等级为最高级；
其中，
第一目标子对话结果为第一目标子语音请求对应的目标对话结果，
第二目
标子对话结果为第二目标子语音请求对应的第一对话结果，
第一目标子语音请求为多个连
续的子语音请求中，
位于第二目标子语音请求之前，
且与第二目标子语音请求相邻的子语
音请求。
[0146] 在一些示例中，
第一处理模块620，
还可以用于：
对第一对话结果进行基于文本识别结果和第一对话结果中的至少一种结果的分
级处理，
确定第一对话结果对应的融合等级；
其中，
文本识别结果为对用户语音请求进行文本识别确定的，
第一对话结果为对
文本识别结果进行语义理解确定的。
[0147] 在一些示例中，
第一处理模块620，
还可以用于：
获取文本识别结果中的文本识别置信度和文本识别清晰度，
获取第一对话结果中
的领域、
领域对应的第一置信度、
意图和意图对应的第二置信度；
基于文本识别置信度、文本识别清晰度、领域、第一置信度、意图和第二置信度中
17

CN 115394300 A

说

明

书

15/16 页

的至少两种，
确定第一对话结果对应的融合等级。
[0148] 在一些示例中，
该装置还可以包括：
且在对第
第五处理模块，用于在获取本地端确定的至少一路第一对话结果之后，
一对话结果进行分级处理，
确定各第一对话结果对应的融合等级之前，
基于第一对话结果，
确定第一对话结果对应的频率等级和第一对话结果对应的可信度；
第六处理模块，
用于在可信度大于目标阈值，
且频率等级为最高频的情况下，
确定
第一对话结果对应的融合等级为最高级。
[0149] 在一些示例中，
第五处理模块，
还可以用于：
获取文本识别结果中的文本识别清晰度，
获取第一对话结果中的领域对应的第一
置信度、
意图对应的第二置信度和用户语音请求；
其中，
文本识别结果为对用户语音请求进
行文本识别确定的；
采用前缀树匹配用户语音请求，
确定频率等级；
基于文本识别清晰度、
第一置信度和第二置信度，
确定可信度。
[0150] 在一些示例中，
该装置还可以包括：
第七处理模块，
用于在按目标对话结果执行语
音交互之后，
基于目标对话结果，
更新用户语音请求对应的初始上下文信息，
初始上下文信
息为本地端或云端基于用户语音请求确定。
[0151] 在一些示例中，
该装置还可以包括：
第七处理模块，用于在用户语音请求包括多个连续的子语音请求的情况下，
接收
目标设备发送的打断信号，
打断信号包括被打断的任务ID；
第八处理模块，用于响应于打断信号，
清空任务ID对应的任务栈及任务ID对应的
上下文信息。
[0152] 本发明中的语音交互装置可以是电子设备，
也可以是电子设备中的部件，
例如集
成电路或芯片。该电子设备可以是终端，
也可以为除终端之外的其他设备。示例性的，
电子
设备可以为车辆或车辆上的车机等，
本发明不作具体限定。
[0153] 本发明中的语音交互装置可以为具有操作系统的装置。
该操作系统可以为安卓
（Android）操作系统，
可以为IOS操作系统，
还可以为其他可能的操作系统，
本发明不作具体
限定。
[0154] 本发明提供的语音交互装置能够实现图1至图5的方法示例实现的各个过程，
为避
免重复，
这里不再赘述。
[0155] 在一些示例中，
如图7所示，
本发明还提供一种车辆700，
包括处理器701、存储器
702及存储在存储器702上并可在处理器701上运行的计算机程序，
该程序被处理器701执行
时实现上述语音交互方法示例的各个过程，
且能达到相同的技术效果，
为避免重复，
这里不
再赘述。
[0156] 本发明还提供一种非暂态计算机可读存储介质，
该非暂态计算机可读存储介质上
存储有计算机程序，
该计算机程序被处理器执行时实现上述语音交互方法示例的各个过
程，
且能达到相同的技术效果，
为避免重复，
这里不再赘述。
[0157] 其中，
所述处理器为上述示例中所述的电子设备中的处理器。所述可读存储介质，
包括计算机可读存储介质，
如计算机只读存储器ROM、
随机存取存储器RAM、磁碟或者光盘
等。
18

CN 115394300 A

说

明

[0158]

书

16/16 页

本发明还提供一种计算机程序产品，
包括计算机程序，
该计算机程序被处理器执
行时实现上述语音交互方法。
[0159] 其中，
所述处理器为上述示例中所述的电子设备中的处理器。所述可读存储介质，
包括计算机可读存储介质，
如计算机只读存储器ROM、
随机存取存储器RAM、磁碟或者光盘
等。
[0160] 本发明另提供了一种芯片，
所述芯片包括处理器和通信接口，
所述通信接口和所
述处理器耦合，
所述处理器用于运行程序或指令，
实现上述语音交互方法示例的各个过程，
且能达到相同的技术效果，
为避免重复，
这里不再赘述。
[0161] 应理解，
本发明提到的芯片还可以称为系统级芯片、系统芯片、
芯片系统或片上系
统芯片等。
[0162] 需要说明的是，
在本文中，
术语“包括”、
“包含”或者其任何其他变体意在涵盖非排
他性的包含，
从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，
而
或者是还包括为这种过程、
方法、
物品或者装置所固有
且还包括没有明确列出的其他要素，
的要素。在没有更多限制的情况下，
由语句“包括一个……”限定的要素，
并不排除在包括该
要素的过程、
方法、
物品或者装置中还存在另外的相同要素。此外，
需要指出的是，
本发明实
施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，
还可包括根据所涉及
例如，
可以按不同于所描述的次序
的功能按基本同时的方式或按相反的顺序来执行功能，
来执行所描述的方法，
并且还可以添加、
省去、
或组合各种步骤。另外，
参照某些示例所描述
的特征可在其他示例中被组合。
[0163] 通过以上的实施方式的描述，
本领域的技术人员可以清楚地了解到上述示例方法
可借助软件加必需的通用硬件平台的方式来实现，
当然也可以通过硬件，
但很多情况下前
者是更佳的实施方式。基于这样的理解，
本发明的技术方案本质上或者说对现有技术做出
贡献的部分可以以计算机软件产品的形式体现出来，
该计算机软件产品存储在一个存储介
质（如ROM/RAM、
磁碟、
光盘）中，
包括若干指令用以使得一台终端（可以是手机，
计算机，
服务
器，
或者网络设备等）执行本发明各个示例所述的方法。
[0164] 上面结合附图对本发明的示例进行了描述，
但是本发明并不局限于上述的具体实
施方式，
上述的具体实施方式仅仅是示意性的，
而不是限制性的，
本领域的普通技术人员在
本发明的启示下，
在不脱离本发明宗旨和权利要求所保护的范围情况下，
还可做出很多形
式，
均属于本发明的保护之内。
[0165] 在本说明书的描述中，
参考术语“一个示例”、
“一些示例”、
“示意性示例”、
“示例”、
“具体示例”、
或“一些示例”等的描述意指结合该示例或示例描述的具体特征、
结构、
材料或
者特点包含于本发明的至少一个示例或示例中。在本说明书中，
对上述术语的示意性表述
不一定指的是相同的示例或示例。而且，
描述的具体特征、
结构、
材料或者特点可以在任何
的一个或多个示例或示例中以合适的方式结合。
[0166] 尽管已经示出和描述了本发明的示例，
本领域的普通技术人员可以理解：
在不脱
离本发明的原理和宗旨的情况下可以对这些示例进行多种变化、
修改、
替换和变型，
本发明
的范围由权利要求及其等同物限定。

19

CN 115394300 A

说

明

书

图1

图2

20

附

图

1/4 页

CN 115394300 A

说

明

书

图3

21

附

图

2/4 页

CN 115394300 A

说

明

书

图4

图5
22

附

图

3/4 页

CN 115394300 A

说

明

书

图6

图7

23

附

图

4/4 页