CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质（奇瑞汽车股份有限公司）

上传人：x*** IP属地：重庆上传时间：2025-09-08 格式：DOCX 页数：21 大小：136.47KB 积分：10.8 举报 版权申诉

CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质（奇瑞汽车股份有限公司）_第2页

CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质（奇瑞汽车股份有限公司）_第3页

CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质（奇瑞汽车股份有限公司）_第4页

CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质（奇瑞汽车股份有限公司）_第5页

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(72)发明人崔利军胡瑞雪詹茂鑫蒋克宇有限公司11594及存储介质本发明涉及/属于属于车载语音技术领域，用户的声音样本生成的声源数据包；云端服务人5、发音2移动联网设备，用于获取通过录制用户的声音样本生成的声源数据包；云端服务器，与所述移动联网设备通信，用于接收所述移动联网设备上传的所述声源数据包，将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据包；车载多媒体主机，用于接收所述语音合成数据包，将所述语音合成数据包导入所述车载多媒体主机的语音模块，得到自定义发音人。2.根据权利要求1所述的一种车载发音人合成系统，其特征在于，包括：所述移动联网设备，还用于通过自身的录音设备录制用户的声音样本，得到所述声源数据包。3.根据权利要求1所述的一种车载发音人合成系统，其特征在于，还包括：所述移动联网设备，还用于从所述云端服务器下载所述语音合成数据包，并上传至移动存储设备；所述移动存储设备，还用于将所述语音合成数据包上传至所述车载多媒体主机。4.根据权利要求3所述的一种车载发音人合成系统，其特征在于，包括：所述移动存储设备，与所述移动联网设备连接，还用于将预存的所述声源数据包上传至所述移动联网设备。5.根据权利要求4所述的一种车载发音人合成系统，其特征在于，包括：车载多媒体主机，还用于通过自身的录音设备录制用户的声音样本，得到所述声源数所述移动存储设备，用于从所述车载多媒体主机下载所述声源数据包。6.根据权利要求1所述的一种车载发音人合成系统，其特征在于，所述声源数据包的音频为用户的单人音频，声音内容为预设的一段话术。7.根据权利要求1所述的一种车载发音人合成系统，其特征在于，所述云端服务器包音频处理模块，用于对所述声源数据包进行预处理，并进行特征提取，得到特征提取数音频分析模块，用于将所述特征提取数据与预设的语音数据库进行对比，得到比对结果，基于所述比对结果进行音频特征个性化调整，得到个性化音频数据；语音合成模块，用于将所述个性化音频数据输入语音合成模型，进行语音合成处理，得到语音合成数据包。获取通过录制用户的声音样本生成的声源数据包；将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据包；将所述语音合成数据包导入车载多媒体主机，在所述车载多媒体主机的主界面对所述语音合成数据包进行配置，得到自定义发音人。9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求8所述的方法。10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求8所述的方法。3技术领域[0001]本发明属于车载语音技术领域，尤其涉及一种车载发音人合成系统、方法、电子设备及存储介质。背景技术[0002]随着汽车产业的快速发展，汽车越来越智能化，人机交互能力得到很大提升。车载多媒体主机是人机交互的重要组成部分，车载多媒体主机内部设置有语音交互系统，驾驶员或乘客可以通过语音命令与语音交互系统进行互动，语音交互系统可以处理用户的语音命令，并执行相应的操作，包括但不限于导航设置、音乐播放控制、电[0003]现有技术中，语音交互系统包括在线语音功能和离线语音功能，在线语音功能需要互联网连接来处理复杂的语音指令，通常能提供更准确的响应和服务。离线语音功能无需网络连接即可工作，适用于基本的功能操作，但可能在复杂任务上表现不佳。[0004]现有技术存在以下技术问题：[0005]现有的语音交互系统中，发音人只能根据车辆出厂时提供的几种定制发音人进行有限的选择，不支持用户自定义，无法满足用户的个性化需求。发明内容[0006]本发明提供了一种车载发音人合成系统、方法、电子设备及存储介质，旨在解决上述现有技术中存在的现有的语音交互系统中，发音人只能根据车辆出厂时提供的几种定制发音人进行有限的选择，不支持用户自定义，无法满足用户的个性化需求的技术问题。[0008]移动联网设备，用于获取通过录制用户的声音样本生成的声源数据包；[0009]云端服务器，与所述移动联网设备通信，用于接收所述移动联网设备上传的所述声源数据包，将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据[0010]车载多媒体主机，用于接收所述语音合成数据包，将所述语音合成数据包导入所述车载多媒体主机的语音模块，得到自定义发音人。[0011]采用上述技术方案，本发明的有益效果为：本发明用户可以通过录制自己的声音样本，生成自定义的发音人，大大增加了语音交互系统的个性化选择，满足不同用户的需[0013]所述移动联网设备，还用于通过自身的录音设备录制用户的声音样本，得到所述声源数据包。[0015]所述移动联网设备，还用于从所述云端服务器下载所述语音合成数据包，并上传4至移动存储设备；[0016]所述移动存储设备，还用于将所述语音合成数据包上传至所述车载多媒体主机。[0018]所述移动存储设备，与所述移动联网设备连接，还用于将预存的所述声源数据包上传至所述移动联网设备。[0019]进一步，上述包括：[0020]车载多媒体主机，还用于通过自身的录音设备录制用户的声音样本，得到所述声源数据包；[0021]所述移动存储设备，用于从所述车载多媒体主机下载所述声源数据包。[0022]进一步，上述所述声源数据包的音频为用户的单人音频，声音内容为预设的一段话术。[0023]进一步，上述所述云端服务器包括：[0024]音频处理模块，用于对所述声源数据包进行预处理，并进行特征提取，得到特征提取数据；[0025]音频分析模块，用于将所述特征提取数据与预设的语音数据库进行对比，得到比对结果，基于所述比对结果进行音频特征个性化调整，得到个性化音频数据；[0026]语音合成模块，用于将所述个性化音频数据输入语音合成模型，进行语音合成处理，得到语音合成数据包。[0027]第二方面，本发明为了解决上述技术问题还提供了一种车载发音人合成方法，包[0028]获取通过录制用户的声音样本生成的声源数据包；[0029]将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据包；[0030]将所述语音合成数据包导入车载多媒体主机，在所述车载多媒体主机的主界面对所述语音合成数据包进行配置，得到自定义发音人。[0031]第三方面，本发明为了解决上述技术问题还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时实现本申请的车载发音人合成方法。[0032]第四方面，本发明为了解决上述技术问题还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请的车载发音人合成方法。[0033]与现有技术相比，本发明具有如下优点：[0034]1.用户可以通过录制自己的声音样本，生成自定义的发音人，大大增加了语音交互系统的个性化选择，满足不同用户的需求。[0035]2.本发明系统支持多种设备(移动联网设备、车载多媒体主机)录制声音样本，提高了系统的灵活性和便利性。[0036]3.本发明云端服务器通过先进的音频处理和语音合成技术，确保生成的自定义发音人具有高质量的语音合成效果。[0037]4.本发明用户只需简单操作即可完成声音样本的录制和自定义发音人的生成，操作简便。5[0038]本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。附图说明[0039]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。[0040]图1示出了根据本发明实施例1的一种车载发音人合成系统的流程示意图；[0041]图2示出了根据本发明实施例2的一种车载发音人合成系统的流程示意图；[0042]图3示出了根据本发明实施例3的一种车载发音人合成系统的流程示意图；[0043]图4示出了根据本发明实施例的一种车载发音人合成方法的流程示意图；[0044]图5示出了根据本发明实施例的一种电子设备结构示意图。具体实施方式[0045]为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。[0047]图1示出了根据本发明实施例1的一种车载发音人合成系统的流程示意图，如图1[0048]移动联网设备，用于获取通过录制用户的声音样本生成的声源数据包；[0049]云端服务器，与所述移动联网设备通信，用于接收所述移动联网设备上传的所述声源数据包，将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据[0050]车载多媒体主机，用于接收所述语音合成数据包，将所述语音合成数据包导入所述车载多媒体主机的语音模块，得到自定义发音人。[0052]音频处理模块，用于对所述声源数据包进行预处理，并进行特征提取，得到特征提取数据；[0053]音频分析模块，用于将所述特征提取数据与预设的语音数据库进行对比，得到比对结果，基于所述比对结果进行音频特征个性化调整，得到个性化音频数据；[0054]语音合成模块，用于将所述个性化音频数据输入语音合成模型，进行语音合成处[0055]可选的，所述移动联网设备，还用于通过自身的录音设备录制用户的声音样本，得到所述声源数据包。[0056]综上所述，本实施例1中，首先需要准备高质量的音频材料。这些音频材料应该是6单个人的、无噪音和无背景音的，需要在安静的环境中进行录制。因此本实施例1中使用移动联网设备录制，比如手机。用户使用移动联网设备录制一段声音，要求使用特定的一段话术，以确保能准确识别到声音的各项参数。最终得到声源数据包。[0057]本实施例1中，车载多媒体主机直接通过网络从云端服务器将语音合成数据包下载下来。然后在主界面上选择使用自定义发音人，即可完成设置。[0058]实施例2[0059]图2示出了根据本发明实施例2的一种车载发音人合成系统的流程示意图，如图2[0060]移动联网设备，用于获取通过录制用户的声音样本生成的声源数据包；[0061]云端服务器，与所述移动联网设备通信，用于接收所述移动联网设备上传的所述声源数据包，将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据[0062]车载多媒体主机，用于接收所述语音合成数据包，将所述语音合成数据包导出为自定义发音人供用户选择。[0064]音频处理模块，用于对所述声源数据包进行预处理，并进行特征提取，得到特征提取数据；[0065]音频分析模块，用于将所述特征提取数据与预设的语音数据库进行对比，得到比对结果，基于所述比对结果进行音频特征个性化调整，得到个性化音频数据；[0066]语音合成模块，用于将所述个性化音频数据输入语音合成模型，进行语音合成处[0067]可选的，所述移动联网设备，还用于从所述云端服务器下载所述语音合成数据包，并上传至移动存储设备；[0068]所述移动存储设备，还用于将所述语音合成数据包上传至所述车载多媒体主机。[0069]综上所述，本实施例2中，首先需要准备高质量的音频材料。这些音频材料应该是单个人的、无噪音和无背景音的，需要在安静的环境中进行录制。因此本实施例2中使用移动联网设备录制，比如手机。用户使用移动联网设备录制一段声音，要求使用特定的一段话术，以确保能准确识别到声音的各项参数。最终得到声源数据包。[0070]本实施例2中，云端服务器生成语音合成数据包后，移动联网设备通过网络从云端服务器将语音合成数据包下载下来。然后移动联网设备连接移动存储设备，将语音合成数据包导入移动存储设备；将移动存储设备连接车载多媒体主机，在车载多媒体主机上选择发音人导入，将语音合成数据包导入车载多媒体主机。然后在主界面上选择使用自定义发[0071]实施例3[0072]图3示出了根据本发明实施例3的一种车载发音人合成系统的流程示意图，如图3[0073]移动联网设备，用于获取通过录制用户的声音样本生成的声源数据包；[0074]云端服务器，与所述移动联网设备通信，用于接收所述移动联网设备上传的所述声源数据包，将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据7[0075]车载多媒体主机，用于接收所述语音合成数据包，将所述语音合成数据包导出为自定义发音人供用户选择。[0076]其中，车载多媒体主机和云端服务器均可增加发音人参数调节设置(如音量、语调、语速等参数设置),如用户对云端服务器自动合成的发音人效果不满意，则可以自定义调节声音参数并保存，从而达到自己需要的理想发音人的状态。[0078]音频处理模块，用于对所述声源数据包进行预处理，并进行特征提取，得到特征提取数据；[0079]音频分析模块，用于将所述特征提取数据与预设的语音数据库进行对比，得到比对结果，基于所述比对结果进行音频特征个性化调整，得到个性化音频数据；[0080]语音合成模块，用于将所述个性化音频数据输入语音合成模型，进行语音合成处[0081]其中，若无法使用云端服务器，也可使用本地计算机设备搭建合成平台进行处理。[0082]可选的，所述移动联网设备，还用于从所述云端服务器下载所述语音合成数据包，并上传至移动存储设备；[0083]所述移动存储设备，还用于将所述语音合成数据包上传至所述车载多媒体主机。[0084]可选的，所述移动存储设备，与所述移动联网设备连接，还用于将预存的所述声源数据包上传至所述移动联网设备。[0085]可选的，所述车载多媒体主机，还用于通过自身的录音设备录制用户的声音样本，得到所述声源数据包；[0086]所述移动存储设备，用于从所述车载多媒体主机下载所述声源数据包。[0087]其中，上传声源数据包时也可以一次上传多个声源数据包，云端服务器可以同时并行制作多个语音合成数据包，减少重复工作节省时间。车载多媒体主机上的用户界面可以预留多个自定义发音人选项，并增加自定义名称，更便于用户选择。[0088]综上所述，本实施例3中，首先需要准备高质量的音频材料。这些音频材料应该是单个人的、无噪音和无背景音的，需要在安静的环境中进行录制。本实施例3中使用车载多媒体主机录制，准备音频材料时，还可以采用录音笔、录音棚等设备进行录制，只要最终能满足音频要求，要求使用特定的一段话术，以确保能准确识别到声音的各项参数。最终得到声源数据包，然后通过移动存储设备将声源数据包转移至移动联网设备，并通过移动联网设备将所述声源数据包上传至云端服务器，进行语音合成处理。[0089]本实施例3中，云端服务器生成语音合成数据包后，移动联网设备通过网络从云端服务器将语音合成数据包下载下来。然后移动联网设备连接移动存储设备，将语音合成数据包导入移动存储设备；将移动存储设备连接车载多媒体主机，在车载多媒体主机上选择发音人导入，将语音合成数据包导入车载多媒体主机。然后在主界面上选择使用自定义发[0090]基于与上述系统相同的原理，本发明实施例还提供了一种车载发音人合成方法，[0091]获取通过录制用户的声音样本生成的声源数据包；8[0092]将所述声源数据包输入语音合成模型进行语音合成处理，得到语音合成数据包；[0093]将所述语音合成数据包导入车载多媒体主机，在所述车载多媒体主机的主界面对所述语音合成数据包进行配置，得到自定义发音人。[0094]本发明实施例的车载发音人合成方法可执行本发明实施例所提供的车载发音人合成系统，其实现原理相类似，本发明各实施例中的车载发音人合成方法中的各模块、单元所执行的动作是与本发明各实施例中的车载发音人合成系统中的步骤相对应的，对于车载发音人合成方法的各模块的详细功能描述具体可以参见前文中所示的对应的车载发音人[0095]基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明任一实施例所示的方法。[0096]在一个可选实施例中提供了一种电子设备，如图5所示，图5所示的电子设备包括：括收发器，收发器可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器不限于一个，该电子设备的结构并不构成对本发明实施例的限定。[0097]存储器用于存储执行本发明方案的应用程序代码(计算机程序),并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现前述方法实施例所示的内[0098]本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。[0099]根据本发明的另一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种实施例实现方式中提供的方法。[0100]应该理解的是，附图中的流程图和框图，图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质（奇瑞汽车股份有限公司）

文档简介

温馨提示

最新文档

评论

CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质 （奇瑞汽车股份有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN119889276A 一种车载发音人合成系统、方法、电子设备及存储介质（奇瑞汽车股份有限公司）