CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质（思必驰科技股份有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-05 格式：DOCX 页数：28 大小：1.03MB 积分：10.2 举报 版权申诉

CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质（思必驰科技股份有限公司）_第2页

CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质（思必驰科技股份有限公司）_第3页

CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质（思必驰科技股份有限公司）_第4页

CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质（思必驰科技股份有限公司）_第5页

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本发明实施例提供一种基于文本的语音编及编辑文本的音素编码确定编辑文本的文本表盖上下文的隐藏表征以及带有遮盖区域的梅尔2将编辑文本输入至文本编码器，确定所述编辑文本中修改部将所述第一语音时长以及所述编辑文本修改前的语音输入一语音时长对所述修改前的语音中对应所述修改部分进行遮盖，得到遮盖后的声学表征、将所述文本表征、所述遮盖后的声学表征以及所述带有遮盖上下文所述编码器用于根据音素嵌入以及对应的位置编码确定所述编辑文本所述持续时长预测器用于确定所述编辑文本中修改部分对应的第一语音时长以及所所述长度调节器用于根据所述第二语音时长对所述文本表征进行长度所述遮盖操作块用于接收编辑文本修改前的语音以及对应的梅尔所述转换编码器用于对所述带有遮盖区域的梅尔频谱转码，得所述音高能量转换器用于根据接收到的文本表征、遮盖后的声学表征所述梅尔频谱解码器用于根据模拟真实语音的音高能量特征以及预测梅尔频谱特征将所述修改的文本数据输入至文本编码器，得到所述修改的文本数基于所述真实语音时长与所述预测语音时长的损失对所述文本编码器中的持续时长3文本编码程序模块，用于将编辑文本输入至文本编码器，长以及所述编辑文本的音素编码确定所述编辑语音编码程序模块，用于将所述第一语音时长以及所述编辑文本语音编码器，基于所述第一语音时长对所述修改前的语音中对应所述修改部分进行遮盖，所述文本表征的长度与所述带有遮盖区域的梅尔语音编辑程序模块，用于将所述文本表征、所述遮盖后的声学表盖区域的梅尔频谱以及所述预测梅尔频谱得到所述编辑文本修改后将所述修改的文本数据输入至文本编码器，得到所述修改的文本数基于所述真实语音时长与所述预测语音时长的损失对所述文本编码器中的持续时长一个处理器执行，以使所述至少一个处理器能够执行权利要求1_6中任一项所述方法的步4区域的语音片段往往由TTS模型合成出或者从现有的语音数据中选出，然后将获得的语音[0008]端到端的基于文本的语音编辑方法使用提取的说话人特征来促使预测的编辑区5及所述预测梅尔频谱得到所述编辑文本修改音时长以及所述编辑文本的音素编码确定所述编辑有遮盖区域的梅尔频谱以及所述预测梅尔频谱得到所述编辑文本修改且也能避免拼接方法产生的语音不自然和不[0024]图3是本发明一实施例提供的一种基于文本的语音编辑方法的对不同基线模型的6[0025]图4是本发明一实施例提供的一种基于文本的语音编辑方法的对于说话人可见/[0028]图7为本发明一实施例提供的一种基于文本的语音编辑的电子设备的实施例的结[0030]如图1所示为本发明一实施例提供的一种基于文本的语音编辑方法的流程图，包谱以及所述预测梅尔频谱得到所述编辑文本修具有出色上下文建模能力的BERT(BidirectionalEncoderRepresentationsfrom于文本的双向变换语音编辑系统)。如图2所示，本方法包括以下部分：文本编码器(text[0035]对于步骤S11，文本编码器的目的是从输入的编辑文本中提取出用户修改的编辑7[0038]所述编码器用于根据音素嵌入以及对应的位置编码确定所述编辑文本的文本表[0039]所述持续时长预测器用于确定所述编辑文本中修改部分对应的第一语音时长以利用持续时长预测器确定出用户修改部分的语音时长以及编辑文本整条对应文本中修改部分对应的第一语音时长对编辑文本修改前的语音中对应修改部分进行遮盖，码器提取的文本信息和语音编码器提取的声学信息来生成和真实语音相似的音高和能量[0051]所述梅尔频谱解码器用于根据模拟真实语音的音高能量特征以及预测梅尔频谱的语音)，该模块融合文本信息和声学信息，并用转换器模型来预测遮盖区域的音高和能8测遮盖区域的梅尔频谱特征。梅尔频谱解码器使用FastSpeech2中的前馈转换器(feed_[0056]基于所述真实语音时长与所述预测语音时长的损失对所述文本编码器中的持续9个说话人随机选择30个句子组成说话人可见测试集，并用剩余的HiFiTTS数据作为训练集[0066]所有的语音音频采样率都是16kHz。将原始音频提取为80维的log_Melfilterbanks(Fbank)特征，使用的配置为50ms的帧长和12.5的帧移。G2P(grapheme_to_算法)路径的平均MCD(Mel_cepstraldistance,梅尔倒谱距离)，并且越低的MCD表示越高平，实验结果如图3所示为图中模型在HiFiTTS测试集(说话人可见)和LibriTTS测试集(说[0070]本方法提出的BEdit_TTS模型在说话人可见和说话人不可见的测试集上无论只是[0072]BEdit_TTS合成的语音在说话人可见的测试集上进行替换和插入操作后生成的编编辑区的语音特性符合原语音的特性，同时，编辑区和非编辑区的边界处也很平滑自然。BEdit_TTS模型在说话人不可见的测试集上对遮盖区进行语音重构操作后，生成的语音与[0075]如图6所示为本发明一实施例提供的一种基于文本的语音编辑系统的结构示意度与所述带有遮盖区域的梅尔频谱长度一致；语音编辑程序模块13用于将所述文本表征、[0079]作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指及所述预测梅尔频谱得到所述编辑文本修改[0084]图7是本申请另一实施例提供的基于文本的语音编辑方法的电子设备的硬件结构[0087]存储器720作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程[0088]存储器720可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系[0090]所述一个或者多个模块存储在所述存储器720中，当被所述一个或者多个处理器[0096](2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单以对前述各实施例所记载的技术方案进行修改，或者对其中部分

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质（思必驰科技股份有限公司）

文档简介

温馨提示

最新文档

评论

CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质 （思必驰科技股份有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN115966196B 基于文本的语音编辑方法、系统、电子设备和存储介质（思必驰科技股份有限公司）