CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法（新疆大学）

上传人：1*** IP属地：山西上传时间：2026-05-03 格式：DOCX 页数：22 大小：492.22KB 积分：9.6 举报 版权申诉

CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法（新疆大学）_第2页

CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法（新疆大学）_第3页

CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法（新疆大学）_第4页

CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法（新疆大学）_第5页

已阅读5页，还剩17页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于卷积神经网络和深度聚类的多说话人本发明公开了一种基于卷积神经网络和深将混合语音幅度频谱和单说话人语音幅度频谱的时频单元得到每个声源的时频掩蔽矩阵将矩2将混合语音幅度频谱和单说话人语音幅度频谱作为神将混合语音幅度频谱作为门限扩张卷积深度聚类模型根据每个说话人频谱，结合混合语音相位频谱，采用短2.根据权利要求1所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方所述门限扩张卷积深度聚类模型包括三个模块，即基于3.根据权利要求2所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方所述基于频域扩张卷积的卷积神经网络模块可同时捕捉时域和频率方向的上下文关4.根据权利要求2所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方所述基于时域扩张卷积的卷积神经网络模块采用扩张因子呈指数级递增的一维扩张5.根据权利要求1-4所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方将时域扩张卷积和门限线性单元结合到残差3常指某指定说话人)声音从混合信号中分离出来。人类通常感兴趣并且能够同时集中于一[0009]将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训4[0019]所述基于时域扩张卷积的卷积神经网络模块采用扩张因子呈指数级递增的一维[0027]本发明采用的语音分离神经网络系统基于卷积神经网络和深度深度聚类方法[1]将混合语音的幅度频谱中每个时频单元映射到高维可分离空间(高维嵌入深度神经网络得到高维嵌入向量输出，再利用标准的聚类算法对高维嵌入向量进行聚类，5音幅度频谱中的每一个时频单元只属于一个说话人，在多个说话人语音生成混合信号时，采用基于门限扩张卷积的卷积神经网络，如图1语音分离系统中门限扩张卷积深度聚类模型模块。本发明利用基于门限扩张卷积的卷积神经网络的聚类模型代替文献[6[0042]本发明实施例提供了一种基于卷积神经网络和深度聚类的多说话人语音分离方1是基于卷积神经网络和深度聚类的多说话人语音分离方法的流程图，训练分离网络模型[0044]训练该基于扩张卷积神经网络和深度聚类的多说话人分离语音系统模型(系统模7经网络参数)，将混合语音信号频谱作为输入送入神经网络(即门限扩张卷积深度聚类模[0060]步骤test6：用步骤test5得到的每个说话人的时频掩蔽矩阵分别与步骤test2保间，并且为包括两个或更多信号源的场景提供可扩展性(同样的模型可以扩展到更多说话8[0066]单声道语音分离的目标是估计混合在一起并在单声道信号中重叠的各个源32ms采样点为一帧信号，若采样率为8kHz时则一帧为256个采样点，若采样频率为16kHz深度聚类模型得到每个时频单元的高维嵌入向量，再经过K-means聚类算法得到每个说话[0075]这里考虑用维度为N×N估计的仿射矩阵VVT来参与构造目标函数，用一个标签矩9[0083]本发明实施例直接使用深层网络来估计仿射矩阵根据下式最小化目[0085]系统运动过程中，首先将输入信号y的特征表示送入基于扩张卷积的卷积神经网[0090]假设Hl-1表示神经网络第(l-1)层的输出，门限卷积神经网络(以下简称门限CNN)第l层的输出Hl可以由输出门o(H,*w'+b)调制的线性投影H。*w[0099]此外，本发明实施例通过引入跳跃连接(SkipConnection)建立深度残差学习框积层的内核大小增加为7，以进一步扩展时域方向上的接收域。此外，用指数线性单元(ExponentialLinearUnits,ELUs)激活函数代替矩形线性单元(RectifiedLinear充分利用时域和频域两个方向的上下文，最好是在频率方向和时域方向分别扩展上下文，的语音信号)中分离单一源信号的能力，改善了用于分离多说话人语音的深度学习模型的运算减少计算时间，以及为包括两个或更多信号源的场景提供可扩展性(同样的模型可以[0109]本发明实施例对各器件的型号除做特殊说明的以外，其他器[0112][1]HersheyJR,ChenZ,LeRouxJ,etal.Deepclustering:Discriminativeembeddingsfo

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法（新疆大学）

文档简介

温馨提示

最新文档

评论

CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法 （新疆大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN110459240A 基于卷积神经网络和深度聚类的多说话人语音分离方法（新疆大学）