版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于卷积神经网络和深度聚类的多说话人本发明公开了一种基于卷积神经网络和深将混合语音幅度频谱和单说话人语音幅度频谱的时频单元得到每个声源的时频掩蔽矩阵将矩2将混合语音幅度频谱和单说话人语音幅度频谱作为神将混合语音幅度频谱作为门限扩张卷积深度聚类模型根据每个说话人频谱,结合混合语音相位频谱,采用短2.根据权利要求1所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方所述门限扩张卷积深度聚类模型包括三个模块,即基于3.根据权利要求2所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方所述基于频域扩张卷积的卷积神经网络模块可同时捕捉时域和频率方向的上下文关4.根据权利要求2所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方所述基于时域扩张卷积的卷积神经网络模块采用扩张因子呈指数级递增的一维扩张5.根据权利要求1-4所述的一种基于卷积神经网络和深度聚类的多说话人语音分离方将时域扩张卷积和门限线性单元结合到残差3常指某指定说话人)声音从混合信号中分离出来。人类通常感兴趣并且能够同时集中于一[0009]将混合语音幅度频谱和单说话人语音幅度频谱作为神经网络模型的输入进行训4[0019]所述基于时域扩张卷积的卷积神经网络模块采用扩张因子呈指数级递增的一维[0027]本发明采用的语音分离神经网络系统基于卷积神经网络和深度深度聚类方法[1]将混合语音的幅度频谱中每个时频单元映射到高维可分离空间(高维嵌入深度神经网络得到高维嵌入向量输出,再利用标准的聚类算法对高维嵌入向量进行聚类,5音幅度频谱中的每一个时频单元只属于一个说话人,在多个说话人语音生成混合信号时,采用基于门限扩张卷积的卷积神经网络,如图1语音分离系统中门限扩张卷积深度聚类模型模块。本发明利用基于门限扩张卷积的卷积神经网络的聚类模型代替文献[6[0042]本发明实施例提供了一种基于卷积神经网络和深度聚类的多说话人语音分离方1是基于卷积神经网络和深度聚类的多说话人语音分离方法的流程图,训练分离网络模型[0044]训练该基于扩张卷积神经网络和深度聚类的多说话人分离语音系统模型(系统模7经网络参数),将混合语音信号频谱作为输入送入神经网络(即门限扩张卷积深度聚类模[0060]步骤test6:用步骤test5得到的每个说话人的时频掩蔽矩阵分别与步骤test2保间,并且为包括两个或更多信号源的场景提供可扩展性(同样的模型可以扩展到更多说话8[0066]单声道语音分离的目标是估计混合在一起并在单声道信号中重叠的各个源32ms采样点为一帧信号,若采样率为8kHz时则一帧为256个采样点,若采样频率为16kHz深度聚类模型得到每个时频单元的高维嵌入向量,再经过K-means聚类算法得到每个说话[0075]这里考虑用维度为N×N估计的仿射矩阵VVT来参与构造目标函数,用一个标签矩9[0083]本发明实施例直接使用深层网络来估计仿射矩阵根据下式最小化目[0085]系统运动过程中,首先将输入信号y的特征表示送入基于扩张卷积的卷积神经网[0090]假设Hl-1表示神经网络第(l-1)层的输出,门限卷积神经网络(以下简称门限CNN)第l层的输出Hl可以由输出门o(H,*w'+b)调制的线性投影H。*w[0099]此外,本发明实施例通过引入跳跃连接(SkipConnection)建立深度残差学习框积层的内核大小增加为7,以进一步扩展时域方向上的接收域。此外,用指数线性单元(ExponentialLinearUnits,ELUs)激活函数代替矩形线性单元(RectifiedLinear充分利用时域和频域两个方向的上下文,最好是在频率方向和时域方向分别扩展上下文,的语音信号)中分离单一源信号的能力,改善了用于分离多说话人语音的深度学习模型的运算减少计算时间,以及为包括两个或更多信号源的场景提供可扩展性(同样的模型可以[0109]本发明实施例对各器件的型号除做特殊说明的以外,其他器[0112][1]HersheyJR,ChenZ,LeRouxJ,etal.Deepclustering:Discriminativeembeddingsfo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025中诚国际海洋工程勘察设计有限公司招聘10人笔试历年参考题库附带答案详解
- 2025中国能建葛洲坝集团北方分公司招聘20人(湖北)笔试历年参考题库附带答案详解
- 2025中国南水北调集团新能源投资有限公司招聘第二批岗位拟聘人员笔试历年参考题库附带答案详解
- 2025上海上药医药科技有限公司招聘2人笔试历年参考题库附带答案详解
- 上海市崇明区九校(五四制)2025-2026学年八年级下学期期中数学试题(含答案)
- 2026 三年级下册《Unit3 情景教学课件》课件
- 河北石家庄市2026届高三二模语文试题及参考答
- 2025图书馆(借阅系统安装)合同
- 汽车机械基础课件 带传动的类型及应用
- 《直观的数据》教学课件-2025-2026学年沪教版(新教材)小学美术三年级下册
- 世界各地高中教育体系比较
- 原料不合格处置管理培训
- 四川省成都市成华区片区联考2025-2026学年八年级(上学期)期中英语试卷(含解析)
- 2025年顺丰快递员劳动合同模板
- 2026年中考语文专题复习:标点符号 讲义
- 常见病小儿推拿培训
- 政务颁奖礼仪培训
- 疝气手术护理宣教
- 行文格式规范培训
- 肝癌破裂出血的护理
- 持续时间模型的估计与检验
评论
0/150
提交评论