基于PCANN的说话人识别方法研究

上传人：1*** IP属地：江西上传时间：2023-06-30 格式：DOCX 页数：6 大小：14.54KB 积分：12 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于PCANN的说话人识别方法研究

摘要本文利用主分量分析神经网络方法，得到一种新的说话人语音特征。该特征通过对相继几帧语音特征参数组成的特征向量作主分量分析得到.新的特征能有效的引入帧间相关信息，减小冗余度，削弱噪声的影响。实验表明，新特征提高了系统的识别性能。关键词主分量分析神经网络(PCANN)；特征提取；说话人识别；高斯混和模型(GMM)1引言说话人识别是根据从说话人所发语音中提取信息判断说话人身份的过程。语音信号中包含了话音特征和说话人个性特征，说话人识别的关键问题之一是提取反映说话人个性的语音特征参数。在说话人识别系统中常用的语音特征参数主要有，LPC倒谱系数(LPCC)、Mel频率倒谱系数、线谱对等。在纯净语音环境中，系统已经达到很好的识别性能，但是在实际应用的环境中，由于背景噪声的存在，系统往往达不到令人满意的效果。主分量分析PCA(primarycomponentanalyze)是统计学中一种根据数据的统计分布特性,提取数据主要成分的数据处理方法.它是最小均方误差下的最优正交变换，对消除模式间的相关性、突出模式间差异性有最佳的效果，所以常被用于数据的压缩和模式识别的特征提取.由于它需要对原始数据的方差矩阵进行估值并求取其特征值和特征向量,计算量异常巨大,而基于神经网络的主分量分析算法不必进行矩阵求逆运算，并且神经网络具有并行运算能力,这将降低PCA计算量,提高PCA的实用性。对语音信号的原始特征作主分量分析后往往能得到更好的特征参数。本文选用LPC倒谱系数作为表征声道的特征参数，采用相继的几帧组成的特征参数矢量作为样本，对其进行主分量分析，这样去除了特征中的冗余信息，压缩特征参数的维数，得到新的PCA特征参数，然后把PCA特征参数作为GMM模型的输入向量，进行说话人识别的训练和识别。本文第二节介绍主分量分析神经网络的原理和算法，第三节介绍高斯混和模型和LPCC特征参数，第四节给出相应的说话人识别系统实验和结果，最后是简要的讨论与展望。2主分量神经网络(PCANN)主分量神经网络是基于Hebb学习规则的线性无监督学习神经网络,它可以通过对权矩阵W的学习,使W接近于原始数据X的关联矩阵C中特征值所对应的特征向量,而不必进行矩阵求逆运算,提高了运算速度。基于Hebb学习的最大特征滤波器基于Hebb学习的主分量分析网络图3：提取前m个主分量的神经网络解析图

3识别系统特征参数以及模型语音的主分量特征参数本文选用线性预测倒谱系数作为语音的原始特征参数然后对其进行主分量分析。LPCC系数是一种非常重要的特征参数。它的主要优点是比较彻底地去掉了语音产生过程中的激励信息，主要反映声道相应，而且往往只要十几个倒谱系数就能较好地描述语音信号的共振峰特性，因此在识别中取得了较好的效果。在实际计算中，LPCC参数不是由信号直接得到的，而是由LPC系数得到的。关系式这里实际上是直流分量,反映频谱能量,其值的大小不影响谱形,在识别中通常不用,也不去计算。当LPCC系数个数不大于LPC系数个数时用第二式,当LPCC系数个数大于LPC系数个数时,用第三式进行计算。4实验及结果分析本文实现了一个在噪声环境下与文本无关的说话人自动识别系统。使用的是一个含20人的语音数据库，包括10名男性和10名女性，每人语音长度约90秒。采样率为12kHz，采用16bit量化。首先对数据进行预处理，包括端点检测、预加重(H(z)=)和加窗。原始特征选为12阶的LPCC倒谱参数，主分量特征个数选12阶。高斯模型混合数M=16。训练音长为40s，测试音为3s。实验结果如表(1):表1实验结果信噪比方法_GMM2帧_GMM3帧_GMM5帧图(4)是根据表(1)中的数据画出的曲线。从表(1)可以看出，与传统的GMM方法相比，PCANN_GMM方法明显增强系统抗噪声能力，改进了识别效果。并且在PCANN_GMM中，帧数不同对识别也有较小的影响，当帧数大于5帧时，系统的识别性能不再提高。5总结本文运用PCANN/GMM方法进行说话人识别，将多帧特征参数合并为一帧，利用了帧间相关性，对其进行主分量分析，减少了冗余度，提高了系统的鲁棒性。另外，当前的说话人识别研究还主要集中在声学特征层次进行,基于人们说话中含有的高级特征所进行的研究虽然很多,下一步的工作将结合声学特征和高级特征,研究它们之间的关系,从而进一步提高说话人识别系统的性能。参考文献[1]赵力.语音信号处理北京：机械工业出版社,2003“ASimplifiedNeuralModelasaPrincipalComponentsAnalyzer”,JournalofMathematicBiology,,,1982SangerTD.“OptimalUnsupervisedLearingInaSingerLayerLinearFeedforwardNeuralNetwork”,NeuralNetworks,pp459-473,1989何振亚顾明亮语音信号的主分量特征应用科学学报,VOL17,,1999SimonHaykin.神经网络原理.北京：机械工业出版社,2004ChanchalChatterjee.andVwani“OnRelativeConvergencePropertiesofPrincipalComponentAnalysisAlgorithms”,IEEETransactionsOnNeuralNetworks,,,March1998Oh-Wook

人人文库> 全部分类> 办公材料 > 办公文档

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于PCANN的说话人识别方法研究

文档简介

温馨提示

最新文档

评论

基于PCANN的说话人识别方法研究

文档简介

温馨提示

最新文档

评论

相关文档