【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文

上传人：O*** IP属地：四川上传时间：2016-07-03 格式：PDF 页数：105 大小：1.52MB 积分：0 举报 版权申诉

【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第2页

【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第3页

【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第4页

【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文_第5页

已阅读5页，还剩100页未读，继续免费阅读

【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

短语音说话人识别研究张陈昊 in of 2014 摘要 I 摘要实际应用中，较短甚至超短的测试语音条件下的说话人识别是必须面对的难题。本文针对短语音说话人识别进行了一定的研究，主要工作包括以下几个方面： 1. 提出了基于发音基元类的多模型说话人识别框架。考虑到语音内容对改进说话人识别性能的作用以及语音内容的确认是说话人识别的辅助手段，本文提出一种基于发音基元类的多模型说话人识别方法：该方法在说话人识别中综合应用了语音识别技术，考虑到语音识别不是本文的最终目标，本文提出将语音基元进行分类，在说话人模型训练时建立基元类相关的说话人模型，在说话人识别时与基元类相关的说话人模型进行模型匹配。本文研究了基元类的划分方法以及基元类相关说话人模型的训练。在训练语音充分的前提下，相比传统的基线法，该方法取得了相对降。 2. 提出了缺失数据基元类的说话人模型合成方法。该方法在说话人模型的训练语音不充分和不均衡的情况下，利用一组精心设计并训练充分的参考说话人模型之间的映射关系，合成出缺失训练数据的基元类的说话人模型。本文研究了说话人基元类模型之间映射关系的估计方法，以及缺失基元类说话人模型的参数合成方法。相对训练语音充分和均衡的情形，合成方法最优情况下的对增加仅为相比基线法对下降为 3. 提出了基于语音底层声学特征融合算法。本文借鉴人类对语音的感知规律，挖掘语音中不同的声学特性，对多种声学特征向量拼接后的高维特征向量进行无监督和有监督的综合学习，挑选最具区分性分量，以解决单一特征在短语音下区分性不足的问题。相比短语音条件下融合特征的对下降分别为 4. 建立了一个语音内容均衡的短语音声纹数据库此数据库上进行所提方法的验证。综合分析了本文提出短语音说话人识别方法的需要和数据库资源现状，提出了短语音声纹数据库的录制原则：“保证训练语音中发音基元的充分性和均衡性 ”。基于此，设计录音提示文本，使用低频单元加强算法挑选声韵母基元丰富并且 “ 组合良好的汉语文本，达到声韵母基元覆盖全面并且数量充分。在该数据库上将本文所提出的特征级与模型级方法综合起来，对比征和法对下降为关键词：短语音；说话人识别；语音识别；多模型；特征融合I n it is an to or on as 1. A on of a is it to is is of On is a ER 2. A is is we a by a of in to a ER is it by a ER 3. A on of s to we a to be a ER II 4. A on of we a of “to on On a a ER 录录第 1 章绪论 .说话人识别技术概述 . 2 说话人识别的分类 . 2 技术发展 . 3 说话人识别应用和挑战 . 4 应用情况 . 4 实际应用中的挑战 . 5 短语音说话人识别 . 6 短语音问题的研究意义 . 6 短语音问题的难点 . 8 短语音问题研究现状及分析 . 10 研究工作概述 . 13 研究目标和思路 . 13 系统框架 . 18 论文的组织结构 . 20 第 2 章基于发音基元类的多模型说话人识别框架 .基于说话人识别框架 . 22 高斯混合模型 . 23 型训练 . 23 说话人识别打分 . 26 说话人确认系统性能指标 . 27 基于基元类的多模型说话人识别 . 28 发音基元类划分 . 28 语音基元的判别 . 35 基于基元类的说话人多模型训练 . 38 基元类多模型打分融合 . 39 实验 . 40 实验数据和设置 . 40 实验结果和分析 . 42 目录 V 小结 . 45 第 3 章基于投影映射的说话人基元类模型合成 . .引论 . 47 说话人模型合成 . 48 最大似然线性回归算法 . 48 基于基元类通用背景模型关系的模型合成方法 . 49 通用背景模型关系的模型构建 . 49 缺失数据基元类的说话人模型参数合成 . 50 基于考说话人集合的基元类模型合成方法 . 51 说话人语音相似度定义 . 52 基于考说话人模型构建 . 53 缺失数据基元类的说话人模型参数合成 . 54 实验 . 56 实验数据和设置 . 56 实验结果和分析 . 56 小结 . 59 第 4 章基于声学特征融合算法 .论 . 61 音底层声学特性特征介绍 . 62 梅尔频率倒谱系数 . 62 线性预测倒谱系数 . 66 感知对数面积比系数 . 67 基于特征融合降维算法 . 70 征融合框架 . 70 去除多种特征相关性 . 71 选取最大区分性的特征 . 73 实验 . 75 实验数据和设置 . 75 实验结果和分析 . 76 结论 . 80 第 5 章总结与展望 .论文工作总结 . 82 目录下一步研究的展望 . 84 参考文献 . 谢 . . 明 . 95 个人简历、在学期间发表的学术论文与研究成果 . 1 章绪论 1 第 1 章绪论人类在生活中每时每刻都在从外界接受和向外界传达着各种有意义的信息，语音信息则是其中很重要的部分。在语音学领域中，人的语音常常被定义为人的发音器官所发出的、带有一定实际含义的声音，也常常被研究者认为是语言的发音符号。音频信号的处理在人工智能和机器学习领域研究中具有很重要的地位。人类语音中含有各类丰富的信息，既有丰富的说话人个性信息和发音的内容信息，也有录制环境的噪声信息，通过挖掘这些信息，研究者们可以做很多有意义的工作。说话人识别（，或者称为声纹识别（是基于这些信息来探索人类身份的一种生物特征识别技术。这种技术基于语音中所包含的说话人特有的个性信息，利用计算机以及现在的信息识别技术，自动的鉴定当前语音对应的说话人身份（ 1976; r, 1997）。与指纹识别、面部识别、虹膜识别等其他生物特征认证技术相比，说话人识别在实际应用中有着独有的一些优势： 1. 语音属于人类最直接使用的信息载体，所以利用语音来进行生物识别应用对于用户来说不具有心理障碍； 2. 语音作为信息来源，其采集过程对于用户个人隐私信息涉及更少，用户更易接受； 3. 在移动互联飞速发展的今天，语音作为非接触性载体，可以很好的依靠各类移动终端完成采集和验证，不需要用户在特定的地点使用特定的采集设备，并且在某些特定的场景，用户语音是最简单直接能获取到的生物特征。在最近的十年中，说话人识别技术得到飞速发展，已经开始在现实环境中广泛应用。短语音说话人识别作为最近几年实际应用中遇到的现实问题，其主要目标是研究说话人识别由较短的测试语音引发的问题，并且提高相应条件下的说话人识别性能。本论文主要针对这一领域进行了分析和研究，并提出了一些改进方案。本章由以下几部分组成：首先对说话人识别技术的相关知识进行了一定的概述；然后介绍了说话人识别在现实应用中遇到的问题和挑战，从中引出短语音说话人识别的意义和研究现状，综述了现有的一些改进方法，并针对短语音说话人识别系统的问题给出自己的一些分析；接着主要介绍了本文的总体研究思路和相关的科研内容；最后一部分提出了本文总体的组织结构。第 1 章绪论 2 说话人识别技术概述说话人识别的分类说话人识别是一种典型的模式识别问题，包含说话人模型训练和测试语音识别两个阶段，下图一个典型的说话人识别框架： 1. 训练阶段：对使用系统的说话人预留足够的语音，并对不同说话人的语音提取声学特征，然后对每个目标说话人的语音特征训练得到对应的说话人模型，最终将全体模型集合在一起组成当前系统的说话人模型库； 2. 测试阶段：同样，先进行特征提取，将测试语音提取出来的声学特征在说话人模型库上进行比对，根据定义好的相似性准则，对说话人模型上进行打分判别，最后根据判别结果得到测试语音的说话人身份。训练张光李明训练语音特征提取模型训练模型张光李明测试语音测试特征提取打分判决该说话人是李明图一个典型的说话人识别系统框架说话人识别根据实际应用中的不同任务来分类的话可以分为说话人辨认（和说话人确认（（ r, 1997），这两类任务的识别目标略有不同：对于说话人辨认，是将待测试语音判别为目标说话人集合中最有可能的某一位，所以是一个多选一的问题；对于说话人确认，是将待测试语音在某个目标说话人模型上进行验证，判别该段语音是否由这个目标说话人发出，是一个判别 “ 是 ” 或 “ 否 ” 为当前说话人的二选一问题。其中对于说话人辨认系统来说，根据测试语音来自说话人范围的不同，可以分为开集（闭集（类（ r, 1997）。对于开集识别，待识别语音的发音者可能不属于当前已知的目标说话人集合第 1 章绪论 3 （目标说话人集合也称为集内说话人，而不属于这类的说话人称为集外说话人或者假冒说话人）；对于闭集识别，则不存在当前集合以外的假冒说话人，所有识别语音的话者全部属于已知的目标说话人集合。说话人识别的另一类分类是根据识别语音的文本内容进行分类，具体的也分为两类：文本相关（文本无关（ r, 1997）。文本相关的说话人识别开始会建立一个文本集合，要求用户在训练阶段预留语音时按照指定文本录制语音，这样能够精确的建立当前说话人关于该文本的说话人模型，在测试阶段用户也必须按照这个指定的文本集合发音；文本无关的说话人识别相对来说在实际使用中的要求比较宽松，用户的发音内容不会预先被限定，在训练和识别阶段用户只需要随意的录制达到一定发音长度的语音即可。对比这两类说话人识别，文本相关的说话人识别的语音内容匹配性优于文本无关的说话人识别，所以一般来说其系统性能也会相对好很多，但是对用户预留和进行识别时语音的录制要求更高；文本无关的说话人识别对于用户相对比较友好，使用更加方便灵活，对于实际的应用场合具有更好的推广性和适应性。基于以上分类的讨论，本文研究的说话人识别系统主要基于文本无关的说话人确认系统。技术发展对于说话人识别这个领域的研究最早开始于 20 世纪 30 年代，最早的研究者们主要研究真实人类对语音的实际反映，考察人耳听辨发音来识别说话人的可能性，探索初步进行听音识别的方法。进入 20 世纪的下半个世纪，随着生物信息研究和计算机信息技术的飞速发展，通过计算机自动识别语音来源成为可能。 20 世纪 70 年代以后，说话人识别进入飞速发展阶段，成为语音领域的一个重要分支，国内外的各大科研机构和大学也针对说话人识别问题展开了多方面的研究，取得了很多有意义的研究成果，推动了说话人识别的发展。研究者在研究中发现语音信号中包含了很多层次的信息，这些信息既有底层的声学信息特性，也有高层的语言韵律信息，分析和利用这些不同的信息能对说话人识别提供理论基础和识别依据，促进了说话人识别的进步。在说话人识别领域，目前使用的特征绝大部分是研究语音信号频率上短时倒谱（性得到的声学特征，这些特征主要模拟语第 1 章绪论 4 音信号中的底层声学特性，例如人耳的听觉特性、声道的发声机理等，主要包括：梅尔频率倒谱系数（ 1980; 1981; et 2001）、线性预测倒谱系数（（ 1976）、感知线性预测系数（（ 1990; et 2004）等；此外，基于语音长时特性的特征也常被使用，并与上述的短时声学特征进行结合，例如发音的基音周期、共振峰信息、韵律声调等（ 2003; 段新等 , 2003; et 2011），这些特征相对短时谱特征，其稳定性会差一些，容易受到环境和发音的影响。总的来说，现实中会根据实际环境和需求综合考虑特征的选择。在模型领域，基于统计的机器学习方法占据了主流地位，其中最经典的建模方法是基于高斯混合模型 - 通用背景模型（（ et 2000）的方法。使用这种建模方式可以统一的描述语音中的整体信息，为说话人识别提供判别依据；随着对语音中各种信息研究的深入，在模型领域开始探索利用语音中的不同信息来进行分别建模，联合因子分析（（ 2005; et 2007）和模方法（ et 2011）就是基于这种思想从统上发展得到的。这两种方法希望将型中统一的语音信息分解为说话人信息和其他对说话人干扰的信息，分别对其建模，从而描述了语音中会话变化（的信息，建立更精细的模型，达到减少其他信息干扰的目的。在现实应用中，这些方法在满足限定条件的情况下可以取得比较满意的性能。说话人识别应用和挑战应用情况随着说话人识别技术的发展，说话人识别在现实生活中的各个领域得到了广泛的应用（ 1997; et 2004）。在商业领域的应用中，使用人的语音来为各种商业服务进行身份验证和访问控制，有着很好的应用前景。 1995 年在用户的智慧卡（嵌入用户的声纹信息和其他相关信息，开始了说话人识别在实际生活中的应用； 1998 年欧洲电信联盟同时推进了个计划，说话第 1 章绪论 5 人识别开始在电信网通信上得到应用； 2006 年荷兰的一家银行使用美国司研发的说话人识别系统，在银行产业中率先使用了说话人识别技术； 2011 年中国建设银行与北京得意音通技术有限公司合作，基于说话人识别技术构建了声纹电话银行系统，在户所需要更高安全级别的场合提供使用了声纹识别来验证用户身份的服务，加强了银行服务的安全性，目前已经开始提供服务并推广使用。除了商业方面的应用，说话人识别在公共服务领域也开始发挥作用。美国的康保险公司于上个世纪末利用用户语音，生成了相对应的数字签名并发挥了作用。在国内，各个省份的社保局机构也在近几年开始准备使用用户语音来帮助社保方面各类服务的顺利开展。此外安全领域和出入境控制也是说话人识别最直接的应用场合（ 1990; 于哲舟等 , 2004; 龚伟 , 汪鲁才 , 2006; 2011），通过各种安全监控措施获取控制对象的语音并进行自动的身份识别，从而达到目标控制，缩小嫌疑人的侦查范围等目的。而从海量的语音数据中自动获取某个目标说话人的语音，可以极大地减少安全监控方面的人力开销，并减少误差，为国防安全提供可靠的相关信息。说话人识别的推广应用与这种技术本身的成熟发展是息息相关的，随着说话人识别研究的不断发展和说话人识别系统的性能改进，该技术在现实中的使用会越来越方便，应用也会越来越广泛。实际应用中的挑战近年来限定条件下的说话人识别已经取得较为成熟的应用，但是实际环境的复杂情况会对说话人识别产生严重的干扰。声纹预留和声纹测试会受到具体环境的影响而导致训练识别匹配性下降，说话人识别性能损失明显，这对说话人识别系统在实际使用中的鲁棒性提出了更高的要求，所以针对在各领域应用中的实际挑战，从事说话人识别领域的研究者在以下方面开展了科研工作： 1. 训练与识别的信道不匹配：在实际应用中，用户可能会在语音预留和测试时使用不同的手机或者终端，这就会带来跨信道的问题。这方面主要的解决方法是从特征域、模型域和分数上对信道进行补偿或消除，减少信道带来的影响，上文中介绍的统就能在一定程度上解决这类问题（ 2003; 2005）； 2. 背景噪音的影响：在对说话人的语音数据进行采集时，不可避免的会受到第 1 章绪论 6 现实环境中噪音的影响，噪音会干扰语音中的说话人信息，减少说话人模型的分辨特性，也会使训练识别失配。这种情况下需要使用对噪音更鲁棒的特征，并对语音信号进行去噪处理，减少噪音的影响（ et 1992; 2002; et 2007）； 3. 多个说话人的相互干扰：目前的说话人识别系统主要针对语音来自单个说话人的情况，但实际应用中往往会存在一段语音中录制了多人对话的现象，这种情况下不能直接使用这段语音，需要分析语音中的不同特性，寻找语音转换点，将其转变为不同说话人的语音，这种方法一般称为说话人分割聚类（ 1999; 2004; et 2004; 2009）； 4. 时间变化带来的失配：说话人的个性信息随着年龄的增长会产生一定的变化，这种变化会降低声纹的稳定性，针对这个问题一般会对这种变化特性进行描述，选取语音特征中随时间变化较小的部分来进行说话人识别，增强系统鲁棒性（ et 2012）。以上这些实际问题一直是说话人识别的研究热点，近年来随着说话人识别的广泛应用，另一个实际问题也慢慢被研究者所注意：即短语音问题。说话人识别系统应用的一个重要前提是需要充足的测试语音来分辨当前语音的目标说话人，但现实应用中由于各种各样的原因很有可能获取不到充足的测试语音，此时说话人识别系统性能会如何变化就是一个很值得研究的问题，本文的研究课题即从这个实际应用的难题而来。短语音说话人识别短语音问题的研究意义在当前的技术发展条件下，研究较短的测试语音时长下的说话人识别具有很强的现实意义： 1. 对于实际应用中的说话人识别系统，其用户体验的好坏已成为一项重要的评价指标，显然较短的测试语音时长会带来更好的用户体验； 2. 在很多说话人识别的应用领域中，其实际使用时无法获取到足够长度的测试语音（如刑侦安防等领域）。同时，说话人识别的系统性能会受到测试语音长度直接的影响。早在 1983 年，研究者就开始注意到进行说话人识别是需要一定的数据长度来保证的（ Li r, 1983）。文章里面提到，对于文本第 1 章绪论 7 无关的说话人识别，通常在训练和识别阶段都需要有充足的语音数据来保证建模和识别算法的性能。为了验证这个观点

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文

文档简介

温馨提示

最新文档

评论

【毕业学位论文】短语音说话人识别研究短语音说话人识别研究-计算机科学与技术系博士论文

文档简介

温馨提示

最新文档

评论

相关文档