【毕业学位论文】基于音素分类的短语音说话人识别-计算机应用技术博士论文_第1页
【毕业学位论文】基于音素分类的短语音说话人识别-计算机应用技术博士论文_第2页
【毕业学位论文】基于音素分类的短语音说话人识别-计算机应用技术博士论文_第3页
【毕业学位论文】基于音素分类的短语音说话人识别-计算机应用技术博士论文_第4页
【毕业学位论文】基于音素分类的短语音说话人识别-计算机应用技术博士论文_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于音素分类的短语音 说话 人 识别 (申 请清华大学工学博士学位论文 ) 培 养 单 位 : 计算机科学与技术系 学 科 : 计算机科学与技术 研 究 生 : 方 远 香 指 导 教 师 : 郑 方 研 究 员 二 一二 年 十 月 in of 012 on of to a of to or of by of or _ _ _ 摘要 i 摘要 说话 人 识别是指通过声音识别一个人的身份。通常来讲,这需要大量的 语音数据。然而,现实生活中, 语音 数据的获取有着各种各样的困难。因此,使用提供的语音数据(或长或短)来有效地识别说话 人身份 变得至关重要。近来,不少研究者关注短语音说话 人 识别( 称并基于短语音提出了新的方法以提高说话 人 识别的性能。然而,大多数的方法将短语音设定为 10 秒左右,只有近期的研究将其设定在 3 秒左右。现有研究中最短的语音为 2 秒,其最小等错误率 (称 基于现有短语音 说话人 识别的研究成果,本文提出使用不超过 3 秒的语音(汉语或英语)对 说话人 进行有效地识别,包括以下内容和创新点: 1) 提出文本无关的短语音 说话人 识别 方法 。在短语音中,语音变化恶化了说话人 识别的性能。尽管文本 相 关的 说话人 识别有助于 解决该问题,但是通过短短几秒的语音片段进行 说话人 识别还不完全可行。因此,我们提出在基本的音素识别中使用语音单元知识,这不仅使 保留了潜在的语音信息。 2) 提出使用音素序列而不是连续语音进行短语音 说话人 识别 的思路 。由于音素是最小有意义的语音单元,使用音素序列可增加识别过程中的有用信息,且保留了 说话人 的特点。 3) 为了实现以上目标,我们使用了音素分类,即将相似的 音速 分为一类。这不仅解决了稀有分类中数据稀疏的问题,而且也使得不同类别的音素分布均匀。基于此,我们提出了音素类别的短语音 说话人 识别方法。 4) 为设计音素类别,我们学习了音素的语音和音韵属性,并基于发音特征设计了元音分类,以进一步实现基于音素分类的短语音 说话人 识别。 5) 为了测试音素组合的情况(元音和辅音),我们设计了音节分类,这是最常见的元音和辅音的组合。基于普通话的音节结构,我们设计了辅音分类,并通过组合元音类别和辅音类别设计了音节分类。 为了验证本文的方法,我们基于 3 秒、 2 秒和 1 秒的音素类别序列分别对全局背景的元音分类模型、辅音分类模型和音节分类模型进行了实验。实验结果证明大量的 说话人 信息包含在诸如音素和音节等小语音单元中,音节分类是 说话人 识别最 好的选择。元音分类同样也在短语音 说话人 识别中起到很好的效果,摘要 过辅音分类却在短语音识别中不能达到好的效果。实验结果表明,与现有统相比,在基于 2 秒的测试语音进行 说话人 识别时,本文方法(基于高斯混合模型和全局背景模型 ( 在带有韵律标注的语料库 最小 对降低了 绝对降低了 在 008 训练集的最小 对值分别降低了 和 关键字 :短语音 说话人 识别, 音素, 元音分类, 辅音分类, 音节分类 is of a by of of is to In in in In it to or to Of in a to in to of to be 0 as of in to a We to an to a on of or We as In a we 1) We of in of to at as as a is we of to of 2) We to of of to at of a 3) In to we of of of by of iv in of In so we 4) In to we to of of of we on 5) To of of we of We Cs Cs to Cs by We by C, CC C 2 Cs is in as as We in to a to ER of ER ER in ER ER v F 要 . i . . v 1 . 1 . 3 . 4 . 6 . 6 . 7 . 11 . 11 . 12 . 13 . 16 . 16 . 16 . 19 . 21 . 22 . 22 2 . 23 . 23 . 24 . 25 . 28 R . 29 . 32 . 33 . 34 . 35 . 36 . 37 . 37 . 38 : . 38 : . 38 . 39 . 39 3 . 41 of . 41 . 42 of . 44 . 45 . 47 . 48 . 49 . 50 . 52 . 53 . 54 1 . 54 (. 54 . 55 56 . 56 . 56 . 59 . 60 . 61 . 62 4 . 64 . 64 n . 65 . 66 . 67 . 68 . 68 . 70 . 70 . 71 . 80 . 82 5 . 83 . 84 . 85 . 87 . 93 . 94 . 95 1 1 is no of so as a a a is to of in of in is as as it is as of of to it to in of it is of as it us is in an in In to in or to of of is a it is SR is an R is to be to a in in in SR of of a s to a 2001)( 2001)( 2001)( 1 2001)( 2001)( 2001). an on of of or is to to a in as or to a is a in to a of be of in is a is it on of a of

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论