(计算机软件与理论专业论文)音素级的英语发音纠错算法的研究.pdf_第1页
(计算机软件与理论专业论文)音素级的英语发音纠错算法的研究.pdf_第2页
(计算机软件与理论专业论文)音素级的英语发音纠错算法的研究.pdf_第3页
(计算机软件与理论专业论文)音素级的英语发音纠错算法的研究.pdf_第4页
(计算机软件与理论专业论文)音素级的英语发音纠错算法的研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机软件与理论专业论文)音素级的英语发音纠错算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 英语口语发音评测是计算机辅助口语学习所面临的一个重要课题 尽管当 前的口语发音评估系统可以提供一些令人振奋的评估结果 但他们大多是关注 发音的声学特征的评测 很少关注更加细节的纠错 如音素级别的发音纠错 本文主要研究英语口语学习中的音素级的发音纠错算法 本论文应用语音识别 置信度等相关技术 建立一套适合中国人发音的计 算机辅助发音纠错系统 论文中对发音纠错算法的设计和实现方面做了以下三 方面的工作 一 改进强制对齐网络 组建易混淆网络 对可预知的音素级别 的发音错误进行纠错 本文针对中国学生可能的发音错误类型构造出易混淆网 络 通过强制对齐算法检测发音错误的位置及发音错误的类型 二 引入反模 型的概念 将反模型应用到强制对齐网络中 补充纠正易混淆错误集之外的不 可预知的错误 定位发音错误的音素 并予以反馈 三 针对传统对数似然纠 错算法的不足 引入置信度到发音纠错算法中 对传统的发音纠错算法进行改 进 从而达到提高纠错效果的目的 通过以上三个方面的努力 相对于原有的英语发音纠错算法 本文所介绍 的算法在音素级纠错方面得到了一定的改进 未来将应用到本实验室开发的手 持式口语纠错系统中 关键词 音素纠错计算机辅助语言学习置信度 a b s t r a c t a b s t r a c t t h ee v a l u a t i o no fp r o n u n c i a t i o nf o rs p o k e ne n g l i s hi so n eo fk e y p r o b l e m sf o r c o m p u t e r a s s i s t e dp r o n u n c i a t i o nt r a i n i n g c a p t t h o u g h c u r r e n t s p e e c h p r o n u n d a t i o ne v a l u a t i o ns y s t e mp r o v i d e sal o to fe n c o u r a g e dr e s u l t s t l l e yu s u a l l y p a ym o r ea t t e n t i o no np h o n e t i cf e a t u r e so ft h ep r o n u n c i a t i o n a n df e wo ft h e mp a y a t t e n t i o nt ot h ep h o n e m el e v e ld e t e c t i o n w h i c hi si m p o r t a n tt og i v eu s e f u lf e e d b a c k t oe n g l i s hl e a r n e r s i nt h i sp a p e r w ed i s c u s s e dt h ep h o n e m el e v e le r r o rd e t e c t i o ni n c a p ts y s t e m t h i sp a p e rp r e s e n t st h es t r u c t u r eo fac o m p u t e ra s s i s t e dp r o n u n c i a t i o nt e a c h i n g s y s t e m t h es y s t e mi si n t e n d e dt oh e l pt h ee n g l i s hl e a r n e r sw h o s em o t h e rt o n g u e sa le c h i n e s e i m p r o v et h e i rp r o n u n c i a t i o nl e v e lo fe n g l i s h i ti sm a i n l yb a s e do nt h e t e c h n o l o g yo fc o n t i n u o u ss p e e c hr e c o g n i t i o n c o n f i d e n c em e a s u r ea n dt h er e s e a r c ho f e n g l i s h c h i n e s ec o m p a r a t i v ep h o n e t i c s t h i sp a p e rc o n s i s t so ft h r e ew o r k s f i r s t i m p r o v e t h et r a d i t i o nf o r c e a l i g n m e n t n e t w o r k t h r o u g h a d d i n gf r e q u e n t m i s p r o n o u n c e de r r o rd a t a b a s ei nt h en e t w o r k i nt h i sw a y w ec a nd e t e c tt h e f o r e s e e a b l ee r r o r sf o rc h i n e s el e a r n e r s s e c o n d w ei n t r o d u c et h ec o n c e p tn a m e d a n t i m o d e l w eu s ea n t i m o d e lt od e t e c tt h ee r r o r sw h i c hw o u l dn o tb ei nt h ef r e q u e n t e r r o rd a t a b a s e w ea i m e do nd e t e c ta l lt h ep o t e n t i a le r r o r sf o rc h i n e s el e a r n e r s t h i r d w ea n a l y z e dt h e l i m i t a t i o no ft h et r a d i t i o n a ld e t e c t i n ga l g o r i t h m a n di n t r o d u c e d c o n f i d e n c el t l e a s u r e w ee x p e c t e dt ou s ec o n f i d e n c em e a s u r et os o l v et h ed e t e c t i o n p r o b l e m t h ep r o n u n c i a t i o ne r r o rd e t e c t i o na l g o r i t h md e s c r i b e db yt h i st h e s i sr e a c h e sa g o o dp e r f o r m a n c ea n dw i l lb eu s e di nt h ee m b e d d e ds y s t e mo fo u rs p e e c hl a b k e yw o r d s p h o n e m ee r r o rd e t e c t i o n c o m p u t e r a s s i s t e dp r o n u n c i a t i o n t r a i n i n g c a p t c o n f i d e n c em e a s u r e i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集 保存 使用学位论文的规定 同意如下各项内容 按照学校要求提交学位论文的印刷本和电子版 本 学校有权保存学位论文的印刷本和电子版 并采用影印 缩印 扫描 数字化或其它手段保存论文 学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务 学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版 在不以赢利为目的的前 提下 学校可以适当复制论文的部分或全部内容用于学术活动 学位论文作者签名 年月日 经指导教师同意 本学位论文属于保密 在年解密后适用 本授权书 指导教师签名 学位论文作者签名 解密时间 年月日 各密级的最长保密年限及书写格式规定如下 南开大学学位论文原创性声明 本人郑重声明 所呈交的学位论文 是本人在导师指导下 进行 研究工作所取得的成果 除文中已经注明引用的内容外 本学位论文 的研究成果不包含任何他人创作的 已公开发表或者没有公开发表的 作品的内容 对本论文所涉及的研究工作做出贡献的其他个人和集 体 均已在文中以明确方式标明 本学位论文原创性声明的法律责任 由本人承担 学位论文作者签名 年月 日 第一章引言 第一章引言 第一节本论文的研究背景 随着中国经济的快速发展 更多的外国资本 人才和技术进入中国 英语 水平已经成了一些人成功的瓶颈 特别是加入w t o 以后 各个产业的涉外业务 急剧增加 从而引爆了英语学习的热潮 而英语口语作为人们日常交流的首选 工具 也显得愈发重要 使其成为国人最希望提高的方面 然而现实情况是 英语教师极度匮乏 具备英语口语教学能力的老师更是少之又少 还有就是随 着计算机硬件的飞速发展 计算机的计算能力迅速提高 使其实时处理多媒体 信息成为可能 由此 基于计算机平台自动英语口语评估系统便呼之欲出 这 种系统有以下优点 它永远不会感觉到疲倦 能够集中精力面对每一个用户 人们可以在任何时间使用 不论白天和黑夜 对于一些对自己口语不自信的用 户来说 在虚拟环境中提高自己的口语水平是极佳的选择 因此 开发计算机 发音辅助系统将会有很大的市场 而当前还没有十分可信和稳定的英语发音纠 错算法出现 研究中国人的英语发音纠错算法成为当务之急 随着语音识别的发展 自动语音识别技术被逐渐的应用在计算机辅助发音 训练系统 c o m p u t e r a s s i s t e dp r o n u n c i a t i o nt r a i n i n g c a p t 的研究中 并且取 得了很大的进展 但是 当前的c a p t 系统大多针对用户的英语发音进行质量 评估 而忽略了在英语学习中占有很重要地位的 反馈 即对用户的发音进行 音素级的纠错 并且提供给用户有意义的反馈信息 帮助用户了解自己在发音 中的不足 第二节本论文的研究主题和意义 基于当前c a p t 系统中的不足 本文主要研究主题是英语学习中音素级的 发音纠错算法的研究 包括声学模型的构建 英语语音信号切割 以及英语发 音纠错三个部分 从定义发音纠错系统的各部分开始 依照中国人发英语的特 点 设计合理的发音纠错流程 并且针对每个部分设计了对应的试验 目的是 建立一套合理的英语发音纠错系统 本课题研究的意义在于整合目前先进的语音信号处理和语音识别的相关技 第一章引言 术 运用在英语的发音纠错评测上 使其具备稳定准确的定位用户英语发音错 误 并提供给用户有意义的反馈意见 这一功能的实现必将极大增强英语口语 学习的效率 促进c a p t c o m p u t e r a s s i s t e d p r o n u n c i a t i o nt r a i n i n g 技术的成熟 第三节国内外相关技术发展现状 近年来 随着计算机速度的提高 语音识别技术的进步 利用自动语音识 别技术对口语语音评估成了研究的热点 ln e u m e y e r 1 9 9 6 8 以法文为主 设计了一种语音交互式语言学习系统 v i l t s v o i c ei n t e r a c t i v el a n g u a g et r a i n i n gs y s t e m 使用s r i 的连续语音识别 系统d e c i p h e rt m 动态产生的语音片断 对用户所说的语音进行评分 系统分别 从四个方面进行计算机自动评分 h m m 相似度 语音片准确度 语音片周期和 语速 然后 将所得结果与人为评分进行比较 取得了很好的效果1 7 j hf r a n e o 1 9 9 7 对上面系统进行了改进 采用了基于h m m 的后验概率 分别在句子 层面和说话人层面提高了评估的准确度 把与人类专家的评分接近程度从o 5 提 高到o 8 8 y o o nk i m 1 9 9 7 9 同时采用了基于h m m 的相似度和基于h m m 的后验概 率 并且去掉了语速的评估 对比后发现基于音素的后验概率方法与人为的评 分最为相近 可以达到0 7 2 它是所有算法中最好的 g i n a a n n el e v o w 1 9 9 9 b o 从过程和结果层面列出了模拟人类评分建模所 要面对的挑战 并且提出在语音特征和语音识别领域目前不可能对评测过程进 行全面的建模 由于数据量小 要求适应变化的语音模型 另外 识别器采用 了宽松的语法 使得其能够接受基于目标语言的语法和语义层面变化的不同的 语音 这些改变允许我们根据不同需要对人为评估过程建模 s m w i t t 2 0 0 0 1 1 3 在音素的层面上对说话者所说进行评估 优点是 可 以准确地定位说话者发音的错误所在 评估说话者所说与目标语音的相似程度 以及通过与标准语音库的对比找到体系性的区别 使用基于相似度的g o p g o o d n e s so f p r o n u n c i a t i o n 方法 根据语言专家提供平均的目标语言信心指数 和拒绝接受语音的统计量 对每一个音素设定一个阈值 然后从四个方面 音 素接受 拒绝的严格程度 两句话的总体一致度和相互关联度以及音素关联 评 估计算机评分与人类专家评分的接近程度 2 第一章引言 an e r 2 0 0 3 2 3 通过对自动语音识别系统应用于非母语语音训练的研究 指出c a p t c o m p u t e r a s s i s t e dp r o n u n d a t i o nt r a i n i n g 某些不足之处是出于对自 动语音识别系统缺乏了解或是设置课程不当 并且得出结论 如果使用适当的 方法 并且加上错误发音检测 评估系统甚至能够提供像人类专家一样的评估 结果 国内方面 香港大学的y sl a i 2 0 0 6 2 4 提出对用户的语音数据进行音素 级别的分段打分 通过整合每一段音素的得分来得到这段语音的整体得分 并 且对音素的得分进行分级 通过将音素得分分为三级 b a d f a i r g o o d 来给出每 个音素的反馈意见 在一定程度上提高用户的英语发音 以上是对当前c a p t 系统的研究现状的综述 就如上节中提到的一样 随 着人们对口语学习越来越重视 仅仅是提供给用户口语发音的评测已经远远不 能满足用户的需要 用户希望能从c a p t 系统中得到更有意义的错误反馈信息 因此 稳定准确的定位用户发音错误 并提供给用户有意义的反馈在c a p t 系 统中的应用显得尤为重要 第四节英语发音纠错系统简介 当前对英语发音的纠错评测 主要集中在从声学特征方面进行评估 通过 强制对齐将用户的语音信号进行切割 切割为音素级的语音信号 然后通过计 算各个音素级的语音片断同标准的音素声学模型库的各种不同的相似度 得出 一个评估的分值 最简单的方法是波形对比 即使用预先录制好的特点内容的口语发音 同 口语练习者在现场模式采集的发音进行逐帧对比 通过计算两者的相似度比率 给出基于h m m 的相似度分值和后验概率分值 从而给口语练习者的发音一个 基于数值的评分 这种方式的优点在于 对比的算法简单 速度快 同时也有 其天生的缺陷 如果要学习大量的语句 需要录制大量的语句标本 因此 这 种方法不具有灵活性 不同口语练习者有其固有的发音特征 不可能把其归一 到同一个发音标本的发音方式上去 口语练习者无法发现其自身的发音缺陷 而只会简单的模仿录音标本的发音 由于上述方法缺乏灵活性 就出现了使用自动语音识别系统辅助语音评分 纠错的方法 主要的思想是利用识别系统产生的声学片断 将其和标准的声学 第一章引言 模型进行对比 得出一个相似度的分值 评估的过程如下 1 用户输入语音 进行语音信号的前端处理 2 自动语音识别系统把输入语音信号进行音素级切割 3 把切割得来的音素语音片段同不同的音素声学模型进行对比 4 根据不同的需要计算输入语音片段同标准声学模型的相似度 可以包括 h m m 相似度 对数h m m 相似度和后验对数h m m 相似度等 得到一个分 值 5 对得到的与各个音素的相似度值进行排序 判断用户音素级的发音 并提供 给用户有效的反馈信息 本文依照上面的评估过程 针对中国人发英语的特点 设计了一套合理的 发音纠错算法 并且对声学模型的训练 音素的切分 相似度的评估进行了探 讨和改进 图1 1 为本论文发音纠错系统流程图 首先建立稳定的声学模型 音素级声 学模型是整个发音纠错系统的基础 为了确保通过声学模型切割出的音素语音 片断的可信度及正确率 本文分别使用标准英语发音和自适应英语发音的语音 数据来训练声学模型 并通过相关实验来证明白适应后的音素声学模型能够更 加准确的刻画语音样本分布的本质 第二部分为英语语音信号的切割 建立起稳定可靠的声学模型后 通过建 立声学模型和发音文本之间的联系构建强制对齐网络 使用维特比 v i t e r b i 算 法对输入的语音进行切割 将用户的语音段切割成音素语音片段 第三部分为音素级别的英语发音纠错 将切割后的音素语音片断送入发音 纠错系统中 为了很好的辨别用户的发音错误 本文引入了置信度这个概念 分别通过计算音素语音片断和标准声学模型的似然率 似然比 段时常等衡量 置信程度的参数 来衡量此段音素语音片断与标准声学模型的相似程度 以此 来纠正用户音素级的发音错误 提供给用户有意义的反馈信息 4 第一章引言 图1 1 发音纠错系统流程图 5 第一章引言 第五节论文内容安排 本文的研究主题是发音纠错 包括声学模型的建立 语音信号的切分 以 及英语发音纠错三个部分 为了进一步提高机器纠错与专家纠错的一致性 本 文提出了一种新的发音纠错算法 将置信度应用到发音纠错测评系统中 实验 证明 在实验室自行采集的非母语测试语音库上 新的算法取得了优于其它算 法的结果 本文的主要内容和组织结构如下 第一章主要介绍英语发音纠错算法的发展 基本原理和方法 并介绍了计 算机辅助发音训练 c a p t 的发展状况 第二章主要介绍了发音纠错算法的基础 声学模型的建立 包括语料库 的建设 语音特征的提取和隐马尔可夫模型的介绍 第三章介绍了英语语音信号的切割 这一章包含了许多语音信号处理的技 巧 包含语音信号的前端处理流程 强制对齐网络的构建 维特比算法等 其 中着重阐述了强制对齐网络的改进 并设计一系列实验 分析实验结果 第四章详细叙述了发音纠错算法 并将置信度引入到发音纠错算法研究中 给出基于置信度的发音纠错算法的整体思想和实现方法 第五章叙述了本系统中采用的改进强制对齐算法和基于置信度的发音纠错 算法相对于传统算法的实验结果 并对实验数据进行了对比分析 第六章对本文进行了全面的总结 讨论了本系统存在的问题 并对以后的 改进方向进行了展望 6 第二章声学模型的建立 第二章声学模型的建立 第一节引言 声学模型的目标是提供一种有效的方法 计算语音的特征矢量序列和每个 发音模板之间的距离 声学模型的设计和语言发音特点密切相关 声学模型是 发音纠错系统的基础 稳定准确的声学模型可以很好的描绘语音的特征 在实 际进行语音信号的切割前 我们必须产生声学模型 才能针对不同的语音信号 进行切割动作 第二节语音数据库的建设 由于中国方言的发音不同 影响了作为第二语言的英语发音也出现了不同 的特色 发音口型与标准英语也出现了很大的差别 因此 不能要求中国人的 英语发音方式与英语本土国人的完全一样 为了提高本纠错系统对中国人的英 语发音的识别率 在语音数据库的建设方面 需要采用英语标准数据库来训练 母语为英语的声学模型 并加入发音标准的中国人英语语音进行自适应的方法 这就需要标准英语语音数据库和自适应语音数据库的构建 另外 系统开发过 程中 需要充足的测试数据来支持纠错实验的进行 因此 针对中国人的错误 发音语音数据库也是十分必要的 这三个数据库是实现系统功能的基础 本节 将对这三个数据库的选取和建设工作进行介绍 2 2 1 标准英语语音数据库的选择 由于本文中设定的系统在算法上采用的是连续非特定人语音识别 功能上 要求对音素的错误进行标记 并且对不同的说话人要有较好的语音适应能力 由于系统的上述特点 在标准英语语音数据库的构建方面 有以下要求 1 包含的说话人数量较多 语句较多 2 有词表语音 以下把词表和说话人的语句统称为语句 3 对于同一语句 较多说话人应重复朗读 4 同一说话人对较多的语句进行朗读 音素丰富 5 说话人尽量不带方言 按国际音标朗读 语调应标准 7 第一二章声学模型的建立 6应有多个不同年龄段的说话人 使开发的系统能适应多种使用群体 7 每个年龄段的说话人应该较多 8说话环境的噪声十净或町控 通过对t i m i t 数据库 r e s o u r c e m a n a g e m e n t c o m p l e t es e t2 0 b o s t o n 大学 广播语音数据库 s a n t ab a r b a r a 美国口语数据库 c m u 儿童语音数据库 c s r 数据库等多个英语语音数据库进行词表大小 人数 方言 语句数目等多方面 的综合比较 调研国内其它语音实验室的研究情况和效果 最终选定t i m i t 数 据库作为该系统中应用的母语语音数据库 2 22 标准语音库 t l m i t 数据库简介 t i m i t 是一个朗读语音数掘库 它提供给英语声学一语音学研究 或用于 语音识别的开发和评测 它是由若干个单位在d a r p a s t o 国防部高级研究 计划局一信息科学与技术署 的赞助下共同完成的 文库是由m i t 斯坦福研 究院 s k i 和德卅l 仪器 t i 合作设计的 1 t 1 m i t 总括 t i m i t 总共包括6 3 0 0 个句子 由6 3 0 个录音人每人读十句 7 0 男3 0 女 来自美国8 个主要的方言区域 如图2 1 所示 n e w a r m ye n g le t n d b r a t 5 8 n c 1 6 n o r t h 16 s o u t h m i d l a n d 1 6 瞄21 各地区录音人员的方言分布 方言的均匀分布是t i m i t 数据库的一大特点 它的另一个特点是录音人性 别覆盖全面 下图2 2 为t i m i t 数据库中男女录音人员的比例 第二章声学模型的建立 各地区男录音人员比例 各地区女录音人员比例 图2 2t i m i t 数据库中男女录音人员的比例 录音人性别和方言区域的覆盖全面是当代大规模语音语料的普遍特点 而 t i m i t 中涵盖了八大方言区正是充分考虑到了该数据库以识别为主的广泛的应 用特点 整个设计充分覆盖了音素 性别 方言 句子类型和语音语境 以及适当侧 重了常见的语音现象 设计相当周密精到 此外 t i m i t 数据库还考虑到了以 语音识别为主的广泛和多层次的应用 面向主要的语音识别应用 t i m i t 中的语音材料被划分为训练和测试两部 分 标准如下 1 大约有2 0 3 0 的数据应该用于测试 剩下7 0 8 0 的数据用来训练 2 不应该有既在训练又在测试部分出现的录音人 3 两部分都应涵盖所有的方言区域 每个区至少有男女各一名 4 两部分文本材料的重合量应尽可能的小 如果文本相对较充足 不该有一样 的文本 5 测试材料中应该包括所有的音素 同一音素在不同的文本中出现次数尽量 9 b昌 薯3 o事 豪z 墨 专皇o 暑暑o 宅oz 芒互o 口 ioz 蓉乏 r rh一 啦 lf石50lfu7 d d a 九碧 i 盘 3墨事 参 乏 缸暑暑 沈 i 专暑o 圣 乏 台专 ioz 享q z 一 畈 力 吸 砸nv nh芍 斗 h i 第二章声学模型的建立 多 除了充分考虑了上述各项标准 t i m i t 语音数据库中还设计了核心测试集 和完整的测试集 核心测试集是实现语音识别功能的最低要求 而要想进行更 广泛更充分的测试 就应该使用完整的测试集来完成 2 t i m i t 中的标注 t i m i t 对语音进行了基本的音段标注 而且形式简单易读 标注结果十分 精确 每一个语音文件有3 个附加的标注文件与之对应 t x t w r d 和 p h n 分别提供基于采样点序号的按时间顺序的正字法 句子级 单词标记 单词级 和语音 音素级 标注 t i m i t 中的音段标注采用c m u 符号集 c m u 符号集 将在第三章中介绍 这套符号十分简约 除了音素以外 t i m i t 对不同的停顿 静音和主要的音位变体提供了简单的符号表示 另外 t i m i t 语音数据库在录音质量控制 文档结构甚至编辑发行上都有 很多独到之处 很多有名的语音数据库 也是在t i m i t 数据库的基础上进行数 字化等处理后制作成的 可见t i m i t 数据库使用和影响之广 国内很多高校和 语音科研单位在进行语音研究的时候 最常用的语音数据库也是t i m i t 并在 语音处理的各个不同的方向上取得了很多成果 2 2 3 自适应语音数据库的构建 除了标准的英语发音数据库 为了提高本系统对中国人英语发音的识别率 我们还需要建立自适应的语音数据库 需要对标准英语语音数据库进行自适应 针对系统功能的要求 我们期望自适应的语料库中用户的发音应该是比较标准 的 无中国人常见的各种发音错误 另外语料库中应尽可量的覆盖英语中出现 的所有音素 并且各种音素出现的次数应该尽量相近 保证出现的次数均较多 按照上面的原则 对该系统采用的自适应数据库的脚本和语料设计制作分 为脚本的设计 初始语料制作 初始语料评价和完成自适应语音数据库制作四 个步骤 1 脚本的设计 自适应数据库的脚本由2 0 0 个单词 3 篇对话和3 篇短文构成 脚本中能充分包含所有音素 2 初始语料制作 初始语料由l o 个来自南开大学英语系的学生录音完成 其 中5 个男生 5 个女生 每个学生朗读2 0 0 个单词 随机选取的1 篇对话和 1 短文 单词 对话 短文各读两遍 l o 第二章声学模型的建立 3 初始语料评价 对初始语料录音完毕后 对初始语料进行分割 分割成较小 的文件 每个小文件中包含4 1 0 个单词或一个句子 然后 请南开大学英 语系英语方面的专家对这些小文件分别进行打分 打分中不考虑文件间的关 联性 打分采用5 分值 1 分为最差 5 分为最好 2 3 4 分分别代表较 差 一般和较好 4 完成自适应语音数据库制作 将打分分值为5 分的文件挑出 作为自适应训 练和测试的数据 经过处理后 最终的白适应数据共9 0 0 旬 时长约1 个小 时1 0 分钟 2 2 4 错误发音测试数据库的构建 错误发音数据库用来最终测试系统性能 它的脚本和语料的建设必须满足 下面的原则 1 脚本中应包含中国人进行英语发音易犯的各种错误 2 录音人应广泛分布在全国各个地区 发音应能代表各地方言的特征 3 录音人的数目应较多 录音数据量较大 4 录音人中 男女生比例悬殊较小 按照以上四条原则 错误发音数据库设计如下介绍 1 错误发音数据库的脚本中 包含8 5 个单词 4 个句子 脚本中包含了可能 产生本章第三节中所介绍的各种发音错误的单词和句子 2 语料由6 0 个录音人录制 其中包括3 0 个男生 3 0 个女生 分别来自于湖 北 广东 北京 天津 河北 四川 安徽等省市地区 每个录音人对脚 本内容朗读两遍 英语发音纠错系统通过给纠错者一定的反馈 帮助学习者纠正发音 提高 口语水平 系统的打分的正确性应该参照英语专家的批判 因此 需要请英语 口语专家对错误发音测试数据库中的语音进行人工的错误纠正 此环节中 本文邀请了两位南开大学英语系的老师 请他们对错误发音测 试数据库中的语音分别进行错误纠正 在纠正口语错误的过程中 不考虑重音 声调等方面的影响 只对音素发音质量的好坏进行评判 通过分别进行人工标 记 得到两个专家间对音素的标记一致率达到8 9 2 3 第二章声学模型的建立 第三节标准音素模型建立 声学模型是指用于h m m 的一个抽象单位 通常一个声学模型包含数个状 态 声学模型是识别系统的底层模型 是语音识别系统中最关键的一部分 声 学模型的目标是提供一种有效的方法 计算语音的特征矢量序列和每个发音模 板之间的距离 声学模型的设计和语言发音特点密切相关 声学模型可以是音节或是音素 音节是完整的发音单位 对于英语来说一 个单词可以对应若干个音节 例如 t o m o r r o w 有三个音节 音素是发音的最小 单位 在发音过程中 音素的发音可能出现变化 m o n o p h o n e 是以单一音素作 为一个声学模型 例如 d o g 中d 发音为刚 即为一个m o n o p h o n e t r i p h o n e 是以连续三个音素作为声学模型 还以d o g 为例 t r i p h o n e 中的 o 表示为 d o g 其中 m o n o p h o n e 不考虑音节发音的相互影响 因此 描述发声现象 不十分精确 t r i p h o n e 考虑到词间的协同发音 能够更加精确的描述发声现象 提高识别性能 但是 对于大词汇量连续语音的语音识别系统来说 t r i p h o n e 模型非常多 训练需要大量的训练语料 通常情况下 模型训练的不够充分 因此 并不能得到较好的效果 本文中对m o n o p h o n e 和t r i p h o n e 两种方式的 音素分别训练了h m m 模型 并应用在纠错系统中 声学模型采用隐马尔可夫 模型 h i d d e nm a r k o vm o d e l h m m 在t i m i t 语料中提出了6 2 个音素 由于中国人对于一些音素不像外国人念 得那么准确 再加上训练语料的不足 如果减少训练音素模型的个数 可以使 每个音素模型的可以取得的训练语料增多 鉴于以上原因 本文参照c m u 的做 法 不考虑同一个音标在不同位置的重音情况 定义了4 1 个声学模型 包含3 9 个音素 m o n o p h o n e s 模型 1 个静音模型 s i l e n c em o d e l 和1 个短时停顿模 型 s h o r tp a u s em o d e l 表2 1 为标准的3 9 个基本音素 表2 1 标准音素模型表 序号c 删 t i m i t 音标 1a aa a a 2a ea e 3a ha h 4a oa o 3 5a w跚 a u 6k y a y a l 7bb b 1 2 第二章声学模型的建立 表2 1 标准音素模型表 续表 8c hc hu 9ddd x d 1 0d hd h 6 1 le he h e 1 2e re ra x ra x ha x 9 1 3e y e y e l 1 4ff f 1 5g gg 1 6h hh hh v h 1 7i hi l li i 1 8i y l y i 1 9j h j h d 3 2 0kk k 2 1ll i 2 2mmm 2 3nnn x n 2 4n g n g 口 2 5o wo w 9 u 2 6o y o y 3 i 2 7p p p 2 8rr r 2 9ss s 3 0s hs hi 3 1t t t 3 2u wu wu x u 3 3t ht h 8 3 4u hu h u 3 5 v u v 3 6ww w 3 7 y y j 3 8zz z 3 9z hz h 3 第四节隐马尔可夫模型 本文用到的声学模型是以隐马尔可夫模型为基础训练的 经由前人研究 2 3 4 隐马可夫模型基本上是一种双重且随机的过程 而其称为隐藏的主要原 1 3 第二章声学模型的建立 因在于其中有一组随机过程是隐藏且无法看见 对应于语音时就如同人类在发 声的过程中其发声器官 如声带 舌头 口腔等 它们的变化没有办法从观测 的语音信号序列中看出来 而另一组随机过程则称为观测序列 o b s e r v a t i o n s e q u e n c e 它是由状态观测机率 s t a t eo b s e r v a t i o np r o b a b i l i t y 来描述在每个 状态下观测到各种语音特征参数的机率分布 h m m 的特性正好适用来描述语音的特性 把每个状态看成是声道 v o c a l t r a c t 正处于某个发声的状态 a r t i c u l a t o rc o n f i g u r a t i o n 而状态观测机率则描 述了在某个发声状态下听到各种声音的可能性 2 4 1 隐马尔可夫模型的数学描述 h m m 的特征参数定义如下 2 3 4 1 隐马尔可夫模型中的状态数 虽然在h m m 中状态数是隐含的 但 在实际应用中它是有确切的物理含义的 标记模型中的各个状态为 1 2 在t 时刻所处的状态为g f 2 m 每个状态中可以观察到的符号数 标记各个观察符号为 v v l v 2 v m 观察序列为0 o i 0 2 0 r 其中o t 为集合y 中的一种观察 符号 丁为观察序列长度 3 状态转移概率分布a a u 其中 口f 尸 g f l jl 吼 f 1 f n l j n 2 1 4 观察符号的概率分布b b j k 其中 b j k 尸 d f 屹l q j 1 k m 1 j n 2 2 5 初始状态概率分布万 乃 其中 乃 p q l i 1 f n 2 3 基于这些特征参数 h m m 产生观察序列0 d l 0 2 0 r 的过程可以作如 下描述 1 根据初始状态概率分布万 选择一个初始状态q f 2 置观察时间t 1 3 根据当前状态下观察符号的概率分布b 选择o t v 4 根据状态转移概率分布彳 从当前状态吼 辞专移到下一个状态q j 5 置t t l 如果t 确定一个允 彳 b 万 使e olz 最大 显然 由式 2 6 和 2 1 0 定义的向前和向后变量 有 p oi 兄 c t i a b a o 1 屈 1 1 f p di 元 即由重估公式得到的万比旯在表示观察值序列0 方面更优 重复这个过程 逐 步改进模型参数 直至f jp ol 石 收敛 即不再明显增大 此时的瓦即为所求值模 型 第六节h m m 模型自适应 根据上述的h m m 的基本原理 本文采用t i m i t 数据库做训练数据 为标 准音素表中的3 9 个音素分别训练了声学模型 但是中国人发英语与标准的英语 有一定的差距 声学模型的训练是整个系统的基础 如果模型不够准确就不能 很好的反应数据分布的本质 在下面的音素切割和发音纠错的过程中也不能得 到稳定可靠的结果 所以 仅仅是采用标准的英语发音数据库训练声学模型是 不够充分的 由于训练好的h m m 参数可以在一定程度上表示训练环境的情况 而实际 使用时的测试数据可以反映测试环境的某些特征 因此 要使训练环境和测试 环境达到匹配 可以有两种方法 一种基于特征的自适应方法 另一种是模型 1 9 第二章声学模型的建立 的自适应方法 前一种方法对每帧语音特征都要使用相同的方法进行修改 效 率较低 本系统中采用的便是基于模型的自适应方法 本文构建了自适应语音数据库 构建的过程和详细介绍如上章节2 1 所示 本文做了以下识别实验 使用标准语音模型以及自适应后的模型 此实验模拟 了真实使用环境下系统的识别效果 该实验中使用的测试集是2 1 中介绍的用于 测试的自适应语料 语料中大约包含9 0 0 个英语语句 时长约1 小时1 0 分钟 a 实验一 训练数据 标准t i m i t 数据库 声学模型 n h m m h m mt r a i n e df r o mn a t i v e s p e a k e r 测试数据 标准t i m i t 数据库中提供的测试数据 图2 4 标准音素模型的音素识别错误率 b 实验二 训练数据 标准t i m i t 数据库 声学模型 n h m m h m mt r a i n e df r o mn a t i v e s p e a k e r 测试数据 自适应数据库 图2 5 没有自适应的hm m 模型的音素识别错误率 第二章声学模型的建立 c 实验三 训练数据 声学模型 h m m 测试数据 标准t i m i t 数据库 标准声学模型经过自适应数据库进行自适应a h m m a d a p t i v e 自适应数据库 图2 6 自适应后的h m m 模型的音素识别错误率 从上面的三个实验中可以清楚的发现 自适应后的h m m 模型在识别非母 语时比没有自适应的h m m 模型有着更好的效果 自适应前 标准的音素模型 识别非母语的英语发音 最好情况下音素错误率为6 3 0 1 而自适应后 识别 非母语的英语发音 最好情况下音素错误率可以降低到4 4 6 5 所以在下面的 章节中本文都使用自适应的h m m 模型作为音素的声学模型 第七节本章小结 本章首先介绍了声学模型的设计 包括语料库的选择 声学模型的训练 然后引出声学模型训练的理论基础隐马尔可夫模型 重点介绍了隐马尔可夫模 型的理论基础和自适应 并且设计实验并分析实验结果 2 1 第三章英语语音信号切割 第三章英语语音信号切割 第一节引言 语音信号切割的主要目标是希望能够将连续的英文语音句子 其中包含了 标准语音和评分的语音 切割成独立的音素 如此一来才可以针对每一段句子 中的音素和标准音素模型做比较 从而进一步分析用户音素级别的发音错误 为下面的发音纠错算法作铺垫 因此 稳定可靠的语音切割算法至关重要 因 为切割的结果的正确与否直接影响到发音纠错算法的实施 本章节着重介绍英 语语音信号的切割流程 这一章包含了很多语音信号处理的技巧 包括端点检 测 维特比算法 语音信号的前端处理以及语音信号切割 并且着重介绍了语 音信号切割的核心算法一基于网络的强制对齐算法 第二节语音信号切割 3 2 1 语音信号切割流程 一个完整的语音信号切割系统包括切割的前端处理 端点检测 e n d p o i n t d e t e c t i o n 特征提取 强制对齐等 在前处理的过程中 首先要让切割程序了 解到它要切割的语音信号的内容是什么 因此首先要准备好将要切割的语音信 号的文本文件 然后利用c m u 字典 d i c t i o n a r yf r o mc a r n e g i em e l l o nu n i v e r s i t y 包含1 2 7 1 0 2 个单字 来对文本文件中的各个单字进行标音 标清每句话中包 含的音素 标完音后依标音结果建立对应的强制对齐网络 透过前处理动作产 生的强制对齐网络可提供程序完成语音信号切割的功能 以单词 b e a r 为例给 出前处理的基本流程图 文本p h o n e m e m o d e l f o r c e da l i g n m e n t n e t b e a rb a e e r 图3 1 音素网络示意图 第三章英语语音信号切割 上图为强制对齐的基本构建网络图 完成前处理动作后 便可继续进行主要语 音信号切割的流程 首先将一语音信号经过端点检测后再提取特征 取出语音 中的特征 在此本文采用2 4 节所提到的3 9 维梅尔倒频谱参数当作特征参数 然后将这些特征参数透过声学模型 h m m 隐马可夫模型 及语言模型 音素网 络 利用维特比算法 v i t e r b i a l g o r i t h m 即可找出最相似的音素 并得知各音 素的时间区段 图3 2 语音信号切割流程图 本文将在下面的小节中详细介绍端点检测 特征提取和维特比算法等语音 识别中重要的核心技术 3 2 2 端点检测 端点检测的目的是找出语音信号中的语音段落的起始点和终结点的位置 以去掉多余的静音 提高系统处理语音的速度 通过端点检测 可以去掉语音 信号前端和后段的非有声信号 减少对切割程序不必要的影响 端点检测有很 多种方法 其中比较常见的是基于能量值和短时过零率判断法 z e r o c r o s s i n g r a t e 3 1 第一步 先确定一个临界值 该临界值是根据作因情况下的短时平均幅度 参数的概率密度函数来确定的 临界值设为m h m 值一般定的较高 当一帧 输入信号的短时平均幅度参数超过m 时 可以判定该帧语音信号不是无声 而 有相当大的可能是浊音 根据 可判定输入语音的前后两个点4 和4 在4 和 第三章英语语音信号切割 4 之间的部分肯定是语音段 语音的精确起点 终点还要在4 之前和4 之后仔 细查找 如图3 3 所示 m m l z c b a a b2 c i 图3 3 端点检测原理示意图 取自文献 3 为此 再设定一个较低的阈值参数m 由4 点向前找 当短时平均幅度由 大n d 减至m 时 可以确定尽 类似地 可以由4 点向前找 确定局点 在且 和垦之间仍能肯定是语音段 然后由蜀向前和b 向后 利用短时平均过零率进 行搜索 根据无声情况下的短时平均过零率 设置一个参数z 如果有且向前 搜索 短时平均过零率大于z 的3 倍 则认为这些信号仍属于语音段 直到短 时平均过零率下降到低于3 倍的z 这时的点c 1 就是语音的精确起点 对于终 点做类似的处理 可以确定终点g 采用短时平均过零率的原因在于 置点以 前可能是一段清辅音 它的能量相当弱 依靠能量不可能将它们与无声段完全 分开 而对于清辅音来讲 它们的过零率明显高于无声段 因而能用这个参数 将二者分开 3 2 3 特征参数的提取 特征参数的选择以及提取 对于语音识别系统至关重要 是系统构建的基 2 4 第三章英语语音信号切割 础 一般将语音信号的特征矢量分成两类 第一类为时域特征矢量 通常将一 帧语音信号中的各个时域采样直接构成一个矢量 第二类为变换域特征矢量 即对一帧语音信号进行某种变换以后产生的相应的矢量 2 3 4 对于语音识别而言 常用的特征参数有时域上的幅度 或能量 平均过零 率等 频域上的线形预测系数 l p c l p c 倒谱系统 l p c c 线谱对参数 l s p 共振峰频率 第一共振峰f 1 第一共振峰f 2 第一共振峰f 3 短时频谱 m e l 频率倒谱系数 m f c c 等 其中 m f c c 由于反映了入耳的听觉特征 因而其 性能及其鲁棒性是所有参数中最好的 m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论