(通信与信息系统专业论文)发音自动评估系统的设计与实现.pdf_第1页
(通信与信息系统专业论文)发音自动评估系统的设计与实现.pdf_第2页
(通信与信息系统专业论文)发音自动评估系统的设计与实现.pdf_第3页
(通信与信息系统专业论文)发音自动评估系统的设计与实现.pdf_第4页
(通信与信息系统专业论文)发音自动评估系统的设计与实现.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(通信与信息系统专业论文)发音自动评估系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 中文摘要 发音自动评估是计算机辅助语言学习( c a l l ) 的一个重要课题,其目的就 是用计算机对语言学习者的发音水平进行自动评估,辅助其纠正发音错误,提 高口语水平。由于受语速、语调等因素的影响,直接采用与标准语音比对的方 式无法真实反映出发音的准确性,加上母语发音的影响以及说话人自身发音的 特点,对发音进行自动评估十分困难。常用的方法是采用自动语音识别技术建 立语言模型,对待测语音进行识别,根据识别系数来对发音的水平进行评估。 随着自动语音识别技术的不断发展,发音自动评估方法也越来越成熟。 本文系统研究了隐马尔可夫模型基础理论,论述了基于隐马尔可夫模型的 英语发音模型,针对母语为汉语的说话人对其进行了改进。在发音模型的构建 过程中,详细阐述了语音特征参数选择与提取的过程以及模型参数训练方法。 针对该模型,设计了一种对发音水平进行分等级评估的算法。同时,还给出了 该发音自动评估系统在p c 机上的实现过程。 在基于隐马尔可夫模型的发音评估系统中,母语发音特点对第二语言发音 的影响使得评估模型状态与测试语音的相似度下降,导致发音自动评估系统的 准确度降低。针对这种情况,本文利用母语为汉语的说话人的易混淆音对发音 模型进行了改进,使其更加符合这类人发音的特点。为了对发音进行评估,本 文设计了一种针对该模型的评估算法,以维特比强制对齐系数与自动语音识别 系数的距离为评分基础,将得到的系数映射到评分区间,以此来表征测试者的 发音水平。 本文以h t k 工具包为基础,实现了母语为汉语说话人的英语发音自动评估 系统。该系统主要包括发音评估引擎、语音采集与处理模块、波形显示模块等 三部分。发音评估引擎是该系统的核心,通过对h t k 进行二次开发实现。系统 各模块间通过标记文件进行数据传递。测试结果表明,该系统与人工评分的相 关系数为0 8 9 。 关键词:发音自动评估,隐马尔可夫模型,h t k 武汉理工大学硕士学位论文 a b s t r a c t t h ea u t o m a t i ca s s e s s m e n to f p r o n u n c i a t i o n i sa n i n t e g r a lp a r t o f c o m p u t e r - a s s i s t e dl a n g u a g el e a m i n g ( c a l l ) ,t h ea i m so fw h i c ha r et oc a r r yo u t a u t o m a t i ca s s e s s m e n to ft h el a n g u a g el e a r n e r s p r o n u n c i a t i o nc a p a b i l i t y , h e l pt h e m a d j u s tt h e i rp r o n u n c i a t i o na n d ,u l t i m a t e l y , i m p r o v et h e i ro r a le n g l i s hc a p a b i l i t i e s h o w e v e r , t h ei n f l u e n c eo f t h e i rm o t h e rt o n g u eo nt h e i rp r o n u n c i a t i o nc a p a b i l i t yf o ra s e c o n d a r yl a n g u a g ea n dt h ei n t r i n s i cc h a r a c t e r i s t i c so f a ni n d i v i d u a l sp r o n u n c i a t i o n , c o u p l e dw i t ho t h e rc o m m o ne l e m e n t s ,s u c ha s t h es p e e c hs p e e da n dt o n e ,h a v e h i n d e r e dt h ea c c u r a c ya n de f f e c t i v e n e s so ft h ea s s e s s m e n t t h ec o m m o nm e t h o d a d o p t e dt os o l v et h i sp r o b l e mi st oe s t a b l i s hal a n g u a g em o d e lu s i n ga u t o m a t i c s p e e c hr e c o g n i t i o nt e c h n o l o g yt or e c o g n i z et h ep r o n u n c i a t i o nu n d e r t e s ta n de v a l u a t e t h ep r o n u n c i a t i o nc a p a b i l i t i e s t os o m ee x t e n t ,t h ea u t o m a t i ca s s e s s m e n tm e t h o df o r p r o n u n c i a t i o nh a sb e e nb r o u g h tt om a t u r i t yb yt h ed e v e l o p m e n ti na u t o m a t i cs p e e c h r e c o g n i t i o n a f t e r s y s t e m a t i c a l l ye x p l o r i n g t h ef u n d a m e n t a l so fh i d d e nm a r k o v m o d e l ( h m m ) ,a l le n g l i s hp r o n u n c i a t i o nm o d e lb a s e do nh m m i si n t r o d u c e da n d s p e c i f i c a l l ya d j u s t e di n a c c o r d a n c e 、析t ht h ec h a r a c t e r i s t i c so fc h i n e s e - s p e a k i n g l e a r n e r s i nt h ee s t a b l i s h m e n to ft h i sm o d e l ,t h es e l e c t i o na n de x t r a c t i o no fs p e e c h f e a t u r ep a r a m e t e r sa n dt h et r a i n i n gm e t h o df o rp a r a m e t e r so ft h em o d e la r ea l s o e x p l a i n e d i nd e t a i l b a s e do nt h ep r o p o s e dm o d e l ,a na l g o r i t h mf o rt h ec l a s s i f i c a t i o n o f p r o n u n c i a t i o nc a p a b i l i t i e si sa l s op r e s e n t e da n da ni m p l e m e n t a t i o no fa u t o m a t i c a s s e s s m e n ts y s t e mf o rp r o n u n c i a t i o ni sa l s oi n t r o d u c e da tl e n g t h i nt h ep r o p o s e ds y s t e m ,t h ei n f l u e n c eo fm o t h e rt o n g u ep r o n u n c i a t i o no nt h e p r o n u n c i a t i o no fs e c o n d a r yl a n g u a g eh a sr e d u c e dt h es i m i l a r i t yb e t w e e na s s e s s m e n t m o d e ls t a t ea n dp r o n u n c i a t i o nu n d e rt e s ta n dd e c r e a s e dt h ea c c u r a c yo ft h ep r o p o s e d s y s t e m t of i xt h i sp r o b l e m ,a nu p d a t e dv e r s i o no ft h ep r o p o s e dm o d e li so b t a i n e d t h r o u g ha d j u s t i n gt h eo r i g i n a lm o d e lb yt a k i n gi n t oa c c o u n tt h es y l l a b l e st h a tc a nb e e a s i l y m i s u n d e r s t o o df o r c h i n e s e - s p e a k i n ge n g l i s hl e a r n e r s t o a s s e s st h e p e r f o r m a n c eo ft h ep r o p o s e ds y s t e m ,a ne v a l u a t i o na l g o r i t h mf o rt h ep r o p o s e d s y s t e mi sp r e s e n t e d ,i nw h i c ht h ed i s t a n c e b e t w e e nv i t e r b if o r c e da l i g n m e n t i i c o e 伍c i e n ta n da u t o m a t i cs p e e c hr e c o g n i t i o nc o e f f i c i e n ti su s e d a st h ey a r d s t i c k t h e p r o n u n c i a t i o nc a p a b i l i t i e so ft h et e s t e e st h e nc a nb ec o r r e c t l ya s s e s s e db ym a p p i n g t h er e c e i v e dc o e f f i c i e n t si n t os c o r er a n g e i nt h i sd o c u m e n t ,a l la u t o m a t i ca s s e s s m e n ts y s t e mf o rp r o n u n c i a t i o nb a s e d0 1 1 h t ki sp r e s e n t e d t h es y s t e mi se x c l u s i v e l yd e s i g n e df o re n g l i s hl e a r n e r sw h o s e m o t h e rt o n g u ei sc h i n e s e t h ep r o p o s e ds y s t e mi sm a i n l yc o m p o s e do ft h r e e m o d u l e s ,n a m e l y , p r o n u n c i a t i o na s s e s s m e n te n g i n e ,v o i c e c a p t u r i n ga n dp r o c e s s i n g l ( ,( i u l ea n dt h ed i s p l a ym o d u l e t h ec o r em o d u l eo ft h es y s t e m ,w h i c hi st h e p r o n m l c i a t i o na s s e s s m e n te n g i n e ,i sd e v e l o p e du s i n gh t k t h ed a t at r a n s m i s s i o n b e t 、e e nd i f f e r e n tm o d u l e sc a nb ea c h i e v e dt h r o u g hl a b e lf i l e s e x p e r i m e n t a lr e s u l t s h a v es h o ,1 1t h a tt h ec o r r e l a t i o nb e t w e e ns c o r e so b t a i n e db y t h ep r o p o s e ds y s t e ma n d s c o r e so b t a i n e dm a n u a l l yi so 8 9 ,w h i c hi l l u s t r a t e st h ee f f e c t i v e n e s sa n da c c u r a c yo f t h i ss y s t e m k e y w o r d s :p r o n u n c i a t i o na u t o m a t i ca s s e s s m e n t ,h i d d e nm a r k o vm o d e l , h m mt o o l l d t i i i 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 签名:鱼卜帐业坠 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 捌:研靳( 签名叫铷枷j j 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究背景、目的及意义 语言学习一般包括听、说、读、写四个方面,每个方面都有各自的学习方 法。比如,对于听力理解能力可以通过听各种外语多媒体资源来进行提高,包 括新闻、电影、有声读物等。我们也可以经常阅读外语报纸、专业论文、世界 名著这些文本资源来锻炼阅读能力,同时还能获得其他语言的信息。外语写作 可以通过写日记、翻译母语资源等方式进行练习。而“说”的能力却没有一个 好的方法来提高,虽然可以在“英语角 或类似的场所进行练习,但毕竟具有 很大的局限性。因为“说 是一个交互的过程,不能独自进行训练,必须进行 交互。由于这些原因,“说 经常会成为语言学习者的瓶颈u j 。 在语言教学的过程中也存在类似问题1 2 j 。对于常见的一对多的教学模式, 教师面对的经常是几十甚至上百个学生,只能整体介绍发音的方法与技巧,不 可能对每一个学生的发音进行一一纠正。对于发音学习,是一个长期锻炼的过 程,课堂上的练习时间比较短,课外才是主要的学习时间,不会一直有老师进 行辅导与监督。为了学习发音,学生只能对标准发音进行模仿,而不能发现自 己的发音的错误之处,这样很容易对错误发音进行反复锻炼,适得其反。所以, 语言的发音学习需要一种有效的评估与反馈方法。 针对语言水平的考试中出现的问题更加明显【3 j 。以英语为例,在国内就有 高考英语、大学英语四六级考试、英语专业考试、职称英语考试等许多种类, 这些考试的一个共同特点就是对口语表达能力测试较少。当然不是口语能力重 要性不够,而是实施难度和成本实在太高,无法大规模进行。近几年大学英语 四六级考试不断改革,对笔试模式进行了很大调整,但还是只对笔试成绩优秀 的考生进行口语测试,而且采用人工考核的方式,需要很大的实施成本。口语 测试存在的困难,对语言水平考试的全面性和公正性产生了很大的影响。 口语发音测试的不便利性在企业中也有一些体现。对于跨国公司和有国际 业务的公司,不同语种的员工之间以及员工与客户之间无障碍的交流是基本要 求。这就要求公司在招聘时对员工进行语言能力测试,并在培训阶段进行职业 武汉理工大学硕士学位论文 英语训练。语言表达作为一项基本能力,需要对大量应聘者进行测试,而口语 评估只能一一进行,需要较高的人力成本,不能像其他能力测试一样通过笔试 完成,给企业增加了额外的成本。 随着上述语言学习障碍的日益突出和信息技术的不断发展,计算机辅助语 言学习( c a l l ) 技术【4 j 应运而生。顾名思义,就是用计算机技术来解决语言学 习中出现的困难。c a l l 的发展经历了以下几个发展阶段i 5 j :替代重复性工作 的行为主义阶段、注重语言使用的交流阶段以及将计算机融合到语言学习的整 合阶段。c a l l 的出现对教育方法学带来了革新1 6 】,将传统的以教师为中心的 教学模式转变为以学生为中心的学习模式,减少了学生对教师的依赖性,能更 自由的在接近自然的语言环境中学习。当然,c a l l 只是改变了教师教学的方 式,并不是取代教师。比如,教师可以组织一个学习语言的活动,帮助他们完 成各自的任务,辅助解决他们和计算机沟通时的语法、词汇等问题,采用这种 方式对语言能力提高,而不是作为学生的焦点向他们传授知识。研究表明【7 1 , 在这种没有老师强迫的环境下学习的效果更好,比如能掌握复杂的句子、表达 更加流利等。简而言之,c a l l 增加了语言学习的趣味性,使语言学习者具有 更大的自主性,能提供更自然的语言学习环境,让学生自己控制学习的节奏, 避免多余的重复训练。 计算机辅助发音训练( c a p t ) 技术瞵j 属于c a l l 技术的分支,是计算语言 学的实际应用。c a p t 为语言学习者提供了一个轻松无压力的学习环境 9 1 ,对语 音输入几乎没有什么限制,可以让学生自己掌握学习的节奏,如果结合自动语 音识别技术,还能进行及时反馈。与其他c a l l 的应用相比,c a p t 存在更多 困难【1 0 】。比如,对于语法训练和词汇训练,可以设计对应的题目和答案,而发 音训练却没有固定的答案,并且受很多因素的影响难以给出固定的评判方式。 在人机交互方面也不能仅通过键盘或者鼠标来完成。由于这些原因,c a p t 涉 及到更多学科的知识,如声学、语言学、信号处理、模式识别等。发音自动评 估的目的就是对口语发音的质量进行评分,是c a p t 的一个重要组成部分,所 以对其进行研究对推动c a p t 的发展具有很重要的意义。 发音自动评估系统结合自动语音识别技术和计算语言学知识对受测者发音 进行自动评测打分【1 1 】,这个过程不用他人参与,把需要由人工完成的重复工作 全部用计算机代替,减少了发音评估的代价。对于语言学习者【1 2 1 ,可以使用发 音自动评估系统独自反复练习,根据评分不断调整自己的发音,这样保证了学 2 武汉理工大学硕士学位论文 习过程中的发音准确性。由于这个过程不需要教师或其他人参与,可以用于课 外自主学习。而对于大规模口语发音测试、考试或者评估,其优点更加明显。 因为评分专家在大量评分时难免会产生疲劳,使得主观评分有一定的波动性, 而且不同专家之间的评分也有一定的差异,对评分结果会产生一定影响,有失 评分的公平性。在大规模考试时进行人工口语评分需要较高的人力成本,不便 于实施。发音自动评分系统则不存在这些缺剧1 3 j ,不会因测试时间、位置、评 分者的不同得到不同的结果,而且还可以对大量受测者同时进行测试,便于大 规模使用。所以,发音自动评估系统对于口语发音学习和口语发音考试都有重 要的作用。 1 2 相关领域国内外研究及发展现状 19 9 0 年,斯坦福研究院j a r e db e m s t e i n 等1 1 4 j 利用语音识别技术设计了一种 用于英语口语学习的评估系统。该系统基于说话人独立的隐马尔可夫模型语音 识别系统,首先将语音分段对齐,再与数据库中的标准发音进行比对计算得分。 实验表明该系统对日本学生朗读指定英语文本的打分与专家打分的相关系数达 到o 8 以上。 1 9 9 6 年,n e u m e y e r 等【1 5 】提出了用于语音交互语言学习系统( v i l t s ) 的发 音评分算法,将隐马尔可夫相似度、句子长度、段长度和段分类相结合计算得 分。该算法与先前算法的重要区别在于不用指定待测者所要朗读的句子或短语 内容,使用更加灵活。d e c i p h e r 识别系统实现了该算法,并对英语为母语的人 群的法语发音进行了评估,实验结果表明,相同段的持续时间得分是发音流利 度的一个重要指标,并且对背景噪声具有很好的鲁棒性。1 9 9 7 年,h o r a c i of r a n c o 等对该发音评估算法进行了改进【1 6 j ,将给定的发音者的多个句子进行评分再取 均值,得到了一个更高级别的分数,同时将不同的机器评分进行组合,以获得 更高的相关系数。实验表明,改进后的算法需要的待测语音更少,在句级评分 上,将人机评分相关系数从0 5 提高到了o 8 8 ,通过不同机器分数的组合,将 人机评分相关系数提高了7 。 1 9 9 9 年,剑桥大学s i l k ew i t t t l 7 j 针对非母语发音者说话的特点,提出了线 性模型组合算法与模型归并算法对语言模型进行改进,将非母语发音者的说话 内容视为母语与目标语言的混合。为了对发音进行评估,设计了四种性能度量 方式,并依此计算发音得分。评分算法包括基本算法、最大相似度算法、独立 武汉理工大学硕士学位论文 门限算法等。 2 0 0 3 年,a m b r a n e f f 等【l8 】研究了大量基于自动语音识别技术的计算机辅助 发音系统后认为,将自动语音识别技术应用到发音评估中遇到的问题不在于技 术本身,而在于设计问题或者对自动语音识别知识认识不够。如果软件应用正 确且训练过程恰当,对于非母语的语音识别可以达到满意效果,加上合理的度 量方式,其评分结果可以与人工评分相当。 2 0 0 7 年,s e i i c h in a k a g a w a 等【1 9 l 提出了一种用于评估发音流利度的统计模 型。他们通过分析与教师评分高低联系紧密的发音特征,发现基于隐马尔可夫 模型进行识别的相关系数与发音流利度有密切关系,并据此设计了一个线性回 归模型和一个非线性回归模型,通过将这两个模型的结果进行组合对发音流利 度进行评分。同年,j o s e p ht e p p e r m a n 等【2 0 】提出了基于贝叶斯网络分类器的词 级评估结构。该结构以语音识别中的特征为基础,将不准确的发音与错误发音 分开处理,对每个类根据后验概率计算软判决分数。尽管该结构有些复杂,但 通过极大似然估计进行训练,只需较少的训练数据也可以达到较高的性能。 2 0 0 8 年,a m b r a n e d 等【2 l 】认为当前基于自动语音识别技术的c a p t 系统没 有与教学效果相结合,导致可能出现错误反馈。针对这个问题,他们开发了一 种用于成人学习荷兰语的c a p t 系统,并选择3 0 位语言学习者进行测试。结果 表明,对于段质量的评估,有反馈的系统比没有反馈的系统性能有显著的提升。 2 0 0 9 年,c a r l o sm o l i n a 等瞄】提出了一种用于比较正确发音与错误发音的词 典生成方法。这种方法不需要先验信息,比如发音者受母语影响经常出现的发 音错误,使得c a p t 技术更容易推广。同时设计了一种贝叶斯多级分类器,使 得评估结果映射到主观分数更加简单。实验结果表明,对于5 级和2 级的发音 质量,机器评分与人工评分结果的相关系数分别达到了0 6 7 和0 8 2 。 目前国外已经有了很多用于口语发音评估的产品,最著名的就是o r d i n a t e 公司的v e r s a n t 。该系统涉及交际英语、航空英语、阿拉伯语和西班牙语等多个 语种,主要通过简答、复述、朗读、造句、概括等方式进行语言能力评估,由 于其性能优越,现已用于教育、商务、航空、服务等很多领域。i b m 公司的 “w a t c h m e ! r e a d 主要针对儿童的语言学习。该工具首先将课本或者故事内 容扫描到数据库中,然后让儿童朗读库中的内容,当发现发音错误时要求重读, 并给出正确读音。对于错误的发音进行记录,并应用到后面的练习中。法国欧 佳龙公司是第一个将语音识别技术应用到商业语言学习软件的公司。其产品 4 武汉理工大学硕士学位论文 “t e l lm em o r e 是语言学习的重量级软件,包括西班牙语、英语、德语、 法语等九个语种,有听说读写各种学习模式,能对发音的错误自动检测,通过 音调、端点检测、词级发音进行语音打分,具有很好的易用性。 在国内,中国科学院 2 3 1 ,清华大掣2 4 1 ,上海交通大学【2 5 】,中国科学技术大 学1 2 6 】等很多研究机构与高校都对发音评估进行了研究,并取得了一些成果。主 要涉及的方向有汉语发音自动评估方法研究、基于语法的口语评估方法研究、 嵌入式平台的发音评估算法设计、唇形与语音相结合的评估算法设计等。 发音的评估与语言的特点息息相关,不同的语言需要有特定评估方法。针 对汉语发音的特点,中国科学院声学研究所与香港理工大学联合开发了用于普 通话测试的口语发音自动评估系统。该系统结合了语音识别技术与语音分析技 术,能自动识别发音错误。 与传统的基于声学特征的评估方法不同,陈清才等1 2 7 提出了基于语法的1 1 3 语发音自动评估方法。该方法针对现有基于音素评分系统的不稳定性,从语法 评估的角度出发,引入了s u g e n o 积分对可信度和模糊测度进行度量,能发现英 语发音中的易混淆音和连读错误。苏鹏飞【2 8 j 采用卡基梅隆大学s p h i n x - 4 语音识 别库实现了这种方法,实验结果表明在8 4 的平均识别率下,该系统可以得到 稳定可信的评估结果。 发音自动评估系统一般都包括语音特征参数提取,评估模型的训练,评估 分数的计算这些基本的过程,而这些过程的计算量都比较大,在运算速度较低 的嵌入式系统上实现有一定的困难。清华大学梁维谦【2 9 j 等提出了针对嵌入式语 言学习系统的发音质量评价方法。主要包括语音特征参数的提取、评价模型训 练、端点检测、发音网络生成、最优路径搜索、发音质量评分等步骤。该方法 主要用于嵌入式语言学习系统,系统资源开销小,稳定性好。 语音信号包含的发音信息毕竟有限,而唇形同时也包含了不少发音信息, 将这两者信息融合到一起进行语音评估也是一个研究的方向。在这方面,台湾 学者黄文桢【3 0 l 等设计了用于语言学习的交互式打分系统。该系统通过网络摄像 头捕获学习者的嘴唇图像,与数据库中教师的图像进行比对,同时结合学习者 的声音,给出评价分数。系统主要采用了时空差异,唇形参数评估,语音参数 评估三种评估方法,准确率达到6 0 。 总而言之,自动语音识别技术是发音自动评估的基础,发音自动评估需要 建立目标语言的统计模型 3 1 1 ,并针对模型设计评估算法。优秀的发音模型结合 武汉理工大学硕士学位论文 合适的评估算法可以得到与人工评分具有很高的相关性的评估结果。对于第二 语言学习者,母语发音的特点对目标语言发音的影响不容忽视,要对其发音进 行评估,需要结合母语的发音特点。针对母语为汉语的英语学习者,目前尚无 有效的发音评估方法。 1 3 本文的主要工作 发音自动评估系统是口语学习与测试的有效工具,但由于发音评估的复杂 性以及母语对第二语言学习的影响,目前尚无优秀的针对母语为汉语的英语发 音评估方法。由国内外的研究现状可知,基于隐马尔可夫的语音识别技术对发 音自动评估系统的发展起到了很大的推动作用,针对这种情况,本文设计并实 现了一种用于母语为汉语的英语发音自动评估系统,并对其评估性能进行了测 试。 全文总共分为五章,具体内容安排如下: 第一章论述了发音自动评估系统在语言学习中的作用以及当前国内外的研 究现状,介绍了已经存在的发音评估产品,分析了用于发音评估的关键技术以 及存在的问题。 第二章描述了发音评估系统的理论模型设计。通过对常用语音特征参数的 比较,选择了m f c c 作为语音特征参数。重点介绍了基于隐马尔可夫模型的发 音评估模型的构建方法,以及针对母语为汉语的说话人的改进。设计了用于衡 量发音水平的发音评估算法。 第三章详细介绍了发音自动评估系统的实现细节。包括系统框架、语音采 集与处理模块、发音评估引擎、波形显示模块等。 第四章叙述了发音自动评估系统的测试过程,并分析了评估结果。以标准 语音库中的一个例句为例,详细介绍了发音评估模型训练的过程。 第五章总结了本文所作的工作,并对下一步工作进行了展望。 6 武汉理工大学硕士学位论文 第2 章发音自动评估系统的设计 2 1 发音自动评估流程 发音自动评估系统总体上可分为系统训练和发音评分两部分。系统训练过 程与自动语音识别系统中的训练类似,将已知的标准发音信息特征提取并记录 下来,以此作为发音评估的标准。这个过程包括语音信号处理、发音文本分割 等步骤,是进行发音评估前的准备工作。发音评估是对待测语音的发音准确度 进行评定,基本过程就是提取待测语音的特征,将其标准语音特征相比较,根 据相似度计算得分。这个过程不是简单地对两段音频进行强制匹配计算相关性, 因为受说话人、语调、语速、停顿等很多因素影响,这样很难真实反映出待测 语音的准确度。为了克服这些困难,需要采集大量发音信息,建立发音模型并 进行参数训练,然后用该模型对待测语音进行发音评估。 l 标准语音h 预处理h 参数提取卜 :i f i 发音 发音词典 矽i i 评估 而 缝 _ l 模型 l 发音文本h 单词切分h 音素网络f - 图2 1发音评估系统的训练 发音评估系统的训练过程如图2 1 所示,主要训练数据包括标准语音数据 和对应的发音文本。标准语音记录了发音的波形信息,通过对标准语音进行预 加重、分帧等处理,可以得到一段段特性相对固定的语音帧,然后提取这些语 音帧的特性用于后续处理。发音文本是标准发音对应的句子信息。通过单词切 分,可以将文本句子切分为一个个独立的单词,再将其变换为音素网络。这个 过程需要有发音词典,也就是单词到音素的映射关系,通过查询发音词典,对 单词进行音素替换,即可得到音素网络。得到语音特征参数和音素网络后,就 可以进行模型参数训练了。首先初始化模型参数,作为评估模型的原型,然后 采用标准语音特征和音素网络对其进行校正。模型的训练是个迭代的过程,需 要反复进行逐渐变化最终接近于真实的发音网络。在这个过程中,标准语音特 7 武汉理工大学硕士学位论文 征参数作为输入信息,音素网络是期望得到的输出结果,未训练的模型不会满 足这样的输入输出关系,所以需要调整模型参数,使得输入为标准语音特征时 输出为对应的音素网络的概率达到最大,这样就完成了一次训练。然后对下一 条语音数据和发音文本进行训练,如此反复,直到训练完成。 发音评估模型 图2 - 2 发音评估过程 发音的评估过程如图2 2 所示。发音评估的过程基于训练完成的评估模型。 对于待测语音,首先进行参数化,这个过程包括语音信号预处理、语音参数提 取等过程,与模型训练时的参数提取相同。得到待测语音参数后,需要分为两 个支线进行,可以简单概括为“强制 和“自由”。这两个过程均假设发音评估 模型为接近真实发音概率分布的有限状态机,由前面的训练过程保证该条件满 足。“强制”路线是根据发音评估模型对待测语音进行强制对齐,得到一个对齐 系数,其意义就是对于给定的语音特征参数序列,在评估模型中对应音素出现 该序列的概率,这个过程需要知道待测语音的标准文本。而“自由”则是采用 语音识别技术对待测语音进行识别,同样可以得到一个识别系数。该系数表示 该语音特征序列与模型中最可能的音素的匹配度。然后计算这两个系数的距离 来表征待测语音发音的准确度。由于这个距离的区间与主观评估结果的区间有 些差异,需要进行映射转换,这样就到了一个发音评估分数,然后输出结果完 成评估过程。 2 2 语音信号预处理 语音信号预处理是在语音特性提取前的准备工作,主要针对语音信号的特 性进行频域处理。模拟语音信号经过采样量化后变为数字信号,需要对其进行 预加重处理,使得高低频幅度相当,然后进行分帧与加窗,得到语音帧。如果 直接从音频文件( 如w a v 文件) 中读取语音数据则不需要采样量化处理。预处 武汉理工大学硕士学位论文 理流程如图2 3 所示。 剖采样量化酬黝重酬分帧酬脯昂 图2 3 语音信号的预处理 因为人声从嘴唇发出后,高频部分会有衰减,使得低频部分能量总是高于 高频部分的能量,这样导致高频部分谱值较小,不便于分析与处理。预加重就 是让语音通过一个高通滤波器,对高频部分进行增强,使得高低频幅度相当, 其方程如式( 2 1 ) 所示。 瓯= 瓯一a s 一l ( 2 - 1 ) 其中最为第1 1 个语音数据,为预加重处理后的第n 个语音数据。a 为预 加重系数,取值范围为:0 口 1 ,在此取o 9 7 。 语音信号为慢时变信号,具有短时平稳性。对于一段语音信号,如果取足 够短的时间( 大约6 - 3 0 m s ) ,我们发现该段信号的特征基本不变,但是从较长 的时间( 0 6 s 或更久) 来看,语音信号特征却不断变化,并由此反应该语音所 要表达的内容1 3 2 1 。由于语音的这种特性,我们需要将语音分成多个短时段进行 分析,这个过程就是“分帧 。如图2 4 所示,相邻的两帧之间有一定的重叠区 域,这样使得帧与帧之间比较平滑,保持了语音特征的连续性。通常重叠的部 分为帧长的一半或者三分之一,帧长的大小在2 0 3 0 m s 。之间,因为语音信号 在这个时间段内的特性比较稳定。假设信号采样频率为1 6 k h z ,帧长2 5 m s ,帧 率为1 0 0 帧秒,则每帧有4 0 0 个采样点,分帧后的语音信号每秒有4 0 0 0 0 个采 卜第n + l 帧一 图2 4 语音信号分帧 对信号在时域上的变化进行分析很难看出信号的特点,通常都将其转换到 频域进行分析,常用的方法就是进行快速傅里叶变换( f f t ) 。为了避免在进行 9 武汉理工大学硕士学位论文 f f t 运算时产生较多的信号,导致误差或者错误产生,需要多信号进行加窗处 理。在语音信号处理中使用最广的有h a m m i n g 窗,h a r m i n g 窗和矩形窗。在本 系统中采用h a m m i n g 窗,其表达式如式( 2 - 2 ) 所示。将语音帧乘上h a m m i n g 窗后,增加了帧与帧之间的左右连续性,去除了边界效应。 & = 0 5 4 - 0 4 6 c o s l 2 7 r 州( n - 1 ) ) 严l 亿2 , 2 3 语音特征参数 2 3 1 语音特征参数的选择 语音特征参数不仅用于受测者的发音评估,同时还用于评估模型参数的训 练,由于其处于语音处理的前端,因此语音参数的选择会对系统的性能产生很 大的影响【3 3 】。主流的特征参数主要包括线性预测倒谱系数( l p c c ) 3 4 1 、感知线 性预测( p l p ) 3 5 1 和m e l 频率倒谱系数( m f c c ) 0 6 1 等。 l p c c 是语音信号基本参数估计的基本方法,在语音信号分析中占据主导 地位。其基本思想是:对于给定的当前时刻的某段语音,可以近似表示为之前 时刻语音段的线性组合。通过计算实际语音和线性预测值在有限区间的平方差 之和,当其达到最小时才能得到一个参数集或者预测系数,作为语音线性预测 分析的基础。但是这些系数一般具有较高的方差,不能直接在实际中使用,必 须转换为更加稳定的倒谱系数,即l p c c 。 p l p 与l p c c 类似,也是基于语音的短时谱分析,但p l p 的短时谱分析针 对人体声学做了调整。p l p 的计算过程如下:首先对语音信号加窗,通过f f t 运算转换到频域,然后进行临界频带分析,从基于赫兹的谱变换到基于b a r k 的 谱。由于人体感知特点与声音的幅度和频率密切相关,需要对该短时谱进行等 响度预加重处理,就是根据史蒂文斯幕定律对滤波器的输出乘上一个校正因子。 然后进行离散傅里叶反变换,从频域转回到时域,计算自回归系数得到p l p 倒 谱系数。 i v i f c c 基于滤波器组分析。人类听觉系统对于某中心频率周围一定带宽内 的其他频率无法有效区分,而对于该频带外的其他频率才能分辨出来。由于这 些特性,m f c c 被广泛用于语音识别、说话人识别、音乐信息检索、音乐分类 等与人类听觉关系密切的领域。 l o 武汉理工大学硕士学位论文 吐, 乏 斟 骤 芝 图2 5 线性频率到m e l 频率的转换 如图2 5 所示,横轴为线性频率,单位为赫兹,纵轴为转换后的m e l 频率, 单位为m e l 。可以看出在小于1 0 0 0 h z 时,m e l 频率基本上呈线性,高于1 0 0 0 h z 后为对数曲线。而人类的听觉系统在1 0 0 0 h z 以下时对声音的敏感程度呈线性 分布,对于高于1 0 0 0 h z 的声音呈对数分布,同时语音信号的能量也大部分集 中在低频部分,由此可知m e l 频率度量方法很好地描述了人类对声音的感知特 性。 l p c c 源于线性预测系数,比线性预测系数更稳定易用,同时也继承了线 性预测系数的缺点,即对于各种频率均采用线性方式估计,这不符合人类听觉 的感知特性,而且包含了具有大部分噪声的高频部分。m f c c 针对人体听觉特 性,强调语音频谱上的特点,并具有较强的抗干扰能力,在噪声环境下仍然能 保持较高的辨识率。本系统的作用主要是对发音进行评估,与人体发音特点和 声学感知特性密切相关,故选用m f c c 作为本系统的语音特征参数。 2 3 2m f c c 提取过程 m f c c 的提取过程如图2 - 6 所示:首先对经过前端处理的语音信号进行快速 傅里叶变换,从时域转换到频域,然后映射到m e l 频率域,再经过三角带通滤 波器组,对结果的能量值取对数,最后进行离散余弦变换( d c t ) 。 图2 - 6m f c c 的提取 赫兹频率与m e l 频率的转换关系如式( 2 3 ) 所示,f 为线性频率,单位为 武汉理工大学硕士学位论文 赫兹,转换后的m e l 频率呈对数曲线。 。心,( f ) = 2 5 9 5 1 9 ( t + 丢 亿3 , 设三角滤波器组的滤波器数量为m ( m = 1 ,2 ,m ) ,则第m 个滤波器 的方程可由式( 2 4 ) 表示。 玩( 七) = 0 k f m - 1 】 2 ( k - f i r e - 1 ) ( 厂【肌+ l 卜f i n 一1 ) ( f m l - f m 一1 】) 三盟! ! 】二生! ( r e + 1 一f i n 一1 】) ( 厂 m + 1 】一j i m ) f m - l l k 厂【m 】 f m l 川聊+ 1 】 ( 2 4 ) 其中f i 】为三角滤波器的中心频率,满足式( 2 5 ) ,即在m e l 频域内等间 隔分布。 m e l ( f i + 1 1 ) - m e l ( f i ) = m e l ( f i ) - m e l ( f i - 1 1 ) ( 2 5 ) 当m 取2 0 时,其如图2 7 所示。由图可知,低频部分的滤波器比较密集, 而高频部分的滤波器相对比较稀疏,这正符合了m e l 频率的特点,即人类听觉 对低频信号更加敏感,在取滤波器组时尽量多取,而高频部分则尽量少取。从 横轴来看,随着频率的升高,滤波器的跨度越来越大,但映射到m e l 频域之后, 滤波器的跨度是相等的,这也是人类感知系统与线性频率之间的差异。 三角滤波器组 图2 7 三角滤波器组 式( 2 6 ) 中可以对滤波器的输出先取对数再求和,也可以先求和再取对数, 1 2 武汉理工大学硕士学位论文 但后者对谱估计错误和噪声具有更强的鲁棒性。 s 朋】:h l l 兰l 【七】1 2h m 七】l , o m m ( 2 6 ) 最后进行d c t 运算,如式( 2 7 ) 所示,对各个频段做解相关处理,将滤波 器的输出映射为倒谱。 小】= m 荟- i 跏】c o s ( 署( 脚+ 狲 m 亿7 , 2 4 发音评估模型 2 4 1 隐马尔可夫模型 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 1 3 7 f l 了b a u m 及他的同事 于2 0 世纪6 0 年代末提出,由于其数学特性可用于许多问题的建模,并在多个 实际应用中性能良好,在出现不久就引起了广泛研究。到7 0 年代初期,卡内基 梅隆大学的b a k e r 、i b m 公司的j e l i n e k 等将该模型应用到语音识别中。现在该 模型在语音识别、机器翻

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论