(教育技术学专业论文)基于语音识别的汉语语音评价系统的研究与实现.pdf_第1页
(教育技术学专业论文)基于语音识别的汉语语音评价系统的研究与实现.pdf_第2页
(教育技术学专业论文)基于语音识别的汉语语音评价系统的研究与实现.pdf_第3页
(教育技术学专业论文)基于语音识别的汉语语音评价系统的研究与实现.pdf_第4页
(教育技术学专业论文)基于语音识别的汉语语音评价系统的研究与实现.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(教育技术学专业论文)基于语音识别的汉语语音评价系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于语音识别的汉语语音l 评价系统的研究与实现 摘要 随着世界范围。汉语热”的不断升温,全世界每年都有近千万的人在学习汉语计算机语音技术的 发展使得计算机辅助语言学习( c a l l ) 成为了可能,本文正是结合了这两大研究热点,针对汉语发音 自身的特点和外国人学习汉语发音的规律,运用语音识别技术的基本原理,在对外汉语语音教学领域进 行了探索和试验,设计并实现了一个客观、准确的汉语语音评价系统,为外国留学生学习汉语发音提供 了新的辅助手段。 论文首先从系统实现的理论基础入手,介绍了语音识别技术的基本情况和汉语语音的相关知识,重 点分析并研究了系统中使用的动态时间归正( d 删) 算法以及汉语语音测试字表在系统中的应用。 接下来,论文将重点放在了系统设计实现过程的各项工作。首先对语音信号展开深入的分析,按照 处理的流程,从语音信号的前端处理,到后续的特征参数提取、端点检测以及距离测度算法都傲了详细 的研究,并结合m a t i , a b 对处理过程予以实现。其中对d t w 算法进行了一些改进,解决了汉字语音 声韵母所占比例不同对计算结果的影响问题。随后运用c o m 组件技术将语音处理功能部分与系统其他 功能结合、根据语音对比的结果试探性地制定了评价策略和评价标准,并遵循语音学习的规律设计了系 统的用户界面。同时对系统进行小范围的测试,证明系统在对外汉语的语音教学中起到辅助作用,有一 定的实用价值。 最后,本文对所做的研究进行了总结,并对下一步的工作方向提出了展望。 关键字:语音识别、语音评价、计算机辅助语言学习( c a l l ) ,动态时问归正( 1 y r w ) ,声韵分割 东南人学顽上学位论文 a b s t r a c t w i t ht h ee v e r - i n c r e a s i n gu p s u r g eo fc h i n e s el e a r n i n gi nd i f f e m n tp a r t so ft h ew o r l d , t h en u m b e ro f l e a r n e r so f c h l n e s ea r o u n dt h ew o r l dh a sa p p r o x i m a t e l ya m o u n t e dt o3 0m i l l i o np e o p l e t h ed e v e l o p m e n to f c o m p u t e r - b a s e dt e c h n o l o g yo fs o u n dp r o d u c t i o ne n a b l e sc o m p u t e r - a s s i s t e dl a n g u a g el e a r n i n g ( c a l l ) t o m e i n t ob e i n g t h i st h e s i s , i na c c o r d a n c ew i t ht h ec h a r a c t e r i s t i c so fc h i n e s es p e e c ha n dt h r o u g hu s i n gt h eb a s i c t h e o r i e so fs o u n dr e c o g n i t i o nt e c h n o l o g y , m a k e s e x p l o r a t i o na n de x p e r i m e n to ft e a c h i n gp r o n u n c i a t i o no f c h i 峭a saf o r e i g nl a n g u a g e a n df u r t h e rd e s i g n sa n di m p l e m e n t sa l lo b j e c t i v ea n dv a l i ds y s t e mo fe v a l u a t i o n o fc h l n e s es p e e c hi no r d e rt op r o v i d ean c ws u b s i d i a r ym e a n sf o rt h ef o r e i g ns t u d e n t st ol e a r nc h i n e s es p e e c h e f f e c t i v e l y t h i st h e s i sb e g i n sw i t ht h et h e o r e t i c a lb a s i so ft h er e a l i z a t i o no ft h es y s t e m , p r o v i d i n gt h ef u n d a m e n t a l k n o w l e d g eo fs o u n dr e c o g n i t i o nt e c h n o l o g ya n dc h i l 煅p h o n e t i c s t h ea r i t h m e t i co fd 】m a l n i ct i m ew a r p i n g ( d t w ) a d o p t e di nt h es y s t e mi m p l e m e n t a t i o n , a n dt h ea r r a yo f c h i n e s ec h a r a c t e 璐u s e dt ot e s tt h el e a r n e r si n c h l n ( m e 叩c hms p e c i a l l ya n a l y z e d a n dt h e nt h et h e s i sl a y ss t r e s so nt h ew o r ko ft h es y s t e mi m p l e m e n t a t i o n f i r s t l y , a c c o r d i n gt ot h e s e q u e n c eo f s p e e c hm a n i p u l a t i o n , i tm a b s r e s e a r c h e so nt h ef r o n t - e a r lp r o c e s s i n g ;f e a t u r ee x t r a c t i o n ;e u d p o i n t 小= i e 咖na n dd i s t a n tc a l c u l a t i o na r i t h m e t i co fs p e e c hs i g n a l si nd e t a i l , a n da l lo ft h e ma r ei m p l e 咖t c dw i t h m a t l a b a ni m p r o v e m e n to fd t wh a sb e e na c h i e v e dt oo b t a i na c c u r a c yo fc a l c u l a t i o nr e s u l t , e l i m i n a t i n g t h ei n f l u e n c ec a u s e db yd i f f e r e n tp r o p o r t i o n so fc o n s o n a n t sa n dv o w e l si nc h i n e s ep h o n e t i c s a n nt h a t , t h i s t h e s i su s e sc o m c o m p o n e n tt e c h n o l o g yt oi n t e g r a t e 枷o ft h es y s t e mp a r t s ,a n dp m b i n g l y 螂f o r w a r d t h e e v a l u a t i o ns t r a t e g i e sa n dg r a d i n gs t a n d a r d sb a s e d0 1 1t h er e s u l to fs p e e c hc o m p a r i s o n f o l l o w i n gt h el a wo f c h i n e s cs p e e c hl e a r n i n g , i ta l s od e s i g n st h eu s e ri n t e r f a c eo fs y s t e m t h ee x p e r i m e n tr e s u l ts h o w st h a tt h i s m a n d a r i ns p e e c he v a l u a t i o ns y s t e mp l a y s a s s i s t a n tm l ei nt e a c h i n gp h o n e t i c so fc h i n e s ea saf o r e i g n l a n g u a g e f i n a l l y , t h et h e s i sm a k e s ac o n c l u s i o no ft h ei m p l e m e n t a t i o no ft h er e s e a r c hp m j c c a n dl o o k sf o r w a r dt o r e l e v a n tr e s p e c t so f f u r t h e r w o r ki no r d e rt op e r f e c tt h i sr e s e a r c hp r o j e c t k e y w o r d s s p e e c h r e c o 蛐t i o n 、s p e e c h e v a l u a t i o n 、c o m p m e r a s s i s t e d l a n g u a g e i e a r n i n g ( c a l l ) 、p 岫锄i c t u n ew a r p i n g ( d t w ) 、c o n s o n a m v o w e ! s e g m e n t a t i o n n 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了 谢意。 研究生签名: 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复 印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和 纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研究生院办 理。 研究生签名:导师签名:日期: 第一章绪言 1 1 研究背景 第一章绪言 “2 0 世纪5 0 年代到7 0 年代,会讲汉语的罗马尼噩年轻人就像会讲俄语的中国人一样,是一座沟 通的桥梁,对中国和罗马尼亚之问友好关系的发展起到了不可忽视的作用。”这是前罗马尼亚驻华大使 罗明在首届世界汉语大会上的发言,一口流利的汉语使得他一开口就“技惊四座”。 进入2 1 世纪之后,随着世界逐步进入信息时代,进入知识经济、经济全球化时代,整个语言科学 在2 1 世纪的地位越来越高,汉语作为第二语言教学( 一般称为“对外汉语教学”) ,也迎来了大好的春 天。这可以从以下三方面看出l l j : 第一,1 9 9 9 年除夕,联合国秘书长安南迎接2 0 0 0 年的新年献辞指出,2 1 世纪的年轻人起码要掌 握三种语言( 包括母语在内) ,这样才能适应2 l 世纪时代的需要。安南先生的看法是带有前瞻性的, 这预示了第二语言教学在2 l 世纪的重要地位。 第二,早在1 9 8 9 年5 月,在当时国家教委的一项通知中,就指出“发展对外汉语教育事业是一项 国家和民族的事业”。前不久,时任国务委员的陈至立在全国汉语国际推广工作会议上再次指出:加强 汉语国际推广工作是进一步发展我国与世界各国人民友好往来、满足海外学习汉语愿望的客观要求, 是增强我国文化影响力,提高国家软实力的迫切要求,是树立我国良好国际形象,维护世界文明多样 性、构建和谐世界的必然要求,也是我国借鉴国际语言推广经验、提高汉语国际地位的战略举措。这 就充分肯定了对外汉语教学在中国的重要地位。 第三,现实情况表明,在全球,汉语热正不断升温,汉语正逐步成为一种强势语言。据报纸报道, 现在美国、日本、法国、澳大利亚、韩国等已将汉语列入高考外语考试任选科目之中。在美国,1 2 种 外语中汉语的选修人数是增加得最快的一个语种,已成为第三大通用外国语;现在已有8 0 0 多所大学 设有中文系、所,许多中学也都开设了中文课。在英国,越来越多的大学开设中文课程,而且政府每 年拨款1 0 0 万英镑,专用于促进本国人学习中文的教学事业。日本,一直是汉语教学最热的一个国家, 几乎每个大学都有汉语学科,汉语也已成为中学生高考的可选外语之一。而韩国,在3 0 0 多所大学中, 至今已有三分之二的大学开设了中文课,学习中文的语言学院更是遍布各大城市;在中国大陆的韩国 留学生。数量上已超过日本,跃居首位。而在非洲,汉语热也正在兴起,埃及、突尼斯、毛里塔尼亚 等国已设有四年制中文专业,有的还已经开始招收中文专业的硕士生、博士生。 由于中国是一个人口众多、幅员广大的大国,由于中国近2 0 年来经济突飞猛进地发展,国际地位 迅速提升;又由于中国有无比巨大的广阔市场,所以任何类型的国家,不管是发达国家,还是发展中 国家,为了和平与发展,为了自身的国家利益,都不能不跟中国打交道,而要跟中国打交道,不能不 要求或希望他们的国人努力学习汉语。而我们国家,为了进一步走向世界,为了寻求世界持久和平与 持续发展,为了我国自身的利益,所以在要求国人努力学习、掌握好外语的同时,也需要大力将汉语, 将中国文化推向世界,以促进中外广泛的交流与合作,并希望通过汉语教学进一步建造起一座宽阔的 中外经济文化交流和人民交往的桥梁。 但是,与蓬勃发展的对外汉语事业相不符的是,面对日益庞大的国内外汉语学习者,从事对外汉 语教学的专业教师的数量严重不足。中国侨网报道,中国目前全职和兼职教授汉语作为外语的合格老 师只有6 0 0 0 位,却得应付中国本地的7 万名学生和全球3 0 0 0 万学员。与此同时,虽然汉语学习已经 在全世界掀起了一阵热潮,但是不可否认,汉语是世界上最难以学习的语言之一。从汉字的写法、发 音到汉语的语法,学生如果不经过专业教师的指导,很难掌握。 为了解决师生比例严重失衡的情况并努力保证教学质量,国家一方面大力扶持和重视对外汉语教 学的学科建设,加强了对从教人员的管理和培调,开始进行统一的对外汉语教师资格考试,吸引国内 的专业人员报考,投入到对外汉语教学事业中。另一方面,国家开始借助于新的技术手段,采用现代 化的教学方式,开展多种形式的远程教学、网络教学,作为教师课堂汉语教学的补充,这些新的教学 手段就是计算机辅助语言学习。 东南人学硕上学位论文 计算机辅助语言教学( c o m p u t e ra s s i s t e dl a n g u a g el e a r n i n g ,c a l l ) 的研究始于上个世纪6 0 年 代的美国,在我国还是一个新的研究领域。计算机和网络以其绝对的资源优势、交互优势、语言环境 优势等成为语言教学发展的新趋势,在语言教学中的作用和优点勿庸置疑事实上,信息技术的发展 和计算机的应用已经对语言教学产生了深远的影响 语言教学中的一个重要方面就是语言发音的学习冈“说”是人际交往的重要手段,也是学习一门 语言的重要环节。但是目前语言教学中存在一定的误区,就是教师在课堂上过多地讲授语言的语法知 识,只注重培养学生的读写能力以及听力的理解上,却忽视了语言交流中重要部分一“说”的能力 的训练,从而出现了“哑巴英语”、“哑巴汉语”等情况。 目前,国内外已经有一些公司和研究机构针对语言的发音学习做了一定的研究,这些研究从开始 到现在只有短短的二十几年时间,研究的基础是建立在语音识别技术上的。其中,美国的斯坦福大学 研究院( s r i ) 、卡内基梅隆大学( c m u ) 、英国剑桥大学等是较早开展此研究工作的单位,此后日本 的一些研究机构也陆续参与该研究领域,并取得了一定的成果。例如s r i 的w e b g r a d e r t 3 1 和e d u s p e a k “ 5 】以及c m u 的f l u e n c y 等系统。这些系统和产品有的已经实际应用在语言教学领域,获得了很大的成 功。在国内,香港理工大学、清华大学、中国科大等科研院校陆续也都开展了类似的研究工作。然而 目前基于语音识别的发音学习研究的成果大多数是针对英语、法语、日语等语种,面向汉语发音学习 的研究在国内起步较晚。其中比较突出的是中科大讯飞公司承担的国家语言文字应用“十五”重点科研 项目“智能语音技术在普通话辅助学习中的应用研究”。项目主要研发目标为推动智能语音技术在 普通话学习、测试中的应用。该项目虽然研究对象是汉语普通话,但是其目标人群是具有汉语基础的 中国人。作为在汉语普通话测试中的补充。 所以可以看出,虽然计算机辅助语音学习技术已经在国内外进行了深入的研究并取得了一些成果。 而且国内针对中国人的汉语普通话语音学习研究也正在研究当中,但是完全面向外国入学习汉语发音 的语音学习研究开展的较少。本文则针对这一领域进行了研究和探索,完成了汉语语音评价系统的设 计,并解决了一些在实现过程中的难点问题。 1 2 论文的研究意义和研究内容 正如前面所介绍的,目前,全世界“汉语热”的不断升温,使得学习汉语的人数越来越多,不仅 在中国,而且在世界上很多国家都掀起了学习汉语的热潮,与之相对的是专业教师资源的缺乏。我们 知道,语言学习中的一个重要环节是反馈。教育学中的行为主义理论告诉我们z 学习是在有效的强化 程序中不断巩固刺激和反应之间的联结,塑造有机体行为的过程。那么在语言的发音学习当中,及时 准确客观的反馈可以帮助学习者找出自己发音与标准发音之间的差距,纠正发音错误。学习者在不断 的练习反馈中得到进步课堂上教师正好能起到这样的反馈作用,但是教师的缺乏已经成为在世界范 围内推广汉语的一大障碍;与此同时,对外汉语教师本身还存在对留学生某些非标准发音的“容错性”, 也会导致外国留学生与中国人交流上的困难,表现出来就是:教师和学生之间的对话互相能够听懂, 但是与普通中国人交流就显得很困难。所以在加强对外汉语教学中发音教学的同时,研究并设计一个 准确、直观的汉语语音评价系统作为留学生学习汉语发音的辅助手段显得尤为重要。 本文结合了c a l l 的理论基础,前期进行了充分的实际调查。针对外国人学习汉语的特点,结合 对外汉语教学的基本规律,借鉴前人的研究成果,结合最新的语音识别技术,展开了一系列的研究, 认真解决在工作过程中遇到的各种困难,最终设计并初步实现了面向外国人学习汉语发音的语音评价 系统。在论文的研究设计工作当中,主要的研究内容包括语音识别技术的基本原理、汉语语音的基础 知识、语音信号处理的流程和使用的技术方法、系统实现的功能结构和所必需的其他技术。 汉语语音评价系统经过小范围的测试证明了其在对外汉语教学的语音教学中起到一定的辅助作 用。系统主要实现了针对汉语发音的评价功能,能够帮助汉语学习者及时准确地找出自己发音的不足, 经过对比迅速提高自己的发音水平在对外汉语的教学领域中,该系统能大大地减轻教师纠正学生发 音的压力,同时还可以作为教师考评学生口语的:具。此外在针对中国人的汉语普通话考试中,该系 统也可以设计成面向考试的前几项客观朗读题的评分工具,提高普通话考试的效率。 2 第一章绪言 1 3 论文的组织结构 本论文的主要目标是利用语音识别的相关技术,依照汉语发音的特点,研究和设计一套完善的汉 语语音评价系统,能够将其作为汉语学习者学习汉语发音的直观反馈,并且根据实际应用环境将其作 为评价外国人汉语口语发音以及中国人汉语普通话发音水平的工具全文共分为六个章节,其中第一、 二、三章主要介绍了论文研究的相关知识和背景,第四、五章则详细地对系统实现所开展的研究设计 工作进行了介绍,具体结构如下: 第一章绪言,介绍了论文的研究背景、研究意义和内容以及论文的组织结构。 第二章语音识别技术,介绍了论文实现的技术基础语音识别技术。其中包括了语音识别的 历史、分类情况,语音识别的本质过程。详细地描述了语音识别技术中重要的动态时间归正( 嗍) 算法,对其中的基本原理和训练模板算法作了重点介绍。 第三章汉语语音的基本知识,介绍了汉语语音的特点、语音中的声母、韵母和声调三要素以及 汉语音节的物理波形特征。最后研究了用于系统测试的汉语语音测试字表。 第四章语音处理部分。重点对语音评价系统中的核心功能一语音处理部分展开研究。首先从 实现的软件环境m a t i a b 入手,通过对语音处理流程中各个步骤( 包括语音信号预处理部分中的采 样量化,预加重、加窗与分帧,语音信号时域分析中的短时能量分析、短时过零率分析、语音特征参 数的提取等) 进行了研究,结合m a t l a b 的语音工具箱进行了具体的实现。此外,对语音处理部分 中的几个重要算法,如端点检测算法、声韵分割算法和d t w 算法也进行了分析,对算法在实验中暴 露出的问题提出了自己的改进意见并取得了很好的效果。 第五章系统整体实现,本章从整体的角度对系统的设计思路、基本框架和流程进行了研究和设 计。包括系统中四个功能模块的分析划分、系统的总体工作流程和用户的工作流程的设计。采用了c o m 组件技术将语音处理功能部分与系统其他功能结合、根据语音对比的结果试探性地制定了评价策略和 评价标准,并结合语言学习的规律对系统的用户界面进行了设计,使其更加具有人性化的特点。最后, 对系统进行了小范围的测试,总结并分析了系统的特点。 第六章结束语,总结了系统实现过程中开展的各项研究设计工作介绍了系统设计体现的特点 和经过试验暴露出的闷题,并提出今后的改进方向。 3 东南人学硬上学位论文 第二章语音识别技术 语音识别技术与下一代通信技术、下一代网络技术等被认为是2 0 0 0 年至2 0 1 0 年问信息技术领域 十大重要的科技发展技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中入机接口的关 键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术 的应用已经成为一个具有竞争性的新兴高技术产业。 语音识别( s p e e c hr e c o g n i t i o n ) 是机器通过识别和理解过程把人类的语音信号转变为相应的文本 或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接收人的语音,理解 人的意图,并做出相应的反应。从技术上看,它属于多维模式识别和智能接口的范畴。语音识别技术 是一项集声学、语音学、计算机、信息处理、人工智能等于一身的综合技术,可广泛应用在信息处理、 通信与电子系统,自动控制等领域。 利用计算机帮助学习者进行的语言发音学习,实际上就是通过计算机采集语言的标准发音和学习 者的语音,对语音信号作必要的处理后,根据二者声学特征的匹配程度,给出相应的语音评分。这一 过程中的绝大部分都是要借助语音信号处理原理,特别是语音识别领域中的相关技术得以实现的。所 以说,语音识别技术是计算机语言发音学习的基础,是汉语语音评价系统的核心。 2 1 语音识别的历史 语音识别的历史可以追溯到2 0 世纪5 0 年代1 6 l 。1 9 5 2 年a t & t b e l ! 实验室的k h d a v i s 等人利用 带通滤波器进行语音频谱的分析和匹配,并成功用于对1 0 个英文数字的识别,识别率达到9 8 。1 9 6 0 年p d e n e s 等研制成功第一个计算机与语音识别系统,同年g f a n t 提出了语音产生的声源滤波器 模型。对语音识别工作起到了巨大的推动作用。 2 0 世纪6 0 年代末、7 0 年代初,在孤立词识别方面,来自日本的学者s a k o e 给出了使用动态规划 方法进行语音识剔的途径 ) t w ( 动态时间归正) 算法,是把时问归正和距离测度计算结合起来的 一种非线性归正技术,同时l t a l m r a 基于语音编码中广泛使用的线性预测编码( l i n e rp r e d i c t i o nc o d i n g , i j c ) 技术,通过定义基于l p c 频谱参数的合适的距离测度,成功地将其扩展应用到语音识别中。二 者的结合为当时语音识别领域带来了一种非常成功的匹配算法,在当时的小词汇量的研究中获得了成 功 2 0 世纪年代语音识别研究进一步走向深入,其研究的重点是连接词语音识别,用于连接词识 别的分层构筑技术( l e v e lb u i l d i n g ) 得到发展。另一个重要的发展是语音识别算法从模板匹配技术发 展到基于统计模型的技术。其间,美国c m u 大学的j i c b a k e r 等人将隐马尔可夫模型( h i d d e nm a r k e r m o d e l s ,h m m ) 应用到语音识别领域,在语音识别中获得极大的成功,成为语音识别的主要方法 h m m 模型的研究使大词汇量连续语音识别系统的开发成为可能。1 9 8 8 年,美国c m u 大学用v o ( v e c t o r q u a n t i z a t i o n ,矢量量化) h m m 方法实现了9 9 7 个词的非特定人连续语音识别系统s p h i n x 。这是世 界上第一个高性能的非特定人、大词汇量、连续语音识别系统,其后,连续语音识别技术获得长足的 发展,开创了语音识别的新时代。 近年来,人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 以及支持向量机( s u p p o r tv e c t o rm a c h i n e , s v m ) 由于其较强的自适应性和自学习能力而获得了普遍的重视,并在相关方面取得了一些关键性的 进展,使得语音识别技术进一步成熟。 在国内,2 0 世纪5 0 年代末就有人尝试用电子管电路进行元音识别,而到了7 0 年代才由中国科学 院声学所开始进行计算机语音识别的研究。从年代开始,很多单位陆续参加到这一行列中来,它们 纷纷采用不同的方法,开展了语音识别方面全方位的研究。8 0 年代末,以汉语全音节识别作为主攻方 向的研究已经取得了相当大的进展,一些汉语语音输入系统已向实用化迈进。四达技术开发中心、星 河公司等相继推出了相应的实际产品。清华大学、中国科学院卢学所在无限词汇的汉语听写机的研制 上获得成功。9 0 年代初,四达技术开发中心又与哈尔滨工业大学合作推出了具有自然语言理解能力的 4 第二章语旨识别技术 新产品。在国家“8 6 3 ”计划的支持下,清华大学和中国科学院自动化所等单位在汉语听写机原理样机 的研制方面开展了卓有成效的研究。北京大学在说话人识别方面也作了很好的研究。 近年来,随着改革开放的不断进行,我国的国际地位与日俱增。汉语语音识别越来越受到重视, 国外很多著名的公司,如m i c r o s o f t 、i b m 、m o t o r o l a 、l n m l 等都在国内设立研究机构,并且都将汉语 语音识别作为主攻方向之一。m m 公司于1 9 9 r 7 年推出了汉语语音识别系统av o i ,输入速度平均 每分钟可达1 5 0 字,平均最高识别率达到9 5 ,并具有“自我”学习的功能。在2 0 0 0 年发布的v i a v o i c e 千禧版中,用户可以通过语音导航到计算机桌面及浏览网页。1 9 9 8 年微软在中国筹建了微软中国研究 院( 后更名为微软弧洲研究院) 。其开发的重点方向之一就是语音识别,其研究成果被陆续发布在微软 的o f f i c e 系列组件及相关语音开发包中。1 9 9 8 年i n t e i 公司提出了基于i n t e l 架构发展语音技术的构想, 向软件开发厂商提供包括信号处理库、识别库、图像处理库在内的高性能语音函数库支持,1 9 9 9 年i n t e i 公司又和l & h 公司合作,推出了语音识别软件开发包s p a r k 3 0 ,其中包括s p a r k 语音识别引擎和软件 开发工具箱。微软随后也推出了基于。n e t 的语音识别引擎。 2 2 语音识剐的分类 让机器听懂人类的语言,一直是人们追求的目标。要达到这一目标面临着很多的困难。这些困难 具体表现在n 7 1 : 语音信号的声学特征随与之前后相连的语音的不同而有很大的变化,且连续语音流中各语音 单位之问不存在明显的界线; 语音特征随发音人的不同、发音人生理或心理状态的变化而有很大的差异; 环境噪声和传输设备的差异也将直接影响语音特征的提取 一个语句所表达的意思与上下文的内容、说话时的环境条件及文化背景等因素有关,而语句 的语法结构又是多变的,并且语境信息几乎是计算机语音识别无法利用的,所有这些都给语 意的理解带来很大的困难。 由于出发点不同,识别又分为说话人识别( s p e a k e r r e c o g n i t i o n ) 和语音识别。就说话人识别来看。 可分为与文本有关( t e x t - d e p e n d e n t ) 和与文本无关( t e x t - l n d e p e n d e n t ) 两类。从用途上看。可分为说 话人辨认( s p e a k e ri d e n t i f i c a t i o n ) 和说话人确认( s p e a k e rv e r i f i c a t i o n ) 。前者判定菜一待识别的声音 是多个话者中的哪一个是多选一的问题属于闭集辨识范畴。后者判定一个待识别的声音“是或不 是”某一特定话者的语音其输出只有两种结果,为肯定或否定的问题。 就语音识别而言。也存在着不同的分类方法: 按词汇量大小分。每个语音识别系统都有一个词汇表。系统只能识别词汇表中所包含的词条。 通常词汇量可分为小词汇量、中词汇量和大词汇量一般小词汇量包括1 0 - - 1 0 0 个词,而中 词汇量大约包括1 0 0 - 5 0 0 个词条,相应的大词汇量至少包含5 0 0 个以上的词条。一般情况下, 语音识别的识别率会随着词汇量大小的增加而下降。因此。语音识别的研究难度是随着词汇 量的增加而逐渐增加的。 按发音方式分。语音识别可以分为孤立词( i s o l a t e d w o r d ) 识别、连接词识别( c o n n e c t e d w o r d ) 识别、连续语音( c o n t i n u o u ss p e e c h ) 识别以及关键词检出( k e y w o r ds p o t t i n g ) 等。在孤立 词识别中,机器只是识别一个个孤立的音节、词或短语等,并给出具体识别结果;连续语音 识别中,机器识别连续自然的书面朗读形式的语音;而连接词识别中,发音方式介于孤立词 和连续语音之间,它表面上看像连续语音发音,但能明显地感受到音与音之间有停顿。这是 通常可以采用孤立词识别的技术进行串接来实现;关键词检出,通常用于说话人以类似自由 交谈方式的发音,这种发音成为自发发音( s p o n t a n e o u s ) 方式;在这种发音方式下,存在着 各种各样影响发音不流畅的因素,如犹豫、停顿、更正等,并且说话人存在着大量不是识别 词表中的词,判断理解说话人的意思,只从其中一些关键的部分做出决定,因此只需进行其 中的关键词识别。 按说话人分。可分为特定说话人( s p c a k e r - d e p o n d e n t ) 和非特定说话人( s p e a k e r - l n d e p o n d e n t ) 5 客南大学硕上学位论文 两种。前者只能识别固定某个人的声音,其他人要想使用这样的系统,必须事先输入大量的 语音数据,对系统进行训练;而对后者,机器能识别任意人的发音。由于语音信号的可变性 很大,这种系统要能从大量的不同人( 通常3 肛4 0 人) 的发音样本中学习到非特定人的发音 速度、语音强度、发音方式等基本特征,并归纳出其相似性作为识别的标准。使用者无论是 否参加过训练都可以共用一套参考模板进行语音识别。从难度上看,特定说话人的语音识别 比较简单,能得到较高的识别率。并且目前已经有商品化的产品;而非特定人识别系统,通 用性好,应用面广,但难度也较大,不容易获得较高的识别率。 从语音识别的方法分。有模板匹配法、随机模型法和概率语法分析法。这些方法都属于统计 模式识别方法。其识别过程大致如下:首先提取语音信号的特征构建参考模板,然后用一个 可以衡量未知模式和参考模板之间似然度的测度函数,选用一种最佳准则和专家知识做出识 别决策,给出识别结果。其中模板匹配法是将测试语音与参考模板的参数一一进行比较和匹 配,判决的依据是失真测度晟小准则,典型的代表有d t w ( 动态时间规整算法) 。随机模型 法是一种使用隐马尔可夫模型( h m m ) 来对似然函数进行估计与判决,从而得到相应的识别 结果的方法。由于隐马尔可夫模型具有状态函数,所以这个方法可以利用语音频谱的内在变 化( 如说话速度、不同说话人特征等) 和它们的相关性。概率语法分析法适用于大范围的连 续语音识别,它可以利用连续语音中的语法约束知识来对似然函数进行估计和判决。其中, 语法可以用参数形式来表示,也可以用非参数形式来表示 语音识别中,最简单的是特定人、小词汇量、孤立词的语音识别,最复杂最难解决的是非特定人、 大词汇量、连续语音识别。无论是哪一种语音识别,当今采用的主流算法仍然是动态时问规整算法和 隐马尔可夫模型方法,但是近年来,基于神经网络、支持矢量机、遗传算法等语音识别技术也在不断 进步当中 2 3 语音识别的过程 语音识别系统本质上是一种模式识别系统。它的基本框图如图2 - i 所示,与常规的模式识别系统 一样,包含特征抽取、模式匹配和参考模式库等三个基本单元。但是由于语音识别系统所处理的信息 是结构非常复杂、内容极其丰富的人类语言信息,因此它的系统结构比通常的模式识别系统要复杂得 多。 图2 - 1 语音识别的原理框图 一个语音识别系统主要包括训练和识别两个阶段,无论是训练还是识剐,都需要首先对输入的原 始语音进行预处理,并进行特征提取。下面具体说明各个模块的功能。 预处理模块,对输入的原始语音信号进行处理,滤掉其中的不重要的信息以及背景噪声等,进行 语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进行语音分帧以及预加重等处理工 作。 特征提取模块负责计算语音的声学参数,并进行特征的计算,以便提取出反应信号特征的关键特 征参数,以降低维数并便于后续处理语音识别系统常用的特征参数有幅度、能量、过零率、线性预 测系数( l p c ) 、i - p c 倒谱系数( l i ) c c ) 、线谱对参数( l s p ) 、短时频谱、共振峰频率、反应人耳听 觉特征的m e l 频率倒谱系数( m f c c ) 等。特征的选择和提取是系统构建的关键。 在训练阶段,用户输入若干次训练语音,系统经过上述预处理和特征提取后得到特征矢量参数( 序 6 第二章语音识别技术 列) ,然后通过特征建模模块建立训练语音的参考模式库( 可能为参考模板或者模型等) ,或者对已在 模式库中的参考模式作适应性修正。 在识别阶段,将输入语音的特征矢量参数( 序列) 和参考模式库中的模式进行相似性度量比较, 将相似度最高的模式所属的类别作为识别的中间候选结果输出 而后处理模块,可能涉及句法分析、语音理解、语义网络以及语言模型等。它往往不是一个孤立 的单元,而是与匹配计算单元、参考模式可融合在一起,构成一个逻辑关系复杂的系统整体。 2 4 动态时间归正的识别技术 美国数学家贝尔曼( b e l l m a n ) 在解决多阶段决策过程最优化问题时,提出了动态规划算法。多阶 段决策问题是指这样一类过程:由于它的特殊性,可将过程划分为若干个相互联系的阶段,并且每个 阶段的决策常常影响下一个阶段的决策。各个阶段不同的决策的序列构成不同的策略。对应于一个策 略就有一个确定的活动效果。多阶段决策问题就是在给定的策略集合中选择一个最优策略,是在预定 的目标下达到最好的效果。 贝尔曼的最优化原理是:作为整个过程的晟优策略具有这样的性质:即无论过去的状态和决策如 何,对前面的决策所形成的状态而言,余下的各项决策必须构成最优策略。 在语音识别中。简单地将输入模板与相应的参考模板直接作比较存在很大的缺点。因为语音信号 具有相当大的随机性,即使是同一个人在不同时刻发的同一个语音。也不可能具有完全相同的时间长 度,因此时间归正处理必不可少。 日本学者s a k o e 和i t a k u r a 于2 0 世纪7 0 年代率先把动态规划方法引入语音识别,将时间归正与距 离测度计算结合起来,提出了动态时间弯折算法( d y n a m i c t i m e w a r p i n g ,d t w ) 。动态时间弯折是把 时间归正和距离测度计算结合起来的一种非线性归正技术,很好地解决了上述问题,在当时的小词汇 量的语音识别研究中获得了巨大的成功。直至今日,d t w 也是语音识别中一种很成功的经典匹配算 法。 动态时间归正算法在语音识别过程中的作用,是将作为输入模板的语音信号和作为参考模板的语 音信号进行时间归正和距离测度的计算,根据计算的结果选取测度最小的作为识别的结果进行输出。 在计算机发音学习系统中也可以使用d t w 算法,但是使用的方式不同。通过算法计算出来的结果可 以表征学习者发音的好坏,以此作为评价发音者发音水平的依据,进而为学习者学习正确的发音提供 必要的反馈。 2 4 1d t w 基本原理 动态时间弯折是采用动态规划技术( d y n a m i cp r o g r a m m i n g ,d p ) ,将一个复杂的全局优化问题转 化为许多局部最优化问题,一步一步地进行决策嗍。假设参考模板的特征矢量序列为 x 二k ,z :,而 ,输入语音特征矢量序列为y 一侈。,y 2 ,y j ,1 _ ,d t w 算法就是要寻找 一个最佳的时间归正函数,使待测语音的时间轴j 非线性地映射到参考模板的时问轴i 上,使总的累 计失真量最小。 7 东南大学硕上学位论文 三 喜 囊 芝 待测语音时同轴j 图2 - 2 硎算法搜索路径 设时间归正函数为c t ( 1 ) c ( 2 ) ,c ( ) ,式中,为路径长度;c 加) 一o o ) ,o ) ) 表示第弹 个匹配点对是由参考模扳的第f o ) 个特征矢量与待测模板的第j o ) 个特征矢量构成的匹配点对。两者 之问的距离( 或失真值) d e , j “) ,y m ) j 称为局部匹配距离。d t w 算法就是通过局部优化的方法实现加 权距离总和最小,即 童【d y 小形】 d - m i n 旦矿一 ( 2 1 ) 。 睨 式中,加权函数的选取应考虑两个因素:一是根据第玎对匹配点前一步局部路径的走向来选取;= 是考虑语音各部分给予不同权值,以加强某些区别特征。在式2 1 表达的优化过程中,可以对时问归正 函数c 傲某些限制,以保证匹配路径不违背语音信号各部分特征的时间顺序一般要求归正函数满足 下列约束; ( 1 ) 单调性j 白) i “一1 ) ,j 白) ,b 一1 ) 。 ( 2 ) 起点和终点约束 一般要求j ( 1 ) 一,( 1 ) 一1 ;j ( ) - j ,| ( ) - j 。 ( 3 ) 连续性 一般规定不允许跳过任何一点,即f o ) - i o - 9 1 和j ( n ) 一j ( n 一1 ) 1 ( 4 ) 最大归正量不超过某一极限最简单的情形为# ) 一,o m m ,其中称i i f 为窗宽通常还 对归正函数所处的区域做某些规定,例如位于平行四边形内,为了实现以上约束条件,需要涉及局部 路径的约束,它用于限制当第苊步为o 伽) ,o ) ) 时。前几步存在几种可能的局部路径。 图2 - 3 给出了3 种典型的局部路径约束,其中( a ) 、( b ) 、( c ) 分别给出了路径受前面一步、二步 和三步约束的情况。 8 第二章语音识别技术 冗9 匀 圈2 - 33 种典型的局部路径约束 下面再定义一种最小累计失真函数g ( f ,j ) ,它表示到匹配点( i ,) 位置的前面所有可能的路径中最 佳路径的累计匹配距离。g ( f ,) 存在如下的递推关系: g g ,加以熙,知) + d k ,y ,耽 ( 蚴 其中o ,j ) 表示局部路径o :,) 一( f ,) 的起点,权睨的取值是与局部路径有关的。 基于上述的定义及相应的约束和规则,以图2 3 ( a ) 的局部路径约束和平行四边形区域约束为例, d t w 算法的具体步骤如下: ( 1 ) 初始化。令f ( 1 ) 一j ( 1 ) 一1 g ) 一2 d b ,y 。) ,则 g ( f ,j ) 一 无最大,耋伍( i , d j ) 隹r r e g c g c z 式中,约束区域e e q 可以假定是这样一个平行四边形,它有两个位于) 和( ,) 的顶点,相邻两条 边的斜率分别为2 和1 2 。 ( 2 ) 递推求累计距离 g ( i ,j ) - m i n k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论