已阅读5页,还剩77页未读, 继续免费阅读
(信息与通信工程专业论文)非特定人语音识别关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕十学位论文 摘要 语音识别作为一个交叉学科,具有深远的研究价值和广泛的应用价值,是计 算机技术研究和发展的一个重要领域。虽然目前语音识别技术已经取得一些成就, 也有一些产品面世,但是大多数语音识别系统仍局限于实验室,在投入实际应用 方面存在诸多限制。 速度和精度是语音识别系统的关键,本文按照语音识别的流程,对语音识别 关键技术进行了深入研究。 首先,论文在介绍分析了语音信号产生的数字模型和语音信号预处理问题之 后,针对传统端点检测算法的不足,提出了一种基于短时能零差分阈值的端点检 测算法。语音端点检测直接影响语音识别率,是语音识别最基本而又最重要的环 节。实验证明,新算法检测准确率提高了1 9 ,且平均检测耗时节约了2 5 7 ,优 于传统算法。 其次,论文对各类语音特征参数进行了讨论,并且在深入研究m f c c 参数的 基础上,提出了一种新的i m f c c 参数。实验证明,新的特征参数对m f c c 进行了 特征加权、差分和p c a 降维等一系列处理后,增强了语音识别系统的鲁棒性,在 各种信噪比下的平均识别率提高了4 5 ;节约了1 0 5 的系统训练时间,提高了 识别系统性能。 论文重点研究了基于h m m 模型的语音识别技术。h m m 模型应用于语音识别 巨大的推动了语音识别技术的发展,它也是目前语音识别技术中最常用的建模技 术。但是传统的h m m 模型初始化方法过于简单粗糙,本文针对这点不足,提出 了更符合语音实际的模型初始化算法。实验证明,新的初始化算法使得平均模型 训练时间节约了2 4 7 ,并且系统识别率提高了3 2 。 论文在对语音识别理论研究的基础上,利用m a t l a b 仿真软件建立了一个基于 1 0 人语音数据库的语音识别仿真系统。对汉语孤立字识别,本系统能较好满足基 本需求,识别率达到9 2 。这为今后对语音识别技术的进一步研究奠定了基础。 论文最后研究探讨了双模态语音识别的相关知识和理论。在复杂噪声环境下, 光依靠语音特征已经无法提高识别率的情况下,为了能够得到更高的语音识别率, 双模态语音识别技术是目前的研究热点,也是今后作者需要努力的方向。 主题词:语音识别;端点检测;语音特征提取;梅尔倒谱系数;隐马尔可夫 模型 第i 页 同防科学技术大学研究生院硕十学位论文 a b s t r a c t a sa i li n t e r d i s c i p l i n a r yf i e l d ,s p e e c hr e c o g n i t i o ni st h e o r e t i c a l l yv e r yv a l u e da n d a p p l i e dw i d e l y , i ti sa l s oo n eo ft h ei m p o r t a n tr e s e a r c hf i e l d so ft h er e s e a r c ha n d d e v e l o p m e n to ft h ec o m p u t e rt e c h n o l o g y a l t h o u g h t h e t e c h n o l o g yo fs p e e c h r e c o g n i t i o nh a sg o ts o m ea c h i e v e m e n t sa tp r e s e n t ,m o s ts p e e c hr e c o g n i t i o ns y s t e m sa r e s t i l ll i m l i t e di nl a ba n dh a v eb i gr e s t r i c t i o nw h e ni tc o m et op r a c t i c a l i t y s p e e da n dr e c o g n i t i o na c c u r a c ya r et h ek e y so far e c o g n i t i o ns y s t e m a l o n gw i t h t h ef l o wo ft h et e c h n o l o g yo fs p e e c hr e c o g n i t i o n ,t h i st h e s i sg o e sd e e pi n t ot h er e s e a r c h o nt h ek e yp o i n t so fs p e e c hr e c o g n i t i o n f i r s t l y , t h i st h e s i si n t r o d u c e da n da n a l y z e dt h ed i 百t a lm o d e lo fs p e e c hs i g n a l ,t h e p r o b l e m so fi t sp r e p r o c e s s i n g , t h e nf o rt h eb u g so ft h et r a d i t i o n a l v o i c ee n d p o i n t d e t e c t i o n , an e wm e t h o do ft h ev o i c ee n d p o i n td e t e c t i o nu s i n gt h ed i f f e r e n c eo ft h e v o c i es h o r te n e r g ya n dc r o s sz e r or a t i oi sp r o p o s e di nt h i st h e s i s v o i c ee n d p o i n t d e t e c t i o nd i r e c t l yi m p a c to ns p e e c hr e c o g n i t i o nr a t ei st h em o s tb a s i ca n dm o s t i m p o r t a n ta s p e c t so fs p e e c hr e c o g n i t i o n i ti sp r o v e dt h a tt h en e wa l g o r i t h mi m p r o v e d t h ed e t e c t i o na c c u r a c yr a t eb y19 a n ds a v e dt h ea v e r a g ed e t e c t i o nt i m e - c o n s u m i n gb y 2 5 7 ,s u p e r i o rt ot h et r a d i t i o n a la l g o r i t h m s e c o n d l y , v a r i o u so fs p e e c hf e a t u r ep a r a m e t e r si s d i s c u s s e da n di n d e p t hs t u d y b a s e do nt h em f c cp a r a m e t e r ,t h i st h e s i sp r o p o s ea ni m p r o v e dm f c cp a r a m e t e r - i m f c c e x p e r i m e n tr e s u l t sd e m o n s t r a t et h a ta f t e ras e r i e so fp r o c e s s i n go nm f c c f e a t u r es u c ha sw e i g h t i n g ,d i f f e r e n t i a l ,a n dp c ad i m e n s i o n a l i t yr e d u c t i o n , t h en e w f e a t u r eh a se n h a n c e dt h er o b u s to ft h e s p e e c hr e c o g n i t i o ns y s t e m ,t h ea v e r a g e r e c o g n i t i o na c c u r a c yi n c r e a s e4 5 i nv a r i o u so fs n r ;s h o r t e n e dt h et r a i n i n gt i m eb y 10 5 a n dl a s ti m p r o v e dt h ep e r f o r m a n c et h er e c o g n i t i o ns y s t e m t h e s i sf o c u s e so nt e c h n o l o g yo fs p e e c hr e c o g n i t i o nb a s e do nh m mm o d e l h m m m o d e la p p l i e dt os p e e c hr e c o g n i t i o nb r i n gi nt r e m e n d o u si m p e t u st ot h ed e v e l o p m e n to f s p e e c hr e c o g n i t i o n i ti sa l s ot h em o s tc o m m o n l yu s e di ns p e e c hr e c o g n i t i o nc u r r e n t l y b u tt h et r a d i t i o n a lh m mm o d e li n i t i a l i z a t i o na p p r o a c hi st o os i m p l ea n dc r u d e ,t h i s t h e s i sa d d r e s s i n gt h i sd e f i c i e n c y , p r o p o s e dam o r er e a l i s t i cm o d e li n i t i a l i z a t i o n a l g o r i t h m e x p e r i m e n tp r o v e dt h a tt h en e w m o d e li n i t i a l i z a t i o na l g o r i t h mc a nr e d u c e t r a i n i n gt i m eb y2 4 7 a n dc a nu l t i m a t e l yi m p r o v et h es y s t e mr e c o g n i t i o nr a t eb y 3 2 o nt h eb a s i so ft h et h e o r e t i c a lr e s e a r c ho ns p e e c hr e c o g n i t i o n ,u s i n gm a t l a b s i m u l a t i o ns o f t w a r e ,t h e s i se s t a b l i s h e sas p e e c hr e c o g n i t i o ns i m u l a t i o ns y s t e mo na lo - p e r s o ns p e e c hd a t a b a s e f o ri s o l a t ew o r ds p e e c hr e c o g n i t i o n , t h i ss y s t e mg a l lm e e t o u rb a s i cn e e d sw e l l ,a n dt h er e c o g n i t i o na c c u r a c yr a t ei s9 2 删sl a y st h ef o u n d a t i o n f o rt h ef u t u r ea n df u r t h e rr e s e a r c ho ns p e e c hr e c o g n i t i o n t h e s i sf i n a l l yr e s e a r c ha n dd i s c u s st h ek n o w l e d g ea n dt h e o r i e so fb i m o d es p e e c h 第i i 页 同防科学技术大学研究生院硕+ 学何论文 r e c o g n m o n i nac o m p l e xn o i s ye n v i r o n m e n t ,i tc a nn ol o n g e rr e l yo n l yo i ls p e e c h t e a t u r e st ol m p r o v er e c o g n i t i o na c c u r a c y i n0 r d e rt og e ta h i g h e ra c c u r a c yo fs p e e c h r e c o g n m o n ,b i r n o d es p e e c hr e c o g n i t i o ni st h ec u r r e n tr e s e a r c hf o c u s ,a n di t sa l s ot h e d i r e c t i o no f t h ef u t u r ew o r ko f t h ea u t h o r s k e yw o r d s :s p e e c hr e c o g n i t i o n ;v o i c ee n d p o i n t sd e t e c t i o n ;e x t r a c t i o no fs p e e c h f e a t u r ep a r a m e t e r s ;m f c c ;h m m 国防科学技术大学研究生院硕+ 学何论文 表2 1 表3 1 表3 2 表4 1 表4 2 表4 3 表4 4 表4 5 表4 - 6 表目录 实验仿真结果比较2 2 两种特征参数在各信噪比下的语音识别率比较3 4 两种特征所需训练时间比较3 4 各类识别基元实用比较5 0 两种算法训练结果比较5 2 两种算法语音识别率比较5 3 汉语数字“0 ”训练数据6 0 一组汉语数字仿真识别结果6 1 识别性能分析6 1 第1 v 页 国防科学技术大学研究生院硕十学何论文 图1 1 图1 ,2 图2 1 图2 2 图2 3 图2 4 图2 5 图2 6 图2 7 图2 8 图2 9 图2 1 0 图2 1 1 图3 - 1 图3 2 图3 3 图3 4 图3 5 图3 - 6 图3 7 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 1l 图4 1 2 图目录 语音识别系统结构图5 语音识别分分类图6 语音产生模型1 1 语音信号数字化过程1 2 预加重滤波器1 2 短时能量的图形表示1 4 短时平均幅值的图形表示1 5 汉语发音“6 ”的端点检测图。1 6 汉语发音“4 ”的端点检测图1 7 短时能零差分法基本框架图1 8 短时能零差分法流程图2 0 汉语“l 检测图2 l “6 的两种端点检测方法比较2 2 l p c c 算法过程2 7 普通频率与m e l 频率的对应关系2 8 m e l 滤波器组示意图2 9 m f c c 提取过程。3 0 m f c c 第2 、6 、1 2 维提取结果3 1 m f c c 参数前1 3 维分量f 比值图3 2 i m f c c 提取过程图3 3 参考模式与待测模式的映射图3 6 d t w 算法求最小失真3 6 d t w 算法搜索路径范围3 7 前后网格点路径限制3 7 “0 的h m m 模型状态表示图4 0 h m m 模型常见拓扑结构4 0 前向概率后向概率关系图4 3 向前概率递推示意4 3 后向概率递推示意4 4 h m m 模型训练过程示例5 0 h m m 模型识别过程示例5 0 h m m 模型训练过程5 5 第v 页 国防科学技术大学研究生院硕十学何论文 图4 1 3 语音识别系统m a t l a b 仿真编程流程5 6 图4 1 4 语音处理实验仿真平台5 7 图4 1 5 仿真平台信号观测操作界面一5 7 图4 1 6 仿真平台预处理操作界面5 8 图4 1 7 仿真平台h m m 语音识别界面5 8 图4 1 8 仿真平台基于h m m 模型文件识别界面5 9 图4 1 9 仿真平台对汉语数字“l 的识别结果5 9 图4 2 0 汉语数字“o ”训练结果仿真6 0 图5 1 唇部参数6 4 图5 2 两种融合策略:6 5 图5 3同步的音视频流h m m 模型6 6 图5 4 特征提取及插值过程6 6 图5 5 乘积h m m 训练模型6 6 第页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文题昏缝堡垒l 二遮垄坠幽鍪丝垫麴宝, 黼始一吼叩钏月午日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权国防 科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允许 论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印缩印或扫描等复制手段保存、汇编学位论文。 学位论文题目: 聋盗整笪丝堡蛰型垄獬 学位论文作者签名:盈延熏至坠 日期:沙乍i 月令日 作者指导教师签名:彳名垂二二l 日期:洲广7 年 7 月 y 日 围防科学技术大学研究生院硕十学位论文 第一章绪论 1 1 引言 计算机技术的飞速发展,使人与机器用自然语言进行对话的梦想逐渐接近实 现。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段, 也是人类思维的一种依托。语言的出现是人类发展的一个非常重要的标志,与机 器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。 语音识别是指通过机器( 包括硬件和软件) 自动地将语音信号转变为相应文本 或指令的专门技术。作为一门综合交叉学科,语音识别以语音为研究对象,既是 语音信号处理的一个重要研究方向,又是模式识别的一个分支,涉及到生理学、 心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态 语言( 如人在说话时的表情、手势等行为动作可帮助对方理解) 。它的目标是使机 器能象人一样准确识别、理解语音信号所承载的信息,从而进行人机交流。简单 的说,就是让计算机能听懂人说的话,并做出相应的反应【l 】。语音识别技术的发展 将使人与机器之间的信息交互方式发生深刻的变革。它使人与各种机器之间的界 面更加和谐、自然,也使人们对信息的处理和获取更加便捷,从而提高人的工作 效率,改善社会服务质量和人的生活品质。 语音识别技术发展到今天,它的应用范围极为广泛。目前在各行各业中都涌 现了不少语音识别产品。如医疗卫生服务、语音拨号、智能玩具、智能家居、宾 馆服务、军事监听、股票交易、翻译系统、汽车导航、信息网络查询、工业控制 等等。语音识别技术涉及声学、语言学、语音学、生理科学、数字信号处理、通 信理论、电子技术、计算机科学、模式识别和人工智能等众多学科,是一门新兴 的交叉学科。 1 2 课题背景、目的和意义 经过近五十年的发展,语音识别技术在许多应用领域显示出巨大的应用前景。 利用语音识别构筑信息监测系统,对保障国家的稳定和经济建设的顺利进行非常 重要。例如技侦一线部队日常话报侦听工作面临巨大挑战:不仅控守的线路多, 而且控守的业务种类多,有国际长途、国内长途、地区通信、计算机网络、短波 和超短波等。一线部队迫切需要一种自动化的手段来应对挑战,为部队提供全面、 可靠和迅捷的情报。自动语音识别系统可以截收敌方的通话,检查通话内容是否 包含敏感信息。语音识别系统的广泛应用能够极大地提高技侦部队的战斗力,极 大地丰富技侦部队的情报产出。 第1 页 同防科学技术大学研究生院硕十学仲论文 除了用于重要军事情报、敏感信息和关键字等的自动识别和获取。本课题的 研究成果还可以用于实时向无人驾驶飞机发出语音命令,实现对无人机实时自动 的导航;将敌方某重要人士的语音特征进行存储建库,并根据需要合成另一段语 音信号或指令对敌军进行战略性调度等,干扰敌军指挥作战系统。 目前大多数语音识别系统的关键技术都是基于h m m 模型而开发的,特别是 非特定人语音识别。主要原因是h m m 模型是一种稳定的统计模型,它的双状态 链能较好的用来表示语言的发音现象。这也是本课题研究的依据所在。随着语音 识别技术的发展,语音信号处理的各项技术也得到充分的扩展,特别是语音转换、 语音合成等,这也给语音识别技术的发展提供了新思路。 1 3 发展历史、国内外研究现状及未来发展趋势 1 3 1 语音识别发展历史和国内外研究现状 语音识别的研究工作起步于上个世纪5 0 年代。1 9 5 2 年b e l l 实验室的d a v i s 等 人首次研制出能识别l o 个英文数字的实验装斜2 1 。1 9 5 6 年o l s o n 和b e l a r 等人用8 个带通滤波器组提取频谱参数作为语音的特征,成功研制了一台简单的语音打字 机。2 0 世纪6 0 年代中期形成的一系列数字信号处理方法和技术,如数字滤波器、 快速傅里叶变换( f f t ) 等成为语音信号数字化处理理论和技术的基础。此外,随着 计算机技术的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研 究。然而,在语音识别领域内,起初的几种语音打字机的研究很活跃,但后来也 全部停了下来,足见当时人们对语音识别难度的认识得到了加深。 1 9 7 0 年,单词识别装置开始了实用化阶段,其后实用化的进程逐渐高涨,实 用产品的生产消售也上了轨道。此外社会上所宣传的声纹识别,即说话人识别的 研究也扎扎实实地开展起来,并很快达到了实用化的阶段。到了1 9 7 1 年,以美国 a g a p ( a m e r i c a nr e s e a r c hp r o j e c t sa g e n c y ) 为主导的“语音理解系统的研究计划 也开始启动。这个研究计划不仅在美国国内,而且对世界各国产生了很大的影响, 促进了连续语音识别研究的兴起。历时五年的庞大的a r a p 研究计划,虽然在语 音理解、语言统计模型等方面的研究积累了一些经验,取得了许多成果,但没能 达到巨大投资应得的成果,在1 9 7 6 年停了下来,进入了深刻的反省阶段。尽管如 此,在整个2 0 世纪7 0 年代还是出现了几项对语音信号处理技术的进步和发展产 生重大影响的研究成果。 其中最重要的就是2 0 世纪7 0 年代初期日本学者s a k o e 和c l l i b a 提出动态时间 规整( d 1 w ) 技术【3 】来解决语音识别中不等长语音的对整匹配r 口- j 题;板仓( i t a k u r a ) 将 线性预测编码技术应用于语音信号处理和语音识别【4 】给语音识别研究的发展带来 第2 页 同防科学技术大学研究乍院硕十学何论文 _ - - v _ 了巨大进步。这一时期的语音识别主要基于模板匹配的思想,研究的领域局限于 特定人,小词汇量的孤立词识别。此后,提出的隐马尔可夫模型法( h m m ) 获得巨 大成功,该技术后来在语音信号处理的多个方面获得巨大成功。随后矢量量化技 术的推广也使其在语音识别、语音编码等方面发挥重要作用。 2 0 世纪8 0 年代,矢量量化、隐马尔可夫模型和人工神经网络等方法相继被应 用于语音信号处理,并不断得到改进与完善。其中,隐马尔可夫模型( h m m ) 作为 语音信号的一种统计模型,在语音信号处理的各个领域中获得了广泛的应用。其 理论基础是1 9 7 0 年前后,由b u a r n 5 】等人建立起来,随后由美国卡内基梅隆大学 ( c m u ) 的b a k e r 和美国i b m 公司的j e l i n e k 等人将其应用到语音识别中【6 】【7 1 。由于 美国贝尔实验室的r a b i n d 8 】【9 】【1 0 】等人在2 0 世纪8 0 年代中期,对隐马尔可夫模型 深入浅出的介绍,将原本枯燥难理解的h m m 纯数学模型工程化,才使世界各国 从事语音信号处理的研究人员了解和熟悉,进而成为一个公认的研究热点,也是 目前语音识别等的主流研究途径。人工神经网络( 6 心) 【1 1 】【忆】在语音识别中的应用 研究的也在这一时期兴起。 2 0 世纪9 0 年代,语音识别在实用化方面取得了许多实质性的研究进展,逐渐 由实验室走向实用化。一方面,对声学语言学统计模型的研究逐渐深入,鲁棒的 语音识别、基于语音段的建模方法、隐马尔可夫模型与人工神经网络的结合成为 研究的热点。另一方面,为了语音识别实用化的需要,讲者白适应、听觉模型、 快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。 进入2 1 世纪,语音识别技术将使计算机丢掉键盘和鼠标。这无疑将改变我们 许多人的工作和生活方式。 我国语音识别研究工作一直紧跟国际水平,国内的语音识别始于七十年代, 国家也很重视,并把大词汇量语音识别的研究列入“8 6 3 计划,由中科院声学所、 自动化所及清华大学等单位研究开发【1 3 】【1 4 】【1 5 】。经过三十余年的发展,汉语语音识 别领域取得了丰硕的成果。鉴于中国未来庞大的市场,国外也非常重视汉语语音 识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者, 汉语大词汇量语音识别都达到了相当高的水平。 然而,汉语语音识别技术虽然在移动通信、电脑话务员、电话证券交易等领 域有着极大的应用价值,并因此受到国内科研单位的广泛重视,但是其进展却相 当缓慢。这主要是因为汉语数字语音识别存在诸多困难: 语音间高混淆的问题。由于汉语数码语音的音节数少,因此,语音混淆高; 非特定人问题。汉语是种多方言语种,由于各地人群在普通话中带有或 多或少的方言,因此汉语数字语音识别系统仍然具有很大难度; 噪声环境问题。由于环境复杂,噪声源较多,使得相应的数字语音识别任 第3 页 国防科学技术大学研究生院硕士学位论文 务相当艰巨; 连续语音问题。汉语数字连续语音的连续程度高【1 6 1 ,协同发音现象严重。 1 3 2 语音识别未来发展趋势 尽管世界范围内语音技术的研究工作迄今己历5 0 多年,也有很大的进展。然 而相比之下,国内语音识别技术的发展水平与国际先进水平相比,仍有较大的差 距。随着9 0 年代h m m 理论应用于语音识别的相对成熟,后续的理论发展缓慢, 严重影响了语音识别技术的发展,主要面临的问题有:1 ) 在存在背景噪音的环境 中语音识别的鲁棒性问题。目前国内外开发的各种语音识别系统都是基于良好的 实验室环境,语音识别系统的环境依赖性强。在某种环境下采集的训练语音只能 在这种环境下识别效率才能达到最优,否则系统的性能将急剧下降。并且在面临 复杂嗓音的情况时进行端点检测很容易产生误检、漏检、多检等情况,如果无法 去除噪音对语音的影响将无法有效提高语音识别率。2 ) 语音识别系统的灵活性差, 不能适应人类灵活、自然的说话方式。自然连续语音流中语音信号的声学特征随 与之前后相连的语音的不同有较大变化,且语音单位之间协同发音现象明显,语 音切分较难。3 ) 语音特征变化大。语音特征参数的提取是语音识别过程中的关键 一步,然而它极容易随着发音人的不同、发音人生理或心理状态的变化而产生很 大的差异。4 ) 汉语数字语音识别具有较强的特殊性,它与其他语言的数字语音识 别相比存在诸多困难【l | 刀。其一是语音间的高混淆问题:由于汉语数字语音的音节 数少,以单音节为单位,发音时间短,声学特征少,因此容易混淆;汉语存在大 量的同音字现象,音节间相似度大,容易产生混淆。其二是汉语是多方言语种, 由于各地人群在讲普通话时带有或多或少的方言,因此这种汉语数字语音识别系 统仍然具有很大难度。 可以预测,在今后的发展中,人们将针对目前语音识别技术存在的问题从以 下方面进行深入研究: 1 ) 加强发音模型研究和方言移植。非特定入的语音识别系统具有最广阔的应 用前景,但是针对该系统的语音建库和训练,尤其是众多口音的适应面仍存在很 大的局限性。 2 ) 增强语音识别系统的鲁棒性。语音识别系统的应用环境五花八门,环境噪 音对语音识别系统的影响往往是致命的。加强对有效语音的采集技术,增强识别 系统对环境的鲁棒性能从根本上提高识别性能。 3 ) 增加语音识别的判决信息。加入视觉信息的语音识别是目前研究的热点。 它在识别语音的同时还考虑了人说话时的唇动以及手形等与语音同步的视觉信 息,有效的增加了判决信息,大幅度提高了语音识别效率。 第4 页 国防科学技术大学研究生院硕十学位论文 1 4 语音识别系统概述 1 4 1 语音识别系统的组成 在过去几年,语音识别取得了很大的进步。起初,只能识别孤立字语音,即 两个字之间必须有停顿。发展到今天,不仅能识别字与字无停顿的连续语音,还 可能是语音识别系统理解语音语义使其变得更智能化。 研究语音识别技术时,我们需要学习有关语音信号产生模型、语音信号预处 理、语音特征提取、语音声学基元建模、语言建模、模板训练、模板匹配等方面 知识。 总的来说,绝大多数语音识别系统都采用模式识别原理,一般系统结构可以 用图1 1 表示。 语 图i l 语音识别系统结构图 一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都 需要对输入的原始语言进行预处理。对语音信号进行预处理,滤除掉其中的不重 要的信息以及背景噪声,并提取得到有效的语音段,之后提取语音特征参数。训 练在识别之前进行,通过讲话者多次重复语音,从原始语音样本中去除冗余信息, 保留关键的最能体现语音各种特征的数据,再按照一定规则对数据加以聚类,形 成模式库。而识别即是提取出输入待识别语音的语音特征参数,根据一定的准则( 如 某种距离测度) ,计算其与库存模式之间的相似度( 如匹配距离、似然概率) ,判断 出该输入语音,这就是语音识别。 预处理模块的主要功能是通过高频预加重来平滑语音信号频谱,并利用窗函 数把数字化的语音数据序列分成连续的信号帧。语音特征提取模块的功能是完成 基于频谱的特征矢量的计算。当端点检测模块检测到当前语音信号帧为起始帧时, 特征提取单元开始特征提取计算,并存储帧特征矢量。语音特征矢量按照一定的 要求处理后,作为识别模型的特征参数,建立模型库。最后,模式匹配单元完成 模型库特征矢量与已知的语音信号模板之间的匹配计算,并选择其中匹配程度最 高的语音信号模板作为识别结果。但是如果每一个字或词都建立其相应的语音识 别模板,那将导致识别难度和计算量大大增加,因而建立更加精细的语言转换概 率库已成为大词汇量语音识别系统中的一个研究热点。 第5 页 国防科学技术大学研究生院硕十学位论文 1 4 2 语音识别系统的分类 语音识别系统,一般按以下三个准则分类,如图1 2 所示。 ( 1 ) 按词汇量来分 每一个语音识别系统都必须有一个词汇表。系统只能识别表中所包含的词条。 通常情况下,词条数量越多,则相似的词也越多,这样也无形中增加了误识率。 此外,词数的增加,也增加了模型匹配时搜索运算的计算量。按此标准划分一般 是,词数少于1 0 0 时,称为小词汇表;1 0 0 5 0 0 称为中词汇表;超过5 0 0 时称为大 词汇表。 ( 2 ) 按发音方式来分 语音识别系统按照语音的发音方式来分,它可分为孤立词、连接词和连续语 音三种方式。孤立词识别是指对待识别语音为一个字、一个词或一条命令这样的 孤立词进行识别,在这种情况下,词或命令都被视作一个整体的孤立词,它们在 词汇表中也都作一个独立的词条。连接词识别一般是指十个数字( 0 9 ) 连接而成 的多位数字的识别,有时还可包括少量的操作指令或命令指令,当然此时的词汇 表由这十个数字及少量指令构成。连续语音识别则是对说话人日常自然讲述的语 音进行的识别。这三种方式,其识别难度逐渐递增。并且,即使是连续语音识别, 也要求说话人的语速尽量平缓,不能变化太快。因此可见,要完全实现说话人的 自然连续语音识别是相当困难的。 ( 3 ) 按识别对象来分 语音识别系统的识别可以只针对一个用户的,例如,个人专用的语音打字机, 这称为特定人语音识别。若是针对任何人的,则称为非特定人语音识别。航班语 音查询和数据检索系统中所用的识别器即属这种情况。显然,后者的实现难度比 前者大,但是其实用性更强。 图1 - 2 语音识别分分类图 第6 页 围防科学技术大学研究生院硕十学伊论文 本论文所做的研究建立在非特定人语音识别的基础上,对相应的算法进行改 进以提高语音识别率。 1 5 论文主要研究内容及创新点 虽然,目前针对孤立词的语音识别研究己较为成熟,一些主要的方法如动态 时间规整技术( d t w ) 和隐马尔可夫模型( h m m ) 技术实现的孤立词语音识别系统 已经取得了很好的效果,并已实用化。但孤立词语音识别对语音识别的研究仍有 重要的意义,特别是在语音识别相关算法的研究方面,孤立词语音识别的实验效 果更显著。并且用于非特定人的孤立词语音识别实用性更强,研究意义更大。 首先,面向非特定人的孤立词语音识别实现简单,技术成熟,因而存在的问 题较少,有着很好的识别性能,实际使用较为方便,也易于推广。相对于特定人 语音识别,本文研究更具有实际意义。 其次,非特定人孤立词语音识别有着较为广泛的应用领域。可应用于语音拨 号、语音控制和数据库查询等领域。 最后,非特定人孤立词语音识别的研究是深入进行语音识别研究的基础。对 特定人语音识别的研究已经不能满足现实要求,并且特定人语音识别的识别率已 经很高。在对语音识别技术的研究中发现,孤立词语音识别虽然相对简单,但仍 包含了语音识别关键技术的各个方面,以孤立词为基础对语音识别相关算法进行 研究并通过扩展可以实现更为复杂的语音识别系统。 本课题主要内容是系统地对非特定人语音识别系统的相关技术及其算法进行 研究,重点研究基于h m m 模型的语音识别技术。当然,对语音识别技术进行研 究之前,本文将建立一个由1 0 人组成的语音数据库,共1 0 0 0 个语音文件,最后 在m a t l a b 平台上仿真实现一个小型汉语语音识别系统。 精度和速度通常是评价一个语音识别系统性能好坏的常用参数,两者缺一不 可。很显然,若一个识别系统识别精度很高,速度很慢的话是没有任何实际应用 价值的。反之,亦然。本课题将致力于研究探讨目前语音识别技术中尚存在的主 要问题,在实现一个小型语音识别系统的基础上,提出相关提高精度和速度的方 法和策略。这样不仅有利于增加语音识别的实用性更能促进语音识别的理论发展, 为语音识别领域的发展提供新思路。本文创新点具体包含以下方面: 1 ) 提出一种新型语音端点检测改进算法。传统的语音端点检测方法能在高信 噪比( 3 0 d b ) 环境下有不错的正确率,但它对环境的依赖太强。语音识别系统的 实际应用环境不可能是实验室环境,如何提高复杂噪声下语音识端点检测效率是 提供语音识别实际应用性能的关键步骤。本文在研究传统端点检测算法的基础上 进行改进,以提高语音端点检测的抗噪性和实时性。给后续的语音特征提取和模 第7 页 国防科学技术大学研究乍院硕十学位论文 型训练环节提供一个相对纯净的语音源,进而有效提高语音识别的精度和速度。 2 ) 提出优化改进的语音特征参数。说话人的语音特征变化大是语音识别系统 性能提升的重要障碍。目前研究的语音特征参数有线性预测系数( l p c 参数) 、 线性预测倒谱系数( l p c c 参数) 、基音频率、对数倒频谱( l f s 参数) 、m e l 频 率倒谱系数( m f c c 参数) 等。顾名思义,最优的语音特征参数组合是说话人语 音的最佳表征模型。语音识别系统的模型训练对象是语音特征参数,优良的语音 特征参数不仅能体现说话人语音的动态性,还能提高训练后模型的稳定性。最优 语音特征参数能更全面地体现说话人的声学特点,最大限度地提高非特定人语音 识别率。这给提高语音识别系统的性能带来了新的研究热点。 3 ) 提出基于h m m 模型的语音识别模型改进技术。语音识别是一种模型匹配 技术,它的改进和提高能使语音识别系统具有更高的实时性和识别率。改进的 h m m 模型在不同信噪比情况下都具有稳定的模型参数,这是提高语音识别系统性 能的关键因素。 4 ) 提出目前语音识别技术的努力方向,方便人们对自己感兴趣的内容和方向 进行学习和研究。在运用语音识别技术时结合说话人的唇动和手形等视觉信息, 是一个提高低信噪比情况下语音识别率的有效方法。这能极大解决目前语音识别 系统对应用环境要求高的问题,具有巨大发展潜力和应用价值。 1 6 论文结构安排 语音识别的流程组成包括:语音信号产生模型、语音端点检测、语音特征提 取、语音模型训练、语音模型匹配等。本文将依据语音识别技术的整个流程结构, 逐一向大家介绍和阐述。 第二章主要内容为语音信号端点检测的算法。简要介绍语音的发音模型及其 数字化过程,并且引出传统的端点检测算法。在研究传统的端点检测算法基础上, 提出了一种新型的高效的语音端点检测算法,并对改进算法与传统算法进行仿真 实验,验证改进算法的优越性。 第三章主要内容为语音特征参数提取。对常用的语音特征参数进行必要的分 析,并重点介绍m f c c 参数在语音识别中的运用。针对识别系统的精度问题,提 出一种改进的语音特征参数。实验部分分别用m f c c 和改进后的参数作为语音特 征进行识别实验,实验表明改进后的语音特征参数优于m f c c 。 第四章主要内容为语音识别系统的训练和识别技术的阐述。本章简单介绍 d t w 在语音识别中的应用,将重点介绍经典h m m 的基本原理以及相关理论,针 对h m m 运用在语音识别时的些缺陷,以提高识别率为目的对h m m 模型初始 化做进一步的改进。实验部分将验证对h m m 模型进行相关改进后识别系统在训 第8 页 国防科学技术大学研究乍院硕十学何论文 练时i 自j 以及识别性能上的提高。本章最后利用m a t l a b 仿真平台实现了基于本文语 音库的语音识别系统。 第五章主要内容为双模态语音识别技术的研究。目前,单纯的语音识别在高 信噪比环境条件下的识别率是相对不错的,但是随着噪音的增强,识别率急剧下 降。这就使得我们必须引入其他的判决信息,而双模态语音识别就是在解决单纯 语音识别无法解决的环境噪声带来的低识别率而新开辟的一个语音识别研究领 域。 结束语为工作总结与展望。对本课题的研究进行总结,并以此为基础进行扩 展,提出一些新的思路和方向。 第9 页 国防科学技术大学研究生院硕十学伊论文 第二章语音信号的端点检测 语音作为人类最自然、最直观的信息载体,它必将成为未来人机交互界面的 主要控制方式。而语音端点检测就是从一段原始语音信号中通过一定的技术手段 检测出有用的语音成分进而进行其他语音信号处理。它是语音分析、语音合成和 语音识别等语音信号处理中的最初始最基本的环节也是最重要的环节。 在实际应用中,通常首先要对真正含有语音成分信号的起始点进行判定,如
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 厂区绿化种植合同范本
- 位对职工的保密协议书
- 合伙经营石料合同范本
- 养猪场签订安全协议书
- 劳务正规合同范本模板
- 伐树工程施工合同范本
- 合同型联营协议书范本
- 合伙投资买卖合同范本
- 公墓购墓合同或协议书
- 2026年一级注册建筑师之建筑经济、施工与设计业务管理考试题库300道附答案(典型题)
- 全液压转向器应用基础知识26新
- 大班数学《来自毕业餐会》活动反思
- 昆明城市空间形态
- GB/T 28553-2012汽轮机蒸汽纯度
- GB/T 16921-2005金属覆盖层覆盖层厚度测量X射线光谱方法
- 政治理论水平任职资格考试题库
- 新形势下群众工作的理论与实践课件
- 2023年交银国际信托有限公司招聘笔试题库及答案解析
- 高联难度几何题100道-打印整理版
- 《工程伦理学》配套教学课件
- 公共管理英语 第一篇 教学内容 (15)课件
评论
0/150
提交评论