(电路与系统专业论文)孤立词语音识别系统设计研究.pdf_第1页
(电路与系统专业论文)孤立词语音识别系统设计研究.pdf_第2页
(电路与系统专业论文)孤立词语音识别系统设计研究.pdf_第3页
(电路与系统专业论文)孤立词语音识别系统设计研究.pdf_第4页
(电路与系统专业论文)孤立词语音识别系统设计研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(电路与系统专业论文)孤立词语音识别系统设计研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文馨 8 7 6 7 8 1 摘要 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文 本或命令的高技术。近二十年来,语音识别技术取得显著进步,开始从实验室走 向市场。随着大规模集成电路技术的发展,语音识别技术的研究方向开始步入后 p c 时代,以嵌入式语音识别芯片为主。 本文对语音识别系统进行了概要的阐述,并提出了一种基于小码本孤立词语 音识别系统的硬件实现方法。并根据预处理单元、特征提取单元的特点,提出了 一种更适合硬件实现的算法改进。并给出了硬件实现的框架结构。在预处理单元, 为了简化硬件设计难度及提高识别的精度,从两个方面做了工作,一是对预加重 模块采取了近似法,并在计算能量的除法中利用左移而成功避免了除法器的设 计;二是在端点检测上进行了算法改进,分别采用了动态窗长及零能积差的阈值 判决法。从实验结果来看效果比较理想。在特征提取上,摒弃了在软件设计中常 用的杜宾法求解自相关方程的方法,而采用更适于硬件设计的舒尔法。进一步优 化了硬件设计。 本文的重点内容是模式匹配单元的实现。根据系统要求,设计了一种基于 d t w 算法的模式匹配算法,由于是基于孤立词并且是小码本的,所以采用d t w 算 法是比较理想的选择,但d t w 算法有两个最大的缺陷:一是对端点的敏感性;二 是运算量较大。在这个问题上我们采取了折中,在传统的加速算法上进行了改进, 采用了半宽松式的端点对准。这样做有两个好处:一是使得d t w 算法对端点的敏 感性得以大大改善;二是改进后的半宽松式的端点对准更适于硬件的实现。从实 验结果来看取得了较好的效果。 【关键字】语音识别端点检测特征提取模式匹配d t w 浙江大学硕士学位论文 a b s t r a c t s p e e c hr e c o g n i t i o nt e c h n o l o g y i s a d o p t e d f o rt h ei d e n t i f i c a t i o n a n d u 1 1 d e r s t a i l d i n go f t h em a c h i n e r yv o i c es i g n a li n t ot h et e x to ro r d e rh i 曲- t e c h ,o v e rt l l e 1 a s t2 0y e a r s ,s p e e c hr e c o g n i t i o nt e c h n o l o g yh a sm a d er e m a r k a b l ep r o g r e s s ,b e g i l l i l i n g 舶mm el a b o m t o r yt ot 1 1 em a r k e t w 沛v l s it e c l l n o l o g y ,s p e e c hr e c o g n j t i o n t e c h r l 0 1 0 9 y h a se n t e r e dap o s t - p ce r ar e s e a r c hd i r e c t i o n ,e m b e d d e d s p e e c h r e c o g n i t i o nc h i pr e s e a r c hh a sb e c o m eam a j o rd i r e c t i o n i nt 1 1 i sp a p e r ,t h es p e e c hr e c o 髓i t i o ns y s t e mf o rab a s i ci n 廿d d u c t i o n ,a j l d d i s c u s s e dab a s e do nt h es m a l li s o l a t e dw o r d 印e e c hr e c o g i l i t i o ns y s t e mh a r d w a r et o a c h i e v e a n do nt h eb a s i sf e a t u r e so fp r e e m p h a s i sm o d u l e sa i l df e a t u r ee x t r a c t i o n m o d u l es u g g e s t e dam o r ea p p r o p r i a t eh a r d w a r et oa c h i e v ea l g o r i t si m p r o v e d a n d p r o v i d i n gaf 锄e w o r ks t 兀l c n l r ef o rt 1 1 er e a l i z a t i o no ft l l eh a r d w a r e i np r o c e s s i n g m o d u l e s ,i no r d e rt os i m p l i 鸟t h ed i 衢c u l t yo fh a r d w a r ed e s i g na n di m p r o v et 1 1 e a c c u r a c yo fi d e n t 狮c a t i o nf b mt h et w od o n e ,f i r s t ,t ot a k eas i m i l a rp r eh e a v i e r m o d u l e sa l g o r i t h m s ,a n di nt l l ec a l c u l a t i o no ft h ed i v i s i o no fe n e r g yu s er o l l i n g m e t l l o d s ,a 1 1 ds u c c e s s 如1 1 ya v o i d e df m c eo nt h ed e s i g l l ;s e c o n d ,t h ee n do fm e a l g o r i t l l l l lt oi m p m v et i l ed e t e c t i o n ,1 0 n ga n dd y n a m i cw i n d o w sw e r eu s e dt oz e m m r e s h o l d f 幻mp o o rj u d g m e n t a l g o r i t l l m s f m mt h ee x p e r i m e n t a lr e s u l t so f c o m p a m t i v er e s u l t ss a t i s f a c t o r y i nt l l ee x t r a c t i o no ff e a t u r e s ,d i s c a r d st 1 1 ed e s i g n c o m m o n l yu s e di ns o n w a r es i n c et 1 1 er e l e v a n te q u a t i o nd u b i na l g o r i t l l m sc o m b i n e d 印p r o a c h ,a 1 1 dam o r ea p p m p r i a t eh a r d w a r ed e s i g n e r ad i t u ia l g o t h 1 1 s f l l n h e r o p t i m i z e dh a r d w a r ed e s i g n t h ek e ye l e m e n ti st h er e a l i z a t i o np a n e mm a t c h i n gm o d u l e s a c c o r d i n gt o s y s t e mr e q u i r e m e n t s ,d e s i g nap a n e mm a t c h i n ga l g o r i t h m sb a s e do nd t w ,a si s b a s e do ni s o l a t e dw o r d sa n dt h ec o d ei ss m a l l ,s ou s i n gd t w a l g o r i m mi sam o r e i d e a lc h o i c e ,b u tt h e r ea r et w od t wa l g 砌t mg r e a t e s tm i s t a k e :f ,t 1 1 es e n s m i t y t ot h ee n d ;s e c o n d ,t h eo p e r a t i o no ft h el a r g e r i nt h i si s s u ew et a k eac o m p r o m i s e ,j n t h et r a d i t i o n a la c c e l e r a t e d a l g o r i 恤n s f o ri m p m v e dw i t ht h ei n t r o d u c t i o no f 1 i 浙江大学硕士学位论文 s e m i r e l a ) 【e ds t y l ea tt 1 1 ee n d t od os ow o u l dh a v et w oa d v a i l t a g e s :f i r s t ,i td t w a l g o r i t l l m st os i g n i f i c a l l t l yi m p m v et l l ee x t i m es e n s i t i v i t y ;s e c o n di st oi m p r o v et l e s e m i l i b e r a ls t y l eb e t t e rs l l i t c dh a r d w a r ea tt 1 1 ee n da c h i e v e d f m mt l l ee x p 甜m e n t a l r e s u l t so f a c h i e v i n gb e t t e rr e s u l t s i k e 啊o r d l :s p e e c hr e c o 印i t i o n ,e n d - p o i n td e t e c t i o n ,f e a t u r ee x 廿a c t i o n ,p a t t e m m a t c h i n g ,d t w 1 i i 浙江大学硕士学位论文 图表目录 图1 1 语音识别技术发展历史中的重要事件3 图l 一2 语音识别的典型应用7 图2 - 1 语音识别基本原理框图1 2 图2 2 特征提取模型框图1 3 图3 1 孤立词语音识别系统结构框图2 0 图3 2 窗函数的时域和频域波形2 3 图3 - 3 时间规整示意图2 7 图3 4 常用的几种约束路径,2 8 图4 1 预加重的硬件实现框图31 - 图4 2 信号帧移示意图3 2 图4 3 窗长可变的算法框图。一3 2 图4 4 不同噪声情况下端点检测实验结果比较3 4 图4 5 端点检测算法框图3 4 图4 - 6 z e s 运算单元框图3 6 图4 7 预处理单元硬件设计框图一3 6 图4 8 v c s 仿真结果3 7 图4 9 特征提取单元系统框图3 9 图4 1 0 自相关函数模块原理框图4 0 图4 1 1 舒尔递推模块框图4 1 图5 1 dt w 快速算法示意图4 2 图5 - 2 动态规整的匹配距离4 4 图5 3 放宽端点限制示意图4 4 图5 4 适合硬件实现的全局约束。4 5 图5 - 5 d t w 算法流程图4 5 图5 6 实现d t w 算法的心动阵列4 6 图5 - 7 p e 处理单元结构4 7 图5 8 v c s 仿真图4 8 v i 浙江大学硕士学位论文 1 绪论 语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中 最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个 分支。我们研究语音技术的主要目的是要让人和机器之间能够无障碍地交流,这 是我们长久以来的梦想。将这个梦想变成现实,就需要依靠科技的力量。语音识 别技术就是这样一种技术,它的发展和完善可以对人类生活产生重大影响。 近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预 计,未来1 0 年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、 家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国 新闻界评为1 9 9 7 年计算机发展十件大事之一。很多专家都认为语音识别技术是 2 0 0 0 年至2 0 1 0 年问信息技术领域十大重要的科技发展技术之一。 1 1 概述语音识别 1 1 1 语音识别的定义 语音识别作为一门综合学科,以语音为研究对象,是语音信号处理的一个重 要研究方向,它是模式识别的一个分支,涉及到生理学、心理学、语言学、计算 机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言( 如人在说话时的 表情、手势等行为动作可帮助对方理解) ,其最终目标是实现人与机器进行自然 语言通信。 简单讲其定义就是机器通过识别和理解过程把语音信号转换为相应的文本 或命令的高新技术。自从工业革命以来,各种机械化设备虽然提高了劳动生产率, 创造了巨大的物质财富,但是我们在面对它们时却不得不放弃最习惯、最自然的 沟通方式自然语言。因此,我们从来就没有放弃过这样一个梦想:让机器与 人之间也能像人与人之间一样进行交流。而成就人类这种梦想的最关键技术之一 就是语音识别技术。而人们一直以来对自由交流方式的本能渴望正是语音识别技 术坚定不移的发展动力。 浙江大学硕士学位论文 1 1 2 国外研究历史及现状 语音识别的研究工作可以追溯到2 0 世纪5 0 年代a t t 贝尔实验室的a u d r y 系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在6 0 年 代末7 0 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件 和软件的可能,更重要的是语音信号线性预测编码( l p c ) 技术和动态时间规整 ( d t w ) 技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这 一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表 的孤立词识别,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语音识别系 统;同时提出了矢量量化( v q ) 和隐马尔可夫模型( h 删) 理论。 随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束 条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板 的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明 显的边界,各个发音单位存在受上下文强烈影响的协同发音( c o a r t i c u l a t i o n ) 现象;第三,非特定人识别时,不同的人说相同的话相应的声学特征有很大的差 异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很 大的差异;第四,识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方 法已不再适用。 实验室语音识别研究的巨大突破产生于2 0 世纪8 0 年代末:人们终于在实验 室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把这三个特性都集 成在一个系统中,比较典型的是卡耐基梅隆大学( c a r n e g i em e l l o nu n i v e rs “y ) 的s p h i n x 系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。 这一时期,语音识别研究进一步走向深入,其显著特征是h 模型和人工神 经元网络( a n n ) 在语音识别中的成功应用。h m h i 模型的广泛应用应归功于a t t b e ll 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h 纯数学模型工程 化,从而为更多研究者了解和认识,从而使统计方法成为了语音识别技术的主流。 统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化, 而是更多地从整体平均( 统计) 的角度来建立最佳的语音识别系统。在声学模型 方面,以m a r k o v 链为基础的语音序列建模方法h ( 隐式m a r k o v 链) 比较有效 浙江大学硕士学位论文 地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构 造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面 上,通过统计真实大规模语料的词之间同现概率即n 元统计模型来区分识别带来 的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等 也在语音识别中得到了应用。 图1 1 语音识别技术发展历史中的重要事件 2 0 世纪9 0 年代前期,许多著名的大公司如i b m 、苹果、a t t 和n t t 都对 语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那 就是识别的准确率,而这项指标在2 0 世纪9 0 年代中后期实验室研究中得到了不 断的提高。比较有代表性的系统有:i b m 公司推出的v i av o i c e 和d r a g o ns y s t e m 公司的n a t u r a l l ys p e a k i n g ,n u a n c e 公司的n u a n c ev o i c ep l a t f o 蛐语音平台, m i c r o s o f t 的w h is p e r ,s u n 的v o i c e t o n e 等。语音识别技术发展的重要事件如 图1 1 所示。 1 1 3 国内研究历史及现状 我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平 也从实验室逐步走向实用。从19 8 7 年开始执行国家8 6 3 计划后,国家8 6 3 智能 计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技 浙江大学硕士学位论文 术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与 优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、 哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学 等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位 为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。 清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语 数码串连续语音识别系统的识别精度,达到9 4 8 ( 不定长数字串) 和9 6 8 ( 定 长数字串) 。在有5 的拒识率情况下,系统识别率可以达到9 6 9 ( 不定长数字 串) 和9 8 7 ( 定长数字串) ,这是目前国际最好的识别结果之一,其性能已经 接近实用水平。研发的5 0 0 0 词邮包校核非特定人连续语音识别系统的识别率达 到9 8 7 3 ,前三选识别率达9 9 9 6 ;并且可以识别普通话与四川话两种语言, 达到实用要求。 中科院自动化所及其所属模式科技( p a t t e k ) 公司2 0 0 2 年发布了他们共同推 出的面向不同计算平台和应用的“天语”中文语音系列产品p a t t e ka s r ,结 束了中文语音识别产品自1 9 9 8 年以来一直由国外公司垄断的历史。 1 2 语音识别技术的分类 计算机语音识别过程与人对语音识别处理过程基本上是一致的。语音识别系 统可以根据对输入语音的限制加以分类。 从说话者与识别系统的相关性分: ( 1 ) 特定人语音识别系统:仅考虑对于专人的话音进行识别,与讲话的语 种没有关系,什么语言都可以识别; ( 2 ) 非特定人语音识别系统;识别的语音与人无关,通常要用大量不同人 的语音数据库对识别系统进行学习,识别的语言取决与采用训练语音库; ( 3 ) 多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人 的语音进行学习,通常可以识别三到五个人的语音。 从说话的方式分: ( 1 ) 孤立词语音识别系统:其输入系统要求输入每个词后要停顿; 浙江大学硕士学位论文 ( 2 ) 连接词语音识别系统:其输入系统要求对每个词都清楚发音,开始出 现一些连音现象; ( 3 ) 连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连 音和变音。 从识剐系统的词汇量大小分: ( 1 ) 小词汇量语音识别系统,通常包括几十个词; ( 2 ) 中等词汇量语音识别系统,通常包括几百个词到上千个词。 ( 3 ) 大词汇量语音识别系统。通常包括几千到几万个词。这些不同的限制 也决定着语音识别系统难易程度。 1 3 语音识别所面临的问题 就算法模型方面而言,需要有进一步的突破。目前能看出它的一些明显 不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模 型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。 目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模 型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个 相当艰苦的工作。此外,随着硬件资源的不断发展,一些核心算法如特征提取、 搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的 共同进步将为语音识别技术的基础性工作带来福音。 就自适应方面而言,语音识别技术也有待进一步改进。目前,象i b m 的 v i a v o i c e 和a s i a w o r k s 的s p k 都需要用户在使用前进行几百句话的训练,以让 计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训 练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电 子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提 高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进 一步改进。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和 童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方 言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一 二个百分点识别率更重要。事实上,v i a v o i c e 的应用前景也因为这一点打了折 浙江大学硕十学位论文 扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满 意的成绩。 就强健性方面而言,语音识别技术需要能排除各种环境因素的影响。目 前,对语音识别效果影响最大的就是环境杂音或嗓音,在公共场合,你几乎不可 能指望计算机能听懂你的话,来自四面八方的声音让它茫然而不知所措。很显然 这极大地限制了语音技术的应用范围,目前,要在嘈杂环境中使用语音识别技术 必须有特殊的抗噪( n o is ec a n c e l l a t i o n ) 麦克风才能进行,这对多数用户来说是 不现实的。在公共场合中,个人能有意识地摒弃环境嗓音并从中获取自己所需要 的特定声音,如何让语音识别技术也能达成这一点呢? 这的确是一个艰巨的任 务。 多语言混合识别以及无限词汇识别方面:简单地说,目前使用的声学模 型和语音模型太过于局限,以至用户只能使用特定语音进行特定词汇的识别。如 果突然从中文转为英文,或者法文、俄文,计算机就会不知如何反应,而给出一 堆不知所云的句子;或者用户偶尔使用了某个专门领域的专业术语,如“信噪比 ”等,可能也会得到奇怪的反应。这一方面是由于模型的局限,另一方面也受限 于硬件资源。随着两方面的技术的进步,将来的语音和声学模型可能会做到将多 种语言混合纳入,用户因此就可以不必在语种之间来回切换。此外,对于声学模 型的进一步改进,以及以语义学为基础的语言模型的改进,也能帮助用户尽可能 少或不受词汇的影响,从而可实行无限词汇识别。 多语种交流系统的应用:最终,语音识别是要进一步拓展我们的交流空 间,让我们能更加自由地面对这个世界。可以想见,如果语音识别技术在上述几 个方面确实取得了突破性进展,那么多语种交流系统的出现就是顺理成章的事 情,这将是语音识技术、机器翻译技术以及语音合成技术的完美结合,而如果硬 件技术的发展能将这些算法进而固化到更为细小的芯片,比如手持移动设备上, 那么个人就可以带着这种设备周游世界而无需担心任何交流的困难,你说出你想 表达的意思,手持设备同时识别并将它翻译成对方的语言,然后合成并发送出去; 同时接听对方的语言,识别并翻译成已方的语言,合成后朗读给你听,所有这一 切几乎都是同时进行的,只是机器充当着主角。 浙江大学硕士学位论文 1 4 语音识别技术的前景和应用 在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变 成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通 过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的 小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一 个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信 息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩 掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新 兴高技术产业。 语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识另0 精 度已经大于9 8 ,对特定人语音识别系统的识别精度就更高。这些技术已经能够 满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系 统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音 识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语 音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音 合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅 游、银行信息,并且取得很好的结果。调查统计表明多达8 5 以上的人对语音识 别的信息查询服务系统的性能表示满意。语音识别的典型应用如图1 2 所示。 图1 2 语音识别的典型应用 可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语 音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样 的识别系统。在短期内还不可能造出具有和入相比拟的语音识别系统,要建成这 浙江大学硕士学位论文 样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别 系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别 系统则是很难预测的。就像在6 0 年代,谁又能预测今天超太规模集成电路技术 会对我们的社会产生这么大的影响。 1 - 5 本文的主要工作 虽然语音识别,特别孤立词语音识别在软件技术上已比较成熟。但用普通处 理器来实现语音识别的算法来说可能并不一定是最合适的。一方面,有些算法用 普通处理器来实现较为困难,有些甚至还要根据现有的处理器的硬件结构来修改 算法。另一方面,对于小码本、孤立词语音识别系统这种特定场合的应用产品来 说,用处理器来实现要比一个独立的v l s i 语音识别芯片造价要相对较高。困此, 本文提出了一种基于v l s i 的专用的小码本孤立词语音识别系统模型。并将其关 键环节模式匹配部队进行了硬件实现。 各章内容主要包括: 第一章:绪论,讲述语音识别的历史、分类,同时提出了当前所面临的问题 及将来的技术前景和应用。 第二章:概述语音识别的基本方法及通用结构; 第三章:根据设计原则,提出了一种小码本孤立词语音识别系统的设计方法 及结构。并详细讲述了系统所要求的基本理论及关键技术。 第四章:这一章主要讲述了预处理单元以及特征提取单元的硬件实现。 第五章:这一章主要是是把模式匹配单元进行了硬件实现, 第六章:总结与展望 浙江大学硕士学位论文 2 语音识别的基本方法及结构 语音识别是人机交互的一项重要内容,也是语音信号处理中非常重要的应用 技术。它是一门涉及面很广的交叉学科,与计算机、数字信号处理、通信与信息 理论、语音语言学,神经生理学等学科都有密切的关系。 研究语音识别主要有三种方法:声学语音学方法、人工智能方法、模式识别 方法。经过大量研究和实践,基于模式识别的方法占据了主流,其性能也最好。 就像大多数模式识别系统一样,基于模式识别的语音识别系统有两个步骤一语音 模式的训练和通过模式匹配来识别。“训练”阶段的任务是建立识别基本单元的 声学模型以及进行文法分析的语言模型等。“识别”阶段选择能够满足要求的一 种识别方法,采用语音分析方法提取出这种识别方法所要求的语音特征参数,按 照一定的准则和侧度与系统模型进行比较,通过判决逻辑得出识别结果。 基于模式识别的方法有一个很大的优点:语音所携带的“信息”通过训练阶 段而储存在系统之中了,它几乎是“盲”的。因为我们不需要语音学家来标定哪 一段语音是什么,起始边界在哪里,发音特征是什么样的。而完金是由系统通过 大量的实际语音数据训练而“学习”获得的。 2 1 语音识别的几种基本方法 一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板 匹配的方法以及利用人工神经网络的方法。 2 1 1 基于语音学和声学的方法 该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由 于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。 通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的 频域或时域特性来区分。这样该方法分为两步实现: 第一步,分段和标号 把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特 浙江大学硕士学位论文 性。然后根据相应声学特性对每个分段给出相近的语音标号 第二步,得到词序列 根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词 序列,也可结合句子的文法和语义同时进行。 2 1 2 模板匹配的方法 模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中, 要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种: 动态时间规整( d t w ) 、隐马尔可夫( h ) 理论、矢量量化( v q ) 技术。 动态时间规整t 叼 语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识 别的基础。所谓端点检测就是在语音信号中的各种段落( 如音素、音节、词素) 的 始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依 据是能量、振幅和过零率。但效果往往不明显。6 0 年代日本学者i t a k u r a 提出 了动态时间规整算法( d t w :d y n a m i ct i m ew a r p i n g ) 。算法的思想就是把未知量 均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时 间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。 隐马尔可夫法倒 m 岣 隐马尔可夫法( h 删) 是7 0 年代引入语音识别理论的,它的出现使得自然语 音识别系统取得了实质性的突破。h m m 方法现已成为语音识别的主流技术,目前 大多数大词汇量、连续语音的非特定人语音识别系统都是基于h 删模型的。h 是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过 程:一个是用具有有限状态数的m a r k o v 链来模拟语音信号统计特性变化的隐含 的随机过程,另一个是与m a r k o v 链的每一个状态相关联的观测序列的随机过 程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际 上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根 据语法知识和言语需要( 不可观测的状态) 发出的音素的参数流。可见h 合理 地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较 o 浙江大学硕士学位论文 为理想的一种语音模型。 矢量量化( v q ) 矢量量化( v e c t o rq u a n t i z a t i o n ) 是一种重要的信号压缩方法。与h 删相比, 矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波 形的k 个样点的每一帧,或有k 个参数的每一参数帧,构成k 维空间中的一个 矢量,然后对矢量进行量化。量化时,将k 维无限空间划分为m 个区域边界, 然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中 心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效 果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜 索和计算失真的运算量,实现最大可能的平均信噪比。 核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的, 那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信 号与该码书的平均量化失真,也就是说编码器本身存在区分能力。 在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致 可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括 树形搜索的矢量量化和多级矢量量化。 2 1 3 神经网络的方法 利用人工神经网络的方法是8 0 年代末期提出的一种新的语音识别方法。人 工神经网络( a n n ) 本质上是一个自适应非线性动力学系统,模拟了人类神经活动 的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力 和输入一输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间 太长的缺点,日前仍处于实验探索阶段。 由于a n n 不能很好的描述语音信号的时间动态特性,所以常把a n n 与传统识 别方法结合,分别利用各自优点来进行语音识别。 2 2 语音识别系统的结构 一个完整的基于统计的语音识别系统可大致分为三部分( 如图2 1 ) 浙江大学硕士学位论文 ( 1 ) 语音信号预处理与特征提取; ( 2 ) 声学模型与模式匹配; ( 3 ) 语言模型与语言处理 图2 1 语音识别基本原理框图 2 2 1 语音信号预处理与特征提取 2 2 1 1 语音信号的预处理 选择识别单元是语音识别研究的第一步。语音识别单元有单词( 句) 、音节 和音素三种,具体选择哪一种,由具体的研究任务决定。 单词( 句) 单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统, 原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时 性要求。 音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语 是多音节,并且汉语虽然有大约13 0 0 个音节,但若不考虑声调,约有4 0 8 个无 调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音 节为识别单元基本是可行的。 音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音 识别系统也在越来越多地采用。原因在于汉语音节仅由声母( 包括零声母有2 2 个) 和韵母( 共有2 8 个) 构成,且声韵母声学特性相差很大。实际应用中常把 声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易 混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳 定的音素单元,还有待研究。 浙江大学硕士学位论文 2 2 1 2 语音信号的特征提取 语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音 信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要 信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于1 0 1o o 之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取, 需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语 音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而 特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话 人的个人信息。 线性预测( l p ) 分析技术是目前应用广泛的特征参数提取技术,许多成功的 应用系统都采用基于l p 技术提取的倒谱参数。但线性预测模型是纯数学模型, 没有考虑人类听觉系统对语音的处理特点。特征提取模型框图如图2 2 所示。 m e l 参数和基于感知线性预测( p l p ) 分析提取的感知线性预测倒谱,在一 定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成 果。实验证明,采用这种技术,语音识别系统的性能有一定提高。从目前使用的 情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒 频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性 ( r o b u s t n ess ) 图2 2 特征提取模型框图 也有研究者尝试把小波分析技术应用于特征提取,该方法将语音信号与一个 在时域和频域均具有良好局部化性质的小波函数族进行积分( 小波变换) ,从而 浙江大学硕士学位论文 把信号分解成一组位于不同频率和时段内的分量,即选择小波函数为某类平滑函 数的一阶导数,则经小波变换后的局部最大值反映信号的尖锐变化( 即声门闭着 点) ,而局部最小值则反映信号的缓慢变化,从而获得反映基音周期的小波语音 特征参数。 在以上语音特征参数的提取方法中,p l p m f c c 方法比l p c c 方法的识别效果 稍好一些,而且m f c c 符合人们的听觉特性,在有信道噪声和频谱失真的情况下 具有较好的稳健性,其不足之处是m f c c 方法中多次用到f f t ,故算法的复杂程 度远大于l p c c 方法。因此,在安静的环境下,目前,比较成熟和最常用的语音 特征提取方法还是l p c c 方法。在条件不好的环境下,则宜选用m f c c 方法。而小 波变换法则是一种新兴的理论工具,要获得较高的识别率还有许多问题有待研 究,但与经典的方法相比,小波变换法有着计算量小、复杂程度低、识别效果好 等许多优点,研究前景十分乐观,是研究发展的一个方向。 2 2 2 声学模型与模式匹配 2 2 2 1 声学模型 声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时 将输入的语音特征同声学模型( 模式) 进行匹配与比较,得到最佳的识别结果。 声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。 声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模 板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小( 字 发音模型、半音节模型或音素模型) 对语音训练数据量大小、系统识别率,以及 灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识 别单元的大小。 以汉语为例: 汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按 音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的 韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是 汉语一个宇的音,即音节字。由音节字构成词,最后再由词构成句子。 浙江大学硕士学位论文 汉语声母共有2 2 个,其中包括零声母,韵母共有3 8 个。按音素分类,汉语 辅音共有2 2 个,单元音13 个,复元音13 个,复鼻尾音1 6 个。 目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不 同的基元。汉语加上语气词共有4 12 个音节,包括轻音字,共有12 8 2 个有调音 节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音 识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响, 常采用声韵母建模。 2 2 2 2 模式匹配 在汉语语音识别系统中常用的识别技术有以下几种: 动态时间规整( 啪) 技术是采用一种最优化的算法动态时间规整法, 通过将待识别语音信号的时间轴进行不均匀地扭曲和弯曲,使其特征与模板特征 对齐,并在两者之间不断的进行两个矢量距离最小的匹配路径计算,从而获得两 个矢量匹配时累积距离最小的规整函数。这是一个将时间规整和距离测度有机结 合在一起的非线性规整技术,保证了待识别特征与模板特征之间最大的声学相似 特性和最小的时差失真,是成功解决模式匹配问题最早和最常用的方法。 d t w 算法在孤立词语音识别中获得了良好性能。但d t w 法的不足之处是在处 理大词汇量语音识别时运算量大、对语音信号的端点检测数过多和未能充分利用 语音信号的时序动态信息等等。因此,主要用于孤立词、小词汇等相对简单的汉 语语音识别系统。 隐马尔柯夫模型( h m m ) 技术h 删法与d t w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论