(通信与信息系统专业论文)语音识别技术研究.pdf_第1页
(通信与信息系统专业论文)语音识别技术研究.pdf_第2页
(通信与信息系统专业论文)语音识别技术研究.pdf_第3页
(通信与信息系统专业论文)语音识别技术研究.pdf_第4页
(通信与信息系统专业论文)语音识别技术研究.pdf_第5页
已阅读5页,还剩92页未读 继续免费阅读

(通信与信息系统专业论文)语音识别技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

哈尔滨工程大学硕士学位论文 摘要 语音识别拥有可观的应用背景,同时作为一个交叉学科也具有深远的理 论研究价值。本文分别采用动态时间规整模型和隐马尔科夫模型,实现了孤 立词语音识别方案。并探讨语音识别在硬件上的实现以及基音周期估值等具 体问题。 语音识别的理论模型对系统的构建具有指导意义,本文首先分析了语音 识别系统的层次结构,阐明不同任务的模型选取问题。然后按照方案处理的 步骤详细的论述了语音识别的流程,并应用动态时间规整模型实现孤立词识 别。 隐马尔科夫模型对时间序列具有很强的建模能力,通过对时间序列的特 征参数的训练,为每个语音建立一个隐马尔科夫模型。待识别语音通过与各 个隐马尔可夫模型匹配,即得到识别结果。论文在w i n d o w s 平台上仿真和编 写了预处理、端点检测、特征参数提取、k 均值聚类法初值设定、语音模板 训练、隐马尔可夫模型识别几个子程序模块,实现了语音识别的各个过程。 并用汉语数码识别验证了方案的可行。 文章最后探讨了语音识别算法在硬件平台上的移植,重点考虑流程的改 变、数据的处理和算法实时实现几个问题。结合f p g a 特点,讨论简化短时 自相关函数法实现基音周期的估值,并介绍单b i t 方法应用于语音信号频域分 析。 关键词:语音识别;特征提取;动态时间规整;隐马尔可夫:基音周期估值 哈尔滨工程大学硕士学位论文 a b s t r a c t s p e e c hr e c o g n i t i o ni sv e r yp r o m i s i n gi na p p l i c a t i o n a sa ni n t e r d i s c i p l i n a r y f i e l d ,i ti sa l s ot h e o r e t i c a l l yv e r yv a l u e d i nt h i sp a p e r , t h ea u t h o ra d o p t sd y n a m i c t i m ew a r p i n g ( d t w ) m o d e la n dh i d d e nm a r k o vm o d e l ( h m m ) r e s p e c t i v e l y ,t o s t u d yt h el i t t l ev o c a b u l a r ya n di s o l a t e ds p e e c hr e c o g n i t i o n a n dp r o b ei n t ot h e p r o b l e m o fh o wt op r o j e c tas p e e c h r e c o g n i t i o ns y s t e m b a s eo nt h eh a r d w a r e ,a l s o t h ep r o b l e m o f p i t c h e s t i m a t i o n t h e o r e t i c a lm o d e li s s i g n i f i c a t i v e t o h e l pd e s i g nt h es p e e c hr e c o g n i t i o n s y s t e m f i r s t l y ,t h i sp 印e ra n a l y z e s t h ef r a m e w o r ko f s p e e c hr e c o g n i t i o ns y s t e mi n d i f f e r e n tp r o c e s s i n gl e v e l s ,t oi l l u s t r a t eh o wt oc h o o s et h ea p p r o p r i a t es c h e m ei n d i f f e r e n tt a s k t h e nd i s c u s st h ef u n d a m e n t a lm e t h o d so fe v e r yp a r ti n s p e e c h r e c o g n i t i o n ,u s ed t w r e a l i z ei s o l a t es p e e c h r e c o g n i t i o n h m mh a sa d v a n t a g eo fe s t a b l i s h i n gm o d e lf o rt i m es e r i e s ,s ow ec a nu s e h m mt oe s t a b l i s hm o d e l sf o re a c hw o r d c o m p a r e dw i t he v e r yw o r d sm o d e l ,a w o r d ss p e e c hc a nb er e c o g n i z e d i nt h i sp a p e r ,w es i m u l a t ea n dc o m p l i e ds o m e s u b - p r o g r a m so nt h ep l a t f o r mo fw i n d o w s t h e s es u b - p r o g r a m s ,w h i c hi n c l u d e p r e t r e a t m e n t ,e n d p o i n td e t e c t i o n ,f e a t u r es e l e c t i o n ,h m mi n i t i a lv a l u es e t t i n gu s e k m e a n s c l u s t e r i n ga l g o r i t h m ,s p e e c ht e m p l a t e st r a i n i n g ,h i d d e nm a r k o v m o d e l i n gs e a r c h i n g ,r e a l i z e dt h ew h o l ec o u r s eo fs p e e c hr e c o g n i t i o n m a n d a r i n d i g i t a ls p e e c hr e c o g n i t i o ne x p e r i m e n t a t i o np r o v e st h i ss c h e m ei sf e a s i b l e a tt h ee n do ft h i s p a p e r ,p r e s e n t ss p e e c hr e c o g n i t i o na c h i e v e do nt h e h a r d w a r ep l a t f o r m b a s e do nt h ec h a r a c t e r so f f p g a ,g i v es i m p l i f ym e t h o do f s h o r t - t i m ea u t o c o r r e l a t i o nf u n c t i o nf o rt h ep i t c he s t i m a t i o n ,a n dd i s c u s so n eb i t q u a n t i f ya p p l yi nt h es p e e c hs i g n a lf r e q u e n c y a n a l y z e k e yw o r d s :s p e e c hr e c o g n i t i o n ;f e a t u r e s e l e c t i o n ;d y n a m i c t i m e w a r p i n g ; h i d d e nm a r k o v m o d e l ;p i t c he s t i m a t i o n 哈尔滨工程大学硕士学位论文 1 1 语音识别概述 第1 章绪论 1 1 1 语音识别概念的提出 如果你看过g e o r g el u c a s 的经典电影系列星球大战,或者是s t a n l e y k u b f i c k 的 2 0 0 1 太空幻想之旅,你一定对其中的机器人r 2 d 2 和电脑h a l 与人之间流畅的语言交流能力印象深刻。科幻小说中的机器( 计算机) 自动 语音识别成为近五十多年来许多学者研究和探索的目标,如何让计算机能听 懂人说的话,这个曾被认为比登月还难的问题,如今并不是遥不可及。伴随 计算机技术发展,语音识别已成为信息产业领域的标志性技术,在人机交互 应用中逐渐进入我们日常的生活,并迅速发展成为“改变未来人类生活方式” 的关键技术之- 1 1 。 语言是人类特有的功能,声音是人类常用的工具,是相互传递信息最重 要也是最基本的手段。如何才能让计算机听懂人说的话,实现计算机与人之 间的自然、人性化相互沟通和通信,摆脱传统的键盘控制等交流方式呢? 在 探讨这个问题前,首先需要明确两个基本概念:1 什么是语音识别? 2 怎么样 才能在人类和计算机之间架起一座知识的桥梁,让人与计算机毫无障碍的进 行语音交流? 计算机分析语音信号的目的是为了方便有效的提取并表示语音信号所携 带信息,这种方法所需要的准确度是由语音中特定信息决定。根据所分析的 参数类型,语音信号分析可以分为时域和变换域( 频域、倒谱域) 处理技术。 从图1 1 语音信号的时域和频域波形中,我们期望计算机可以“识别”什 么样的信息? 1 表达的文字 2 措辞与韵律 哈尔滨工程大学硕士学位论文 3 情感| 隋绪信息 4 说话人的身份语言种类 图1 1 女声“太好了,我一直担心你不回来了呢” 语音信号所传达的信息丰富,通常我们定义语音识别是指计算机将人类 的语音信号“翻译”成表达相应语言的文字序列。这里的“翻译”是指在一 个有限的集合里面确定待识别目标,例如做一道选择题,事先已经预知所有 可能性选择,其提出的是一种依赖模式匹配的思想,目前成为语音识别应用 的主流方式2 1 。 语音的措辞、韵律、情感及情绪等信息主要涉及到自然语言理解的内容, 不在本论文所要讨论的范围内。说话人识别是语音识别的一种特殊形式,在 算法理论和结构模型上两者保持一致,不同点在于前者不注重包含在语音信 号中的文字符号信息,而是着眼于包含在语音信号中的个人特征,以达到识 别说话人的目的,语言种类识别情况相似,这里也不再赘诉。 语音识别离我们如此之近,几乎任何人都可以从自己的体验对一个语音 识别系统的性能作出直观的评价,即使是初次接触它也不难提出朴素的语音 识别方案。直观的想法,可以比较两个语音( 测试语音和参考语音) 时域波 形的相似度( 相关性) 来实现语音识别,通过对此方法的思考,随之可以提 出以下问题: 1 同一语音的时域波形不同发音之间千变万化,且一段语音数据量大, 不适合作为识别的基元,如何选取语音信号识别的特征,是频域变换结果, 2 哈尔滨工程大学硕士学位论文 还是其它? 2 语音特征参数怎样实现对不同语音的分类? 或者说,语音信号中含 有丰富的信息,但如何去除对语音识别无关紧要的冗余信息,从中提取出对 语音识别有用的信息呢? 3 采用什么样的模型( 算法) 来匹配选取的语音特征? 4 怎样测度两语音信号的相似性? 选取什么样的准则? 5 怎样评判语音识别的结果的有效性和正确率? 上述问题的研究和探讨,就是对本文开始提出第二个问题的回答,也构 成了语音识别任务的基本要素。一个成功的语音识别系统,需要考虑语音特 征参数的有效和适应性、算法的复杂程度、各层知识的构建、系统可移植和 扩展性等各方面问题,在论文的后续章节中,将对以上问题作进一步阐述。 语音识别系统根据说话人的方式可分为孤立字( 词) 、连接词、连续语 音识别系统;按对说话人的依赖可分为特定人和非特定人识别系统:按词汇 量的大小可分为小词汇量、中等词汇量、大词汇量( 无限词汇) 语音识别系 统。 1 1 2 语音识别的发展历程 语音识别的研究工作大约开始于2 0 世纪的5 0 年代 3 4 5 1 1 6 1 ,这一时 期主要探索和研究声音和语音学的基本概念和原理。1 9 5 2 年,贝尔实验室的 d a v i s ,b i d d u l p h ,b a l a s h e k 开发了个针对特定人的离散数字识别系统 i r d r y 系统,该系统主要依赖于测量数字元音区域的共振波谱。 6 0 年代,出现了语音识别方面的几种基本思想,这时期的重要成果是提 出了线性预测分析技术( l pl i n e a rp r e d i c t i o n ) 和动态规划( d pd y n a m i c p r o g r a m m i n g ) ,前者较好地解决了语音信号产生模型的问题,后者则有效解 决了不等长语音的匹配问题,对语音识别的发展产生了深远影响。 7 0 年代,伴随自然语占理解的研究以及微电子技术的发展,语音识别领 域取得了突破性成果。在理论上,线性预测分析技术得到进一步应用,动念 时间弯折( d t w d y n a m i ct i m ew a r p i n g ) 基本成熟,特别足提出了矢量量化 ( v q v e c t o rq u a n t i z a t i o n ) 和隐马尔科夫模型( h m m h i d d e nm a r k o vm o d e l ) 哈尔滨工程大学硕士学位论文 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的特定人孤立词语 音识别系统。 8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模型和人 工神经网络( a n n ) 在语音识别中的成功应用。语音识别算法从模板匹配技 术转向基于统计模型技术。具有里程碑意义的事件是1 9 8 8 年美国卡耐基梅隆 大学( c m u ) 基于v q h m m 开发的9 9 7 词非特定人连续语音识别系统 s p h 【n x 。 9 0 年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切要求 语音识别系统从实验室走向实用。许多发达国家,如美国、f 1 本、韩国以及 i b m 、a p p l e 、a t t 、m i c r o s o f t 等著名公司都看好语音识别的应用前景, 为语音识别系统的实用化投以巨资,语音识别技术实用化进程大大加速。i b m 公司率先推出的v i a v i o c e 标志着大词汇量、非特定人、连续语音识别技术正 在趋于成熟。在嵌入式应用中,出现了可以语音拨号的手机、与人对话的智 能玩具:在商业服务中,出现了以语音识别、语音合成为核心技术的呼叫中 心( c a l lc e n t e r ) 、语音门户网站等等。这时期的标志性成果是美国国防部的 高级研究规划局( a r p a ) 的d a r p a 计划下l v c s r 系统,识别词汇量达到 6 万。 2 1 世纪初期的成果主要集中于实现机器( 计算机) 的同声传译系统以及 多环境背最下的英语语音识别技术。 我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、 声学所以及清华大学、东北大学、北京理工大学、上海交大、华中科技大! 学 等科研机构和高校都在从事语音识别领域的研究和开发。幽家8 6 3 计划智能 计算机主题专家组为语音识别技术的研究专门立项,在汉语语音识别、汉语 语音数据库建立、汉语语音学、听觉模型等基础研究方面取得长足进展。目 前,我国语音识别的研究已经进入到大词汇量、非特定人、连续语音识别的 高级阶段,中国汉语语音识别产品进入市场时代为期不远。 1 2 语音识别面临的难点和发展趋势 4 哈尔滨工程大学硕士学位论文 1 2 1 语音识别的难点 语音识别技术研究已经有5 0 多年,虽然各种识别产品层出不穷,但与语 音识别的最终目标还有一定的距离。多数的语音产品没有像预期一样给人们 的人机交互方式带来本质的影响。为什么人与人之间的语音交流如此容易, 而对计算机来说语音识别如此困难? “w h e nw el i s t e nt oap e r s o ns p e a k i n g ,m u c ho fw h a tw et h i n kw eh e a ri s s u p p l i e db yo u rm e m o r y b yw i l l i a mj a m e s ” 5 人对变化的语音信号有着难以置信的抽象性、适应性、分辨和学习能力; 同时,我们依赖已有的丰富知识背景对语音信号进行判断处理,而这些是计 算机目前所不具备的能力。正因为如此,相对于人而言,计算机语音识别的 性能距离理想仍然很远,一些优秀的语音识别系统的性能还不如幼儿识别能 力【7 】。 表11 “为什么语音识别如此困难” 书写文本w h y i ss p e e c hr e c o g n i t i o ns od i f f i c u l t ? 自然方式 w h y ss p e e c hr e c o g n i t i o ns od i f f i c u l t 连续语音 w h y s s p e e c h r e c o g n i t i o n s o d i f f i c u l t 发音模式 w h a z b e e c h r e g n i z h n s a d i f c l d 声音变化谢k 施岫以商枘刮弛 噪声污染 上表形象地说明了语音文本与待识别的语音之间的差别。结合汉语语音 识别的特点,语音识别的难点表现在以下几个方面: 协同发音现象:人们说话的方式很少是按孤立字发音的,总是按一定的 习惯方式连续发音,声学单元受上下文环境影响而发生模糊、变异,字母或 单词的一部分在发音过程中其音量、音调、重音和发音速度可能不同。在语 音识别系统中,无论选用何种建模单元( 词、音节、声韵母、音素) ,都需 要对建模单元之间的相互影响做细化处理,随之而来的是模型数目的剧增和 哈尔滨工程大学硕士学位论文 训练数据的匮乏。 说话人变异:没有( 几乎可论断) 两个语音是一样的,即使是同一人用 同样的语气和发声方法情况下。不同的说话人由于性别、年龄等因素的不同, 相同内容的发音存在很大差异;同时由于情绪和环境的影响,发音也发生改 变。随着说话人的不同,识别系统的适应性表现得远不如人类。因此“说话 人自适应”、“变异语音识别研究”技术一直是语音识别研究中的重要方向。 对环境性的依赖:语音识别往往表现为在某种环境下采集到的语音训练 系统只能在这种环境下适用,变换环境系统性能将急剧下降:另外,实际语 音受到背景噪声的影响,如嘈杂的背景人声、工厂机器轰鸣、麦克和电话信 道的畸变等,鲁棒性一直是影响语音识别系统能否实际应用的关键因素。 方言的影响:口音是各种语言普遍具有的现象,而在汉语语音中尤其突 出,发音也极其不规则,比如在一些方言中,不加区分h 和“f ”、“l ” 和n 、卷舌和不卷舌、前鼻音和后鼻音等等,声调也变化极大,这对汉语 语音识别提出了更高的要求。因此对于汉语的口音类型,建立适应性强的语 音识别系统,是很有意义的研究方向 7 】【8 。 1 2 2 语音识别的发展趋势 从目前的发展水平来看,针对特定应用的中小词汇量、孤立词的特定人 语音识别技术发展的最为成熟,非特定人、大词汇量( 无限词汇量) 、连续 语音识别系统则成为研究的重点和难点。 语音识别的主流框架h m m 在语音识别领域持续了近3 0 年,结合各语种 和任务的不同,h m m 模型也提出了各种改进和细化。同时,研究人员寻找 更好的理论框架的工作从未间断。近年来,不断有小波分析、数据融合、模 糊理论和多层感知器等技术尝试在语音识别领域应用,各种新生理论如何与 统计模型相结合而应用于语音识别尤其值得关注。 目前,对人类的听觉理解、知识积累、学习机制以及大脑神经系统的控 制机理等方面的认识还不很清楚,对这些人类自身奥秘的研究,并将其应用 于语音识别,我们还有很长的路要走。同时,虽然在语言学、生理学、心理 学等方面的研究成果不少,但如何将知识量化、建模及用于语音识别研究还 6 哈尔滨工程大学硕士学位论文 需付出很大努力【6 】【9 】。 语音识别技术的标准化研究。语音识别涉及多个专业领域,更需要有一 定的标准化工作,实现各领域的分工和协作。统一的语音库建立、标准的数 据接i s i 、开放的开发平台和标准的测试规程都是语音识别标准化研究的方向, 目前英语语音识别在这方面的工作要比汉语做得好,特别是统一标准的语音 数据库建立,对语音识别技术的推广起着决定性作用。目前汉语还没有一个 相对完备、权威的语音数据库我们国家正在这方面做大量的努力工作。 在语音识别商业领域,m i c r o s o f t 、i b m 、p h i l i p s 、m o t o r o l a 、i n t c l 、l & h 、 d r a g o ns y s t e m 等公司都投入了大量的研发资金和技术,积极推动了语音识别 技术的发展。目前比较成功的语音识别系统有:i b m 的v i a v o i c e 和m i c r o s o f t 的s a p i ,它们都是面向非特定人、大词汇量的连续语音识别系统,在充分训 练情况下,v i a v o i e e 识别率可高达9 3 1 1 1 ;特定任务的语音识别系统成为 市场应用的主流,d r a g o ns y s t e m 公司的医用听写机、b e l l 实验室为a t & t 电话公司开发的自动语音应答系统、p h i l i p s 公司开发应用于电话语音查询的 s p e e c h m a n i a 系统都是成功的典范;美国c m u 的s p h i n x 系统、英国剑桥 大学的h t k 系统都是基于h m m 理论的语音识别开发平5 1 4 1 1 1 0 1 ,语音识别 的应用前景无限。 1 3 课题的背景、思路和研究内容 语音识别是- - f 3 涵括信号处理、声学语音、模式识别、通信与信息原理、 语言学、计算机科学、心理学等学科领域的综合技术。作为一门颇有挑战性 的学科,对语音识别的研究,要如著名瑞典工程师兼语音学家g f a n t 所提倡 的那样:“语音研究工作者应当努力工作在跨学科的领域”。语音识别与语 音编码、语音合成、语音通信等研究方向紧密相关,对语音识别的研究,也 是对各学科知识横向和纵向联系的拓展。 对于作者而言,语音识别毕竟是一个陌生的领域,在论文开展之前未有 在这方面的研究和积累,如何选取一个研究的方向作为语音识别学习的突破 口? 哈尔滨上程大学硕士学位论文 固然语音识别理论和算法已经在一定程度上成熟,同时v i a v o i c ea p i 、 s a p i 、s p h i n x 、h t k 等系统都成为语音识别学习研究有效的开发工具。但 论文的研究工作还是定位于对语音识别理论概念的一个总体的把握,目的是 更清晰地理解语音识别的各环节,作为一个研究方向知识的积累。在此基础 上应用目前比较成熟的两种语音识别模型d t w 和h m m 分别实现孤立词识 别,体会语音识别的整体流程。同时结合课题组在数字信号处理硬件方面的 经验,对语音识别算法( 孤立词) 在d s p 平台上移植实现的一些问题作了探 讨,最后对语音的基音估值和频域分析提出了一些有益的尝试方法。 1 4 论文结构 本论文的组织结构安排如下: 第一章即为绪论,简要的介绍语音识别的基本概念和发展历程,分析语 音识别的研究的重点和难点,以及语音识别的发展趋势和应用,最后阐明本 论文的研究内容和论文组织结构。 第二章首先从整体层次模型上理解语音识别的结构。论述语音识别的基 本原理,介绍语音信号预处理过程,比较l p c c 与m f c c 特征参数的提取和 特点,最后应用d t w 模型实现孤立词的语音识别。 第三章主要讨论h m m 在语音识别中的应用。首先对h m m 理论作详细 的介绍和论述,结合论文设计,探讨h m m 的选取、参数设置以及一些细节 问题的研究。应用h m m 模型实现孤立词的语音识别,最后介绍连续语音识 别的一些知识。 第四章探讨语音识别算法( 孤立词) 在硬件平台上的实现。重点考虑 h m m 识别算法在d s p 平台上的移植,以及探讨语音识别中的基音周期估值 问题,提出一种基于实时处理硬件平台的简化算法,并类衍单b i t 方法在语音 分析中的应用。 最后一章是对本论文的一个总结,概括在一年论文学习中所做的工作、 收获和体会,提出几个在论文学习中遇到的问题,以及对以后所要开展工作 的一个展望。 喻尔滨工程大学硕士学位论文 第2 章语音识别的基本原理 面向不同任务的语音识别系统有多种可选设计方案,但系统的结构和模 型思想大致相同。本章首先从系统角度介绍语音识别的整体层次模型,同时 结合孤立词语音识别设计,对语音信号的预处理、特征函数提取、d t w 算法 原理作详细介绍。 2 1 语音识别的系统结构 2 1 1 语音识别的整体层次模型 对人类语音通信过程的分析表明( 图2 1 ) 【1 2 】 1 3 】,人类产生、理解语 图2 1 人类语音的通信过程 9 哈尔滨工程大学硕士学位论文 音的过程是按照层次逐步进行的,语音生成过程为图左半部分所示,语音识 别( 这里我们广义的认为语音理解和语音识别等同概念) 的过程可类比于图 右半部分过程。尽管这个过程中的一些机理还没有完全被弄明白( 例如听觉 机理、神经系统控制和模拟) ,我们仍可认为:语音识别就是将语义信息从声 波上“解调”的过程,语音识别系统可类比于通信系统的接收机( 语音合成 系统相当于发射机) 。这样给我们一个信息:我们可否仿照通信系统中的o s i ( 开放系统互连) 模型的建立,将语音识别定义为层次模型【7 ,这样可以更 清晰化的理解语音识别的整体结构。实际上,在许多已有的语音识别系统中, 研究人员或多或少地采用了分层处理的方式来设计语音识别系统,表2 1 概 括了对语音识别层次的描述: 表2 1 语音识别层次模型 识别层次主要功能和定义 语义应用层分析语义,映射应用,由任务语法约束 语句识别层推断语句候选单元及可信度 词语识别层音字转换,推断词语单元,提供语句候选序列 及可信度 音节感知层声韵母或音素合并成为音节单元,推断合理音 节,提供词语候选序列及可信度 次音节感知层声韵母或音素单元结构,提供音节候选序列及 可信度 特征提取层提取声学特征矢量,提供特征矢量序列 预处理层定义语音格式,采样、滤波、分帧、加窗、预 加重等,提供语音帧序列 物理接口层声音进入系统的物理接口,输入语音信号 我们可以将物理接口层、预处理层、特征提取层定义为声学层;次音节 感知层、音节感知层定义为语音层;词语识别层、语句识别层定义为语言层。 语音识别系统应用层次越多,结构越复杂,需要的专家知识也越多。当然上 述层次的划分并没有严格上的定义,却是有助于对语音识别模型的理解和系 l o 哈尔滨工程大学硕士学位论文 斟 黼 印 斟 姗 9 抖 黼 圈-2吾醋t只鎏汛龄和蜀降辙斟黼 哈尔滨t 程大学硕士学位论文 统的设计。 对于一个应用语音识别系统,可能并不包括层次模型的每层结构,这就 如通信系统并不一定要满足o s i 模型的七层协议一样,我们对比图2 2 中三 种典型的语音识别的应用: 第一种方案为典型的中小词汇量、孤立词识别系统。系统以词语为基元 建立模板,没有次音节、音节单元,也没有上层的语句语义层次,每个词条 命令就是识别的最终结果。这种系统可认为语音、语言的知汲都包含在以词 组为单元的模板中。典型的识别系统如a t & t 用于电话查询的系统。 第二种方案仍然以词语为识别基元、连续或连接词的语音识别系统。系 统为每一词条建立模板,最终任务是按一定的语法规范将词语识别结果依次 连缀成句子,这类系统往往用于特定任务( 航班查询,电话查询等) ,具有 明显的语句识别层次。 第三种方案是以全音节为基元模型建立的识别系统。使用n b e s t 算法逐 次获得前n 个最好的候选单元( 无调、有调音节) ,再按词性、句法、语法 网络信息得到最后识别结果。这种方案多用于汉语大词汇量、连续语音识别 系统。 第一种应用系统的结构最简单,但也最基础,面向任务的孤立词语音识 别系统中,很多仍然成功地使用该结构。相对于连续大词汇量语音识别系统 而言,其具有更优的识别率和稳定性,对于语音识别识的学习和初建,无疑 是最好的选择;第二种系统相对于第一种增加了语法规范,第三章中对连续 语音识别的介绍中将作详细的讨论:第三种识别系统中以全音节建模,同样 我们可以用次音节为建模基元( 汉语声韵母、英语音素) 。特别强调的是, 系统选用建模基元的以上层次并不一定需要在识别系统中完备出现,例如 s p h i n x 英语识别选用音素作为建模 4 】,但并不是将音节作为中间的识别单 元,而是从次音节单元直接到单词的识别,最后识别出句子。汉语识别同样 可以以声韵母为建模,直接跳过全音节( 字) 层次进行词识别。 2 1 2 语音识别的框架 整体层次模型对语音识别系统作了一一个纵向的分析,具体的任务可对应 哈尔滨工程大学硕士学位论文 不同层次结构的选取。这一节,我们从一个典型的语音识别系统结构( 图2 t 3 ) 入手,从模式识别的角度来理解语音识别系统的构成。 图2 3 语音识别系统的原理框图 语音识别系统本质属于模式识别的范畴,从图2 - 3 可以发现,识别中的 语音层、语言层知识都涵盖在模式匹配的模型中。计算机首先要根据人的语 音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在 此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别 的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根 据一定的搜索和匹配策略,找出一系列最优的与输入的语音匹配的模板。然 后,据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种 最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系 1 4 】。在下面章节的讨论中,我们应用2 1 1 节中提出的第一种方案详细分析 语音识别系统的实现。 2 1 3 语音信号的产生模型 讨论语音识别系统实现前,将语音信号的产生模型 3 】作为独立模块拿 出。作为语音信号处理的基础之一,在后面章节的讨论中,线性预测、预加 重、同态信号处理等概念都依赖于语音信号产生模型。 语音信号可以看作是激励信号激励一个线性系统而产生的输出。其中, 浊音信号是由一个周期性的j 脉冲串激励线性系统成生输出,这个线性系统 哈a ;滨工程大学硕士学位论文 由声门脉冲模型、声道模型、辐射模型级联而成。系统传输函数为: h ,( = ) = g ( z ) v ( z ) r ( z ) 激励信号是一个周期性的脉冲串:p ( n ) = z s ( n + r - n p ) 就是两者的卷积结果,即: x ( ) = p 0 ) + ,( ”) 而清音信号是由白噪声序列激励一个线性系统而产生输出 统仅由声道模型和辐射模型级联而成。系统传输函数为: 。( z ) = v ( z ) r ( z ) 激励信号u ( n ) 假定为白噪声序列,于是有: x ( n ) = u ( n ) + 丸( n ) ( 2 一1 ) 那么浊音信号 ( 2 2 ) 这个线性系 a “ 图2 4 语音产生模型 ( 2 3 ) ( 2 4 ) 语音信号是一种典型非平稳信号,特性是随时间变化的。但是在5 m s 5 0 m s 这样的短时内,其频谱和某些物理特征量可以看作是不变的,这就是语 音信号处理短时平稳统计特性的基础。我们将语音信号分割为一些短段( 分 析帧) ,这些短段就好像来自一个具有固定特性的持续音片断,对该短段进 行处理就相当于对固定特性的持续语音进行处理。通常帧有一些叠接,使得 帧与帧之间平滑过渡,保持语音信号的连续性。对每一帧的处理结果或是一 个数或是一组数,经过处理以后产生个新的依赖于时间的序列,而用于描 述语音信号。 4 哈尔滨工程大学硕士学位论文 2 2 语音信号预处理 语音信号预处理是负责语音特征参数提取前的准备工作,包括:抗混叠 滤波、模数变换、分帧、预加重处理等。 2 2 1 语音信号模数变换和滤波 计算机分析人的语音,需将话筒中传来的语音信号转换成计算机所能处 理的数字信号。根据n y q u i s t 采样定理,信号的采样频率只需大于信号带宽 两倍以上( 正2 厶) 即可保证信号的采集不会丢失信息。模数转换前的滤 波主要作用: 1 高通滤波器抑制5 0 h z 电源噪声干扰。 2 - f 氐通滤波器滤除语音信号中频率分量超过采样频率一半的部分,防止 采样信号混叠。 语音信号的音频范围在2 0 h z 到2 0 k h z 之间,其中绝大部分能量是集中在 5 7 七舷以内,一般语音信号的采样频率为l o k h z 或1 6 k h z ,这样做对语音信 号的清晰度有损害,但只是少数辅音损失,语音信号本身有较大的冗余度, 少数辅音清晰度下降并不影响语音的理解。例如i t u 数字电话g 7 1l 协议, 采样频率为8 k h z ,只利用了3 4 k h z 以内的语音信号 1 2 】。 2 2 2 预加重 语音产生的辐射模型中,由辐射引起的能量损耗正比于辐射阻抗的实部, 辐射模型是阶类高通滤波器结构,语音信号从嘴唇辐射后有6 刮d 甜( 倍频 程) 的衰减【1 5 】。因此,对语音信号进行分析之前,一般要对语音信号加以提 升。提升的方法有两种:一是模拟电路实现:再是用数字电路实现。采用数 字电路实现高频加重滤波器的形式为: y ( n ) = x ( n ) 一a x ( n 一1 )( 2 - 5 ) h ( z ) = 1 一口:“( 2 6 ) x ( n ) 原始信号序列,y ( n ) 预加重后序列,口预加重系数,通常口取值 哈尔滨工程大学硕士学位论文 o 9 8 或1 0 ,日( z ) 幅频特性和相位特性如图2 5a 所示。通过预加重滤波器后, 语音信号的频谱变得平坦,使得在全频带范围内使频谱的s n 归一化 1 6 。 图2 5b 和图2 5c 分别是语音片段预加重前后的频域波形,从中可以看出, 相对于低频段,高频部分频谱得到明显的提升。 一一一十一一一 、。一 1 、 ( a ) h ( z ) 幅频特性和相位特性 ( c ) 3 1 重前幅频特性( d ) 3 h 重后幅频特性 图2 5 语音信号预加重 2 2 3 语音信号分帧加窗 通常我们采用一个长度有限的窗函数来截取语音信号形成分析帧,数学 形式: 一#萋$口e 哈尔滨工程大学硕士学位论文 q 。= r b ( m ) k o m ) ( 2 7 ) 原始语音信号采样序列为) f i 碲,移动窗( n m ) ,t 是对语音信号的 某种变换,该变换可以是线性的,也可以是非线性的。例如丁il 为x 2 ( m ) 时, q 。相当于短时能量( 抽样点仅为n 个点) ;t 【 _ l s 印b 仰) 】一s 印b 咖一1 ) 】时, q 。为短时平均过零率。 通常我们用的最多的是矩形窗、汉明窗( h a m m i n g ) 、汉宁窗( h a r m i n g ) , 窗函数越宽,对信号的平滑作用就越显著,窗函数过窄,对信号几乎没有任 何平滑作用。语音信号加窗要求减小两端的坡度,使窗口边缘两端不引起急 剧变化而平滑过渡到零,截取出的语音波形缓慢变为零,减小语音帧的截断 效应,在频域要求较宽3 d b 带宽及较小的边带最大值 3 】。 图2 6 是对三种窗函数时域和频域波形的比较:矩形窗的主瓣宽度最小, 但其旁瓣高度最高;汉明窗的主瓣最宽,旁瓣高度最低。矩形窗的频域分辨 能力最好,但旁瓣太高,会产生严重的泄漏现象,因此只在特殊场合使用。 汉明窗旁瓣最低,可以有效的克服泄漏现象,具有更平滑的低通特性。 n ( a ) 时域窗函数( b ) 频域波形 图2 6 矩形窗、汉明窗、汉宁窗函数比较 2 2 4 端点检测 从背景噪声中找出语音的开始和终止点,这是在很多语音处理应用中的 基本问题,例如在移动通信系统的语音终端中要进行的v o a ( v o i c ea c t i v e 哈尔滨工程大学硕士学位论文 d e t e c t i o n ) 和电话业务中的t a s i ( t i m e - a s s i g n m e n ts p e e c hi n t e r p o l a t i o n ) 1 7 技术。 端点检测对于语音识别有着重要的意义。在孤立词识别中,确定单词语 音信号的开始和终止可以减少非实时系统中的大量计算:连续语音识别中识 别基元( - 7 词、音节、声韵母) 的切分,可用于语音数据库训练。实验统计 数字表明,起始点( b e g i n n i n gp o i n t ) 和终点( e n d p o i n t ) 的偏离对语音识别 最终准确性影响明显:3 0 m s 内的偏移对应精确度下降2 ,当超过9 0 m s 时, 影响达到3 0 1 2 。 近二十年来,人们对语音端点检测算法作了全面的研究,提出了多种算 法。经典的算法主要是根据语音的一些特征参数( 如能量、过零率、l p c 预 测残差等) 完成端点检测 1 8 】,其中较为典型的是利用能量和过零率进行清 音噪音浊音判别,从而完成端点检测,我们可以称之为v u s 算法( v o i c e u n v o i c es i l e n c e ) 或是两级判断法 3 】【1 9 】。v u s 算法的闽值都是事先在特定环 境下根据经验设定的,当环境变化时,阈值的可靠程度降低,故其抗噪能力 较弱。 2 2 4 1 短时能量和幅度 短时能量的主要意义在于给出了区分清音段和浊音段的基础,清音比浊 音的幅度要小得多,清音段的能量值明显小于浊音段,因此能量函数可用来 大致定出浊音语音和清音语音的变化时刻。对于高信噪比的条件下,可以用 能量来区分有无语音。由于其在对高信号电平非常敏感( 幅度的平方) ,需 要加重x ( n ) 中抽样到抽样的变化,解决的办法就是平均幅度函数。 短时能量的定义如下,当窗起点为0 时: ! 1 2 5 :( n ) ( 2 8 ) n ;0 其中睨为帧长,s 。( ”) 为时刻n 时的加窗语音。 2 2 4 2 短时平均过零率 离散时间信号的情况下,如果相邻的抽样具有不同的代数符号就称为发 生了过零,产生过零的速率是信号频率量的一个简单度量。例如:一个频率 为f o 的正弦信号以只速率抽样,正弦波的一周内有就有磊f 个抽样,每 1 8 哈尔滨工程大学硕士学位论文 周内有两次过零,所以过零的长时间平均率为: z = 2 f o f 。 ( 2 9 ) 因此,平均过零率是一个估计正弦频率的适当方法,在语音信号中,语 音产生模型表明,由于声门波引起了谱的高频跌落,所以浊音语音能量约集 中在3 k h z 以下,然而对于清音语音,多数能量确实出现在较高的频率上。 高频意味着高的过零率,低频意味着低的过零率,合理的归纳是,过零率高, 语音信号是清音;过零率低,语音信号就是浊音;同时,无声段的过零率变 化范围较大,一般情况下比浊音低一点。短时平均过零率定义为: z 。= 去 js g n ( s 。( n ) 一s g n ( s 。( h 一1 ) ) 口 ( 2 1 0 ) 其中 s 嘶) = 忙东 ( 2 - 2 2 4 3v u s 算法 v u s 算法利用语音的短时能量和平均过零率的性质进行端点检测,其步 骤为: 1 定闽值: 预先设定闽值、e l 、z 。,其中e 。、e 。分别为高、低能量闽值, z 。为过零率阈值。 2 寻找高能量区: 利用e 。寻找能量较高的语音段。其前端起点f 为 e = a r g l i n 隅( f ) ,0 i ,0 z t a ,0 i 巨 ,b 】 i n 一睨 ( 2 1 5 ) i 4 结果检验: 计算检测到的语音的长度l = b ,一e ,若l 太小,则认为检测失败,将 整个采样信号作为语音交付下一级识别。 2 3 语音特征参数提取 语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。在 语音识别中,我们不能将原始波形直接用于识别,必须通过一定的变换,提 取语音特征参数来进行识别,而提取的特征必须满足: 1 特征参数应当反映语音的本质特征,对于非特定人语音识别,特征参 数则应尽量不含有说话人的信息。 2 特征参数各分量之间的耦合应尽可能地小,以起到压缩数据的作用。 3 特征参数要计算方便,最好有高效的算法。 语音特征参数可以是能量、基音频率、共振峰值等语音参数,目前在语 音识别中较为常用的特征参数为线性预测倒谱系数( l p c c ) 与m e l 倒谱系 数( m f c c ) 。二者都是将语音从时域变换到倒谱域上,前者从人的发声模 型角度出发,利用线性预测编码( l p c ) 技术求倒谱系数。后者则构造人的 听觉模型,以语音通过该模型( 滤波器组) 的输出为声学特征,直接通过离 散傅利叶变换( d f t ) 进行变换。 2 3 1 线性预测倒谱系数l p c c 在图2 4 中提到了语音信号分析过程中经常要用到一个重要的语音产生 模型声道模型。声道模型是将人从喉到嘴唇这一段发音腔体用一系列截 哈尔滨工程大学硕士学位论文 面积不同的均匀声管来模拟。根据声管的声学模型,利用物理学知识,我们 可以计算出这段声管模型与信号处理中的全极点模型相类似。因此,我们可 以应用信号处理中已有的算法对其进行处理。在这个语音产生的声道模型中, 语音中的浊音部分可以认为是由一连串有规律的周期信号( 此周期与浊音的 基音周期相吻合) 来激励不同形状的声道模型而产生;而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论