(通信与信息系统专业论文)噪声环境下的语音识别算法的研究与仿真.pdf_第1页
(通信与信息系统专业论文)噪声环境下的语音识别算法的研究与仿真.pdf_第2页
(通信与信息系统专业论文)噪声环境下的语音识别算法的研究与仿真.pdf_第3页
(通信与信息系统专业论文)噪声环境下的语音识别算法的研究与仿真.pdf_第4页
(通信与信息系统专业论文)噪声环境下的语音识别算法的研究与仿真.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(通信与信息系统专业论文)噪声环境下的语音识别算法的研究与仿真.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让机器 能听懂人类的语言并能按人的口头命令来行动,从而实现人机的语言交流。随着 科学技术的不断发展,语音识别( s p e e c hr e c o g n i t i o n ) 技术的出现,使人类的这 一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相 应的文本或命令的技术,它已成为计算机在亿万百姓中普及所需的关键技术,并 且必将成为未来计算机的重要特征。 语音识别系统的研究持续了近4 0 年,已经形成了完整的理论体系,目前语 音识别的研究也已经进入了商品化阶段,基础性理论相当完善,各种各样的产品 也相继涌现,但在许多特定领域,由于环境和行业的特殊性,往往需要专门进行 丌发,以适应实际需要。语音识别技术在安静的环境中已经达到了令人鼓舞的准 确率,但是在实际应用时出于噪声的引入和环境的改变通常会使系统识别准确性 显著下降。本课题基于现有语音识别系统的技术特点,提出了一种噪声环境下的 语音识别系统改进方案。 现有语音识别系统的识别方法主要有预处理、端点检测、特征提取以及模式 匹配等,本课题在深入理解传统语音识别基本原理的基础上,做了适当的改进: 首先是对语音信号特征提取方法的改进,分别采用了两种改进型的特征提取方 法:单边自相关l p c 系数法和线性预测误差法,在验证这两种方法具有比传统线 性预测编码l p c 法更强抗噪性能的基础上,又比较了这两种方法的差异。其次在 传统的d t w ( d y n a m i ct i m ew a r p i n g ) 语音模式匹配的基础上,通过对搜索宽度 限制和整体路径约束等方法,使得系统能够实现快速的识别响应,尤其是对于小 词汇量和特定人识别,可以有效的提高系统识别率和响应速度。 本课题用c 语言将改进的语音识别算法编程实现,并在p c 机上对其性能进 行了仿真,给出了仿真计算结果。实验结果表明,与传统的语音识别系统相比, 改进过的语音识别系统能够有效的克服噪声干扰,减小或者消除噪声所带来的训 练模型和测试语音之间的失配,并且提高系统的响应速度。论文所做的工作,为 噪声环境下的语音识别提供了理论分析与仿真实验数据。 关键词:语音识别,端点检测,线性预测,d t w a b s tr a c t s i n c eh u m a nb e i n gc a nm a k ev a r i o u sm a c h i n e sa n du s et h e m ,t h ep e o p l eh a v e h a da ni d e a lt h a tv a r i o u sm a c h i n e sc o u l du n d e r s t a n dt h e i rl a n g u a g e ,a n da c ta c c o r d i n g t ot h e i ro r a l l yo r d e r s ,t h e r e b yr e a l i z i n gt h el i n g u i s t i cc o m m u n i o nb e t w e e nt h eh u m a n a n dt h em a c h i n e w i t ht h ed e v e l o p m e n to ft h et e c h n o l o g y , a n dt h ea p p e a r a n c eo f s p e e c hr e c o g n i t i o nt e c h n o l o g y , t h ei d e a lo fh u m a nb e i n gh a sr e a l i z e d t h es p e e c h r e c o g n i t i o nt e c h n o l o g yi s ah i g ht e c h n o l o g y , w h i c hm a k et h em a c h i n ec h a n g et h e s p e e c hs i g n a l si n t oh o m o l o g o u st e x to ro r d e rb yr e c o g n i t i o na n dc o m p r e h e n d t h e s p e e c hr e c o g n i t i o nt e c h n o l o g yi st h ei m p o r t a n td e v e l o p i n gd i r e c t i o no ft h ec o m p u t e r t e c h n o l o g y , i th a sa l r e a d yb e c o m et h ek e yt e c h n o l o g y t h a tt h ec o m p u t e rh a s p o p u l a r i z e da m o n gh u n d r e d so f m i l l i o n s o fc o m m o np e o p l e ,a n dw i l lb e c o m e i m p o r t a n tc h a r a c t e r i s t i co ft h ec o m p u t e ri nt h ef u t u r e r e s e a r c hi na u t o m a t i cs p e e c hr e c o g n i t i o nb ym a c h i n eh a sb e e nd o n ef o ra l m o s t f o u rd e c a d e s t h es p e e c h - r e c o g n i t i o ns y s t e m sh a sb e e nd e v e l o p e da sa ni n t e g r a t e d t h e o r y , a n dh a sb e e na r r i v e dt h e s t a t eo fc o m m o d i t y , t h eb a s i ct h e o r yi sq u i t e p e r f e c ta n dl o t so fp r o d u c t sc o m ef o r t hi ns u c c e s s i o n ,b u ti nm a n ys p e c i a lf i e l d , b e c a u s eo ft h ec i r c u m s t a n c ea n dt h ei n d u s t r y , w eo f t e nn e e dd e v e l o pt h es y s t e m s p e c i a l l y a tp r e s e n t ,t h ea c c u r a c yo fs p e e c hr e c o g n i t i o nc a nb es a t i s f a c t o r yi nq u i e t c i r c u m s t a n c e ,b u tw i t h t h en o i s ep o l l u t i n ga n dt h ec i r c u m s t a n c ec h a n g i n g ,i t s p e r f o r m a n c ew i l ld e g r a d es e v e r e l y s oan e wp r o j e c to fs p e e c hr e c o g n i t i o ni nn o i s y e n v i r o n m e n ti sg i v e nb a s e do nt h et e c h n o l o g yc h a r a c t e r i s t i co fs p e e c hr e c o g n i t i o n t h ee x i s t i n gm a j o rr e c o g n i t i o nm e t h o d so fs p e e c hr e c o g n i t i o ns y s t e ma r e e n d p o i n td e t e c t i o n ,p i c k - u pp a r a m e t e r sa n dp a t t e r nm a t c h i n g , e t c b a s e do nd e e p l y c o m p r e h e n s i o ni i lt h ef u n d a m e n t a l so fs p e e c hr e c o g n i t i o n ,s o m em a j o ri m p r o v e m e n t s h a v eb e e nm a d e :t h ef i r s ti m p r o v e m e n ti sa b o u tp i c k - u pp a r a m e t e r so fs p e e c hs i g n a l t w o i m p r o v e d m e t h o d so f p i c k u pp a r a m e t e r s a r e p r e s e n t e d :o n e s i d e d a u t o c o r r e l a t i o nl p ca n dl p cp r e d i c t i o ne r r o r 0 nt h eb a s i so fc e r t i f k :a t i o nt h a tt h e t w om e t h o d sh a v eb e t t e rr e s i s t a n c et on o i s et h a nt r a d i t i o n a ll p cm e t h o d d i f f e r e n c e o ft h e s et w om e t h o d si sp r e s e n t e d t h es e c o n di st h a tb a s e do nt r a d i t i o n a ld t w s p e e c hr e c o g n i t i o n ,t h es y s t e mc a nr e c o g n i z ea n dr e s p o n dq u i c k l yb yl i m i t i n gr o u t e s s l o p ea n di m p r o v i n gs o m er o u t e ,e s p e c i a l l yw h e na p p l i e di ns m a l lv o c a b u l a r ys p e e c h r e c o g n i t i o na n ds p e a k e r d e p e n d e n tr e c o g n i t i o n 1 i t h i si m p r o v e da l g o r i t h mo fs p e e c hr e c o g n i t i o nh a sb e e nr e a l i z e db ycl a n g u a g e a n ds i m u l a t e do np c ,a n dt h er e s u l th a sb e e ng i v e n t h ee x p e r i m e n t a lr e s u l ti n d i c a t e s t h a t ,c o m p a r e dw i t h t r a d i t i o n a ls p e e c hr e c o g n i t i o ns y s t e m ,t h ei m p r o v e ds p e e c h r e c o g n i t i o ns y s t e mc a r lo v e r c o m en o i s yi n t e r f e r e n c ee f f e c t i v e l y , r e d u c eo re l i m i n a t e m i s m a t c hb e t w e e nt r a i n i n gm o d e la n dt e s t i n gv o i c e ,a n di m p r o v es y s t e m i cr e s p o n s e r a t e t h e o r e t i c a la n a l y s i sa n ds i m u l a t i o ne x p e r i m e n t sd a t ai nt h ee n v i r o n m e n to fn o i s e i sp r o v i d e di nm yp a p er k e y w o r d s :s p e e c hr e c o g n i t i o n ,e n d p o i n td e t e c t i o n ,l i n e a rp r e d i a i o n ,d t w 1 1 1 此页若属实请申请人及导师签名。 独创性声明 y8 g 0 2 7 本人声明,所里交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果, 也不包含为获得武汉理工大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 研究生签名:越日期鲨:生:梦 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件允许论文被蠢阅和借阅; 学校可以公布论文的全部内容,可以采用影印、缩印或其他复制 手段保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生签名:墨黜导师签名 、j 】 注:请将此声明装订在论文的目录前。 日期幽:生! 场 武汉理i :大学硕十学位论文 1 1 课题的提出 第1 章引言 语音的作用就是通信,语音处理和识别是利用计算机对语音信号进行分析 和综合,从而实现人类语音的自动理解和处理的一门学科。语音识别的最终目 的就是像人与人之间谈话交流信息一样,实现人机自由对话。也就是赋与机器 听觉,使机器能听懂人的语言,辨明话音的内容或说话人,将人的语音正确地 转化为书面语言或有意义的符号,或者进一步使机器能按照人的意志进行操作, 实现工业生产的自动化和智能化。 目前纯净语音识别已达到一个比较成熟的阶段,以i b m 的v i av o i c e 为代 表其对连续语音的识别率可以达到9 5 以上,但是对语音输入环境有较严格的 要求,否则系统性能将会有很大的下降。造成这种情况的原因是训练环境和识 别环境的差异造成了模型和测试数据之间的失配。现在很多识别系统的参数都 是在实验室环境中通过训练得到的,训练语音大多是在安静的情况下,通过高 质量麦克风采集的。 在实际生活环境中,语音不可避免地会受到外界环境噪声的干扰,这些噪 声包括周围传输媒质中的噪声、电气设备的噪声以及其它说话人的噪声。噪声 的影响使得原来纯净语音的模型对于含噪语音来说失配,从而造成识别性能的 急剧下降。在实验室环境中可以取得很好效果的语音识别系统,在噪声环境中, 尤其在强噪声环境中使用时,系统的识别率将受到严重的影响,产生的结果不 能让人接受。 因此,本课题通过对语音信号的端点检测、特征提取以及识别算法等方面 的改进,减弱背景噪声的干扰,提出了一种噪声环境下的语音识别系统,有效 的提高了噪声环境下语音识别系统的识别效果。 1 2 语音识别的应用 语音识别就是让计算机听懂人的话,并根据人的指令做出相应的反映。这 是电脑在拟人化方面迈出的一大步。 作为一门综合学科,语音识别是以语音为研究对象,是语音信号处理的一 个重要研究方向,属于模式识别的一个分支。但是语音处理和识别又是涉及到 生理学、心理学、语音学、计算机学、通信科学等诸多领域的门学科,语音 信号处理与识别技术的发展离不丌其它相关学科的发展,但其最终的目的就是 武汉理j 二人学硕士学位论文 实现人与机器之问的自然语占通信i 。 上世纪,计算机技术的飞速发展为语音信号处理与识别学科的进展提供了 重要的基石。语音识别技术代表着计算机技术重要的发展方向,多媒体时代的 来l 临,迫切要求解决自动语音识别的难题。语音识别技术的解决不仅将使计算 机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的控制, 还有通信、口语机器翻译等领域来说,都有着广阔的应用前景。 语音识别听写机在一些领域的应用被美国新闻界评为1 9 9 7 年计算机发展 的十大事件之一;比尔盖茨认为下一代的操作系统和应用程序的用户界面将 是语音识别,微软最新操作系统w i n d o w sx p 就内嵌了语音识别模块,使用户 可以不用键盘而是直接用话筒控制计算机;计算机行业巨头g o d d e nm o o r e 既: “语音技术将改变计算机的设计,它将使现在尚未使用计算机的人中的8 5 用 上计算机”;i b m 总裁l o ug e r s t n e r 指出,“有朝一日,将有数十亿的人运用自 然语言f 利用语音识别和语音合成) 在i n t e m e t 上浏览、查询”;a b l ( a l l i e db u s i n e s s i n t e l l i g e n c e ) 认为,在未来的网络化世界中,语音识别技术将扮演越来越重要的 角色,新的语音识别技术可以让用户更为轻松地收发电子邮件,获取股市行情, 了解天气、交通和道路情况,不久的将来,它将提供更为全面的更有价值的应 用服务1 “。 现在大多数的手机提供了“语音拨号功能”,使用“语音拨号”,只需一次 性地输入( 读入) 人名和电话号码,在使用时便可以直接对着电话“说出”要通 话人的姓名,经语音识别后,查出该姓名所对应的号码,然后自动地进行“拨 号”。 语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查 询系统。如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点 名称,系统便自动显示出图文并茂的最佳路线、乘车方案、费用及其它相关信 息。如果游客还需要进一步了解更为详尽的资料,则可以同系统进行交互式的 对话,系统将对用户的问题一一给予答复。另一个有代表性的应用就是在医疗 查询中,医疗改革推行后,大多数的医院都配备了电脑查询系统,供患者查询 药品价格及医护人员简介,对于键盘输入非常陌生的大部分患者来说,语音输 入提供了最方便快捷的查询方式i l i 。 语音识别还可以应用在工业控制方面,在一些工作环境恶劣、对人身有伤 害的地方( 如地下、深水及辐射、高温等) 或手工难以操作的地方,均可通过 语音发出相应的控制命令,让设备完成各种工作。 语音识别技术在帮助伤残人的各种设备中也将发挥其难以替代的作用。对 于一些肢体伤残者或盲人,若伞部用声音控制,则给伤残者或盲人提供极大的 2 武汉理1 :大学硕士学位论文 生活便利。些办公设备加上语音功能后,即使是伤残者也可以足不出户地在 家里工作。 此外嵌入式语音识别软件具有语音识别、声控、用字母语音输入的语音键 盘等功能,可应用于手提电话、掌上电脑、电子记事本、声控设备、及便于残 疾人的自助设备等,应用前景非常广阔。 此外,语音识别在军事领域的作用也被人们所重视。例如,在军事指挥、 通信计算机系统中,语音识别就有非常广泛的用途。指挥员可以用门呼命令直 接操纵庞大的军用数据库,使其指挥决策能够得到更充分的发挥。在美国、英 国、法国等国家的多种战机上都安装有语音识别系统,这使得飞行员可以从手 忙脚乱的状态中解放出来。此外,基于语音识别与合成技术的超低比特率语音 编码在军事上也有特别重要的意义。 正是由于语音识别的应用面广,地位重要,近年来这一学科的研究得到了 国内外许多学者的极大关注,美国国防部先进项目管理局多年来一直将语音技 术列为关键技术。美国的i b m 公司、a t & tb e l l 实验室、c m u 等研究机构都 在积极开展语音识别的研究工作。语音在人们f 1 常生活的信息交流中处于主导 地位。随着人们对语音处理重要性的认识,可以肯定地说,语音处理在未来科 学研究中仍将是国内外专家学者们研究的重要课题,仍将是信息科学中一个十 分活跃的研究领域i l l o 1 3 国内外研究现状 语音识别的研究工作大约开始于上个世纪5 0 年代,当时a t & tb e l l 实验室 实现了第一个可识别十个英文数字的语音识别系统a u d r v 系统。二十世纪 6 0 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动 态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信号产 生模型的问题,对语音识别的发展产生了深远影晌1 2 j 。 二十世纪7 0 年代,语音识别领域取得了突破。在理论上,l p 技术得到 进一步发展,动态时间归正技术( d t w ) 基本成熟,特别是提出了矢量量化( v q ) 和隐马尔柯夫模型( h m m ,h i d d e nm a r k o vm o d e l ) 理论。在实践上,实现了 基于线性预测倒谱和d t w 技术的特定人孤立语音识别系统。 二十世纪8 0 年代,语音识别研究进一步走向深入,其显著特征是h m m 模 型和人工神经元网络( 砧q n ) 在语音识别中的成功应用。h m m 模型的广泛应 用应归功于a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的 h m m 纯数学模型工程化,从而为更多研究者了解和认识。a n n 和h m m 模型 建市的语音识别系统,性能相当。 武汉理r 大学硕十学位论文 进入二十世纪9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从 课题室走向实用。许多发达国家如美国、日本、韩固以及i b m 、a p p l e 、a t & t 、 n 1 r r 等著名公司都为语音识别系统的实用化开发研究投以巨资。i b m 公司于 1 9 9 7 年开发出汉语v i a v o i c e ,次年又开发出可以识别上海话、广东话和四川话 等地方v i 音的语音识别系统v i a v o i c e 9 8 。它带有一个3 2 0 0 0 词的基本词汇表, 可以扩展到6 5 0 0 0 词,还包括办公常用词条,具有“纠错机制”,其平均识别率 可以达到9 5 。该系统对新闻语音识别具有较高的精度,是目前具有代表性的 汉语连续语音识别系统1 2 1 。 进入二十一世纪,正像美国微软公司总裁所说的那样,语音识别技术将使 计算机丢掉键盘和鼠标。这无疑将改变许多人的工作和生活方式。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量 语音识别的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及北京大学等单 位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。 美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,汉语大词汇 量语音识别都达到了相当高的水平。 1 4 语音识别系统的分类 一个复杂的语音识别系统,根据服务对象、词汇量大小、工作环境、发音 方式、任务性质等诸多因素的不同,可以分为以下几类【2 j : 1 按发音方式分类 按发音方式语音识别系统可分为孤立词语音识别系统、连接词语音识别系 统和连续语音识别系统。 孤立词语音识别系统指人在发音时,以单个词的发音方式向语音识别系统 输入语音,词与词之间要有足够的时间间隙,以便系统能够检测到始末点。采 用这种方式的语音识别系统已经有了较为成熟的算法,实现起来较为容易。连 接词语音识别系统指以词或词组为发音单位向系统输入语音。与孤立词发音相 比,这种发音方式比较自然,且输入效率也比较高。中小词汇量连接词语音识 别系统的识别率目前可以做得很高,并达到了实用水平。连续语音识别系统指 在输入语音时,完全按照人的最自然的说话方式输入。这种系统是最方便的输 入系统,但是,实现起来也是最复杂和最困难的。 2 按应用对象分类 按应用对象语音识别系统可分为特定人和非特定人识别系统。特定人的语 音识别系统对于每一个使用者都必须建立专用的参考模板库。非特定人语音 沮另的原则是事先用许多人( 通常3 旷4 0 人) 的语音样本训练系统,使用者无 4 武汉理工大学硕士学位论文 论足否参加过采样训练都可以共用一套参考模板,使用该系统进行语音识别。 这两类系统的应用对象大不相同,为了达到良好的识别效果,其系统结构、 特征参数选择以及识别方法都可能有极大的差别。对于非特定人的语音识别系 统来说,曲于要考虑各种复杂因素,实现起来要比特定人的语音识别系统困难 得多。 3 按识别词汇量的大小分类 按词汇量的大小可分为小词汇量识别系统、中等词汇量识别系统、大词汇 量识别系统和无限词汇量识别系统。随着词汇数目的增加,潜在的词间相似性 会增加,系统的搜索运算开销及存储开销相应增加,识别系统的难度一般也会 增加。当系统所能识别的词汇量越大时,实现起来就越困难】。 1 5 课题的任务和目标 目前,语音识别系统采用模式匹配的原理。本课题设计的语音识别系统框 图如图1 1 所示,未知语音经过话筒变成电信号加在识别系统的输入端,也就 是图中的语音输入,经预处理、端点检测和特征提取,然后将提取的特征参数 进行适当的量化,再将量化后的特征参数序列与模式库中的特征参数序列进行 逐一比较,得到最佳匹配的参考模式,就是识别结果。 l一一一一一一一一一一一一一l :模式匹配 霉蓉囤圜一圆悃 罗罨r 训练、k 癌i 图1 1 语音识别系统的原理框图 本课题主要进行了以下工作的研究: 1 分析完整的语音识别系统的系统结构和系统的各个模块,比较目前常用 语音识别方法及其优缺点,并在其基础上加以适当改进。 2 分析研究语音特征提取的方法,并针对语音特征提取的方法加以改进。 3 综合分析语音识别过程中的各个模块的算法和原理。 4 编程实现改进型语音识别系统的算法程序,并在计算机卜实现其仿真。 武汉理i :人学硕七学位论文 第2 章语音信号的预处理和端点检测 本章确定图1 - 1 中的预处理和端点检测所采用的方法。这部分是语音识别 的准备工作,但却对整个识别系统的性能有着重要的影响。预处理主要是对信 号进行一定的滤波和分帧;端点检测是确定有用信号的起点与终点,抛弃没有 意义的语音信号,从而减少后面模块的运算量,同时也提高了系统的识别率。 预处理不够合理或语音起止点判别不够准确都会使后续的特征矢量提取及识别 过程等工作受到很大的影响,本课题采用d = 0 9 8 进行语音信号的预加重,采 用汉明窗对信号进行分帧;端点检测采用短时平均能量与短时过零率相结合的 方法。 2 1 语音信号的预处理 2 1 1 语音信号的采样 根据n y q u i s t 采样定理,如果模拟信号的频谱带宽是有限的( 例如不包含 高于的频率成分) ,那么用不小于2 ,卅的取样频率进行取样,则能从取样信 号中恢复出原模拟信号f 引。就语音信号而言,浊音语音的频谱一般在4 k h z 以上 便迅速下降,而清音语音信号的频谱在4 k h z 以上频段反而呈上升趋势,甚至 超过了8 k h z ,以后仍然没有明显下降的趋势1 5 】。因此,为了精确表示语音信号, 一般认为必须保留1 0 k h z 以下的所有频谱成分,这意味着采样频率应当等于或 大于2 0 k h z 。但是在许多实际应用中并不需要采用这么高的取样频率,实验表 明对语音清晰度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。例如r r u ( i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ,国际电信联盟) 在g 7 2 9 中提出的语 音编解码系统采样频率为8 k h z ,只利用了3 4 k h z 以内的语音信号分量1 6 ,”,虽 然这样的采样频率对语音清晰度是有损害的,但受损失的只是少数辅音,而语 音信号本身的冗余度又比较大,少数辅音清晰度下降并不明显影响语句的可懂 度。因此语音识别时常用的采样频率为8 k h z 、i o k h z 或1 6 k h z 。本课题采用 了8 k h z 和1 6 k h z 两种采样频率进行试验。 语音信号在采样之前要进行预滤波处理。预滤波的目的是:( 1 ) 抑制输入信 号各频率分量中频率超过f 2 的所有分量( ,t 为采样频率) ,以防止混叠干扰: ( 2 ) 抑制5 0 h z 的电源干扰。进行预滤波处理后,再采用合适的采样频率进行采 样。目前,设计较好的声卡通常都带有带通滤波器。 6 武汉理工大学硕十学位论文 2 1 2 语音信号的预加重 由于语音信号的平均功率谱受到声门激励和l j 鼻辐射的影响,语音信号从 嘴唇辐射后有耐b o c t ( 倍频程) 的衰减1 4 】【射。因此,在对语音信号进行分析之 前,要对语音信号的高频部分加以提升,利用在处理前提升声音中高频达到减 小噪声的效果,使得语音信号的频谱变得平坦,压缩信号器的动态范围,提高 信噪比。提升的方法有两种:其一是用模拟电路实现;其二是用数字电路实现。 采用数字电路实现6 d b o c t 预加重的数字滤波器的形式为: y ( n j = x ( n _ ) - 饿协一1 )( 2 1 ) 其中:工( n ) 为原始语音序列;y ( n ) 为预加重后的序列;o 为预加重系数。 通常,a 的值取o 9 1 0 之间的数,通常取o 9 8 或者o 9 7 【3 】。本课题采用 a = 0 9 8 进行语音的预加重。 2 1 3 语音信号的加窗 语音信号是一种典型的非平稳信号,其特性是随时间变化的。但是,语音 的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度 来讲要缓慢得多,因此语音信号常常可假定为短时平稳的,即在l o 2 0 m s 这 样的时间段内,其频谱特性和某些物理特征参量可近似地看作是不变的。这样, 就可以采用平稳过程的分析处理方法来处理了。由此导出了各种“短时”处理 方法,以后讨论的各种语音特征参数的提取都基于这个假定。这种依赖于时间 处理的基本方法,是将语音信号分隔为一些短段( 帧) 再加以处理。这些帧就好 像是来自一个具有固定特性的持续语音片段一样,一般都按要求重复( 常是周期 的) ,对每帧语音进行处理就等效于对固定特性的持续语音进行处理。短段之间 彼此经常有一些重叠,对每一帧的处理结果是一个数或是一组数【9 j 。经过处理 后将从原始语音序列产生一个新的依赖予时间的序列,被用于描述语音信号的 特征。 设原始语音信号采样序列为x ( m ) ,将其分成短段等效于乘以幅度为1 的移 动窗工( n m ) 。当移动窗幅度不是1 而是按一定函数取值时,所分成的短段语音 的各个取样值将受到一定程度的加权。 对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变换或 施以某种运算,其一般式为: 兰 q = :m 似 w 伽一m )( 2 2 ) 而 其中t 【+ 】表示某种变换,它可以是线性的也可以是非线性的,x ( m ) 为输入 语旨信号序列。q 是所有各段经过处理后得到的一个时间序列。 7 武汉理工大学硕士学位论文 对语音信号加窗时,用得最多的三种窗函数是矩形窗、汉明窗( h a m m i n g ) 、 汉宁窗( h a n n i n g ) ,其定义分别为: ( 1 ) 矩形窗:州= f :笔了卜1 ( 2 - 3 ) 汉慵州;p - o 4 s c o s ( 笔) ;o s n l - tp 4 , i o ; 。肪e , 汉镥州;卅一o ( 各) | 虬p , i o ; o t h e 7 其中l 为窗长。窗函数越宽,对信号的平滑作用越显著,窗函数过窄,对 信号平滑作用越不明显【4 1 。对波形乘以窗函数,相当于在频谱范围内,对信号 的频谱进行窗函数的付里叶变换的卷积,或者是进行加权移动的平均。一般希 望窗函数具有以下的性质:一是频率分辨高,即主瓣狭窄、尖锐;二是频谱泄 漏少,侧瓣衰减大。由于汉明窗在频率范围中的分辨率较高,而且侧辨的衰减 大于4 3 d b ,具有频谱泄漏少的优点,所以在本课题的语音识别系统中,采用 h a m m i n g 窗作为窗函数【3 1 。 2 1 4 语音信号预处理的仿真 图2 2 是本课题设计的语音识别系统信号的预处理程序流程图。本课题采 用a = 0 9 8 进行系统的预加重,采用汉明窗对信号进行分帧,另外设置了一个 窗长的范围8 ws i z e 1 0 2 4 ,因为如果帧设置太短,不足于表现出语音特征, 太长则违反了短时平稳的假设,当窗长超出这个范围,系统输出:“h a me r r o r ”, 并结束程序。图2 3 是本课题设计的语音识别系统的信号经过采样和预处理前 后的信号时域波形图。 8 武汉理工大学硕士学位论文 图2 2 语音信号的预处理程序流程图 o r l g i n s 卯j 。一 iil _ 一 l 。 一 ,r 几1i r r1 r r 一 图2 - 3 原始语音信号与预加重后语音信号时域波形图 武汉理工大学硕士学位论文 2 2 语音信号的端点检测 2 2 1 端点检测原理 语音端点检测是语音信号处理中的一个基础问题,其任务是准确判断语音 信号流中有语义信息的信号起止端点,被广泛应用于语声应答系统、语音识别 系统和说话人识别系统中。在识别系统中,可靠而准确的端点检测使整旬的语 义信息更多的集中在语音段,而不是被噪声所分散,使同一算法能给出更高的 正确识别率,同时避免无用数据参与运算,减少系统处理时间。理想的端点检 测应具备以下特点:1 可靠性和健壮性;2 氐的存储器和计算资源消耗;3 实时 性;4 自适应性,不需要对噪音的先验知识。 在静音情况下,端点检测有计算简单的特点,配合对语音持续时间长度的 检测,能够检测到语音信号。但是有噪声的情况下,单纯用短时能量或者短时 过零率不能准确检测出语音信号1 5 i 。在实际使用的系统中,系统可能被安装在 p c 机中,在办公条件下使用,也可能被嵌入在手持智能终端中,在这种情况下, 系统可能处于一种不确定的噪声环境中。本课题根据对噪声特性的分析,采用 短时能量和短时过零率相结合的方法,力求使用低的存储器和计算资源,满足 实时性和抗干扰的要求。 2 2 2 端点检测算法的仿真实现 1 短时平均能量 设s 为加窗语音信号,第t 帧语音的短时平均能量为: ( f ) = 百1n 丢- i s2 r 0 ) ( 2 6 ) 勘g o ) 一稳墨o ) ( 2 7 ) 其中n 为分析窗宽度,墨f ,1 ) 为第t 帧语音信号中的第n 个点的信号样值。 上面两式原理是相同的,但后式有利于区别小取样值和大取样值,不因前式取 平方造成很大差异1 1 0 11 1 1 1 。 短时平均能量是时域特征参数。把它用于模型参数时,应进行归一化处理, 本文语音识别系统中取其对数值后使用,使计算和识别结果均取得了较好的效 率和结果。 2 短时过零率 短时过零率z c rr z e r o - c r o s s i n g r a t e ) 为: 1 0 武汉理工大学硕士学位论文 其中 z 。= e s g n x ( m ) 一s g n x ( m 一1 ) 】w ( n 一脚) ( 2 8 ) 。) = 去 o s ns 一1 ( 为一阵声音的长度) 0 ) = 0 o t h e r w i s e ( 2 9 ) 有噪声的情况下,单纯用短时能量或者短时过零率不能准确检测出语音信 号。本课题采用短时能量和短时过零率相结合的方法,利用短时能量和短时过 零率两个门限来确定语音信号的起点和终点,力求使躁声的干扰降到最低,满 足抗干扰的要求。 1 1 刘 膘 嘛 呐 为 幽 础 :萋 a 0 触 m w 确 、, s 一 一 m 磅 o 吣 俐 娜 武汉理j :大学硕十学位论文 图2 4 双门限端点检测程序流程图 端点检测程序流程图如图2 4 所示,在语音信号端点检测f ;i f ,先要求为短时 武汉理工大学硕士学位论文 平均能量和短时过零率确定两个门限【1 2 1 。在静音段,如果能量或过零牢超越了低 门限,就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较 小,不能确信是否进入语音段,只要两个参数的数值都回落到低门限以下,就将 当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门 限,就可以确信进入语音段,就可以标记一段语音【”j 。 在检测到语音段后,标记开始检测语音终点,如果检测到短时能量或者短时 过零率低于阈值,则标记为语音终点,进入过渡段,在过渡段中,由于参数的数 值比较大,不能确信是否进入静音段,如果在过渡段中两个参数中的任一个超过 了高门限,就可以确信还是语音段,继续标记语音,取下一帧再进行判断;只要 两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态【1 5 】。识别效 果如图2 - 5 所示。 鑫。1 罂一l 弱 攉i i l。j 。i i j 一 i _ ”1 r 1j 采样点数 2 0 0 4 0 0 6 0 0 采样点数 l 一乳。 采样点数 图2 - 5 男声发音“4 ”的端点检测示意图 武汉理工大学硕士学位论文 第3 章特征参数的提取与仿真 特征矢量【3 】的提取在语音识别中占有极其重要的地位,特征矢量提取得是 否得当直接影响着语音识别率,因此必须给予足够的重视。特征矢量的提取是 对原始的语音信号运用一定的数字信号处理技术进行适当的处理,从而得到 个矢量序列,这个矢量序列可以代表原始的语音信号所携带的信息,初步实现 数据压缩。提取特征矢量的原则是:要尽可能保留那些对识别率有重要意义的 特征信息,同时最大限度地摒弃那些对语音识别无用的冗余信息1 1 6 l 。 基本的特征参数主要有:能量、幅度、过零率、频谱、倒谱和功率谱等, 另外考虑至u 其他因素的影响,还有许多基于基本参数的参数,如从听觉出发, 用来表达语音的特征有:m e l 频率倒谱系数( m f c c ) 、感知线性预测系数( p l p ) 等,这些参数相对于l p c 或f f t 等基本分析方法有许多优点【1 7 】。本课题的实 现过程中,先后采用了三种特征参数进行对比实验。一种是利用传统的线性预 测l p c 法进行特征提取;一种是改进型单边自相关l p c 系数( o s a l p c , o n e s i d e d a u t o c o r r e l a t i o nl i n e a rp r e d i c t i o nc o e f f i c i e n t ) 及其差分作为特征参数; 还有采用线性预测误差法( l p c p e ,l p cp r e d i c t i o ne r r o r ) 作为特征参数进行特 征提取。最后通过算法的仿真验证后两种方法具有比传统线性预测编码l p c 法 更强抗噪性能,并且比较了后两种方法的简单差异。 3 1 线性预测法 3 1 1 线性预测系数 线性预测【1 7 1 ( l i n e a rp r e d i c t i o n ) 基本思想是由于语音信号样点之间存在相 关性,所以可以用过去的样点值来预测现在或未来的样点值,即一个语音的抽 样能够用过去若干个语音抽样的线性组合来逼近,通过使实际语音信号抽样值 和线性预测抽样值之间的误差在均方准则下达到最小值来求解预测系数,而这 组预测系数就反映了语音信号的特征,故可以用这组语音特征参数进行语音识 别或语音合成等。 1 线性预测的基本原理 若一个随机过程用一个p 阶的全极点系统受白噪声激励产生的输出束模 拟,设这个系统的传递函数为 1 4 武汉理【大学硕士学位论文 ( 3 - 1 ) 其中g 为增益常数,s ( z ) 和u ( z ) 分别为输出信号s ( n ) 和输入信号u ( n ) 的z 变换,那么s ( n ) 和u ( n ) 的关系可以表示为差分方程 s 仁) = 妻即( n 一 ) + 鳓0 ) t 1 ( 3 2 ) 观察上式,可以将与 唧) 有关的部分理解为用信号的前p 个样本来预测当 日u 样本,即定义预测器 9 b ) 2 s o 一 ( 3 - 3 ) 由于预测系数 叱) 在预测过程中看作常数,所以它是一种线性预测器,这 种预测器最早用于语音编码,因此称为线性预测编码( l i n e a rp r e d i c t i v ec o d i n g , l p a 。该预测器的系统函数为 o ) 2 5 4 ( 3 - 4 ) 可见,如果信号s ( n ) 符合公式( 3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论