(信号与信息处理专业论文)小词汇量非特定人孤立词语音识别的fpga实现.pdf_第1页
(信号与信息处理专业论文)小词汇量非特定人孤立词语音识别的fpga实现.pdf_第2页
(信号与信息处理专业论文)小词汇量非特定人孤立词语音识别的fpga实现.pdf_第3页
(信号与信息处理专业论文)小词汇量非特定人孤立词语音识别的fpga实现.pdf_第4页
(信号与信息处理专业论文)小词汇量非特定人孤立词语音识别的fpga实现.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(信号与信息处理专业论文)小词汇量非特定人孤立词语音识别的fpga实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 语音识别技术是信息技术领域的重要发展方向之一,小词汇量非特定人孤立词语音 识别是语音识别领域中一个具有广泛应用背景的分支,在家电遥控、智能玩具、人机交 互等领域有着重要的应用价值。 语音识别芯片从2 0 世纪9 0 年代开始出现,目前的语音识别芯片都是以d s p 为核 心集成的语音识别系统,算法主要通过软件实现,为了提高速度和降低成本,下一代语 音识别芯片将设计成软硬件协同实现,本文的目的是使用全硬件方法实现语音识别算 法,为软硬件协同实现的方案提供参考。 本论文主要完成了以下工作: ( 1 1 在选定的f p g a 平台上,完成了整个系统的硬件设计。 ( 2 ) 对于硬件中难于实现而且占用较多资源的乘法器、求对数、求平方根以及快速 傅立叶变换等关键模块,本文都根据电路的具体特点,给出了巧妙的实现方案,完成了 算法需要的功能。 ( 3 ) 设计中使用了模块复用和流水线技术。 ( 4 1 根据设计结果,给出了各个模块占用的硬件资源和运行速度。 实验结果表明,本文所设计的硬件系统能够正常工作,在速度和面积方面都达到了 设计要求。 关键词:f p g a ;语音芯片;语音识别:d n , e i ;非特定人;矢量量化:隐马尔可夫楱 型 一! :塑至量! ! 堑塞塑皇塑堕童望型! ! 垒竺塞里 s m a l l - v o c a b u l a r ys p e a k e r i n d e p e n d e n ti s o l a t e d w o r d r e c o g n i t i o n i m p l e m e n t a t i o n o nf p g a a b s t r a c t s p e e c hr e c o g n i t i o n ( s r ) i so n e o ft h em o s ti m p o r t a n ta r e a si nt h ei n f o r r r l a f i o n & t e c h n o l o g yf i e l d s m a l l v o c a b u l a r y s p e a k e r i n d e p e n d e n t i s o l a t e d w o r d r e c o g n i t i o n ( s v s i i w r ) i sap r o m i s i n gb r a n c hi ns p e e c hr e c o g n i t i o nt e c h n o l o g ya ss e e nf r o mi t sm a n y c o n t r i b u t i o n si na p p l i c a t i o n ss u c ha sh o m e a p p l i a n c e st e l e c o n t r o i ,i n t e l l i g e n tt o y ,a n dh u m a n c o m p u t e r i n t e r a c t i o nt e c h n i q u e s s p e e c hr e c o g n i t i o nc h i pa p p e a r sf r o m1 9 9 0 s i nt o d a y ss p e e c hr e c o g n i t i o nc h i pad s p b a s e ds y s t e mi s a d o p t e d ,i n s u c has y s t e mt h e s p e e c hr e c o g n i t i o na l g o r i t h mi sm a i n l y i m p l e m e n t e db ys o f t w a r e i no r d e rt oi n c r e a s es p e e da n dr e d u c ec o s tt h en e x tg e n e r a t i o ns r c h i pw i l lb es o f t w a r ea n dh a r d w a r ec o d e s i g n e d t h ep u q ) o s eo f t h i sp a p e r i st oi m p l e m e n ts r a l g o r i t h mw i t ho n l yh a r d w a r e t h er e s u l t c a nb eu s e df o rr e f e r e n c eb yt h es o f t w a r ea n d h a r d w a r e c o - d e s i g ns c h e m e s u m m a r i l y ,t h i sp a p e rc o m p l e t e s t h ew o r ka sf o l l o w i n g : ( 1 ) c o m p l e t e t h e w h o l es y s t e m d e s i g n o ns e l e c t e d f p g a p l a t f o r m ( 2 ) b e c a u s em u l t i p l e x e r , l o g a r i t h m ,s q u a r e - r o o ta n d f a s tf o u r i e rt r a n s f o r i f tm o d u l e sa r e d i f f i c u l tt ob er e a l i z e di nh a r d w a r ea n d o c c u p ym u c hr e s o u r c e ,a c c o r d i n g t oi t ss p e c i f i c a t i o n , w e g i v es k i l l f u lr e a l i z a t i o ni s s u ea n d a c h i e v et h e r e q u k e m e n t o f t h e s y s t e m ( 3 ) m o d u l e r e u s e da n d p i p e l i n et e c h n o l o g y i su s e di nt h es y s t e m ( 4 ) f i n do u th o wm a n yr e s o u r c e sn e e d e db ye a c hm o d u l ea n do b t a i nt h ep r o c e s s i n g c a p a c i t yo f e a c h m o d u l e t h er e s u l t so fe x p e r i m e n td e m o n s t r a t et h a tt h i ss y s t e mc a nw o r kp r o p e r l y t h es p e e da s w e l la st h ea r e ar e a c h e st h ed e s i g nr e q u i r e m e n t k e yw o r d s :f p g a ;s p e e c hc h i p ;s p e e c h r e c o g n i t i o n ;s m a l l - v o c a b u l a r y ;s p e a k e r - i n d e p e n d e n t ;h i d d e n m a r k o vm o d e l 一 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究 工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得 大连理工大学或其他单位的学位或证书所使用过的材料。与我一同工作 的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢 意。 作者签名: 玉靠7 j - z 日期:塑:兰: ! 大连理工大学硕士学位论文 致谢 本论文是在导师殷福亮教授的悉心指导下完成的。从论文的选题、算法研究到硬件 实现以及在论文撰写的整个过程中,殷老师都给予了精心指导和孜孜不倦的教诲。导师 精深的理论基础、渊博的学识、严谨的作风、敏捷的思维、授以学问、教以为人的工作 方法,都将使我终生受益。导师的言传身教让我铭记在心,必会导航我今后的人生道 路,谨此向殷老师表示诚挚的感谢。 在同陈醋老师进行项目研发合作中,他扎实的理论、解决问题的技巧、一丝不苟的 态度都在潜移默化地影响着我,成为我学习的楷模。本论文在研究方法和实验方案上均 得到陈老师的无私帮助,这些连同研究生阶段的生活铭记我的脑海。 在本科和攻读硕士期间,邱天爽老师、郭成安老师、李建华老师、孔祥维老师和马 晓红老师都给了我帮助和指导。正是从这些老师那里,我学到信号处理方面的专业知识 和很多做人的道理,在论文完成之际,我衷心的对这些老师说一声谢谢。 本论文能够顺利完成,还要感谢给我带来快乐的数字信号处理实验室这个大家庭的 所有的同窗,他们营造了良好的实验氛围。我的师兄徐晓丹、刘国锋在本文完成期间给 了我很多帮助,特向他们表示感谢。同时对卞杰、付庚申、马晓冬、郭海涛等同学在论 文完成期间对我的帮助表示谢意。 最后,作者要感谢父母和妻子,家的温暖和亲人的支持总是给我无穷无尽的力量, 激励着我在成长的过程中和今后的岁月里去迎接挑战,克服困难! 大连理工大学硕士学位论文 第一章概述 1 1 语音识别发展现状 语音识别技术是2 0 0 0 年至2 0 1 0 年信息技术领域十大重要技术之一,语音识别正逐 步成为信息技术中人机接口的关键技术,语音识别技术的应用已经成为一个具有竞争性 的新兴高技术产业。语音识别是模式识别的一种,它是让机器通过识别和理解过程将语 音信号转变成相应的模型参数。作为个专门的研究领域,语音识别又是一门交叉学 科。它与语音学、语言学、数字信号处理、模式识别、最优化理论、计算机科学等众多 学科紧密相连,是- - f q 既有理论价值又有实际意义的学科。 语音识别的研究工作大约开始于2 0 世纪5 0 年代,当时a t & tb e l l 实验室实现了第 一个可识别十个英文数字的语音识别系统a u d r y 系统 1 。 2 0 世纪6 0 年代,计算机的应用推动了语音识别的发展。这个时期的重要成果是提 出了动态规划( d p ) 和线性预测分析技术( l p ) ,其中后者较好地解决了语音信号产生模型 的问题,对语音识别的发展产生了深远影响。 2 0 世纪7 0 年代,语音识别领域取得了突破。在理论上,线性预测技术得到进一步 发展,动态时间规整技术( d t w ) 基本成熟,特别是提出了矢量量化f v 。) 和隐含马尔可夫 模型( h m l v l ) 理论。在实践上,实现了基于线性预测倒谱和d t w 技术的特定人孤立语音识 别系统。 2 0 世纪8 0 年代,语音识别研究进步走向深入,其显著特征是h l v l v l 模型和人工 神经元网络( a n n ) 在语音识别中的成功应用。h m m 模型的广泛应用应归功于a t & t b e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m i v l 纯数学模型工程化,从 而为更多研究者了解和认识。a n n 和h m m 模型建立的语音识别系统性能相当。 2 0 世纪9 0 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实 用。许多发达国家如美国、日本、韩国以及i b m 、a p p l e 、a t t 、n t t 等著名公司都 为语音识别系统的实用化开发研究投以巨资。 我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别 的研究列入“8 6 3 ”计划,由中科院声学所、自动化所及清华大学等单位研究开发。鉴 于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集 了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除 了要加强理论研究外,更要加快从实验室演示系统到商品的转化。 小词汇量非特定人孤立词语音识别f p a g 实现 1 - 2 语音识别技术的主要应用 ( 1 ) 语音识别技术在家用电器上的应用 语音控制是今后家电遥控的一个必然的发展方向,而家电遥控中不可避免地会用到 数码语音的识别,如电视机的频道、空调设定的温度、洗衣机的定时等,所以数码语音 识别将成为语音遥控家电的重要环节。 ( 2 ) 语音识别技术在通讯领域上的应用 用户可通过电话访问因特网信息内容和电子邮件,可以通过拨打免费电话,听取电 子邮件内容并进行回复,或获取新闻、天气预报、股价、体育新闻以及算命等信息。 ( 3 ) 语音识别技术在玩具及礼品上的应用 将语音识别应用在玩具上,将使玩具具有互动性能,配合人工智能芯片以模仿人声 的电子狗和洋娃娃已经走上市场,该类玩具对儿童和成人都有很大的冲击,在世界各地 都十分畅销。 ( 4 ) 语音识别技术在家居自动化中上的应用 利用语音识别技术可以制造出内容丰富的自动化家居系统,其功能可以包括:身份 识别,各忘录功能,命令各区域,声音自动控制,语音合成提示等。这使得原来日常使 用的十分复杂的设备,用声音即可实现简单的控制。 ( 5 ) 语音识别技术在生物识别领域上的应用 语音技术在一系列生物识别技术如d n a ,虹膜,视网膜,指纹,面容,签名识别 中被认为是最有价值,最有市场潜力之技术。 ( 语音识别技术在持个人商务设备中上的应用 用户不断地要求所用的装置更小、更轻便同时又更易于使用,能同时解决这三方面 问题的最可行技术就是语音识别技术。这种技术由于清除了传统的输入器件,故具有更 小和更轻便的特点。 ( 7 ) 语音识别技术在自动控制领域上的应用 从市场的角度来看,存在这样的需求:当我们到一个陌生的客房时,完全不了解不 熟悉它的电器控制开关的位置、对应关系及特点,给我们的旅途带来诸多的不便,作为 宾馆服务方有责任提供更方便、更人性化的服务,运用语音识别技术即可实现宾馆客房 的人性化控制。 一2 一 大连理工大学硕士学位论文 1 3 语音识别集成电路的优势及发展现状 随着语音识别理论的不断发展,许多算法已经达到了实用的要求,语音识别集成电 路以其性能稳定,使用方便。价格便宜,容易嵌入便携式产品等优势取得了相当广阔的 发展空间。过去十几年里,许多国际公司致力于语音识别集成电路的发展并取得了长足 的进步,语音识别集成电路的发展主要经历了以下几个阶段: ( 1 ) 由多带通滤波器及线性匹配电路构成:这是在二十世纪8 0 年代初期的产品, 也是虽早期的语音识别专用集成电路。它是由一组带通滤波器组成特征提取电路,然后 用线性匹配电路进行模式匹配。这种类型的语音识别芯片识别率较低,现已很少使用。 ( 2 ) 由单片微控器( m c u ) 组成的语音识别专用i c :用8 位机或1 6 位的微控制器为 核心,外加a d 变换,d a 变换以及存储器组成。由于m c u 的运算能力有限,因而其 识别算法不可能太复杂,精度也比较低,故一般识别率不会太高。典型芯片是1 9 9 6 年 美国s e n s o r y 公司生产的r s c 一1 4 6 。 ( 3 ) 由数字信号处理器( d s p ) 组成的语音识别系统:一般由定点的1 6 位d s p 组 成,外加a d 变换、d a 变换,以及r o m 、r a m 、f l a s h 等存储器组成。由于d s p 包含用作数字信号处理运算的专用部件,因此运算能力强,精度高,适于组成较高性能 的语音识别系统。最常用的d s p 芯片有n 公司的t m s 3 2 0 c 5 4 x x 系列,a d 公司的 a d s p 2 1 8 x 系列,以及d s p g 公司开发的o a k 系列。用d s p 组成的语音识别系统可以 实现孤立词特定人和非特定人语音识别功能,其识别词条可以达到中等词汇量。此外, 还可以实现说话人识别以及高质量高压缩率语音编解码功能,因而同时可以产生高品质 的语音合成和语音回放功能,这是当前语音识别专用芯片的主流组成。 由人工神经网络构成的语音识别专用芯片:由于语音信号是一个时间区间动态 变化的信号,一般采用多层前向感知算法。但是,由于人工神经网络很难达到和语音信 号的最佳匹配,因此用人工神经网络实现的语音识别系统的识别性能还不很理想。而如 果采用时延单元神经网络,并且与其他方法配合,则可以实现较高性能的语音识别。例 如1 9 9 1 年g m r e s l a b 采用时延单元神经网络( t i m ed e l a y n e u r a ln e t w o r k ,t d n n ) 设计的 芯片实现了特定人英语数字串的识别,8 个数字串的识别率达到了9 8 以上。 ( 5 1 语音识别系统级芯片:将m c u 或d s p 、a d 、d a 、r a m 、r o m 以及预 放、功放等电路集成在一个芯片上,只要加上供电等单元就可以实现语音识别、语音合 成以及语音回放等功能。这是最近两年出现的最先进的语音识别芯片,其性能价格比较 高,功耗省。最有代表性的是s e n s o r y 公司的r s c 一3 6 4 及i n f i n e o n 公司的u n i s p e e c h - s d a 8 0 d 5 1 ,国内的产品有华录润声公司t s h 一8 和t s h - 1 6 芯片。 3 - 小词汇量非特定人孤立词语音识别f p a g 实现 i 4 市场上的语音识别芯片介绍 从2 0 世纪六七十年代以来,语音识别的研究人员一直致力于语音识别专用芯片的 研究,但是,大多数的语音识别专用芯片识别性能差,不具备实用的要求。直到最近十 几年以来,随着语音识别算法的深入研究和集成电路技术的发展,才出现了一些具有实 用价值和市场前景的语音识别专用芯片。其中,较为成功的几个芯片详细介绍如下: ( 1 ) r s c 一3 6 4 是由美国s e n s o r yi n t e g r a t e dc i r c u i t 公司开发,2 0 0 0 年开始生产,是 一款为消费类电子产品设计的低价位的语音识别专用芯片。r s c 一3 6 4 可以进行非特定人 语音识别,不需要经过训练就可以识别“y e s ”、n d 、“o k ”等简单语句,其说明书上 称其识别率为9 7 。此外,r s c 一3 6 4 可以识别特定人孤立词命令语句,约6 0 条左右, 其说明书上称其识另q 率为9 9 以上。 ( 2 ) u n i s p e e c h s d a 8 0 d 5 1 是由德国l n f m e o n 公司2 0 0 0 年开始生产的产品,它是 一颗高性能的语音识别专用芯片。u n i s p e e c h - s d a 8 0 d 5 1 的语音处理软件包括:利用 d t w 算法的特定人语音识别,能够识别1 0 0 条语句;利用h m m 算法的非特定人语音 识别,也可以识别1 0 0 条语句。 ( 3 ) t s h 8 和t s h 1 6 是华录润声公司和清华大学联合开发的两款语音识别芯片, t s h 8 是第一代,内嵌8 位微处理器,特定人词句可以识别3 0 - 4 0 条语音命令,非特定 人词句可以识别1 0 条语音命令。语音识别率达到9 7 以上。t s h 一1 6 是第二代,内嵌1 6 位微处理器,特定人词句可以识别1 5 0 条语音命令,非特定人词句可以识别1 0 0 条语音 命令。语音识别率达到9 7 以上。 上述的几种芯片便是目前市场上最为流行的几款语音识别芯片,这些芯片都属于第 五代语音识别芯片,通过内嵌的d s p 来实现语音识别算法,并集成外围各种资源,构 成完整的语音识别系统。 1 5 集成电路行业的发展与本文工作的意义 在人类步入信息化社会的过程中,微电子技术发展的速度十分惊人。从上个世纪中 叶到现在,在短短数十年的时间内,集成电路从诞生至0 渗透到人们生活的每一领域,在 改变了人们生活的同时改变了整个世爨。 集成电路设计过去一直是发达国家的专利,任何一种电子产品,从问世到普及,其 核心都是新型集成电路,集成电路制造商通过他们的芯片,将电子产品的大部分利润掌 握在自己的手中。近几年,随着综合国力的发展,我国政府正在努力促进集成电路行业 的发展,大大小小的设计公司如雨后春笋般出现,中国集成电路产业已经进入一个高速 d 大连理工大学硕士学位论文 成长期,2 0 0 0 年到2 0 0 4 年五年间,中国集成电路产业销售收入保持了年均3 0 n 上的 增长速度,是同期全球最高的。 在集成电路设计业的发展中,全国近4 0 0 家设计公司只有3 0 0 0 多名设计人员,显 然不成比例。中高级设计人员的紧缺是众多设计公司面临的一大难题,由于我国过去的 教育体系中没有集成电路设计专业,因此其他专业的学子怎样锲入集成电路行业是当今 的一个热门话题。 尽管语音芯片已经在市场上出现并获得了广泛的应用,但是当前所采用的结构一直 是以d s p 为核心。由于国内缺乏高性能d s p 的i p 产权,因此,这种设计的成本考虑到 购买i p 核的花费很难降下来。 本文旨在探讨一种全硬件电路实现的语音识别集成电路,这种设计第一可以降低成 本,第二可以运行更加复杂的算法,实现更高的识别率。另外,其中的一些关键单元可 以被软硬件协同实现 1 2 的集成电路所采用。 1 6 本文的主要工作 本位首先就当前流行的语音识别算法进行了研究和比较,在兼顾识别率的同时选择 了一种比较容易实现的基础算法。整个算法包括:基于能量特征的语音端点检测算法、 m e l 频标倒谱系数的计算、矢量量化、隐马尔可夫模型识别。根据算法的特点和市场上 对该产品功能的需求,对每一部分的结构都进行了详细的设计,其中基于能量特征的端 点检测算法被加以改进,可以实时动态实现:矢量量化的码本生成部分和隐含马尔可夫 模型的训练部分被设计成软件实现,在p c 上得到训练结果下载到硬件电路的r o m 中 直接使用。 本文的主要工作有以下几点: 1 仔细研究了语音识别算法理论基础,首先给出了整个算法的软件实现,并对程 序进行了定点化,程序的各个模块均留下了调试接口,调试接口的输出可以作为硬件调 试的基准。 2 给出了整个硬件系统的实现方案,系统方案综合考虑了f p g a 的l e 单元、 r a m 、r o m 、时钟和接口等资源,在速度、面积和调试的便捷性等方面进行了优化。 3 对于乘法器、流水线乘法器、浮点数乘法器、求对数、快速傅立叶变换和三角 形滤波器组等关键模块,本文都根据电路的具体特点,给出了完整的实现方案。 4 对于占用较多系统资源并被多个模块重复使用的乘法器和r a m 模块在上层模 块间进行了分时复用。 5 一 小词汇量非特定人孤立词语音识别f p a g 实现 5 ,完成了从软件实现到硬件实现的整个流程,给出了实际运行结果,并对后继工 作给出了许多有益的建议。 以上实现过程利用硬件描述语言v e r i l o g 编程,使用m o d e l s i m5 7 软件进行仿真, 使用q u a t u s i i3 0 综合并进行时间、面积分析,结果下载到a l t e r a - d s p b o a r d e p l $ 2 5 上实时运行。 6 大连理工大学硕士学位论文 第二章语音识别的基本算法 本文研究的是小词汇量非特定人孤立词语音识别,其基本算法包括以下几个阶段: 首先是端点检测,通过端点检测捕捉到数据中的语音信息,然后对语音信息进行分帧和 加窗处理,提取一种用于语音识别的基本识别参数,接着进行矢量量化,最后将量化得 到的脚标矢量送入识别模型进行识别。 2 1 端点检测 语音信号是一种典型的非平稳信号,但它又具有短时平稳性,所以一般对语音进行 分帧处理,认为在一帧内它是平稳的。语音信号最基本的组成单位是音素,音素可以分 成浊音和清音两类。两者有各自不同的特征,利用其中某些特征可以与噪音相区别。语 音端点检测算法有很多种,适用于语音识别、移动通信中的有音无音检测等不同场合。 各种算法的基本思想就是提取某种能够区分语音和噪声的语音特征参数,或对其加以变 换,得到对语音和噪声有明显差别的结果,从而找出二者的分界点。常用的语音特征有 能量特征、过零率特征、频率特征和自相关特征等【4 - 6 】。 2 1 1 短时能量检测法 短时能量检测法是根据有音段和无音段的能量不同进行端点检测的,算法如下: f 1 ) 背景噪声的检测: 先介绍一下短时能量的概念,短时能量定义为: 一】 岛= k 2 ( ”) ( 2 1 ) n = 0 其中n 为语音帧长,表示一帧内信号的能量值,h ( 抑) 是经过预处理后的加窗语 音。用式21 算出噪声各帧能量吲f ) 然后可以求出背景噪声能量均值q : 1l - 1 q = 岛( f ) ( 22 ) l i = 0 然后根据背景噪声动态决定各个门限: g j = ( 瓦。一q ) a , i 2 1 , 2 ,3 ,4( 2 3 ) 其中a ,是对不同门限的乘系数,一般取a l = 4 ;a 2 = 8 ;a 3 = 6 ;a 4 = 3 。四个门限中两个用于 起点判别,两个用于终点判别。 起点判别用均衡后的语音能量与能量门限g 1 相比,若大于它,则记此点为a 1 继 续向下找。如果在一定帧数内找到大于门限g 2 的语音能量帧并能保持若干帧到a 2 则 一7 小词汇量非特定人孤立词语音识别f p a g 实现 承认a 1 为起点,否则舍弃a 1 ,重新寻找。这么做的原因是为了对抗脉冲干扰,因为脉 冲干扰的特点是幅度大而持续时间较短,用这种方法可以防止把它误判为语音。 判定起点后,继续分帧计算语音能量,当语音能量降低到g 3 时,记此点为a 3 ,不 马上判为结束,继续寻找,当语音能量在一定帧内降到g 4 以下且保持若干帧时,才认 为a 3 是终点。这是因为人说话时中间会有小的停顿,如果语音一结束马上就给出说话 完毕的信号就会带来大量不必要的切换。图2 1 是利用短时能量进行端点检测的示意 图。 2 1 2 自相关检测法 图2 1 短时能量判别法 f i g 2 1s h o r t - t i m ee n e r g y b a s e e n d - d e t e c t i o n 图2 2 语音与噪声自相关比较 f i g 2 2c o r r e l a t i o n o f s p e e c h a n dn o i s e 一8 6 3 6 4 大连理工大学硕士学位论文 短时自相关函数r ( m ) 的定义是: 一1 一 r ) = x 。0 ) z 。0 + m ) ( 2 4 ) h = 0 嗓声的自相关函数除了在m = o 时刻外都很,j 、,而语音信号中浊音由于有比较明显 的周期性,所以其相关性高,除了主峰外还有较高的副峰。图2 2 中上面的是浊音的自 相关图形,下面是噪声的,可以看出二者有明显的区别。 因为直接用自相关函数不方便实现,所以采取求主副峰比r 的办法,丁定义为 7 】: t = r ( o ) 月( 2 5 ) r ( o ) 为主峰幅度,r ( p 为最近的副峰的幅度,人的基音频率在7 5 3 0 0 k ,在8 k 采 样率下当m 在2 5 1 0 8 范围时会有至少一个副峰,在这个范围里取最近的副峰来求主 副峰比。当主副峰比很大时认为是噪声,较小的是语音。计算过程如下: ( 1 ) 根据背景噪声计算主副峰比门限死,求出各帧噪声的r ,然后求其均值砀, 砀= ( l 。一l 曲b ,( 2 6 ) 其中b 是乘系数,一般取b = 3 。 犯) 依次计算后面各帧的主副峰比,若连续3 帧的主副峰比大于门限,则认为其中 第一帧是语音的起始点。 2 1 3 过零率检测法 短时过零率z c r 的定义: 1n - i z c r = 妻is i g n x ( n ) 一s i g n x 。( 一1 ) 】l ( 2 7 ) 二n = l 其中s i g n 是符号函数,z c r 用于判别清音。清音的特点是幅度比较小,甚至接近背景 噪声,用短时能量比较难分辨。但清音的过零率很高,可以作为区分噪声的依据。过零 率判决的过程是【8 : ( i ) 根据背景噪声,确定过零率门限z c r g : z c r g = m i n ( 2 5 , z c r q + 2 ( 7z c r )( 2 8 ) 其中z c r g 是背景噪声z c r 均值, 口z c r 是背景噪声z c r 的标准差。 ( 2 ) 在用前两种方法方法找到语音起点后,再计算起点之前几帧的过零率,把求得 的结果与z c r g 比较,连续3 帧都大于z c r g 则认为其中第一帧是语音起点。因为汉语 有些音节的开头是清音,单用前两种方法检测可能会漏掉,造成剪音,而用过零率则可 以检测出这些清音。 - 9 小词汇量非特定人孤立词语音识别f p a g 实现 21 4 基于能量的检测方法的改进 综合考虑上述几种方法的效果和实现的难以程度,本文决定选择使用能量特征进行 端点检测,检测到的端点精确到帧的量级,常用的能量方法进行端点检测只适用于非实 时处理9 ,其原理如下: 由于录音数据最初的短时段为无语音段,可以用已知为“静态”的最初几帧信号计 算其低能阈值t l 和高能闽值盯u 。具体方法是先算出最初1 0 帧信号每帧的平均幅值 m ,最大者记为1 m x , 最小者记为i m n 。然后令: 1 1 20 0 3 ( i m x 一删+ m n ( 2 9 ) 1 2 24 i m n ( 2 1 0 ) 最后按下式计算出i t l 和仉,: 1 t l2r a i n 叫,1 2 ) ( 2 1 1 ) 仃u25 t l ( 2 1 2 ) 接下来从第li 帧开始,逐次比较每帧的平均幅度,平均幅度超过t l 的第一帧的 帧号记为m ,若后续帧的平均幅度在尚未超过盯u 之前又降到肌之下,则原m 不作 为初始起点,改记下一个平均幅度超过了t l 的帧的帧号为1 ,依此类推,在找到第 一个平均幅度超过玎u 的帧时停止比较。所得到的1 即为语音信息的起始点,终止点 的检测与起始点检测方法相同,只是从录音数据的尾部开始往前检测,得到帧号n 2 即 为语音信息终止点。 此方法的终止点检测不适合于实时实现,本文对其进行了改进,令: a v e r = ( m + ,彤) 2 “p( 2 1 3 ) 在使用如上的方法求得m 之后,继续正向搜索,如果连续两帧数据的平均幅度小 于疗u ,并且在后续帧的平均幅度在尚未恢复到口u 之前降到a v e r 之下,则记录平均 幅度降到a v e r 之下的第一帧帧号为a 忍,此后如果连续( 可取= 5 ) 帧数据的平均幅 度小于,丁u ,则帧号n 2 即为语音信息终止点。此方法适合于在集成电路中用状态机实 现,并且可以得至较好的检测效果,适当修改p 的值,可以适用于背景噪声不同的场 合。 2 _ 2 特征提取 在语音识别系统中,模拟的语音信号在完成a i d 转换后成为数字信号,此时的 语音信号为时域的信号,时域的信号难于进行分析和处理,而且数据量庞大,通常 的做法是对时域信号进行变换,提取其中某种特定的参数,通过一些更能反映语音 本质特征的参数来进行语音识别。 1 0 大连理工大学硕士学位论文 特征提取是识别过程中一个非常重要的环节,选取的特征直接影响到识别结果。不 同的特征对不同语音的敏感度也不一样,优秀的语音特征应该对不同字音距离较大,而 相同字音距离较小。若以前者距离与后者距离之比为优化准则,则该值越大,语音特征 越优秀。另外,特征的数目也是一个值得商榷的问题。特征数应该尽量减少,以减少计 算量,但过少的特征无法恰当描述原始语音,会使得识别率下降。 语音特征提取方法是整个语音识别的基础,因此受到广泛的重视 1 0 1 2 。经过几十 年的发展,目前的语音特征提取方法主要分为三类: ( 1 ) 基于线性预测分析的提取方法。这一类的典型代表是线性预测倒谱系数 l p c c 。 ( 2 ) 基于频谱分析的提取方法。这一类的典型代表是m e l 频标倒谱系数m f c c 。 ( 3 ) 基于其它数字信号处理技术的特征分析方法。如小波分析 1 3 1 4 】、时频分析 2 0 、人工神经网络分析 1 6 等。 目前的语音识别系统大多采用前两种语音特征提取方法 1 7 ,本文选用m e l 频 标倒谱系数m f c c ,在此详细介绍。 m e l 频标倒谱系数 2 1 2 2 ( m e lf r e q u e n c yc e p s m a mc o e f f i c i e n t ,m f c c ) 的特点是先 将频谱转化为基于m e l 频标的非线性频谱,然后转换到倒谱域上。由于充分模拟了人的 听觉特性,而且没有任何前提假设,m f c c 参数具有识别性能高和抗噪能力强等特点。 m f c c 的提出基于下列两点事实 2 8 】:首先,人类对单个音调的感知强度近似地正 比于该音调频率的对数。m e l 频率表达了这种语音频率与“感知频率”间的对应关系。 在m e l 频率域内,人对音调的感知度为线性关系。举例来说,如果两段语音的m e l 频 率相差两倍,则人耳听起来两者的音调也相差两倍, m e l 频率与线性频率的转换公式为: f m , ,= 2 5 9 5 l o g l o ( 1 + f 7 0 0 ) ( 2 1 4 ) 其次,人类并不能有效的分辨所有的频率分量。只有当两个频率分量相差一定带宽 时,人类才能将其区分。这个带宽被称为临界带宽( c r i t i c a lb a n d w i d t h ) ,其计算公式如 下【1 : b 睨= 2 5 + 7 5 1 1 + 1 4 ( 正l o o o ) 2 0 6 9( 2 1 5 ) 其中f 为中心频率。 根据上述两点便可以构造i 右界频带滤波器组( c r i t i c a lb a n df i l t e rb a n k ) 来模仿人耳的 感知特性。这组滤波器的中心频率在m e l 频率域内呈线性分布,其带宽在临界带宽之 内。表2 】便是一组典型的临界频带滤波器参数【2 4 。 小词汇量非特定人孤立词语音识别f p a g 实现 表2 1 临界频带滤波器组参数表 t a b l e2 1c r i t i c a lb a n df i l t e rb a n kc o e 仿c i e n tt a b l e 中心频带宽中心频带宽 序号序号 率( h z )( h z )率( h z )( y j z ) 1l o ol o o1 11 1 4 91 6 0 22 0 01 0 01 21 3 2 01 8 4 33 0 01 0 01 31 5 1 62 “ 4 4 0 0l o o1 41 7 4 l2 4 2 55 0 01 0 01 52 0 0 02 7 8 66 0 01 0 01 62 2 9 73 2 0 77 0 0l o o1 72 6 3 9 3 6 7 88 0 01 0 01 83 0 3 14 2 2 99 0 0 1 0 01 93 4 8 24 8 4 1 01 0 0 0 1 0 02 04 0 0 05 5 6 m f c c 参数的求取过程,就是将原始信号通过一组临界频带滤波器组,然后转换到 倒谱域的过程,其流程为 2 4 】: ( 1 ) 对输入语音帧加汉明窗后作f f t ,将时域信号转化为频域信号。 ( 2 ) 将线性频标转化为m e l 频标。转化方法是将频域信号通过2 0 个三角滤波 器,其中心频率和带宽由表2 。1 给出。三角滤波器的输出为: f = 喜器丘+ 鬈糕五一,z 。 旧 其中爿。为频谱上第k 个频谱点的能量,z 为第f 个滤波器的输出,f 为第i 个滤波器 的中心频率。 ( 3 1 用离散余弦变换将滤波器输出变换到倒谱域: = l o g ( ) c o s 附一寺) 熹】,k = 1 ,2 ,一,p ( 21 7 ) 其中p 为m f c c 参数的阶数。 q ) 。工,即为所求的m f c c 参数。 2 3 矢量量化 9 攫4 l 2 6 ( v e c t o rq u a n t i z a t i o n ,v q ) 是一种重要的信号压缩方法,广泛应用于图 像信号压缩、语音信号压缩等领域。在语音信号数字处理的许多重要研究课题中,特别 是低速语音编译码器和语音识别的研究中,v q 都起着非常重要的作用。 1 2 大连理工大学硕士学位论文 在语音识别中,v q 也是一种重要的压缩和识别方法,如果采用隐含马尔可夫模型 进行语音识别,则v q 更是必须的,对小词汇量的语音识别系统而言,一般都要求系统 能够实时实现,而实时系统的资源相当有限。采用v q 技术对减少存储量、减轻系统负 荷大有裨益。 v q 是将若干个幅度连续取值的时域采样信号分成一组,即构成矢量,然后用若干 离散的数字值( 称为标号) 来表示各种矢量。一个v q 编码器( 或译码器) 往往拥有一个或 多个由具有代表意义的矢量组成的集合,称为“码本”,其中每个矢量称为“码矢 量”,或称为“码字”。v q 编码器将输入矢量与码本对照,寻找与输入矢量最接近的 码字,用码字的标号代替输入矢量,这就完成了v q 编码的任务。v q 译码器端只需将 标号对应的码字输出即可。这个输出矢量并非编码器端的输入矢量,而是与输入矢量不 同的码字,因此,v q 会带来一定的量化误差。 v q 的关键技术包括码本设计和搜索策略两方面,下面咀本文识别系统将使用到的 v q 技术为基础分别介绍。 2 3 1 码本设计 v q 码本直接关系到v q 的量化质量。好的码本所形成的v q 系统的量化误差较 小,从而具有较高的质量。 目前生成码本最基本也是最常用的算法是l b g 算法1 2 7 2 8 。下面给出以欧氏距离 计算两个矢量之间的畸变时,l b g 算法的框架: ( 1 ) 存储形成v q 码本所需全部输入矢量的集合s 。 设置迭代算法的最大迭代次数上。 ( 3 ) 设置畸变改进阈值占。 ( 4 ) 设置m 个初始码字巧o ,霉,端。 ( 5 ) 设置畸变初值d ( o ) = o o 。 ( 6 ) 设置迭代初值m = l 。 ( 7 ) 根据最近邻准则,将s 分成m 个子集哥,鼋”,踮。即当x g 州时,下 式成立: a ( x ,x ”1 ) s a ( x ,z 1 1 ) ,v i ,i z ( 2 1 8 ) 其中c t ( x ,y ) 表示z 和l ,的欧氏距离。这种划分方法称为最近邻划分。 ( 8 ) 计算总畸变d ( “: 1 3 小词汇量非特定人孤立词语音识别f p a g 实现 d 汩1 ;d ( x ,矿。1 ) ,= l e 剐m ( 9 ) 计算畸变改进量d ( “的相对值占( “) : 舵筹= 唑茅 ( 1o ) 计算新码字x ,巧,班1 : ( 2 1 9 ) f 2 ,2 0 ) = y 肖( 2 2 1 ) 川。x 冬r ( 1 1 ) 分”( 占1 | m l ? 若回答为是,输出野,瑶,搿,并且输出总畸变 d 枷) ;若回答为否,聊= m + 1 ,转入f 7 ) 执行。 上述l b g 算法中,有两个阈值j 和三。占需要设得远小于1 ,以保证最后码本足够 稳定。但在实际运算中,在码本的收敛过程中有可能发生振荡而使得相对畸变改进量达 不到阈值,因此必须设另一个阈值上,以保证算法在有限步内结束。 初始码字的选择也是码本设计中一个重要问题。l b g 算法是一个使总畸变单调下 降的算法。一个v q 系统的总畸变是它的m 个码字决定的状态空间点的函数。大部分 情况下,这个函数往往都不是凸函数,因此l b g 算法仅仅只能收敛到某个局部最优点 上,而收敛不到全局最优点上。具体收敛到哪一个局部最优点,就由m 个初始码字决 定。 初始码字的选择有很多种方法。最简单的是随机选取,但是这种方法的效果并不 好,因为这些被选中的码字在集合中的分布可能很不均匀,偶然性很大。一般采取的方 法是分裂法。其基本步骤为:第一步先求得s 中全体的质一l , x ,然后在s 中找一个 与此质心畸变最大的矢量肖。,以此两个矢量,和x 。为基准作最近邻划分,形成两个 子集。然后对着两个子集分别按同样的方法处理就可以得到四个子集。以此类推,经过 曰次分裂后,便可以得到m = 2 8 个子集,这m 个子集的质心便是初始码字。 码本的容量是码本设计中另一个值得注意的问题。码本的容量过小,码本无法描述 整个矢量空间;而码本容量太大时,存储量和搜索所需的计算量都过大。因此这是个 值得研究的问题。实验结果表明 2 0 】【2 1 ,当码本容量小于6 4 时,随着容量的增加正确 识别率明显提高,而从6 4 增至2 5 6 时,正确识别率仍有提高但速度较低。当容量大于 2 5 6 时,提高就不明显了,所以目前常用的码本容量值取为6 4 、1 2 8 或2 5 6 ,本文选择 1 2 8 。 ,1 4 大连理工大学硕士学位论文 2 3 2 码本搜索 当一个待量化矢量输入v q 编码器时,v q 编码器需要从码本中搜索出与输入矢量 最接近的码字。如何决速而准确的找到这个码字,就是研究搜索策略的意义所在。 最简单的方法是比较所有码字和输入矢量的距离,距离最小的便是目标码字,这种 搜索方法称为“全搜索”,这种方法流程简单,但是当码本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论