




已阅读5页,还剩53页未读, 继续免费阅读
(通信与信息系统专业论文)语音识别算法的vlsi实现研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域 中有着广泛的应用。语音识别技术的应用可以分为两个发展方向:一是基于计算机平台 的大词汇量连续语音识别系统;另外一个重要的发展方向是硬件实现语音识别算法的研 究,特别是用专用集成电路芯片实现。这个方向主要是小型化、便携式语音产品的应用。 从目前的研究情况来看,国内在专用语音识别芯片的应用上有一定的进展。但是对 专用语音识别芯片的研究还比较少。本文主要研究孤立词识别系统中语音识别算法的电 路实现。模板匹配是语音识别过程中计算量最大的一个环节,对语音识别算法硬件实现 有关键性的影响。由于d t w 算法既简单又有效,对于小词汇量孤立词识别,其性能与 h m m 算法几乎等同,因此本文选择d t w 算法作为电路实现对象。 本文主要对d t w 算法的电路实现方法进行了研究,主要工作包括以下几方面: ( 1 ) 用m a t l a b 对d t w 算法进行浮点和定点建模,在此基础上建立了多个测试、 仿真平台,对大量语音模板特征进行分析统计,从而确定了d t w 算法的定点表示参数。 ( 2 ) 通过分析d t w 算法的特点,挖掘出其中的并行性和流水性,设计出一种适合 d t w 算法实现的心动阵列,并对该心动阵列进行v h d l 建模。 ( 3 ) 把设计好的d t w 硬件模型用s y n o p s y s 公司的d e s i g n c o m p i l e r 进行综合( 使 用的工艺库为无锡华晶上华的0 6 u m 单元库) ,综合后用c a d e n c e 公司的n c s i m 对 硬件模块进行仿真。 ( 4 ) 设计了m a t l a b 和硬件描述语言仿真环境之间的p l i ( p r o g r a m m i n gl a n g u a g e i n t e r f a c e ) ,用于产生测试平台( t e s t b e n c h ) 和检验仿真波形的正确性。 关键词:语音识别;d t w ;心动阵列;v h d l 华南理工大学硕士学位论文 a bs t r a c t i nr e c e n t2 0 3 0 y o a r s ,w o r dr e c o g n i t i o n i s w i d e l y u s e di n c o m p u t e r , i n f o r m a t i o n p r o c e s s i n g ,c o m m u n i c a t i o na n d e l e c t r o n i cs y s t e m ,a u t o m a t i c a l l yc o n t r o le t c t h ea p p l i c a t i o n o fw o r dr e c o g n i t i o nc a nb ed i v i d e di n t ot w oa r e a s t h eo h ei sl a r g ev o c a b u l a r yc o n t i n u o u s w o r dr e c o g n i t i o ns t u d yb a s e do nc o m p u t e r a n o t h e ri m p o r t a n ts t u d ya r e ai sw o r d r e c o g n i t i o n i m p l e m e n t a t i o nb a s e do nh a r d w a r e ,t h i sd i r e c t i o n i s m a i n l ya p p l i c a t i o no ft h em i n i a t u r i z e d , p o r t a b l ep r o d u c t s n o wo u r c o u n t r yh a sg o ta c e r t a i np r o g r e s sw i t ht h ea p p l i c a t i o no fw o r d r e c o g n i t i o ni c b u tt h e r ei sn o te n o u g hi n s t u d yo fh a r d w a r ei m p l e m e n t a t i o no fw o r dr e c o g n i t i o n i nt h i s p a p e r , m a j o r e f f o r th a sb e e nf o c u s e do nh a r d w a r e i m p l e m e n t a t i o n o fi s o l a t e dw o r d r e c o g n i t i o n t h ed t wa l g o r i t h m a l m o s th a st h es a m ep e r f o r m a n c ew i t hh m m i ns m a l l v o c a b u l a r yi s o l a t e dw o r dr e c o g n i t i o n ,b u ti t i s s i m p l e rt h a nh m m s ow ef o c u s e do nt h e i m p l e m e n t a t i o no fd t wa l g o r i t h m i nt h i sp a p e r i nt h i s p a p e r ,m a j o re f f o r t h a sb e e nf o c u s e do nh a r d w a r ei m p l e m e n t a t i o no fd t w a l g o r i t h m f o l l o w i n g i st h em a i nc o n t e n t s : ( 1 ) w e b u i l df l o a tp o i n ta n df i xp o i n tm o d u l e sf o rd t w a l g o r i t h ma n d t h e i rt e s tb e n c h e s f o rs i m u l a t i o nu s i n gm a t l a b b ya n a l y z i n gt h es i m u l a t i o nr e s u l t ,w eg o tt h er i g h t p a r a m e t e r so f t h ef i xp o i n td t wm o d u l e ( 2 ) a c c o r d i n gt h ep a r a l l e la n dp i p e l i n eo fd t w , w ed e s i g n e das y s t o l i ca r r a yf o rd t w a n dr e a l i z e dt h es y s t o l i ca r r a yi nv h d l ( 3 ) b yd e s i g nc o m p i l e ro fs y n o p s y sc o r p o r a t i o nw eg o tt h en e t l i s to fd t w v h d l m o d e l ,a n dw i t hn c s i mo fc a d e n c ec o r p o r a t i o nw ef i n i s h e ds i m u l a t i o no fi t ( 4 ) w ed e s i g n e dap r o g r a m m i n gl a n g u a g ei n t e r f a c eb e t w e e nm a t l a ba n dh a r d w a r e s i m u l a t i o ne n v i r o n m e n tf o rg e n e r a t i n gt e s tb e n c h e sa n d v e r i f y i n gs i m u l a t i o nw a v e f o r m s k e yw o r d :w o r dr e c o g n i t i o n ;d t w ;s y s t o l i ca r r a y ;v h d l 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进 行研究所取得的研究成果。除了文中特别加以标注引用的内容 外,本论文不包含任何其他个人或集体已经发表或撰写的成果作 品。对本文的研究做出重要贡献的个人和集体,均已在文中以明 确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名:孪搦日期:。毋宁年6 月,乒日 学位论文版权使用授权书 本学位论文作者完全r 解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权华南理工大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密曰。 ( 请在以上相应方框内打“”) 作者签名:咚扬 导师签名: 玄稚 日期:矿一哗f 月t q - 日 e t 期: 2 0 0 c | 拜彭月i 够日 第一章绪论 第一章绪论 通过语音传递信息是人类最常用和最方便的交换信息的形式,是人类互相传递信息 最主要的手段【2 】。现在人类已经进入信息化时代,随着语音信号处理技术在日常生活中 的应用日趋广泛,各行各业对语音信号处理的需求也越来越大。另一方面,用现代化 手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信息,对于 促进信息化社会的发展具有十分重要的意义。语音信号处理简称为语音处理,是以语音 学和数字信号处理为基础而形成的一个综合性学科,包括语音识别、语音合成、语音编 码和说话人识别等四大分支,自动语种辨识也可以归并到说话人识别之中。语音识别是 语音信号处理的一个重要研究方向,它以语音为研究对象,是模式识别的一个分支,涉 及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人 的体态语言( 如人在说话时的表情、手势等行为动作可帮助对方理解) ,其最终目标是实 现人与机器进行自然语言通信。 1 1 语音识别的发展历史及现状 语音识别属于多维模式识别和智能计算机接口的范畴,其研究的根本目的是研究出 种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反应 3 。 事实上,让“机器”听懂人的语言一直是人类长期追求的理想,有着广泛的应用需 求。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算 机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今,语音识别 产品在人机交互应用中,已经占到越来越大的比例。例如,语音打字机的出现给办公自 动化带来革命性的变化;语音数据库检索免除了操作人员对庞大数据库繁杂检索和查询 的重复劳动,使用户通过语音直接向数据库检索或查询,既经济又方便;在特定环境下, 语音识别可以将操作者的双手解放出来,如汽车、飞机驾驶员在高速行驶中进行电话拨 号,失明者操作计算机等。 但是,在使计算机“听懂”人的语言的研究过程中面临着诸多困难:语音信号的 声学特征随其前后与之相连的语音不同而产生很大的变异,且连续语流中各语音单位之 华南理 _ 大学硕+ 学位论文 间不存在明显的边界;语音特征会随发音人的不同、发音人心理或生理状态的变化而 产生很大的差异;传声设备的差异及环境噪声干扰也将直接影响语音特征的准确提 取;一个语句所表达的意思,是与上下文内容,说话时的环境条件以及文化背景等因 素有关的,而语句的语法结构又是多变化的,并且语境信息点几乎是计算机自动语音识 别无法利用的,所有这些都给语意的理解带来很大的困难。证因如此,目前的语音识别 技术研究水平还远远不能达到使计算机与人类之问能够自然交流的这个终极目标,因而 吸引着众多学者致力于语音识别领域的研究。 语音识别的研究工作大约开始于2 0 世纪5 0 年代,b e l l 实验室的d a v i d 等人利用带 通滤波器进行语音频谱的分析和匹配,并成功研制出第一个可识别十个英文数字的语音 识别系统a u d r y 系统,其识别率达到9 8 。这是语音识别研究工作的真正开端。 2 0 世纪6 0 年代末至7 0 年代末主要是孤立字语音识别研究时期。7 0 年代初出现的 线性预测( l i n e a rp r e d i c t i o n ,l p ) 技术和动态时间归正算法( d y n a m i ct i m ew a r p i n g , d t w ) 被成功引入到语音信号处理中,有效地解决了语音的特征提取和不定长匹配地动 态时间对准问题。 2 0 世纪8 0 年代的研究重点足连接词语音识别,用于连接词识别的分层构筑技术 ( 1 e v e lb u i l d i n g ) 得到发展,另一方面,语音识别算法从模板匹配技术发展到基于统计 模型的技术。期间,隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 、矢量量化技术 ( v e c t o rq u a n t i z a t i o n ,v q ) 和人工神经网络( a n n ) 等相继出现并应用在语音识别领 域,使语音处理技术产生突破性进展。 进入9 0 年代,语音信号处理在实用化方面取得了许多实质性的研究进展。其中, 语音识别逐渐由实验室走向实用化。而以i b m 公司、a t & t 公司【9 、美国卡内基一梅 隆大学 1 0 】、英国剑桥大学 1 1 等为代表的研究机构目前则f 致力于开发具有英语非特 定人、大词汇量、连续语音识别功能的实用产品,而且已经取得了相当喜人的成果。其 中1 9 9 7 年i b m 公司推出的v i av o i c e 非特定人连续语音识别系统已经成功推向市场,并 获得了广泛的好评。同时,剑桥大学和菲浦公司还正在研究英语语音识别算法在其它欧 洲语种中应用的可能性及效果 1 2 】。虽然我国语音识别研究的起步比先进国家晚,但是 进步很快,成果突出 1 4 】【2 2 。1 9 8 8 年清华大学、中国科学院联合研制出无限词汇的汉 语听写机开创了中国语音识别领域的里程碑,虽然该时期的汉语听写机是基于特定人孤 立音节识别技术。 语音识别技术在移动通信、电脑话务员、电话证券交易等领域有着极大的应用价值, 2 第一章绪论 因此受到了国内科研单位广泛重视。 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系 统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务 系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是硬件实现语音 识别算法的研究。使语音识别算法能在集成电路芯片上实现。这个方向主要是小型化、 便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电 遥控等方面的应用。 1 2 语音识别专用芯片研究现状 语音识别作为一项人机交互高新技术,正在各个领域得到推广和应用,从2 0 世纪 六七十年代以来,语音识别的研究人员一直致力于语音识别专用芯片的研究。语音拨号 器是利用语音作为输入进行拨号的装置,使用者只要说出被呼叫人的姓名或单位名称, 语音拨号器就能利用语音识别技术找到相应的电话号码显示给用户或直接进行拨号。将 语音识别技术与拨号技术有机结合起来,以便用声音去控制拨号,可以提高电话系统的 智能化程度和工作效率,提高电话机的人性化成分。 语音拨号器具有广泛的应用前景,它可应用于无绳电话、语音声控拨号电话机、手 持式语音电子电话号码薄以及其他声控消费类电子产品。 语音拨号器的研制已经有十多年的历史了,许多公司、研发机构、大专院校都在进 行这方面的研究。 在特拉维夫1 9 9 7 年电信产品展览会上,摩托罗拉以色列分公司就推出了一种语音 拨号装置,引起了人们很大的兴趣。使用该装置后,人们在驾驶汽车时打电话手就不必 离开方向盘,从而减少了造成交通事故的危险。美国s e n s o r y 公司1 9 9 9 年开发出了电话 机用声音识别l s i ( l a r g es c a l e i n t e g r a t i o no f c i r c u i t ) v o i c e d i f f e r 。该l s i 安装于电 话机内部,可借助使用者声音来完成拨号。通过学习某个特定说话人的声音,该l s i 最 多能识别6 0 个人的名字( 单词) ,识别率达9 8 。根据识别出的声音确定相应的通话方 电话号码,生成并输出d t m f ( 双音多频) 信号。内藏运算能力为4 m i p s 的8 b i t 微控 制器、分辨率为1 2 b i t 的a d 变换器、分辨率为l o b i t 的d a 变换器和6 4 k 字节的r o m ( 存储有约1 0 k 字节的声音识别软件) 。学会单词的数据存储于外加的快闪e e p r o m 中。 国内在语音拨号器的研究方面也有一定的进展。清华大学电子工程系采用m c u + 3 华南理工大学硕士学位论文 d s p 的方案设计高性能语音拨号器,系统框图如1 1 所示。系统可存储2 0 0 个用户词 条;8 0 0 个电话号码;支持语音查询方式;具有方便的编辑功能;具有双音多频拨号功 能,使用普通电话便可实现自动拨号 1 9 。 一一一一一一一一一二一一- 一一- -) lj f 。 蠢骂 镌黪 壤露 图1 1 清华大学语音拨号器系统硬件方框图 f i g u r e1 - 1v o i c e d i a l e rs y s t e md i a g r a mo f s m t h 广东佛山东宝电器有限公司则采用了m c u + 专用语音识别芯片的构建设计出实用 的语音拨号电话。其中语音识别芯片使用了美国s e n s o r y 公司的r s c 一1 6 4 芯片。r s c 负责语音识别算法的实现,m c u 对r s c 进行控制,提供键盘、话筒、喇叭等外围设备 和r s c 的接口。结构框图如图1 2 所示1 2 0 1 。 话简 喇叭 图l 一2 佛山东宝语音拨号电话结构框图 f i g u r e1 - 2v o i c ed i a l e rt e l e p h o n es t r u c t u r eo fd o n g b a o ,f o s h a n 从目前的研究情况来看,国内在专用语音识别芯片的应用上有一定的进展。语音拨 号器的研制基本上是基于m c u + 语音识别模块的构架。语音识别模块或是选取d s p 配 合算法实现,或是选取专用的语音识别芯片实现,但是对专用语音拨号芯片的研究比较 ! 。 4 第一章绪论 如果将控制和算法模块,甚至a d 、d a 及存储器模块集成在一块芯片上面,将能 大大地减小语音拨号电路的尺寸,若芯片量产很大,其成本也将极大地降低。使用专用 语音拨号芯片设计语音声控拨号电话机、手持式语音电子电话号码薄以及其他声控消费 类电子产品在产品体积和价格上都有很大的优势。另一方面,研制专用语音拨号芯片还 可以形成具有自主知识产权的i p 核,若以软核的形式存在,将会有更大的灵活性和适 应性,甚至可以将其作为一个模块构建功能更为强大的芯片。 1 3 课题来源及主要工作 本项目为广东省工业攻关项目( 项目编号:2 0 0 3 1 3 1 2 5 0 1 ) 中的研究内容,该项目 的目标是研制一个语音拨号专用芯片,要求响应时间小于3 0 毫秒。图1 3 中虚线部分 为目标芯片。 m i c 一! 。叫竺h l 厂面h 。j 匪 一1 圈半恒 ; ! 囤h 一 图1 - - 3 语晋拨号芯片应用电路 f i g u r e1 - 3a p p l i c a t i o no f v o i c ed i a l e r a s i c 由于语音识别算法运算量比较大,因此语音拨号专用芯片的设计关键在于语音识别 算法的硬件实现,本论文为语音拨号专用芯片设计的一部分,主要工作是在分析语音识 别算法的基础上对语音识别算法的硬件实现结构进行研究并加以实现,即图1 3 中阴 影部分。 论文从算法的技术复杂度及其识别效果考虑,选用了d t w ( d y n a m i c t i m e w a r p i n g ) 5 华南理工大学硕士学位论文 算法作为语音识别算法。 首先,利用m a t l a b 对d t w 算法进行浮点模型和定点模型的建模,通过对大量语音 特征数据进行统计分析,从而确定定点化的参数。 其次,通过分析d t w 算法的特点,挖掘出其中的并行性和流水性,设计出一种适 合实现d t w 算法的心动阵列 2 3 。 第三,对实现d t w 并行算法的心动阵列进行v h d l 建模。 最后,把设计好的d t w 硬件模型用s y n o p s y s 公司的d e s i g nc o m p i l e r 进行综合( 使 用的工艺库为无锡华晶上华的o 6 u m 单元库) ,综合后用c a d e n c e 公司的n c - - s i m 对 硬件模块进行仿真。仿真采用的数据为真实的语音数据,考虑到语音识别过程比较复杂, 输入的语音特征和中间计算产生的数据量比较大,数据输入和检查输出结果都非常困 难,设计了m a t l a b 和硬件描述语言仿真环境之间的p l i ( p r o g r a m m i n gl a n g u a g e i n t e r f a c e , 程序语言接口) 。通过m a t l a b 产生用于仿真的测试平台( t e s t b e n c h ) ,仿真后把仿真结 果取回,在m a t l a b 中对仿真波形进行分析,检验设计的正确性。 1 4 章节安排 全文分6 章,第一章绪论介绍了论文研究背景及论文的主要工作;第二章介绍了语 音识别的基本原理:第三章主要介绍本文的依托项目的系统结构及其方案;第四章基于 m a t l a b 对d t w 算法的浮点和定点模型进行建模,并通过对大量数据的仿真和统计确定 了d t w 定点模型的参数;第五章主要对d t w 算法进行硬件实现设计,首先对d t w 算 法进行并行性和流水性分析,设计出一个适合d t w 实现的心动阵列,然后对该心动阵 列用v h d l 建模,并通过仿真验证其正确性;第六章为小结。 6 第二章语音识别基本原理 2 1 语音识别系统 第二章语音识别基本原理 2 1 1 语音识别系统基本结构 语音识别系统本质上是一种模式识别系统,其基本结构原理框图如图2 一l 所示, 主要包括语音信号预处理、特征提取、特征建模( 建立参考模式库) 、相似性度量( 模 式匹配) 和后处理等几个功能模块,其中后处理模块为可选部分。 输 一:识别结果 后处理,广 一, 图2 一l 语音识别基本原理框图 f i g u r e 2 - 1w o r d r e c o g n i t i o nf u n d a m e n t a l 一个语音识别系统主要包括训练和识别两个阶段。无论是训练还是识别,都需要首 先对输入的原始语音进行预处理,并进行特征提取。下面具体说明各个模块的功能。 预处理模块,对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背 景噪声等,并进行语音信号的端点检测,即判定语音有效范围的开始和结束位置,并进 行语音分帧以及预加重等处理工作。 特征提取模块负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号 特征的关键特征参数,以降低维数并便于后续处理。语音识别系统常用的特征参数有幅 度、能量、过零率、线性预测系数( l p c ) 、l p c 倒谱系数( l p c c ) 、线谱对参数( l s p ) 、 短时频谱、共振峰频率、反映人耳听觉特征的m e l 频率倒谱系数( m f c c ) 等。特征的 选择和提取是系统构建的关键。 在训练阶段,用户输入若干次训练语音,系统经过上述预处理和特征提取后得到特 征矢量参数( 序列) ,然后通过特征建模模块建立训练语音的参考模式库( 可能为参考 7 华南理1 二大学硕士学位论文 模板或者模型等) ,或者对已在模式库中的参考模式作适应性修改。 在识别阶段,将输入语音的特征矢量参数( 序列) 和参考模式库中的模式进行相似 性度量比较,将相似度最高的模式所属的类别作为识别的中间候选结果输出。 而后处理模块则对上述得到的候选识别结果继续处理,通过更多的知识( 比如:语 言学的语言模型、词法、句法和语义信息等) 的约束,得到最终的识别结果。 2 1 2 语音识别系统的分类 从不同的角度和要求出发,语音识别有不同的分类方法。 按照词汇表大小分 每个语音识别系统都具有一个词汇表( v o c a b u l a r y ) ,系统只能识别词汇表中所包含 的词条。按照词汇表中包含的词汇量的多少柬分,有小词汇表( 词汇量小于1 0 0 ) 、 中词汇表( 词汇量在1 0 0 和1 0 0 0 之间) 、大词汇表( 1 0 0 0 词以上) 语音识别。 按照说话人的限定范围分 有特定人识别和非特定人识别两种方式。所谓特定人识别是指识别系统只针对特征 的某个用户进行识别工作的方式;而非特定人识别则是指识别系统可以针对任何人 工作。 按照发音方式分 按照语音的发音方式来分,可以分为孤立词识别、连接词识别、连续语音识别。所 谓孤立词识别( i s o l a t e dw o r dr e c o g n i t i o n ,i w r ) 是指在发待识别语音时,每次只 包含词汇表中的一个词条,比如一个字( 词) 、一个词组或者一条命令。连接词识 别( c o n n e c t e d w o r d r e c o g n i t i o n ,c w r ) 每次说词汇表中的若干个词条来进行识别, 该若干词条以慢速连续的方式连续说出,一般指o 9 十个数字连接而成的多位数 字的识别,并包含其他一些少量的操作指令等。连续语音识别( c o n t i n u o u ss p e e c h r e c o g n i t i o n ,c s r ) 指说话人以日常自然的方式讲述并进行识别。 本文研究的重点就是孤立词语音识别系统。孤立词识别系统一般是以孤立字 ( 词) 为识别单位,即直接取孤立字( 词) 为识别基础。孤立词识别是语音识别中 最简单也是最成熟的识别技术,目前对于孤立词识别的研究,无论是小词汇表还是 大词汇表,无论是特定人还是非特定人,其实验室中的识别率都已经达到9 5 以上。 孤立词识别之所以受到人们的重视,是由于孤立词的发音方式使得每个档次语 8 第二章语音识别基本原理 音的起始和结束具有明显的停顿,因此易于对输入语音进行端点检测等预处理工 作;而且对孤立词的发音一般比较到位,因而语音的特征参数不易受到协同发音的 影响而发生变化,因而其特征提取以及建模比较容易;另外通过对孤立词识别的研 究,有助于对语音识别技术的理解,并可将其中的很多技术推广应用到连接词识别 和连续语音识别等更复杂的识别技术中。 另外,由于连续语音识别技术比较复杂,目前主要是在计算机上实现,难以推 广应用。相对而言,孤立词识别系统比较简单,识别率比较高,有比较大的应用前 景,因此目前的语音识别产品大多为孤立词识别系统。 基于这种考虑,本文的主要研究工作为孤立词识别系统的硬件实现。 2 1 3 孤立字( 词) 识别方法 孤立字( 词) 识别系统,一般是以孤立字( 词) 为识别单位,即直接取孤立字( 词) 为识别基元。它们的识别方法大致有以下几种。 采用判别函数或准则的方法。最典型的是贝叶斯( b a y e s ) 准则,它是一种概率 统计的方法 采用动态时间归正( d t w ) 的方法。字音的起始点相应于路径的起始点。最优 路径起点至终点的距离即为待识别语音与模板语音之间的距离。与待识别语音 距离最小的模板对应的字音即判为识别结果。这种方法运算量比较大,但技术 上比较简单,识别f 确率也较高。在各点的匹配中对于短时谱或倒谱参数识别 系统,失真测度可以用欧氏距离;对于采用l p c 参数的识别系统,失真测度可 以用对数似然比距离。决策方法一般用最邻近准则。 采用矢量量化技术的方法。矢量量化技术在语音识别的应用方面,尤其是在孤 立字( 词) 语音识别系统中得到了很好的应用。特别是有限状态矢量量化技术, 对于语音识别更为有效。决策方法一般用最小平均失真准则。 采用隐马尔可夫模型( h m m ) 技术的方法。h m m 的各状态输出概率密度函数 既可以用离散概率分布函数表示,也可以用连续概率密度函数表示。一般连续 隐马尔可夫模型要比离散隐马尔可夫模型计算量大,但识别正确率要高。 采用人工神经网络技术的方法。 采用混合技术的方法。为了弥补单一方法的局限性,可以采用几种方法组合起 9 华南理工大学硕士学位论文 来的办法。 模板匹配法是多维模式识别系统中最常用的一种相似度计算方法。而d t w 是效果 最好的一种非线性时间对准模板匹配算法 3 】。由于d t w 算法本身既简单又有效,因此 在特定场合下获得了广泛应用,它在实现小词汇量孤立词识别系统时,其性能与h m m 算法几乎等同。 本文从硬件实现的角度考虑,综合考虑识别效果、技术复杂度结合硬件实现复杂度 等各方面因素,采用d t w 作为识别方法,深入研究d t w 算法的硬件实现。 2 _ 2 基于d t w 的孤立词识别系统的组成 语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,是一个 非平稳信号。但是由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动 比起声音振动速度来讲要缓慢得多,因此语音信号常常可假定为短时平稳的,即在l o 2 0 m s 的时间段内,其频谱特性和某些物理特征参量可近似地看作不变的。这样就可以 采用平稳过程的分析处理方法来处理语音了 3 。本文的研究都是立足于这种短时平稳的 假定。 基于d t w 的孤立词识别系统的实质是模板匹配技术,其核心为模板( t e m p l a t e ) 的 特征建模方法和相似性度量的动态时间归正( d t w ) 匹配算法。在训练阶段,对词汇表 中的每个词汇所对应的语音抽取其特征矢量序列作为模板存储到特征模板库中;而在识 别阶段,将待识别语音的特征矢量序列通过动态时间归正的d t w 算法和模板库中的每 个模板进行相似性比较,并把相似性最高的作为孤立词识别的结果。图2 - - 2 所示为一 种典型的孤立词识别系统框图。 图2 2 孤立词语音识别算法框图 f i g u r e2 - 2 i s o l a t e dw o r d r e c o g n i t i o nf l o w 1 0 第二章语音识别基本原理 2 2 1 a d 转换 模拟语音信号无法被计算机处理,因此语音处理的第一步是将模拟信号转化为数字 信号,也就是模数转换( a n a l o gt od i g i t a lc o n v e r s i o n ) ,其中主要包括两个步骤:采样 和量化。 正常人语音频率一般在4 0 h z 4 0 0 0 h z 的范围内,电话语音的频率范围在6 0 h z 3 4 0 0 h z 左右。因而,一般说来电话语音的采样率为8 k h z ( g 7 “标准) ,普通语音的 采样率在1 5 k h z 2 0 k h z 左右。考虑到高频噪音的存在,为防止频率高于二分之一采样 频率的高频噪音产生频谱混叠,通常语音信号在采样前要进行一次预滤波以滤掉高频噪 音。另外,预滤波还可以抑制5 0 h z 的电源工频干扰。这样,设计一个带通滤波器作为 预滤波器,其下截止频率f l = 6 0 1 0 0 h z ,上截止频率f h 根据需要定义,对于语音识别而 占,当用于电话用户时f h 一般为3 4 0 0 h z ,当使用要求较高或很高的场合时f h 一般为 4 5 0 0 h z 或8 0 0 0 h z 2 。 a d 变换中要对语音信号进行量化,量化过程不可避免地会产生误差,量化后的信 号与原始信号的差值称为量化误差或者量化噪声。若信号波形的变化足够大或量化间隔 足够小时,可以证明量化噪声是具有下列特征的统计模型:平稳的白噪声过程。量 化噪声与输入信号不相关。量化噪声在量化间隔内均匀分布,具有等概率密度分布。 信号与量化噪声的功率比,即量化信噪比s n r 取决于量化字长的选择。假设语音信号的 幅度服从l a p l a c i a n 分布,则量化器中每b i t 字长对s n r 的贡献为6 d b 。当量化字长为 7 b i t 时,s n r = 3 5 d b 。此时量化后的语音质量能满足一般通信系统的要求 2 。 2 2 2 端点检测 语音识别中常常需要判断输入信号中哪部分是语音,哪部分不是语音。对于已经判 定为语音的部分还需要区分清音和浊音,这些问题归结起来称为“有声,无声”或“浊音 清音无声”的判定。总之,语音的端点检测目的是从包含语音的一段信号中确定出语 音的起点和终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪 声干扰,从而使识别系统具有良好的识别性能。汉语的音节末尾都是浊音,简单地通过 短时能量就能较好地判断一个词语的末点:相比之下,音节的起始处会有清声母、塞音 和塞擦音,将它们与环境噪声分辩是比较困难的。但是在孤立词识别中,单词语音的起 华南理工大学硕士学位论文 始和结束有明显的停顿,孤立单词的发音比较认真,单词之间的协同发音影响较小,所 以单词之间的端点检测比较容易。因此,本文采用基于声学参数短时平均幅度或短时能 量和短时过零率的传统检测方法“双门限前端检测算法”来检测语音起点。 首先利用短时平均幅度定位语音的大致位置。语音刚开始的一段,其短时能量的大 小与背景噪声的短时能量大小差不多,因此要想可靠地检测到语音起点,存在较大困难。 7 2 1 限法是考虑到语音开始以后总会出现能量较大的浊音,设一个较高门限的m h ,可 以肯定短时平均幅度大于m h 的部分费,费:一定是语音段。再设- - l k m h 稍低的门限m l , 仍然可以认为短时平均幅度大于m l 的信号段n 1 n 2 还是语音段。如图2 - - 3 所示。 m 。 厂、 :jj 。 ; l z 。 in 。厨 膏:知2 h 7 ,州 y 。、o 一7 r 、, 。1 啊一i: 图2 - - 3 双门限法进行端点检测 f i g u r e2 - 3d o u b l et h r e s h o l de n d p o i n td e t e c t i o n 然后利用短时过零率准确地确定语音的起始点,主要是将清音和无声段分丌。此时, 短时平均幅度不再起作用,因为两者的能量都很小,唯一的区别是清音的过零率远远高 于无声段。为此,确定一个过零率的门限瓦从n n 2 向两端搜索,如果短时过零率 突然低于该门限的3 倍,那么这点n 1 就被认为是语音的真f 起始点。但是需要注意的 是,这种向前搜索有时间上的限制,一般向前搜索最多不超过2 5 m s ,也就是一帧语音 的长度7 】。 2 2 3 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在8 0 0 h z 以上 按6 d b ,即6 d b o c t ( 2 倍频) 或2 0 d b o c t ( 1 0 倍频) ,所以求语音信号频谱时, 1 2 第二章语音识别基本原理 频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行 预加重( p r e e m p h a s i s ) 处理。预加重的目的是提升高频部分,使信号的频谱变得平坦, 保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参 数分析。预加重一般用具有6 d b 倍频程的提升高频特性的预加重数字滤波器来实现,它 一般是一阶的数字滤波器 2 : 圩( z ) = l 一z 一1( 2 一1 ) 式( 2 - 1 ) 中,值接近于1 ,典型值为o 9 4 1 7 。 2 2 4 分帧 语音信号进行过预加重数字滤波处理后,接下来就要进行加窗分帧处理。一般每秒 的帧数约为3 3 1 0 0 帧,视实际情况而定。分帧虽然可以采用连续分段方法,但一般要 采用如图2 4 所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续 性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为0 - - 1 2 。分帧是 用可移动的有限长度窗口进行加权的方法来实现的,这就是对语音信号进行短时分析的 基本手段“语音加窗”。 a ) n 为帧长m 为帧问重叠长度 年,d 帧移饭长 b ) 帧长与帧移的7 - r 啪l 图2 4 帧长与帧移示例 f i g u r e2 - 4f r a m el e n g t ha n df r a m ee x c u r s i o n 1 3 鲢型盘 融f 帧| | 卜 麴 华南理t 大学硕士学位论文 2 2 5 加窗 即用一个有限长度的窗序列c o ( n ) 截取一段语音信号来进行分析。该窗函数按时间方 向滑动,以便分析任一时刻附近的信号。设原始语音信号为s ( n ) ,加窗运算定义为: 5 。m ) = 5 ( m ) 烈h m ) ( 2 2 ) 可以看出,加窗运算实际上是一种卷积运算,设窗长为n ,在语音信号数字处理中 常用的窗函数是矩形窗、汉宁窗和汉明窗,其定义分别为: 矩形窗( r e c t a n g u l a r w i n d o w ) 加j 1 ( o 如,。1 ) ( 23co( ) 们2 oj 。 o 勘 0 ) 汉明窗( h a m m i n g w i n d o w ) 州。) :jo 5 4 - 0 4 6 c o s ( 器_ 1 ) l 0 汉宁窗( h a n nw i n d o w ) o j ( n ) = 。5 ( 1 - c o s ( 而2 7 0 1 ) ) 1 0 ( 0 蔓n n 一1 ) ( 2 4 ) m 0 或n ( n ) ( o ,l n 1 ) ( 2 5 ) m 0 或n n ) 如果我们把窗函数理解为某个滤波器的单位冲激响应,由于窗函数一般是中间大两 头小的光滑函数,因此该滤波器具有低通特性。不同的窗函数对应的低通滤波器的带宽 和频率响应是不同的,其主瓣宽度和旁瓣高度也不相同。其中矩形窗的主瓣宽度最小, 旁瓣高度最高:汉明窗的主瓣最宽,而旁瓣高度最低。汉宁窗和汉明窗的区别在于前者 随频率增加衰减很快,而后者基本保持一个常量。矩形窗的旁瓣太高,会产生严重的泄 漏现象( g i b b s ) ,仅用于一些特殊场合;汉宁窗衰减太快,低通特性不平滑,不能做到 对所有频率“一视同仁”;汉明窗由于其平滑的低通特性和最低的旁瓣高度而得到广泛 的应用。对于同一种窗函数,其主瓣宽度与窗长成反比,一般说来,窗长越长窗对信号 的平滑作用越厉害,如果想反映出快速时变的信息,窗长应取短些。 本设计的窗函数采用汉明窗,窗长为2 5 6 。 1 4 第二章语音识别基本原理 2 2 6 特征参数提取 对语音识别系统而言,特征参数的选择与提取至关重要,是系统构建的基础。 线性预测编码( l i n e a r p r e d i c t i v e c o d i n g ) 是目前应用广泛的特征参数提取技术,其 基本思想是:由于语音样点之问存在相关性,所以可以用过去的样点值来预测现在或未 来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。 通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一 的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参 数用于语音识别等。实际上语音信号处理中最常用的语音模型是全极点模型,线性预测 编码解决的问题是:给定语音序列( 一帧) ,采用最小均方误差准则,求预测系数的最 佳估值。 语音识别常用的特征参数有两类,第一类为时域特征参数,包括短时过零率、短时 能量、基音周期等。其中短时过零率和帧能量参数是语音端点检测中的重要参数。第:二 类为反映短时谱包络的频域特征参数,它们是语音识别中采用的主要特征参数,包括线 性预测系数( l p c ) 、线性预测倒谱系数( l p c c ) 、m e l 频率倒谱系数( m f c c ) 等。本 文中采用的是线性预测系数l p c 。一段语音信号经过特征提取后便得到特征矢量序列, 在后面讨论语音识别硬件实现算法时都假定已将输入语音信号转化成这样的特征矢量 序列了。 2 2 7 动态时间归正 经过特征参数提取后的语音信号已经转化成特征矢量序列。在训练阶段,用户将词 汇表中的每个词依次说一遍,并且将其特征矢量作为模板存入模板库,在识别阶段,将 输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较,将相似度最高者 作为识别结果输出。由于语音信号有交叠的随机性,即使是同一个人在不同时刻的同一 句话发的同一个音,也不可能具有完全相同的时间长度,因此时间伸缩处理是必不可少 的。而动态时间归正( d t w ) 就是效果最好的一种非线性时间归整模板匹配算法,它是 语音识别中一种很成功的匹配算法。本文中采用d t w 作为模板匹配算法对特征矢量序 列重新进行时间的对准,着重讨论了d t w 的硬件实现算法。 1 5 华南理工大学硕十学位论文 2 2 8 后处理 后处理单元对系统中前述单元得到的语音识别结果
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年档案知识测试题及答案
- 2025年医博士全员培训考试试题及参考答案
- 2025年工会知识试题(附答案)
- 2025年银行从业资格个人贷款模拟试题及答案
- 2025年登革热与发热伴血小板减少综合征培训考核试题(附答案)
- 2025年城市规划与设计考试试卷及答案
- 2025年【N1叉车司机】考试练习题及答案
- 3.1生命活动需要酶和能源物质第1课时课件-高一上学期生物苏教版必修1
- 俄语第八册教学课件
- 合肥渔业安全培训班课件
- Win10系统安全配置
- 2025年研发人员保密协议书
- 物流园区规章制度模版(2篇)
- 《多能源耦合供热系统》
- 《搞定:无压工作的艺术》完整课件
- 京东方岗位胜任力测评题库
- 印刷包装公司安全生产管理方案
- 高中数学64数列求和省公开课获奖课件市赛课比赛一等奖课件
- 二手车国庆节活动方案
- 人教版八年级上册地理教学计划及进度表
- 2025高考物理步步高同步练习必修3练透答案
评论
0/150
提交评论