![(电路与系统专业论文)基于DSP的口令式语音识别系统[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/75dc890e-74e6-426c-8131-6d4ef28a1d4e/75dc890e-74e6-426c-8131-6d4ef28a1d4e1.gif)
![(电路与系统专业论文)基于DSP的口令式语音识别系统[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/75dc890e-74e6-426c-8131-6d4ef28a1d4e/75dc890e-74e6-426c-8131-6d4ef28a1d4e2.gif)
![(电路与系统专业论文)基于DSP的口令式语音识别系统[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/75dc890e-74e6-426c-8131-6d4ef28a1d4e/75dc890e-74e6-426c-8131-6d4ef28a1d4e3.gif)
![(电路与系统专业论文)基于DSP的口令式语音识别系统[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/75dc890e-74e6-426c-8131-6d4ef28a1d4e/75dc890e-74e6-426c-8131-6d4ef28a1d4e4.gif)
![(电路与系统专业论文)基于DSP的口令式语音识别系统[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/75dc890e-74e6-426c-8131-6d4ef28a1d4e/75dc890e-74e6-426c-8131-6d4ef28a1d4e5.gif)
已阅读5页,还剩73页未读, 继续免费阅读
(电路与系统专业论文)基于DSP的口令式语音识别系统[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 语音识剐技术是2 0 0 0 年至2 0 1 0 年闻信息技术领域十大重癸的科技发展技术 之一。语密识别技术正逐步成为人枫接日翡关键技术之一,通逶语音命令避行操 作,能够使人们能够甩掉键盘。近二十年来,语音识别技术取得显著进步,开始 从实验室悫穗市场。预计未来l o 每内,语音识别技术将进入工渡、家电、邋馈、 汽车电子、医疗、家庭服务、消费毫子产品等各个领域。语音技术的应餍已经成 为一个具有竞争性的新兴高技术产业。 本文鹩强标是在t m s 3 2 0 c 6 7 1 l 上实现口令式语言c d h m m 翡实时训练与 识别,针对这个目标主疆完成了疆下工作: 本文的主要工作和成果如下; l 。分辑了酬疆冀法嚣基本漂瑗稿特牲,设诗了基于d s p 熬口令式语音 c d h m m 堋练和识剐的硬件平台。 2 根据h m m 算法的实现特性,结合d s p 体系结构,设计了d s p 上h m m 谢练窝谖粼的软锋系绕,包摆语音聚集,参数提取,攘扳存髅,汲刘缝暴辕滋等。 3 研究了t m s 3 2 0 c 6 0 0 0 的体系结构,为了充分发挥其8 个运算单元的运 算性能,采用了流水线的方法,提高了系统提取参数,训练和识别的实时性能。 嚣兹主滚懿语音暑灵爨按零是基予统诗模式识涮豹基本理论。毽是由于统诗模 型训练算法复杂,运算量大,一般由p c 机来完成,这无疑大大限制了它在便携 设备中的应用,本文针对h 训练算法的特点,选取了t i 的浮点芯片 t m s 3 2 0 c 6 7 1 l ,或凌实现了鏊令式语套e 臻氍熬训练识剐系统,淹语音谖襄褒馕 携设备中的应用做了些有意义的研究工作。 a b s t r a c t s p e e c hr e c o g n i t i o ni so n eo ft o p10i n f o r m a t i o nt e c h n o l o g yi nf u t u r e10y e a r s j o i n e dw i t hs p e e c hs y n t h e s i z a t i o n t h et e c h n o l o g yc a nl i b e r a t ep e o p l ef r o mk e y b o a r d i n p u t p e o p l ec a ni n p u ta n y t h i n gj u s tt h r o u g hs p e e c hv o i c e i nr e c e n t2 0y e a r s ,s p e e c h r e c o g n i t i o nh a sb e e nm a d eg r e a ta d v a n c e m e n t n o wt h i st e c b m o l o g yi sg o i n gt o m a r k e tf r o ml a b i nf u t u r e10y e a r s ,s p e e c hr e c o g n i t i o nw i l lb ea p p l i e dt oi n d u s t r y , h o m ee l e c t r o n i c s ,c o m m u n i c a t i o n ,m o b i l ee l e c t r o n i c s ,m e d i c a lm a c h i n e ,h o m es e r v i c e c o n s u m ee l e c t r o n i c s s p e e c hr e c o g n i t i o ni sb e c o m i n gonep i v o t a lt e c h n o l o g yf o r c o m m u n i c a t i o nb e t w e e np e o p l ea n dm a c h i n e i nt h i sp a p e r , o n ec d h m mr e a l - - t i m e t r a i n i n gs y s t e mo ft o k e n - b a s e ds p e e c h b a s e d - o dd s pi sp r o p o s e d f o rr e a c ht h i sg o a l ,s o m ew o r kb e l o ww e r ea c c o m p l i s h e d : 1 t h r o u g ha n a l y z i n gt h ef u n d a m e n t a lm e t h o da n d f e a t u r eo f h m m ,t h eh a r d w a r e p l a t f o r mf o rc d h m mt r a i n i n ga n dr e c o g n i t i o no f t o k e nb a s e d v o i c e i sd e s i g n e d 2 b a s e do nh m mm e t h o di m p l e m e n t a t i o nf e a t u r e ,t a k i n gi n t oa c c o u n tt h e s y s t e ma r c h i t e c t u r eo fd s p , t h es o f t w a r es y s t e mo ft r a i n i n ga n dr e c o g n i t i o na r e d e s i g n e d t h es y s t e mi sc o n s i s to f v o i c ec o l l e c t i o n ,f e a t u r e sp i c k e d u p ,m o d e ls t o r a g e a n dr e s u l to u t p u t 3 f o rt h es a k eo f i m p r o v i n g r e a l t i m e p e r f o r m a n c e o fs y s t e m ,t h e t m s 3 2 0 c 6 0 0 0s y s t e ma r c h i t e e t u r ei sr e s e a r c h e d h o wt ot a k ea d v a n t a g eo fi t s8 a l u ? t h e ns o m em e t h o do p t i m i z i n gc o d e ,e s p e c i a l l yd e s i g no fp i p e l i n eo nt h i sc h i p w a sg a v eo u t t h eo p t i m i z a t i o nm a k es y s t e mg o o dr e a l - t i m ep e r f o r m a n c e c o m p u t e rs p e e c hr e c o g n i t i o ni ss i m i l a rw i t hp e o p l es p e e c hr e c o g n i t i o n a tt h ep r e s e n tt i m e , t h em a i ns p e e c hr e c o g n i t i o nt e c h n o l o g ya r ea l lb a s e do ns t a t i s t i c a lm o d e l b e c a u s es t a t i s t i c a l m o d e lt r a i nm e t h o di sv e r yc o m p l e xa n dn e e dg r e a tm a t ho p e r a t i o n ,s o m e t i m e st h i sw o r ki sd o n e o np cu s e rc a r l ts e ta n dc h a n g et h et o k e no fm o d e ll i b r a r yo p t i o n a l l y ,t h i ss h o r t c o m i n gr e s t r i c t s s p e e c hr e c o g n i t i o na p p l y i n go nt h e t h i sp a p e ri m p l e m e n t e ds u c c e s s f u l l yr e a l - t i m et r a i n i n g s y s t e mo ft o k e n - b a s e ds p e e c ho nd s p s o m es i g n i f i c a n ta t t e m p tt oa p p l y i n gs p e e c h r e c o g n i t i o no np a l m - d e v i c e sw a st r i e d ! 中国科学技术大学硕十论文第一章引言 1 1 背景与意义 第一章引言 近二十年来,语音识别技术取得显著进步,语音识别技术将进入工业、家电、 通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别的最终 目的就是象人与人之间谈话交流信息一样,实现人一机自由对话,也就是赋予机 器以听觉,使机器能听懂人的语言,辨明话音的内容或说话人,将人的语音正确 地转化为书面语言或有意义的符号,或者进一步使机器能够按照人的意志进行操 作,把人类从繁重或危险的劳动中解脱出来。在驾驶情况下下拨号则是一个典型 的应用。另外,移动设备比如p d a 集成度越来越高,体积越来越小,输入也变 得越来越困难。语音识别自然成为与这些微型设备交互的有效手段。因为麦克风 相对于按键和触摸屏来说体积小,成本低廉,而且接口简单。 据预测,语音识别将成为继键盘和鼠标器之后,人机交互界面革命中的下一 次飞跃。正女n i d c 的p c 分析员r i c h a r dz w e t c h k e n b a u m 所说:“语言是最自然的界 面”。 语音识别具有很大的实际应用价值,其发展、成熟和实用化将推动许多产 业的迅速发展,其中包括计算机、办公室自动化、通信、国防、机器人等等。目 前可以想象的语音识别主要应用有:语音输入系统,作为一种最自然的文字输入 方法,用口述代替键盘向计算机输入文字,这将给办公室自动化和出版界带来革 命性的变化;语音控制系统,为人们在手动控制以外又提供了一种更安全、更方 便的控制方法,特别是当系统工作在一些特定的环境( 如黑暗场所或手脚己被占 用来进行其它动作的环境) 或一些特殊的用户( 如残疾人) 时;基于对话系统的 数据库查询系统,为用户提供了更为自然、友好和便捷的数据库检索或查询,可 以广泛运用在银行、交易所、民航等机构;除此之外,语音识别还可以用于口语 翻译系统、计算机辅助教学、自动身份确认等很多领域。 孛霉秘学技术大学疆士谂文 第一章零l 言 1 2 国内外发展和应用概况 语音识别系统的作用是将输入信号的特征参数与模椴库中己训练好的语音 模枚进行匹配比较识别,找到相似的模板作为识别结果。现在应用较为广泛的语 音谈瓣装算法圭黉密隰下蔑耱; 动态时间规熬( d y n a m i c t i m e w a r p i n g ,d t w s 1 ) 方法。这一方法翱六七十年 代发展至今,现在在特定人、小词表、孤立词语音识别方面仍然谢其优点。 它是在凌态辩瓣窥歪懿遗裰中, l 较翼蠢不嗣长度静测试语音样本与参考模 板之间的相似距离的,因而有很好的识别效果,且模板训练简单,不需预先 聚集大量的样本,但模板的存储和识别时的匹配计算慝都很大,张很多任务 麓擎煞蓼 鬟系统当中,逐在镬用这耱方法。 隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 技术1 2 6 】【2 7 1 。h m m 方法是当 漪语音识别研究中的主流技术口m 3 1 。谨是建立在统计模型基础上的识别方 法,具有识巍率高、廷瑟诗算量,l 、番簿瞧( r o b u s t ) t 2 8 - 3 0 3 较驽等键熹,瓢 而在语音识别中得到广泛成用【2 0 1 。 人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n n ) 【2 2 1 。由于人工 申经网络 肖较强魏囊缀缓、自学习髓力帮区分模式豹戆力,敬瞧很适于语漆谖嗣,毽 a n n 的网络结构( 如:隐层数、隐层节点数等) 大多靠经验设鼹,从而影 响了a 、f n 的大规模应用,城在大多是把a n n 与h a 4 m 结合在一起取得了 许多有效酶缭聚,单独使麓a n n 难醴遮剿狠高静谖剃憔麓,两且a n n 学习 时间长,运算晟过大,只有极少量的语潦识别系统使用该算法进行识别。 h m m 又分炎离散隐马尔辩夫模型和逡续隐马尔科夫模型。离散h m m 必 须兔对特征参数避行矢量量豫( v e c t o rq u a n t i z a t i o n , v q ) 处理i 2 l 】,将濒察序列变 为离散的序列,然后再进行h m m 的统计训练和识别,这样虽然可以腿缩特征参 数农识别过程中的运算量,毽其在量化过程中带来的损失,篌其识别髅能劣予连 续h m m 。连续稳马尔可夫横型( c o n t i m l o u sd e n s i t yh i d d e nm a r k o vm o d e l , c d h m m ) 的识别率高,但其运算量却比d t w 的运算鬣要小得多,约为d t w 靛纛分之一。因韭笔,其成为本文瓣墨令式识别系统首选方絮。 在2 0 世纪六七十年代以来,语音识剐的研究人员藏致力于专阁芯片刚实 2 孛鹫秘学技寒六学暖士浚文 黧一章亏 言 现谮音识别的研究,但是,大多数专用芯片实现的语音识别系统其识别性能差, 不熬器实用的要求。直至i 近卡年以来,随着潺音识别算法的深入研究耧集成电路 技术的发展,才磷现了一些蒸有实用价值藕市场前景的研究。如,美豳t i 公司 用t m s 3 2 0 c 5 4 1 0 实现与说话人无关的数字识别系统【1 1 ,并用于汽车的电话拨号: 曩本秘技大学剃躅t 殛s 3 2 0 c 3 x 实现写蜞模型应鼷于噪声强凌下的霸令式语音 识别,识别在p c 机上完成 2 1 。 园内在用d s p 芯片实现褥音识别的开发研究方面越步较晚,虽然到目前为 丘,嚣痰磅变人员裂矮d s p 实褒了镶多实瓣语音识裂系统,毽是憩类系统都是 由d s p 和p c 机共同完成的。譬如:早期脊用t m s 3 2 0 c 2 5 构成一个智能化语音 输入实时识别系统【3 】也仅用d s p 实现耳蜗模型,语音识别仍在p c 机上实现; 近期毒震t m s 3 2 0 c 5 4 x 竣或安瓣语音识爨蕊统嘲,该系绞采嗣d s p 灾骧特测语 音的实时识别,缎h m m 的训练则在p c 机上实现,所以系统识别的语句只限于 预先训练好的语句,没有做到宓用( 完全脱离微机) ,通用( 具体口令不固定, 弱户可戳蔽据鬟襞夔意确定搿令) ,这主要爨壅予模墅谖练爨霉夔诗冀鬟稻存德 量很大,d s p 硬件资源不够引起的。然而,若能将模型训练也在d s p 上完成, 则这类语音识别系统将由于口令设置随意,用户可以灵活修改口令等优点而具有 广泛豹应震藩景。 l n p b s e n s o r y 公司最近推出v o i c ea c t i v a t i o i l 软件,该软件适合d s p 綦应用( 如 电话、无线设备、汽车和消费类电子) 。v o i c e a c t i v a t i o n 软件是为高噪声环境应 用设诗静。该公镯声称基于该赣耱瑟系统在8 0 d b 臻声环浚中哥达至筑予9 8 戆精 度。 利用d s p 算法的另一结奉句出a d v a n c e dr e c o g n i t i o nt e c h n o l o g i e s 公司,该 公司游语音识嗣援术称之为s m a r t s p e a k ,它与w i n c e 兼容著可定潮强予专曩鹣 o s ,适用于蜂窝电话和p d a 市场。 a r t 的识别算法可运行凌价廉、低性熊、具有最小存储器的微处理器中。 另外,这些算法麓综合a p i ( 成爝编程接e 1 ) 系统书写,使窀稍很窑翳避转移或 应用于几乎所有激置。p o r t 此技术的优点怒通过软件实现语音控制,不增加系统 的磷传成本。 s e n s o r y 公蠲的徽处理嚣为便携系统掇供了关键性能低功翠嗣体眠摸 中国科学技术大学硕士论文第一奄引言 式班降甄功耗。处理嚣可基己置到体眠,同时偌裁条i o 线( 般塌一按键) 唤醒,或糟一个内部定时器作周期能唤醒。 i n f o r m m i o ns t o r a g ed e v i c e s 公司设计的v o i c e d s p 也是基于d s p 结构基础上。 该产晶怒多耱d s p 功女8 集残在单片点,为电话、汽车霸消费类应用提供撬霁静藏 本效率解决方案。 i s d t 3 6 0 s a 处理器把1 6 位d s p 和1 6 位r i s c 芯核技术结合谯一起。它具有系 统支戆动戆,熟孛鞭控裁单元、壤翳力簿鹈器蔟翻( 主寝簸) 、捌主系统徽羧铡爨 的接口,以及闪存和d r a m 用的存储器处理。片上r o m 存有v o i c e d s p 软件。 语脊压缩是语音识别的另一方丽。d i g i t a lv o i c es y s t e m s 的a m b e 一2 0 0 0 是一 款声码嚣,它含畜该公司熬a m b e + 声褥暴技术。宅提供长途应耀品质蕊语窝( 在 4 k b i t s ) ,可工作在2 9 6 k b i t s s 任何用户确定的饿率。它包含一个带内置v i t e r b i 译码器的卷积f e c 编码器( 它具有4 位软决策译码) 。 a m b e - 2 0 0 0 特瞧考:3 v i 嚣,半双工戢金被工蒺式,蠡魂语音秽秃声检 测以及回声消除。这贱特性使它很适合于无线成用。用t i d s p 芯核可简化代码写 入。 1 3 本文研究内容 本文的目标是在t m s 3 2 0 c 6 7 “上实现口令式语音c d h m m 的实时训练和 识别。分攒了c d h m m 谶练和识别算法的特性,设计了硬件乎台帮软件系统, 并测试了系统的实时经和识掰率等健能。 本文主要由以下内容组成: 1 介缓了基于逡续隐m a r k o v 模型的口令式训练,谚 剐系统。 2 详缅介绍了t m s 3 2 0 c 6 0 0 0 芯片的特点和往能,并深入研究了基予该芯片 的程序优化,着重介绍了流水线设计以殿跨平台移植对流水线效察的影 媳。 3 给出c d h m m 在d s p 上的训练系统,分析了调练算法盼需求,并根据d s p 的结构对训练算法进行了优化,通过实验测试了系统的实时性。 4 。绘密e d 珏醚磁在d s p 上麓移 燃系绞,分攒了识裂舅法爨霉求,逶避实验 测试了系统的识别率。 4 中国科学技术大学硕士_ 论文第二章基于c d h m m 的口令式语音识别系统 第二章基于c 明m m 的口令式语音识别系统 2 1 引富 语音识别技术从旱期的简单模板匹配原理到8 0 年代中期掀起研究热潮 的隐马霉可褰锻冀j 刀( h i d d e n m 积( o vm q d e l s ,简称一h m 基m ) , :已取得孑童要 进展,尤其蹙囊麓藕j i 孥些简窜的语音识别系统在商业霉毒有象等定程度上 饷应用。目一箭语煮识另0 技术的应用可分为两个发展方向:_ 个嘉向是失词汇 量连续语者躲舅n 系绞蠢薅些系统一般都是基于p c 帆平台 i 男夕f 萋凳重要的 发展考向鹁黪誉湖瓣攀薛艰襄翅连续词或口令式谚音喾岛臻簿睁黪i 靳蒸攀 设备的电话援每语音控铷、家电遥控等方面的应用,? 这些砬角寨统式都采用 专门的硬件苍芽系统实现。 i i 基于模板威模型匹配原理的语音识别是将经静端处理后的语音特征参数 与模板或模型摩中已训练好豹每令语音模板或模型计算相似度距离,以相似 度最高的作为识别结果输出。泪前,应用较为产泛的语裔识别韵算法主要有 以下几种:d t w ( d y n a m i ct i m e - w a r p i n g ,动态时间归亩醪1 ,h m m ( h i d d e n m a r k o vm o d e l s , j 隐马尔科失模型) ,a n n ( a r t i f i c i a ln e u r a ln e t w o r k , 人 王神经网络t s b , v q ( v e c t o rq u a n t i z a t i o n , 矢量量化) p 8 垮。一i 、:| 其中d t w 方法是一种在七十年代出现的较有效的语音识别方法,在特 定太、小词表、孤立词语音识别方面取得了令人鼓舞的结果,它是在动态时 间规正的过程申,比较具有不同长度的测试模板与参考模板之间的距离的, 因而有很好的识别效果,且模板训练简单,不需预先采集大量的样本,但模 板的存储和识别喊的匹配计算量都很大;v q 是一种最早用于信号压缩的聚类 技术,它能较好地反映特征参数矢量在特征空间的位置、分布等信息,故也 可用于语音识别;,其缺点是未能利用语音中的时序信息;而a n n 由于其具有 较强的自组织。洎学习能力和区分模式边界的能力,故也很适于语音识别, 但a n n 的网络结构( 如:隐层数、隐层节点数等) 大多靠经验设置,从而影 响了a n n 的燕规模应用,现在大多是把a n n 与h m m 结合在一起取得了 许多有效的结果;h m m 是当前语音识别系统的主流算法,它是建立在统计模 中嗣科学技术大举硕士论文第二二章基于c d h m m 构令式语静识剐系统 型鏊穑上豹谈剐方法,其有识嗣率离、莲酝计算量小、鲁襻往较婷等优点, 从而在语音识别中得到广泛威用。 h m m 怒描述谮音信号的一种概率统计模型【3 9 - 4 0 1 ,是使璃m a r k o v 链来 模拟语音信号统计特性的变化;两这秽变镬二又是阅按缝通过双察序列来接述 的。因此,隐m a r k o v 过程魑一个双震随机的过程1 5 - 7 1 。从谱音信号产生模型 看,添音信号是壹激赫源激黝声道麓产生,其中入麴声遘褥性可鬟分鸯毒羧 个特性平稳的部分或状态,相应地,语音信号可以着成由这嫂平稳状态产生 的鬣时信号静时间上静缀联,舔每个状态对语音信号静 乍甭取决于该处声邀 物理参数或语音的概率分布。如果将声道特性的变化用h m m 的状态转移概 率来描述,特定声道所产生语音信号的特征参数的概率分布阁h m m 状态的 输出观察健蛇概率密度函数来表征,则h m m 模型就姥有效地用于撼述时交 语音信号。 h m m 戆孛类大数霹爨分为戳下三秘: ( 1 ) 离散隐马尔科夫模型 ( 2 ) 逐续豫马尔耱夫模鍪 ( 3 ) 半连续隐玛尔科夫模型 这几种隐马尔科夫模型释有其优缺点。离散h m m 必须先对特征参数进 行矢爨量化( v e c t o rq u a n t i z a t i o n ,v q ) 处理,将观察序列变为离散的序列, 然后褥进行h m m 的统计训练和识别,这样虽然可以聪缩特征参数在识别过秘 孛豹运算量粒存健空瘸,瞧葵在量识过程孛袋寒的攒失,搜其识别瞧能劣予 连续h m m 。连续h m m ,指观察值为一个涟续随机变量,状态对应的观 察毽统计祷梭由一个密度丞数玉,( x ) 表示,基有谖澍率嵩、蕊配诗癸量,l 、 鲁棒燃较好、实时等优点。而半连续h m m 则是介于上述鼹赣之闻的一静模 型。 荚霎a t & tb e l l 实验室螫震h m m 鼓拳( 采爱离教戆h m m 帮连续懿 h m m 两种模型) ,对1 0 个数字的词,研制成一个与话者无关的语街识别系 统,并与瘸一般熬动态辩闻i 鹣正( d t w ) 懿谖剐结莱作了魄较。荬系统谖羽 结果如下: d t w:9 8 2 6 中国科学技术大学硕士论文第二章基于c d h m m 的口令式语音识别系统 离散h m m :9 7 1 连续h m m :9 8 1 由此可见,连续隐马尔可夫模型【9 】( c o n t i n u o u sd e n s i t yh i d d e nm a r k o v m o d e l ,c d h m m ) 的识别率高,但其运算量却比d t w 的运算量要小得多, 约为d t w 的五分之一。因此,其成为本文的口令式识别系统首选方案。 本章主要介绍了基于c d h m m i :1 令式识别系统结构及组成;预处理和特 征参数的提取;h m m 模型的基本原理,模型训练和识别的算法;以及系统 的噪声鲁棒性方面的研究。并根据口令式语音长短不一的特点,研究分析了 c d h m m 模型参数的不同选取( 状态数,高斯混合度) 对识别性能的影响, 和c d h m m 状态数、混合度与语音训练集之间的关系,以及训练集大小对系 统识别性能的影响,为c d h m m 令式系统的d s p 实现提供理论和实验基础。 2 2 基于c d h m m 的口令式语音识别系统 语音识别系统都是基于先训练后识别的模式,基于c d h m m 的特定人口 令式语音识别系统的训练识别框图如图2 1 所示。它由语音信号预处理部分 ( 包括预加重处理、抗混叠滤波、a d 采样、分帧、加窗等) ,特征参数提取 部分以及c d h m m 模型库及模型匹配、评分判决部分所组成。 图2 - 1口令式语音识别系统的框图 在系统使用前,有个模型的训练阶段,即用户将口令表中的口令分别依 次读入三遍,提取语音特征参数后由该系统训练建立相应口令的c d h m m 模 型( 每条口令对应一个模型) ,完成模型的建库工作,用h m m 的训练算法为 训练语音库中的每条口令建立一个h m m 模型,记为九,所有的九。组成 中国科学技术大学硕士论文第一二章基于c d h m m 的【j 令式语音识别系统 系统的h m m 模型库。在识别使用阶段,待测口令语音在提取成特征矢量序 列后,从h m m 模型库中依次取出一组模型参数九,用v i t e r b i 算法计算测试 语音在参数九,下的输出概率评分值l o g p ( ) ) ( 通常称为v i t e r b i 评分) ,最 后通过v i t e r b i 评分比较即选取最大的l o g p ( ) 所对应的语音为识别结 果。 由于该系统是采用口令作为基元进行h m m 建模的,而从实用性考虑, 口令集中的口令采取随意设置方式,即每条口令的长度不一定相同,可能是 一个字的口令,也可能是两到三个字甚至更多的字组成的口令,在本文实验 的口令集为: f0 、1 、2 、3 、4 、5 、6 、7 、8 、9 、大、水、开门、空调、关电视、计算机、 足球比赛、科学与技术、打电话给我、1 2 点半、5 点5 0 、7 点3 刻、8 点2 5 、 9 点2 0 、9 点半 。 其中包括了:十个汉语数字:0 9 ;以及两个或两个以上汉字组成的汉语 口令:“开门”,“关电视”等常用命令式口令;还有如“9 点2 0 ”,“9 点半” 等近似度很高的报时口令,共2 5 条口令组成口令集。由一女性发音,每条口 令3 0 遍,其中2 0 遍组成训练集,另外1 0 遍组成测试集,语音的采样频率为 1 6 k h z ,帧长3 2 m s ,帧移1 6 m s 。 2 。3 特征参数提取 语音信号作为一种时序信号,要提取其中蕴含的模式,需要进行一定的 前端处理,使模式得到适当的表示,从而比较容易对其建模。语音信号中蕴 含了丰富的语意和说话人的信息,但也有许多的冗余信息。因此,在建模前, 需要先进行相关的特征参数的提取。 语音信号的一个重要特点是短时平稳性,这一特点使得语音信号的分析 大大简化。语音信号虽然是非平稳过程信号,但在比较短的一段时间内,可 以近似认为是一个平稳信号,因此,对语音信号进行分析和特征参数的提取 一般是分帧进行的,帧长一般为5 3 0 m s ,视具体情况而异,帧与帧之间须 中国科学技术大学硕士论文第二章基于c d h m m 的1 :3 令式语音识别系统 有交迭,帧长和帧移的示例如图2 - 2 。 根据不同的识别任务和提取方法,有多种语音特征参数,如线性预测编 码系数l p c 参数【10 1 、l p c 倒谱系数1 0 1 、m e l 频域倒谱系数 8 1 ( m f c c ) 等等, 通常m f c c 参数比l p c 倒谱系数更符合人耳的听觉感知机理,在有信道噪声 和频谱失真的情况下,其识别精度较高,因此本系统选择m f c c 参数作为特 征参数。 第k 帧 h - - - - - d 第( k + 1 ) 帧 - - - - - - - - - - - - j 第( k + 2 ) 帧 帧咎吐长 k h h 图2 - 2语音短分析的分帧处理示意 2 3 1 m e l 倒谱系数 倒谱系数的提出是基于语音信号的发声模型的。语音信号可视为声门激 励信号和声道响应的卷积,因此语音信号的短时频谱是声门激励信号的频率 响应与声道传输函数的乘积。一般认为声道传输函数与语意密切相关,而声 门激励信号的频率响应则被视为与说话人信息相关。理想的情况是,提取声 道传输函数作为特征来进行语意识别。提取声门激励信号的频率响应来进行 话者识别。但是,实际情况是由于人的发声过程中声门激励信号和声道的作 用并不是线性的,因此,要完全分离这两种信息是不现实的。我们只能近似 将两者分离,这就是语音信号处理中常常提到的同态解卷,即倒谱分析。 基本思想是,用对数算子将声门激励信号的频率响应与声道传输函数的 乘积变成各自对数频率响应的和,由于声门激励信号的频率响应从频谱上看 是一个快变信号,而声道传输函数从频谱上看是一个慢变信号。声门激励信 号的频率响应的“频谱”应主要集中在“高频”区;而声道传输函数的“频 谱”应主要集中在“低频”区。这样,我们就可以将两者分开了。 中国科学技术大学硕士论文第二章基于c d h m m 的口令式语音识别系统 m e l 频率域倒谱参数( 即m f c c 参数) 是一种感知频域倒谱参数。该参 数从人耳对频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征, 识别性能和抗噪性能均明显优于传统的线性预测倒谱系数l p c c 。 根据s t e v e n s 和w o l k m a n 的研究( 1 9 4 0 ) ,人类听觉系统所感知到的声音 的频率与该声音的物理频率的对应关系并不是线性的,也就是说,听觉系统 的感知频率并不线性地与物理频率相对应,而是在一定范围内呈对数关系。 这样一种对应关系在1 0 0 0 h z 以下近似为线性,而在1 0 0 0 h z 以上则近似为对 数增长,如图2 3 所示。这样一种近似被普遍应用在语音处理领域,例如f a n t ( 1 9 5 9 ) 提出的近似公式: f 只扩1 0 0 0 l 0 9 2 1 + 揣) ( 2 1 ) 式中的f m e l 是以美( m e l ) 为单位的感知频率,f h :是以赫兹为单位的实际频率。 将语音信号的频谱变换到感知频域中,能更好地模拟听觉过程的处理。 图2 - 3感知频率( m e l ) 和物理频率( h z ) 的对照表 进一步的研究发现,噪声的存在会对纯音产生掩蔽。一个纯音可以被以 它为中心频率、并且具有一定频率带宽的连续噪音所隐蔽,若在这一频带内 噪声功率等于该纯音的功率,则该纯音处于刚能被昕到的临界状态,这样的 频带称为临界带( c r i t i c a lb a n d ) ,相应带宽成为临界带宽。一个临界带宽的单 位用b a r k 来表示。在2 0 h z 1 6 k h z 的范围内可划分2 4 个b a r k ,临界带的分 布在l k h z 以下近似线性,而在l k h z 以上近似对数关系,临界带宽的增长与 中雨秘学技术大学硕士论文第二章基于c d h m m 的日令式语黹识别系统 感煞频率熬臻长是一致静。 根据临界带的划分,将语音在频域上划分成一系列三角形的滤波器序列, 瑟m e l 滤波嚣缝,懿图2 1 4 髓示。麓m e l 滤波器缝瓣语音频谱进行滤波秘鸯羹 权,使语音信号更加逼近人鲜的非线性听觉感知特。睫,这对于提取更加有效 静疆密特征参数具煮积极熬懑义。 爨2 4提取m f c c 参数的示意图 m f c c 参数的提取过程如图2 - 4 ,其中m 为帧标号,d 为临界带滤波器 缱瓣数量,n 必一事爽内熬罴样点数。罴薅诗簿蓬程燕下: 1 。对每帧的信号序列s ( n :m ) 进行离散f f t 计算其线性频谱,取频谱模的 平方褥到功率谱( 遣有人取频谱静模) ; 2 ,语音功率谱经过m e l 滤波器组滤波和加权,得到d 个参数五一 3 对置。做对数运算和离散余弦变换,所用的离散余弦变换剀的计算公式 为: m f c c p = 兰1 珊磷华) 泣2)i0 = “ p 【o ,d 一1 】 式中,y f f ) :第f 个m e l 滤波器的对数能量输出,i = l ,2 ,d 。 p :m f c c 参数的盼数。 d :m e l 滤波器组中三角形滤波器的数量。 中国科学技术大学硕士论文 第二章基于c d h m m 的r a 令式语音识别系统 2 3 2m e l 滤波器组的选择 1 根据临界带划分的m e l 滤波器组 由上述可知,传统的m f c c 的m e l 滤波器组是根据临界带宽( c r i t i c a lb a n d ) 划分得到的,一个临界带宽的单位用b a r k 来表示。在2 0 h z 1 6 k h z 的范围 内可划分2 4 个b a r k ,临界带的分布在l k h z 以下近似线性,而在l k h z 以上 近似对数关系,临界带宽的增长与感知频率的增长是一致的。 6由 0 图2 - 5m e l 滤波器组 根据临界带的划分,m e l 滤波器组在物理频率下划分如图2 5 所示, 在 2 0 h z 1 6 k h z 的范围内2 4 个三角形滤波器,如表1 所示: 孛蓦科学控本丈学镁士论文第二章基于c d h m m 熬日令式锾啻漩剃系统 表1 临界带的划分 关毽带序号中心频率关键带宽下截丘频率上截壹频率 n oh zh zh zh z l5 0 8 02 0 1 0 0 21 5 01 0 01 0 02 0 0 32 5 01 0 02 3 0 0 43 5 01 0 03 0 04 0 0 s 4 5 0 1 1 0 4 0 0 5 l o 65 7 01 2 05 i o6 3 0 77 0 01 4 06 3 07 7 0 88 4 01 5 07 7 09 2 0 91 0 0 01 6 09 2 01 0 8 0 t 0】1 7 01 9 01 0 8 01 2 7 0 1 11 3 7 02 1 01 2 7 01 4 8 0 1 21 6 0 02 4 01 4 8 01 7 2 0 1 3 1 8 5 02 8 01 7 2 02 0 0 0 1 42 1 5 03 2 02 0 2 3 2 0 1 5 2 5 0 03 8 0 2 3 2 0 2 7 0 0 1 62 9 0 04 5 02 了0 03 1 5 0 1 73 4 0 05 5 03 1 5 03 7 0 0 1 84 0 0 07 0 0 3 7 0 04 4 0 0 1 9a 8 0 09 0 04 4 0 05 3 0 0 2 0 5 8 0 01 1 0 0 5 3 0 0 6 4 0 0 2 t7 0 0 01 3 0 06 4 0 07 7 0 0 2 28 5 0 01 8 0 07 7 0 09 5 0 0 2 31 0 5 0 02 5 0 09 5 0 01 2 0 0 0 2 41 3 5 0 0 3 5 0 0 1 2 0 01 5 5 0 0 在实际应用中,m e l 滤波器组的数嫩d 应根据语音信号的采样频率而定, 般最蠢除数滤渡器熬孛心频攀不痤大予采样频率懿一半。 2 在m e l 标度上等分纳m e l 滤波器组 西髓常糟的舅一辩m e l 滤波器组黼分是将滤波器缀在m e l 标度上等分 1 2 2 1 。即:滤波器组中舔个三角滤波器的跨度在m e l 频域内是相等的,所有 滤波器总体上覆盖从0 h z 到n y q u i s t 频率,即采样频率的二分之一,而m e l 频率鳇诗算摄攥式2 1 霹激褥铡,该滤波器组的中心频率是投掇采样貘率翻 孛莺辩学技术丈学鞭圭论文第二章基于c d h m m 静翻令式语毒 鬟别系统 d 的取使变化渐变化的。 为了适合d s p 的实现,我们需要降低m f c c 运算量和存储量,因此d 取值较小,设港音采撵频率为8 k h z ,d 取1 4 。对照表l ,可知按照关键带划 分的m e l 滤波器组的上截至频率是2 3 2 0 h z ,而采样频率的二分之一为4 k h z , 遵是一般人类谗音熬频率范围,爨墩该滤波嚣并不戆嚣掰有频率熬逶蠢遂零亍 处理。而按照m e l 标度等分的m e i 滤波器组,酋先将4 k h z 转化为m e l 标度, 在m e l 标度内平均翊分三角滤波器,英对应的物理频率翔分如表2 ,该滤波 器能包含所有的语音频率。 表2 m e i 标度等分的滤波器的划分( 4 k h z ,i ) = - 1 4 ) m e l 滤波器序号中心频率关键带宽下截止频率上截止频率 n oh zh zh zh z l1 5 53 1 003 1 0 23 1 03 1 5 54 6 4 34 6 43 0 93 1 0 6 1 9 4 6 t 9 3 l o4 6 47 7 4 57 7 43 1 06 1 99 2 9 69 2 93 4 57 7 4l l l 9 71 1 1 94 3 09 2 91 3 5 9 81 3 5 9 5 0 71 1 1 9 1 6 2 6 91 6 2 65 6 51 3 5 91 9 2 4 1 01 9 2 4 6 2 91 6 2 6 2 2 5 5 1 l2 2 5 57 0 01 9 2 42 6 2 4 1 22 6 2 47 8 02 2 5 53 0 3 5 1 33 0 3 58 6 72 艿2 43 4 9 1 1 43 4 9 19 6 53 0 3 54 0 0 0 为了比较这两种m e l 滤波器组的选择对识别性能的影响,我们进行了如 下实骏,采露c d h m m 为识剐模鍪豹隈定入的2 5 条黼令静实验系统对这两 种m e l 滤波器组的划分在相嗣条件下的识别,实验结果如表3 所示。语音采 样率为1 6 k h z ,根据乃奎斯特采样定律,最商阶的滤波器的中心频率不应大 予8 k h z ,对照2 4 个中心频率的数据,d 墨2 1 ,但考虑到语鬻信号婚频率一 般不越过4 k h z ,因此实验中d 选1 4 ,k ( m f c c 参数的阶数) 选9 ,c d h m m 豹凌态数荛3 。v l e l 滤波嚣缀按照接爨萤剡分撂豹俊谱参数称m f c c ,在 中国科举技术大学硕士论文第二帮基于c d h m m 的口令式语音识别系统 m e l 标成上等分的倒谱参数称m f c c 。 表3 两种不同m e l 滤波器组划分下系统的识别性能正识率( ) c d h m m 商魉23 4 s6 混食纛 m f c c 9 1 2 0 9 1 6 0 9 2 o o 9 2 4 0 9 2 4 0 m f c c 9 9 2 0 9 9 2 0 9 9 6 0 9 9 6 0 9 9 6 0 出凌3 可激蚕惑在m e l 拣度上等分豹m f c e 其识襄蛙熊簧明显娩予按照 临界带划分得m f c c 。 2 3 3m f c c 的噪声鲁棒性 虽然m f c c 在予净语音环境下可班获褥嘏嵩的谖嗣搴,然 嚣,当镶试语 音中含有不同程度的噪声污染时,语音识别系统的性能会急剧下降,尤熊是 训练环竣与测试环境不相同时。淡4 绘出了我们对不同信噪比的加性平稳嵩 斯自嗓声条件下的测试语音述行的识爰实验缩莱,实验条髂与表3 稿丽,语 音模型浆用干净语音训练得到,状态数为4 ,混合度为2 ,d 选1 8 ,k 选1 1 。 表。重m f c c 在噪声塔境下斡谡l 榷撬正识率( ) 干净 3 0 d b2 5 d b2 0 d b1 5 d b m f c c 9 9 2 0 9 1 2 0 6 6 8 0 3 6 8 0 2 0 4 0 从袭4 我们看到,当系统的俗噪比下降到2 5 d b 以下时,系统的性能就已 经不能实用了。因此,提高系统盼抗噪性和鲁棒性是语音识别系统走向实用化 翡关键之一。通露,在特征参数缀藉模鍪级酃蠢不少撬毒系统鲁捧往豹方法, 本节着遘讨论在参数级上提高系统鲁棒性的一些方法。 在参数级上提赢抗躁性的方法主要有采用瞬态参数【】1 】,即m f c c 的差分 系数am f c c 及am f c c ,鲻港均篷耪减法【1 2 】等。 对于噪声污染的测试语音,我们主要考虑的背景环境噪声是加性平稳噪 声,相瓣于语音的频谱来说,背袋噪声的频谱阿以认为是熳变成分,是静态 成分,黼魏对m f c c 作差分运冀将在一定程度上去除这穗翻性平稳嗓声静污 染。因而,这种瞬态的特征参数鼠有比m f c c 更好的噪声鲁棒性。实验中采 串蓬科学技术走学璐士
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年建材墙地砖类原材料采购合同协议
- 2025年城市燃气管道特许经营合同合同履行合同履行监督评估与合同履行监督协议(GF-2004-2502)
- 物业管理服务合同范本及补充协议
- 学校安全管理手册
- 农田水源保护规定
- 地形影响下台风作用于输电塔 - 线体系的响应特性与应对策略研究
- 地基液化与非液化条件下土-桩-桥墩体系动力响应特性研究
- 地基GPS网:电离层总电子含量监测与多元应用探究
- 企业在职员工保密协议书5篇
- 父母教育方式对子女成就动机的影响-洞察及研究
- 银行安全用电知识培训课件
- 2025鄂尔多斯市国源矿业开发有限责任公司社会招聘75人笔试参考题库附带答案详解
- 合格兽药知识培训课件
- 国网甘肃电力招聘考试真题2024
- 医院住院综合大楼项目监理大纲
- 第8课《就英法联军远征中国致巴特勒上尉的信》公开课一等奖创新教学设计 统编版语文九年级上册
- 2025-2026学年人美版(北京)(2024)小学美术三年级上册教学计划及进度表
- 5.2凝聚价值追求 教案 -2025-2026学年统编版道德与法治九年级上册
- 2025年高考英语新课标Ⅱ卷点评及2026备考方向 课件
- 军事信息管理办法
- 第4课 科技力量大 第三课时(课件)2025-2026学年道德与法治三年级上册统编版
评论
0/150
提交评论