




已阅读5页,还剩76页未读, 继续免费阅读
(检测技术与自动化装置专业论文)基于lonworks总线技术的说话人识别系统研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于i d n w b r i 岱总线技术的说话人识别系统研究与实现 基于l o n w 6 r k s 总线技术的说话人识别系统研究与实现 摘要 语音识别技术是一门涉及信号处理技术、模式识别、概率论和信息 论、语音学、人工智能等多种学科的交叉科学。近年来随着语音识别理 论研究的深入和数字信号处理软硬件技术的发展,语音识别技术已逐步 具备走出实验室,服务于社会的能力。说话人识别技术是语音识别技术 的一种,共分为说话人确认和说话人辨认两种。与语音识别不同的是, 说话人识别系统力求选取那些话者间差异大而话者本身的差异小的参 数或参数组合。 8 0 年代后期,埃施朗公司( e c h e l o n ) 为开发控制网的通用标准而 设计了h n w _ o r k s 技术平台。它通过使用h n t a l k 协议来完成系列任务, 如今l o n w r o 溉技术已经成为控制网的通用标准。为了经济、标准化布 置,埃施朗公司设计了神经元芯片。神经元芯片提供了通信协议i s 0 o s i 模型的前六层,用户只需要提供应用层编程和配置。这就使协议实施标 准化,并使得开发和配置较为容易。在某些复杂的应用中,处理器速度 和神经元系列的最大存储器容量不足以完成l o n w r o r k s 节点要求的功 能。为了适应这些应用,某些类型的神经元芯片拥有高速并行接口,使 任何微处理器能使用神经元芯片。此外,b n t a l k 协议可移植在任何处 理器上运行。 本文主要进行了基于l o n w b r k s 技术的说话人识别系统的设计和实 现,h n w r o r k s 网络是由众多智能节点通过双绞线直接连接形成,单个 v 基于l o n w o r l 【s 总线技术的说话人识别系统研究与实现 智能节点都是一个说话人识别系统。神经元芯片选用了m o t o r o l a 公司生 产的m c l 4 3 1 2 0 d w 芯片,其内部集成了三个管线c p u ,一个用于执行 用户编写的应用程序,另外两个完成网络通信任务。该芯片使用n o d e b u i l d e r 作为它的软件开发平台,该平台将n e u r o nc 语言编辑、编译汇 编、连接及调试等功能于一体,用户可以很方便的开发各种应用系统。 单个节点的语音处理芯片选用n 的刚s 3 2 0 v c 5 4 0 2 ,语音的特征参数 采用基音周期、线性预测倒谱系数和两者的组合。在神经元芯片所连接 按键的控制下,经d t w 模板匹配法分别进行的测验,得出结果由与神 经元芯片相连的l e d 显示。 关键字:说话人识别,b n w r o r k s 现场总线,神经元芯片,基音周期, 线性预测倒谱系数( l p c c ) ,动态时间规整( d t w ) 方法 基于l o n w b r l 岱总线技术的说话人识别系统研究与实现 t h es t u d ya n di m p l e m e n to fs p e e c hr e c o g n i t i o nb a s e do n l o n b r k s a b s t r a c t s p e e c hr e c o g n i t i o nt e c h n o l o g yi sr e l a t e dt os i g n a lp r o c e s s i n g ,p a t t e m r e c o g n i t i o n , p r o b a b i l i t y a n di n f o r m a t i o nt h e o r y s p e e c hs u b j e c ta n d a r t i f i c i a li n t e l l i g e n c ea n ds oo n n o w a d a y sw i t ht h es t u d yo fs p e e c h r e c o g n i t i o nt h e o r ya n dt h ed e v e l o p m e n to fd i g i t a ls i g n a lp r o c e s s i n g s t e c h n o l o g y ,s p e e c hr e c o g n i t i o nt e c h n o l o g yi sg r a d u a l l yh a v i n gt h ea b 眦i e s o fw a l k i n go u to fl a ba n ds e i n gf b rs o c i e t y - s p e a k e rr e c o g n i t i o ni so n e k i n do fs p e e c hr e c o g n i t i o n i tc a nb ed i v i d e di n t os p e a k e r 、比r i f i c a t i o na n d s p e a k e r i d e n t i f i c a t i o n d i f c e r e n tf r o m s p e e c hr e c o g n i t i o n , s p e a k e r r e c o g n i t i o ns y s t e m sc h o o s et h ep a r a m e t e ro rp a r a m e t e r sw h i c hh a dg r e a t d i 蜀眙r e n c eb e t w e e ns p e a k e r sa n dl “t l ed i f e r e n c ea b o u ti t s e l f 】l a t e ri n8 0 s ,e c h e l o n d e s i g n e dl o n w b r k st e c h n o l o g yf o r c o n t r 0 1 n e t w o i - k su n i v e r s a ls t a n d a r d i tc o m p l e t e st a s k su s i n gl o n l 、a l kp r o t o c 0 1 n o wl o n w - o r k sh a sb e c o m et h eu n i v e r s a ls t a n d a r do fc o n t r 0 1n e t w o r k c o n s i d e r i n gp r a c t i c a l i t ya n ds t a n d a r dd i s p o s a l ,e c h e l o nd e s i g n e dn e u r o n c h i p n e u r o nc h i ps u p p o r t st h ef o r m e rs i xl a y e r so fi s o o s im o d e l s o v 基于l o n w o r l 【s 总线技术的说话人识别系统研究j 实现 u s e r so n l yn e e ds u p p o nt h ea p p sp r o g r a m m ea n dc o n f i g u r a t i o n t h i s m a k e st h e i m p l e m e n t o f p r o t o c o ls t a n d a r d , a l s om a k e se a s i e rf o r d e v e l o p m e n ta n de o n f i g u r a t i o n i ns o m ec o m p l e xa p p l i c a t i o n s ,t h e s p e e do f c p ua n dt h em a x i m u mm e m o r yc a n tc a t c hu pw i t ht h el o n w b r k sn o d e s d e m a n d i no r d e rt om e e tt h e s ea p p l i c a t i o n s ,s o m ek i n d so fn e u r o nc h i p s d e s i g n e dw i t hh i g hs p e e dp a r a l l e li n t e r f a c e s oa n yk i n do fm c u c a nu s ei t f u r t h e r m o r el o n 7 r a l kp r o t o c o lc a nb et r a n s p l a n t e di na n yo t h e rm c u t h i sa r t i c l em a i n l yt a l k sa b o u tt h ed e s i g na n di m p l e m e n to fs p e a k e r r e c o g n i t i o nb a s e d o nl o n w r o r k s m a n yi n t e l l i g e n t n o d e sc o m p o s et h e l o n w b r k sn e t w o r k t h r o u g ht w i s t e d p a i r :e a c h n o d ei sa s p e a k e r r e c o g n i t i o ns y s t e m w 色c h o s em o t o r 0 1 a sm c l 4 3 1 2 0 d w a so u rn e u r o n c h i p t h e r ea r e h r e ec p u si n s i d ei t o n eo ft h e m i su s e dt od e a lw i t hu s e r s a p p l i c a t i o n r o u t i n e , o t h e rt w o a r ef o rn e m o r k sc o m m u n i c a t i o n m c l 4 31 2 0 d wu s e sn o d eb u i l d e ra si t ss o f t w a r ed e v e l o pe n v i j r o n m e n t ,t h i s e n v i r o n m e n ti n t e g r a t e sn e u r o nc se d i t、c o m p i l e 、1 i n ka n dd e b u gf u n c t i o n 。 u s e rc a ne a s i l yd e v e l o pm a n yk i n d so fa p p l i c a t i o ns y s t e m e a c hn o d e s s p e e c hp r o c e s s i n gc h i p i st i st m s 3 2 0 v c 5 4 0 2 ,c h a r a c t e rp a r a m e t e ri s f u n d a m e n t a l c y c l e 、 “n e a rp r e d i c t c e p s t r u m c o e 彤c i e n ta n dt h e c o m b i n a t i o no ft h e m u n d e rt h ec o n t r 0 1o ft h ek e y b o a r dl i n k e dw i t hn e u r o n c h i p ,w et e s t t h ep a r a m e t e r sw i t hd y n a m i ct i m ew a r p i n g ,t h er e s u l ti s d i s p l a y e db yl e d 1 i n k e dw i t hn e u r o nc h i p s h a ob a o s h e n g ( d e e c t i o nt e c h n 0 1 0 9 y & a u t o m a t i ca s s e m b l y ) v u 基于b n w b d 岱总线技术的说话人识别系统研究与实现 s u p e r v i s e db yz h e n gj i a n l i k e y w o r d s :s p e a k e rr e c o g n i t i o n ,】乙o n w 6 r k s , n e u r o n c h i p , f 1 l l n d a m e n t a lc y c l e ,l i n e a rp r e d i c tc e p s t r u mc o e f f i c i e n t ,d y n a m i ct i m e w r a 叩i n g 基于l 0 n w b r b 总线技术的说话人识别系统研究与实现 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文, 是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己明确注明 和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品 及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本 声明的法律结果由本人承担。 学位论文作者签名:印蜜世 日期:闪年月矽日 基于跏w b r k s 总线技术的说话入识别系统研究与实现 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授 权东华大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本版权书。 本学位论文属于, l 不保密日。 学位论文作者签名:叩喜兰 日期:p 刁年月加日 指制币签名翻是。 日期:7 n 年1 月 日 基于l d n w b r l 沾总线技术的说话人识别系统研究与实现 第一章绪论 语言是人类交流信息的基本手段。语音是语言的声学表现,随着信息科学技术 的飞速发展,语音处理技术在最近2 0 年内取得的重大进展。语音信号处理技术的几 大分支语音识别、语音合成、语音编码都在蓬勃发展,科研成果累累并不断地 推向实际应用。 语音识别技术是一门涉及信号处理技术、模式识别、概率论和信息论、语音学、 人工智能等多种学科的交叉科学。由于其学术思想的综合性、趣味性和可推广性, 一直深深地吸引着众多学者,同时由于其研究成果的实用性和与人民生活的密切关 系,它又受到了广大公众的密切关注。语音识别技术开始于上世纪4 0 年代末,起初 发展非常缓慢。上世纪6 0 年代初期,随着计算机技术、微电子技术和数字信号处理 技术的发展,以及语音处理和识别技术在许多方面的发展,使得语音识别技术获得 了快速的发展。 本章将简要介绍语音识别技术的发展概况和现状、语音识别技术的分类以及应用, 最后是本人所作的工作和本篇论文的安排。 1 1 语音识别技术的发展概况和现状 1 8 7 6 年贝尔发明了电话,那是首次采用声电、电声转换技术实现远距离语音通 信。1 9 3 9 年h d u d l e y 研制成功了第一个声码器,这一发明奠定了语音产生模型的 基本思想,在数字信号处理领域具有划时代的意义。1 9 4 7 年b e l l 实验室发明了语谱 图仪,这一发明意味着自动语音识别研究的开始,只不过起初只是通过人工分析语 谱图进行语音识别【1 j o 语音识别的研究始于2 0 世纪5 0 年代,6 0 年代和7 0 年代初语音识别最重要的 发展是语音信号线性预测编码( l p c ) 技术和动态时间规整( d t w ) 技术1 3 】1 4 】,有 效地解决了语音特征提取和时间不等长匹配问题,对特定人的语音识别十分有效。 研究特点以孤立词语音识别为主,通常把孤立词作为一个整体建立模板。 2 0 世纪8 0 年代,语音识别的重点研究之一是连接词语音识别,开发了各种连 接词语音识别和关键词识别算法,如多级动态规划语音识别算法1 5 】;另一个重要发 基于l d n w b r l c s 总线技术的说话人识别系统研究与实现 展是语音识别算法从模板匹配技术转向基于统计模型技术,人们的研究从微观转向 宏观,不再刻意的追求细化语音特征,而是更多地从整体平均( 统计) 的角度来建 立最佳的语音识别系统。统计语言模型开始取代基于规则语言的模型【6 j 。 进入2 0 世纪9 0 年代后,再细化模型的设计、参数提取和优化,以及系统的自 适应技术上取得了一些关键的进展。语音识别技术进一步成熟,并开始向市场提供 产品。 我国语音处理研究起步虽晚,但发展很快。如清华大学、中科院自动化所、声 学所、哈工大的语音识别系统,都获得了较好的性能。在国家8 6 3 计划的支持下, 清华大学和中国科学院自动化所等单位研制成功了听写机原理样机,包含一个很大 的多音节词表,方便了非特定人的连续语句的读入。目前我国对大词汇量连续语音 识别系统的研究已经接近国外先进水平【3 1 。 目前在语音识别研究领域非常活跃的课题为稳健语音识别同、说话人自适应技 术【8 】、大词汇量关键词识别算法【9 1 、语音识别可信度评测算法【9 】、基于类的语言模型 和自适应语言模型,以及深层次的自然语音理解【1 0 】【1 1 】。研究的方向也越来越侧重于 口语对话系统。目前说话人自适应的研究已取得了相当大的进步,出现了一些较为 成熟的技术,如声道归一化技术、最大似然线性回归算法、b a y e s 自适应估值算法 等【2 1 。研究热点转向如何实现在线无监督的学习和多方法综合自适应学习算法【8 1 。 稳健语音识别算法还未有根本性突破,但其研究意义非常重大;此外语言模型也是 目前研究的一个重要方面。 1 2 语音识别技术的分类及应用 语音识别按照任务的不同可以分为四个方面:说话人识别、关键字识别、语言 辨识和连续语音识别i 甜。 说话人识别( s r ) 也称作声纹识别,该技术是以语音对说话人进行区分,从而 进行身份鉴别与认证。说话人识别和语音识别的区别在于,说话入识别不注重包含 在语音信号中的文字符号以及语义内容信息,而是着眼于包含在语音信号中的个人 特征,提取说话人的这些个人信息,以达到识别说话人的目的。 说话人识别又可分为两个方面,即说话人辨认( s p e a k e r i d e n t i f i c a t i o n ) 和说话 人确认( s p e a k e rv e r i f j c a t i o n ) 。前者用以判断某段语音是若干人中的哪一个所说的, 是“多选一 的问题;而后者用以确认某段语音是否是指定的某个人说的,是“一 2 基于l o n w b r l 【s 总线技术的说话人识别系统研究与实现 对一的判别”问题。它们各有自己的适用范围,如在刑侦方面可运用说话人辨认技 术,而银行交易时则需要确认技术。对于说话人识别来说,不管是辨认还是确认, 都可以分为与文本有关的( t e x t d 印e n d e n t ) 和与文本无关的( t e x t i n d e p e n d e n t ) 两 种方式。“与文本有关”,是指说话人按规定的文本发音或按提示发音;“与文本无关” 指无论说什么话都可以进行说话人识别。 关键字识别( k e y b o a r dr e c o g n i t i o n ) 是一种重要的自动语音识别( a u t o m a t i c s p e e c hr e c o g i l i t i o n ) 技术【1 2 】。它应用于一些特定的场合,由于速度、高检出率或其 他特定的要求,人们并不需要系统识别出整个句子,更不需要理解整个句子,而只 关注那些包含特定词( 关键字) 的句子。 一个较为理想的关键字检出系统应具有如下特征: 1 、任意人。系统对不同人的说话又一定适应能力; 2 、 单选或多选性。句中关键词个数可以根据具体情况进行设定; 3 、 良好的拒识性能; 4 、 良好的折中性:可根据具体需要,在漏识率和误警率之间进行调整,以达 到很好的平衡。 语言辨识( 1 棚9 1 1 a g ei d e n t i 丘c a t i o n ) ,或称语种识别,与语音识别和说话人识别 有所不同,它是通过分析处理一个语音片断以判断其所属语言种类的过程,本质上 也是语音识别一个方面。 人是当今世界上最准确地语言辨识系统。只需数秒钟的语音,人就能对自己是 否了解该语言的问题做出判断。对于一种不熟悉的语言,也常常能够根据与他们所 熟悉的语言的相似性做出主观判断。人和机器可以利用很多信息来区分不同的语言, 可以参考语言学文化【1 2 】来深入探讨某种特定语言如何区分于另一种语言,也可以参 考m u t h u s a m v 等人【1 3 】的研究成果。总之,不同语言间的差别信息有很多,包括音韵 学、韵律学、词法和句法等不同层次的信息。 语音识别就是研究让机器最终能听懂人类口述的自然语言的一门学问。听懂有 两种含意,一种是将这种口述语言逐词逐句的转换成相应的文字;第二种则是对口 述语言中所包含的要求或询问做出正确的反应,而不拘泥于把所有的词转化为书面 文字。语音识别可以从对发音方式和说话人的限制、所要识别的词表的大小和说话 内容的范围等角度出发来分类,识别的难度是不一样的。连续语音识别则是语音识 3 基于l 0 n w b d 岱总线技术的说话人识别系统研究与实现 别中的重中之重。 1 3 语音识别技术面临的困难 语音识别的最终目的是让机器能听懂人类的语言,实现真正的入机对话。然而 要做到这一点,却是相当的困难。这主要存在以下几个主要原因: 1 、语音识别系统的复杂性 语音信号处理是一项极其复杂的工程,它涉及到语音声学、人工智能、统计学、 模式识别、通信学和计算机学等多门学科领域【1 4 】。这些相关学科自身发展的不成熟 不完善在某种程度上限制了语音识别技术的发展。 2 、 语音识别处理的对象范围大 人类的语言种类繁多,每种语言中由字或单词组成的词组、句子则更是数不胜 数。就是对于同一种语言来说,由于说话人的不同,也会造成语音识别的困难。这 样庞大的语音识别研究范畴,是一般模式识别系统所很少碰到的。目前,语音识别 从小词汇量、孤立词的识别系统逐渐发展到超大词汇量、连续语音识别系统。 3 、 语音信号本身的特性 语音信号是十分复杂的非平稳信号,在语音信号的分析时,短时平稳的假设与 实际有所不符。到目前为止,提取快变的语音段特征还没有找到较为理想的方法。 语音信号的不稳定性还体现在同一说话人发音的长短、语气的轻重、频率高低以及 情绪变化、身体状况等众多方面。 4 、噪声的干扰 大多数实际应用环境中总是存在各种各样的噪声,在于语音信号采集时,语音 输入设备、外界噪声都会对语音信号产生影响。这会带来语音信号输入范围的断定、 词间界限的区分等方面的困难。 总之语音识别的研究是一项极其复杂而艰巨的工作,它不仅依赖于人类对语音 信号本身的认识和探索程度,还依赖于微电子学、通信学、计算机学等相关学科的 发展状况。语音识别系统的产品化的困难主要在于顽健性( r o b u s t n e s s ) 的提高, 由于说话人、使用环境等许多不确定因素的影响,一个语音识别系统在正常测试时 的指标可能很高,而对于某个具体使用者来说可能相当差。尽管如此,人类对语音 识别的研究从未停止过,并已取得不少的成果。 4 基于l 0 n w b r k s 总线技术的说话人识别系统研究与实现 1 4 本文的研究内容 目前语音识别在理论上和实验室的条件下达到了比较高的水平【1 5 1 。前面所介绍 的语音识别技术的实现大多是基于p c 机或者大型计算机的。由于选用p c 机或大型 计算机作为其硬件基础,它们的费用高、功耗大、体积大、适用性差,很难进入实 用化。 本论文研究内容是基于功n w 6 r k s 现场总线技术的说话人识别系统研究与实现, 文章首先探讨了各种语音特征参数的提取方法,在充分了解各种特征参数的优缺点 的基础上,系统采用线性预测倒谱系数与基音周期两种特征参数,利用动态时间规 整( d t w ) 的模式识别方法,进行了基于特定人的、小词汇量的说话人识别系统设 计。l d n w o r k s ( l o c a lo p e r a t i n gn e 觚o r k ) 现场总线是一种全面的测控网络,能通过 双绞线、电力线、同轴电缆、红外线、无线射频等多种通信介质进行通讯。本文通 过对功n w - o r k s 技术与语音识别技术的结合,设计了适用于门禁、安防系统的语音 识别系统。 首先综合地分析讨论了语音识别技术中的预处理技术、特征参数提取技术以及 模式识别方面的算法理论,从中选择适当的特征参数和识别算法并确定实现方案。 根据方案进行系统主芯片选择和外围电路的设计,最终绘制出系统的整体实现硬件 原理图。然后编写相关程序进行外围电路的调试,修改相应的电路图,并最终编写 全部程序进行系统的整体调试,调试成功后进行预定的实验,纪录实验结果。 1 5 章节安排 本篇文章的安排如下: 第一章:概论部分,主要介绍了语音识别的发展概况和现状、语音识别技术分类与 应用、语音识别技术面临的困难,最后简要说明了本论文研究的内容。 第二章:语音识别技术的基本理论部分,首先介绍了语音信号的基本知识及语音识 别系统的基本结构,然后依次讨论了语音信号的数字化和预处理、端点检测方法, 最后探讨了适用于说话人识别特征参数的提取及相关匹配算法实现。 第三章:l o n w b r k s 现场总线技术部分,介绍了b n w 6 r k s 总线的基本知识,包括 h n t a l l 【协议内容和神经元芯片、神经元芯片的编程语言、收发器和路由器。 第四章:介绍了本文系统得芯片选型及相应实现。 第五章:介绍了系统的软件编程实现部分;第六章:结论与展望。 基于b n w b f l 【s 总线技术的说话人识别系统研究与实现 第二章语音识别技术基本理论 2 1 语音信号的基本知识 2 1 1 语音产生的生理机构与过程 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门、声道引起音 频振荡而产生的。在发声之初,声门处的声带肌肉收缩,声带并拢间隙小于1 m m , 这股直流空气冲过很小的缝隙,使声带得到横向和纵向的速度,此时声带向两边运 动,缝隙增大( 成年男性开到最大时截面积约为2 0 m m 2 ) ,声门处压力下降,弹性恢 复力将声带拉回平衡位置并继续趋于闭合,即声带产生具有一定的振动周期振动, 并最终产生声音。因此,语音的产生是一个复杂的能量转换过程,先后有化学一电、 电一机械、机械一空气动力、空气动力一声能等转换过程n 1 。 语音产生的生理方面主要涉及三个系统:声门下系统、喉系统以及声门上系统。 声门下系统,俗称呼吸器官。它由气管、支气管、肺、呼气肌群、吸气肌群和 膈肌组成。它是发音的动力器官,产生语音的能量正是来源于正常呼吸时肺部呼出 得稳定气流。 喉系统由喉头、声门和声带组成。喉头包括甲状软骨、环状软骨和两块勺状软 骨组成,上接咽头,下接气管。声带是两片富有弹性的薄膜,前端附在甲状软骨上, 后端连接在勺状软骨上,两片声带之间的间隙就是声门。勺状软骨活动时,会使声 带拉紧或放松,从而引起声门的开闭,形成发音的声源。声带不仅是一个阀门还是 一个振动部件,在说话的时候,声门处气流冲击声带产生振动,然后通过声道响应 形成语音【2 】。 声道上系统又称共鸣腔,或称声道。它由口腔、鼻腔和咽组成。它的大小可以 通过调整舌、唇、齿和颚来改变。喉系统过来的嗓音或嗓音气流,通过这些腔体的 调节,可以产生不同的音素。 人类的发音过程有三种不同的激励方式,因而能产生三类不同的声音,即浊音、 清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡, 形成准周期性的空气脉冲,这些空气脉冲激励声道便可以产生浊音。如果声道中某 处面积很小,气流高速通过此处时便产生湍流,当气流速度和横截面积之比大于某 6 基于l o n w b r i 【s 总线技术的说话人识别系统研究与实现 个门限时( 临界速度) 便产生摩擦音,即清音。如果声道某处完全闭合建立起气压, 然后突然释放而产生的声音就是爆破音【1 8 】。 2 1 2 语音信号的系统模型 1 、 声道模型 声道的系统函数v ( z ) o 5 ( 1 + 厂g ) n ( “z 一 y ( z ) 一专芦一 1 一口t z “ 是一个全极点函数,虽然它是在多种假定条件下推得的,但它基本符合大多数语 音的实际情况。这里把截面积连续变化的声管近似为p 段短声管的串联,每段短声 管的截面积是不变的。p 称为这个全极点滤波器的阶。显然p 值取得越大,模型的 传输函数与声道实际传输函数的吻合度越高。但是,对大多数实际应用来说,p 值 取8 1 2 就足够了。若p 取偶数,v ( z ) 一般有p 2 对共轭极点吒+ _ m ,k = 1 p 2 。各 个w 老值分别与语音的各个共振峰相对应。 2 、 辐射影响 嘴唇辐射作用可以用一个一阶差分方程近似描述: 尺( z ) 一只o ( 1 一z 一1 ) 根据语音信号分析得知,嘴唇辐射影响引起输出信号高频提升作用大约每倍频程 3 、激励源 对于清音来讲,激励信号近似于白噪声,对信号频谱包络的形状不产生明显的 影响。对于浊音来讲,声门振荡产生准周期的脉冲串,每个脉冲g ( n ) 有一定的宽度 和一定的形状。这样的声门脉冲与理想的6 脉冲相比,对信号的频谱特性将要产 生大约1 2 d b 倍频程左右的高频衰减作用。 综合考虑声门激励、声道和嘴唇辐射的影响就可得到如图2 1 所示的语音发生 的离散系统模型。 7 基于l o n w b f l 四总线技术的说话人识别系统研究与实现 群砖 i r ( z ) l 7 - _ _ _ - _ _ _ - - _ _ _ _ _ - _ _ - 一 图2 1 语音发声的离散系统模型 它包括三个部分:激励源、声道模型和辐射模型。激励源按照所发浊音和清音 的不同来决定是产生周期脉冲激励还是随机噪声。当为浊音时,周期脉冲发生器产 生一个周期为基音周期的冲激序列,g ( z ) 为声门脉冲模型滤波器,用以调节脉冲形 状。彳,、爿。,的作用是调节信号的幅度。 在这个模型中,除了g ( z ) 和r ( z ) 保持不变外,f 。、彳,、彳。、浊音清音开关 的位置以及声道模型中的参数口,一口。都是随时间而变化的,由于发生器官的惯性使 这些参数的变化速度受到限制。对于声道参数,在1 0 m s 3 0 m s 的时间间隔内可以认 为它们保持不变,因此语音信号短时分析的帧长一般取为2 0 m s 左右。对于激励源 参数,大部分情况下这一结论也是正确的。但有些音的变化速度特别快,例如塞音 或塞擦音的爆破段,2 0 m s 的时间间隔就过长,这时取5 m s 的时间间隔就更为恰当。 这个模型的局限性主要表现在:一、此模型将语音信号截然分为受周期脉冲激 励的浊音和受噪声激励的清音两种情况,与实际情况不完全符合。对于浊辅音,尤 其其中的浊擦音,即使把两种激励简单的叠加起来也是不行的。但是若将这两种激 励源经过适当的网络后,是可以得到良好的激励信号的。二、此模型的传输函数不 包含有限传输零点,而像鼻音、擦音这样一些音的声道传输函数中包含有限零点的。 一种解决方法是在v ( z ) 中引入若干有限传输零点,但这将使模型复杂化。另一种方 法是适当提高模型阶数p ,使得全极点模型能更好的逼近具有此种零点的传输函数。 实验表明对于大多数的研究和应用而言( 如语音编码、语音识别等) ,这个模型已经 可以完全满足需要。 8 基于b n w b r l 【s 总线技术的说话人识别系统研究与实现 2 1 3 可视化语音语谱图的介绍 语音的发音过程中,声道总是处于运动状态的,因此它的共振峰也是时变的。 不过这个时变过程比起振动过程来说要缓慢的多,因此一般可以假定它是短时平稳 的,每时刻我们都可以用这一时刻附近的一短段( 如1 5 m s ) 语音信号分析得到一 种频谱。对语音信号连续地进行频谱分析就可以得到一种二维图谱,其横坐标表示 时间,纵坐标表示频率,而每像素的灰度值大小反映相应时刻和相应频率的能量密 度。这种时频图称为语谱图( s p e c t r o g a m ) ,它是语音学研究的重要工具1 1 1 。 从语谱图上不仅能看出任一时刻发音器官的共振峰特性,而且可以看出语音的 基音频率,是否是清音、爆破音等。有经验的人还可以从图中读出语音的音素和词 语,还可以用它进行说话人辨认。这种反映语音信号动态频谱特性的时频图在语音 分析中有重要的实用价值,所以人们称它为可视化语音。 语谱图虽然可以反映语音信号频率的动态变化过程。但是由于原理上的限制, 不能在同一张语谱图中既观察到频谱的细节,又观察到频谱的快速时变过程。也就 是说,频率分辨力和时间分辨力不能同时兼顾。为了弥补这一缺点,通常对同一待 分析的语音段同时做两张语谱图,即宽带语谱图和窄带语谱图,将两张图结合起来 分析,可以获得更多的信息。宽带语谱图的频率分辨宽度通常取3 0 0 4 0 0 h z ,时间 分辨长度通常取2 5 m s ;窄带语谱图的频率分辨长度通常取为5 0 1 0 0 h z ,时间分辨 长度通常取为5 1 0 m s 。在宽带语谱图上谐波间隙被填平了,因此在频域看不出基音 频率和频谱的谐波形式结构,但可是明显看出共振峰结构和语谱包络,还能从时间 方向看出语音频谱的快速时变过程。在窄带语图上,语谱的谐波形式结构在频率方 向上清晰可见,并能看到基音频率的时变过程。 图2 2 、图2 3 分别是通过p r a a t 软件( 一种可以分析、合成、变换语音并为论 文著术创建优质图表的计算机程序) 画出的发音“我爱祖国”的时域波形和语谱图。 其中,语谱图的横坐标是时间,纵坐标是频率,图像的浓黑程度正比于信号的能量。 频率轴上有明显黑带的地方说明该频率存在能量集中区,此频率称为语音的共振峰, 它取决于声道传输函数v ( z ) 的共轭极点;另外,语谱图的某些区域还出现勾纹,它 对应于发音的浊音区域,是浊音的周期激励经语谱分析的结果。清音区域是不会有 勾纹出现的。 9 基十h w w b 总线技术的说话人识别系统州究,实现 图2 - 2 发音“我爱祖闻”的时域波形 图2 - 3 发音“我爱祖团”的语谱图 2 2 说话人识别系统的基本结构 基于不同的应用环境,说话人识别包括说话人辨识和说话人确认。说话人辨识 是指从n 个已注册的说话人中辨认出其中的一个:说话人确认是指识别晚话人的身 份是否与其声明一致。 基于l o n w b r l 【s 总线技术的说话人识别系统研究与实现 输入语 图2 - 4 说话人识别系统原理图 说话人识别的基本结构如图2 4 所示,主要包括两个阶段,即训练和识别。训 练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或 模型参数。识别阶段,由待识别人说的语音经特征提取后与系统训练的模板或模型 参数进行比较。在说话人的辨认中,取得测试音匹配距离最小的说话人模型所对应 的说话人作为识别结果;在说话人确认中,则通过判断测试音与所声称的说话人模 型的匹配距离是否小于一定阈值做出判断。由此可见,说话人辨认和确认之间并没 有本质的差别。 2 3 语音信号的数字化和预处理 1 、根据所分析参数不同,语音信号的分析方法可分为时域、频域、倒谱域等。 其中在时域的分析具有简单、运算量小和物理意义明确的优点。在任何一种分析方 法之前都必须首先进行语音信号的数字化。 语音信号的数字化包括两个步骤:采样和量化。n y q u i s t 采样定理要求采样率必 须大于或者等于信号带宽的2 倍,因此一般需要对输入的语音信号进行低通( 反混 叠) 滤波,然后进行a d 转换,语音信号所占据的频率范围可达1 0 网也以上,但 是对语音的清晰度和可懂度有明显影响成分的最高频率约为5 7 l 洫。根据c c r r r ( 国际电报电话咨询委员会) 提出的数字电话g 7 1 1 建议,只利用3 4 i m z 以内的 信号分量,采样率为8 z 。照理说,这样的采样频率对语音的清晰度是有损害的, 但受损失的只是少数辅音,而语音信号本身冗余度比较大,少数辅音清晰度的下降 并不明显的影响语句的可懂度。 取样之后要对信号进行量化。根据量化电平的选择,可分为均匀量化和非均匀 量化。结合语音信号的特点,适合采用非均匀量化。非均匀量化的基本思想是,对 输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量 基于l d n w b r l ( s 总线技术的说话人识别系统研究与实现 化间隔。这样就可以在满足精度的要求下用较少的位数来表示。g 7 1 1 标准建议了a 律压扩和律压扩两种算法。其归一化特性分别如下: j 。e z ) = s g n c x ) ! ;三詈 等 l - s g n ( z ) 蒜 式中弘和a 为压缩系数,通常取值为:= 2 5 5 ,a = 8 7 6 。 a 律压扩的前一部分是线性的,其余部分与律压扩相同。a 律压扩具有和 律压扩相同的基本性能( 在大信号区信噪比高于律量化器,但在小信号区不如肛 律量化器) 和实现方面的优点,尤其是还可以用直线段很好的近似,以便于直接压 扩或数字压扩,并易于与线性编码格式相互转换。 2 、 语音信号的预处理一般包括:预加重、加窗和削噪处理。 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 8 0 0 h z 以上按6 d b 倍频程跌落。预加重的目的就是提升高频部分,使信号的频谱变 得平坦,以便于频谱分析或声道参数分析。预加重可以在a 渺转换前,反混叠滤波 之后进行,也可以在a d 变换之后进行。用具有6 d b 倍频程提升高频特性的预加重 滤波器实现,它一般是一阶的,即: 日( z ) = 1 一木z _ 1 式中,值接近于1 ,典型值为0 9 4 。 语音信号是时变的非平稳过程,但是人的发音器官肌肉的运动速度较慢,所以 可以认为语音信号是局部平稳的或者是短时平稳的。因此常把语音信号进行分帧处 理,一般帧长为2 0 m s ,帧移为帧长的o 1 2 倍。常用加窗函数有矩形窗、汉明窗和 汉宁窗。其定义分别为: 矩形窗 埘( 刀) :。s 妥善三一1 汉明窗喇2 r 乩4 6 露胁肥。”眶菇。1 汉宁窗,= f 0 5 【卜s 卜1 呱妻筝。 、7 ln嚣官 基于l o n w b r l 【s 总线技术的说话人识别系统研究与实现 其中l 为窗长,这些窗函数都具有低通特性。窗函数越宽,对信号的平滑作用 越显著。一班希望窗函数具有一下性质:( 1 ) 频率分辨率高,即主瓣狭窄、尖锐;( 2 ) 频谱泄漏少,侧瓣衰减大。由于汉明窗在频率范围内的分辨率最高,其旁瓣最低, 可有效地克服泄漏现象,具有更平滑的低通特性,故在语音信号的分析中常应用汉 明窗。 3 、语音识别系统通常是将在安静的环境下训练的道德参数应用到实际的环境 中。当实际的环境中有噪声存在时,语音识别系统的性能急剧下降。为了减少噪声 的干扰,在处理时可根据噪声类型采用如下方法:( 1 ) 周期性噪声:它往往是由汽 车或飞机发动机等旋转机械引起的电气干扰,特别是5 0 h z 或6 0 h z 交流声引起的。 传统的去除方法有固定滤波器、自适应滤波器和傅立叶变换滤波器等,可以滤除干 扰而又不产生影响语音可懂度的副作用。( 2 ) 冲激噪声:其特点表现为时域波形中 突然出现的窄脉冲,主要来源于爆炸、撞击和放电等。消除它们通常在时域内进行, 其消除过程大致为:根据带噪语音信号幅度的平均值确定域值。当信号超过这一域 值时,判断为脉冲噪声,对它进行适当衰减。( 3 ) 宽带噪声:其来源较多,如热噪 声、气流( 如:风、呼吸) ,量化噪声及各种随机噪声源。由于宽带噪声和语音信号 在时域和频域上完全重叠,并且这种噪声只有在语音间歇时单独存在,处理的主要 办法有非线性处理、谱减法和自适应抵消。( 4 ) 语音干扰:小波变换是处理非平稳 信号的分析工具,能通过检测到因声门闭合产生的语音波形突变求出基音周期。 此外根据资料【1 9 】,它研究了一个将语音增强和语音识别级连起来的抗噪声语 音识别系统,在该系统前端的语音增强模块中,采用了3 种语音增强算法提高了语 音识别模块输入端信号的信噪比,实验结果表明,将语音增强用于抗噪声语音识别 是有效的。 2 4 语音信号的端点检测 基于l p c 端点作为语音分割的重要特征,在很大程度上影响语音识别的性能, 在有背景噪声的环境下更是如此。端点检测是指用数字处理技术来找出语音信号中 的各种段落( 如音素、音节、词素、词等) 的起始点位置。在汉语中。主要目的是 找出字的两个端点,进而找出其中声母段和韵母段的各自位置,这对汉语连续语音 识别尤为重要。 在实际的应用中,由于坏境噪声的影响,给语音识别系统的稳定性( r o b u s t ) 1 3 基于l d n w b r l c s 总线技术的说话人识别系统研究与实现 带来严重的问题,使得语音识别系统性能降低而不能实用。噪声语音信号的语音端 点检测,是语音处理系统中极其关键的一步。只有准确的判断语音信号的端点,才 能正确地进行语音处理。错误的决定端点会导致起始音段的消失以至误判或判以一 串噪声为语音信号,没有足够准确地起止点识别,精密优选的特征参数或识别方法 的工作往往徒劳无功。端点检测的困难在于无声段或发音前后因为呼吸等产生的杂 音和环境噪声,使得语音的端点比较模糊。 汉语的音节末尾都是浊音,只用短时能量就能较好的判别一个词语的末点。当 然有的韵尾衰减的比较慢,一般只要短时平均幅度下降到该音节最大的短时平均幅 度的1 1 6 左右以后,就可以认为该音节已经结束。实际上截掉一点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教育机构网络课程版权分成协议
- 顶级游艇配备智能卫星导航系统租赁协议
- 研发团队竞业限制补偿金支付及项目交接协议
- 现代智能家居智能门锁云管理合作协议
- 司法鉴定机构合伙人业务培训与发展协议
- 目标管理理论体系框架
- 人体组织管理员工培训计划
- 《智能康复助手》课件
- 《智能交通管理与安全技术课件》
- 创业公司高效入职培训体系设计
- 中西文化鉴赏 知到智慧树网课答案
- 斯大林培训课件
- 外研版(2019)选择性必修第二册Unit 3 Times change!Understanding ideas 课件
- 湖北省武汉市2024届高中毕业生四月调研考试数学试卷
- 白癜风科普讲座课件
- 第16课《看病用药有学问》 课件
- 善待他人班会课件
- 交通事故起诉书模板
- 委托生产加工合同书
- 设备安装具体方案
- 汽车吊、随车吊起重吊装施工方案
评论
0/150
提交评论