(检测技术与自动化装置专业论文)孤立词说话人识别算法研究及实现.pdf_第1页
(检测技术与自动化装置专业论文)孤立词说话人识别算法研究及实现.pdf_第2页
(检测技术与自动化装置专业论文)孤立词说话人识别算法研究及实现.pdf_第3页
(检测技术与自动化装置专业论文)孤立词说话人识别算法研究及实现.pdf_第4页
(检测技术与自动化装置专业论文)孤立词说话人识别算法研究及实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(检测技术与自动化装置专业论文)孤立词说话人识别算法研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国科学技术大学硕士论文 孤立词说话人识别算法研究及实现 摘要 说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域 内有良好的应用前景。说话人识别的技术核心是通过预先录入的声音样本,提取 说话人独一无二的语音特征并保存在模板中,应用时将待验证的声音与模板中的 特征进行匹配,从而决定说话人的身份。 做为语音处理技术的一个分支,基于语音的身份认证技术从语音识别等其他 技术中汲取了大量的有益经验并发展出了有自己特色的研究成果;与此同时,这 一技术也存在着许多问题,集中于怎样能从语音信号中提取尽量多与身份相关且 比较稳定的特征信息,以及怎样改进训练方法使其针对现有特征能得到推广性更 好的模型。本文将详细介绍作者攻读硕士学位期间所做的在基于语音的孤立词说 话人识别技术方面的工作。 文中首先对语音识别技术的研究与应用的历史和现状做了简单的介绍,随后 指出工作意义所在,并对该领域的研究热点和难点进行了介绍。接着从信号处理 的角度对孤立词说话人识别应用中的基本理论进行分析研究,包括语音产生模 型、语音信号特征、然后讨论了孤立词说话人识别的几种方法。 在随后的几章中,本文循着已实现的特定人孤立词语音识别系统处理过程, 从信号前端处理( 滤波、噪声过滤、放大) 开始,分别介绍了语音信号的加窗分帧、 端点检测、去除噪声、特征参数提取、模式匹配,并在实验的基础上进行分析。 并且在噪音处理上对传统减谱法进行改进,在端点检测部分对经典的检测方法也 进行了改进,成功地提高了识别效果。 经过测试和改进,实现了孤立词说话人识别系统算法的优化改进效果,并且 实现了改进的谱减算法,提高了去噪性能。最后,本文对工作进行了总结,并对 下一步工作方向提出了展望。 关键词:孤立词:说话人识别;减谱法;端点检测 i i ! 里型兰苎查查兰堡主笙奎 塑皇望望堡望型竺些竺塞墨壅塑 a b s t r a c t s p e a k e rr e c o g n i t i o ni st h ep r o c e s so fa u t o m a t i c a l l yr e c o g n i z i n gw h oi ss p e a k i n g o nt h eb a s i so fi n d i v i d u a li n f o r m a t i o ni n c l u d ei n s p e e c hs i g n a l s i th a sw e l l a p p l i c a t i o np r o s p e c t si nm a n yf i e l d s t h es rs y s t e me x t r a c t st h eo n l yf e a t u r eo ft h e s p e a k e rf r o mh i sv o i c ed a t aw h i c hi si n p u t t e de a r l i e r , a n di ts t o r e dt h ef e a t u r e so f v o i c e p r i n ti n t od a t a b a s e o n c et h ei d e n t i t yc l a i m e di d e n t i t ya n dr e q u e s t ss p e a k e ri n p u t f r o mt h ep e r s o nm a k i n gt h ec l a i mt h en e w l yi n p u ts p e e c hi s c o m p a r e dw i t ht h e s t o r e d v o i c e p r i n t a n dt h er e s u l t so ft h a t c o m p a r i s o n a r em e a s u r e da g a i n s ta n a c c e p t a n c e r e j e c t i o nt h r e s h o l d f i n a l l y , t h es y s t e ma c c e p t so rr e j e c t st h es p e a k e r s p e e c h b a s e da u t h e n t i c a t i o ns y s t e m ,p a r to fs p e e c hp r o c e s s i n gt e c h n o l o g y , b e n e f i t sal o t f r o mt h er e s e a r c hi nt h ef i e l do fa u t o m a t i cs p e e c hr e c o g n i t i o na n di sb e c o m i n gs o m er e a s o n a b l e s e l e c t i o nf o ri n f o r m a t i o ns e c u r i t y h o w e v e r , t h i st e c h n o l o g ys t i l lh a ss o m ea c h i l l e sh e e lw h i c h f o c u so nh o wt o g e tm o r ei d e n t i t y r e l a t e da n dm o r er o b u s ti n f o r m a t i o n ,a n dh o wt oi m p r o v e d t r a i n i n gm e t h o dt op r o v i d em o d e l sw i t hh i g h e rg e n e r a l i z a t i o n t h i sp a p e rp r e s e n t si nd e t a i lt h e a u t h o r sr e s e a r c hw o r ko nt h o s ep r o b l e m sa sam a s t e rc a n d i d a t e ab r i e fh i s t o r ya n dc u r r e n ts t a t u so fs p e e c hr e c o g n i t i o nt e c h n o l o g yi sf i r s ti n t r o d u c e d ,t h e n p o i n tt h em e a no ft h ew o r k ,t h ec h a l l e n g e sa n dp o t e n t i a l so ft h i sf i e l da r ea l s od i s c u s s e d t h e n , s o m eb a s i ct h e o r i e so fs ra r ed i s c u s s e di nt h ew a yo fd i g i t a ls i g n a lp r o c e s s i n gi n c l u d i n gm o d e l b u i l d i n g ,f e a t u r eo fs p e e c hs i g n a l ,s i xm a i nf e a t u r e so fs p e e c hs i g n a l ,i nt h ee n ds o m em e t h o do f s i n g l ew o r ds ra r ed i s c u s s e d i nt h ef o l l o w i n gc h a p t e r s ,as u c c e s s f u lp r o c e s sf o rs i n g l ew o r ds ri sp r e s e n ts t a r t i n gf r o m p r e p r o e e s s i n gi ef i l t e r i n g ,n o i s ef i l t e r i n ga n da m p l i f i c a t i o na n ds oo n i ti sf o l l o w e db ye n d p o i n t d e t e c t i o n ,u s i n gw i n d o wm e t h o d ,p i c k - u pp a r a m e t e r so fs p e e c hs i g n a la n dp a t t e mm a t c h g e t s o m ea n a l y z eb a s e do ne x p e r i m e n t a l a tt h ep r o c e s so fw i p eo f fn o i s e ,w ei m p r o v e dan o i s e s u p p r e s s i o na l g o r i t h m a tt h ee n d p o i n td e t e c t i o n ,am a j o ri m p r o v e m e n ti nr e c o g n i t i o n a c c u r a c yh a sb e e na c h i e v e di ni tc o m p a r e dt oc l a s s i c a lr i l e t h o d s t h r o u g ht e s t i n ga n di m p r o v e m e n t ,i ta c h i e v e dt h eg o o de f f e c ta ts i g n a lw o r ds rs y s t e m i t a l s oi m p r o v e dt h en o i s es u p p r e s s i o na l g o r i t h ma n dg o tab e t t e rr e s u l to fg e t t i n gr i do f n o i s e l a s tp a r to ft h et h e s i ss u m m a r i z e sw h a th a sb e e na c c o m p l i s h e da n dp o i n t so u t f u r t h e rr e s e a r c hd i r e c t i o n s k e y w o r d s :i s o l a t e dw o r d ;v o i c e p r i n t ;n o i s es u p p r e s s i o na l g o r i t h m ;e n d p o i n td e t e c t i i l 中国科学技术大学硕士论文 孤立词说话人识别算法研究及实现 致谢 时光飞逝,三年的硕士研究生生涯即将结束。这里,我首先要感谢我 的导师,中国科学技术大学自动化系的张高伟副教授。感谢他三年来在学 习,生活和工作各个方面对我的关心和帮助。本论文的研究工作是在我的 导师悉心指导下完成的。从导师身上我学到了很多宝贵的东西,最突出的 是张老师对新技术的敏感性、思维的开放性,以及严谨求实的工作态度、 勤奋的工作精神和锐意创新的工作风格,这一切的教诲和熏陶都将使我受 益终生。在此谨向张老师表示我最诚挚的谢意! 同时我要感谢同实验室的王胜刚,肖庚,安勇师兄,他们在生活和学 习上都给了我很大的帮助,从他们身上,我学到了很多。还要感谢姜红超 在学习、工作中对我的关心和帮助,我们一起共同渡过了三年美好的研究 生时光。其次,还要感谢微软俱乐部语音组的所有同学,在同他们的合作 中,我学到了很多语音方面的前沿知识。尤其是语音组组长边永涛,他带 领大家进入了h t k 大门,为语音研究提供了个广阔的平台。 感谢我的父母,感谢他们对我多年的养育,感谢他们对我求学的支持 和牺牲。他们的鼓励是我前进的动力。 最后,我要向所有的这些曾经给予我巨大帮助的老师同学衷心地说声 谢谢,在我的每一分收获背后,都有你们无私的奉献! 中国科学技术大学硕士论文第1 章绪论 第一章绪论 语言,一直以来是人类最重要、最有效、和最方便的信息互动方式。它是人 类特有的功能。声音作为人类常用的工具之一,是互动进行信息交流的最主要的 手段。因而,语音信号构成人们感情交流和思想沟通的最主要途径。由于语言和 语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的 信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段 研究语音处理识别技术,使人们能更加有效地产生、传输、存储、获取和应用语 音信息,这对于促进社会的发展具有十分重要的意义。 和机器进行语音交流,让机器明白你说什么,成为了人们长期以来梦寐以求 的一件事情。让机器听懂人类语言并按相应的含义去为人类服务,或者让机器能 发出人类语言,则是人类的理想之一。正是由于这个理想,语音学得以诞生和发 展。 语音识别技术是一门涉及信号处理技术、语音学、语言学、数理统计及神经 生物学等多种学科的交叉科学。从计算机大学科的角度看,它可以视为智能计算 机的智能接口学科;从信息处理大学科来看,它属于信息识别的一个重要分支: 从通信及电子系统、电路、信号与系统等大学科来看,它又可视为信息或通信系 统的信源处理科学;从自动控制大学科的角度看,它则可看成模式识别中的一个 主要部分。 作为高科技应用领域的研究热点,语音识别技术从理论的研究到产品的开发 已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、 公安、商业、旅游等行业的语音咨询与管理工业生产部门的语声控制,电话、 电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统 等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界 面。可见,语音识别技术的研究将是项极具市场价值和挑战性的工作。 语音识别这门学科之所以能够吸引科技人员对其进行研究和探讨,除了它的 实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保 持密切的联系,并且一起发展。语音识别是以语音语言学和数字信号处理为基础 中国科学技术大学硕士论文第1 章绪论 而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与 信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音识别的 研究一直是数字信号处理技术发展的重要推动力量。 近年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计, 未来十年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭 服务、消费电子产品等各个领域。很多专家都认为语音识别技术是未来十年信息 技术领域十大重要的科技发展技术之一。 本文研究的是孤立词说话人识别算法的性能改进及实现。并为下一步嵌入式 开发应用奠定基础。在算法的改进过程中,用m a t l a b 软件进行仿真,获得改 进后算法性能的对比。在去除噪音方面,在传统的减谱法基础上进行算法改进, 并在v c + + 6 0 平台上实现了去噪处理程序,为语音识别分析提供了较好的工具。 在端点检测算法中,对传统算法进行改进,有效的提高了识别率。 1 1 语音识别技术历史与现状 语音识别作为一个重要的研究领域,已经有很长的研究历史 3 1 1 4 5 1 。但是 它的快速发展可以说是从1 9 4 0 年前后e h d k y 的声码器和p o t t e r 等人的可见语音 开始的。1 9 5 2 年贝尔( b e l l ) 实验室首次研制能识别十个英语数字的实验装置。1 9 5 6 年o l s o n 和b e l a r 等人采用8 个带通滤波器组提取频谱参数作为语音的特征,研 制成功一台简单的语音打字机。2 0 世纪6 0 年代初由于f a u t 和s t e v e n s 的努力, 奠定了话音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。2 0 世纪6 0 年代中期形成的一系列数字信号处理方法和技术,加数字滤波器、快速 博里叶变换等成为语音信号数字处理的理论和技术基础。在方法上,随着电子计 算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然 而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部 停了下来,这说明了当时人们对话音识别难度的认识得到了加深。 到了1 9 7 0 年,语音识别领域进一步取得突破。在理论上,l p 技术得到进一 步发展,动态时间规整算法( d t w ) 基本成熟,特别是提出了矢量量化( v o ) 和隐马尔科夫模型( h m m ) 理论。后来,所说的声纹识别,即说话人识别的研 中国科学技术大学硕士论文第l 章绪论 究也扎扎实实地开展起来,并很快取得了一些进展。到了1 9 7 1 年,以美国a r p a 为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国国 内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。 历时五年的庞大的a r p a 研究计划,虽然在语音理解、语言统计模型等方面的研 究积累了一些经验,取得了许多成果,但没能达到巨大投资应得的成果,在1 9 7 6 年停了下来,进入了深刻的反省阶段。但是,在整个2 0 世纪7 0 年代还是有几项 研究成果对语音识别技术的进步和发展产生了重大的影响。这就是2 0 世纪7 0 年代初,板仓提出的动态时间规整技术,使语音识别研究在匹配算法方面开辟了 新思路;2 0 世纪7 0 年代中期线性预测技术f l p ) 被用于语音信号处理,此后隐马 尔可夫模型法( h m m ) 也获得初步成功,该技术后来在语音信号处理的多个方面 获得巨大成功;2 0 世纪7 0 年代未,l i n d a 、b u z o 、g r a y 和m a r k e l 等人首次解决 了矢量量化( v o ) 码书生成的方法,并首先将矢量量化技术用于语音编码获得成 功。从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重 要作用,而且很快推广到其他许多领域。因此,2 0 世纪8 0 年代开始出现的语音 信号处理技术产品化的热溯,与上述语音信号处理新技术的推动作用是分不开 的。、 2 0 世纪8 0 年代,由于矢量量化、隐马尔可夫模型和人工神经网络( a n n ) 等 相继被应用于语音信号处理,并经过不断改进与完善,使得语音识别技术产生了 突破性的进展 2 0 1 1 2 1 1 。1 9 8 5 年i b m 公司研制成功5 0 0 0 词汇的英语听写机 t a n g o r a - 5 ,后来到8 0 年代末又发展为能识别2 0 0 0 0 词汇的t a n g o r a 2 0 ,识别率达 到9 46 ,而且具有快速自适应于说话者的特性。h m m 模型的广泛应用应归功 于a t & tb e l l 实验室r a b i n e r 等科学家的努力,他们把原本艰涩的h m m 纯数学 模型工程化,从而为更多研究者了解和认识,进而成为一个公认的研究热点,也 是目前语音识别等的主流研究途径, 进入2 0 世纪9 0 年代以来,语音识别逐渐由实验室走向实用化。一方面,对 声学语音学统计模型的研究逐渐深入,具有鲁棒性的语音识别、基于语音段的建 模方法及隐马尔可夫模型与人工神经网络的结合成为研究的热点。另一方面,为 了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一 步的语言模型的研究等课题倍受关注。许多发达国家如美国、日本、韩国以及 中国科学技术大学硕= 匕论文 第1 章绪论 i b m 、a p p l e 、a t & t 、n t t 等著名公司都为语音识别系统的实用化开发研究投 以巨资。 在应用领域,比较典型而成功的小字表语音识别系统有a t & t 于1 9 9 2 年开 发的v c r p 系统。陔系统是有五个单词( c o l l e c t ,p e r s o n ,t h i r dn u m b e r , o p e r m o l c a l l i n gc a r d ) 的非特定人小字表语音识别系统,现已应用于a t & t 通信网上,可 以实现自动话务员协助式呼叫,代替话务员完成五种呼叫类型,号称整个系统的 正确识别率超过9 9 。此外,还有一些公司将运算量与存储器需求相对较小的特 定人孤立词语音识别算法与d s p 技术相结合,开发出了多种型号的语音识别芯 片。如t o s h i b a 的t c 8 8 6 0 f ( 1 0w o r d s ) ,o k is e m i c o n d u c t o r 的m s m 6 6 7 9 ( 2 5 w o r d s ) 。 从以上发展状态来看,特定人中小字表孤立词识别和非特定入小字表孤立词 识别系统逐渐完善发展,有进入应用化的可能。而非特定人,大字表,连续语音 识别则还处于研究阶段。 1 2 语音识别的分类 先简单介绍一下语音识别系统的分类( 2 】及其应用领域: ( 1 ) 根据对说话方式的要求,可以分为连续语音识别系统、连接词语音识别 系统以及孤立词语音识别系统。 ( 2 ) 根据对说话人依赖程度可以分为特定人和非特定人语音识别系统。 ( 3 ) 根据词汇量大小,可以分为小字表、中字表、大字表以及无限字表识别系 统。大致划分标准是 5 :1 0 0 词以内为小字表,1 0 0 至5 0 0 词称为中字表,5 0 0 词以上的有限词库称为大字表。 ( 4 ) 根据识别目的的不同,可以分为语义识别系统和话者识别系统。 这几个分类,往往是交叉研究的,例如大字表,连续语音,非特定人识别系统, 就是以上分类中一类,二类,三类的结合。根据各自不同的特点,连续语音识别 系统在文字录入、语种翻译、声控排版等方面有着广泛的应用前景;孤立词语音 识别系统则主要应用于自动控制,如驾驶、机器人操纵、仪器设备操纵以及手机 拨号、智能玩具、家用电器操纵,尤其当人手己被占用或无法使用的情况下必须 中国科学技术大学硕士论文 第1 章绪论 进行声音控制时,更可以起到不可替代的作用;话者识别系统则在门禁系统、案 件侦破、公安查对、银行信贷电话证实等需要身份验证的领域将发挥重要的作用。 此外,声控技术的广泛应用将为残疾人带来便利。 从目前语音识别理论发展现状来看,非特定人、大字表、连续语音识别仍是 语音识别领域的三大难点。 在上述三大难点中,非特定人问题被公认为最复杂的问题。人的语言中包含 了两部分信息:一部分是语义信息,代表讲话的内容;另一部分是话者信息,代 表讲话人的特征。由于目前尚无法完全将这两部分信息从语音信号中分离出来, 因此话者个人之间的特征差异( 例如声带震动频率、声道传输特性参数、口音语 调等) 导致不同话者不同语音所对应的特征空间严重混叠,同一语音却又相差很 远,使语音识别的识别率受到很大影响。目前解决这一问题的主要方法是利用模 板聚类技术将不同人的同一发音进行聚类,并通过话者自适应和学习方法对模板 进行调整。实验证明该方法可以起一定效果,但通常情况下仍无法超过9 0 ,显 然这不是解决这个困难的最好方法。相信随着对人脑高级机制的深入研究,将为 此找到更行之有效的办法。 连续语音识别的难点在于,首先,语音信号的声学特征随其前后与之相连的 语音不同而产生很大的变异,且连续语流中各语音单位之间不存在明显的边界; 其次,一个语句所表达的意思,是与上下文内容,说话时的环境条件以及文化背 景等因素相关的,而语句的语法结构又是多变化的,并且语境信息几乎是计算机 自动语音识别无法利用的,所有这些都给语义的理解带来很大的困难。 此外,大字表毫无疑问将使识别过程中模板的存储量、匹配过程中计算量以 及特征空间中不同词语的混叠现象大大加重,从而使识别率大幅度降低,识别速 度难以保证实时识别,甚至下降到令人难以接受的地步,因此真正做到无限词识 别几乎是不可想象的。 主要应用于身份验证场合的话者识别,对于识别率的要求则更为苛刻,在不 能达到十分接近1 0 0 的情况下很难真正投入使用,因为每一次误识,都有可能 导致巨大的经济损失或冤案的发生。而目前话者识别的理论水平和识别结果离应 用还有差距。 中国科学技术大学硕士论文第l 章绪论 1 3 说话人识别的难点 虽然特定人孤立词话者识别相对其它类型的语音识别要更成熟些,但也存在 一些影响因素,导致通常情况下识别率无法满足实用化要求。这些因素在于: ( 1 ) 同一发音的随机性变化:从信号模式的角度来看,语音信号是非平稳随 机信号,不但不同发音者发音之间存在重大差异,即使同一人同一词语的两次发 音,也存在很大差异。语音信号在发音者的心情、心态、体力、呼吸等很多因素 的影响下产生很大的随机性变化,发音速度、强度以及各音节相对瞬时速度都可 能有很大不同,为词与词匹配的准确性带来很大难度。 ( 2 ) 噪声影响:统计表明,语音识别系统一半以上的识别错误来自于端点检 测错误,而端点检测的重要依据之就是声音能量的变化。在安静环境下有声时 段和无声时段能量存在很大差异,据此可以判断发音是否开始。但很多场合都存 在相当的噪声,当噪声的能量可以和语音信号的能量相比较时,就有可能造成端 点检测的误差从而导致识别结果错误。此外汉语的辅音大部分是清辅音,能量较 小,受到噪声干扰时极易被噪声淹没,无法得到准确的语音信号信息。最后,噪 声存在多种特性,如高斯白噪声、周期性噪声、强冲击性噪声、嘈杂的人声以及 音乐声,难以利用通用的办法在识别过程中加以过滤。因此,如何在噪声、高噪 声环境下进行有效的语音识别始终是语音识别研究的一大热点,并有很多研究人 员提出了很多缓解办法 8 9 1 1 0 】,这些方法大多起到了一定的效果,但总的来说 噪声影响仍是语音准确识别的一大干扰因素。 ( 3 ) 词与词的特征空间混叠:语音识别的常规方法是利用语音信号的短时周 期特性将语音时域采样信号分为若干段,计算出每一段的相应特征矢量( 如l p c 矢量、倒谱矢量、m f c c 矢量等) ,从而得到该语音的一个特征矢量序列,以此 作为匹配的依据。但从这些矢量的空间分布来看,很多不同的词语的矢量序列在 特征空间中存在混叠现象,严重的情况下不同词语的混叠程度甚至超过了同一词 语的不同次发音,从而导致识别错误。 ( 4 ) 环境影响:发音时,室内环境将对声波的传导、反射等存在很大影响,这 些因素也将对识别结果产生不容忽视的影响。 中国科学技术大学硕士论文第1 章绪论 1 4 说话人识别方法 说话人识别系统可以基于模式匹配、h m m 隐马尔可夫模型和人工神经网络 模型来实现。识别中的一些方法与语音识别类似,如用d t w ( d y n a m i c t i m e w 叩i n g ) 动态时间归整或v q ( v e c t o rq u a n t i z a t i o n ) 矢量量化技术来处理动态时间 匹配问题。但是,由于说话人识别有与文本相关、与文本无关等问题且识别出的 是说话人而不是输出语音的含义,所以与语音识别又有些差异。对于与文本有关 的识别主要采用v q ,将输入特征序列逐个与v q 的各码本中码字比较,然后将 距离累加作为识别依据,而不考虑时序,从而与被识别的音的音素顺序无关。对 于识别结果是说话人这特点,则是在输入序列中着重考虑对不同说话人而言有 较大差异的部分,而可以忽略语音的含义。 由于人的语音是随生理、心理和健康的状况变化的,不同时间下的语音会有 所不同。因此,说话人识别系统的训练时间与使用时间相差过长,会使系统的性 能明显下降。为维护系统性能,一种方法是取不同时期的语音进行训练,另一种 方法是在使用过程中不断更新参考模板,即当某次使用过程中某说话人被正确证 实时,使用此时的输入特征对原模板作加权修改,一般用1 1 0 加权。这样可以 使模板逐次趋于完善。 1 5 论文的研究内容和所做工作 现在国内外在语音识别方面取得了长足的进展,但在说话人识别方面由于多 方面的原因,使得其在研究方面还存在着很多问题。因此,本文通过借助于语音 识别来进行说话人验证分析的方法,并对其方法的可行性和具体的实现方式进行 了算法的研究和实验验证。在端点检测部分对经典的检测方法进行了改进,成功 地提高了语音端点的识别效果,在噪音处理上对传统减谱法进行改进,提高了去 噪性能。 中国科学技术大学硕士论文 第1 章绪论 1 6 论文组织结构 第1 章是绪论。简单介绍说话人识别技术的一些概念、研究背景、和国内外研究 现状。 第2 章是语音识别技术基本理论。从信号处理的角度对说话人识别应用中的基本 理论部分进行分析和研究,包括发声机理和感声机理、信号模型、汉语语音基础 及其特性。 第3 章是说话人识别的语音处理过程介绍包括语音的前端处理,语音的端点 检测的算法改进、语音的短时分析和语音去噪的减谱法。 第4 章是介绍三种主要的说话人识别方法,分别是d t w 、v q 和h m m 第5 章介绍系统的构建和实验结果,给出实验数据并且进行讨论 第6 章系统的总结,对说话人识别技术进行总结后对其研究发展进行展望。 中国科学技术大学硕士论文第2 章语音识别基本理论 第二章语音识别基本理论 语音信号可以用时域和频域的方法进行分析处理,但是他又有自己的特点, 从整个系统的角度来理解人类语音的产生、传输、接受和理解,对深入研究语音 技术有重要意义。语音识别的理论及算法都是在语音产生的数学模型的基础上建 立的。本章从语音信号处理的角度对说话人识别应用中的基本理论进行分析和研 究。 2 1 发声生理学机理 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起 音频振荡而产生的,其中声道起始于声门处而终止于嘴唇,包括咽喉( 连接食道 和口) 、口腔,鼻道则是从小舌开始到鼻孔为止,当小舌下垂时,鼻道与声道发 生耦合而产生语音中的鼻音。图2 1 是发音器官的示意图。 s p l n l c o l u m “ 图2 1 发音器官示意图 发音过程中声道各处的截面积取决于舌、唇、颌、小舌的位置。声道的截面 t 鲥 试r 赫 辑雌m 从垤驴皓 中国科学技术大学硕士论文 第2 章语音识别基本理论 积随纵向位置而变的函数,称为声道截面积函数,声道的共振峰特性主要决定于 声道截面积函数,声道的共振峰特性决定所发声音的频谱特性,即音色。人类发 音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音和爆 破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡形成 准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音。如果声道中某处面积 很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门 限时( 临界速度) 便产生摩擦音即清音。如果声道某处完全闭合建立起气压,然 后突然释放而产生的声音就是爆破音。 由于发音方式和声道形状的不同,人类可以发出无穷多种的、听觉系统可阱 将它们相互区分的声音。但是,语音是人类交流传息的手段,必须采用一套大 家都可以发出、人家又都可以辨别的基本语音单位才能交流信息,这种语音单位 就是音素。显然,这样的音素是不会太多的,一般一种语言只有几十个音素相当 于通信系统中的编码符号集,它是由有限个符号组成的集合。用它们进行分组 串行编码便形成丰富多彩的语言。一个语句是由一串音素构成的、但是一串音 素不等于一个语句,语句中还含有反映语意、语感的韵律信息。这里的韵律特征 包括各音素的相对强度、相对时长、相对音高、高音之间的停顿以及音素之间相 互影响而产生音素的变异等。因此人类用于交流信息的语音系统比目前能人工制 造的通信系统要复杂得多。 2 1 1 语音信号产生模型 在研究了发声器官的语音产生过程以及语音信号的声学特征后,便可以建立 一个离散时域的语音信号产生模型 1 】 2 【5 】【6 】,如图2 2 所示。 图2 2 语音信号产生的离散时域模型 1 0 中国科学技术大学硕士论文第2 章语音识别基本理论 这个语音产生的离散时域模型主要包括三个部分:激励源、声道模型和辐射 模型。 激励源有浊音和清音两个分支,按照浊音清音开关所处的位置来决定产生 的语音是浊音还是清音。在浊音的情况下,激励信号由一个冲击序列发生器产生。 所产生的序列是一个周期为n 的冲激序列,即每隔n 点便有一个样值为1 ,而其 它样值皆为o 。周期n 取决于基音频率f 和语音信号的采样频率f ,n = f f ,其中 f 和f 皆以h z 计量。当f = 8 k h z ,f 的变化范围为5 0 4 5 0 h z 时,n 的变化范围是 1 8 1 6 0 。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述 的冲激序列通过一个声门脉冲模型滤波器,其z 域传输函数为g ( z ) 。对声门波 形的频谱分析表明,其幅度频谱按每倍频程1 2 d b 的速度递减。如果令 g ( z ) = 1 ( 1 一g l z 。) ( 1 - 9 2 z 。1 ) ,其中g l 和9 2 都很接近于1 ,那么由它形成的浊音激励信 号的频谱很接近于声门气流脉冲的频谱。乘系数a u 的作用是调节浊音信号的幅 度或能量。在清音的情况下,激励信号由一个随机噪声发生器产生。可设定其平 均值为o ,其自相关函数是一个单位冲激函数。这表明它的任何两个不同样点都 不相关且其均方差值为1 。此外还假定它的幅度具有正态概率分布( 高斯分布) 。 乘系数a 。的作用是调节清语音信号的幅度或能量。 声道模型v ( z ) 给出了离散时域的声道传输函数。关于声道部分的数学模型, 目前有两种观点:( 1 ) 把声道看做由多个不同截面积的管子串连而成的系统,按 此观点推导出“声管模型”。( 2 ) 把声道视为一个谐振腔,按此推导出“共振峰 模型”。由于我们后面介绍的语音识别系统采用的是“声管模型”,共振峰就不详 细介绍了。采用“声管模型”进行研究时,运用流体力学的方法可以导出,在大 多数情况下它是一个全极点函数 3 0 。这样v ( z ) 可以表示为: ,a o = l ,a 。为实数 ( 2 - 1 ) 把截面积连续变化的声管近似为p 段短声管的串连,每段短声管的截面积是不变 的。p 称为这个全极点滤波器的阶。显然,p 值取得越大,模型的传输函数与声 道实际传输函数的吻合程度越高。但是,对大多数实际应用而言,p 值取8 1 2 就足够了。 方瑚 一 中国科学技术大学硕士论文第2 章语音识别基本理论 2 1 2 辐射影响 嘴唇辐射作用可以用一个一阶差分方程近似描述: r ( z ) = 凰( 卜z 1 ) ( 2 2 ) 根据语音信号分析得知,嘴唇辐射影响引起的输出信号高频提升作用大约有每倍 频程6 d b 。 2 1 3 激励源 对于清音来讲,激励信号近似于白噪声,对信号频谱包络的形状不产生明显 的影响。对于浊音来讲,声门振荡产生准周期性的脉冲串每个脉冲g ( n ) 有一定 宽度和一定的形状。这样的声门脉冲形状,与理想的脉冲相比,对信号的频谱特 性将要产生大约一1 2 d b 倍频程左右的高频衰减作用。不同人、不同语音,其 声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要其傅 里叶变换有近似的特性就行了。 r o s e n b e r g 在研究声门脉冲形状对合成语音质 量的影响时,发现可以用一个人为设计的波形代替自然的声门脉冲破形,这个波 形可由下式产生: f1 2 1 一c o s ( n n _ 1 ) ( 0sh n 1 ) g ( ) = c o s i x ( n n 1 ) 1 2 n 2 】( l h n l + n 2 ) ( 2 3 ) io 其他 2 1 4 完整的语音产生模型 综合考虑声门激励、声道和嘴唇辐射影响就得到语音发生的离散系统模型。 这就是说,语音信号可看作是激励信号激励一个线性系统h ( z ) 而产生的输出,其 中h ( z ) 是声道响应v ( z ) 与嘴唇辐射模型r ( z ) 相级联而成,即: h ( z ) = v ( z ) r ( z ) 但一4 ) 对于浊音来讲,我们还可以把声门脉冲的影响也归并到传递函数中,即: h ( z ) = g ( z ) v ( z ) r ( z )( 2 - 5 ) 这时,浊音信号就可以看作是由一个准周期性的脉冲串激励一个离散线性系统 h ( z ) 而产生的输出了。当然,这里的线性系统的参数是随时间而变的,不过其时 中国科学技术大学硕士论文第2 章语音识别基本理论 变过程通常比起语音信号波形的振荡过程来说要慢得多,因此可以假定在l o 2 0 m s 的时间间隔中其系统参数是固定不变的,这就给进行参数估汁以及语音合 成都带来极大方便。目前语音处理的许多场合都是基于这种短时平稳的假定。 2 2 汉语语音基础及其特性 任何语言的语音都有元音( v o w e l ) 和辅音( c o n s o n a n t ) 两种音素( p h o n e m e ) ,它 们是按音素的发音特征来分类的。 音素:根据语言学( 音韵论) 的定义,声音的最小基本单位称为“音素”, 采用音韵符号a 表示。 元音:其特征是由声带振动而发音并且声道比较畅通。元音最重要的特色是 由于声道中发生谐振的结果使声音具有音色。也就是说,每个元音的特点是由声 道的形状和尺寸来决定的。 辅音:其特征是声道受阻,有无音响还在其次。辅音最重要的特色是语音流 中有湍流和其它间断。发辅音时,如果声带不振动,发出的辅音称为清辅音( 也 称噪音) ,如果声带振动则称为浊辅音。形成受阻的部位和发音方法的不同,发 出的辅音也就不同。 声母和韵母是按汉语字音的结构来分类的。在我国,传统的音韵学对语音的 分析,是采用音、韵、调系统的分析方法。每个“字音”分析为“声母”和“韵 母”两部分,每个“字音”又有阴平、阳平、上声、去声四种声调。 声母:声母可以由辅音来充当,但辅音不一定就是声母。汉语普通话中共有 2 2 个辅音,除n g 以外的2 1 个可以作为声母( 参见表2 1 ) 。 韵母:韵母可以由元音来充当。它包括单韵母( 一个元音) 、复韵母( 两个 或两个以上的元音) 和带声韵母( 元音和辅音、即用n 或“n g ”收尾的韵母) 。 汉语普通话中有1 0 个元音组成3 8 个韵母。表2 2 列举了3 5 个韵母,另外“i 资”、“i 知”、“e l ”、“扩为4 个特殊韵母。 在汉语中一个字对应与一个音节( s y l l a b l e ) ,所以它是由声母、韵母和声调按 一定的方式构成的,它是语言的最小使用单位。 般韵母又可分为韵头、韵腹和韵尾,韵头只能是“i ”、“u ”、“u ”,韵腹是 主要部分,其发音较强,韵尾只能是“i ”、“u ”、“n ”和“n g ”,前两者可作为韵 中国科学技术大学硕士论文第2 章语音识别基本理论 母独立存在。 、发音部位双唇音唇齿音 舌尖舌尖舌尖 舌面舌根音 发音方法、前音中音后音前音 塞清 不送气 b d g 音 立 日 送气 p k 塞 清 不送气 z h j 擦 音 音 送气 c h q 擦清音 fs hh 血 浊音 鼻音浊音 n g 边音浊音 】 表2 1 汉语辅音表 i衣u 乌 n 迂 监 a啊 i a 呀 u a 蛙 韵 。 喔 u 0 窝 母 e鹅i e耶ne 约 复 a i屐 ua i 歪 韵 e i 诶 ue i 成 a o 熬 i a o 腰 母 ou欧 i ou 优 带 a i 1 安 i a l 3烟u aa弯a n 冤 士 e n 恩 i n 因 ue n 温 n n量 尸 韵 a ng 昂i a ng 央u a 1 3g 汪 母 eng 亨的韵母i 1 1g英ue ng 翁 onz 轰的韵母i 0 1 3g 雍 表2 2 汉语韵母表 声调具有区分字义的功能。对同个声母和韵母构成的字音,音调不同,则对声 母和韵母构成的字音,音调不同,则对应的字也不同,意思也完全不同。图2 3 表示汉语四种声调的位置关系。在汉语普通话中,并不是任何声母和韵母都能组 合拼成音节的,2 1 个声母和3 5 个韵母共约配合成4 0 0 个音节,再加上四个声调 组成1 6 0 0 个左右的带调音节。 图2 3 汉语四声位置图 高 半高 中 半低 低 中国科学技术大学硕士论文 第3 章说话人识别的语音处理过程 第三章说话人识别的语音处理过程 个说话人语音识别系统的基本结构如图3 1 所示。主要包括前端处理、起 身份声称 图3 ,1 说话人语音识别系统基本结构 止点识别部分、特征提取部分、模板存储部分及识别判决部分。在一个系统可 以进行识别前,先要进行语音的模板训练。识别时将识别音的数据与模板里的数 据进行比较以得出识别结果。 训练时语音由拾音话筒输入,先进行语音的前端处理,包括方大、自动增益 控制、抗混叠滤波以及对语音信号进行模数转换( a d ) 得到数字化的语音信 号,然后对语音数字信号进行统计或变换计算以判定语音的起止点以得到有音段 的语音数据,再对语音数据进行特征提取得到该语音的特征参数,最后将特征参 数进行变换处理后作为该语音的模板进行存储,也可以直接将特征参数作为模板 进行存储。对于所有希望识别的语音都要生成其相应的模板。 识别时待识语音的前端处理、起止点识别以及特征参数的提取都与训练时相 同。然后进行识别判决,具体步骤是:将提取的特征参数与模板一一进行匹配, 即距离计算确认待识语音是与之距离最小同时该距离又不高于某一阀值的 模扳所对应的语音确认身份 由此基本结构我们可以清楚地看到语音识别理论所涉及的问题,各个问题对 应了识别理论的组成部分以及各部分所要解决的问题。本章的后续几节我们就对 应此结构分别介绍识别理论的前端处理、起止点检测、特征提取、模板存储和识 别判决。 圊 三 中国科学技术大学硕士论文第3 章说话人识别的语音处理过程 3 :1 前端处理 在对输入的语音信号进行分析处理前,必须先进行信号的前端处理,该过 程包括:放大及自动增益控制、预加重、抗混叠滤波、a d d 转换、噪声消除。如 果还需要语音输出,则需要进行d a 转换及起平滑作用的模拟低通滤波器。 图3 2 给出了一般语音信号分析和处理的系统框图。 图3 2 语音信号处理系统框图 由于麦克风的特性各不相同,其输出电平变化范围也不同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论