(电力系统及其自动化专业论文)说话人识别系统的研究.pdf_第1页
(电力系统及其自动化专业论文)说话人识别系统的研究.pdf_第2页
(电力系统及其自动化专业论文)说话人识别系统的研究.pdf_第3页
(电力系统及其自动化专业论文)说话人识别系统的研究.pdf_第4页
(电力系统及其自动化专业论文)说话人识别系统的研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(电力系统及其自动化专业论文)说话人识别系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文 第| j 页 a b s t r a c t s p e a k e rr e c o g n i t i o n i st h e p r o c e s s o fa u t o m a t i c a l l yr e c o g n i z i n gw h oi s s p e a k i n go nt h eb a s i so fi n d i v i d u a li n f o r m a t i o ni n c l u d ei ns p e e c hs i g n a l s i th a s w e l l a p p l i c a t i o np r o s p e c t s i n m a n yf i e l d s b ya n a l y z i n gs p e e c hc h a r a c t e r i s t i c p a r a m e t e r sa n dt h eb a s i sm e t h o d so fs p e a k e rr e c o g n i t i o n ,w ec h o o s em f c c a n d l p c c sd i f f e r e n c et ob et h e s p e e c hc h a r a c t e r i s t i cp a r a m e t e r s u s i n gd t w t o r e c o g n i z et e x t d e p e n d e n ts p e e c h ,w eh a v ed e v e l o p e das p e a k e ri d e n t i f i c a t i o n s y s t e mi nt h i sp a p e r b e f o r ep i c k i n gu pt h e s p e e c hs i g n a l c h a r a c t e r i s t i c p a r a m e t e r s ,t h e v o i c e s i g n a l i s u n d e r g o i n gp r e t r e a t m e n t i nt h i sp h a s e ,w es h o u l df i n dt h es i g n a l s e n d p o i n ta n df i l t e rt h es p e e c hs i l e n c es e g m e n ti no r d e rt op r o v i d eu s e f u ls p e e c h s e g m e n t w eg i v ec o m p a r i s o n o ft h et w oe n d p o i n te x a m i n a t i o nm e t h o d s : d o u b l e g a t et h r e s h h o l dm e t h o d a n d e n e r g y - f r e q u e n c y v a l u em e t h o d e x p e r i m e n t s s h o wt h a tl a t t e rc a np a r t i t i o nt h ee n d p o i n to fn o i s e s p e e c hb e t t e r i nt h i s p a p e r , w eu s ef u l lp o l em o d e lt o o b t a i n s p e e c hs i g n a ll p c ,t h e n d e d u c ei t s l p c c ,a n dw eu s et h el p c cd i f f e r e n c et od e s c r i b es p e a k e r st r a c k d y n a m i cm o v e m e n t a l s o ,s i n c em f c cr e p r e s e n th e a r i n gf r e q u e n c yn o n l i n e a r c h a r a c t e r i s t i c w eu t i l i z em f c ct ob ea n o t h e rs p e a kr e c o g n i t i o nc h a r a c t e r i s t i c p a r a m e t e r t od i s t i n g u i s ht h ei n p u t p a s s w o r d s i nt h i s p a p e r w eu t i l i z em a t l a bv o i c eb o xt o a b s t r a c t s p e e c h s c h a r a c t e r i s t i cp a r a m e t e r , u s ed t wt om a t c h i n gr e f e r e n c em o d e lw i t ht e s tm o d e l a n do b t a i n v e r yh i g hr e c o g n i t i o nr a t e c o n s i d e r i n gs y s t e ms e c u r i t y , w ea d o p t m f c ct o r e c o g n i z ep a s s w o r da n dl p c ct or e p r e s e n ts p e a k e rt r a c kd y n a m i c m o v e m e n t t h ed o u b l ed e c r e e se n a b l ei t a p p l y i n gi nh i g hs e c r e ts i t u a t i o n s t h e s y s t e mh a sm a n ym e r i ts u c ha st h eq u i c ko p e r a t i o nv e l o c i t y ,e a s ym o d e lu p d a t e , l e s sc a l c u l a t eq u a n t i t ya n d l o we r r o rr a t e i no r d e rt o c o m p a r e t h ed i f f e r e c eo fr e c o g n i t i o n a l g o r i t h m ,w e d e v e l o p t e x t _ i n d e p e n d e n ts p e a k e rr e c o g n i t i o ns y s t e m w eu s em f c ca n di t sd i f f e r e n c ea s 西南交通大学硕士研究生学位论文第1 ii 页 t h ef e a t u r e ,m a k eg a u s s i a nm i x t u r em o d e la n da c q u i r eh i g h e rr e c o g n i t i o nr a t e i t c a nb ea p p l i e di nl o w r e c o g n i t i o nr a t en e e d e ds i t u a t i o n k e yw o r d s :s p e e c hr e c o g n i t i o n ;e n e r g y f r e q u e n c yv a l u e ;m e lf r e q u e n c y c e p s t r u m c o e f f i c i e n t d i f f e r e n c e ;l i n e a rp r e d i c t i o n c e p s t r u md i f f e r e n c e ; d y n a m i ct i m ew a r p i n g ;g a u s s i a nm i x t u r em o d e l 西南交通大学硕士研究生学位论文 第1 页 第1 章绪论 1 1 计算机语音技术概述 众所周知,语言是人类进行相互通信和交流的最方便快捷的手段。在高 度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、 增强等是整个数字化通信网中最重要、最基本的组成部分之一。 计算机的高速发展既对语音信号数字处理提出了越来越高的迫切要求 ( 如用语音输入代替键盘输入以实现直接的人机对话) ,同时也提供了效率不 断提高的软、硬件实现手段。同时语音也是人类思维的一种主要表现形式, 因此这一学科与认知科学和人工智能等研究领域有着千丝万缕的联系。近年 来人工神经网络的研究有了飞速的发展,语音信号数字处理各项课题是促进 其发展的重要动力之一。语音信号数字处理涉及一系列前沿科研课题,是目 前发展最迅速的信息科学研究诸领域中的一个。语音处理的研究涉及三方面 互相密切配合的任务和课题,这就是:应用、算法( 包括基础理论和软件) 和硬件系统,三者缺一不可。 计算机实现文字到语音的转换过程,通常称为文语转换( t e x t t o s p e e c h 简称t t s ) ,也就是人们常说的计算机朗读,涉及计算机语音合成技术。而由 文字到语音转换的逆过程一由语音到文字,却相对困难得多。这种逆过程的 技术就是计算机语音识别技术。今天,几乎所有的具有智能的系统中都装备 有计算机,对这样的系统讲话并让它“理解”人所说的内容,这就是语音识 。别技术的目的。2 0 世纪7 0 年代末到8 0 年代,采用计算机语音识别技术研制 成一些实用的系统。例如,1 9 7 6 年由f l a n a g a n 报道的“实验的航空查询和购 蓦服务系统”,用于顾客和航空公司的计算机之间关于机票查询及记帐购票的 服务。1 9 8 0 年报道的曰本新干线火车预约座位系统,它叫作v o i c eq a 系统 ( 语音问答系统) 。它在问讯时进行会话识别,而在回答时进行语音合成输出。 再有f a n t 报道的瑞典的语音识别系统,它已被瑞典e r i c s s o n 公司用来装备内 部快呼通讯网,使用这种系统打电话时,人们不必再拨号或按数字键,只需 西南交通大学硕士研究生学位论文第2 页 要说出受话人的姓名便可接通了。这个系统比日本东芝公司的语音拨号电话 机更为先进。后者只能识别数字,而前者能识别相当数量的词或词组。采样 语音识别的产品还有声控打字机、声控摄影机、声控卡拉o k 机等i “。在通 信方面一项更加雄心勃勃的计划是实现两种语言之间的直接国际通信,即通 过“语音识别一机器翻译一语音合成”将一种语言直接转换成另一种语言, 日本和欧洲都有一些很具实力的研究组织正在开发这个领域的产品。 1 2 语音识别分类 语音识别主要有两大类:语音识别和说话人识别。对这两类识别系统的 共同要求是对自然会话的识别率高。语音识别系统的基本任务是准确地识别 全部的话语,或者是“理解”所说的话语。说话人识别的任务是确认说话人 ( 即证实说话的人是否是所要求的那个人) 或者从某个已知的人群集合中辨 认出那个说话人。因此,说话人识别系统又可以分为说话人确认与说话人辨 认两个方面。语音识别是识别讲话的内容是什么,是对语音共性的识别。 语音识别按照所要识别的单元分,有孤立词识别、音素识别、音节识别、 单句识别、连续语音识别和理解:按照说话人分,有单个特定说话人,有限 的说话人和无限的说话人;按照识别方法分,有模板匹配法、随机模型法和 概率语法分析法。从目前的水平来看,特定说话人语音用模板匹配法的单词 识别已达到实用阶段。今后的发展和研究方向是非特定说话人以音素为识别 单位的自然会话的语音识别系统。语音识别的一般方法如图1 1 所示。 图1 - 1 语音识别的一般方法 西南交通大学硕士研究生学位论文 第3 页 1 3 说话人识别 说话人识别是通过对说话人语音信号的分析和提取,自动确定说话人是 否在所登记的说话人的集合中,以及说话的人是谁。它又分为说话人确认( 即 核对或核实) 和说话人辨认( 即辨别或识别) 。这两类有共同性的要求,也有 不同的地方。它们的共同性要求是采用表示个性的语音特征参数,而忽视语 音的共同存在的特征。说话人识别的两类系统的比较【”见表1 - l 。 在说话人识别中,待识别语音可以是固定文本,也可以是任意的文本。 当待识别语音为一预先确定的文本“口令”时,称该方式为文本相关方式 ( t e x t d e p e n d e n t ) ,反之则称为文本无关方式( t e x t - i n d e p e n d e n t ) 。文本相关 表1 1 说话人识别的两类系统比较 说话人辨认说话人确认 说话人未必合作说话人主动合作 存在发音伪装问题存在发音模仿问题 必须与n 个已知模式进行比较只需与一个已知模式进行比较 系统响应可以缓慢系统响应必须快速 词汇表可以各不相同词汇表限于标准试验短语 通道特性可能不良或不同通道特性往往可以调整 信噪比可能太低信噪比通常可调 方式和文本无关方式有着不同的应用场合,比如在保密等应用中,前者可做 到既识别说话人又识别密码( 既文本) ,从而加大了保密度,而后者又可减少 由于使用密码可能造成的密码更换、密码遗忘等麻烦,更加方便推广使用。 从本质上讲,说话人识别是一个语音信号模式识别问题,它由训练和识 刷两个过程完成。提取说话人特征的过程称为训练过程,根据待识别语音对 说话人身份作出判断称为识别过程。训练过程是从某一说话人大量语音信号 。中提取出该说话人的个人特征,并形成参考模式。识别过程是从待识别语音 中提取特征形成待识模式,与参考模式进行比较和判决,从而确定说话人身 份。 西南交通大学硕士研究生学位论文第4 页 1 3 1说话人识别的应用前景 说话人识别可以用于说话人身份未知,而说话人的身份问题又很重要的 场合。主要的应用有: 说话人核对:语音邮件、电子交易、安全保卫等常需要身份核对。说话 人识别可用于电话预约服务、计算机人机界面等,使其只响应合法使用者。 司法鉴定:从犯罪时所记录的声音确定罪犯。有时嫌疑人中可能不包含 真正的罪犯,这时常常需要说话人识别和说话人确认技术的有机结合。 语音检索:电话录音等设备每天产生大量信息,而我们常常仅对某些特 定身份的说话人感兴趣,将说话人识别技术与连续语音识别技术相结合,就 可检索出录音中特定人所说的内容。 医学应用:说话人识别的主要依据是说话人声道生理结构的差异,一方 面生理学和解剖学的进展可促进说话人识别问题研究,另一方面也可借助说 话人识别方法进行声道特性的研究。例如使说话人识别系统响应患者的命令, 从而实现对机器假肢的控制等【2 l 。 虽然以上罗列并不完全,但却给出了说话人识别的基本应用类型和一些 典型应用。与其他身份辨别方法( 如指纹、眼虹膜、d n a ) 相比,说话人识 别使用的语音信号具有获取简单的特点,故其具有广泛的应用前景。 1 3 2 说话人识别技术难点 说话人识别的技术难点在于:尚未找到简单可靠的说话人语音特征参数, 还没有很好的方法将说话人的个体特征从语音特征中分离出来,也没有找到 ,简单的声学参数能够可靠地识别说话人;语音信号的变异性,说话人语音特 征不是静态的、固定不变的,它具有时变特性,与说话人所处的环境、情绪、 堪康状况有密切的关系,会随着时间的推移和年龄的变化而变化,另外传输 语音的通道信道的时变效应问题也是语音信号产生变异的重要方面。 西南交通大学硕士研究生学位论文 第5 页 1 3 3 说话人语音特征的提取 说话人语音特征在理想情况下该具有以下特点: 1 ) 能够有效地区分不同的说话人,但又能在同一说话人的话音发生变化 时相对保持稳定。 2 ) 易于从语音信号中提取。 3 ) 不易被模仿。 但到目前为止,还没有找到这样的基本特征。一般要采取一些折衷措施。 按照参数的稳定性,说话人特征参数大致可分两类:一类是说话人生理决定 的固定特征( 如声道构造差异) ,反映在基音和低频共振峰,这类特征不易模 仿,但容易受到健康状况的影响;另一类是声道运动的动态特征,也就是发 音方式、发音习惯等,这类特征相对稳定却容易模仿。 说话人识别研究中已使用过的特征参数主要有语音帧能量,基音及其共 振峰,帧短时谱或b p f g ( 附听觉特征处理) 特征,线性预测系数l p c ,谱 相关特征,相对发音速率特征,l p c 倒谱系数,音调轮廓特征等。不同的特 征参数的物理意义不同。基音及其共振蜂是表征说话人固有特征的参数,以 全极点模型为基础的线性预测参数可以较为精确地反映语音信号的频谱幅 度。把语音信号每一段看成准周期脉冲或随枫噪声激励一个线性时不变系统 的输出,通过解卷积的方法将激励信号和系统冲击响应分开,倒谱系数反映 了声道的共振性能。 在文本无关方式下,说话人语音特征一般用倒谱参数来表征。倒谱是信 号的f f t 谱取对数后的逆f f t 变换,它可将信息量较小的峰值信息和更重要 的声道形状信息相分离,是目前普遍采用的说话人特征参数。倒谱系数也可 由线性预测系数推得,称为线性预测倒谱,它是语音帧倒谱的自相关序列。 与直接计算倒谱相比,线性预测倒谱的计算量较小。对大多数语音信号来说, 盒极点模型能很好地模拟声道的效应。然而对于鼻音和摩擦音,往往需要零 极点模型才能更好地模拟声道地效应,所以自回归一滑动平均( a r m a ) 模 型跚邮和加权倒谱a c w l 5 1 ( a d a p t e dc o m p o n e n t sw e i g h t e d y d i 已被用来提取说 话人语音特征。基于听觉原理,美尔频率倒谱( m e lf r e q u e n c vc e p s t r u m c o e f i c i e n t ,简称m f c c ) 也被用于说话人特征提取。 西南交通大学硕士研究生学位论文 第6 页 由于说话人识别的大部分应用与电话信道有关,导致大部分特征提取方 法注重语言信号低频特性的研究,已有人在强噪声背景下研究语言信号的高 频特性l6 1 ,以丰富说话人特征。考虑噪声条件和信道特性补偿的鲁棒性说话 人语音特征提取【4 【7 j 贝q 是目前说话人特征提取研究的热点。 1 3 4 说话人识别方法 说话人识别系统可以基于模式匹配、h m m ( 隐马尔可夫模型) 和人工神 经网络模型来实现。识别中的一些方法与语音识别类似,如用d t w ( d y n a m i c t i m ew a r p i n g ) 动态时间归整或v q ( v e c t o rq u a n t i z a t i o n ) 矢量量化技术来处理 动态时间匹配问题。但是,由于说话人识别有与文本相关、与文本无关等问 题且识别出的是说话人而不是输出语音的含义,所以与语音识别又有些差异。 对于与文本有关的识别主要采用v q ,将输入特征序列逐个与v q 的各码本 中码字比较,然后将距离累加作为识别依据,而不考虑时序,从而与被识别 的音的音素顺序无关。对于识别结果是说话人这一特点,则是在输入序列中 着重考虑对不同说话人而言有较大差异的部分,而可以忽略语音的含义。 由于人的语音是随生理、心理和健康的状况变化的,不同时间下的语音 会有所不同。因此,说话人识别系统的训练时间与使用时间相差过长,会使 系统的性能明显下降。为维护系统性能,一种方法是取不同时期的语音进行 训练,另一种方法是在使用过程中不断更新参考模板,即当某次使用过程中 某说话人被正确证实时,使用此时的输入特征对原模板作加权修改,一般用 1 1 0 加权。这样可以使模板逐次趋于完善。 1 4 本论文研究的内容 在国外,说话人识别( s p e a k e rr e c o g n i t i o n ,简称s r ) 技术获得了广泛 的研究,同时也有少量成熟产品问世。a t & t 、t i 与美国著名的通讯公司s p r i n t 都已经展开了在声音识别领域的实验和实际的应用。在我国的s r 研究中, 南京北极星软件公司的研究走在前列,它主要构造了“训练模块”和“识别 模块”来实现s r 技术。 在国内外说话人识别领域前人研究的基础上,本论文开发了一套自己的 西南交通大学硕士研究生学位论文第7 页 说话人辨认( s p e a k e ri d e n t i f i c a t i o n ,s i ) 系统,它主要用于具有保密性质、 需要安全密码的场所进出口检查,以及确定人员安全级别等,同时也可以将 此系统应用于电子商务或者电话证券服务等。为了比较各种识别算法的优良 性能,本文做了与文本相关和与文本无关两种说话人识别系统的比较,其实 现是通过使用m a t l a b 软件进行仿真,获得实验所需的结论。该系统的原 理框图如图1 2 所示。 系统框图的虚线框内的部分通常称为预处理阶段。先将输入的模拟语音 信号数字化量化和采样,也就是通过声卡的采集,获得数字化的语音信号。 再将含噪的语音信号通过去噪处理,得到干净的语音信号后并通过预加重技 术滤除工频干扰,以此提升信号的高频。预处理的最后部分是语音端点检测, 通过能频值端点检测算法,求出语音信号的起始点和终止点,为特征提取提 供有效的语音段。 图1 2 说话人辨认系统原理框图 系统的第二个阶段是语音特征参数的提取。本文通过分析说话人声道特 性和听觉非线性特性,选择线性预测倒谱系数和美尔倒谱系数作为本系统说 话人识别的特征参数。在m a t l a b 语音处理工具箱的帮助下,本系统编制 了较为简洁、高效的获取语音特征的m 文件,为后续的训练和识别提供参数。 特征提取后,系统进入参数训练阶段和识别阶段。通过同样的特征提取 手段,我们得到用于训练和识别的语音特征参数,再通过识别方法,将参考 模板和测试模板进行识别,得到系统辨识的结果。 为了较好地提取语音特征参数,首先要获得去噪后的干净语音信号。本 研究系统中采用小波去噪的方法去除语音信号中的环境噪声,得到比较干净 的语音信号。为了得到有效的语音段,本文采用语音能量和过零率的乘积即 能频值来检测语音信号的端点,并且为了体现能频值端点检测算法的优越性, 西南交通大学硕士研究生学位论文第8 页 本文对比了传统的双门限端点检测算法和能频值端点检测算法对同一语音端 点检测的效果。实验结果发现,能频值端点检测算法能够更好的检测到语音 起始点和终止点,依据语音能量和过零率组合的双门限语音端点检测算法虽 然能较好得检测到端点,但是要首先确定语音背景噪声能量,而且不同人的 发音习惯和声强不同,要不停的调节能量的值才能准确地确定端点。所以能 频值端点检测算法只需要调节一个相对域值就能很好地确定语音端点,优点 非常明显。 在文本相关说话人识别系统中,本文采用线性预测倒谱系数和美尔倒谱 系数及其差分相结合的复合策略,识别说话人的声道特性和语音听觉特性, 识别算法采用动态时间归整算法来匹配模板。实验结果表明,识别率非常的 高,语音段长度短,容易采集,计算速度快。在安全级别要求较高的场合采 用文本相关说话人识别系统,不仅能识别口令或密码,而且保证了系统的安 全性能。 在文本无关说话人识别系统中,本文采用美尔倒谱及其差分系数作为语 音特征参数,用高斯函数表示语音特征参数的分布,建立用高斯分量的加权 和表示的高斯混合概率模型来表示说话人的特征。系统分别采集了8 个男生 6 个女生的长达3 0 至6 0 秒的自然会话语音来训练语音模板,采用5 至1 0 秒 左右的语音来测试模板,识别率达到9 2 以上。实验结果表明,在不需要i z l 令或密码的场合,人们无需记住密码,任意的语音输入就能较好的识别说话 人,在安全级别要求不是太高的场合,这种识别系统有较广泛的应用价值。 以后的几章节将对系统的建立加以详细的论证说明。 西南交通大学硕士研究生学位论文 第9 页 第2 章语音信号预处理 由于说话人识别是语音识别的一个大类,则它的一般处理方法也同语音 识别系统基本相同。在本论文研究中说话人识别的一般原理框图如图1 2 所 示,其中虚线框内部分为说话人识别的第一环节,那就是语音信号预处理, 它包括反混叠滤波、模数变换、自动增益控制、去除声门激励及口唇辐射的 影响等,以及去噪和语音端点检测。本章就介绍有关的知识。 2 1 语音信号获取 2 1 1 语音的产生 人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道 引起音频振荡而产生的,其中声道起始于声门处而终止于嘴唇,包括咽喉、 口腔,鼻道则是从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生耦 合而产生语音中的鼻音。 人类发音过程有三类激励方式,因而能产生三类不同的声音:浊音、清 音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张驰 振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音。这些 周期脉冲的周期称作基音周期,其倒数称为基音频率。如果声道某处面积很 小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个门 限时便产生摩擦音,即清音。如果声道某处完全闭合建立起气压,然后突然 释放而产生的声音就是爆破音1 2 】。 产生语音信号的框图如图2 1 所示。 声道是一个谐振腔,气流激励声道发生共振产生语音信号。声道发生共 振的不同的谐振频率称为共振峰频率,简称共振峰,它是声道的重要声学特 性。每一个共振峰对应声道的系统函数的一对极点。 西南交通大学硕士研究生学位论文第堕 图2 - 1 语音信号的产生模型 2 1 2 语音信号的数字化 号 为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤, 从而得到时间和幅度上均为离散的数字语音信号。根据采样定理【9 】,当采样 频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从 采样信号中不失真地重构原始信号波形。 语音信号是随时间而变的一维信号,它所占据的频率范围可达1 0 k h z 以 上,但是对语音清晰度和可懂度有明显影响的成分,最高频率约为5 7 k h z 。 c c i t t ( 国际电报电话咨询委员会) 提出的数字电话g 7 1 l 建议,采样率为 8 k h z ,只利用了3 4 k h z 以内的信号分量。由于语音信号本身冗余度比较大, 这样的采样率并不影响语句的可懂度。这一标准已为世界所公认。 在将语音信号进行数字化前,必须先进行防混叠滤波,滤除高于1 2 采 样率的信号成分或噪声。这种防混叠滤波通常与模数转换器做在一个集成块 内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到 的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得 的是经过防混叠滤波、a d 变换、量化处理的离散的数字信号。 2 1 3 语音信号的采集 在进行语音信号数字处理时,最先接触的是它的时域波形。为了获取一 段语音信号的时域波形,首先将语音用话筒转换成电信号,再用a d 变换器 将其转换为离散的数字化采样信号后存入计算机的内存中【1 0 】。在实际工作 西南交通大学硕士研究生学位论文 第”页 中,我们可以利用w i n d o w s 自带的录音机录制语音文件,声卡可以完成语音 波形的a d 转换,获得w a v e 文件,为后续的处理储备原材料。调节录音机 保存界面的“更改”选项,可以存储各种格式的w a v e 文件。 采集到语音信号之后,需要对语音信号去噪处理。本研究中采用小波去 噪处理,获得了较好的去噪效果,具体应用是调用m a t l a b 信号处理工具 箱中的小波处理函数。 2 2 语音信号的数字模型 完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐 射模型的串联来表示。下面分别介绍这三个模型。 2 2 1 激励模型 发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。此时的激 励信号是一个以基音周期为周期的斜三角脉冲串。此脉冲可看作加权的单位 脉冲串激励单个斜三角脉冲的结果。这时的整个激励模型用公式( 2 - 1 ) 表示: 一 1 u ( 2 ) = g ( 。) e ( 2 ) 2 寺正葫( 2 - 1 ) 其中c 为常数,r 为基音周期,e ( z ) 为单位脉冲串的z 变换形式。 发清音时,声道被阻碍形成湍流,所以可以模拟成随机白噪声。实际上, 通常使用均值为0 、方差为1 并在时间或幅度上为随机分布的序列表示。 2 2 2 声管模型 最简单的声道模型是将其视为多个不同截面积的管子串联而成的系统, 这就是声管模型。在语音信号的某一“短时”期间,声道可表示为形状稳定 的管道。由于语音的短时平稳性,假设在短时间内,各段管子的截面积a 是 常数。设第m 段和m + l 段的声管的截面积分别是a ,am + ,设 k 。= ( a 一a 。) ( 爿+ 4 。) ,称为“面积和差比”,其取值范围为一1 k m r ,且设分子与分母无公因子及分母无重根,则上式可分解为部 分分式之和 西南交通大学硕士研究生学位论文第13 页 m ,= 砉西南 这就是并联型的共振峰模型。 2 2 3 3 混合型 ( 2 - 5 ) 将级联型和并联型结合起来的混合模型是比较完备的一种共振峰模型。 该模型能够根据不同性质的语音进行切换。 2 2 4 辐射模型 声道的终端为口和唇,从声道输出的是速度波,而语音信号是声压波, 声压波与速度波二者之比称为辐射阻抗z ,。它表征口和唇的辐射效应,也包 括圆形的头部的绕射效应等。口唇端辐射在高频端较为显著,在低频端时影 响较小,所以辐射模型r ( z ) 应是一阶类高通滤波器的形式。口唇的辐射效应 可表示为式( 2 6 ) 的一阶后向差分。 r ( z ) = r o ( 1 一z 。1 )( 2 6 ) 完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐 射模型的串联来表示。其传递函数为下式f 8 1 。 凹( z ) = 【,( z ) 矿( z 冰( z )( 2 7 ) 2 3 语音信号预加重 在语音信号模型中,如果不考虑冲激脉冲串模型e ( z ) ,则斜三角波模型 是二阶低通,而辐射模型是一阶高通,所以实际信号分析中常采用“预加重 技术”。即在对信号取样之后,插入一个一阶的高通滤波器,这样,就只剩下 声道部分,便于对声道参数进行分析。在语音合成时再进行“去加重”处理 就可以恢复原来的语音。常用的预加重因子为l - - j r ( 1 ) r ( 0 ) z ,丑( n ) 是语 音信号的自相关函数。 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,它在大约 8 0 0 h z 以上的高蓼端按6 d b 倍频程跌落,为此要在预处理中进行预加重。预 西南交通大学硕士研究生学位论文 第14 页 加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析 或声道参数分析。预加重可在a d 变换前的反混叠滤波之前进行,这样不仅 能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。同时, 预加重也可在a d 变换后进行,用具有6 d b 倍频程的提升高频特性的预加重 数字滤波器实现,它一般是一阶的h ( z ) = 1 一k t z ,式中接近于l 。加重后 的信号在分析处理后,需要进行去加重处理,即加上6 d b 倍频程的下降的频 率特性来还原成原来的特性。 2 4 语音信号的时域分析 语音信号处理包括语音通信、语音合成、语音识别、说话人识别和语音 增强等方面,但其前提和基础是对语音信号的分析。只有通过语音信号分析 得到表示其本质特性的参数,才能利用这些参数进行高效的语音通信,才能 建立用于语音合成的语音库,也才可能建立用于识别的模板或知识库。而且, 语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确 性和精度。 根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方 法。时域分析具有简单、运算量小、物理意义明确等优点;但更为有效的分 析多是围绕频域进行的。贯穿于语音分析全过程的是“短时分析技术”。根据 对语音信号的研究,其特性是随时间变化的一个非平稳过程,但在一个短时 间范围内其特性基本保持不变即相对稳定的准平稳过程。语音的重要特性是 它的“短时性”,所以对语音要进行短时分析,将语音信号分为一段一段来分 析,其中每一段称一“帧”。语音信号通常在1 0 - - 3 0 m s 之内是保持相对平稳 的,因此帧长一般取为1 0 - - 3 0 m s 。 2 4 1 短时能量和短时平均幅度 语音信号仁( n ) 的短时能量定义为 n e = h ( m ) 】2 w ( n - m ) = x ( 肌) 】2 w ( n 一肌) m = o m 。m n + l 其中w ( n ) 是窗函数,用得最多的三种窗函数是矩形窗、 ( 2 8 ) 汉明( h a m m i n g ) 窗 西南交通大学硕士研究生学位论文第15 页 和汉宁( h a n n i n g ) 窗,其定义分别是: 矩形窗 f 1 ( 0 m n 一1 ) 坎拧) 2 1 j ,( 其他) 汉明窗 w = 岔巍4 6 “2 别。1 ”“畦肛。d 汉宁窗 w 瓣2 训肛d “眩胚肛d ( 2 - 9 ) ( 2 1 0 ) ( 2 - 1 1 ) 式( 2 - 8 ) 也可表示成e = x 2 ( 聊) 伽一聊) 这里 ( 疗) = w 0 ) ,此式表明,短时 能量相当于语音信号平方通过一个单位函数响应为而( n ) 的线性滤波器的输 出。 由于式( 2 8 ) 是卷积形式的,因此e n 可以理解为离散信号扛( 竹) 经过一 个单位冲激应为 w ( n ) ) 的f i r 低通滤波器产生的输出。由于窗函数一般取为 x ( 疗) 中间大两头小的光滑函数,这样的冲激响应所对应的滤波器具有低通特 性。其带宽和频率响应取决于窗函数的选择。 2 - 2 汉明窗的频率响应 汉明窗的频率响应幅度特性如图2 2 所示,矩形窗、汉宁窗同汉明窗一 一 西南交通大学硕士研究生学位论文第1 6 页 样,他们都有低通特性。它的主瓣宽度b ,旁瓣高度a 。如表2 1 所示。从表 中可知,矩形窗的主瓣宽度最小,但旁瓣高度最高;汉明窗的主瓣最宽,而 旁瓣高度最低。矩形窗的旁瓣太高,会产生严重的泄漏现象( g i b b s ) ,因此 只在某些特殊场合中采用。汉明窗旁瓣最低,可以有效地克服泄漏现象,具 有更平滑的低通特性,因此应用最广泛。对于同一种窗函数,主瓣宽度与窗 长度成反比。 表2 11 s 长的各种窗的主瓣宽度( b ) 和旁瓣高度( a ,) l 矩形汉明汉宁 l b0 8 l h z1 9 1 h z1 8 7 h z lq 1 3 d b4 3 d b3 2 d b 选用不同的窗口,将使能量的平均结果不同,矩形窗的谱平滑较好,但 波形细节丢失;而汉明窗和汉宁窗则相反。 窗口的长度对于能否反映语音信号的幅度变化,将起决定作用。窗长越 长,它对信号的平均和平滑作用便越厉害。要想反映快速时变的信息,窗长 应该取得短一些。通常认为在一个语音帧内应包含i 一7 个基音周期。然不同 人的基音周期变化范围很大,通常在1 0 k h z 取样频率下,n 折衷选择为1 0 0 2 0 0 ( 即1 0 2 0 m s 持续时间) 。 短时平均能量的主要用途是: 夺可以区分清音段与浊音段,因为浊音时e 。值比清音时大得多。 夺可以用来区分声母与韵母的分界,无声与有声的分界,连字( 指字之间 无间隙) 的分界等。 夺作为一种超音段信息,用于语音识别中。 但是,e 。值对于高电平信号非常敏感,可以采用另一种度量语音信号幅 度值变化的函数,即“短时平均幅度m 。”,定义为: 三 m 。2 乞i 工( , ) 卜 e f ( t + ,+ 1 )( 2 1 7 ) 式中j 为寻找峰点时的最大帧数。 图2 - 3 能频值端点检测程序流程图 西南交通大学硕士研究生学位论文 第2 2 页 ( 4 ) 计算比值r ,:芝生立 盯( r ) ( 2 1 8 ) ( 5 ) 如果, t ( t 为相对门限阈值) ,则时刻t 对应的语音不是起点,令 t = t + j + 1 ,转( 3 ) ;否则,就认为时刻t 对应的语音为起点。 语音终止点的判定与此类似,只是判定时从时刻t 向前搜索。 能频值端点检测算法的程序流程图如图2 3 所示。 2 5 4 传统双门限端点检测算法 利用短时能量和短时平均过零率相互配合,也可实现可靠的语音端点检 测,称为双门限算法。这种方法普遍用于有话、无话鉴别或词语前端检测。 在开始进行端点检测之前,首先为短时能量和过零率分别确定两个门限。一 个是比较低的门限,其数值比较小,对信号的变化比较敏感,很容易被超过。 另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才 可能被超过。低门限被超过未必就是语音的开始,有可能是时间很短的噪声 引起的。高门限被超过则可以基本确信是由于语音信号引起的。 整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。 程序中使用一个变量来表示当前所处的状态。在静音段,如能量或过零率超 过了低门限,就应该开始标记起始点,进入过渡段。在过渡段,由于参数的 数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都 回落到低门限以下,就将当前状态恢复到静音状态。如果在过渡段中两个参 数中的任一个超过了高门限,就可以确信进入语音段了。 一些突发性的噪声也可以引起短时能量或过零率的数值很高,但往往不 能持续足够长的时间。如门窗的开关、物体的碰撞等引起的噪声,这些都可 以通过设定最短时间门限来判别。当前状态处于语音段时,如果两个参数的 数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是 一段噪音,继续扫描以后的语音数据。否则就标记好结束端点,并返回。 西南交通大学硕士研究生学位论文第2 3 页 2 5 5 两种端点检测算法的比较 图2 - 4 汉语“水”字的端点检测示意图 本文将能频值端点检测算法和双门限端点检测算法做了一个比较,发现 它们有许多的不同点。虽然双门限算法也可以很好的确定语音的端点,但是 由于环境的变化,参考能量值在变化,有时计算时很难确定端点。图2 - 4 是 两种端点检测算法对“水”字的检测示意图。图中上部分的语音、能量、过 零率是双门限法计算的结果,图最下部分是能频值检测的结果。从图中双门 限检测到的语音起始点的波形可以看出,发音“s h u i ”的声母s h 有能量 和过零率,但是双门限端点检测算法检测到的起始点靠后了些,必须同时调 整能量和过零率才能很好的检测到起始端点。而在“水”字结束处,噪声能 量较大,因此还认为语音在继续,所以端点靠后。 对于连续语句,能频值端点捡测算法的输出结果比双门限算法也较为准 确,图2 5 是旬连续语音的端点检测示意图,而图中用双门限算法检测到 的端点同样出现了和图2 4 一样的语音终点的靠后。原因在于语音终点处的 噪声突然增大所致。 西南交通大学硕士研究生学位论文第2 4 页 图2 5 连续语句端点检测示意图 表2 2 列出了两种端点检测算法的区别,从实验结果和列表中可以看 出,利用短时能频值进行端点检测的优越性是显而易见的,它消除了噪声 的影响,具有很好的鲁棒性。 表2 2 两种端点检测方法的比较 比较项目 利用短时能频值的方法双门限的方法 阈值 相对阈值绝对闽值 初始工作不需要 根据背景噪声确定门艰阈值 检测方式用一个值进行 用四个值且语音分四段 鲁棒性好 背景噪声稳定时好,否则差 6 语音端点检测编程实现 本研究采样的端点检测算法,不是实时运行的,而是从w a v e 文件中获碍 语音采样,将其分帧并计算短时能量和过零率参数,然后进行端点检测。 在m a t l a b 中进行语音处理,需下载语音处理工具箱v o i c eb o x 。该工具 箱可以从下面的地址下载: 西南交通大学硕士研究生学位论文第2 5 页 将语音信号分帧,需用到v o i c eb o x 工具箱中的函数e n f r a m e ,e n f r a m e 函数常用的语法为: y = e n f r a m e ( x ,l e n ,i r c ) : 这里x 为输入语音信号,l e n 指定语音帧长,i n c 指定语音帧移。函数返回一 个n x l e n 的一个矩阵,每行都是一帧数据。 语音短时能量可用下面的语句实现: a m p l = s u m ( a b s ( y ) ,2 ) :语音信号绝对值 a m p 2 = s u m ( y + y ,2 ) :语音信号幅度的平方 a m p 3 = s u m ( 1 0 9 ( y * y + e p s ) ,2 ) :语音信号幅度平方的对数 在计算短时能量之前,需要运用个一阶高通滤波器1 - 0 9 3 7 5 2 1 对语音 进行预加重处理。它的目的在于滤除低频干扰,尤其是5 0 h z 或6 0 h z 的工频 干扰,提升语音信号的高频部分,而且它还可以起到消除直流漂移、抑制随 机噪声和提升清音部分能量的效果。将这些写成一行m a t l a b 语句就是: a m p = s u m ( a b s ( e n f r a m e ( f i l t e r ( 1 0 9 3 7 5 ,1 ,x ) ,l e n ,i n c ) ) ,2 ) : 本文用短时能频值计算语音端点,就是将每帧语音的短时能量和短时平 均过零率相乘,得到值就是能频值。为了处理的方便,一般现将语音信号归 一化,将其幅度限制在 一1 ,1 之间,用命令: x = x m a x ( a b s ) : 为了不一帧一帧的计算短时能频值,可以用矢量化的方法计算: t e m p l = e n f r a m e ( x ( 1 :l e n g t h ( x ) 一1 ) ,l e n ,i n c ) : 相差个样点 t e m p 2 = e n f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论