




已阅读5页,还剩56页未读, 继续免费阅读
(通信与信息系统专业论文)电话非正常接通提示音识别.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 电话非正常接通提示音识别 专业:通信与信息系统 硕士生:胡勇军 指导老师:马争鸣教授 “你拨打的电话无法接通”、“你拨打的电话已关机”等等诸如此类的电话提 示音就是所谓非正常接通电话提示音。当发生非正常接通电话提示音时,对于运 营商来说,线路已经接通。但对于用户来说,通话的目的并没有达到。在电信市 场越来越变成买方市场的形式下,运营商们已经不能再对非正常接通电话提示音 的频繁发生安然处之了。对非正常接通电话提示音发生的频率和种类进行实时监 控,以便从用户的角度提供提供全方位的q o s 保证,已经成为运营商们不得不 考虑的问题。 本论文受某电信公司的委托,为该公司的q o s 网监系统研制非正常接通电话 提示音识别模块,主要工作有: 1 比较了各种端点检测算法,采用了三门限端点检测方法,并对其进行 了一定改进; 2 研究了语音的特征参数提取,采用m f c c 作为系统的特征参数,并 对m f c c 进行了降维研究,提出了m e l 码表降维; 3 研究了语音的样本建库技术,同时根据电话信道的特点,提出了基于 多模板的d t w 建库技术; 4 提出了滑移窗识别理论,并对其改进提出了基于自适应滑移的语音识 别技术,以及基于m e i 码表的自适应滑移识别系统。 本论文研制的非正常接通电话提示音识别模块已经成功嵌入委托方的q o s 网监系统并在实际拨测中取得9 7 的识别率,受到委托方的赞许和肯定。 关键词:关键词检测m e i 码表多模板自适应滑移 a b s t r a c t r e c o g n i t i o no fw a r n i n gt o n ew i t hi m p r o p e r l yc o n n e c t e dp h o n e m a j o r :c o m m u n i c a t i o n s i n f o r m a t i o ns y s t e m s n a m e :h u y o n g j u n s u p e r v i s o r :m az h e n g m i n g r e c e n t l y , t h es t u d yo fs p e e c hr e c o g n i t i o nh a sb e e nc o n t i n u o u s l yd e v e l o p e d ,a b u n c ho fn e wt h e o r i e sh a v eb e e nr a i s e di naw i d ea r e ar a n g i n gf r o mt h er e c o g n i t i o no f s o l i dw o r dt ot h er e c o g n i t i o no fc o n t i n u o u sw o r d s w i t ht h ee n r i c h m e n to ft h e o r i e s , t h ei n c o r p o r a t i o no ft h e o r yw i t hp r a c t i c eb e c o m e st h eh i g h l i g h to fr e s e a r c h t h i st h e s i si sp r o p o s e di nn e e do ft h er a p i dd e v e l o p m e n to ft e l e c o m m u n i c a t i o n a n di t sq u a l i t yc o n t r 0 1 i ta d o p t st h ek e yw o r d sd e t e c tt e c h n o l o g ya n dd e s i g u sas e to f s p e e c hr e c o g n i t i o nm o d u l e sw h i c hc a nb ei m b e d d e di nt h es u p e r v i s es y s t e m i nt h i s p a p e r , w em a i n l yr e s e a r c ht h er e c o g n i t i o no fw a r n i n gt o n ew h i c hi sp r o d u c e dw h e n t h ep h o n ei sc o n n e c t e di m p r o p e r l y a tt h es a m et i m e ,w ea l s op r o v i d ead i s c u s s i o no f i t sf u n d a m e n t a lp r i n c i p l ei nw h i c hs o m em o s ti m p o r t a n tp r o b l e m sa b o u ts d e o c h r e c o g n i t i o n i nt h i sp a p e r , w eb u i l das p e e c hr e c o g n i t i o ns y s t e mo fw h i c ht h er e c o g n i t i o nr a t e i sa b o u t9 7 w eh a v ea l s od o n es o m ew o r ki nf e a t u r ee x t r a c t i o n s a m p l et r a i n i n ga n d s oo n f u r t h e r m o r e ,w er a i s es o m en e wi d e a st os o l v et h ep r o b l e mi n s p e e c h r e c o g n i t i o n ,i n c l u d i n gm e lc o d e ,m u l t i - t e m p l a t ea n da d a p t i v es l i d i n g k e y w o r d s :k e y w o r d sd e t e c t ,m e lc o d e ,m u l t i t e m p l a t e ,a d a p t n es l i d i n g i i 主出盍堂亟堂位j 金塞电适韭垂鲎撞道握丞置返别 任务是在连续的无限制的自然语音流中识别出给定的词,因而它首先是一种连续 语音识别;但它又不要求把整个的语音流全部识别出来,因此可以说关键词识别 是连续语音识别的一个分支。其次,对发音人的要求又不可能象对连续语音识别 发音人那么高,因此关键词识别又不同于连续语音识别。嘲 1 2 电话非正常接通提示音 集成到电信质量监控系统中的语音识别模块,主要对电话非j 下常接通提示 音进行识别( 下文简称提示音) 。这种提示音由所采用设备商的不同而有所区别, 其音质受通话网络的影响而变化。据初步统计,主要可分为八大类:一、不在 服务区内,通常的提示语句为“对不起,你拨打的用户暂时无法接通”:二、关 机,通常的提示语句为“你好,你所拨打的电话已关机”:三、失效,通常的提 示语句为“对不起,你所拨打的电话已失效”:四、通话中,“你好,你拨打的 电话正在通话中,请稍后再拨”;五、异地手机,“你拨的是异地手机,请在被 叫号码前加拨0 ”;六、暂停呼入功能,“对不起,你拨叫的用户己被暂停呼入 功能”;七、空号,“你的号码有误,请查证后再拨”;八、余额不足,“对不起, 你拨打的用户储值卡上余额不足”。 这些提示音都具有一个共同特点,包含大量相同或相近的语音。如“对不 起”、“你好”、“电话”、“拨打”等在多个提示音中均有出现,而区分不同提示 音的往往只是几个特定的关键词。如“无法接通”、“关机”、“失效”、“通话中”、 “异地”、“暂停”、“有误”、“余额不足”等可以准确地区分不同类的提示音。 针对这种特点,在识别中重点检测影响语义区分的关键词也就成了识别的 首选方式。 1 3 基于关键词检测的识别技术 1 3 1 关键词检测研究现状 关键词检测的研究始于7 0 年代。1 9 7 3 年,b r i d l e f 加悃开了关键词研究的序 幕,但当时只是称“给定词”的识别;c h r i s t i a n s e n 等1 1 1 l 提出了“关键词”的叫 法,他利用信号的l p c ( 线性预测编码) 系数对连续语音中的关键词进行检测 4 空出太堂亟堂僮监塞虫适韭垂堂撞道理丞置迟别 和定位,没有使用语法或词法信息,引文称该方法对4 个词和1 0 个数字的词表 取得了很好的结果。 但真正的关键词识别研究应该说是在8 0 年代。m y e r s 等人1 1 2 】利用基于d t w 的局部最小算法对关键词识别和连接词识别进行了研究,但没有系统得实现; 美国i t t ( 国际电话电报公司) 国防通讯部的h i g g i n s 与w o h l f o r d ”】用模板连 接的方法实现了k w s ,并提出了补白( f i l l e r ) 模板( 该模板由词表外词的语音 训练而得) 的概念,结果表明:如果词表的显式知识没有那么重要的话,则使 用补白摸板就很重要。此后衄& t 的b e l l 实验室w i l p o n 和他的同事们【1 4 】实 现了一个基于h m m 的5 个电话用语的、可以实用的k w s ,标志着k w s 研究 的崛起。美国b b n 系统和技术公司的r o h l i c e k 和他的同事们【1 5 】也研究了非特 定人k w s 的连续h m m 建模问题,同时给出了k w s 系统的性能评价基准。 到9 0 年代,m i t 的l i n c o l n 实验室【1 6 】,c m u 的计算机科学学院【,d r a g o n 系统公司【1 8 1 ,以及日本的t o s h i b a 公司【1 9 1 等,也相继报告了他们的研究成果。 其中,1 9 9 1 年日本的t o s h i b a 公司 5 1 第一次提出了噪声免疫学习的关键词语音 识别,在关键词语音识别中考虑了广场噪声和高斯白噪声的影响,并在随后的 几年报告了一些进一步的研究成果【2 0 2 1 1 。 在国内,2 0 0 2 年清华大学自动化系戴海生、朱小燕等提出了基于模型距离 矩阵关键词确认算法,使得大词汇量确认问题得到很好的解决,并能够获得和 小词表系统一样的确认效果。在其样本训练中不需要训练垃圾模型。 1 3 2 关键词检测原理 关键词检测基本问题 语音识别的基本问题也是关键词检测的基本问题,即特征提取、时间对准。 在关键词检测中,通常需要从样本库中一一取出关键词样本与待识别的语音进 行比对。因此,采用正确的搜索策略也很重要,基于本文主要采用滑移方式, 把该类问题统称为滑移问题,在其它文献中一般称之为搜索策略问题。另外, 在电话信道中,由于噪声的影响所带来的识别困难也是我们需要解决的基本问 题。本文称之为噪声处理问题。 1 特征提取问题 生出塞堂亟堂焦迨塞虫适韭垂堂接通握丞壹迟趔 众所周知,原始语音信号数据量非常大,从而要求去除语音信号的相关性, 用较少的数据最有效地表征语音信号,这就是特征提取。正如许多系统需要将 时域信号变换到频域后再对其进行分析一样,识别系统首先要将语音信号变换 到特征空间,再对特征矢量序列进行训练和检测。这样可以去除语音信号的大 量冗余,使其所携带语意信息集中映射到特征空间,其次可以把在时域空间很 难分开的模式样本变得更线性可分。当前,多数系统所使用的特征都是倒谱参 数、倒谱的派生参数或它们的组合等。其中倒谱系数有l p c 系数导出的倒谱和 m e l 刻度的倒谱两种。 2 时间对准问题 由于人的发音机制,同一个人在不同时刻对同一个词的发音长度也不会相 同。一个词发音长度相差几十毫秒是很常见的,因此在样本训练和识别过程中, 如何进行时间对整,从而把不同长度的语音段规整到相同长度,对识别性能有 着至关重要的影响。在识别过程中,已有研究成功应用了动态规划( d p ) 的思 想,采用动态时间规整( d t w ) 技术,很好得解决了识别过程中的时间对准问 题。训练过程中,同样面临相同的问题,但相关的研究文献并不多见。即便是 在识别中,在采用d t w 技术时,对端点检测结果有较强的依赖性,计算量比 较大等,这些都是有待进一步研究的问题。 3 滑移问题 关键词检测处理的是非限定语音流,并不能预知待识别语音中所包含的信 息。因此,要从样本库中取出所有的关键词样本在带识别语音上进行滑移比对。 这样在滑移中就需要考虑两个方面问题:一、如何提高滑移的速度,从而更快 的得到识别结果,这也就是步长控制问题;二、如何控制滑移窗的大小,从而 避免因滑移窗长设置不当,带来拒识率的上升,这就是窗长控制问题。 4 噪声处理问题 在电话信道中,语音主要会受到三类噪声的干扰:电流噪声、高斯加性噪 声、脉冲噪声。其中,脉冲噪声会对某个时隙的语音进行干扰,采用类似中值 滤波的方式可以消除此类噪声的干扰。对电流噪声和高斯加性噪声的处理就更 为复杂了。另外,干扰噪声的强度也是时变的,在进行噪声处理时也需要考虑 到这种情况。 6 虫出太堂亟堂僮j 金塞 虫适韭垂堂接通埕丞置迟捌 1 4 本文研究内容和安排 本研究旨在为电话拨测系统提供一套语音识别模块,采用关键词检测技术, 不训练垃圾模板。本文研究了关键词检测基本原理和基本问题,对语音识别的 端点检测、特征提取和模板匹配进行了研究,并在某些方面进行了优化。截至 论文撰写时,已完成m a t l a b 算法仿真和v c 系统嵌入两部分工作,现已整合到 广州联正达公司的电话拨测系统中进行电话非正常提示音识别。 具体的内容安排为: 1 讨论语音识别系统的基本原理。介绍了语音信号的产生模型、语音产生 的生理机制、语音信号的数学模型和分析基础。同时,介绍了m e l 频率滤波器 的基本原理。 2 研究端点检测方法,提出了一种改进的- - n 限端点检测方法,给出了实 验数据结果。 3 比较分析了主要的语音特征参数提取方法,讨论了m f c c 参数计算原 理,提出了一种新的m e i 码表技术。 4 讨论语音建库基本原理、动态时间规整( d t w ) 基本原理,提出了基于 多模板的d t w 建库技术。 5 提出了一种新的基于自适应滑移的关键词识别技术,讨论了基本原理和 自适应调节方法,并在此基础上进行了改进。 6 对本文工作进行小结指出模块的改进方向。 附录介绍了电话非正常提示音识别系统。 7 主出太堂亟堂僮途塞 电适韭正鲎接逼埕丞置迟剔 第二章语音识别系统的基本原理 2 1 语音信号产生模型及特点 2 1 1 语音产生的生理模型嗍【2 2 】 语言是人的发声器官发出的一种声波。它具有一定的音色、音调、音强和 音长。音色也叫音质,是一种声音区别于另一种声音的基本特征。音调指声音 的高低,它取决于声波的频率。声音的强弱是音强,它由声波的振动幅度决定。 声音的长短是音长,它取决于发音时间的长短。 人的发音器官包括:肺、气管、喉( 包括声带) 、咽、鼻和口。这些器官共 同形成一条形状复杂的管道。喉的部分称为声门,从声门到嘴唇的呼吸通道叫 做声道( v o c a lt r a c t ) 。声道的形状主要由嘴唇、颚和舌头的位置来决定。人类 的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声道引起音频振 荡而产生的,声道形状不断改变而发出不同的语音。 人类的发音过程由三类不同的激励方式,相应的产生三类不同的声音,即 作、浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低 频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道发声便产 生浊音,比如元音。浊音的基本频率就是基音频率,如果声道中某处面积很小, 气流高速冲过此处时而产生揣流,当气流速度与横截面积之比大于某个门限时 便产生摩擦音也就是清音,比如辅音s ,s h ,f 等。如果声道某处完全闭合建立 起气压,然后突然释放而产生的声音就是爆破音没,如塞音p ,t ,k 等。 2 1 2 语音信号的数学模型【8 】【2 2 】【2 3 】 语音生成系统分为三个部分,在声门( 声带) 以下,称为声门子系统,它 产生激励振动,是激励系统;从声门到嘴唇的呼吸通道是声道系统;语音从嘴 唇辐射出去,所以嘴唇以外是辐射系统。因此,完整的语音信号的数学模型可 以用三个子模型:激励模型、声道模型和辐射模型的串联表示。图2 1 就是语 音信号产生的离散时域模型: 9 虫出盍堂亟堂焦论塞曳适韭正堂撞煎握苤置返别 基因馥拳 擐麒撮 氆 声道摸壁 i 辍甜模型 图2 1 语音信号产生的离散时域模型 其中,激励模型分浊音和清音两个分支,浊音清音开关决定产生的语音是 浊音还是清音。图中分支的上面部分是浊音情况,其激励信号由一个周期脉冲 发生器产生周期为。的冲激序列,即每隔。点有一个样值为1 ,其余样值为0 。 周期取决于基音频率,0 和采样频率只,n 。= e f o ( h z ) 。冲激序列通过声门脉 冲模型滤波器后就具备了气流脉冲的实际波形,其z 域传输函数为g ( z ) 。这样 的声门脉冲形状与理想的6 脉冲相比,对信号的频谱特性将要产生大约一1 2 扭 倍频程左右的高频衰减作用。不同人、不同语音,其声门脉冲的形状不一样。 乘数爿v 的作用是调节浊音信号的幅度或能量。图中下面的分支是清音的情况, 激励信号由一个随机噪声发生器产生,因为对于清音来讲,激励信号近似于白 噪声,对于信号频谱包络的形状不产生明显的影响。设其平均值为0 ,自相关 函数是一单位冲激函数,并设定它的幅度具有正态概率分布( 高斯分布) 。乘数 a u 的作用是调节信号的幅度或能量。 y ( z ) 是声道传输函数,既可用声管模型,也可以用共振峰模型来描述。实 际上就是全极点模型: 矿( z ) 一可l 一 ( 2 - 1 ) 1 。荟叩。 1 0 主出太堂亟堂僮途塞电适韭垂堂接通理丞童迟别 其中是极点个数,a 。是常系数。这里,把截面积连续变化的声管近似为 段短声管的串联,每段短声管的截面积是不变的。称为这个全极点滤波器 的阶。显然,值取得越大,模型的传输函数与声道实际传输函数的吻合程度 越高。但是,一般情况下取8 1 2 就够了。 图2 1 中r ( z ) 由下式得到,这里r “) 是信号的自相关函数。通常对于浊 音,r ( 1 ) r ( o ) 一1 ;而对于清音,该值取得很小。 喇一心斟 ( 2 - 2 ) 在极点( r 1 值很小) ,上式的一阶高通形式为: r g ) 一r o 乜一z 4 )( 2 3 ) 而语音信号的传输函数日g ) 可表示为: h 0 ) 一a u g y g 速0 )( 2 4 ) 式中,a 为乘数因子,u g ) 在浊音情况下是声门脉冲的z 变换,在清音情 况下是随机噪声的z 变换,y 0 ) 是声道传输函数,月b ) 是辐射传输函数。虽然 这种模型不能完全等效于语音的物理过程,存在着缺陷,但这种模型和真实模 型在输出处是等效的。 2 1 3 电话窄带语音主要特点 由于电话传输模拟语音信号带宽只有4 0 0 0 h z ,通过电话信道传输的语音信 号高频部分被抑制,从而使接收的语音信号强度变弱。语音主要能量分布在 o 4 0 0 0 k ,对多数语音而言高频信号被抑制后,对信号本身影响不大。 电话窄带语音的另一个特点是信道差异的影响。在拨测系统中,即便是同 一音源发出的提示音,通过不同信道后,其频谱特性要随之发生改变,在某些 特殊情况下,这种改变对识别结果的影响是致命的。 在电话环境中,信源噪声、信道噪声和本地噪声使电话语音发生畸变,模 糊了语音字( 词) 间的界限。在噪声干扰严重的情况下,需要提取噪声样本, 虫出态堂亟堂僮途童亟适韭正篮撞通握丞置迟捌 以改善识别性能。 2 2 语音信号分析基础 2 2 1 语音信号时频分析圈 语音信号的分析主要有时域分析和频域分析两种。时域分析具有简单、运 算两小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的。因为 语音的感知过程与人类听觉系统具有频谱分析功能是紧密相关的,而相位变化 只起到很小的作用。因此,对语音信号进行频谱分析,是认识语音信号和处理 语音信号的重要方法。傅里叶分析是分析现行系统和平稳信号稳态特性的强有 力手段,它在许多工程和科学领域中得到了广泛的应用。这种以复指数函数为 基函数的正交变换,在语音处理领域也是一个非常重要的工具。 语音信号是一种典型的非平稳信号。但是语音的形成过程与发音器官的运 动密切相关,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号 可假定为短时平稳的,其频谱特性和某些物理参数在1 0 3 0 m s 时间段内是近似 不变的。通常将语音信号分为一段一段来分析,其中每一段为一帧。 语音波形被用来在时域上表征语音数据。图2 2 是从m a t l a b 中得到的 “a b s u r d ”发音的波形图。通常用一个三状态的表征来描述不同的语音段:静 止( s i l e n c e ) ,没有产生任何声音;清音( u n v o i c e d ) ,声带无振动,语音波形是 非周期性的;浊音( v o i c e d ) ,声带处于紧张状态,气流从肺部到达时产生周期 性震动,因此得到的语音波形是准周期性的。 图2 2 单词“a b s u r d ”的发音的语音波形图 虫出杰堂硬堂僮论塞电适韭垂堂接垣握丞置迟别 语音信号的时域分析参数主要有短时能量、短时平均幅度、短时过零率等, 这些参数主要用在语音端点检测中。频率分析参数主要有基音频率、滤波器组 参数、线性预测系数、线性预测倒谱系数( l p c c ) 、线谱对参数( l s p ) ,m e l 频率倒谱系数( m f c c ) 等。 2 2 2 语音信号语谱图分析圈【2 3 】 虽然时域和频域分析是主要方法,但是单独采用它们均有局限性:时域分 析对语音信号没有直观的了解;而频域分析出的特征中有没有反映出跟时间的 变换关系。而语谱图( s p e c t r o g r a m ) 2 4 】综合了频谱图和时域波形的特点,可以 显示出语音频谱随时间的变化情况( 图2 3 ) 。 图2 3 汉字“左”的语谱图示例 语谱图反映了语音信号动态频谱特性的时频图。它用时间n 作为横坐标, 频率作纵坐标,并将能量密度谱函数只白) 的值表示为灰度值而构成二维图 像。其中只) 是语音信号的短时自相关函数的傅里叶变换。基于短时傅里叶变 换的固有矛盾,语谱图同样有着时问分辨率和频率分辨率相互矛盾的弱点。 主出太堂亟堂僮逾童电话韭正堂接道显丞壹迟别 2 3 基于人耳听觉特性的m e ! 滤波基嗍 从人耳的听觉心理模型来看,人耳对声音的感知在频域中是非线性变化的 2 6 1 。为了模拟人耳感知的这种特性,可以设置一组滤波基,均布在非线性、弯折 的频域尺度上,比如m e l 频率。m e l 频率和线性频率( h z ) 的转换关系如下式: q ( ,) = 2 5 9 5 g ( ,+ 志) s , 其中q ( ,) 是m e l 频率,是h z 频率。以m e l 频率尺度排布的滤波基如图 2 4 所示。 阳埠j - # e p 獭i i 图2 4 m e l 滤波基 上图中每个滤波器具有三角形特性,其中心频率为f m ,它们在m e l 频率轴 上是均匀分布的。在线性频率上,当m 较小时相邻的f 。间隔很小,随着m 的增 加相邻的f 。间隔逐渐拉开。滤波器的下限、中心和上限频率设为o m e ,) 、 巳。以) 、矗。渤) ,m = o ,1 ,m 一1 。其中为滤波器序数,滤波器的边界频率 和中心频率满足关系式: c 。,o 行) = i l 。( ,行一1 ) ;o m 。( ,”+ 1 ) ( 2 6 ) 1 4 q等l!雾嚣_|i 生出太堂亟堂焦j 金塞虫适韭正堂接道理丞置迅别 滤波器在m e l 频率上间隔设为a 。,可由下式得到。 。;丝寄喳( 2 - 7 ) 设定第1 个滤波器的m e l 下限频率o o ( 1 ) 为埘p f 。,第m 个滤波器的m e l 上限频 率 。似) 为m e f 一。m 个滤波器的边界和中心频率可表示为: c 。( ,”) :小e f 。+ ! 半,m ;t ,2 ,m ( 2 8 ) ( 坍) 。堕学加2 ,3 ,m ( 2 _ 9 ) _ i l ,。( m ) ;m e z 。+ ! 半,m :1 2 ,一,m 一1 ( 2 1 。) 这m 个滤波器在线性频域对应的边界和中心频率7 - 由2 - 5 式变换后求得。 ,一q 。1 ( m e l ) 一7 0 0 ( t 。舞一,) c z 一- , c im ) z q 。( c 腓,b ) ) ,0 s b ) 一q 1 ( d 。( m ) ) ,h f b ) = 0 - 1 恤。b ) ) m = l 2 ,一,m m 个滤波器在线性离散频域对应的边界和中心频率序号可表示为: 曲,= 卜 掣卜叫掣】 m - 1 2 ,m( 2 - 1 2 ) 在离散频域,m 个滤波器的表示形式为 b ) 一 m = l 2 ,m r 2 - 1 3 ) 整 生出盔堂亟茔僮j 金塞盟适韭正鲎接道握丞置迟剔 第三章对三门限端点检测的改进 3 1 引言 关键词语音识别必须在一段连续的语音信号中进行分割,找出每一个单词 的开始和终止位置,即端点检测;同时,由于语音数据量非常大,对所有的数 据进行处理必然加大运算量并影响识别时间,而端点检测的目的就是从连续的 声音中问检测出每一段语音的起始点和终止点,从而达到节省系统资源,方便 实时分析的效果。此外,端点检测的好坏将直接影响关键词识别率的高低,因 为大多数清声母、塞音和塞擦音,其能量很小,将它们与环境噪声区别是相当 困难的。因此,端点检测算法的研究也是语音识别的一个热点。 本文介绍了几种主要的端点检测技术,重点研究了三门限端点检测技术, 并根据电话信道环境不稳定的特点,提出了噪声自适应的三门限端点检测算法。 该算法应用到电话非正常提示音识别中,得到了较好的端点检测效果。 3 2 语音的预处理及分帧 为了补偿语音谱的固有衰落,消除唇辐射的影响,建库时先对输入的样本 进行预置滤波处理: 日( z ) = 1 0 9 3 7 5 2 4( 3 - 1 ) 其中,日( z ) 为滤波函数响应的z 变换。 在对语音信号进行处理前,还需将语音信号分帧。语音信号是瞬时变化的, 但在1 0 2 0 m s 内是相对稳定。电话提示音信号的采样频率为8 0 0 0h z ,所以 我们对预处理后的语音信号y ( n ) 以1 6 0 点为一帧进行处理,帧移为8 0 个采样点, 每一帧在时域上为2 0i l l s 。 y ) 是预置滤波后的信号,分帧按下式进行。 y 1 0 ) ;y ( m l + n ) ( 3 2 ) 上式中m 是帧移步长,取肘一8 0 ,n 。o ,1 n 一1 ,n 是帧长,取n 一1 6 0 1 7 主出太堂亟堂僮盈童亘适韭正鲎接通埕丞置迟到 ,= 0 ,1 ,f 一1 ,f 是帧数。 f - i n t l - f r a m ,r l 删e n 酣+ n f c r a m e l n c 。】 上式中l 是y ) 的总长。 3 3 主要端点检测技术【8 】1 2 3 】【2 7 】 ( 1 ) 双门限前端检测算法 能镟 , m 住 l 厂弋 i 0 、 ( 3 3 ) 图3 1 双门限端点检测法 双门限前端检测算法是经典的起止点检测算法,这种端点检测技术主要利 用短时过零率特征和每帧的平均幅值特征来判断语音信号的起止点,采用矩形 窗进行分帧。由于语音信号开始后会出现能量较大的浊音,我们设置一个较高 的门限瓦确定语音的开始部分,瓦是比瓦稍低的门限,来确定真正的起点和 终点。判断有话和无话,则用另一个较低的门限五,计算过零率,如果大于 正,则为有话帧,否则为背景噪声。当然五要取合适。通常窗长取1 0 - 1 5 m s , 帧移5 一l o r e s 。 这种方法的缺点是,如果噪声帧中过零率略有增大,则很容易使系统过度 敏感从而导致起点识别不准;另一方面,首次找到高门限越过点,再往前找到 清音的起点可能要花2 0 0 m s ,增加了识别时间的花销。 ( 2 ) 多门限过零率前端检测算法 多门限过零率法弥补了双门限法实时性不好的缺陷,采用多个门限,比如 三个门限:瓦c 瓦t l ,按式 z 。一妻 s 印b “) 一r 卜s g n k 如一1 ) 一r + i s 印b o ) + 丁】一s g n b o 一1 ) + r 】扣。一m ( 3 4 ) 对每一帧分别求相对于l 、瓦、t 的三种门限过零率z 。、z 。、z 。,总的过零 率用它们加劝和来表示: z - 呒z 。+ z h + 彬。z 。 ( 3 5 ) 选取合适的三个门限值以及三个权值,语音信号开始后的z 值将明显大于 无话时的z 值。所以,要经过大量实验确定一个分界值z 。,当z ,z 。判为有话 帧,zcz 。则为无话帧,这样可以准确而实时找到语音起点了。 ( 3 ) 采用倒谱特征作为检测手段的端点检测算法”1 冽 定义s ( w ) 为信号能量谱密度函数,而信号的复倒谱是s ( w ) 对数的傅里叶级 数。对于一对谱密度函数s ( w ) 和s ) ,c n 与分别表示谱密度s ( w ) 和s ( w ) 的 倒谱系数。其中有: l o g s ( w ) = c 。p 珊 一 ( 3 - 6 ) c 。一去j 1 。9 5 ( 枷 ( 3 - 7 ) 谱的倒谱距离表示对数谱的均方距离,具体为: 生出盔堂亟堂僮诠塞电适韭正堂蕴通埕丞置退别 d 乙= 萋( c 。- c 。) 2 埘去一l l o g s l w ) - l o g s ( w 枷 ( 3 8 ) 实际上,c 。包含信号能量信息,所以基于能量的端点检测可看作倒谱距离 的一个特例。倒谱距离的端点检测算法类似于基于能量的端点检测,只不过门 限使用倒谱距离来代替短时能量。 由于该算法在进行端点检测时需先计算语音的倒谱系数,在没有确定语音 起始点时,无论是噪声还是静音,均需计算其倒谱系数,因而计算量较大、实 时性不好。 3 4 一种噪声自适应的三门限端点检测 3 4 1 算法基本原理 鐾0 h h ”l 一一i i i u 址_ k 一 一 旷” ,| r 孵。哪咿一 o娜4 0 0 0 l 8 0 0 01 0 0 1 2 0 。o 1 加 图3 1 不同阈值下的- - 一1 7 限检测比较 考虑到三门限端点检测法只需提取语音的过零率信息,具有较好的实时性, 因此在本语音识别系统中采用了该算法。但是,在实际测试中发现由于噪声水 平、信号强弱的变化,经典的三门限算法,无论选取何种l 、瓦、t 值,都会 出现对语音信号起始端点的漏检、错检情况。如图3 1 所示,设置不同的一组( l 、 虫出太堂亟堂焦论塞 电适韭垂堂撞逼握苤置迟型 瓦、) 值,得到的端点检测结果。其中绿、红、蓝三个波形分别对应 ( o 0 7 5 ,0 1 5 0 ,0 3 0 0 ) 、( o 1 2 5 ,0 2 5 0 ,0 5 0 0 ) 、( 0 2 5 0 ,0 5 0 0 ,1 o o o ) ,从图中可以看出 蓝色波形的端点检测准确率已经很低,漏检了一个波形,而绿色波形对应的端 点检测结果比较准确。通过数据分析,( o 0 7 5 ,0 1 5 0 ,o 3 0 0 ) 一组阈值在多数情况 下,其检测结果都比较准确,但是在信号强度发生变化,信噪比明显改变时, 部分情况下采用该值的端点检测结果已不可信。 为了解决这个问题,提出了阈值自适应变化的思想。通过对数据进行分析, 可以发现:对于经典三门限算法所设置的三个门限值l 、瓦、疋( 为方便分析 不妨设lc 瓦c 瓦) ,在得到理想检测结果时,l 应该超过本底噪声的幅度,t 要不超过语音中最弱信号的峰值。我们把对应l 、瓦、t 的过零率z 。、z 护z 。 分别称为低峰过零信息、中峰过零信息、高峰过零信息,其中,语音信号波形 包络的主要信息由中峰过零信息携载,起始端点信息主要由低峰过零信息携载, 语音的马鞍状分界信息主要由高峰过零信息携载,如图3 2 所示: 图3 2 三个门限过零率携载的信息 其中,第一幅子图是输入的语音信号波形,第二至第四幅子图中的蓝色波形分 o 虫出厶堂亟堂焦盈塞 电适韭垂鲎撞垣埕丞壹迟到 别对应过零率z 。、z ;、z 。 基于上述考虑,在进行端点检测时,首先提取输入语音信号的前5 帧 ( 5 + 8 0 + 1 6 0 个采样点) ,从而得到本底噪声水平,并且取: l a e p ,+ 如 薹y 。,一e b 2 c s 上式表示阈值l 取为噪声均值与其三倍方差的累加和。闽值瓦、t 分别取 3 2 2 实验结果 图3 3 噪声白适应三门限检测结果( a ) 图3 3 中第一幅子图是输入的语音波形,两条纵线给出了检测后的语音起 始端点。从上图可以看出,准确检出了语音的起始端点信息。 虫出太堂亟堂焦i 佥塞 电适韭正堂援煎握丞童迟型 ?。山忆山_ | i i i j l i i j 。 it i ,i _4h 一 1 r 1 7 1 1o 邢1 ,。 q 1 一 i 胛 l l l l 一 o5001 0 0 01 5 0 02 0 0 02 5 0 03 0 0 0 3 5 0 04 0 0 0 4 5 0 0 5 0 图3 4 噪声自适应- - i 1 限检测结果( b ) 主当太堂亟堂僮逾室电适韭正堂撞道埕丞置识别 第四章一种新的基于m e l 码表的m f c c 降维技术 4 1 引言 原始语音信号包含大量冗余数据,不便直接用于语音识别系统中。为了得 到语音信号简约的、代表性特征,消除其冗余度,改善识别性能,降低存储及 计算复杂度,并使之适应人类听觉模型,研究者采用多种方式提取语音的特征 参数。主要有时域和变换域两类参数,各种参数各有其优劣,但在实际应用中 由于基于m e l 频率m f c c 参数更好的符合人类的听觉特性,逐渐展现出其优势, 在语音识别中得到了广泛的应用。 本文主要对m f c c 参数进行了研究,发现这种基于m e l 频率的特征参数仍 然存在一定的冗余度,可以对其进行降维处理,提高识别速度。这是由于语音 信号在m e l 滤波基的各个子滤波带的分布不均衡,特定的语音信号主要分布在 其中某几个子滤波带中,考虑到这种分布得不均衡,本文提出了一种基于m e l 码表的降维思想。 4 2 语音特征提取与选择 4 2 1 特征参数提取中的基本考虑 1 特征选择标准 特征的选择对识别效果至关重要。选择的标准应体现对于异字音,相应特 征间的距离应大,而对于同字音,彼此距离应小。若以前者距离与后者距离之 比为优化准则用的目标量,则应使此量最大。 2 特征数问题 为减少计算量应使特征数尽可能地少,而且为了有高的识别率,所选各特 征彼此间的相关性宜小且每个特征的有效性应高。 3 语音特征向量的分类 一般将语音信号的特征向量分为两类:第一类为时域特征向量,通常将一 帧语音信号的各个时域采样值直接构成一个向量。第二类为变换域特征向量, 即对一帧语音信号进行某种变换后产生的特征向量。前者的优点在于计算简单, 缺点不适于表征幅度谱特性。后者的计算比较复杂,但能很好的表征语音信号, 并可获得好的识别率。 4 2 2 时域特征向量嗍【2 3 】 时域的特征包括幅度、短时帧平均能量、短时帧自相关函数、变形短时相 关函数、短时平均幅度差函数、基音周期等。前两种参数在端点检测已作介绍。 其他特征向量参数为; 1 短时自相关函数 信号仁0 ) 的短时自相关函数定义为: r 僻) = z ( 所) 。w 0 一研) - x ( m + 七) w “一b + 七) ) ( 4 - 1 ) ;e x ( m ) 工妇+ 七) h 。( 一一埘) ( 4 - 2 ) 其中以一w b ) w b k ) r 。取) 就是信号在第n 个样本附近用短时窗截取一段信号做自相关的结果。 自相关计算在功率谱、线性预测分析和基音检测方面经常用到。 2 短时平均幅度差函数 信号仁0 ) 的短时平均幅度差函数定义为: _ 幢) = k b + m ) w 1 妇) x ( n + m 一七) 。w :一k ) ( 4 3 ) 如果窗函数 w 1 忙h 和 w :伍) 取窗长分别为和+ k 的矩形窗时,有 忙) 4 荟k “+ m ) 一x + 册一t 】 虫出盍堂亟堂焦j 金塞且遮韭正鲎接通竖丞置返型 ( 4 - 4 ) 短时平均幅度差函数用于基音检测,比自相关函数简单。 3 基音周期 浊音信号是一种准周期性信号,其周期称为基音周期。由于它只是准周期 的,所以只能采用短时平均方法估计其周期,基音周期估计也称为基音检测。 ( p i t c hd e t e c t i o n ) 基音周期可用于清、浊音判决,也可用于汉语语音声调识别。 常见的基音检测有三电平削波法、平均幅度差函数基音检测算法等。 4 2 3 变换域特征向量阎【2 2 】瞄1 1 线性预测系数特征 线性预测编码系数l p c ( l i n e a rp r e d i c t i o nc o d i n gc o e f f i c i e n t s ) 【2 9 】为用线性 预测法分析语音时得到的有关语音邻样值间某些相关特性的参数组。线性预测 分析基于如下的概念,即一语音样值能用过去的若干语音样值的线性组合来近 似估计( 预测) 。利用l p c 作为语音信号的特征参数是语音特征描述中的一次 飞跃。 对加窗语音信号品0 ) 进行线性预测分析,预测值与真值之间的误差称为预 测误差e ) ,可以表示为 e b ) = & “) + 参s ,仁一z ) ( 4 5 ) s w 0 ) 和e “) 同为随机序列,所以用e g ) 的均方值6 :来衡量线性预测的质 量。显然,d ;越接近于零,预测质量越好。实际计算时可以表示为 6 := e k 2 。) ;乏:【s ,。) + 砉n t s 。( 咒一z ) ( 4 6 ) 求最小值则令d ;对口。的偏导数为0 ,由此得到以仁。) 为变量的线性方程组: 主出盍堂亟堂僮j 金童虫适韭垂鲎接望堤丞置迟别 警l。o , k 。垃,p 0 4 0 孟m :2 :, ( 4 7 ) 其中a ,a :,a 。是最优预测系数。求解这p 个方程即可获得预测系数。常用的 解方程组的方法有d u r b i n 递推算法、s c h u r 递推算法、自相关法、b u r g 法以及 协方差法。 此外,还有一些基于l p c 导出参数,如线谱对( l i n e a rs p e c t r a lp a r i s ) 、对 数面积比( l o ga r e ar a t i o s ) 、声道面积函数( v o c a lt r a c ta r e af u n c t i o n ) 1 3 0 l 、 反射系数、基于l p c 的极点等 3 1 1 。 2 倒谱系数( c e p s t r u m ) 倒谱奴) 也是一种能很好地描述语音信号的特征参数。它的优点是能够较 彻底地去掉语音产生过程中的激励信息,主要反映声道响应,往往十几个倒谱 系数就能很好地描述语音的共振峰特性,基于h m m ( 隐马尔科夫模型) 统计 的语音识别方法采用倒谱参数效果良好。倒谱是乜) 信号的z 变换的对数模函 数的反z 变换,一般通过信号的傅里叶变换,取模的对数,再求反傅里叶变换 得到。基于线性预测分析的倒谱系数l p c c ( l i n e a rp r e d i c t i o nc e p s t r a l c o e f f i c i e n t s ) 3 2 j 可用下式求得: ( 4 - 8 ) c 。= 薹慨等觊p + , 。蔓等勤邓“ 其中,量。) 是l p c 系数。倒谱系数的距离量度一般采用欧式距离。 主出左堂亟堂僮论塞盥适韭垂鲎接通埕丞置返型 4 3 基于r e e l 频率的m f c c 特征提取 m e l 频串与崔性额睾对应美幕岳琏 图4 1m e l 频率与f 频率对应关系曲线 m e l 频率倒谱系数( m f c c m e lf r e q u e n c yc e p s t r u mc o e f f i c i e n t ) 3 3 l 是一种 基于听觉和感知的时频特征。一个纯音可以被以它为中心频率,具有一定带宽 的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯 音处于刚能被听到的临界状态,这一频带称为临界带宽( c r i t i c a lb a n d ) 。这一 语音学成果很快被引用到语音的特征描述中。m e l 频率倒谱系数是将信号的频 谱,首先在频域将频率轴变换为m e l 频率刻度,再变换到倒谱域得到倒谱系数, 其计算过程如图: 图4 2m f c c 计算流程 其中,预滤波和分帧模块可参见3 - 1 、3 - 2 两式所述。汉明窗函数为: 五( h ) = z f ( 捍) w ( h ) ,0s z s n - 1 ( 4 - 9 ) 州一o s 4 - 0 4 6 叫言, 上两式中,n 为每一帧语音的长度。 0 s 以5 n 一1 f 4 - 1 0 ) 输入语音信号经过预滤波、分帧后,通过 生出太堂亟堂僮途塞立适韭垂堂接通握丞置迟剔 f f t 模块分别对每一帧语音作f f t 变抉得到: s 。l n = ,2 ,。一, 譬+ ,】 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 零星维修协议书范文
- 云南省畹町市2025年上半年事业单位公开遴选试题含答案分析
- 河北省宽城满族自治县2025年上半年公开招聘村务工作者试题含答案分析
- 2025版汽车维修企业安全教育培训合同
- 2025爆破工程爆破设计与施工合同
- 2025年新春商铺转租合同范本及注意事项
- 2025年度电力施工环境保护合同范本
- 2025版智能投影仪采购与教育培训服务合同
- 2025版商铺认筹协议书(城市更新)
- 2025版水电设施维修保养劳务合同服务标准
- 物资部档案管理制度
- 2025-2030中国烟花爆竹市场竞争动态分析及前景销售格局研究报告
- 2025年普通高等学校招生全国统一考试数学试题(全国一卷)(有解析)
- 比亚迪公司薪酬管理制度
- 公司监控视频管理制度
- 交通事故护工合同范本
- T/CECS 10103-2020用于水泥和混凝土中的铅锌、铁尾矿微粉
- 消防接警考试题及答案
- 2024年高级消防员技能鉴定考前必刷必练题库500题(含真题、必会题)
- 非法宗教班会课件
- 《智能客服运营管理》课件
评论
0/150
提交评论