(生物医学工程专业论文)不同人语音特征编码模式分析.pdf_第1页
(生物医学工程专业论文)不同人语音特征编码模式分析.pdf_第2页
(生物医学工程专业论文)不同人语音特征编码模式分析.pdf_第3页
(生物医学工程专业论文)不同人语音特征编码模式分析.pdf_第4页
(生物医学工程专业论文)不同人语音特征编码模式分析.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

查! ! 垄兰堡主堂堡笙查 垒! ! ! 璺! ! d i f b r e n tp e o p l es p e e c hc h a r a c t e rc o d i n gm o d ea n a l y s i s a b s t r a c t s p e e c hi s o n eo ft h em o s te l e m e n t a r yt o o l sf o ran o r m a lp e r s o nt oc o m m u n i c a t e w i t he a c ho t h e lad e a fc a nn o th e a r ,b u th i sv o c a lc o r di sc o n v e n i e n tt ou s e a r e r s p e c i a lt r a i n i n g ,l ed e a fp e r s o ni s a b l et os p e a k t h eb e t t e rt h en o r n l a lp e r s o n u n d e r s t a l l dh i m ,t h el e s st h ed i f f i c u l t yi sb e t w e e nt h e m t h er e s e a r c ho fd e a fm u t e s p e e c ht m i n i n gs y s t e mb e g i n so v e r s e a si nt h em i d d i eo fl9 6 0 s n o w ,t h e r ea r es o m e r e p o r c sa b o u tv i s u a l a s s i s t a l l ts p e e c ht r a i n i n gs y s t e ma th o m e u n f o n u n a t e l 弘t h e i n f 打m a t i o no ft h i ss y s t e mi st o op m f e s s i o n a lf o r 也ed e a fp e r s o n ,e s p e c i a l l yf o rt h e c h i l d r e nt om a s t e ra n du n d e r s t a n d t h et r a i n i n gr e s u l ti sn o ts a t i s f i e d t o 丘n ds o m es t e a d ya i l dr e p r e s e n t a t i v ec h a r a c t e r s ,w ea b s t r a c ta 】1 da n a l y z es o m e k i n d so fs p e e c hs i g n a lp a r a m e t e r s ,t h e na d o p ts o m es i m p l eg r a p h st oe x p r e s st h e s e c h a r a c t e r ss ot h a tt h ed e a fp e r s o nc a nu n d e r s t a n dt h e mb e t t e tf i r s t , t h i s p 印e r i m r o d u c e ss p e e c hc h a r a c t e ra n a l y s i sm e t h o d s t h e n ,i tt e l l so ft h et h o u g h t ,t h e a p p r o a c ha n d t h ec o n c l u s i o no ft h i sp r o j e c t w ea 1 1 a l y z et h es p e e c hc h a r a c t e r si nt i m e d o m a i n ,疗q u e n c yd o m a i na f l ds p e c t m mg r a m e a c hh a sag r a p h ,t i m ed o m a i nw i t h 、v a v ef o m ,矗e q u e n c yd o m a i n 谢t 1 1 丘e q u e n c ys p e c t n m l ,a 1 1 ds p e e c hs p e c t r u mw j m s p e c t m mg r 锄t ba n a l y z et h es p e e c hc h a r a c t c r s ,1w r i t et h es o f t w a r eo fd i s p l a y i n gt h e s p e e c hw a v ef b 彻i nt i m ed o m a i na n dt h e 矗e q u e n c ys p e c t m ma n a l y s i s f o rt h es p e e c h s p e c t m mg r a m ,iu t i l i z ed l h g ss p e e c hp m c e s s i n gs o r w a r e t h r o u 曲t h e s et h r e e m e t h o d s ,v a s to ft r a n s c r i b e ds p e e c ha r ea n a l y z e d t h e n ,ig oo nt or e s e a r c ht h em o d e o ft h es p e e c hc o d e a n e re x p e r i m e m i n gt i m ea r e rt i m e ,w ea d o p tt h em o d en 帅e d f r e q u e n c ya n d 锄p l i t u d ep e m l u t a t i o na i l dc o m b i n a t i o n a n dt h er e s u l ti sb e t t e l t h es t r o n g p o i mo ft h j ss y s t e mi st h eg r 印he x p r e s s i n gm es p e e c hi sv e r ys i m p l e , s ot h ed e a fd e r s o nc a nu n d e r s t a n di tb e t t e tf u r t h e 珊o r e ,n o wd a y st h ec h i n e s es p e e c h r e c o g n i t i o ns y s t e mh a sa t o o1 0 wr e c o g n i t i o nr a t et om e e tt h ep r a c t i c e i nt h i sp a p e r ,w e i m p r o v et h i sd i s a d v a l l t a g e k e yw o r d ss p e e c hn a i n i n g ,s p e e c hs 培n a lc h a r a c t e r ,a n a l y s i s i nt i m ed o m a i n , a n a l y s i si nn e q u e n c yd o m a i n ,s p e c t r 啪g r a i l l h i 独创性声明 本人声明所呈交的学位论文是在导师的指导下完成的。论文中取得的研究 成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果 也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究 所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名孑苏翻 n 日期: 硝,l 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的 规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编 入有关数据库进行检索、交流。 ( 如作者和导师同意网上交流,请在下方签名;否则视为不同意。) 学位论文作者签名:导师签名 签字日期签字日期: 东北大学硕士学位论文第一章前言 第一章前言 1 1 本次项目的来源 口语是健全人赖以交际的最基本的工具。聋人虽然失聪,但他们的发音器 官是好的。经过专门的训练,仍可以学会说话,并让健全人能够听得懂,从而 大大减少交流上的困难。据1 9 8 6 年1 2 月全国残疾人抽样调查推算,丧失语言 功能的聋哑人约占残疾人总数的三分之一。可见,聋哑人的语言康复是残疾人 康复中的一个非常重要的课题,研制有效的聋哑人语音训练设备是一项极有意 义的工作。 聋哑人语音训练的研究国外始于六十年代中期。根据反馈途径的不同,大 致可以分为两类:利用聋哑人的残存听力借助助听器听取自身发音以纠正发音 的听觉反馈训练系统和通过观察c r t ( c a t h o d e r a yt u b e ,阴极射线管) 上报据 自身发音经处理后所获得的特征参数来纠正发音的视觉反馈训练系统。前者造 价低,但效果较差,对重听、重度耳聋、全聋的患者效果更差或完全无效。后 者由于通过视觉反馈,几乎适用于一切聋哑人,训练效果也比较好。在早期研 制的视觉反馈系统成本较高,随着计算机和大规模集成电路技术的发展,尤其 是语音专用芯片和单片机的出现,成本已大大降低。如果用单片机和语音专用 芯片组成既有听觉反馈,又有视觉反馈的小单元,与家用电视机联成系统,则 不仅功能强,其价格也足以在一般家庭普及。 目前,国内已有多种视觉辅助语音训练系统的报道。这些系统基本上都是 将受训者所发语音进行处理后,提取语音的特征( 如:强度、持续时间、频谱、 基频、共振峰等) ,与标准发音的特征同时显示在c r t 上让受训者对自己的 发音与标准音进行比较,逐步纠正自己的发音。很遗憾,这种系统所显示的信 息对一般的受训者来说太专业了,不易为他们,尤其是聋哑儿童所理解,因此 影响了训练效果。这是这类系统的最大缺点。 目前的视觉反馈系统有一个共同的特点,那就是建立在语音识别的基础j 二 的。但是,事实上就目前的汉语语音识别系统来说,其识别率是非常低的,根 本不能满足实际的要求。对汉语语音识别系统评估的结果显示,目前的汉语语 音识别存在以下几点问题: ( 1 ) 单音节识别率仍需要进一步提高,其中,关键是要提高声母识别率。 据统计表明,全音节主选正确识别率在8 0 左右,进一步对主选错误 分析统计表明,声母正确而韵母错误的仅占1 5 4 左右,而韵母正确 1 东北大学硕士学位论文第一章前言 声母错误要占6 1 9 左右。 ( 2 ) 系统对发音要求太严,说话人要合机器“胃口”,系统抗噪声能力相 对来说较差。 ( 3 ) 孤立字识别方式大大限制了语音识别系统的应用,其应用前景不容乐 观。 由此可见,汉语语音识别体系存在着很多的弊端。 能否取“百家之长”而避其短呢? 于是我们有了一个很大胆的想法:提取 语音特征,采用某种编码模式将陔语音特征直接显示在c r t 上,利用聋哑人自 身的大脑来识别语音,达到训练其口语的目的。 1 2 本项目的可行- 陛 本项目的关键所在就是找出不同人发问一语音时的共同性以及同一个人发 不同音时的差异性。当然,这些特征都是应该具有代表性和稳定性的。为此, 我们做了大量的试验,最终证明这些特征是存在的。在这之前,有人利用一台 双通道小型快速傅立叶变换( f a s tf o u r i e rt r a n s f o n na 1 9 0 r 油m ,f f t ) 分析仪, 对汉语语音进行分析研究,得出了一些有用的结论,更加坚定了我们的信心。 这台分析仪不是直接处理声学参数,而是将声信号转换为电信号后,再进行处 理的。声学功率由声强( 即音强) i 表示,相对音强由式( 1 1 ) 定义。在电信 号中,其相对功率电平为: 上。:1 0 l g 旦 ( 1 1 ) o 式中,为零电平参考功率值,一般取甜。= 1 m w 。相对功率电平和相对声强 是等效的,因此声功率谱可由功率电平谱等效代换。由此推得下式: k :1 0 l g 粤 ( 1 2 ) x 0 蚶:隆”川一w 2 , l n = 0 式中,为语音电信号的短时采样值,k 1 2 为短时离散傅立叶变换的功率值,x 。2 为参考电功率值。 表11 为汉语韵母的共振峰频率及其声强,这是用f f t 分析仪的功率谱数 据。对表1 1 的分析可以得出:虽然同一个人说不同的音,基音基本保持不变。 但是除基音外,不同的音有不同的共振峰数目。而且不同的音,它的共振峰分 布是不一样的。从这一角度出发,我们做了大量试验,试图找出不同语音的频 0 一 东北大学硕士学位论文 第一章前言率分布特征。 表】1 汉语韵母的共振峰频率及其声强1 b b l e1 1t h ef o r m a tf r e q u e n c y andi m e n s i t yo f c h i n e s ef i n a l s、韵母 0 共赢 f o声强( d b ) 406 2 0 01 8 7 52 0 02 0 0 f i频率( h z )7 8 73 8 44 373875 4 4 94 1 3 f 2声强( d b )4 35 1 45 0 91 6 0 44 5 5 声强( d b )1 7 98 5 0 9 7 52 2 0 01 4 0 0 誓 芒h ! 謦; 菩蕈毫璧4 翠耄董重至| 妻拿;耋? 妻 i 重i 萎| 薹? ;薹? !l 。登蒌墓霎羹薹羹 是罂霹撼掣磐刨盟卺鞋酬裂蘩苍许珏幂m尊更j趸始耋鞠噌褰璀堤?暴丽 茎臻砰蓣涮涟分轿语音的参数:教瑾摩髫劁爵表示,时域分析用时域波形图, 频域分析用频谱图,语谱分 析用语谱图。 2 1 时域分析 时域分析是最早使用的一种方法,也是应用范围最广的一种方法。各种电 信号可以记录成时域波形,人体生物电( 如脑电、心电等) 也可记录成时域波 形( 即脑电图、心电图等) ,自然现象( 如地震) 也可记录成时域波形川。此外, 还有许多领域采用时域波形。语音的时域分析采用时域波形图。图2 1 为汉语 语音“第十课”的时域波形图。 图2 】汉语“第十课 东北大学硕士学位论文 第二章传统的语音分析方法 第二章传统的语音分析方法 计算机语音分析是计算机语音处理的一个重要内容,也是计算机语音合成 及语音识别的基础。计算机合成的语音音质的好坏,计算机语音识别率的高低, 都取决于计算机语音分析工作质量的高低。例如,利用线性预测法来作计算机 语音合成,其先决条件是要有用线性预测法分析语音的参数数据库。线性预测 分析的语音参数好,则用此参数合成的语音音质就好。又如利用带通滤波器组 法来作为计算机语音识别,其先决条件是弄清楚语音的共振峰的幅值、个数、 频率变化范围及其分布情况。因此,应先对语音作频谱分析,得到提高语音识 别率的有用数据,并据此来设计计算机语音识别系统的硬件和软件。 传统的语音分析有时域分析、频谱分析和语谱分析三种方法。这三种方法 分别由一种图形来表示,时域分析用时域波形图,频域分析用频谱图,语谱分 析用语谱图。 2 1 时域分析 时域分析是最早使用的一种方法,也是应用范围最广的一种方法。各种电 信号可以记录成时域波形,人体生物电( 如脑电、心电等) 也可记录成时域波 形( 即脑电图、心电图等) ,自然现象( 如地震) 也可记录成时域波形川。此外, 还有许多领域采用时域波形。语音的时域分析采用时域波形图。图2 1 为汉语 语音“第十课”的时域波形图。 图2 】汉语“第十课”时域波形圈 东北大学硕士学位论文第二章传统的语音分析方法 仔细观察此波形,可以得出: 此波形有三部分振幅明显较大,分别对应汉语语音“第”、“十”和“课”。其余 部分振幅较小,且杂乱无章,为噪音。 通过此波形,可以大致确定此句话的起始点和终结点,以及每个汉语语音 的起始点和终结点,由此可以确定整句话的持续时间和每个语音持续时f 刚。 这种分析方法的特点是: ( 1 ) 用时域波形来表示的语音信号比较直观,清晰易懂。 ( 2 ) 时域波形语音信号的数字处理实现起来比较简单。 ( 3 ) 用时域波形语音信号进行一些数字处理,可以得到语音信号的一些重 要特征,为分析语音信号提供有用的基础。 ( 4 ) 分析语音信号的时域波形,采用较为通用的设备,如示波器、存储示 波器等等,使用方法比较简单。 2 1 1 过零分析 语音信号本来就是一种时域信号,对它不作频域分析而原样地利用时域波 形,作最基本参数的分析和用作语音的分割、预处理及几大分类等。时域波形 的语音处理的实现比较简单,然而对估计语音信号重要特征却十分有用。 过零分析是语音时域分析中最简单的一种分析。有时闻横轴的连续语音信 号,可以观察到语音的时域波形通过横轴的情况。在离散时间语音信号情况下, 如果楣邻的采样具有不同的代数符号就称为发生了过零。由此可以计算得到过 零的次数。单位时间内的过零次数称为过零率。一段长时间内的过零率称作平 均过零率【2 1 。图2 2 是为取得语音信号过零率的专用硬件电路工作原理图。由 此图也可了解关于过零率的概念。 岍+ 儿 图2 2 求过零率的硬件电路工作原理图 f ;g2 2 t h es c h e m a t l ch a r d w a r ec i r c u i td i a g r a mo f z e r o c m s s i n gr a t e 对于窄带信号,平均过零率是信号频率量的一个简单度量。例如,一个频 一5 东北大学硕士学位论文 第二章传统的语音分析方法 都与高斯分布曲线比较吻合。 图2 3 短时平均过零率的方块图 f i g 23 t h eb l o c kd i a g r a mo fs h o r t t i m ea v e r a g ez e r o c r o s s i n gr a t e 掰泐峭忿 阪 浊音 港l l o2 03 04 05 06 07 08 0 削2 4 清音和浊晋的过零分布 f 培2 4 t h ez e r o c m s s j n gd i s t r i b u t i o no fr e s o n a n c ea n dd u l l n e s s 利用短时平均过零率还可以从背景噪声中找出语音信号。在孤立词的语音 识别中,必须要在一串连续的语音信号中进行适当的分割,用以确定一个一个 单词语音的信号,也即找出每一个单词的开始和终止位置。用平均过零率来确 定单词的起始点时,则开始点以前的平均过零率极低,而开始点以后的平均过 零率有一明显的数值。 2 1 2 幅度分析 语音信号的幅度分析是基于语音信号幅度随时间有相当大的变化。语音信 号的清音段的幅度较小,其能量集中于高频段;而语音信号的浊音段的幅度较 大,其能量集中于低频段。因此,语音信号的幅度分析也可用于估计语音信号 的特征。幅度分析包括幅度和能量两方面。由短时处理技术的一般式( 2 6 ) , 可以定义短时能量函数和平均幅度函数。短时能量函数的定义 4 】是: e 。= 肛( 川) w 一m ) 2 =x 2 ( 用) 而( 胛一棚) ( 2 6 ) 一+ i 一十i 一7 一 东北大学硕士学位论文第二章传统的语音分析方法 式中, ( ,z ) = w 2 ( ,z ) 为窗函数。式( 2 6 ) 给出了在采样点行处的短时能量。在窗 函数矗( h ) 的处理下,它等于从”一+ l 到h 的个采样x ) 的平方和。一个简 单的窗为矩形窗,它的窗函数定义如下: 裂三,裂1 , 自( ,2 ) = o,其他 窗的长短,对于能否由短时能量反映语音信号的幅度变化,将起决定性的 影响。如果窗选的很长( 即很大) ,它等效于很窄的低通滤波器,此时。随 时间的变化很小,不能反映语音信号的幅度变化。窗选得太窄( 即很小) , 短时能量随时间有急剧的变化,不能得到平滑的能量函数。因此,短时窗应选 择得合适,使短时能量反映语音信号快速的幅度变化。 平均幅度函数的定义是: m 。= ) w ( ”一搠) ( 2 8 ) 由式( 2 8 ) 可知,平均幅度函数是计算加权了的信号绝对值之和。由于短 时能量函数是信号的平方和,因此它对高信号电平很敏感。但是,这种短时处 理的方法比较简单,因为它不必作平方运算。 2 1 3 相关分析 相关分析也是常用的一种时域波形分析方法。相关分析有自相关和互相关 的不同,它们分别由自相关函数和互相关函数来定义。相关函数是用于测定两 个信号在时域内的相似性,如利用互相关函数,可测定两信号间的时间滞后或 从杂音中检测信号,如果两个信号完全不同,则互相关函数接近于零。如果两 个信号波形相同,则在提前、滞后处出现峰值。由此,可求出两个信号的同一 性程度,这在研究信号传递途经方面很有用。自相关函数定义5 1 为: c 。( f ) = ix ( r ) x ( ,+ f ) 西 ( 2 9 ) 式中,f 为时间滞后。 自相关函数也可由信号的功率谱g 。( 厂) 来求出,下列几式是它们之间的关 系。 c 。( f ) 2i 。g 。( 厂) 8 门珈够 ( 2 1 0 ) g 。( ,) = c 。o 弦一2 斫d f ( 2 11 ) 在语音信号处理中,自相关函数可用于下列两种语音信号特征的估计 8 东北大学硕士学位论文第二章传统的语音分析方法 ( 1 ) 区分语音是清音还是浊音。 ( 2 ) 估计周期性语音信号的周期。 语音信号的自相关函数,也要作短时处理 r 。( 七) = x ( 坍) w ( 忍一聊沁( 瑚 短时自相关函数的定义为 考虑窗函数,且为有限持续时间,则式( 2 1 1 ) 可改写为: 一1 一t r 。( ) = x ( m ) x ( 朋一t ) 脚) ( 2 13 ) = 0 式中,玩( n m ) = w ( 几) w ( + 七) 为窗函数,为窗宽,n 为采样次数,相当于在 ”,的采样时间上。 2 2 频域分析 频域分析是常用的第二种语音分析方法。语音信号的频域分析包含有浯音 信号的频谱、功率谱、倒频谱、频谱包络、短时间频谱等。常用的频域分析方 法有带通滤波器组法、傅立叶变换法、线性预测法等几种。图2 5 是男声读英 语元音i 的频谱包络图,它的横坐标是频率,纵坐标是音强的相对值,单位是 d b 。 f o ( 1 2 0 h z ) u 1 0 0 02 0 0 03 0 0 04 0 0 0 f ( h z l 图2 5 男声读英语元音i 的频谱 f i g 2 5 m a n sp r o n u n c i n g f r e q u e n c ys p e c t r u mo fv o w e i i 相对音强的定义为: 妣= l o l o g 】。( ,o ) ( 2 1 4 ) 式中,为语音信号的音强值,。为零声级的参考音强值。国际协议规定: ,。= l o 。2 彬研2 ,这个数值是一般具有正常听力的年轻人对l k h z 的简谐语音信 号刚刚能察觉到它的存在的音强值。 从图2 ,5 中可以得到下列几点: ( 1 ) 决定音调的基频为f o = 1 2 0 h z ,这对应于男生的音高,男生的音高范 o 一 东北大学硕士学位论文第二章传统的语音分析方法 围为8 0 1 6 0 h z ,女生的音高范围为1 6 0 4 0 0 h z 。 ( 2 ) 图上标出了前三个共振峰f l - 2 7 0 h z 、f 2 = 2 2 9 0 h z 、乃一3 0 1 0 h z 。它们 直接反映发音器官的位置。如前所述,一个男性讲话人的喉部应在约 为5 0 0 h z 附近谐振( 这是对长度为1 7 c m 的声道的自然谐振频率) 。 本例中f l = 2 7 0 h z ,是因为发i 音时,先是将喉部开启到口部,谐振 空腔声学的延长而使谐振发生在较低的频率。f 2 = 2 2 9 0 h z ,因为第二 谐振空腔较小,这一空腔是从限制气流的舌对着硬腭的地方到嘴唇的 一小段距离。因为小空腔对应高的谐振频率,f 2 故较高。 ( 3 ) 频谱包络线对应的频率范围约5 k h z ,如果用稍小的4 k h z 的范围也 是可以的。图2 5 横轴上的坐标值说明了这一点。 ( 4 ) 低频共振峰( f i ) 比高频共振峰( f 2 、f 3 ) 有较高的音强因此前 者对应的振幅大,能量高。 ( 5 ) 一般来说,共振峰有4 6 个,这根据不同的元音或辅音来确定。从 图2 5 可知,元音i 有四个共振峰,图中第四个共振峰没有标出。 语音的频域分析还有其他的频谱图,并据此可以得到语音分析的其他结论。 这种分析方法的特点如下: ( 1 ) 语音信号的频谱波形不大随外界环境而变,而时域波形易随外界环境 变化。 ( 2 ) 语音信号的频谱具有非常明显的声学概念,利用频域分析获得的语音 特征具有实际的物理意义。 ( 3 ) 频域分析容易获得某些重要的语音特征( 如共振峰、音高、音强、带 宽等) 。 ( 4 ) 频域分析要用专用的硬件设备,例如微型快速傅立叶变换( f f t ) 分 析仪,或其他可作为频谱分析的仪器。 2 2 1 滤波器组法 利用一组滤波器来分析语音信号的频谱,这是最早应用的频谱分析法之一。 这种方法使用简单,实时性好,受外界环境的影响小,所以至今这一方法还是 频谱分析的常用方法。滤波器组法所用的滤波器可以是模拟滤波器,也可以是 数字滤波器。滤波器可用宽带滤波器,也可用窄带滤波器。宽带滤波器具有平 坦特性,用它可以粗略的求取语音的频谱,其频率分辨率低。这相当于短时处 理时窗窄的那种情况。使用窄带带通滤波器,其频率分辨率提高,这相当于短 时处理时窗宽宽的那种情况。图2 6 为带通滤波器组法频谱分析原理图。语音 信号j ( f ) 输入带通滤波器:、厶正,滤波器输入为具有一定频带的中心频率 一1 0 东北大学硕士学位论文第二章传统的语音分析方法 为_ 、 无的信号。 图2 6 滤波器组法频谱分析原理图 f 追2 6 t h es c h e m a t i cd i a g r a mo ff r e q u e n c ya n a l y s i su s i n gn l t e rb a n d s 图2 6 的滤波器组的输出为模拟信号,它不便于输入计算机作分析处理。 图2 7 为带通滤波器组用于语音分析,滤波器的模拟输出,分别经过自适应增 量调制器变为二迸制脉冲信号,再经过多路开关,语音信号变为一串二进制脉 冲信号。这种信号可以输入计算机进行各种分析处理。 h 带通滤波器,r 1 丑 一带通滤波器:r 1 丑 多 路 调 1 带通滤波器,r _ 1 丑 制 器 一r p 1 了 图2 7 带通滤波器的语音分析 f i g 2 7s p e e c ha n a l y s i su s i n gb a l l df i l t e r s 2 2 2 傅立叶频谱分析 傅立叶频谱分析是语音信号频域分析中被广泛采用的一种方法。带通滤波 器组法频谱分析是用硬件的方法来实现的,而这一节的傅立叶频谱分析是用软 一1 1 东北大学硕士学位论文 第二章传统的语音分析方法 件的方法来实现的。傅立叶频谱分析的基础是傅立叶变换,用傅立叶变换及其 逆变换可以求得傅立叶谱、自相关函数、功率谱、倒谱等多种频谱分析方法。 圈2 8 为几种谱之间的关系。傅立叶谱g ,( ,) 由时间信号x ( r ) 傅立叶变换求得, 即: 傅氏变换 换 换 图2 8 几种谱之间的关系 f i g 28t h er e i a t i o n s h i po f t h e s ek i n d so f s p e c t r u m s q ( ,) = 广x ( r ) p 川种西 ( 2 1 5 ) 时i 刈信号x ( ,) 的自相关函数c 。( f ) 由式( 2 9 ) 确定。功率谱g 。( 厂) 与自相 关函数c 。( r ) 的关系由式( 2 1 0 ) 和式( 2 1 1 ) 确定。功率谱g 。( ) 与傅立叶谱 瓯( 厂) 的关系由下式确定: g 。( 厂) = g ,( 厂) ( 厂) ( 2 1 6 ) 式中,g :( ) 为g ,( 厂) 的复共轭值。 功率谱g 。( 厂) 是只具有振幅信息的实函数,和相位无关。因此功率谱 g 。( 厂) 也可以写成下式: g 。( ,) = g ,( 刊2 ( 2 1 7 ) 对功率谱取其对数,又因为语音信号的傅立叶谱g 。( 厂) 为声门激励频谱和 声道传移函数的积,因此有: i g g “( ,) = 2 l g i g ,( ,) f = 2 0 9 g ( ,) + l g 卜,( ) 0 ( 2 1 8 ) 式中,g ( 厂) 为声门激励频谱,v ( - 厂) 为声道传移函数。由上式可见,利用对数运 算,可将两个分量积的变换变为和的变换。对对数功率谱取傅立叶变换,就得 到倒谱。 1 2 东北大学硕士学位论文第二章传统的语音分析方法 c ( r ) = | | l g g 0 ( 厂) p 一门咖矽j ( 2 j 9 ) i 一” 由式( 2 1 9 ) 反映出对数功率谱的傅立叶变换并没有使函数返回时域,而 是进入一个新域。这个新域称为时率或倒频,这种谱称作倒谱。倒谱的自变量r 具有和自相关函数的时间r 相类似的作用。高的时率,表示频谱变动快;低的 时率,表示频谱变动慢。 语音信号的特性是随时间缓慢变化的,因此,可以假定语音信号的时间特 性在1 0 3 0 m s 时间间隔内固定不变,由此引出语音信号的短时分析。短时分 析应用于傅立叶变换就是短时傅立叶变换。若有语音的时间信号x “) ,用短区 间的时间窗函数向( f ) 来分割出语音信号的某个区间,进行频谱分析。把分割出 某个短区间而求得的频谱,称为短时间频谱,其定义如下: j ( ,r ) = x ( ) 矗。一f ) g 础 ( 2 2 0 ) 式( 2 2 0 ) 中引入了时间参数r ,这是窗函数分割语音信号x ( f ) 的终了时刻。离 散的短时间傅立叶变换的定义为: 毛 ”) = x ( m ) e 一。“珊 一卅) ( 22 i ) 一 式中,出m 一珊) 是一个实数“窗”序列,它能够在特定时问指数h 上从输入语 音信号x ( ) 中强调出某个分段。对式( 2 ,2 1 ) ,可有两种解释。若假定h 固定不 变,这时工。( p ”) 就是x 伽) 础( ”一m ) 序列的标准傅立叶变换,此时z 。( p ,“) 具有标 准傅立叶变换的特性。若假定国为固定时,x 。( p ) 就是时间指数疗的函数。 用离散的傅立叶变换求短时傅立叶谱时,可在某种程度上自由选择分割出 | 个数据。在离散傅立时变换中,必须作2 次乘法运算。当把采样数据的个 数作为2 的倍数2 时,求傅立叶谱只要作( 2 m 次乘法,这能大幅度的减 少运算的时间。这种变换称作快速傅立叶变换( f f t ) 。 2 。3 语谱图 语谱图是第三种语音分析方法。它是以时域分析和频域分析两种方法为基 础,利用傅立叶分析而得到的种语音分析方法。它弥补了时域分析和频域分 析这两种方法各自的缺点,因而成为现今语音分析的一种非常重要的方法。 2 3 1 语谱图特点 图2 9 是男声读汉语元音a 的语谱图。它的横坐标代表时间,纵坐标代表 频率,灰度是第三个坐标,表示音强。语谱图提供有关不同时间不同频率的相 一1 3 东北大学硕士学位论文第二章传统的语音分析方法 c ( r ) = | | l g g 0 ( 厂) p 一门咖矽j ( 2 j 9 ) i 一” 由式( 2 1 9 ) 反映出对数功率谱的傅立叶变换并没有使函数返回时域,而 是进入一个新域。这个新域称为时率或倒频,这种谱称作倒谱。倒谱的自变量r 具有和自相关函数的时间r 相类似的作用。高的时率,表示频谱变动快;低的 时率,表示频谱变动慢。 语音信号的特性是随时间缓慢变化的,因此,可以假定语音信号的时间特 性在1 0 3 0 m s 时间间隔内固定不变,由此引出语音信号的短时分析。短时分 析应用于傅立叶变换就是短时傅立叶变换。若有语音的时间信号x “) ,用短区 间的时间窗函数向( f ) 来分割出语音信号的某个区间,进行频谱分析。把分割出 某个短区间而求得的频谱,称为短时间频谱,其定义如下: j ( ,r ) = x ( ) 矗。一f ) g 础 ( 2 2 0 ) 式( 2 2 0 ) 中引入了时间参数r ,这是窗函数分割语音信号x ( f ) 的终了时刻。离 散的短时间傅立叶变换的定义为: 毛 ”) = x ( m ) e 一。“珊 一卅) ( 22 i ) 一 式中,出m 一珊) 是一个实数“窗”序列,它能够在特定时问指数h 上从输入语 音信号x ( ) 中强调出某个分段。对式( 2 ,2 1 ) ,可有两种解释。若假定h 固定不 变,这时工。( p ”) 就是x 伽) 础( ”一m ) 序列的标准傅立叶变换,此时z 。( p ,“) 具有标 准傅立叶变换的特性。若假定国为固定时,x 。( p ) 就是时间指数疗的函数。 用离散的傅立叶变换求短时傅立叶谱时,可在某种程度上自由选择分割出 | 个数据。在离散傅立时变换中,必须作2 次乘法运算。当把采样数据的个 数作为2 的倍数2 时,求傅立叶谱只要作( 2 m 次乘法,这能大幅度的减 少运算的时间。这种变换称作快速傅立叶变换( f f t ) 。 2 。3 语谱图 语谱图是第三种语音分析方法。它是以时域分析和频域分析两种方法为基 础,利用傅立叶分析而得到的种语音分析方法。它弥补了时域分析和频域分 析这两种方法各自的缺点,因而成为现今语音分析的一种非常重要的方法。 2 3 1 语谱图特点 图2 9 是男声读汉语元音a 的语谱图。它的横坐标代表时间,纵坐标代表 频率,灰度是第三个坐标,表示音强。语谱图提供有关不同时间不同频率的相 一1 3 东北大学硕士学位论文第二章传统的语音分析方法 不同的讲话者的语谱图有不同的花纹,也即声纹不同。据此可以用于区别唬话 人。这与不同的人有不同的指纹,据指纹可以区别不同的人是同一个道理。声 纹可用于判别犯人,确定银行金库管理员等方面。 2 3 2 语谱图分析 语音的时域分析和频谱分析是语音分析的两种方法。但是,这两种方法各 有缺点:在语音的时域分析中,对于语音信号的频率特性没有直观的了解:而 频谱分析中又没有语音信号随时间的变化关系。早在本世纪3 0 年代和4 0 年代, 从事语音研究的人们致力于研究语音的时间依赖于傅立叶分析的方法,这种时 间依赖于傅立叶分析的显示图形称作语谱图。它的纵坐标是频率,横坐标是时 间,而谱的色调的浓淡表示声音的强弱。它综合了频谱图和时域波形的优点, 明显地展示语音频谱随时间的变化情况。实际上这种谱图是一种三维频谱。或 者说它是一种动态的频谱。 语谱图按带通滤波器的带宽的不同,分为宽带和窄带两种,宽带语谱图主 要用于动态语音音色的研究,它给出元音及浊辅音的共振峰频率以及清辅音的 能量汇集区。窄带语谱图主要用于音高的研究,它给出元音的基频及各次谐波。 本次设计的基本思想与语谱图分析有点类似,都是利用短时傅立叶变换来 求取语音信号频率特征随时问的变化关系。继而提取语音信号特征。 1 5 东北大学硕士学位论文第三章语音信号处理新方法 ( 包括实数函数或复数函数、紧支集或非紧支集函数、正则或非正则函数等) 。 但常选取紧支集或近似紧支集的( 具有时域的局部性) 具有正则性的( 具有频 域的局部性) 实数或复数函数作为母小波函数,以便在时域和频域上都具有较 好的局部特性。 小波变换在语音信号处理中的应用是多方面的,最为典型的有语音基音周 期估计、汉语语音清浊音分割、语谱图、去噪声、语音编码等等。随着小波理 论的普及以及语音信号的理论的发展,相信小波变换在语音处理中将会起到越 来越重要的作用。 3 2 自组织特征映射神经元网络( s o f m ) 随着科学技术的高速发展,人们对于自动控制和优化计算等方面的要求越 来越高,迫切需要提高对信息处理的智能化水平,由于人工神经元网络是模仿 人的脑神经功能而提出来的,它具有很强的自学能力,能适用于复杂环境和多 目标控制的要求。所以引起了人们的广泛,并在许多领域中起到了很大的作用。 人工神经元网络有很多种,其中的自组织特征映射神经网络( s e l f - o 娼a n i n g f e a t u r em a p ,s 0 f m ) 反映了大脑神经细胞的记忆方式以及神经细胞被刺激时 的兴奋规律等一系列生物神经系统的特点。我们知道,人脑的神经细胞并不是 与记忆模式一一对应的,而是一组神经元对应一个模式,是以某一些细胞为中 心的一个区域来记忆某一种信息。s o f m 基于人脑神经网络的这种特点,让竞 争获胜的那个神经元的兴奋程度最强。在其周围区域内的神经元在不同程度上 都得到兴奋,而以外的神经元被抑制,从而解决了语音识别这一非常复杂的模 式识别问题。成为语音信号处理的一种新方法。 由于语音波形是一种不规则,而且十分复杂的时变模拟信号。不同的人发 同一音素时,其声波具有不同的波形与强度。即使是同一个人,发同一音素时, 也会因其语句中前后音节关系的不同而使声波的形状不同。另一方面,对于不 同的音素,往往因其频谱信号的重迭而给因素的区别造成困难。因此,语音识 别是一个十分复杂的技术难题。而利用s o f m 网络,由于它的自组织能力,可 使语音识别的处理过程简化许多,比传统技术明显优越。下面,我们就简单介 绍一下s o f m 网络结构及学习工作规则。 s o f m 网络主要有输入层和竞争层两层,竞争层是一个二维平面阵列,由 m = 删2 个神经元组成【7 】。输入层与竞争层神经元之间实行全互连。有时竞争层 各神经元之间还有侧抑制连接。s o f m 算法是种监督的聚类方法。它能将任 意维输入模式在输出层映射成一维或二维离散图形,并保持其拓扑结构不变。 在竞争层中,让竞争获胜的那个神经元g 的兴奋程度最高,并使其周围n g 的 1 7 东北大学硕士学位论文 第三章语音信号处理新方法 胜神经元g 。这里假定竞争层各神经元的阈值均相同。如果对矢量,和进 行归一化处理,则这两个矢量的内积最大等效予这两个矢量的欧式距离最小。 所以获胜神经元可用下面两种方法之一来选择,即: 第1 2n 输八 图3 2s o f m 网络模型结构 f i g 32 s o f mn e t w o f km o d i e i i = w ? uk f 。= m a 】( 【f ,】 ( ,= 1 ,2 ,m ) 或 d ,= 鼽一0 d g = m i n 【d j ( ,= 1 ,2 彳) ( 3 6 ) ( 37 ) ( 3 8 ) ( 3 9 ) 对于s 0 f m 网络连接权的调整是根据h e b b 学习规则来确定的,为了防止 连接权单方向增大,在h e b b 调整项后再减一非线性遗忘因子项,即用如下方 程【1 0 1 : 一1 9 ,融 东北大学硕士学位论文 第四章语音信号时域波形的绘制 第四章语音信号时域波形的绘制 本课题是个比较新的研究方向。没有太多比较成型的理论以及实践结果 供参考。所以在设计过程中走了不少的弯路,做了大量的实验。设计方法和思 路一改再改,有幸的是,最终能有所进展。 本次设计的关键是提取语音特征,在查阅了大量的文献之后,得出语音信 号的特征主要有时域特征、频域特征和时频域特征3 种,与其相对应的,比较 典型的语音处理方法也分为时域处理、频域处理和时频域处理几种( 详细内容 请看本论文第二章) 。 这里将三种方法结台起来,对一个语音信号既进行时域分析又进行频域分 析和时频域分析。在这一思想的指导下,我分别编写了语音信号的时域波形显 示程序、语音信号f i r ( f i n n ei m p u l s er e s p o n s e ,有限长单位冲激响应) 卷积 滤波程序。这一章主要介绍语音信号时域波形显示程序。 该波形显示程序用v c 编写,主要包括两个部分:一是自定义“打丌”对 话框,另一个就是画语音信号的波形图。该程序所使用的语音数据是通过读 取眦w 语音文件得到的,对于这些w w e 语音文件,可以通过声卡录音、保 存而得到。下面,就以上提到的两个部分分别作以介绍。 4 1w a v e 语音文件格式 m w 文件格式是一种重要的用于存放声音的文件格式,尽管现在有m p 3 、 r a m 等压缩效率更高的声音文件格式,并且广泛被音乐文件所采用,但是有 很多应用程序仍然采用w a v 文件格式。由于w a v 文件没有采用压缩技术,因 此它的文件很庞大,一般都在几m b 以上。也正因为没有采用压缩技术,w w 文件中声音的采样数据很容易被读出来,便于作其他处理。例如:画出声音的 信号波形、做出频谱等。现在的应用程序几乎都支持w a v 文件格式,也有专 门软件可以完成从w a v 文件格式向其他文件格式的转换,因此w a v 文件在目 前仍然有着广泛的应用价值。 4 1 1r i f f 文件格式 在w i n d o w s 环境下,大部分多媒体文件都按照某种结构来存放信息,这种 结构称为资源互换文件格式( r e s o u r c e si m e r c h a n g ef i l ef o r m a t ,r i f f ) 。例如 声音的w a v 文件、视频的a v i 文件等都是由此结构衍生出来的。r i f f 可以看 作是一种树状结构,其基本构成单位为c h u n k ,犹如树状结构中的节点,每个 2 3 东北大学硕士学位论文 第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论