(水声工程专业论文)基于骨导信号的语音重构技术.pdf_第1页
(水声工程专业论文)基于骨导信号的语音重构技术.pdf_第2页
(水声工程专业论文)基于骨导信号的语音重构技术.pdf_第3页
(水声工程专业论文)基于骨导信号的语音重构技术.pdf_第4页
(水声工程专业论文)基于骨导信号的语音重构技术.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(水声工程专业论文)基于骨导信号的语音重构技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西北工业大学硕士论文 a b s t r a c t w i t ht h ed e v e l o p m e n to f m o b i l ec o m m u n i c a t i o n , s p e e c hi nt e l e c o m m u n i c a t i o n u n d e rt h ee n v i r o n m e n to fh i 曲b a c k g r o u n dn o i s eh a sb e e nap r o b l e mw h i c hi sa n u r g e n td e m a n d t ob em e e t s i n c et h es i g n a la n dn o i s eh a v et h es a l n eb a n d ,i ti sv e r y d i f f i c u l tt os e p a r a t es p e e c hs i g n a lf r o mb a c k g r o u n dn o i s e ,w h i c hi sc o n c e r n e db y m o r ea n dm o r er e s e a r c h e r s t h i sd i s s e r t a t i o ni sd i f f e r e n tf r o mt r a d i t i o n a ls p e e c he n h a n c e m e n tm e t h o d s w h i c ha r eb a s e do nn o i s ec h a r a c t e d s t i cs u c h 鹤a d a p t i v en o i s ec a n c e l l a t i o no r s p e c t r a ls u b t r a c t i o np r o c e s s i n g i nt h i sd i s s e r t a t i o nt h es p e e c hs i g n a lc o n d u c t e db y b o n ew a st a k e na st h eo b j e c tt ob es t u d i e da n dt h ee x p l o i t i v es t u d yo nt h ea c o u s t i c a l c h a r a c t e r i s t i co f s p e e c hs i p c o n d u c t e db yb o n ew a sp e r f o r m e db yt h em e t h o do f t h e o r yc o m b i n e dw i t he x p e r i m e n t t h e nap r o p o s i t i o na b o u ts p e e c hr e c o n s t r u c t i o n b a s e do ns p e e c hs i pc o n d u c t e d b y b o n ew 船p r e s e n t e d a n dt h ed e s i g no fs o f t w a r e a n dh a r d w a r ew a s c o m p l e t e d n 他t h e s i sm a i n l yi n c l u d e st h ef o l l o w i n g t h r o ea s p e c t s : 1 a n a l y z i n gt h e c h a r a c t e r i s t i c so f s p e e c hs i g n a lc o n d u c t e db yb o n e ;2 r e c o n s t r u c t i n g s p e e c hs i g n a lb a s e d o ns p e e c hs i pc o n d u c t e db yb o n e t h e o r e t i c a l l y ;3 d e s i g n i n ga p r o t o t y p e t h ef i r s t a s p e c tw a sc o n t r i b u t e dt oa n a l y z ec h a r a c t e r i s t i co fs p e e c hs i g n a l c o n d u c t e db yb o n e i nt h i sp a r t ,a na n a l y s i st os e v e r a lk i n d so fc h a r a c t e ro fs p e e c h s i g n a l c o n d u c t e db yb o n eb a s e do ni t sa c o u s t i c a l p r i n c i p l e w a sf i r s t l y g i v e n s e c o n d l y ,t h er e l a t i v i t yo ft h es p e e c hs i n a ia n dt h a tc o n d u c t e db yb o n ea n dt h e r e l a t i o nb e t w e e nt h e 印制:缸啪a n dt i m b r ew e r e 锄a l y 黯d ,s os o m er e g n l a t i o n sw e r e d i s c o v e r e d b a s e do n c o r r e c t i o no f s p e c t r u m ,am e t h o df o rs p e e c hr e c o n s t r u c t i o nw a s p r o p o s e d t h i r d l y ,t h ep o w e rc o n s t a n t w a so b t a i n e d b yl a r g eq u a n t i t y s t a t i s t i c e x p e r i m e n t s 1 1 i cs e c o n da s p e c tw a st od e s i g nt h es p e e c hr e c o n s t r u c t i o nb a s e do ns p e e c h s i g n a lc o n d u c t e db y b o n ea n di t si m p l e m e n t a t i o n ,f o c u s e do nt h es i n em o d e lo ft h e s p e e c hs i g n a lc r e a t i o n ,a n df i n i s h e dt h er e c o n s t r u c t i o nb yu s i n gi t a tt h es a n g et i m e , b a s e do nt h ek n o w l e d g eo fd i g i t a ls i g n a lp r o c e s s i n g , r e c o n s t r u c t i o nb yh a r m o n i c c o r r e c t i o na n dt i m ev a r i a n t d i g i t a lf i l t e rw a sp r o p o s e d “ 西北工业大学硕士论文a b s t r a c t t h el a s ta s p e c tw a sd e v o t e dt oc o m p a r ea n da n a l y z et h ea b o v et h r e et y p e so f r e c o n s t r u c t o n i nt h i s d i s s e r t a t i o n , t w o r e c o n s t r u c t i o nm e t h o d ss u i t a b l ef o r c o m m u n i c a t i o ni nf l i g h ta n dg e n e r a lt e r r e s t r i a lm o b i l ec o m m u n i c a t i o ns e p a r a t e l y w e r ec h o s e n b a s e do na n a l o ge l e c t r o n i c t e c h n o l o g yt h e o r y ,ap r o t o t y p e v c a s d e s i g n e d ,w h i c h w a s s m a l l ,c h e a p a n d a p p l i c a b l e f o rt e r r e s t r i a lm o b i l e c o m m u n i c a t i o n k e yw o r d s :s p e e c hs i 掣, u dc o n d u c t e db y b o n e s p e e c h r e c o n s t r u c t i o n h a r m o n i cc o r r e c t i o np o w e rc o n s t a n t p r o t o t y p e 西北工业大学硕士论文 第一章绪论 第一章绪论 在日常生活中。我们经常会遇到在噪声干扰下进行语音通信的问题。如: 在噌杂马路旁或市场内使用公用电话,在奔驰的汽车、火车里使用移动电话 时,旁人的喧闹声、车辆行驶过程中的轰鸣声等背景噪声将严重影响语音通讯 的质量。提高语音通信质量成为一个重要的研究课题。然而,语音和背景噪声 在频率成分上通常是难以分离的,因此强背景噪声下的语音通信技术成为语音 通信的一个难题。为此,本文提出了基于骨导信号的语音重构技术,并完成了 相应的软硬件开发。 1 1 课题来源及研究意义 本课题属西北工业大学研究生创业种子基金项目,以语音信号处理为理论 基础,探讨骨导信号在高背景噪声环境下的语音通信应用问题。 人是生活在社会当中的,彼此之间需要互相沟通和交流。沟通的方式有很 多种,如文字、肢体语言及口头交流,在大多数情况下,口头交流( 即语音信 号) 同其它交流方式相比更方便、更直接而且更有效。但在社会生活中,语音 通信总是在一定的噪声环境下进行的。对受话人来说,收听夹杂着各种干扰噪 声的语音,容易引起听觉疲劳,严重时会错误识别甚至根本无法听清对方的语 音。例如,在强背景噪声环境下,人们通常感到语音通讯十分困难,由于背景 噪声过强,往往造成送话方声嘶力竭而受话方仍然难以捕捉对方语音的尴尬局 面,因此,提高强背景噪声下的语音通信质量十分必要。移动通讯中出于保 密或维护形象的需要,也有用户希望能够隐去环境背景噪声。 除了一般通讯的需求以外,军事通信对此有更大的需求。在军事通信领 域,指挥员的作战命令和战斗员的战情汇报与请示都需要用语音来表达。在复 杂的战场条件下,语音通信质量的好坏显得格外重要。如果语音质量差,接收 方难以听清对方的语音信息,轻者可能延误战机,重者可能会错误下达命令, 导致在战斗中造成不可估量的损失。再比如飞机驾驶舱内用无线电作导航通信 时,舱室内背景噪声声强大、包括很强的周期成分且谐波十分丰富,占有了和 飞行员语言相同的频带,严重干扰了无线电信号传输语音的可理解性,若采用 西北工业大学硕士论文第一章绪论 经典滤波器难以获得满意的结果。因此,迫切需要一种新的手段抑制背景噪 声。 随着社会文化的进步和科学技术的发展,无论在今天人们的日常生活中, 还是在军事领域,都迫切需要种抑制背景噪声的手段,因此,研究强背景噪 声下的语音通信技术具有十分重要的现实意义。 1 2 国内外研究现状 语音信号处理的主要研究内容包括语音存储与再生、语音合成、语音识别 及语音增强( 即降噪处理) 。在过去几十年里,这一领域已经取得了大量的研 究成果,对社会生活产生了深刻的影响。但真正有实用意义的近代语音技术是 随着计算机技术和数字信号处理技术的发展而发展起来的,特别是语音合成技 术,它在计算机有声响应系统中发挥了巨大的作用。 语音合成研究的目的是制造一种会说话的机器,使一些以其它方式表示或 存储的信息能转换为语音,让人们能通过听觉方便地获得。语音合成的信号, 是一种由声波转变为模拟电量,并经模数转换形成数字量的数字信号。当由该 数字量转换成模拟量,并通过扬声器之类的电声转换媒介,就可使声音得到再 现。换言之,语音合成基于抽样,根据选择的控制模式而获得数字表达的信 号,而后由数模转换、还原或重构成声音输出,这一过程可描述如图1 - 1 所 示: 蒲首营数数字值号橱拟信号 图1 1 语音合成过程 存储在r o m 中的是编码后的语音参数,由计算机控制将r o m 中的数据 取出并译码,根据不同的语音合成原理( 模型) ,把语音参数转换为数字语音 信号,再经d a 转换变为模拟语音信号,送扬声器输出。 语音合成应用十分广泛,例如,自动报时、报警、公共汽车或电车自动报 站、电话查询业务、打印出版过程中的文本校对等,这些都发挥了很好的社会 效益。合成的基本方式从技术方式讲可分为波形合成法、参数合成法和规则合 成法”o 。 2 西北工业大学硕士论文第一章绪论 ( 1 ) 波形合成法。波形合成法一般有两种形式,一种是波形编码合成, 它直接把待合成的语音波形进行存储或者进行波形编码压缩后存储,合成重放 时再解码组合输出。另种是波形编辑合成,它则把波形编辑技术用于语音合 成,通过选取音库中自然语言的合成单元的波形,对这些波形进行编辑拼接后 输出。波形合成法在合成语音段时,对所用的基元不作大的修改,因此,必须 选择较大的语音单位作为合成基元,这样在合成语音段时,基元之间的相互影 响较小,容易达到较高的合成质量。但是,这类方法存储合成基元的存储容量 较大,通常只能合成有限词汇的语音段。 ( 2 ) 参数合成法。参数合成法也称为分析合成法,是一种比较复杂的方 法。为了节约存储容量,必须先对语音信号进行分析,提取出语音的参数,以 压缩存储量,然后由人工控制这些参数的合成。参数合成法一般有发音器官参 数合成法和声道模型参数合成法。发音器官参数合成法是对人的发音过程直接 进行模拟,由于人的发音生理过程的复杂性和理论计算与物理模拟的差别,合 成语音的质量暂时还不理想。声道模型参数合成法是基于声道截面积函数或声 道谐振特性合成语音。发音时,首先根据需要发的音,从音库中选择合适的声 学参数,然后根据韵律模型中得到的韵律参数,通过合成算法产生语音,比较 著名的有k l a t t 共振峰合成系统。参数合成方法的优点是其音库一般较小,并 且整个系统能适应的韵律特征的范匿较宽,音质适中;缺点是算法复杂,参数 多,并且在压缩比较大时,信息丢失也大,合成出的语音总是不够自然、清 晰。 ( 3 ) 规则合成法。这是一种高级的合成方法,它通过语音学规则产生语 音。合成的词汇表不是事先确定的,系统中存储的是最小的语音单位的声学参 数,以及各种韵律规则。给出待合成的字母或文字后,合成系统利用规则自动 地将它们转换成连续语音声波,可以合成无限词汇的语句。它要求对待合成的 韵律特征定量的进行描述,其合成语音的音质相对较差。 为改善合成语音的音质,人们相继对传统的算法和模型做了进一步改进和 完善,同时提出了一些新的模型和算法。最典型的算法主要可分为两大类:一 种为基于线性预测的合成分析法口1 ,如c e l p :另一种为基于正弦模型的合成 分析法“1 。以下简要介绍一下正弦模型合成分析方法的思想。 西北工业大学硕士论文第一章绪论 由m i t 林肯实验宣的r o b e r tm c a u l a y 等人提出的正弦变换编码“3 完全脱 离线性预测的框架,试图用正弦波序列的叠加来描述语音信号,对于一给定的 语音帧表示如下: - j ( ”) = :4e o s ( w ,n + 旃) ( 1 1 ) 百 其中4 ,和办表示每一频率为的正弦波分量的幅度和相位,l 为j 下弦波 的数量。起初这种算法不需要对相位编码“1 ,为进一步提高合成语音的质量, r o b e r t m e a u l a y 在1 9 8 5 提出了一种改进的s t c ,主要在合成端引入了相位参 数。 随着语音技术的蓬勃发展,语音降噪技术也越来越受到人们的关注,作为 语音信号处理的重要课题,已经作了大量的研究工作,取得了丰富的研究成 果。目前,国内外的研究成果大体上分为三类解决方法n 1 。一类是采用语音 增强算法,提高语音识别系统前端预处理的抗噪声能力,进而提高输入信号的 信噪比。第二类方法是寻找稳健的耐噪声的语音特征参数。例如,m a n s o u r 和 j u a n g 提出了短时修正的相干系数( s h o r t - t i m em o d i f i e d c o h e r e n c e c o e f f i c i e m ,简称为s m c ) 作为语音特征参数,该参数是基于自相关函数序列 的线性预测技术,实验证明,该参数对宽带语音具有较好的抗噪性:a t a l 提出 了倒谱系数零均值算法,该算法在消除麦克风和信道失真方面取得了较好的效 果;c a r l s o n 基于加性噪声只影响倒谱系数的模而方向不受噪声的影响的特 性,提出了基于子空间投影的特征参数。另外,还有基于频率的单边自相关序 列线性预测倒谱系数o s a w l p c ( o n e s i d e da u t o c o r r e l a t i o n w a r p e dl i n e a r p r e d i c t i v ec o d i n g ) ,实验证明,该参数在不增加计算量的情况下,既能模仿 人耳的听觉特性提高识别性能,又具有较强的抗噪能力。第三类方法是基于模 型参数自适应化的噪声补偿算法,例如,针对加法性噪声的h m m 合成法、 p a r a l l e lm o d e lc o m b i n a t i o n 法和针对乘法性噪声的s t o c h a s t i cm a t c h i n g 法以及 两方面都考虑的方法等。这类方法可以引入语音和噪声的统计知识,提出具有 一定环境稳健性的处理算法,并且在应用中基本与语音模型的短时平稳假设一 致,所以成为目前研究的热点。但是,这些补偿算法通常假设噪声环境是平稳 的,因此,在低信噪比以及非平稳噪声环境中的效果并不理想。 4 西北工业大学硕士论文第一章绪论 解决噪声问题的根本方法是实现噪声和语音的自动分离,尽管人们很早就 有这种愿望,但由于技术上的难度,这方面的研究进展很小。近年来,随着传 感器技术的研究发展,人们已逐渐认识到骨导信号在通讯中的地位,并探讨了 骨导信号的基本特征,在1 9 7 4 年对骨导与气导语谱间的同异问题”3 进行了研 究,1 9 7 6 年对语谱与清晰度关系进行了实验分析“们3 ,1 9 8 2 年再次对几个 基本特性进行定量分析验证。但是,直到2 0 世纪9 0 年代术,骨导信号才在通 信中得到较为广泛的应用,比如骨导电话机。以下简单介绍其工作原理“。 针对普通电话机不能满足耳弱者、高龄人和强背景噪声环境下通信要求的 问题,从技术上研制一种换能器件及与之相应的电子线路,将电话机接收到的 信号转换为机械振动,通过人耳周围的骨骼传输到大脑的听觉神经,从而听到 电话。由此,受话者一方可以忽略周围噪声的影响。 借助上述思想,我们在说话者一方也可采用骨导方式,采集说话时的振动 信号,也研制一种换能器件及与之相应的电予线路。将振动信号转换为音频信 号,再用于通信传输,从而达到无噪语音的传输。 这项技术已经运用在军机上“”,通过拾取飞行员声带部位的振动信号直 接用于导航通信。其优点是可以较大程度地减少背景噪声对通讯的干扰,但声 带部位传声器获得的振动信号既包含了语音信号,也混杂了人体喉头的其它噪 声干扰;声带振动信号与语音信号虽然有很大的相似性,但仍存在极大的差 异。直接播放的声带振动信号可理解度很差。目前空军通讯采用的仍然是碳粒 式喉头送话器,效果很不理想;装甲部队虽然已采用压电式喉头送话器,极大 地提高了信噪比,但由于后处理不够,其语音可懂度较差。 1 3 本文的研究内容 骨导信号虽然源于语音信号,但在各种特性上都存在着极大的差异。研究 骨导信号和语音信号的异同点,结合语音信号处理和数字信号处理的知识,实 现基于骨导信号的语音重构,是本论文的主要研究内容。 语音技术的研究从一开始就以方便人们工作与生活为目的,基于这个目 的,本文对语音信号处理中的原理以及常用方法进行了研究总结,并针对其中 的一些具体技术问题进行了拓展。 本文的主要内容和章节安排如下: 西北工业太学硕士论文第一章绪论 第一章是本文的绪论部分。介绍了课题的来源及研究意义、语音合成及降 噪技术的历史以及现状,并对文章的主要内容及安排作了介绍。 第二章分析了骨导信号的特点。首先对骨导信号的声学原理进行了分析论 述,得到了骨导信号产生的数字模型,并探讨了拾振器及拾取部位对骨导信号 的影响,找到骨导信号拾取的适宜位置;然后对骨导信号作短时分析,分剐从 时域和频域两个方面分析其特性。 第三章介绍本研究对骨导信号的处理方法。引入语音产生的正弦模型,在 此基础上研究传统语音处理算法,并加以改进,提取出语音重构时需要的各种 参数:通过大量统计实验得到各项判别阈值,完成端点检测、清浊音分段、基 音周期提取、峰值检索及权系数提取。 第四章是本文的研究重点。分析骨导信号和语音信号的相关性,从语音谱 角度出发,分析语音谱结构对音色的影响,基于谱修正的思想,分别用语音正 弦模型、谐波修正及时变滤波器的方法实现语音重构。 第五章介绍本研究中原理样机的丌发。在前四章的理论和算法分析基础 上,结合模拟电子技术,完成基于模拟电路的原理样机设计。 第六章总结论文的主要工作,给出结论、指出不足之处以及进一步的工作 殳想。 利用骨导信号提取和重构语音信号,目前国内外未见报道。尽管本项工作 眭度较大,但该技术在语音通信领域所展示的美好前景及实用性、新颖性这些 己著优点促使作者在骨导信号的特征提取与分析、骨导信号的语音重构,乃至 募理样机开发等方面开展了大量的研究工作,并最终完成了原理研究和软硬件 r 发。 西北工业大学硕士论文第二章骨导信号分析 第二章骨导信号分析 本文所指的骨导信号是在发声的同时所拾取的喉头部位的振动信号,【圈此 它同语音信号有很多共同的特点。早在1 9 7 4 年就肯研究行刘骨导与e 导语谱 似j 的州异问题进行了研究”1 ,分析骨导信号构特征是整个系统丌发f l j 第一 步。了解骨守信号的基本特征、找到骨导信号和浯占信号的棚关性,是对骨导 信号进 1 :加工处理和重构的重要基础。 2 1 骨导信号的声学原理 众所周知,我们平时听到的声音大多数是以空气为媒质进行传播的,其传 播的速度约为3 4 , i m s 。实际l ,声凿还可以通过其它媒质进行传播。在液体掘i 水t t ,声波在的传播速度为1 4 8 3 m s ;而在固体如有机玻璃。h 它的体纵波声 速为2 7 1 0 3m s ,它的体横波速度为2 1 3 x 1 0 3m s 。山此i q 见,吲体传播,* 波的速度远远高于空2 t 中的声速,因此我们可以利井j 固体传声,通过在喉头部 位贴附压 乜陶瓷j - i 的方法,将气流激励声带产生的振动信号作为齑频信弓。 在固体中,声波传播的方式较为复杂,它不光包含向前传插的体纵波,还 包括向切线方向传播的体横波。 例血,在空叫有x ,y ,= 三个方向,作用在垂文于x 轴表面上x 方向的分 力为: l :( l + 冬d x t = ) d y d z ( 2 j ) 作用钮垂直于y 轴表面上x 方向的分力为: 凡:( _ + 孥e l y e l y 一瓦) 出d z ( 2 2 ) 5 ( o + 蓄一k ) 出出 ( 2 2 ) 作用经乖直于= 轴表面上工方向的分力为: l :( l + 孥d z t = ) d x d y ( 2 3 ) j t l 佟特) 1 辆会j 3 为: 吲冬+ 冬+ 冬) 蛐出 他4 ) m o y “ 此,其声速主要有两种,即纵波声速和横波声速: 西北工业大学硕士论文 第二章骨导信号分析 瞎 弦s , e 盯 ( 1 + o ) 0 2 d ) e 2 ( i + 仃) ( 2 6 ) 2 2 骨导信号的拾取 对骨导信号基本特性研究以后发现:骨导信号频谱的高频端衰减特性受多 种囡索影响,特别是和拾振器的重量、拾取部位有密切关系。不同重量骨导拾 振器拾取头颅某部位的语言振动信号时,只要讲话声级相同,人在讲话时用力 也是相同的。现用8 个发音人( 4 男、4 女) 在不同的使用部位、不同重量的拾 振器的条件下,分别朗读资料,进行多次采样分析、取算术平均值,分别得到 如下结果: 图2 1 是在喉头部位分别用1 0 9 和3 6 9 两种重量的拾振器测得的平均频谱 图。 t o 2 0 曼o 器 一2 0 4 0 l? 吣; ,、 , ,1 0 9 k 3 6 s i 、 5 01 0 09 0 05 0 0 1 0 0 02 0 0 0 颤弗1 4 z 图2 i 喉头部位两种拾振器的谱图 西北工业大学硕士论文 第二章骨导信号分析 可以看出,拾振器愈重,高频衰减愈显著。它反映了拾振器重量对所拾取 信号的影晌,揭示出拾振器重量增大是引起语音清晰度下降的原因。 同一拾振器使用部位不同,对语谱的影响也不同“”“”。图2 2 是l o g 重拾振 器在前额、头顶、喉头拾取的骨导信号频谱。 自率h 2 图2 - - 2 三个部位的骨导信号谱比较 可以看到,能量最大的峰值位置基本相同,但频谱范围宽度明显不同,三 者比较,频谱斜率以喉头为最大,头顶次之,前额最小。例如,2 5 0 h z 时,三 者相接近,1 5 0 0 h z 时,喉头比前额约低1 5 d b ,头顶比前额约低8 d b 。但是,在 1 0 0 0 h z 以下的低频段,喉头部位拾取的语句平均加速度最大,大约为前额的2 倍,为头顶的4 倍。 以上分析说明,前额部位传导语言频谱宽度最大,清晰度最好,但考虑到 信号强度,我们主要从喉头部位采集骨导信号。 2 3骨导信号产生的数字模型 骨导信号产生模型是对发声器官的模拟和仿真,数字模型就是用数字处理 方法实现这种物理系统的模拟,由此估计出骨导信号的参数。因此,这种数字 模型也是骨导信号参数模型。发声器官能发出一系列的声波是由于声道受到气 流的激励而产生的。声道的一端是喉,另一端是嘴,其中包含声带、声门、口 腔和鼻腔。声道中有三种声激励方式引:( 1 ) 由肺部来的气流,被声带所调 制从而得到一种准周期的类似脉冲的激励,这种方式对应浊音的产生; ( 2 ) 由肺部来的气流经过声道收缩部分时形成湍流,得到一种类似噪声的激励,这 9 西北工业大学硕士论文第二章骨导信号分析 种方式对应于清音或摩擦音的产生:( 3 ) 由肺部来的气流在声道完全闭合处 的后面建立起压力,然后除去这种障碍,使压力迅速得到释放,从而产生一种 瞬时的激励,这种方式对应于爆破音的产生。凡是声带振动的声音统称为浊 音,反之称为清音。用数字模型模拟这种功能时用准周期的脉冲序列模拟声 带振动的激励,而用随机噪声模拟清音的激励。正常的语音就是声激励进入声 道,最后经过口腔和鼻腔的谐振作用最终形成的,而本文研究的骨导信号是用 加速度传感器直接在喉部提取得到的,由声激励通过部分声道谐振产生,但我 们仍可以用一时变线性系统来模拟。其时变参数不断控制清浊音开关、激励脉 冲的周期以及噪声源的强度,同时随着不同的发音改变滤波器特性,输出的信 号就是所要求的骨导信号序列。如图2 3 所示。 潜“即 拜毫t 嗟心盘箩号 匿臣卜掣一 l 墨i2 3 骨导信号产生模型 骨导信号是一个局部平稳的随机信号,其各项参数均随时间而燹化,但是 由于发声器官的惯性。这些参数的变化速度受到限制,在一较短的时间内 ( 1 0 3 0 m s ) 可近似认为不变,因此对骨导信号的短时分析帧长一般取为1 0 3 0 m s 。模型中将骨导信号截然分为受周期脉冲激励和噪声激励两种情况,这与 实际情况并不完全相符,将清浊音开关换为叠加号更为合适。这样激励信号可 以是上述两种激励按任意比例相叠加,这更加符合实际情况。即使如此,这个 模型也还不能包括所有的情况,对具体问题需要进一步分析。 2 4 骨导信号的短时分析 由于骨导信号的准平稳特性,其数字处理算法和技术都是建立在短时基础 上的。为了实现各种具体应用而作进一步复杂处理之前,有一些常用的、共用 的短时分析技术。 2 4 1 预处理 在信号处理中。对原始信号进行预处理可以为后续处理提供比较理想的处 理对象。研究表明,在气导语言通讯中,电话语言的频率范围主要集中在 l o 西北工业大学硕士论文第= 章骨导信号分析 3 0 03 4 0 0 h z “,这一频段可把语音中大部分能量传送出去,达到传输语言信 息的目的。骨导信号的高频衰减很严重,特别是在1 5 0 0 h z 以上,能量更是微不 足道,几乎完全被背景噪声掩蔽。因此,本文将信号处理频带上限定为 4 0 0 0 h z :骨导信号中的主要成分分布在低频,再考虑到避免工频干扰,将频率 下限扩展到1 0 0 h z ,即选取的频率范围为1 0 0 4 0 0 0 h z 。然后再对选取出柬的信 号采样,得到离散的时域信号,采样频率选为i o k h z 。 总之,预处理的目的主要有两个:( i ) 抑制输入信号频率分量中频率超出 厂、2 的所有分量( f 为采样频率) ,防止混叠干扰;( 2 ) 抑制5 0 h z 的电源干 扰。 2 4 2 窗函数的选择 骨导信号是短时平稳信号,多用分帧来处理。信号的分帧采用可移动的有 限长度的窗口进行加权的方法实现,移动窗的形状对信号的短时分析有很大影 响。语音处理中用得最多的是矩形窗和汉明窗。图2 4 是元音 a 的短时谱 图,窗宽选为n = 5 1 2 ,图( a ) 用矩形窗得到,图( b ) 用汉明窗得到。 l 。口 8 。 目e o 露。 2 。 。 i 。 8 。 星6 。 ”4 。 2 。 0 俐鲢赫瀛出嘲严一一 ; yr p;一一 一p ; 频率h z i m l i 觥邺甄劓1。幽 利 h r p v v 蝌1 蜘卿 :。、一一- i 图2 4 元音i a l 的短时谱图 可以看出,这两个短时频谱图中都有两种变化,一种是快变化,它是由周 期性激励引起的,反映了基音频率的各次谐波;另一种是慢变化,它是由声道 l l 西北工业大学硕士论文 第二章骨导信号分析 滤波器的共振频率特性引起的,反映出各共振峰的频率和带宽。还可发现,这 两个频谱图之间存在明显的差别:采用矩形窗时,频谱图中基音谐波的各个峰 都比较尖锐,而且整个频谱图显得较破碎。这是因为矩形窗的频率特性具有较 窄的主瓣,因而具有较高的分辨率,同时它又具有较高的旁瓣,使基音的相邻 谐波阳j 的相互干扰比较严重,在相邻谐波间隔内的叠加和抵消引起随机变化的 现象。相邻谐波之间的这种严重“泄漏”现象抵消了矩形窗主瓣窄的优点,而 图( b ) 中采用汉明窗得到的短时谱却要平滑得多。因此,本文选用汉明窗。 2 5 骨导信号的特性 信号可以从时域和频域两方面进行分析。时域是信号能量在时间轴上的分 布,而频域是信号各频率分量在整个信号中所占能量大小的反映。骨导信号本 身是一种时域信号,在时域中分析直观、清晰易懂,可以得到一些重要特性, 为分析骨导信号提供有用的基础。信号的频域分析是现代语音信号处理的基础 和重要手段,无论是从发音器官的共振性质还是从听觉器官的频率响应角度来 看,骨导信号的频谱都是表征骨导信号基本特性的参数。 2 5 1 骨导信号的时域特性 图2 5 是某人以英语单词“s u b u r b s ”发声时对应的骨导信号时间波形,这 个单词以每秒1 0 0 0 0 点的速度取样。图上标出了时间及各个音素起始点位置。 需要说明的是,各单音间本来没有明显的分界,因此图上所标出的起止位置都 是人为大致划分的。 眦卜卜卜e 岫 图2 5 骨导信号时域波形举例 从图中可以看出,清音和浊音这两类音的波形有很大不同。例如,从a 点和 h 点开始的摩擦音 s 是清音,它们的波形类似于自噪声,且具有很弱的振 西北工业大学硕士论文第二章骨导信号分析 幅:而从b 、d 、e 诸点开始的音分别是 、 b 、 3 音,这些元音具 有明显的准周期性,并具有较强的振幅,它们的周期对应的频率就是基音频 率。 2 5 2 骨导信号的频谱特性 骨导信号波形是时间的连续函数,骨导信号的特性是随时问变化的,这种 时变特性在时域图中可以明显观察到,但是骨导信号的时变性比较缓慢。由 此,我们分别在7 1 5 s 和7 5 0 s 附近截取一小段( 2 5 6 个取样值) 进行频谱分 析,它们分别对应一小段浊音和清音。由于采样频率是1 0 k h z ,所以所截取的 - d , 段信号对应的时间跨度约为2 5 6 m s ,对其进行傅里叶变化,得到振幅谱, 如图2 - 6 。在进行傅里叶变换之前,采用附加零点的方法将信号长度延长 倍。 姒 够 批懒 频事, ( a ) 3 0 2 0 兽1 0 嚣0 1 0 - 2 0 糯 。蕊硝 妗 ” q螂峄i 0 1 0 0 02 0 0 03 0 0 04 0 0 0 频率h z c b 】 图2 6 骨导信号振幅谱 可以发现,图( a ) 的浊音谱图存在明显的谐波性,而图( b ) 的清音谱中, 谱峰分布没有明显规律,也看不出信号的周期性。此外频谱幅度在超过4 k h z 后反而呈上升趋势,这表明清音的频谱能量主要集中在高频区域。 西北工业大学硕士学位论文第三章骨导信号处理 第三章骨导信号处理 虽然骨导信号不同于语音信号,但两者存在密切联系,我们仍然可以借鉴语 音信号分析处理的方法。本文的算法主要以语音的正弦模型为基础,为阐明算 法原理,首先讨论正弦模型,进而说明正弦模型在本算法中的应用。 3 1语音产生的正弦模型 目前最基本、应用最广泛的语音产生模型是二元激励语音产生模型,在 它基础上衍生得到了正弦模型,以下简单介绍二元激励模型的原理。 3 1 1 二元激励模型的原理 在语音处理中,语音波形被认为是声门激励波形经过一个时变线性系统的输 出。这个时变线性系统体现了声道及辐射特性的影响,其目的是模拟声道的谐 振频率。声道被表示为非均匀界面的声管,声道的谐振频率是山声道截面面积 沿声道变化的情况决定的。对于大多数语音来说,全极点模型能很好地代表声 道的效应,语音的谐振频率对应于模型传递函数的极点,所以,模拟声道特性 的时变线性系统就是一个全极点滤波器e2 0 。声门激励波形主要有两种:一种是 由肺部来的空气流为声带振动所调制得到准周期的类似脉冲的激励( 如图 3 】) 。 时问 图3 一l 声门准周期激励波形图 大部分语音按其激励形式的不同可以分为浊音和清音两类。在浊音语音段 我们用基音周期长度间隔的连续脉冲串来模拟激励函数,如图3 2 所示。 已:兰苎竺翌li l 时闻 图3 2 浊音激励函数波形图 1 4 西北工业大学硕士学位论文第三章骨导信号处理 另一种激励波形是由肺部来的空气流在它经过声道收缩部分时形成的湍流, 得到类似噪声的激励,这种类似噪声去激励声道而产生的语音为清音,因此对 于清音,激励模型为一随机噪声发生器。 综上所述,语音大致可分为浊音和清音。对于浊音,由脉冲序列发生器产生 浊音激励波形;对于清音,由随机噪声发生器产生清音激励波形。利用一个二 元开关控制浊音和清音激励发生器二者的交替,可以模拟激励形式的改变。对 于声道,用一个全极点形式的传递函数来表示。将激励信号经过此声道函数的 滤波,就可得到语音。这就是最初的二元激励语音产生模型,如图3 3 所示。 图3 3 二元激励语音产生模型 3 1 2 正弦模型的原理 正弦模型来源于二元激励模型中的浊音激励。如上所述,对于浊音,激励波 形是由图3 - 2 中的脉冲序列发生器产生的周期脉冲串,两相邻脉冲之间的间隔 为基音周期。根据语音信号的短时平稳性,可以认为语音参数在一短段时间间 隔中是不变的,即一帧中可认为决定激励波形脉冲间隔的基音周期是不变的, 因此准周期脉冲串就变成理想周期脉冲串。任何周期函数在满足狄义赫利条件 下,均可展成三角形式的傅里叶级数,所以作为周期脉冲串的浊音激励信号可 以表示为傅里叶级数的形式,由于在计算机上进行实际处理的信号都是离散信 号,故以下讨论中用离散数学表达式。浊音激励周期信号的离散傅里叶级数是: 上 s ( n ) = a kc o s ( n k w o ) + 风s i n ( n k w o ) 】0 珂 0 a t 0 a i 0 ,b t 0 a t 0 ,b 女 0 a t 0 a 女 0 ,盈 0 a 女 0 ,b k 0 ( 3 9 ) 式( 3 8 ) 就是完整的浊音语音激励表达式,用此式表达的浊音激励信号激 ;i 西北工业大学硕士学位论文第三章骨导信号处理 励表征声道特性的时变线性系统,就可得到一帧浊音语音。 表征声道特性的时变线性系统是一个全极点滤波器,它的传递函数表示如 下: 肌) 。蠢g 万 1 0 ) 式( 3 1 0 ) 中,扛,) 为线性预测系数,它可以通过线性预测分析求得,p 为预测 阶数。将z = e i ”代入上式,即可得到语音产生模型中线性系统的频率响应,即: 日( w ) = 1 日( w ) l e 川” ( 3 1 1 ) 运用信号与系统的知识不难求得,激励信号作用于此系统的响应为: ;( n ) = s ( 胛) + ( 厅) :kl h ( 砜) 陋( ”砜+ 吼+ 矿( m ) o 聆 3 - 1 2 至此,当前一帧的语音就可以用以下模型表示; j ( n ) = q c o s ( n m 0 + 吼) 0 疗 1 x ( 一) = 0 ( 3 1 7 ) x ( n ) c y ( h ) = 0一c x ( n ) c ( 3 1 8 ) 【一1x ( 一) _ c 削波后,骨导信号波形变成具有不同脉宽的脉冲序列,如图3 8 所示。 图3 8 三电平削波后的骨导信号波形 图( a ) 是骨导信号原始波形,图( b ) 是骨导信号削波后波形。 在1 0 k h z 采样率下,2 0 1 5 0 个采样点的周期可对应6 7 5 0 0 胁的基音频 2 4 西北工业大学硕士学位论文第三章骨导信号处理 率,因此我们在自相关计算时,式( 3 1 8 ) 的k 取值范围为2 0 1 5 0 ,即用2 0 1 5 0 范围内的峰值点作为基音周期估值。在自相关计算时,施加如此约束条件, 对提高计算的精度和速度是很有利的。 自楣关函数定义为: - k - 1 r 。( t ) = y o + m ) y q + m + 女) ( 3 1 9 ) m = 0 经三电平削波后,原始信号变成幅值为l 的脉冲序列,序列中零值数目远 超过1 值的数目。因此我们可以大大简化自相关计算步骤,提高计算速度。此 时式( 3 1 9 ) 可改写为: 月。( 七) = 一+ 埘) y o + 矾+ 七) + y o + 肌) y o + 卅+ i ) + 4 k 啦 + _ y ( + m ) y ( n + r n + ) ( 3 20 ) m 其中m m :、m :m :、竹脚:分别表示每帧信号经削波后形成的正负脉 冲序列的前后沿,其中m n l k ,m :为最接近一1 一k 的位置脉冲边沿, 为帧长。每帧削波语音信号经扫瞄,可求出各脉冲沿m ,、m i 、m :、m :等的位 置。同时还可确定式( 3 2 0 ) 右边每项中y ( n + m ) 的取值是+ 1 还是1 ,即可确定 每项的符号。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论