




已阅读5页,还剩58页未读, 继续免费阅读
(检测技术与自动化装置专业论文)基于听觉特性的电子耳蜗语音增强的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于听觉特性的电子耳蜗语音增强的研究中文摘要 基于听觉特性的电子耳蜗语音增强的研究 中文摘要 电子耳蜗是唯一能恢复全聋人听觉系统的有效装置,这种技术在安静环境下已取 得比较好的效果,但在噪声环境下电子耳蜗使用者获得的语音信息量会明显下降。为 保证语音的可懂度和清晰度,尽可能地从带噪语音中提取所需的有用语音,有必要对 电子耳蜗中的语音信号进行增强。 本文主要研究了电子耳蜗的c i s 语音信号处理方案,提出了与听觉系统更为适应 的语音信号处理方案,并在此基础上提出了基于听觉特性的电子耳蜗语音增强算法。 本文的主要工作如下; 1 、在讨论电子耳蜗语音处理器的理论基础上,提出了与听觉系统十分吻合的b a r k 子波变换来实现电子耳蜗的c i s 语音信号处理。 2 、研究了电子耳蜗系统中语音增强算法。在讨论和比较电子耳蜗语音增强传统 算法,包括基本谱减法、改进谱减法和自适应滤波法的基础上,提出了基于听觉特性 的电子耳蜗语音增强算法:采用人耳听觉掩蔽效应作为减参数的谱减法对每个通道进 行语音增强。 3 、对电子耳蜗语音增强的各算法进行了软件仿真,给出了仿真结果。并比较了 各方法增强后的信噪比。结果表明:即使在低信噪比的情况下,信噪比也能提高2 0 d b 左右,合成的语音对于电子耳蜗使用者具有较好的清晰度和可懂度。 4 、研究了电子耳蜗语音信号的基本特征:基音周期和共振峰。对增强后的各语 音分别提取基音周期和共振峰。结果表明:本文方法增强后的语音所提取的基音周期 和共振峰的相对误差更小,可以表征原始语音信号的特征参数,能给电子耳蜗使用者 传送更准确的信息。 最后提出了本课题今后进一步研究和改进的方向。 关键词:电子耳蜗语音增强掩蔽效应b a r k 子波 作者:黄雅婷 指导老师:陶智 基于听觉特性的电子耳蜗语音增强的研究a b s t r a c t s t u d y o f s p e e c he n h a n c e m e n ti nc o c h l e a ri m p l a n t b a s e do nc h a r a c t e r i s t i c so fh e a r i n g a b s t r a c t c o c h l e a ri m p l a n ti st h eo n l ye f f e c t i v ee q u i p m e mw h i c hh a st h ea b i l i t yt or e n e w a u d i t i v es y s t e r mo fd e a fp e o p l e t h i st e c h n o l o g yh a sg e tb e t t e re f f e c ti nt h eq u i e t e n v i r o m e n t ,b u tt h es p e e c hi n f o r m a t i o nw h i c hc o c l e a ri m p l a n tu s e r sg e t s w i l lb e s i g n i f i c a n t l y d e c r e a s e d t oe n s u r et h ec l e a r n e s sa n di n t e l l i g i b i l i t yo ft h e s p e e c h i n f o r m a t i o n , a n d t oe x t r a c tu s e f u l ls p e e c hw en e e d e da sm u c ha sp o s s i b l ef r o mt h en o i s y s p e e c h , i ti sn e c e s s a r yt or e a l i z es p e e c he n h a n c e m e n ti nc o c h l e a ri m p l a n t i nt h i st h e s i st h ec i ss p e e c hs i g n a lp r o c e s s i n gi sm a i n l yd i s c u s s e d ,p r o c e s i n gt h e i m p r o v e m e n ts p e e c hs i g n a lp r o c e s s o ra r i t h m e t i c ,w h i c hi sm o r ea d a p tt ot h ea u d i t o r y s y s t e m a n do nt h eb a s i so ft h i s ,p r o p o s i n gt h ea l g o r i t h mo fs p e e c he n h a n c e m e n ti n c o c h l e a ri m p l a n tb a s e do nc h a r a c t e r i s t i c so fh e a r i n g n em a i nw o r ko ft h i st h e s i si sb e l o w : 1 、d u r i n gt h ed i s c u s s i o no nt h eb a s i so fs p e e c hs i g n a lp r o c e s s i n g ,p r o p o s i n gw a v e l e t w h i c hi sv e r ym a t c ht ot h ea u d i t o r ys y s t e r mt or e a l i z et h ec i ss p e e c hp r o c e s s i n gi n c o c h l e a ri m p l a n t 2 、r e s e a r c hs p e e c he n h a n c e m e n ti nc o c h l e a ri m p l a n t o nt h eb a s i so fd i s c u s s i n ga n d c o m p a r i n gt h et r a d i t i o n a la l g o r i t h m so fs p e e c he n h a n c e m e n ti nc o c h l e a ri m p l a n t ,i n c l u d i n g o r i g i n a ls p e c t r a ls u b t r a c t i o n ,i m p r o v e ds p e c t r a l s u b t r a c t i o na n ds e l f - a d a p t i v e f i l t e r , p r o p o s i n gt h ea l g o r i t h m o fs p e e c he n h a n c e m e n ti nc o c h l e a r i m p l a n tb a s e d o n c h a r a c t e r i s t i c so fh e a t i n g :a d o p t i n gt h em a s k i n gp r o p e r t i e so fh u m a na u d i t o r ya st h e s u b t r a c tp a r a m e t e rt oe n h a n c es p e e c hi ne a c hc h a n n e l 3 、c a r r y i n go ns i m u l a t i n ga l g o r i t h m so fs p e e c he n h a n c e m e n ti nc o c h l e a ri m p l a n t ,a n d p r e s e n t i n gt h er e s u l t s c o m p a r i n gt h es n r a f t e ru s i n gv a r i o u sm e t h o d s t h er e s u l ts h o w s i l 基于听觉特性的电子耳蜗语音增强的研究a b s t r a c t t h a tt h es n ro u t p u tc a l lb ei m p r o v e db y2 0d be v e ni ft h es n ri n p u ti sl o wa n dt h e e n h a n c e ds p e e c hi sm o r ec l e a r n e s sa n di n t e l l i g i b i l i t y 4 、r e s e a r c ht h ec h a r a t e ro fs p e e c hs i g n a li nc o c h l e a ri m p l a n t :f o r m a ta n dp i t c h e x t r a c tt h ef o r m a ta n dp i t c hf r o mt h en o i s ys p e e c h 、t h es p e e c he n h a n c e db yo r i g i n a l s p e c t r a l s u b t r a c t i o nm e t h o d ,a n dt h es p e e c he n h a n c e db yt h em e t h o do ft h i sp a p e r p r o p o s i n g t h er e s u l ts h o w st h a tt h er e l a t i v ee r r o ro ft h ep i t c ha n df o r m a te x t r a c t e df r o m t h es p e e c he n h a n c e db yt h em e t h o do ft h i sp a p e rp r o p o s i n gi sl e s s ,a n dc a nr e p r e s e n tt h e p a r a m e t e r so ft h eo r i g i n a ls p e e c hs i g n a l ,a n ds e n dm o r ea c c u r a t ei n f o r m a t i o nt oc o c h l e a r i m p l a n tu s e r s f i n a l l y , t h ef u r t h e rr e s e a r c ha n di m p r o v e m e n td i r e c t i o no ft h i ss u b j e c ti sr a i s e d k e y w o r d s :c o c h l e a ri m p l a n t ,s p e e c he n h a n c e m e n t ,a u d i t o r ym a s k i n gp r o p e r t i e s , b a r kw a v e l e t i i i w r i t t e nb y h u a n gy a t i n g s u p e r v i s e db y t a oz h i 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行 研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其 他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或 其它教育机构的学位证书而使用过的材料。对本文的研究做出重要贡献 的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律责 任。 研究4 = 躲鳓 e l 期:研究签名:望绷:二j期: 学位论文使用授权声明 p 鹞、s 。 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保存期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:童堡立 导师签名:卫潍 日期:趔显:茎 e t 期:迎堡:! :! 丝 基于听觉特性的电子耳蜗语音增强的研究 第一章绪论 第一章绪论 1 1 引言 听觉系统是人类获取信息的主要器官,也是人类赖以生存的基本功能之一。听觉 器官的任何一部分有缺陷或发生病变,都会产生听觉障碍。听力丧失的原因可以归纳 为【1 】:1 、传导性耳聋,这类耳聋可以通过助听器( h e a d n ga i d ) 对声音信号进行放大或 者外科手术消除。2 、感音神经性耳聋,这类耳聋患者对传统的助听器毫无作用,就 必须寻找其他的方法从根本上来恢复耳聋患者的听觉感知特性。据统计,目前在我国 有听力障碍的人口总数高达2 0 5 0 万,6 0 0 万全聋人,而每年新增加全聋患儿3 5 万,是我国最大的残疾群体。因此,聋人的康复问题已经成为一个值得全社会广泛关 注的问题。 研究表明,多数聋人听觉致聋的主要原因是由于毛细胞的损伤而不是听神经元。 从5 0 年代后期起,研究者们就开始考虑能否设法恢复感觉神经性听觉丧失患者由于 听毛细胞缺失残损的电信号。6 0 年代以来,随着人们对听觉生理功能的深入了解, 许多学者致力于研究一种能恢复全聋人听力的电刺激装置,该装置被称为电子耳蜗 ( c o c h l e a ri m p l a n t ) 2 j 【3 l 【4 】。电子耳蜗由语音处理器、方向性麦克风及传送器组成。在 植入人体耳部后,声音由麦克风接收转换成电信号后,将信号放大、过滤、数字化, 并编译成适当的信号,经由传送器传送到接收器,产生电脉冲,再输送到相应的电极, 电极直接刺激内耳的听觉神经末梢,并传送到大脑形成听觉。因此,电子耳蜗是目前 唯一能使全聋患者恢复听力的装置,它将声能转换成电能,直接刺激耳蜗内残余的听 神经纤维,使聋人产生听觉i 5 1 。 电子耳蜗诱发的听觉与正常人的听觉还存在着一定的差异,这是因为电子耳蜗诱 发的听觉仅仅是由几个有限的电极电刺激引起的,而每个电刺激包含了语音信号中某 一频率范围的信息。所以它传导的声音信号必然有很大的损失,并且电子耳蜗使用者 在噪声环境下听到的声音信号质量是比较差的,甚至于不可懂。而语音增强技术的一 个主要目标是从带噪语音信号中提取尽可能纯净的语音信号,其目的 6 1 主要有两个: 基于听觉特性的电子耳蜗语酱增强的研究第一章绪论 一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度 量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得,在两者之 间取得一个令人满意的折衷是很有必要的。为保证电子耳蜗使用者获得的一定可懂度 和清晰度的语音信息,研究电子耳蜗语音增强1 7 1 具有深远的意义。 1 2 国内外研究的现状i 8 1 当前,在美国有三种经f d a 认可的多导人工耳蜗系统。这包括由c o c h l e a r 公司 投入市场的n u c l e u s 耳蜗植入系统f 9 l 、由a d v a n c e db i o n i c s 公司投入市场的c l a r i o n 装置1 1 0 1 以及由m e d i c a le l e c t r o n i c s 公司投入市场的m e d e l 装置1 1 1 。这三种人工耳蜗 系统也是现今世界上流行的电子耳蜗产品。目前这三种人工耳蜗产品的语音处理器又 有了新的发展: n u c l e u sc o c h l e a 研制了两种语音处理器:体配式s p i n t ,耳背式( b t e ) e s p r i t 以及最新的e s p r i t3 g 。采用独特的n u c l e u s2 4c o n t o u r 电极。 c l a r i o n 从c l a r i o n1 0 发展到1 2 版本,变化包括采用更小的语音处理器,对带通 滤波器的改进和采用c l a r i o ns 系列电极。 m e d e l 从c o m b i4 0 发展到c o m b i4 0 + ,耳背式语音处理器t e m p o + ,采用间隔 油画设计的电极。 使用这三种系统的患者的平均表现在过去的十年里有了显著的提高。不论使用何 种装置,现在效果最好的耳蜗植入者,只靠听声就能获得8 0 以上的开放式单词识别 能力。 如下是三个通过美国f d a 和欧洲c e 标准的电子耳蜗生产商所研究的语音信号 处理的发展过程:在2 0 世纪8 0 年代,电子耳蜗研究小组提出m p e a k 策略。与此同 时,一种用于多导电子耳蜗的信号处理方法a 算法,在美国犹他州s y r n b i o n 公 司生产的i n e r a i d 电子耳蜗系统中首先使用。进而演变成s a s 方案,该方案增加了数 模转换过程。在1 9 9 1 年,t r i a n g l e 研究院的科研人员提出c i s 算法,此方案是目前 最常被采用的波形信号处理方法之一。1 9 9 8 年澳大利亚n u c l e u s 2 4 产品采用了a c e 算法,此方案在以后的临床试验中达到了比较好的效果。在这个时期中,世界上有很 2 基于听觉特性的电子耳蜗语音增强的研究 第一章绪论 多研究小组也提出了自己的电子耳蜗产品和电子耳蜗语音信号处理方案:m p s 算法、 h a p 算法、no fm 算法等。这些算法都在一定程度上提高了信号的频域和时域分辨 率,从而使得电子耳蜗使用者在干净语音和噪声环境下的语音感知都获得了提高。 最新的电子耳蜗语音处理算法包括n u c l c u s 2 4 中使用的a d v a n c e dc o m b i n a t i o n e n c o d e r ( a c e ) 以及c l a r i o n 系列电子耳蜗中使用的h i r e s o l u t i o n ( h i r e s ) 处理算法。a c e 算法混合了s p e a k 算法的高频率分辨率和c i s 算法的高电脉冲刺激速率:它将输入 信号带通滤波器分成最多2 2 个频段( 每个频段对应于一个植入电极) ,根据信号频谱 峰值选取最终刺激的电极,而电脉冲刺激速率最高可以达到每秒1 4 ,4 0 0 个脉冲( 所 有刺激电极总和) 。h i r e s 算法继承和发展了c i s 算法的优点,表现为频谱信号的细 节表达( 16 个分析频段,从2 5 0 h z 到8 0 0 0 h z ) ,各频段时域包络的优化提取( 可获得高 达2 8 0 0 h z 的时域包络) ,以及更高的电脉冲刺激速率( 可达到每秒5 1 0 0 个脉冲) 。这 些算法都在一定程度上提高了信号的频域和时域分辨率,从而使得电子耳蜗使用者在 干净语音和噪声环境下的语音感知都获得了提高。 我国在人工电子耳蜗语音信号处理方案的研究起步比较晚,都是引入国外电子耳 蜗处理方案的同时进行自行研究。1 9 9 9 年,清华大学聂开宝等人的研究小组提出了 以小波变换替代电子耳蜗连续交替取样( c o n t i n u o u si n t e r l e a v e ds a m p l i n g ,c i s ) 的语音 信号处理方案的滤波器组,克服以往滤波器组参数调整复杂问题和实现电子耳蜗语音 处理的快速数字化计算。2 0 0 5 年,聂开宝等人的研究小组提出了一种改进的电子耳 蜗语音信号处理策略,它将电子耳蜗连续交替取样波形策略和特征提取策略相结合, 既克服了c i s 信号处理方案合成语音个性特征不明显的缺点,又消除了单独特征提取 策略抗噪能力差的缺陷。2 0 0 6 年,聂开宝等人的研究小组又提出了在c i s 方案中, 时域信息特别是包络随时间的变化轨迹对汉语声调识别有重要作用。 而语音增强能抑制背景噪声、提高语音质量,不失为解决噪声污染的一种有效手 段。在近三十年的研究中,各种语音增强方法不断被提出,它奠定了语音增强理论的 基础并使之逐渐走向成熟。近些年来,随着v l s i 技术的发展和高速d s p 芯片的出现, 使语音增强的实时实现成为可能。语音增强方法逐步走向实用。目前一些语音增强研 究方向可以归纳为以下几个方向:基于l m s 自适应滤波的噪声抵消技术、基于短时 谱估计的增强方法、基于语音生成模型的增强方法、基于信号子空间分解的增强算法。 基于听觉特性的电了耳蜗语音增强的研究第一章绪论 但在电子耳蜗语音增强方面,国内外所做的研究还并不是很多,也不是很成熟,采用 的是较为传统的谱减法。 1 3 电子耳蜗语音增强的难点 虽然目前世界上已经有成型的电子耳蜗产品进入实用阶段,但是在噪声环境下病 人听到的声音信号质量是比较差的。电子耳蜗使用者要完全自由的进行语言交流,还 有一段很长的路要走,还存在多方面的问题。这些具体困难表现在: l 、由于电子耳蜗诱发的听觉与正常人的听觉存在着一定的差异,因此它传导的 声音信号必然有很大的损失。 2 、由于每个患者所能承受的最大通道数目,也就是“有效通道数 ,是不同的, 因此要根据病人的听觉中枢的功能状态、残存神经元的数量和部位综合考虑决定电子 耳蜗装置的电极和有效的刺激器的数量。 3 、噪声环境下电子耳蜗内语音增强进展困难。电子耳蜗这种技术在安静环境下 已取得比较好的效果,但由于噪声的多变性及其特性各异从带噪语音信号中提取完 全纯净的语音是不可能的,因此,在噪声环境下电子耳蜗使用者获得的语音信息量会 明显下降。 4 、目前关于电子耳蜗的研究不是很多,而关于电子耳蜗中的语音增强则更少, 基本采用的是较为成熟的谱减法来减少电子耳蜗使用者受到的噪声影响 1 2 - 1 4 1 ,在提 高电子耳蜗语音质量的同时损伤了可懂度,且产生了讨厌的“音乐噪声 。 5 、由于入耳的频率分辨率是非线性的,人类听觉系统对声音频率的感知与实际 频率的对应关系,是一种非线性的映射关系。如何使电子耳蜗语音信号处理器的刺激 频带符合人耳的听觉特性,将提高整个系统的语音识别率。 1 4 本文研究的工作 从以上讨论可知,语音信号处理方案是电子耳蜗系统的核心,提高噪声环境下电 子耳蜗使用者的清晰度和可懂度是电子耳蜗内语音增强的难点和重点。因此本文就通 过与入耳听觉系统更为适合的b a r k 子波变换来实现电子耳蜗c i s 方案的基础上,根 4 基于听觉特性的电子耳蜗语音增强的研究 第一章绪论 据人耳的听觉感知来提高电子耳蜗语音信号处理器的性能,并实现语音增强。本文的 结构如下: 第一章系统的介绍了电子耳蜗产生的背景、国内外的发展现状以及研究的目的和 意义;解释电子耳蜗系统的工作原理和电子耳蜗中实现语音增强的难点;提出了本文 的研究方向并简要介绍了本文的结构。 第二章阐述了电子耳蜗语音处理器的理论基础:从耳蜗的结构及其作用引出了电 子耳蜗系统,介绍了电子耳蜗语音信号处理方案。介绍了电子耳蜗语音信号的基本特 征共振峰和基音周期。 第三章概述了电子耳蜗语音增强的理论及其方法。从语音信号产生的数学模型出 发,介绍了语音特性和噪声特性,讨论了电子耳蜗语音增强的一般方法:谱减法、自 适应算法。 第四章介绍了听觉感知特性的相关知识。包括听觉感知特性和听觉掩蔽效应,阐 述了噪声掩蔽阈值的设定。 第五章主要讨论基于听觉特性的电子耳蜗语音增强。详细介绍了基于听觉特性的 c i s 语音信号处理方案。利用基于听觉特性的b a r k 子波变换实现电子耳蜗中的语音 处理,重点阐述了基于人耳掩蔽效应的电子耳蜗语音增强。 第六章在计算机上对基于听觉特性的电子耳蜗语音增强算法进行软件仿真并给 出实验结果。 第七章对所做的工作进行了总结及其对进一步工作的展望。 墉于听觉特性的i u 了耳蜗语占增强的研究第二争f 也了耳蜗罾i l r 处删器的理论堆础 第二章电子耳蜗语音处理器的理论基础 2 1 电子耳蜗机理 2 1 1 电子蜗的结构及其在听觉中的作用【1 l j 5 q7 】 耳蜗足内耳的t 要构成部分,语音信号就是在耳蜗内进行分析和编码的,它足听 觉系统中最关键的器官。耳蜗因形似蜗牛壳而得名,人耳的耳蜗长约3 5 c m ,最宽处 约为o 3 2 c m ,里螺旋状盘饶2 5 2 7 5 圈,它是一根密闭的管子,内部充满了淋巴液。 图2 1 画出了一个耳蜗螺旋展丌的示意图。 图2 1 耳蜗螺旋展开的示意图 由图可知,耳蜗由j 个分割的部分组成,靠近耳蜗外轮廓的部分称为鼓阶( s c a l a t y m p a n i c ) ,而沿耳蜗内轮廓的部分称为i ,j 庭阶( s c a l av e s t i b u l e ) ,这两个部分在耳蜗的 顶端即蜗4 l ( h e l i c o r e m a ) 处是棚通的,处在这两个部分之| 、日j 的是中阶( s c a l a m e d i a ) ,义 称耳蜗管( c o c h l e ad u c t ) 。前庭阶l j 中阶之白j 由前庭膜( r e i s s n e r 膜) 分隔,而中阶的底 膜称为基膜( b a s i l a rm e m b r a n e ) 。图2 2 为耳蜗的截面图。 人的听觉系统有两个重要特性,一个是耳蜗射声音信号的时频分析特性:另一个 足人耳听觉掩蔽效应。当声音经外耳传入中耳时,引起耳蜗内流体压强的变化,从而 引起行波( t r a v e l i n gw a v e ) 沿基底膜的传播。不同的频率的声音产生不同的行波,而峰 值m 现在基底膜的1 :同的1 | l i ,:置卜。频率较低时,基底膜振动的幅度峰值l 叶j 现侄基底膜 的顶部附近;椭反,频率较高时,基底膜振动的幅度峰度现在基底膜的基f 邻附近( ,占 基于听觉特性的电子耳蜗语音增强的研究第二章电子耳蜗语音处理器的理论基础 图2 - 2 耳蜗的截面图 近镫骨) ,这就是耳蜗的时频分析特性,如图2 3 所示。如果信号是一个多频率信号, 则产生的行波将沿着基底膜在不同的位置产生最大的幅度。从这个意义上讲,耳蜗就 象一个频谱分析仪,将复杂的信号分解成各种频率分量。 图2 3 基底膜的频率响应分布 基底膜的振动引起毛细胞的运动,使得毛细胞上的绒毛发生弯曲。绒毛的弯曲使 毛细胞产生去极化( d e p o l a r i z a t i o n ) 或超极化( h y p e r p o l a r i z a t i o n ) ,从而引起神经的发放或 抑制。在基底膜不同部位的毛细胞具有不同的电学与力学特征。在耳蜗的基部,基底 膜窄而劲度强,外毛细胞及其绒毛短而有劲度;在耳蜗的顶部,基底膜宽而柔和,毛 细胞及其绒毛也较长而柔和。正是由于这种结构上的差异,因此它们具有不同的机械 谐振特性和电谐振特性。 7 基于听觉特性的电了耳蜗语音增强的研究 第二章电子耳蜗语音处理器的理论基础 2 1 2 电子耳蜗系统 人工电子耳蜗系统可以分为体外和体内两部分。体外部分主要进行语言信号的采 集、处理、编码和发送,主要包括麦克风、语音处理器、编码发射器、发射线圈等。 植入体内的部分为接收线圈、接收解码器、刺激器和电极阵列 1 8 - 2 1 1 。人工电子耳蜗 的系统结构见图2 - 4 。 田一囡一园一o 旬一园一国一国 麦克风 体外都分 i 线圈i : 线圈2 体内部分 图2 4 电子耳蜗的系统结构 语音信号处理器将麦克风检测到的声音信号进行特征提取或滤波等处理,产生不 同电极的电刺激信号,编码发射器将这些信号编码、调制为高频信号,通过发射线圈 将信号以无线方式发送至体内。体内的接受线圈接受到信号后,接收解码器进行解调、 解码后还原出刺激信号,然后控制一个刺激电流生成器,产生相应电极的电刺激信号, 并通过植入鼓阶内的电极阵列兴奋听神经。 2 2 电子耳蜗语音信号处理方案 基于上节的原理介绍可知语音处理器是电子耳蜗的核心,它对提取语音信号中用 于激励耳蜗内电极的电刺激信号有着至关重要的作用,信号的好坏直接影响着电子耳 蜗系统的性能。目前在电子耳蜗中采用的语音处理方案主要分为三大类:基于特征提 取的方案1 2 2 1 ,基于滤波器组的方案 2 3 - 2 5 和基于滤波器组和特征提取相结合的方案 【2 6 1 。而本文所作的研究是在电子耳蜗c i s 方案的基础上实现语音增强的,所以下面 将详细介绍该方案。 19 9 1 年,美国学者w ils o n 提出了电子耳蜗的连续交替取样( c o n t i n u o u si n t e r l e a v e d 8 基于听觉特性的电子耳蜗语音增强的研究第二章电子耳蜗语音处理器的理论基础 s a m p l i n g ,c i s ) 方案2 3 2 7 _ 2 引,它使用非同时、交替脉冲来避免各通道间的相互影响。 c i s 语音信号处理方案是电子耳蜗目前采用的波形信号处理方法之一,它的原理框图 如图2 5 所示。语音信号在预加重后经6 8 个带通滤波器,每通道经过全波整流,低 通滤波可得到各通道的包络信号,再用对数或平方律压缩到适当的动态范围。各电极 的刺激脉冲由一组时间上交替的双相脉冲序列调制对应的包络信号获得。 广回囤回专囤9 ,;卜固囤回囤p 奄如 啼l 预加重卜 u u l ; ; ; ; k 回 圄啼 品习匝国p 电援i l j i i l l _ 一 图2 5c i s 语音信号处理方案示意图 在c i s 语音信号处理方案_ 【2 9 - 3 0 1 中,可对某些参数进行调节,以优化每一个电子 耳蜗植入者的语音识别性能,这些可调参数包括:脉冲速率;刺激顺序;压缩 函数。如何设计电刺激时的参数对能否获得最佳效果是非常关键的,因此,在电子耳 蜗植入后的适应期内需要根据患者的具体情况调整参数。图2 5 中的带通滤波器可以 用数字或者模拟器来实现,为了便于刺激参数的调整,目前的电子耳蜗系统基本都是 基于数字信号处理系统的数字滤波器来实现,以适应不同耳蜗植入者的个体差异。 2 3 电子耳蜗语音信号的基本特征 共振峰和基音周期是电子耳蜗语音信号的基本特征,提取这两个特征对于更好的 分析电子耳蜗中的语音有着重要的作用。 9 基于听觉特性的电子耳蜗语音增强的研究 第二章电子耳蜗语音处理器的理论基础 2 3 1 共振峰 声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣的作用。当准周期 脉冲激励进入声道时会引起共振特性。产生一组共振频率,称为共振峰频率或简称共 振峰。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源, 而且电子耳蜗使用者在语音感知中也利用了共振峰信息。所以共振峰是语音信号处理 中非常重要的特征参数,尤其对于电子耳蜗更是如此。根据语音信号合成的研究表明, 表示浊音信号最主要的是前三个共振峰,一个语音信号的共振峰模型,用前三个时变 共振峰频率就可以得到可懂度很好的合成浊音。因此,语音信号共振峰的分析在电子 耳蜗语音信号合成中起着重要作用。 2 - 3 2 基音周期 人在发浊音时,气流通过声门产生一股准周期脉冲气流,这一气流激励声道就产 生浊音,它携带着语音中的大部分能量。基音是指发浊音时声带振动的周期性,而基 音周期是指声带振动频率的倒数。由于基音周期只具有准周期性,所以只能采用短时 平均方法估计该周期,这个过程也常称基音检测( p i t c hd e t e c t i o n ) 。 基音周期是语音信号最重要的参数之一,提取该参数是语音信号处理中一个十分 重要的问题,尤其是对汉语更是如此。因为汉语是一种有声调的语音,基音的变化模 式称为声调,声调携带着对辨别语意有非常重要作用的信息,所以提取基音周期对电 子耳蜗使用者同样很重要。根据加窗的短时语音帧来估计基音周期,在语音编解码、 语音识别、说话人确认和辨认,对生理缺陷人的辅助系统等许多领域都是重要的一环。 2 4 本章小结 本章介绍了电子耳蜗语音处理器的相关理论,包括耳蜗的结构和作用、电子耳蜗 系统,分析了电子耳蜗语音信号的处理方案,也介绍了电子耳蜗语音信号的基本特征: 共振峰和基音周期。为后续章节中所采用的技术奠定了理论依据。 1 0 基于听觉特性的电子耳蜗语音增强的研究第三章电了耳蜗语音增强的基本原理 第三章电子耳蜗语音增强的基本原理 基了勒l4一数 圈留一。- 7 。啬斗圜罟 囡p 基于听觉特性的电了耳蜗语音增强的研究第三章电子耳蜗语音增强的基本原理 g ( 加f 导 ( 3 - 3 ) 其中口是一个常数。所以整个浊音激励模型可以表示为: ) = a v g 酢) = 南,f 导 ( 3 - 4 ) 在清音情况下,激励信号是由随机噪声发生器经过幅度调整以后得到的。所以清 音的激励模型可以直接表示为: u ( z ) = a , ( 3 - 5 ) 2 声道模型 声道模型v ( z ) 给出了离散时域的声道传输函数,最常见的是声管模型。它是把实 际声道作为一个截面声管加以研究,采用流体力学的方法进行推导而来的。通常, v ( z ) 可以表示为: y ( z ) :( 3 - 6 ) l 一口。z 。1 其中n 是极点个数,g 是幅值因子,瓯是常系数,成为这个全极点滤波器的节数。n 值取得越大模型的传输函数与声道实际传输函数的吻合程度越高。但对大多数实际应 用而言,n 值取8 一1 2 就足够了。 3 辐射模型 辐射模型r ( z ) 和嘴型有关,它可以用一阶差分方程近似描述: r ( z ) = r o ( 1 一z 。1 )( 3 7 ) 在这个模型中,除了g ( z ) 和r ( z ) 保持不变以外,激励源参数和声道模型中的参数都是 随时间变化的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数, 在1 0 3 0 m s 的时间间隔内,可以认为他们保持不变。对于激励源参数,大部分情况下 这一结论也是正确的。 1 2 基于听觉特件的电予耳蜗语爵增强的研究第三章电子耳蜗语音增强的堆本原理 3 2 语音特性和噪声特性 3 2 1 语音特性 语音是一时变的、非平稳的随机过程,但由于一段时间r 勾( 1 0 3 0 m s ) 的声带和声 道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。 在语音分析中可利用短时谱的这种平稳性。 语音可分为清音和浊音两大类。浊音在时域上呈现出明显的周期;在频域上有共 振峰结构,而且能量大部分集中在较低频段内。而清音没有明显的时域和频域特征, 类似白噪声。在语音增强中,可以利用浊音的周期特征,采用梳状滤波器提取语音分 量或者抑制非语音信号,而清音则难以与宽带噪声区分。 语音信号可以用统计分析特性来描述。由于语音是非平稳、非遍历的随机过程, 所以长时间的时域统计特性在语音增强中意义不大。语音的短时谱幅度的统计特性是 时变的,只有当分析帧长趋于无穷大时,才能近似认为其具有高斯分布。高斯分布模 型是根据中心极限定理得到的。将高斯模型应用于有限帧长只是种近似的描述。在 宽带噪声污染的语音增强中,可将这种假设作为分析的前提。 3 2 2 噪声特性【1 5 】 要很好的实现对语音的增强,需要了解噪声的一些特性。下面就简单介绍一下噪 声的特性。 噪声来源于实际的应用环境,因而其特性变化很大。噪声可以是加性的,也可以 是非加性的( 非加性噪声往往可以通过某种变换,如同态滤波,转为加性噪声) 。加 性噪声通常分为冲激噪声、周期性噪声、宽带噪声、语音干扰噪声等。非加性噪声主 要是残响及传送网络的电路噪声等。 冲激噪声:表现为时域波形中突然出现的窄脉冲,它通常是放电的结果。消除这 种噪声可以在时域内进行,即根据带噪语音信号幅度的平均值确定阈值。当信号幅度 超出这一阂值时,判别为冲激噪声,再对其进行衰减甚至完全消除。如果干扰脉冲之 间不太靠近,还可以根据信号相邻样本数值简单地通过内插法将其从时间函数中去 掉。 基于听觉特性的电子耳蜗语音增强的研究 第三章电子耳蜗语音增强的基本原理 周期性噪声:最常见的有发动机、风扇之类周期运转的机械所发出的周期性噪声, 5 0 或6 0 h z 交流声也是周期噪声。在频谱图上它们表现为离散的窄谱,通常可以采用 陷波器方法予以滤除。 宽带噪声:通常可以假定为高斯噪声和白噪声。它的来源很多,包括风、呼吸噪 声和一般随机噪声源。量化噪声通常作为白噪声来处理,也可以视为宽带噪声。 语音干扰:干扰语音信号和待传语音信号同时在一个信道中传输所造成的干扰称 为语音干扰。区别有用语音和干扰语音的基本方法是利用他们的基音差别。考虑到一 般情况下两种语音的基音不同,也不成整数倍,这样可以用梳状滤波器提取基音和各 次谐波,再恢复出有用语音信号。 传输噪声:这是传输系统的电路噪声。与背景噪声不同,它在时间域里是语音和 噪声的卷积。处理这种噪声可以采用同态处理的方法,把非加性噪声变换为加性噪声 来处理。 由于宽带噪声与语音在时域和频域上完全重叠,因而消除它最为困难。本文的算 法就是着力消除宽带噪声而进行的。 3 3 电子耳蜗语音增强的预处理 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在8 0 0 h z 以上按6 d b 倍频程跌落,即6 d b o c t ( 2 倍频) 或2 0 d b d e c ( 1 0 倍频) ,所以求语音信号频 谱时,频率越高相应的成份越小,高频部分的频谱比低频部分的难求,为此要在预处 理中进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持 在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数 分析。预加重可在语音信号数字化时在反混叠滤波器之前,这样不仅可以进行预加重, 而且可以在压缩信号的动态范围,有效地提高信噪比。但预加重一般是在语音信号数 字化之后,在参数分析之前在计算机里用具有6 d b 倍频程的提升高频特性的预加重 数字滤波器来实现,它一般是一阶的数字滤波器: 日( z ) = 卜胆叫( 3 8 ) 式中值接近于1 。预加重后的语音信号还能有效滤除低频干扰,尤其是5 0 h z 的工 1 4 基于听觉特性的电子耳蜗语音增强的研究第三章电子耳蜗语音增强的基本原理 频干扰,同时还能达到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。当 语音信号在分析处理之后需要语音合成的时候,还需要进行去加重处理以恢复原来的 语音信号。 3 4 电子耳蜗语音增强的算法概述 3 4 1 基本谱减法 谱减法【3 4 1 ( s s :s p e c t r a ls u b t r a c t i o n ) 是在假定加性噪声与短时平稳的语音信号 相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语 音频谱。 根据加性噪声模型,含噪语音信号一般可以写成: 少( 姐) = s ( n ) + d ( 以)( 3 9 ) 式中,s ( 行) 为纯净语音信号,d ( n ) 为加性噪声,且假设s ( n ) 和d ( n ) 两者不相关。 在电子耳蜗中实现语音增强的算法主要是根据美国学者w i l s o n 在1 9 9 1 年提出的 电子耳蜗的连续交替取样c i s 方案。把上述模型写成如下形式: y 女( 朋,刀) = j ( 脚,刀) + d ( 肌,刀)( 3 1 0 ) m = 1 , 2 ,3 ,;以= 0 ,i ,n l ;k = 1 , 2 ,3 k 式中,m 为帧号,n 为帧长,k 为通道数。对( 3 一l o ) 进行傅立叶变换得: 匕( 明,f ) = s 女( 坍,f ) + d k ( m ,f )( 3 - 1 1 ) 式中,i 是离散频率,k ( m ,吼s 。( m ,f ) 和q ( m ,f ) 分别是每通道中含噪语音、纯净语音 和噪声的傅立叶变换系数。由于假定语音信号与加性噪声是相互独立的,因此有: s 。( 朋,f ) 1 2 = k ( 聊,f ) 1 2 一id k ( m ,f ) f 2( 3 1 2 ) 谱减法语音增强技术的基本原理图如图3 2 所示。 图3 2 中频域处理过程中只考虑了功率谱的变换,而最后i f f t 变换中需要借助 相位谱来恢复降噪后的语音时域信号。w a n 9 1 3 5 证明人耳对相位变化不敏感,e p h r a i m 1 5 基于听觉特性的电子耳蜗语音增强的研究 第三章电了耳蜗语音增强的基本原理 y 和m a l a hd 证明 3 6 1 在一定条件下语音相位的最小均方误差( m m s e ) 估计值就是 y 0 ) = s ( 刀) + d ( 帕 图3 2 谱减法语音增强技术的基本原理 d 丘,j ) 一 带噪语音相位本身。因此,基于s t s a 估计的语音增强方法一般都直接采用带噪语音 的相位作为增强语音的相位。这时可用原带噪语音信号j ,( ,) 的相位谱来代替估计之后 的语音信号的相位谱来恢复降噪后的语音时域信号。于是根据式( 3 1 2 ) 中的频谱分量 的幅度就可以得到电子耳蜗的合成语音。 基本谱减法处理带噪语音有明显的效果,但也造成了容易察觉的损伤和失真。最 重要的听觉上的失真是产生了被称为“音乐噪声的类似金属机械的撞击摩擦噪声。 这些噪声随机分布在整个频域中,有些是窄的尖脉冲,这些窄的尖脉冲反应到时域中 成为有节奏性起伏的类似音乐声的残留噪声,而这些残留噪声不能用再次的频谱减法 进行处理。因为噪声随机性导致的失真是频谱减法的必然结果,所以只能设法减轻“音 乐噪声对听觉造成的不舒适感。 3 4 2 改进的谱减法 为改进基本谱减法的缺点,在实际的增强过程中,使用的是功率谱相减的改进公 f 。( w ) f = i y w ( w ) l 口一f 禽( w ) 厂】口= ( 3 - 1 3 ) 这种改进形式如公式(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考作文影像与记录的试题与答案
- 学习VB前的准备工作及试题与答案
- 旅馆业可持续发展战略与绿色旅馆建设考核试卷
- 运载火箭发动机测试技术考核试卷
- 2025年VB考试常见问题解答试题及答案
- 网络内容管理的法律现状与挑战试题及答案
- 2025天然气管道工程安装合同范本
- 行政法学基本概念与发展历程试题及答案
- 行政法学中的刑事责任试题与答案
- 小麦仓储与配套设施项目可行性分析报告
- GA/T 832-2014道路交通安全违法行为图像取证技术规范
- 博士生招生面试评分表
- SWOT分析法很全面课件
- 膀胱造瘘的护理课件
- 基坑工程施工验收记录表
- 消防应急疏散演练人员签到表(标准通用版)
- 微生物实验室病原微生物评估报告
- 陕旅版五年级英语上册句型词汇知识点总结
- 汉字构字的基本原理和识字教学模式分析
- RouterOS介绍
- 十字轴锻造成型工艺及模具设计毕业论文
评论
0/150
提交评论