




已阅读5页,还剩59页未读, 继续免费阅读
(信号与信息处理专业论文)麦克风阵列语音增强系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工大学硕士学侥论文 摘要 在视频会议、电话会议、多媒体系统等许多系统中,语音的传输和接收经常受到环 境噪声的干扰,从而影响语音的质量甚至影响系统的正常工作。因此需要利用语音增强 技术来提高语音的质量。 一般按照所使用的麦克风的数目,可以将语音增强技术分为单麦克风语音增强和麦 克风阵列语音增强。目前,单麦克风语音增强的技术已经比较成熟,在实际中得到了广 泛的应用,但其增强过程对音质损伤较大。然而,随着信号处理技术的发展,人们已经 不再满足于现有的单麦克语音增强所得语音的质量,自从二十世纪九十年代以来,麦克 风阵列的语音增强技术开始得到越来越多的重视。 由于使用多个麦克风,麦克风阵列采集的信息要多于单个麦克;另外,麦克风阵列 在对时间采样的同时,还增加了空间采样,因此可以利用麦克风阵列的空间选择性改善 语音增强的效果效果。 然而,语音增强效果的提高是以数据量的增加为代价的,数据量的增大必然导致对 硬件处理能力要求的提高,因此为保证系统的实时性,就必须采用精简的算法,并且对 硬件资源进行合理的安排。 本论文的主要工作是设计一个硬件系统,实现1 6 个通道的音频信号的实时采集、 增强处理以及处理结果的输出。主要内容如下: 1 介绍了麦克风阵列语音增强相关的一些基本概念,包括声场模型,阵列模型以 及延迟求和波束形成算法的简单介绍。 2 给出了麦克风阵列语音增强系统的一种硬件设计方案。并初步分析了其实现的 可行性。 3 按照语音信号采集、转换、处理和输出的顺序,详细讨论了系统内部各个模块 的特点、设置以及在应用中所发挥的作用。 4 结合a d s p b f 5 3 3 的特点,简单介绍了系统上电加载的引导过程。 关键词:麦克风阵列;语音增强;a d s p b f 5 3 3 ;a d 7 3 3 6 0 ;硬件实现 麦克风阵列语音增强系统的设计与实现 t h e d e s i g na n di m p l e m e n t a t i o no fm i c r o p h o n ea r r a ya u d i o e n h a n c e m e n ts y s t e m a b s t r a c t i nv i d e oc o n f e r e n c e ,c o n f e r e n c ec a l l ,m u l t i m e d i as y s t e ma n dm a n yo t h e r s y s t e m , t r a n s m i s s i o no fs p e e c hs i g n a la l w a y sd i s t u r b e db yt h en o i s ew h i c hd e g r a d et h eq u a l i t yo ft h e s i g n a l s o ,a u d i oe n h a n c e m e n tt e c h n i q u ei sn e e d e dt oi m p r o v et h eq u a l i t yo ft h es p e e c h s i g n a l a u d i oe n h a n c e m e n t t e c h n i q u ec o u l db ed i v i d e di n t ot w ot y p e st h a ti ss i n g l em i c r o p h o n e a n dm i c r o p h o n ea r r a ys p e e c he n h a n c e m e n tt e c h n i q u e c u r r e n t l y , s i n g l em i c r o p h o n es p e e c h e n h a n c e m e n tt e c h n i q u eh a sb e e nd e v e l o p e dv e r yw e l l h o w e v e rw i t l lt h ed e v e l o p m e n to f d s p t e c h n i q u e ,p e o p l en ol o n g e rs a t i s f i e dw i t ht h ee f f e c to fi t s i n c et h e1 9 9 0 s ,m i c r o p h o n ea r r a y s p e e c he n h a n c e m e n tt e c h n i q u eh a sb e e na t t a c h e dm o r ea n dm o r ei m p o r t a n c e m i c r o p h o n ea r r a yc o l l e c tm o r ei n f o r m a t i o nd u e t oi t s m u l t i p l em i c r o p h o n e sf o r i n f o c o l l e c t i o n a n df u r t h e rm o r e , m i c r o p h o n ea r r a yn o to n l ys a m p l e si nt h et e m p o r a ld o m a i n b u ta l s os a m p l e si n s p a t i a ld o m a i n t h r o u g hu s i n gt h es p a t i a ls e l e c t i n gc h a r a c t e r i s t i co f m i c r o p h o n ea r r a y , t h ee f f e c to f s p e e c he n h a n c e m e n ti sm u c hm o r ed i s t i n c t t h ei m p r o v e m e n to ft h ep e r f o r m a n c ei so nt h ee x p e n s eo fm o r ei n f o r m a t i o n l a r g e r a m o u n to fd a t am u s ti n d u c eh i 【g h e rd e m a n do fh a r d w a r e sp r o c e s s i n ga b i l i t y f o rr e a lt i m e d a t ap r o c e s s i n g ,as i m p l i f i e dm e t h o dm u s tb eu s e d ,a n dr a t i o n a la r r a n g e m e n to ft h eh a r d w a r e i sr e q u i r e d t h et h e s i sm a i n l yd e a lw i t ht h ep r o c e s so fd e s i g nah a r d w a r es y s t e m t h em a i nt a s kc a l l b ed i v i d e di n t ot h ef o l l o w i n ga s p e c t s 1 s o m eb a s i cp r i n c i p l er e l a t e dw i m m i c r o p h o n ea r r a ya u d i oe n h a n c e m e n ta r ei n t r o d u c e d 2 t h es c h e m eo fh a r d w a r ed e s i g nf o rt h em i c r o p h o n ea r r a ya u d i oe n h a n c e m e n ts y s t e m i sg i v e no u tw i t ht h ea n a l y s i so f i t sf e a s i b i l i t y 3 a c c o r d i n gt ot h es e q u e n c eo fs a m p l i n g , c o n v e r s i o n ,p r o c e s s i n ga n do u t p u t ,d i f f e r e n t m o d u l e so f t h es y s t e ma r ei n t r o d u c e di nd e t a i l 4 a s s o c i a t e dw i t ht h ec h a r a c t e r i s t i co fa d s p b f 5 3 3 ,t h eb o o tp r o c e s so ft h es y s t e mi s t a l k e da b o u t k e yw o r d s :m i c r o p h o n ea r r a y ;s p e e c he n h a n c e m e n t ;a d s p b f 5 3 3 ;a d 7 3 3 6 0 ;h a r d w a r e i m p l e m e n t a t i o n 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 作者签名:盔谗肇日期:丝! 罕,2 ,f 大连理工大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用 规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子 版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论 支。 作者签名 导师签名 蹲圳 糊年由必 大连理工大学硕十学位论文 第一章绪论 1 1应用背景 在众多和语音信号相关的场合中,例如:电话会议、远程视频会议、大型会议室、 舞台、语音聊天以及用于语音通信的手机等消费类电子产品,所使用的音频信号的拾取 工具通常是麦克风。由于麦克风可以拾取音频范围内的任何声音信号,包括噪声。因此 麦克风拾取的音频信号通常由环境噪声和一个或多个声音源信号构成。 通常人们只对其中携带了信息的语音信号感兴趣,因此麦克风拾取的带噪语音信号 需要进行语音增强处理。 由于说话人在讲话的同时可能又是运动的,以及室内语音的多径反射和混响等因 素,使得麦克风接收到的信号的信噪比有所降低,从而导致语音质量的恶化。因此语音 增强处理的方法需要对混响等不利因素有一定的抑制作用。 传统的单麦克风语音增强通常采用在频域进行功率谱抵消和滤波等方法来抑制噪 声。然而,这些接收到的语音信号和噪声信号在频谱上通常相互重叠,因此,要将语音 从带噪语音中分离出来并有效地抑制噪声和干扰是很困难的。 麦克风阵列则能够弥补单麦克风的上述缺陷。所谓麦克风阵列就是若干在空间按一 定的拓扑结构分布的麦克风。除了能够提供信号的时域和频域信息,麦克风阵列还能够 提供信号的空间域信息,对所接收的来自空间不同方向上的信号进行空时处理,从而提 高语音通信的质量。通过一定的算法,还能使麦克风阵列具有去噪、声源定位和跟踪等 单麦克风语音信号处理无法完成的功能。 1 2 麦克风阵列语音增强的所要解决的问题 麦克风阵列语音增强通常采用这样一个假设,即在一个固定的空间中说话人的位置 可能随时都在变化,而麦克风阵列相对于房间则是固定不动的。在这样的前提下麦克风 拾取的信号大致由三个部分组成:直达麦克的语音信号、经一次或多次反射到达麦克的 语音信号以及噪声信号。麦克风阵列语音增强所要解决的基本问题就是在最大程度上抑 制噪声以及抗拒由多次反射造成的混晌。 在实际应用中,麦克风阵列语音增强所面临的主要问题如下: 1 阵列多用于窄带信号,而语音是宽带信号,因此将阵信号处理应用于语音增强 时对于不同的频段增强的效果是不同的。尽管人们已经提出阵列波束形成等算法,增强 效果也有了很大改善,但仍然没有从根本上解决这个问题。 麦克风阵列语音增强系统的设计与实现 2 由于混响的存在,语音增强的性能在混响较大时总是不尽如人意,时延估计也 不可能很精确。并且随着混响时间的增加,语音增强系统的性能会变差。因此抗混响对 于麦克风阵列语音增强来说一直都是一个值得关注的问题。 3 噪声源可能是非平稳的,并且可能和语音信号具有相同的频谱特性和来波方向。 在来波方向相同的情况下波束形成将失去作用。如果信噪比又比较低则对系统的要求将 进一步提高。 4 在实际应用中,由于两个麦克风不可能完全一样,因此不同的麦克风接收到信 号的幅度和相位会有差异。 1 3 麦克风阵列语音增强的发展和研究现状 阵列信号处理最早是应用在雷达信号处理中,而麦克风阵列的发展则是在阵列信号 处理技术早已广泛应用于雷达、声纳、医学、航天等诸多领域之后。从二十世纪八十年 代起,已经陆续有许多国家开始了对麦克风阵列广泛的研究。九十年代以来,基于麦克 风阵列的语音处理算法一度成为一个新的研究热点,并在不同程度上取得了一定的成 果。 归纳起来基于麦克风阵列的语音增强大致可以分为以下几种: 1 传统的波束形成 传统波束形成也叫固定波束形成。其中最简单的就是延迟求和波束形成。除此而外 还有嵌套阵列滤波波束形成等。由于实际环境中的噪声场多为散射噪声场,各路麦克风 低频相干,而传统的波束形成在低频段效果又比较差,因此使用传统波束形成进行语音 增强效果不是很理想。 2 自适应波束形成 自适应波束形成的滤波器系数随输入信号的统计特性变化而做相应的改变。通过调 整滤波器系数使得阵列的零陷指向干扰噪声的方向,从而提高了阵列对环境变化的适应 能力。这种方法通常对相干噪声场中噪声源数目小于麦克风数目时比较有效。常用的方 法有f r o s t 方法1 1 1 和g s c 方法。后来基于g s c ,人们又提出许多改进算法 2 - q 。这类方 法对于相干噪声场效果较好,而对于弱相干或者散射噪声场,其性能并不比延迟求和波 束形成效果更好。相对于固定波束形成,自适应波束形成方法的优点是需要的麦克风的 个数比较少。 3 信号子空间算法【5 1 大连理1 :大学硕士学位论文 信号子空间方法是将数据矩阵或相关矩阵的空间分为信号子空自j 和噪声子空白j ,去 除噪声子空间后,用信号子空间去估计纯净语音。 4 与单麦克语音增强技术相融合的方法【6 7 】 谱减法和语音参数模型的方法是传统的单麦克语音增强方法,目前已经有人将其与 麦克风阵列技术相结合,从而实现语音增强。除此而外,包括小波变换、神经网络、盲 源分离等许多在单麦克语音增强中获得应用的新技术也可以考虑用于麦克风阵列语音 增强。 1 4 衡量麦克风阵列语音增强系统的性能指标 通常衡量一个语音增强系统的性能指最标常用的有两种,即信噪比和可懂度。对于 麦克风阵列语音增强系统还要包括波束形成图。 信噪比:衡量语音增强系统抑制噪声的能力。该参数越大,表明去除噪声的性 能也就越强。 _ 可懂度:从听觉和客观的角度评价语音增强系统的失真程度。常用的方法有对 数面积比( l a r ) 等。 波束形成图:从理论的角度比较系统的指向性能,其主瓣指向语音信号的方向, 零陷指向噪声的方向。 1 5 作者的主要工作 本论文的主要工作是设计软件、硬件系统,实现1 6 个通道音频信号的实时采集、 处理以及处理结果的输出。经过查阅资料、方案论证、建立软硬件系统架构、确定d s p 开发平台、实现系统引导、底层软件框架的构建、顶层数据处理算法研究、应用程序开 发以及电路的实际调试等等诸多过程。主要工作如下: 1 学习麦克风阵列语音增强的一些基本概念,同时对这个领域的 发展现状做了一些了解,从而建立起对麦克风阵列语音增强一些软件算法的基本认识。 2 初步的硬件系统架构方案,并通过市场调研,综合考虑芯 片的性能和价格,确定了硬件系统的主要器件 3 在此基础上完成了系统的整体架构和细节设计,在p r o t e ld x p 中完成了原理图 的绘制和p c bl a y o u t ,并对图纸的布局布线方案进行了多次审查。 4 完成电路板上部分元件的焊接及部分电路的功能调试。 火连理1 :大学硕士学位论文 第二章麦克风阵列语音增强的基础知识 2 1前期反射波和混响 进行声音信号拾取的时候,在房问内的传播的声波有些是直接到达传感器的,称为 直达波。有些碰到墙壁或其它障碍物经一次或多次反射才到达传感器,称为反射波,按 照反射波到达传感器的时问的不同,又可将反射波分为前期反射波和混响。以直达波到 达传感器后的第5 0 m s 为界限,在第5 0 m s 之前到达传感器的称为静期反射波,对声音 起增强作用;在第5 0 m s 之后到达传感器的称为混响,如果混响的时问较长,会影响声 音的清晰度。 2 2 声场模型 2 2 1 噪声场的分类 在麦克风阵列的应用中,常用的噪声场是根据不同麦克风噪声的相干程度来分类 的。设两个信号分别为( n ) 和x z ( n ) ,其互相功率谱和功率谱分别为g l :( 国) 、g l ,( 缈) 、 g 2 2 ( c o ) ,则一( n ) 乘l x 2 ( n ) 的相干函数为 嘣咖蒜 ( 2 1 ) 显然相干函数r 1 2 ( 珊) 满足o - i t , 2 ( ) r - 1 。 根据n :( 缈) l 的取值范围,可以把噪声场分成相干噪声场、非相干噪声场和散射噪 声场f 8 i 。 相干噪声场 i r l :( 国) 1 2z1 时,表示不同麦克风的噪声是强相关的,噪声信号直达各个麦克风 而没有被周围的障碍物反射、散射。这种噪声场称为相干噪声场。 非相干噪声场 i r l :( m h 2 “0 时,表示各个麦克风的噪声之间是不相干的,这种噪声场称为非相 干噪声场。各个麦克风的电子噪声通常是随机的,可以认为是非相干噪声。 散射噪声场 0 5 0 c2 ( h i g h _ e n t h rh i g h _ e n ) ( h m i d _ e n f l h rh m i d _ e n ) 大连理工大学硕十学位论文 d = ( z c r = z c r _ m i n ) & & ( z c r = - t h r _ s p c c _ f l + 1 5 f 2 c r z c r m a x 则联合判决的过程如下: 图3 6v a d 判决过程 f i g 3 6t h ep r o c e s so f v a dd e c i s i o n 该方法在频域将语音信号分成四个子带,并计算出每个频带的能量和频带方 差。对应地在每个频带中都有一个自适应更新的能量和频带方差的阈值。通过将各 个频带的能量和方差与对应的阈值比较,即可得出初步的判决结果。 ( 3 ) 时延估计 为了兼顾数据处理的实时性和语音增强的有效性,经过权衡,本实现中的时延估 计模块采用的是基于瞬时互相关函数的基本互相关方法。基本原理如下: 在理想声场模型条件下,记第i 路麦克风接收到的信号为 ( f ) = a f s ( t t ) + n f ( f ) 则,两路信号之间的互相关可以表示为 ( 3 6 ) 麦克风阵4 语音增强系统的设计与实现 r f ( f ) = e 【工,o ) x o + f ) 】= r 廿( f d v ) + 兄( 彳一d o ) + 兄埘,( f ) 十r 唧( f ) ( 3 8 ) ;乓e pd 为i ,两路麦克风之间的延迟,也就是时延估计的对象。 由理想声场模型的假设条件得 r 4 讧、= r 。q d 。| ) 由自相关函数的性质,f = d u 时b ( f ) 达到最大值 因此可以用色( f ) 最大时的f 值;来估计i ,两路麦克风之间的时延d f 。 另外,定义瞬时相干函数为: 【f ) 2 丽r 丽o ( r ) 其中 r i i ( o ) = ( o ) = ( o ) + ( o ) 于是将3 9 带入3 。1 0 ,并令f = d 。得到: ( 3 9 ) ( 3 i o ) :上( 3 1 1 ) l + 上 、。 册 因此,两个麦克风接收到的信号的瞬时相干函数可以反映出信号的信噪比的大 小,瞬时相干函数越接近1 ,信噪比越大:瞬时相干函数越接近o ,信噪比越小。 由如上所述原理,实现中对于时延估计采用了如下的时延估计步骤: 计算瞬时相干函数 将瞬时相干函数的值与门限值相比较 如果大于门限,则认为信噪比比较大,时延估计值置信度比较高,所以对本 帧进行时延估计,并用本帧的时延估计值代替上一帧的时延估计;如果小于 门限,则认为信噪比不够大,时延估计值的置信度不够高,所以跳过本帧时 延估计的步骤,并用沿用上一帧的时延估计值作为本帧的时延估计。 f 4 ) 广义耪瓣消除算法 广义旁瓣消除算法( g e n e r a l i z e ds i d e l o b e sc a n c e l l e r g s c ) 的算法结构如图3 7 大连理 :大学硕士学位论文 图3 7 广义旁瓣消除结构 f i g 3 7s t r u c t u r eo f g e n e r a l i z e ds i d e - l o b e sc a n c e l l e r 由图可见,g s c 主要可以分为上下两个通道。上通道包括一个固定波束形成和 约束滤波器,下通道包括一个阻塞矩阵和一个自适应滤波器组。g s c 的主要思想是 利用阻塞矩阵产生个与上通道统计相关的噪声信号,然后利用l m s 算法去逼近上 通道的噪声,进而从带噪信号中提取语音抑制噪声。 算法原理分析 记延迟补偿后的信号为x ( n ) = 【一( ) ( 月) 】7 ,上通道的固定波束形成采 用延迟求和波束形成,婢是加权系数向量,并且满足约束矿l = 1 ,则约束f i r 滤 波器的输入 j o ( 以) = 工( n ) ( 3 1 2 ) 约束f i r 滤波器的系数是预先算好的,设滤波器系数为f ( k ) ,k = o ,l ,n 一1 。 则约束滤波器的输出 型 ) ,( n ) = 厂( 七) 儿0 一七) ( 3 1 3 ) k - - o 下通道信号首先要通过一个阻塞矩阵,主要起到剔除信号中的语音提取噪声的 作用。要求阻塞矩阵口满足约束b 1 = o ,即b 的每一行的所有元素之和为0 。经 过阻塞矩阵处理后的信号为 n s ( n ) = b x ( n )( 3 1 3 ) 麦克风阵列语音增强系统的设计与实现 其中n s ( n ) 是与上通道信号的噪声分量统计相关的噪声信号向量。设自适应滤 波器n ,i = 1 ,m - 1 的阶数为并记矩阵【( 栉) ,n s ( n + 1 ) ,n s ( n + n - 1 ) 的第i 行为胍 则自适应滤波器的输出 圯( h ) :m 乞- 1 4 一加) t 丽丽 ( 3 1 4 ) 采用l m s 算法,则由 v i 【办( ) 一n a n ) 22 2 【j ,( ”) 一n a n ) n s ,( n ) = - 2 y ( n ) n s f ( n ) ( 3 1 5 ) 得: 仃f ( n ) = a i ( n 1 ) + r e ( n ) n s 。( n ) ( 3 1 6 ) 于是g s c 的输出为 y ( n ) 2 y j ( ) 一m ( n ) 2 y j ( n ) 一m - i 口胁) ,( n ) ( 3 1 7 )一一r 一 算法的实现 在算法的具体实现中,为简化计算,采用了一些简化的手段。 对于延迟求和的加权系数向量眈,采用了最简单的加权平均向量,即: t1 国c _ 玄,玄】 ( 3 1 8 ) 为保证系统的实时性,将自适应滤波器的阶数n 定为1 6 。 另外,由于时延估计的结果很难做到完全准确,以致于阻塞矩阵无法将语音 信号完全从带噪语音信号中剔除,因此,在具体的算法中采用了在非语音段 更新自适应滤波器系数的方案,而语音段的处理则是沿用前面相邻的噪声段 的自适应滤波器系数。 3 3 算法相关的参数分析 经过粗略统计算法的计算量知道,算法的复杂度为: 0 ( 帧长路数自适应滤波器阶数) 因此,对实际系统软件所采用的参数作出如下分析: 大连理工大学硕士学位论文 采样率 软件的时延估计算法是利用离散的数字信号来估计时延的,采样率越高,相 邻两个样点对应的时延也就越短,因此时延估计的精度也就越高。由此可见在 没有其他条件限制的情况下,采样率越高越好。 一般语音信号的频率范围是3 0 0 3 4 0 0 h z ,因此只要8 k h z 采样率就够,为 了提高精度,采样率可以远远大于这个值,例如6 4 k h z ,但采样率升高带来的 最直接影响就是单位时间那需要处理的数据量的加大,6 4 k h z 采样需要处理器 的处理能力达到很高的要求( 例如,帧长为2 5 6 点时,1 帧1 6 通道的处理时间 就是1 2 5 6 秒,对于一个8 m c y c l e s ( 帧1 6 通道) 的语音增强算法( 帧长2 5 6 ,路 数为1 6 路,1 6 阶f i r 自适应滤波的条件下) 则要求处理器的处理能力为 2 0 4 8 m e y c l e s s ,如果按照最好的情况,即处理器执行的全部都是单周期指令算 的话,那么处理器的处理能力就得达到2 0 4 8 m i p s ,这个数字是很客观的) ,因 此在实际中采样率不能无限制地增大。本实现中折衷选择了3 2 k s p s 的采样率。 帧长 采样率为3 2 k s p s 的条件下,如果帧长为2 5 6 点帧,则每一帧1 6 通道的处 理时间就是i 1 2 8 秒( 大约8 m s ) ,对于一个8 m c y c l e s ( 帧1 6 通道) 的语音增 强算法( 帧长2 5 6 ,路数为1 6 路,1 6 阶f i r 自适应滤波的条件下) 要求处理器的 处理能力为1 0 2 4 m c y c l c s ,这仍然是难以接受的,因此取帧长为1 2 8 点帧,对 处理器处理能力的要求为5 1 2 m i i p s 。 - 麦克风的数目 麦克风数目的选择是比较灵活的,可以根据实际情况灵活使用采得的数据, 因此在硬件系统中将麦克风数目定为1 6 ,而实际使用的是其中8 路的数据,这 样对处理器处理能力的要求将变为2 5 6 m i p s ,这是容易达到的。将来如果算法 复杂度能够改进则可以进一步增加使用的数据通道的数目。 一自适应滤波器的阶数 在实际软件算法的实现中,考虑到系统的实时性,对自适应滤波器的阶数做 了适当的削减,即每个通道采用一个1 6 阶自适应f i r 滤波器。 大连理工大学硕十学位论文 第四章硬件系统设计方案 4 1硬件系统的整体架构 图4 1 硬件系统图 f i g 4 1 ag r a p ho f t h eh a r d w a r es y s t e m 语音增强系统的整体架构如图4 1 所示: 一麦克风阵列 整个系统的最自口端是由1 6 个麦克均匀排列组成的直径约3 0 c m 的圆形阵列,该麦克 风阵列负责拾取1 6 路语音信号并将其转化为1 6 路微弱的模拟电信号,传给后级处理系 统。麦克风采用直径约l e n a 的全指向驻极体话筒,并加2 v 的直流偏压,使m o s f e t 工作在0 7 m a 左右。 前置放大 由麦克风阵列拾取得到的语音信号差分峰值电压约为2 m v 左右,不能直接进行a d 转换( 否则转换的精度会很差) , 还需要在a d 的前端对1 6 路模拟信号进行预放大。考 虑到采用的是单电源供电,为了避免在前端放大时引入噪声,两级放大的模拟信号预放 大方案被否决,最终选择了p a n a s o n i c 的一款收录机时代的芯片a n 7 3 1 2 进行单级放大。 虽然是d i p 封装,但性能很好,音频范围内闭环放大倍数可以达到6 0 d b 以上。美中不 足的是供电电压为6 v ,需要单独的稳压电源模块。略微增加了设计方案的复杂度。 一a d 转换 根据所要拾取的音频信号的频率范围( 3 0 0 h z 3 4 0 0 h z ) ,采样率至少为8 k h z 。考 虑到要利用语音信号进行时延估计。因此空间相邻的两个采样点对应的实际距离越短, 麦克风阵列语音增强系统的设计与实现 估计的精度越高,定位也就越准,从而语音增强效果也就越好。但是由于共有1 6 路数 据,基数比较大,采样率过高( 如6 4 k s p s ) 有可能使得处理器的负担过重,因此,最后折 衷采用了3 2 k s p s 的采样率方案。a d 7 3 3 6 0 最高采样率为6 4 k s p s ,量化深度1 6 b i t , 2 7 v 0 5 5 v 单电源供电,适用于需要多路同时采样的应用,a d 7 3 3 6 0 最高可以8 片级联, 每片6 路a d ,片间采样完全同步。因此最高可以支持高达4 8 路同步采样的应用,不 需要再考虑各路a d 的同步问题。 d s p ( 数字信号处理器) 根据对算法复杂度的初步估计,在3 2 k s p s 采样率下如果每个语音帧长5 1 2s a m p l e s , 则每帧1 5 6 2 5 m s ,1 6 路信号每路需要1 1 0 2 4s ,每帧约4 0 0 k 条指令,因此处理器的处 理能力要在4 0 0 m i p s 以上。 满足要求的芯片这里考虑到大致三种t i 的c 5 4 系列,a d i 的b l a c k f i n 系列,以及 a r m 9 系列芯片。从开发过程的难易程度考虑,从m a t l a b 代码到c 代码的移植相对 从m a t l a b 直接到汇编的移植要更容易,另外c 代码也更容易维护和调试。因此需要 软件开发平台对c 支持得很好。相比之下c 5 4 所使用的c c s 版本以及a d s l 2 比起a d i 的v i s u a ld s p + + 4 5 要逊色许多( 当然6 0 0 0 系列使用的c c s 2 1 版本相比以酊c 5 4 的开 发平台版本有了很大改进) 。 另外,在a d 转换的环节上,对于本题目的应用来讲,无论是从多路采样同步的角 度,还是从采样率的角度,抑或从量化深度的角度来看,a d 7 3 3 6 0 可以说是最佳的选择。 而a d 7 3 3 6 0 将采得的得数据通过一个公用的串行数据通道( s p o r t 口) 传出。作为与 a d 7 3 3 6 0 出自同一家公司的d s p 芯片,b l a c k f i n 系列d s p 可以实现与a d 7 3 3 6 0 的无缝 连接。二者有完全兼容的s p o r t 口,通过简单的设置便可以实现a d 转换数据及控制 字的传输。 从性价比的角度来看,如果量产,a d s p b f 5 3 3 的市价是4 0 r m b p c s ,最高处理能 力可以达到6 0 0 m i p s ,而c 5 4 系列以及a r m 9 系列的价格均不低于此价格,而且处理 能力也没有超过6 0 0 m i p s 因此a d s p b f 5 3 3 的性价比更优越。 从片内存储器的容量来看,a d s p b f 5 3 3 的片内存储容量约为8 0 k b y t e ( f o r i n s t r u c t i o n ) + 3 2 k b y t e ( f o r d a u 0 ,对于已有的算法,改成汇编代码后基本上是可以容纳的。 综上所述,最终d s p 选择a d i 的a d s p b f 5 3 3 作为核心处理器件。 大连理| 丁大学硕十学位论文 f l a s h a m 2 9 l v 8 0 0 d 是a m d 的一款5 1 2 k x1 6 b i t 的f l a s h ,3 0 v 供电电压,7 0 n s 仿存时 间,低功耗,4 8 p i nt s o p 封装。遵从j e d e c 单电源f l a s h 标准。使用标准的指令序 列,内嵌的算法自动写入和修改指定地址或指定段的数据【l6 1 。 s d r a m 为了便于将来程序功能的扩展,这里扩充了3 2 k b y t e s 的存储空白j ,采用的是 m i c r o n 的m t 4 8 l c l 6 m 1 6 ,3 3 v 供电电源、5 4 脚t s o p 封装【l ”。 d a 转换 相对与a d 转换器,d a 转换器的要求没有那么多,也不是很苛刻,但从兼容性的 角度出发,选择了a d i 的a d 7 3 3 1 l ,它是a d 公司的一款声码器,包含一个单通道a d 转换器和一个单通道d a 转换器。数据通过s p o r t 口写入。有两个模拟差分端子负责 输出,这里只采用了其中的一个。 电源 由于前置放大部分的a n 7 3 1 2 要求至少6 v 的电源电压,因此选择了9 v 3 a 的直流 开关电源( 通过计算得到各个模块需要的电流折合在一起约为2 a 左右) 。对于前置放大 部分采用l m 7 8 0 6 的稳压输出为其供电,9 v 电源经必要的保护和旁路后作为l m 7 8 0 6 的输入,l m 7 8 0 6 输出6 v 稳定电压供给a n 7 3 1 2 。同时用三个二极管串联将9 v 拉低到 7 v ,作为a d p 3 3 3 9 a k c3 3a d p 3 3 3 8 a k c3 3a d p 3 3 3 9 a k c5 等三个稳压块的输入。 从产生出模拟3 3 v ,数字3 3 v ,模拟5 v ,等不同电压等级的直流电压。另外,按照 a d s p b f 5 3 3 数据手册的说明,对于d s p 芯片的动态电源管理部分配置了相应的外围电 路,并用一个独立的a d p 3 3 3 9 a k c3 3 为其供电。 4 2 系统的逻辑设计 4 2 1 a d 7 3 3 6 0 的时钟 a d 7 3 3 6 0 以3 2 k s p s 的采样率,对1 6 路模拟输入信号进行采样,并将其转化为 1 6 b i t s a m p l e 的数据。这样1 6 路数据通过一个串行通道进行传输,数据率至少为8 m b p s , 而根据a d 7 3 3 6 0 的数据手册的要求采样率和串行时钟的数据率需要满足如下关系: 上6x(devicecount-1)x16)+17 ( 41 ) i s c l k j? 其中是z 是采样频率,s c l k 是串行时钟速率,d e v i c ec o u n t 是级联设备的个数, 由采样速率3 2 k s p s ,级联的设备数为3 ( 每片6 个通道,共三片1 8 个通道,留下两个通 麦克风阵列语音增强系统的设计与实现 道不用) ,由此得到s c l k 2 9 4 f = 9 4 0 8 m h z 所以选择s c l k = 1 6 3 8 4 m h z ,而s c l k 是由a d 7 3 3 6 0 的系统主时钟d m c l k 分频得到,而d m c l k 又由a d 7 3 3 6 0 的时钟输入 引脚m c l k 的输入时钟分频得到( m c l k 由一个3 2 7 6 8 m h z 的外部有源晶振提供) 。所 以最终采用m c l k = 3 2 7 6 8 m h z d m c l k = 1 2 m c l k = 1 6 3 8 4 m h z 的方案。 4 2 2 数据的转换和传输 为了统一a d 7 3 3 6 0 的发送和接收帧同步信号,a d 7 3 3 6 0 与a d s p b f 5 3 3 采用了手 册上提供的四种连接方式之一的“直接耦合帧同步反馈”的连接方式( 如图5 1 1 ( a ) ) 使 用相同的帧同步信号来同步接收和发送。a d 7 3 3 6 0 有6 个通道,每个通道的电源管理都 是独立的,而根据a d 7 3 3 6 0 的手册的规定,在级联的模式下,如果一个芯片的某个通 道是p o w e ru p 的,那么其他芯片的对应通道也应该是p o w e ru p 的。由于只采用3 片x 6 通道中的1 6 个通道,因此剩下的两个通道也应该处于p o w e r u p 状念,只是将其模拟 输入置为0 。 六个通道全部p o w e r u 口时的时序如图4 2 : 如哩一一 几 一一一 l l 董画萸匦d 迤垂* 亟刁苣叵* 巫e 卜一 ! 眦皿1 雄地抛皿3 艇h m 缸终眦5 挺h m 缸6 卜一 图4 2 六个通道全部p o w e rl i p 时的时序 f i g 4 2t i m m i n go fs d ow i t ha l ls i xc h a n n e l sp o w e r e du p 对于d s p ,其帧同步信号既可以作为输出( 内部帧同步) 也可以作为输入( 外部帧同 步) 。这里由于a d 7 3 3 6 0 的帧同步信号采用由外部晶振分频得到的信号,而没有采用 d s p 的帧同步信号,因此d s p 的帧同步信号可以作为输入来用,即采用外部帧同步的 工作方式。同样发送和接收时钟也使用外部模式,即a d 7 3 3 6 0 的串行时钟通过对外部 晶振分频得到,然后a d 7 3 3 6 0 的串行时钟作为d s p 的s p o r t 口串行时钟的输入。 a d 7 3 3 6 0 控制寄存器的初始化配置需要写入一系列的控制字,这可以采用d m a 的方式,将预先存储在某块内存区域中的控制字序列写入a d 7 3 3 6 0 的控制寄存器组。 大连理1 :大学硕士学位论文 a d 7 3 3 6 0 采得的数据是通过串行数据线传入d s p 的s p o r t 口的,如果可以让每 个通道的数据在d s p 的内存中占据一段连续的存储空间,就方便了各个通道数据的访 问。这可以通过b l a c k f i n 的二维d m a 功能实现,而用于存储1 6 个通道数据的数据结构 就可以简单地用一个二维数组来实现。二维d m a 的具体实现和配置后面的章节中会有 详细的介绍。 为了使输出语音是连续的而不产生间断的效果,必须在处理数据的同时读入数据, 这是通过d m a 来实现的,并且要求数据处理的速度要比数据读入的速度要快。然而, 还有两个问题。 第一:如果d m a 读入数据和数据的处理同时进行,这有可能造成d m a 和处理器 访问同一存储单元,从而产生冲突。 第二:如果采用循环结构进行语音帧的处理,由于程序处理的速度要比d m a 读入 数据的速度快,必然造成数据不能够及时得到更新,重复地被处理,从而造成混乱。因 此,需要使用一个条件变量,用该条件变量的值表示数据更新是否完成,并在一帧处理 结束后不断地测试该条件变量,等待数据更新地完成。如果不采用循环结构,就需要一 种机制来通知信号处理程序,数据更新已经完成,并将系统地控制权交给信号处理程序, 触发信号处理程序的执行。 对于第一个问题,最终确定采用双缓冲的办法来解决,即所谓的乒乓b u f f e r 结构, 在d m a 向一个缓存中读入数据的同时,处理器处理的另外一个缓存中已经读入的数据, 处理器处理完数据之后,等待d m a 读入数据结束。这样处理器和d m a 彼此之间访问 的数据块不会冲突。可以同时进行。 而对于第二个问题,由于a d s p b f 5 3 3 提供了强大的中断功能,并且它所提供的 d m a 描述符机制使得可以利用一个关于描述符的循环链表来绕过重复设置d m a 的操 作,让d m a 有了一定程度上的灵活性,因此最终方案放弃了采用循环忙等待测试条件 变量的办法。改用了中断触发的方法,将语音帧处理程序作为中断服务程序,由d m a 中断来告知系统缓存中数据更新已经完成,可以进行下一帧的处理。而帧处理程序作为 中断服务程序,每当一个d m a 中断到来都会启动从而处理更新后缓存中的数据。并且 由于帧处理的速度要高于d m a 读取数据的速度,因此语音帧的处理能够保证在下一个 d m a 中断到来之前完成数据处理任务。 在d a 转换时也存在和上面类似的问题,并且d a 转换后得到的模拟信号经滤波后 是直接输出的,因此相邻帧之间必须紧密衔接,既不能相互重叠,也不能在帧间形成人 为的间隔。否则将背离语音增强的最终目标。 麦克风阵列语音增强系统的设计与实现 对于处理器和d m a 访问存储区域冲突的问题,和a d 转换的环节一样也是采用双 缓冲的方式来解决,利用两个缓冲区,处理器向其中一个写数据时,d m a 控制器同时 从另一个已经被处理器更新过的缓冲区中读取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离异父母子女抚养费用及生活费用支付协议
- 离婚协议彩礼退还与房产分割执行范本
- 车辆抵押贷款业务业务流程优化与风险控制服务合同
- 短途接送服务合同范本含司机专业操作标准
- 离婚协议中包含子女学业资助与成长保障
- 装修合同签订前合同主体资格审核要点
- 离婚协议中虚拟货币分割与风险控制协议样本
- 人物花瓶黏土课件
- 辽沈战役精简课件
- 个人有关事项培训
- PFEP培训资料 -让物料流动起来-为每个零件制定计划和创建一个物流系统
- 基因工程(含有动画)课件
- 公路养护知识培训-讲义课件
- 《高级财务管理(第三版)》配套教学课件
- 道亨铁塔长短腿基础配置系统-操作说明
- QGDW 11162-2014-变电站监控系统图形界面规范
- 平均站间距计算方法
- 信息技术ppt课件完整版
- 一氧化碳中毒急救PPT课件(PPT 43页)
- 复旦大学大学物理热学课件Heat-Ch1-partI
- (完整版)高中物理光学知识点总结
评论
0/150
提交评论