(信号与信息处理专业论文)基于心理声学模型的avs音频水印算法研究.pdf_第1页
(信号与信息处理专业论文)基于心理声学模型的avs音频水印算法研究.pdf_第2页
(信号与信息处理专业论文)基于心理声学模型的avs音频水印算法研究.pdf_第3页
(信号与信息处理专业论文)基于心理声学模型的avs音频水印算法研究.pdf_第4页
(信号与信息处理专业论文)基于心理声学模型的avs音频水印算法研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(信号与信息处理专业论文)基于心理声学模型的avs音频水印算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 a v s 音频标准是a v s ( a u d i oa n dv i d e oc o d i n gs t a n d a r d ) 整个标准体系的第 三部分,主要用于高密度数字存储媒体;联网宽带音频业务;多媒体邮件;数字 音视频广播等业务中。 论文的主要工作分为以下三个部分:首先,在m p e g 音频标准推荐的两种心 理声学模型算法的基础上,在计算频点数、比例因子带以及暂稳态处理方法等方 面进行修正后,将该心理声学模型应用到a v s 音频编码器中,利用心理声学模 型的结果进行感知比特分配,进而提升了音频编码质量。其次,在建立心理声学 模型的基础上,提出了一种基于心理声学模型的数字音频水印算法,将水印隐藏 到不被人耳感知的音频中,并且在解码端可以较好的恢复。对含有水印信息的音 频信号进行了各种攻击测试,实验结果表明,基于心理声学模型的新算法嵌入的 水印具有较好的鲁棒性和不可感知性。最后,讨论了a v s 音频符合性测试中测 试点设计和测试码流生成工作,使得对a v s 音频编码的研究更加充分和完整。 关键词:a v s 音频编码心理声学模型掩蔽曲线数字音频水印 a b s t r a c t a v sa u d i oi st h et h i r dp a r to ft h ew h o l ea v ss y s t e mw h i c hi ss h o r tf o rt h ea u d i o a n dv i d e oc o d i n gs t a n d a r d a v sa u d i om a i n l ys e r v i c e si nt h eh i g hd e n s i t yd i g i t a l s t o r a g e m e d i a , i n t e r n e ts t r e a mm e d i a , m u l t i m e d i ae m a i la n d d i g i t a lm e d i a b r o a d c a s t i n g t h em a i nw o r ko ft h i sp a p e rc a nb cd i v i d e di n t ot h r e ep a r t s f i r s t l y , b a s e do nt h e t w ok i n d so fp s y c h o a c o u s t i cm o d e l sw h i c hw e r er e c o m m e n d e di nm p e gs t a n d a r d , t h i sp a p e rd i ds e v e r a ln e c e s s a r ym o d i f i c a t i o n sw h i c hi n c l u d et h en u m b e ro f f r e q u e n c y c o e f f i c i e n c t , t h en u m b e ro fs c a l ef a c t o ra n dt h em e t h o do fd e a l i n gw i t ht r a n s i e n t s i g n a l ,a p p l y i n gt h em o d i f i e dp s y c h o a c o u s t i cm o d e li n t oa v sa u d i oe n c o d e r t h e o u t p u to ft h ep s y c h o a c o u s t i cm o d e lw a su s e dt od i r e c tt h ep e c p e t u a lb i ta l l o c a t i o ns o t h a tt h ea u d i oe n c o d i n gq u a l i t yi se n h a n c e d s e c o n d l y , b a s e do nt h ee s t a b l i s h m e n to f p s y c h o a c o u s t i cm o d e l ,t h i sp a p e ra l s os t u d i e dt h ec u r r e n ta l g o r i t h m so fe m b e d d i n g a n da b s t r a c t i n gw a t e r m a r ka n dp r o p o s e dan o v e la l g o r i t h mw h i c hw a sb a s e do nt h e p s y c h o a c o u s t i cm o d e l ,s ot h a tt h ew a t e r m a r kc o u l db ch i d d e ni nt h ea u d i od o c u m e n t w i t h o u tp e r c e p t i o n m e a n w h i l e ,t h ew a t e r m a r kc o u l db er e c o n s t r u c t e da f t e rd e c o d i n g i na d d i t i o n , s e v e r a l a t t a c k i n gt e s t si n c l u d i n ga d d i n gn o i s c ,l o wp a s sf i l t e r i n g , r e s a m p l i n gw e r et a k e no u ta n dt h ee x p e r i m e n tr e s u l t ss h o w e dt h a tt h en o v e la l g o r i t h m h a dg o o dp e r f o r m a n c e si nr o b u s t n e s sa n d n o n - p e r c e p t i o n f i n a l l y , t h et e s tp o i n t sa n d t h em e t h o do fp r o d u c i n gt e s tb i t s t r e a mi nt h ec o n v e r g e n tt e s to fa v sa u d i ow e r e g i v e n o u ta n dd i s c u s s e df o rt h ea l la r o u n ds t u d yo ft h ea v sa u d i o k e yw o r d s :a v sa u d i oc o d i n g ,p s y c h o a c o u s t i cm o d e l ,m a s k i n gc u r v e ,d i g i t a l a u d i ow a t e r m a r k i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得墨鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:爱舌敦 签字日期:罗 年月日 学位论文版权使用授权书 本学位论文作者完全了解鑫鲞盘堂有关保留、使用学位论文的规定。 特授权叁盗盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字日期:阳节年 第一章绪论 1 1 音频压缩编码技术 第一章绪论 对音频压缩技术的研究和应用由来已久,而早期的工作主要是对语音信号进 行压缩编码,最早的工作始于1 9 3 9 年d u d l e y 发明的声码器,但是一直到2 0 世 纪7 0 年代中期,除了脉冲编码调制( p u l s ec o d i n gm o d u l a t i o n ,p c m ) 和自适应 差分脉冲编码调制( a d a p t i v ep u l s ec o d i n gm o d u l a t i o n ,a p c m ) 取得较好的进展 之外,中低码率的语音编码一直没有大的突破。1 9 7 4 年1 2 月,线性预测编码 ( l i n e a r p r e d i c t i v e c o d i n g ,l p c ) 声码器首次用于分组语音通信实验,数码率为 3 5 k b p s 。1 9 7 5 年1 月又首次在美国实现了使用l p c 声码器的分组语音电话会议。 1 9 7 7 年i n t e m e t 工程任务组( i n t e m e te n g i n e e r i n gt a s kf o r c e ,i e i f ) 颁发了关于 分组话音通信协议的讨论文件r f c 7 4 1 。到了2 0 世纪8 0 年代,研究主要集中在 局域网上的语音通信,1 9 8 0 年美国政府公布了一种2 4 k b p s 的线性预测编码标准 算法l p c 1 0 ,这使得在普通电话带宽信道中传输数字电话成为可能。1 9 8 8 年美 国又公布了一个4 8 k b p s 的码本激励线性预测编码( c o d ee x c i t e dl i n e a rp r e d i c t i v e c o d i n g ,c e l p ) 语音编码标准算法【l 】。 到了2 0 世纪9 0 年代,随着i n t e m e t 在全球范围内的兴起,多媒体技术得以 迅猛的发展,音频编码技术的研究得以真正的展开,各种标准也相继的出台。1 9 8 8 年,国际标准化组织( i n t e m a t i o n a lo r g a n i z a t i o nf o rs t a n d a r d i z a t i o n ,i s o ) 下属的 运动图像专家组( m o v i n gp i c t u r e se x p e r tg r o u p ,m p e g ) 开始着手制定m p e g 音频标准,1 9 9 2 年推出了m p e g l 标准。m p e g 音频采用多相正交镜像滤波器 ( p o l yp h a s eq u a d r a t u r em i r r o rf i l t e r ,p q m f ) ,将音频信号分解到3 2 个等宽的 子带中,然后根据心理声学模型对各个子带信号进行动态比特分配。m p e g l 标 准规定了三种采样频率:3 2 k h z 、4 4 1 k h z 和4 8 k h z ,对音频压缩规定了三种模 式,即层l ,层2 ( m a s k i n gp a t t e r na d a p t e du n i v e r s a ls u b b a n di n t e g r a t e dc o d i n ga n d m u l t i p l e x i n g ,m u s i c a m ) 和层3 ( 即m p 3 ) 。由于在制定标准时对许多压缩技 术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性( 复杂度) , 因而三种模式都得到了广泛的应用。v c d 中采用的音频压缩方案就是m p e g 层 1 ;而m u s i c a m 由于其适当的复杂程度和优秀的声音质量,在数字演播室、数 字音频广播( d i g i t a la u d i ob r o a d c a s t i n g ,d a b ) 、数字视频广播( d i g i t a lv i d e o b r o a d c a s t i n g ,d v b ) 等数字节目的制作、交换、存储、传输中得到广泛应用; 第一章绪论 m p 3 的复杂度相对较高,不利于实时编码,但由于m p 3 的算法提供了更高效 的编码,可以在给定码率下得到更高质量的编码表示,使得它广泛应用在网络音 频交换中。 1 9 9 4 年1 1 月颁发的m p e g 2 标准在与m p e g l 兼容的基础上,实现了低采样 率和多声道的扩展。为了能应用于带宽受限的低采样率场合,m p e g 2 标准增加 了三种较低的采样频率:1 6 k h z 、2 2 0 5 k h z 和2 4 k h z 。为了能应用于高保真的多 声道场合,从m p e g l 的两个声道扩展到五个声道,以及可供低音喇叭选择的一 个低频增强声道。除此之外,在多语种应用时,可有多达七个语言声道。m p e g l 的传输速率为每声道3 2 k b p s 4 4 8 k b p s ,而m p e g 2 音频的传输码率为每声道 8 k b p s - 6 4 k b p s 。 1 9 9 8 年推出的m p e g 4 标准将迄今为止相互分离的高质量音频编码、语音编 码、计算机音乐等领域合并在一起,采用三种类型的算法对不同码率和不同种类 的音频信号编码:包括m p e g 2a a c 工具在内的时频编码,用于码率在4 k b p s 6 4 k b p s 之间的中等或高质量音频信号;基于c e l p 的混合编码,用于码率在 4 k b p s - - 2 4 k b p s 之间的窄带或宽带语音信号;用于极低码率( 2 k b p s 一- 4 k b p s 之间) 的参数编码。另外,为了满足各种不同应用领域的需要,m p e g 4 音频标准要求 编码器提供多种功能,主要有编码器复杂度可分级、解码器复杂度可分级、码率 可分级和带宽可分级性掣2 1 。 随着技术的不断进步和生活水平的不断提高,原有的立体声形式已经不能满 足用户欣赏节目的要求,因此具有更强定位能力和空间效果的三维声音技术得到 了蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术,其技术 体现在人耳对声场逼真度以及音乐的保真程度上。环绕声技术发展至今已经相当 成熟,并逐渐成为未来声音形式的主流。有鉴于此,1 9 9 2 年国际无线电咨询委 员会( c o n s u l t a t i v ec o m m i t t e eo f i n t e r n a t i o n a lr a d i o ,c c 瓜) 以建议的形式约定了 多声道声音系统的结构及向下兼容变换的标准,即c c i rr e c o m m e n d a t i o n7 7 5 。 其中主要约定了5 1 声道形式以及7 1 声道形式,而在对环绕声压缩的研究上也 产生了许多专利技术,如d o l b ys u r r o u n dp r o - l o g i c 、t h x 、d o l b y a c 3 、d t s 等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,以及高清晰度电 视等系统中得到广泛的应用【3 】【4 】。 1 2 我国音视频编码标准a v s 简介和发展概况 我国长期以来没有自主知识产权的数字音频技术标准,数字音视频产业的发 展受到国外巨额专利费的制约,尽快建立拥有自主知识产权的技术标准已刻不容 2 第一章绪论 缓。国家信息产业部科学技术司于2 0 0 2 年6 月批准成立数字音视频编解码技术 标准工作组( 简称a v s 工作组) 。a v s 标准是“信息技术先进音视频编码”( a u d i o a n dv i d e oc o d i n gs t a n d a r dw o r k g r o u po f c h i n a ) 系列标准的简称,包括系统、视频、 音频、数字版权管理四个主要技术标准和符合性测试等支撑标准,这是基于我国 创新技术和公开技术制定的开放标准,旨在联合国内企业和科研机构,为数字音 视频设备与系统提供高效、经济的编解码技术,服务于高分辨率数字广播、高密 度激光数字存储媒体、无线宽带多媒体通信、数字电视等重大信息产业应用,从 而打破国外企业在音视频编码方面的垄断地位,避免我国信息产业发展受到诸如 d v d 专利之类制约等问题再次发生【5 】。 目前,a v s 工作组已经召开了2 8 次全体会议以及若干次加会和封闭测试,会 员单位已经超过1 6 0 家【6 】,其中包括了知名的高等院校、研究所以及企业和公司。 a v s 视频标准已与2 0 0 6 年成为国家标准,现阶段a v s 音频( 第三部分) 也已经 报批国家标准,正处于公示期,成为国标指日可待。同时a v s 移动语音频( 第 十部分) 也将配合3 g 的出台。针对安防监控领域的应用而制定的a v s s ( a 、,s s u v i l l i a n c e ) 音频标准也已经形成工作组草案( c o m m i t t e ed r a f t ,c d ) 。 2 0 0 8 年底,a v s 工作组申报了被称为信息技术新型多媒体编码的第二 代a v s 国家标准的立项计划( 简称a v s 2 ) ,并启动了更高效率的高清、超高清、 三维视频的标准制定工作。在a v s 2 ( 信息技术新型多媒体编码) 中音频部分 也准备开始启动高采样率1 9 2 k h z ,超高采样率3 8 4 k h z 测试序列以及技术提案的 征集和标准制定过程。a v s 技术的蓬勃发展为我国自主研发多媒体技术领域开拓 了新的局面1 7 。 1 3 数字水印 随着2 0 世纪7 0 年代计算机网络的兴起,网络的开放性和资源共享使得网络 信息安全问题日益重要,对安全问题的关注曾是掀起现代密码学研究热潮的主要 推动力,并使其发展成为一门相当成熟的学科。在以i n t e r n e t 为代表的全球信息 化迅猛发展的今天,由于对保护知识产权的需求不断增长,以及受到使用密码加 密技术限制这两方面的原因,世界各国越来越关注信息隐藏技术的研烈引。 数字水印技术是指用信号处理的方法在数字化的多媒体数据中嵌入隐蔽的 标记。这种标记通常是不可见的,只有通过专用的检测器或者阅读器才能提取。 综合多种文献对数字水印技术的论述,我们可以把数字水印定义为:数字水印是 以可感知或不可感知的形式嵌入到数字多媒体产品中的,用于产权保护,内容检 验或者提取其他信息的信号。数字水印处理技术是水印生成、嵌入、提取和检测 第一章绪论 等过程的统称【9 】。 1 3 1 数字水印的主要特性 数字水印是将具有鲁棒性的秘密信息( 即水印) 嵌入到原始媒体中来证实数 据的所有权归属。数字水印可以分为可感知水印和不可感知水印两种。可感知水 印在版权保护中用途不大。因此本文主要讨论的是不可感知水印。对于媒体水印 来说,不同的水印应能够满足不同的需求,但它们所应具有的基本特征必须为: 1 ) 不可感知性水印应当在主观上是不可被感知的。对于图像来说,就 是不可被人眼所见的,而对于音频来说,就是不可被人耳所听到的,以免影响媒 体质量;同时水印应当在统计上不可感知,即攻击者难于用统计的方法发现和删 除水印。 2 ) 确定性嵌入到载体数据中的水印信息必须能够被唯一地鉴别出来, 不会产生二义性,这样才能有效地识别数据的所有者、真实性和完整性。 3 ) 鲁棒性也称稳健性,是指在经历多种无意或有意的信号处理过程后, 数字水印仍能保持完整性或者仍然能被准确的鉴别。可能的信号处理过程包括信 道噪声、滤波、数模与模数转换、重采样、剪切、位移、尺度变化以及有损压 缩编码等。 在数字水印技术中,水印的数据量和鲁棒性构成了一对基本矛盾。从主观上 讲,理想的水印算法应该既能隐藏大量数据,又可以抵抗各种信道噪声和信号变 形失真。然而在实际中,这两个指标往往不能同时实现,不过这并不会影响数字 水印技术的应用,因为实际应用一般仅仅偏向其中的一个方面,如果是为了隐蔽 通信,数据量显然是最重要的,由于通信方式极为隐蔽,遭遇敌方篡改攻击的可 能性很小,因而对鲁棒性要求不高。但对保证数据安全来说,情况恰恰相反,各 种保密的数据随时面临着被盗取和篡改的危险,所以鲁棒性是十分重要的,此时, 隐藏数据量的要求居于次要地位。 1 3 2 数字水印的分类 数字水印技术可以从不同的角度进行划分,除非特别说明,下面划分的水印 类型对多种数字媒体( 声音、图像、视频等) 都适用。 按照水印嵌入的位置可分为时域水印和变换域水印。 时域的水印嵌入可以通过修改媒体采样值的强度值来实现。这种方法无需对 原始媒体进行变换,计算简单、复杂度低、效率较高。但由于水印要均衡考虑不 可感知性和鲁棒性,因而可选择的属性范围较小。例如,对于有静音的音频作品, 需要特别的注意。这样生成的水印具有局限性,难以抵抗常见信号处理的攻击及 4 第一章绪论 其噪声干扰的影响,鲁棒性较差。 变换域的方法将水印添加到原始媒体的某种变换系数中实现嵌入,可以把水 印加到频域或者小波变换域中。从理论上讲,只要能构成一种信息变换,就有可 能在其变换空间上隐藏水印。 变换域的方法需要对原始媒体数据进行变换,计算较为复杂,但是变换域的 水印算法往往有比较好的鲁棒性。因此变换域的水印算法是研究的热点。 此外,按照水印检测的方式分类可分为无需原作的水印( 盲检测水印) 、需 要原作的水印( 非盲检测水印) 以及需要原作相关信息的水印( 半盲检测水印) ; 按照所选水印的形式分类可分为序列水印、标志图像水印以及标识信息水印;按 照水印的抗攻击能力分类可分为鲁棒水印以及脆弱水印等。 随着数字技术的发展,会有更多种类的数字媒体出现,同时也会产生相应的 水印技术。 1 4 论文的研究内容和结构 本文以m p e g 标准中推荐的心理声学模型为出发点,研究了心理声学模型在 感知音频编码中的作用以及计算流程,并结合a v s 音频标准的特点将心理声学 模型做出必要的修正后移植到a v s 音频编码器中,主观测试结果表明加入心理 声学模型后,a v s 音频编码器的主观质量有所提升。 基于心理声学模型的数字音频水印算法研究是论文的又一个重要部分,在充 分研究了数字音频水印算法之后,提出了基于心理声学模型的算法在频域内将数 字图像水印进行嵌入和提取,实验证明,该算法具有较好的鲁棒性和不可感知性。 本论文的结构如下: 第一章介绍了课题的研究背景; 第二章介绍了m p e g 标准推荐的两种心理声学模型; 第三章结合a v s 音频编码标准的特点,将心理声学模型做必要的修正,并 应用于a v s 音频编码器; 第四章介绍了时域和变换域的数字音频水印的算法,并提出了一种基于心理 声学模型的数字音频水印的嵌入和提取算法; 第五章介绍了a v s 音频符合性测试的内容及其方法,使得针对a v s 编码的 研究更加全面和规范。 第二章心理声学模型 第二章心理声学模型 人的听觉系统对音频信号的感知范围为2 0 h z 2 0 k h z ,在此频率范围内的音 频信号,只要能量足够大,就能被人的听觉系统捕获。但是人耳对不同频率音频 信号的敏感度、不同频率处的噪声容忍度都有着很大的差异。对每一个频率信号 而言,存在一个相应的听觉阈值,在没有任何其他噪音干扰的条件下,如果某一 频率信号的能量大于其听觉阈值,那么该信号就可被人耳听到。 由于人的听觉系统所接受的声压( s o u n dp r e s s u r e ,s p ) 范围很大,一般使 用对数的形式表示声压级( s o u n dp r e s s u r el e v e l ,s p l ) ,其单位为分贝( d b ) , 即 s p l - l 。1 9 i i 其中,i o = 1 0 。1 2 w m 2 。听觉的主观感觉是用响度来表示的,音频的物理测量 声强与在不同频率处的响度( 主观感觉) 是不同的【l o 】。 2 1 音频信号的掩蔽效应 掩蔽效应是指一个音频信号使人的听觉系统感觉不到另一个音频信号的存 在的现象。前者被称为掩蔽信号,而后者被称为被掩蔽信号。掩蔽效应可划分为 三种类型:绝对掩蔽、时域掩蔽以及频域掩蔽【l l 】。 2 1 1 绝对掩蔽 人的听觉系统本身也具有信号掩蔽的作用。即使在极安静的环境里,音频信 号的能量也要大于一定的阈值才能被人耳听到,这个阈值称为安静阈值。所有能 量低于安静阈值的音频信号都会被掩蔽,这种现象被称为绝对掩蔽。人的听觉系 统对于不同频率的音频信号有不同的安静阈值。由于阈值是主观感觉的测量,因 而它是因人而异的。一般而言,当频率为5 0 h z 时,安静阈值为0 d b ;当频率在 5 0 0 h z 5 0 0 0 h z 的频段间,安静阈值几乎是不变的。当频率超过5 0 0 0 h z 后,安静 阈值随频率的增大而增大。因此,5 0 0 h z 5 0 0 0 h z 的频率是人耳的敏感频率段, 在此频率段的音频信号最容易被人耳听到( 如图2 1 所示) 。根据实验数据【1 2 】, 可以推导出计算安静阈值的经验公式如下: 6 第二章一t l , 理声学模型 t q ( f ) = 3 6 4 f 嘴一6 5 e 0 6 ,3 3 2 + 1 0 q f 4 ( 2 - 1 ) 其中,f 是以k h z 为单位的频率值,的单位为d b 。 乏 幽 艘 1 0 21 0 3 频率h z 2 1 2 时域掩蔽 图2 1 安静阈值的实验测量 时域掩蔽是指能量较强的音频信号可以掩蔽同时、其前或其后出现的能量较 弱的音频信号的现象。掩蔽之前出现的音频信号的现象被称为超前掩蔽,掩蔽之 后出现的音频信号的现象被称为滞后掩蔽,而掩蔽同时出现的音频信号的现象被 称为即时掩蔽,如图2 2 所示。即时掩蔽的作用时间是与掩蔽信号的持续时间相 同,超前掩蔽与滞后掩蔽则是即时掩蔽在时间上的延伸效果。一般而言,后出现 的信号应对其前出现的信号无掩蔽作用,但是由于人的听觉系统反应滞后以及音 频信号前后的关联性,超前掩蔽现象还是会出现的。超前掩蔽的作用时间一般仅 仅能持续2 0 m s 左右,而滞后掩蔽的作用时间大致为1 5 0 m s 。在日常生活中,时 域掩蔽的例子很多,例如,人们在马路上交谈时候,经常会被汽车的鸣笛声所干 扰,而听不清对方的谈话内容。 声目鹕 0 图2 2 时域掩蔽 7 时间 第二章心理声学模型 2 1 3 频域掩蔽 某个频率的音频信号对其相邻频率能量较弱信号的掩蔽效应称为频域掩蔽。 频域掩蔽本质上就是时域掩蔽中的即时掩蔽,只是它是在频域中研究掩蔽效应。 经过时频变换后,在频域内的数字音频信号处理中,通常对以下两种信号比较感 兴趣。1 ) 音频的音调信号,幅度有增益或衰减的准周期信号;2 ) 音频的噪声信 号,主要指由量化产生的随机噪声信号。那么有上面两种音频信号的相互作用, 可以形成以下四种掩蔽效应。1 ) 噪声信号对音调信号的掩蔽;2 ) 噪声信号对噪 声信号的掩蔽:3 ) 音调信号对噪声信号的掩蔽;4 ) 音调信号对音调信号的掩蔽。 噪声信号对音调信号的掩蔽效应主要取决于噪声信号的带宽、噪声信号的中 心频率以及噪声信号的能量。假设噪声信号被限制在一个窄带内,那么噪声信号 对音调信号的掩蔽效应和噪声信号的中心频率与其能量s p l 有关。大量实验证 明【l3 1 ,噪声信号对音调信号掩蔽曲线的包络线是恒定的,而与噪声信号的和中心 频率和其能量无关,如图2 3 ,图2 4 所示。信号掩蔽阈值在掩蔽信号的中心频 率处达到最大,随着频率相对于掩蔽信号中心频率的偏移信号掩蔽阈值快速衰 减。另一个实验结果是,信号掩蔽阈值的最大值总比信号本身的能量要小,且它 们的差近似为一常数。掩蔽信号的能量与其在该信号频率处所产生的掩蔽阈值之 差被定义为信掩比( s i g n a l - t o m a s kr a t i o ,s m r ) 。s m r 是音频信号处理中一个 非常重要的参数。s m r 值越大,则掩蔽作用越小;反之,s m r 值越小,则掩蔽 作用越明显。 声曲 二 、八义,7 0 0 20 0 50 10 20 5l 25 1 02 0 频率k h z 图2 3 声压为6 0 d b 的噪声信号对音调信号的掩蔽曲线 印 加 加 0 第二章,i i , 理声学模型 声压d b 0 0 20 0 50 10 20 5 125 频率k i - i z 图2 - 4 频率为l k h z 的噪声信号对音调信号的掩蔽曲线 音调信号对噪声信号的掩蔽是感知音频编码的核心内容。在感知音频编码, 如a v s 音频编码中,编码的误差主要来自量化噪声,而量化噪声的大小取决于 编码音频信号所用的比特数。如果能确定音调信号所能掩蔽的最大噪声能量,那 么就可以确定用于编码该剩余信号的比特数,而该比特数所产生的量化误差可以 被音调信号掩蔽而不被察觉。研究结果表明,音调信号对噪声的掩蔽曲线的包迹 线与噪声信号对噪声信号的掩蔽曲线的包迹线十分相似,如图2 5 所示。只是它 们的s m r 不同。以噪声信号为掩蔽信号的s m r 在5 d b 左右,而以音调信号为 掩蔽信号的s m r 在2 0 d b 一3 0 d b 之间。噪声信号对噪声信号的掩蔽效应在实际的 音频处理中意义不大,在此不做讨论,而音调信号对音调信号的掩蔽效应同样可 以看做声音信号对噪声信号的掩蔽效应。 9 姗 印 们 加 。 第二章心理声学模型 0 0 20 0 5 o 10 2 0 512 5 频率l 【】 i z 图2 5 频率为l k h z 的音调( 噪声) 信号对噪声信号的掩蔽曲线 上述掩蔽效应就是心理声学模型的基本原理。m p e g 标准中推荐了两种心理 声学模型。 2 2 心理声学模型1 m p e g 标准推荐的心理声学模型主要有两种,即心理声学模型1 和心理声学 模型2 ,前者的复杂度比较低,易于实现,主要用于m p e g 1 的前两层,而后者 则更加精密,但是复杂度更高,主要应用于m p e g 1 的第三层1 4 】【1 7 1 。 心理声学模型1 对m p e g 1 层1 和层2 的应用方面基本没有区别。 层l :对每块1 2 个子带或3 8 4 个输入p c m 样值计算新的比特分配。 层2 :对相应于3 * 3 8 4 ( 1 1 5 2 ) 个输入p c m 样值的3 块总共3 6 子带样值, 计算新的比特分配。 以所有子带的信号掩蔽比为基础,计算3 2 个子带的比特分配。因此,有必 要确定每个子带的最大信号电平和最小掩蔽阈值。最小掩蔽阈值由经过f f t 变 换后的信号频谱按照心理声学模型的计算得到。心理声学模型l 的计算步骤如 下: 步骤1 :时间到频率转换的f f t 的计算; 步骤2 :确定每子带内的声压级: 步骤3 :确定听觉阈值; l o 第二章心理声学模型 步骤4 :音频信号的音调( 更像正弦波) 和非音调( 更像噪声) 分量的查找; 步骤5 :掩蔽源的抽取,只保留相关的掩蔽源; 步骤 步骤 步骤 步骤 计算单独的掩蔽阈值: 决定全局掩蔽阈值; 决定每个子带内最小的掩蔽阈值; 计算每个子带内信号掩蔽比。 下面详细讨论这些步骤。 1 计算频谱 f f t 的技术数据: 层l层2 变换长度n5 1 2 样值1 0 2 4 样值 窗口尺寸,若f s = 2 4 k h z 2 1 3 3 m s 4 2 6 7 m s 窗口尺寸,若2 3 3 3 m s4 6 4 4 m s z 2 2 2 0 5 k h z 窗口尺寸,老:f s = 1 6 k h z3 2 m s6 4 m s 频率分辨 f , 5 1 2ls 1 0 2 4 这里采用h a r m 窗, “) : 五( f ) = 8 3 木0 5 幸 1 一c o s 【2 万( f ) 】 o f n - 1 ( 2 - 2 ) 功率谱密度z ( 七) l1n l 1 2 x ( 七) = 1 0 奉l o g l 。峙五( ,) 木s ( ,) 木p 卜渺2 删i d b k = 0 2 ( 2 - 3 ) l v1 = 0i 这里,s ( t ) 是输入信号。 按照参考电平9 6 d bs p l ( 声压级) 进行归一化,即最大值对应为9 6 d b 。 2 确定声压级 子带行内的声压级l 。用下式计算: k ( 玎) = m a x x ( k ) ,2 0 * l o g l o ( s o f i 蛳( 胛) * 3 2 7 6 8 ) 一1 0 】d b ( 2 - 4 ) x ( k ) 在子带,l 内。 这里,x ( k ) 是具有索引k 的f f t 谱线的声压级,它在相应的子带n 的频率 范围内有最大的幅度。表达式j o ) 在层l 内是比例因子,在层2 内它是在一 帧内子带n 的三个比例因子之最大者。“1 0 d b ”为正峰值和均方根电平之间的差 别。对各子带,1 分别计算声压级k q ) 。 3 考虑听觉阈值 安静阈值l 乙( k ) ,可以通过查找“频率,临界频带和安静阈值”表得到。输 入信号按照采样频率在表中找到对应的值。在掩蔽阈值的频率范围内,可以得到 第二章心理声学模型 相对于每个频点的值。 4 音调和非音调分量的查找 掩蔽分量的音色对掩蔽阈值有很大影响,因此,区分音调分量和非音调分量 是十分必要的。音调和非音调分量可以从f f t 频谱中得到。 首先确定局部的最大值,然后提取音调分量( 正弦波形) ,计算在临界频带 带宽内非音调分量的强度。该临界频带的边界在“临界频带边界”表中给出。 临界频带的带宽随着中心频率而变化,在低频带宽约为o 1 k l - l z ,在高频带宽 约为4 k h z 。通过心理声学实验知,人耳在较低频率比在较高频率范围内具有更 好的频率分辨率。为确定一个局部最大值是否是音调分量,考察该局部最大值周 围的一个频率范围矽。频率范围矽定义: 采样频率为1 6 k h z 时: a f = 6 2 5 h z0 k h z fs3 0 k h z , i f = 9 3 7 5 h z3 0 k h z f 6 0 k h z , i f = 18 7 5 h z6 0 k h z f 7 5 k h z 采样频率为2 2 0 5 k h z 时: a f = 8 6 13 3 h z0 k i - i z fs2 7 5 6 k h z a f = 1 2 9 1 9 9 h z2 7 5 6 k h z f 5 51 2 k h z a f = 2 5 8 3 8 9 h z5 5 1 2 k h z f 1 0 3 3 6 心 z 采样频率为2 4 k h z 时: a f = 9 3 7 5 0 h z0 k h z 厂3 0 k h z a f = 1 4 0 6 3 h z3 0 k h z f 6 0 k h z a f = 2 8 1 2 5 h z6 0 k h z x ( k - 1 ) 且x ( k ) x ( k + 1 ) ,就把频谱线x ( k ) 标为局部最大值。 2 ) 列出音调分量,计算声压级 如果x ( 七) 一彳( 七+ 1 ) 7 d b ,就把局部最大值存入音调分量表内。 这里,的确定方法如下: 层1 ,f = 1 6 k h z ,= 2 ,+ 2对于2 k 9 6 ,= 3 ,2 ,+ 2 ,+ 3对于9 6 k 1 9 2 _ ,= - 6 ,一2 ,+ 2 ,+ 6 对于1 9 2 k 2 5 0 层2 ,z = 1 6 k h z j = - 4 ,“对于4 k 1 9 2 1 2 第二章心理声学模型 ,= 一6 ,一2 ,+ 2 ,+ 6对于1 9 2 k 3 8 4 j = - 1 2 ,- 2 ,+ 2 ,+ 1 2 对于3 8 4 k 5 0 0 层l ,疋= 2 2 0 5 k h z ,2 4 k h z j = - 2 ,+ 2对于2 k 6 4 j = 3 ,2 ,+ 2 ,+ 3 对于6 4 k 1 2 8 ,= 6 ,2 ,+ 2 ,+ 6对于1 2 8 k 2 5 0 层2 ,f , = 2 2 0 5 k h z ,2 4 k h z ,= - 4 ,“对于4 k 1 2 8 ,= 6 ,一2 ,+ 2 ,+ 6对于1 2 8 k 2 5 6 ,= - 1 2 ,2 ,+ 2 ,+ 1 2对于2 5 6 k 5 0 0 如果发现x ( k ) 是音调分量,那么计算下列参数: 频谱线的索引号k ; r x ( k 1 ) 工( 女) j f i + 1 ) 1 声压级k ( 七) = 1 0 * l 0 9 1 0 1 0 1 0 + 1 01 0 + 1 01 0 ( 2 - 5 ) lj 单位为d b ; 音调标志。 其次,把所考察的频率范围内的所有谱线设为一d b 。 3 ) 列出非音调分量,计算其能量 从剩余的频谱线中计算非音调( 噪声) 分量。为了从这些频谱线x ( k ) 中计 算非音调分量,利用“临界频带边界”表确定临界频带z ( 尼) 。采样频率为1 6 k h z 时用2 1 个临界频带,采样频率2 2 0 5 k h z 和2 4 k h z 时用2 3 个临界频带。在每一 个i 临界频带内,把( 音调分量已被零化后剩余的) 谱线能量求和,以得到相应于 该临界频带新的非音调分量k ( 七) 的声压级。 得到下列参数: 最接近于临界频带几何平均值的频谱线索引号k ; 声压级k ( j j ) ,单位为d b ; 非音调标志。 5 音调和非音调掩蔽源提取 1 ) 只有l ( 七) ( 七) 或k ( | | ) l 乙( 七) 时,才为计算掩蔽阈值考虑音调分 量k ( 七) 或非音调分量k ( 七) 。 在此表达式中,l r , ( k ) 是频率索引为k 的安静闽值。这些值可通过查表得出。 2 ) 在小于0 5b a r k 的距离内,从音调分量表中除去2 个或更多音调分量, 保留具有最高能量的分量,并从音调分量表中去掉较小的分量。这里使用在临界 频带范围内宽度为0 5b a r k 的滑动窗口。 第二章心理声学模型 6 单独掩蔽阈值的计算 对以k 为索引的原2 个频域样值中,只考虑将以i 为索引的样值子集用于 全局掩蔽阈值计算。 1 ) 层l : 对应于被前6 个子带覆盖的频率范围的谱线,不采用亚采样。对应于后6 个 子带的频率范围,考虑每相隔的谱线。最后,对剩下的1 8 个子带,考虑每相隔 4 根的谱线。 2 ) 层2 : 对应于被前3 个子带覆盖的频率范围的谱线,不采用亚采样。对应于后3 个 子带的频率范围,考虑每相隔的谱线。对应于再后面6 个子带的频率范围,考虑 每隔4 根的谱线。最后,对剩下的1 8 个子带,考虑每相隔8 根的谱线。 亚采样频率范围内的样值数以取决于层。对于层1 ,n 为1 0 8 。对于层2 ,n 为 1 3 2 。 把最接近于原始谱线x ( k 1 频率的索引i 值分配给每个音调和非音调分量。索 引i 在表中给出。 音调和非音调分量单独掩蔽阈值由下列表达式给出,其单位为d b : 三乙【z ( n z ( f ) 】= k 【z ( 叫+ 口 z u ) 】+ 【z ( n z ( f ) 】 ( 2 6 ) 三乙【z ( n z ( f ) 】_ k 【z ( 州+ 口。【z ( 叫+ 州z ( n z ( f ) 】 ( 2 7 ) 在这两式中,三乙和乙是临界频带率为z 。b a r k 的掩蔽分量在临界频带率 为z b a r k 处产生的单独掩蔽阈值。这些d b 值可以为正,也可以为负。k 【z ( ) 】 项是在相应临界频带率为z ( j ) ,具有索引号为的掩蔽分量的声压级,a l p 项称为 掩蔽指数,v f 为掩蔽分量l 【z ( 川的掩蔽函数。掩蔽指数口v 对音调和非音调掩 蔽源( 口和口) 是有区别的。 对于音调掩蔽源,a v 由式( 2 8 ) 给出: 口= 一1 5 2 5 - 0 2 7 5 堆z ( ) 一4 5d b ( 2 - 8 ) 对于非音调掩蔽源,则 a v = 一1 5 2 5 0 1 7 5 木z ( ) 一0 5d b ( 2 - 9 ) 掩蔽源的掩蔽函数矿的特征有不同的上升和下降斜率,这种斜率取决于以到 掩蔽源的距离d z = z ( i ) - z ( j ) 距离单位为b a r k 。在此表达式中,f 是在其上计算掩 蔽函数的谱线索引。j 为该掩蔽源的索引。临界频带率z ( j ) 和z ( f ) 可以在表中查 到。掩蔽函数v 厂对于音调掩蔽源和非音调掩蔽源是相同的,由式( 2 1 0 ) 给出: 1 4 第二章心理声学模型 f1 7 * ( d z + 1 ) 一( o 4 宰x k u ) 】+ 6 ) 对于- 3 出 1b a r k 矿:j o 4 以】+ 6 ) 吨( c t s )婴。1 鲐锄嗽t ( 2 - 1 0 ) w = z l u j 。l 一1 7 木d z ( 对邗比 1b a r k l 出一1 ) 木 1 7 - 0 1 5 x z u ) 】) 一1 7 对- t i _ d z 8b a r k 在这些表达式中,x 【z ( ) 】是第掩蔽源的声压级,单位为d b 。为了降低复 杂读,当d z 0 考虑掩蔽函数扩张性,频段b 的不可预测指数应作如下修正: c , ( b ) - - - c p ( b ) s f ( b ( i ) ,b ( 6 ) ) ( 2 - 2 8 ) 其中,p 是所分频段的总数。各个频段能量由于掩蔽函数的扩张,也会发生变化, 其修正如下: e ( b ) - - e p ( b ) s f

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论