(电路与系统专业论文)声音档案数字压缩存储系统的研究[电路与系统专业优秀论文].pdf_第1页
(电路与系统专业论文)声音档案数字压缩存储系统的研究[电路与系统专业优秀论文].pdf_第2页
(电路与系统专业论文)声音档案数字压缩存储系统的研究[电路与系统专业优秀论文].pdf_第3页
(电路与系统专业论文)声音档案数字压缩存储系统的研究[电路与系统专业优秀论文].pdf_第4页
(电路与系统专业论文)声音档案数字压缩存储系统的研究[电路与系统专业优秀论文].pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(电路与系统专业论文)声音档案数字压缩存储系统的研究[电路与系统专业优秀论文].pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人 承担。 论文作者签名:丕筮1日期: 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保 留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本 学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:丕竭导师签名:盈勉日期:鲨幺幺论文作者签名:型导师签名:鲻之筮日期:丝幺型 山东大学硕士学位论文 摘要 声音档案是一种重要的档案资源。目前,我国各类档案馆所保存的声音档案 主要是录音磁带档案,同使用数字方式存储信息相比,使用磁性材料以模拟方式 保存档案的缺点很多。以数字方式存储各种档案,对以往的档案进行数字化的改 造存储是现代档案馆的重要工作之一。 本课题就是在这样的背景下提出的。在本文中,我们分析了m p 3 标准算法的 声学原理和关键技术:叙述了数字音频水印的基本原理和方法;使用硬件系统实 现了模拟音频数据向m p 3 数字音频格式的转换;并提出了在m p 3 格式音频文件中 嵌入水印的3 种算法。 本文提出了用硬件实现模拟音频m p 3 压缩的一套解决方案,使用单片机实现 对编码解码芯片的控制和实现音频数据的输出,并通过u s b 接1 3 上传到p c 机上, 以对音频文件进行进一步的处理。同时,我们对数字音频水印做了一定的研究工 作,通过将水印数据嵌入到m p 3 格式的音频档案中,可通过对档案文件进行检验, 判断档案文件所要求的完整性和真实性。 本文的第一部分首先介绍了声学的一些基本概念,总结了人类听觉系统特别 是人类听觉感知模型的特点,分析了m p 3 编码流程,深入研究m p 3 标准算法的过 程,对编码过程中各个模块进行了分析。然后,我们对音频水印技术做了一下综 述,叙述了数字音频水印的原理和一些基本方法。第二部分对我们采用的硬件电 路、编码解码芯片进行了简要的介绍,重点介绍了e z u s b 单片机、m a s3 5 8 7 f 编 码解码芯片的功能、接口以及对芯片的控制,以及u s b 口的接口程序的编写。在 第三部分,我们提出在m p 3 算法中进行水印嵌入的三种方法。在m p 3 压缩中,心 理声学模型的频域分析主要用于音频数据的压缩编码。我们提出的算法主要考虑 如何将水印嵌入到m p 3 数据中。实现水印的不可感知性,完成在档案工作对安全 性和版权的要求。 本文通过硬件实现了对模拟音频信号进行k i p 3 的压缩,并提出可以应用于m p 3 压缩格式的三种水印方案,分别属于比特流水印方案、组合压缩水印方案和变换 域水印,采用了鲁棒性水印和脆弱水印实现档案文件对真实性、完整性和版权的 要求。水印的量化和嵌入是根据心理声学模型来确定的,能够实现水印数据不可 4 山东大学硕士学位论文 感知性,能够实现对文件安全性和版权的判定,有一定的应用价值。 本文的最后做了一下总结,对本课题的应用前景进行了一些探讨,对我们提 出的水印算法中存在的问题进行了初步分析。并提出在档案工作中对档案进行数 字化改造,我们需要进一步研究的问题。 关键词:e z u s b 单片机数字音频水印心理声学模型m p 3 算法 山东大学硕士学位论文 a b s t r a c t a u d i oa r c h i v e sa l ea l l i m p o r t a n tp a r to fa r c h i v e s i nc h i n a ,m o s to ft h ea u d i o a r c h i v e si s p r e s e r v e d o n a u d i o t a p eb y a r c h i v e sa n dr e c o r d sa d m i n i s t r a t i o n d e p a r l m e n t s t h e r ei sm a n yd i s a d v a n t a g e st op r e s e r v ea r c h i v e s0 nm a g n e t i cm a t e r i a lb y m e a n so f a n a l o gm o d ec o m p a r ew i t hd i g i t a lt e c h n o l o g i e s i ti si m p o r t a n tt op r e s e r v ea l l k i n d so fa r c h i v e sb ym e a n so f d i g i t a lm o d e s oi t i sn o wa nu r g e n tw o r kt or e c o n s t r u c t f o r m e ra r c h i v e so f a n a l o gm o d ei n t od i g i t a lm o d e t h ep r o j e c ti s p u t f o r w a r du n d e rt h i sc o n d i t i o n i nt h e p a p e r , t h e a c o u s t i c s p r i n c i p l e su s e db ym p 3i sn a r r a t e d e a c hm o d u l e so fm p 3i sa n a l y s e d t h ep r i n c i p l e a n dm e t h o do fa u d i ow a t e r m a r ki sa l s od i s c u s s e d w eu s eah a r d w a r e s y s t e mt o t r a n s f o r m a n a l o g a u d i od a t ai n t om p 3a u d i od a t as t r e a m t h r e e w a t e r m a r k i n g a l g o r i t h m si sd i s c u s s e di nt h i sp a p e rt oe m b e da u d i ow a t e r m a r ki n t om p 3a u d i od a t a s 廿e a m as c h e m ei s p u tf o r w a r dt ot r a n s f o r ma n a l o ga u d i od a t ai n t om p 3a u d i od a t a s t r e a mb yu s i n gh a r d w a r e as i n g l ec h i pm i c y o c oi su s e dt oc o n t r o le n c o d e r d e c o d e r ( m a s3 5 8 7 f ) a n dt h eo u t p u to fa u d i od a t aw h i c hi su p l o a d e di n t ot h ep cb yu s b i n t e r f a c e s ot h a tt h ed a t ac a l lb ef u r t h e rp r o c e s s e d a u d i ow a t e r m a r ki su s e dt o g u a r a n t e et h ei n t e g r a l i t ya n dc o p ”i g h t o f t h ea r c h i v e si nt h ef o r m a to f m p 3 i nt h i sp a p e r , s o m eb a s i ca c o u s t i c sp r i n c i p l ei si n t r o d u c e df i r s t l y t h ec h a r a c t e ro f t h eh u m a na c o u s t i c a ls y s t e mi sa l s oa n a l y z e d t h ef l o wc h a r to f t h e p r o c e s so f c o m p r e s s i n t h e f o r m a t o f m p 3 i s p a r t i c u l a r l ys p e c i f i e d s e c o n d l y , w eg i v ea b r i e f i n t r o d u c eo f t h e h a r d w a r ec i r c u i t t h ee z u s bc o n t r o l l e ra n dt h em a s3 5 8 7 fe n c o d e r d e c o d e rc h i pi s p a r t i c u l a r l ys p e c i f i e d i nt h i sp a r t , w eg i v eab r i e f f l o wc h a r to ft h ee n c o d e rs y s t e m t h e m e c h a n i s mo ft h eu s bi n t e f f a c ea n dt h ec o m m u n i c a t i o nb e t w e e nt h ep cm a c h i n ea n d u s b e q u i p m e n ti sa l s od i s c u s s e d t h i r d l y ,t h r e ew a t e r m a r k sw h i c h c a nb eu s e di nm p 3 a u d i os t r e a mi s p r e s e n t e d t w ok i n d so fr o b u s td i g i t a l w a t e r m a r ki si n t r o d u c e dt o c o n f i r mt h e c o p y r i g h t af r a g i l e w a t e r m a r ki s a p p l i e dt o c o n f i r mt h e f a c t i c i t y a n d i n t e g r a l i t y o fa u d i oa r c h i v e t h e q u a n t i z a t i o n a n de m b e d m e n to ft h ew a t e r m a r ki s 6 山东大学硕士学位论文 d e t e r m i n e da c c o r d i n gt ot h eh u m a n a u d i t o r ys y s t e m w ec a nt r a n s f o r ma n a l o ga u d i od a t ai n t oa u d i os t r e a mi nt h ef o r m a to fm p 3b y u s i n gt h eh r r d w a r ew ed e s i g n e d t h r e ew a t e r m a r k s i sp r e s e n tt ob eu s e di nm p 3a u d i o s t r e a m a tl a s t , w e g i v e as u m m a r i z a t i o no fo u rw o r k t h e s h o r t c o m i n g o fo u r w a t e r m a r k i n ga l g o r i t h m si sb r i e f l y 强a l y z e d ,w eg i v eaf l l 弛e rd i s c u s s i o na b o u t w h a t w ec a ns t u d yo nt h ew o r ko f d i g i t a lr e c o n s t r u c t i o no f a r e h i v e s k e y w o r d :e z u s b ,d i g i t a la u d i ow a t s r m a r k , p s y c h o a c o u s t i cm o d e l ,m p 3 山东大学硕士学位论文 第一章绪论 1 1 我国声音档案的现状 档案是指过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、 科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、 图表、声像等不同形式的历史记录。 声音档案是一种重要的档案资源。目前,在我国,声音档案采用了录音磁带、 磁盘、光盘为介质以模拟方式或者数字方式存储声音档案。 我国各类档案馆所保存的声音档案主要是录音磁带档案,使用模拟记录方式 记录音频信号,声音的频率范围是2 0 h z 2 0 k h z 左右。使用录音磁带保存声音档 案,需要严格遵守磁性载体档案的保存环境、管理制度。 使用磁性材料以模拟方式保存档案的缺点很多,首先,受温湿度以及磁性材 料自身特性的影响,保存在磁性材料上的信息会随时间的推移的造成信息的损失。 另外,与现有的数字存储方式以及存储介质相比传统档案的模拟存储方式不利 于档案的检索和查阅。以数字方式存储各种档案,对以往的档案进行数字化的改 造存储是现代档案馆的重要工作之一。 1 2 目前的新技术和发展趋势 近几年来,随着计算机技术、通信技术和网络技术的高速发展,使得以计算 机技术为核心的信息技术极大地改变了人类的思考方式和知识获取的途径,整个 世界正经历着信息化的浪潮,现代社会正迈入信息化的社会。适应信息化的要求, 建立数字档案馆成为现代档案馆发展的方向之一。 为了达到数字档案馆的要求,实现对声音档案进行管理,应该建立声音档案 数据库,以便于实现档案数据的查阅和检索。建立声音档案数据库,应采用传统 的档案分类和著录等级等标准进行登记。 建立数字档案馆,需要考虑声音档案的存储格式问题。m p 3 是一种符合国际标 准的数字音频格式能够提供高压缩比和高保真度的数字音频文件“1 。并且,m p 3 的算法是公开的,可以使用软件的方法实现m p 3 格式文件的播放,符合作为档案 的保存格式的要求。 山东大学硕士学位论文 建立数字档案馆,必须考虑声音档案的安全问题。目前,可以使用两种方法 实现声音档案的安全,一种是加密技术,另一种就是数字水印技术。 数字水印( d i g i t a lw a t e r m a r k i n g ) 技术出现于9 0 年代,是一项为保护多媒 体信息知识产权而发展起来的技术,在9 0 年代中后期有t s r 大的发展。数字水印 是按一定算法嵌入载体中的有关版权的信息。嵌入的水印可以从含水印的载体信 息中检测出来,而不影响载体的使用价值“1 。 数字水印有多种分类方法,按照用途来分,有版权保护水印、篡改提示水印、 隐蔽标示水印和票据防伪水印等。不同的水印有不同的用途:版权保护水印是目 前研究的最多的一类水印,主要强调隐蔽性和鲁棒性:篡改提示水印其实就是一 种脆弱水印,用来标示宿主信号的完整性和真实性。 数字水印技术虽不能阻止非法复制,但能鉴别哪些产品是非法复制品,从而 用作证据,成为保护知识产权的重要技术手段。数字水印技术属于信息隐藏 ( i n f o r m a t i o nh i d i n g ) 的范畴。信息隐藏可大致分为密写术( s t e g a n og r a p h y ) 和数字水印两大分支。数字水印技术的目的是版权保护,其抗攻击能力是最重要 的技术要求。有些数字水印系统将使用者的信息作为水印,称为数字指纹( d i g i t a l f i n g e r p r i n t ) 。当发现非法复制品时,可根据非法复制品中的数字指纹确定非法 复制品是从哪一个使用者那里得到的。通过使用数字水印技术,可以满足档案对 安全性的要求,实现对进行声音档案的保护。 1 3 本文的主要工作和内容安排 本文首先介绍了在我们的工作中用到的一些声学原理,对m p 3 压缩算法进行 了简单的介绍;大致介绍了一下现有的数字音频水印技术,叙述了数字音频水印 的原理和一些基本方法;然后提出了用于m p 3 编码的一个硬件电路;在本文的最 后,我们提出了三种用于m p 3 文件中的水印算法。 本文主要包含三部分内容。 第一部分是对于一般的声学理论和m p 3 压缩算法的简单介绍,在m p 3 的压缩算 法中,着重介绍了m p 3 压缩算法的量化编码模块。然后,大致介绍了一下现有的 数字音频水印技术,叙述了数字音频水印的原理和一些基本方法。 第二部分是硬件部分,在这部分中主要介绍整个系统的硬件电路原理以及我们 的程序流程。首先对e z u s b 单片机和m a s 3 5 8 7 f 解码编码芯片做了简单的介绍; 9 山东大学硕士学位论文 其次,介绍了m a s3 5 8 7 f 的控制编程等;最后介绍了u s b 接口的通信机制,e z - u s b 单片机的枚举,以及u s b 口的驱动程序等。 第三部分是探讨适合于i d p 3 压缩算法的音频水印算法,探讨用来对声音文件进 行处理以保证档案安全性的数字水印算法。在这一部分,我们提出了用于m p 3 格 式档案的三种水印算法模型:应用脆弱水印对文件进行完整性分析;应用稳健性 水印用于版权的认证。 山东大学硕士学位论文 第二章m p 3 音频编码算法及采用的理论知识 2 1 一些基本的声学概念n 1 2 1 1 声音和听觉 声音是一种携带信息的极其重要的媒体,是多媒体技术领域中的一个重要的 内容。声音的种类繁多,如人的话音、乐器声、动物发出的声音以及自然界存在 的一切声音。这些声音有许多共同的性质,同时也有自己的特性。 从物理学的观点来看,声音是通过空气传播的一种连续的波,也就是声波, 声音的强弱体现在声波压力的大小上,声调的高低体现在声音的频率上。对声音 信号的分析表明,声音信号由许多频率不同的信号组成,这类信号称为复合信号, 而单一的信号被称为分量信号。带宽是声音信号的一个重要参数,它用来描述组 成复合信号的频率范围。高保真声音信号的频率范围为l o h z 2 0 k h z ,它的带宽约 为2 0 k h z 。 声音信号的两个基本参数是频率和幅度。人们把频率小于2 0 h z 的声音信号称 为次音信号( 或亚音信号) ;频率范围为2 0 h z 和2 0 k h z 之间的信号通常称为音频 信号;高于2 0 k h z 的信号通常被称为超声波信号。一般来说,人的听觉器官能感 知的声音频率在2 0 h z 2 0 k h z 之间,这也就是我们通常所说的音频信号,人类在 这个频率范围内可感知的声音幅度大约在o 1 2 0 d b 之间。 2 1 2 声音质量的度量 声音质量的评价是一个很困难的问题,现在有两种基本方法:一种是客观质 量度量,另一种是主观质量度量。声音客观质量主要是采用信号的信噪比( s n r ) 进行度量。与采用信噪比进行度量相比,一个人的听觉更具有决定的意义,虽然 很难获得可靠的主观量度值,所获得的值也是相对值,感觉上的、主观上的声音 质量的测试应是评价声音质量的重要部分。 对声音质量的度量一般采用主观评分法:召集一些试验者,由他们对声音质 量的好坏进行评分,求出平均值作为对声音质量的评价。 对声音的主观质量度量比较通用的标准是5 分制,评分标准见表2 1 。 山东大学硕士学位论文 分数质量级别失真级别 5优无察觉 4良刚察觉但不讨厌 3中察觉有点讨厌 2差讨厌但不反感 1劣很讨厌令人反感 表2 1 声音质量评价标准 2 1 3 绝对阈值 人的听觉系统存在着绝对阈值是心理声学模型的一个最基本概念,绝对阈值 表示了在给定的频率上,人的耳朵能够听到的最小声压级。耳朵对在i k h z 4 k h z 之间范围内的声音信号最为灵敏,可以听到信号的绝对闽值最小,幅度很低的信 号都能被听到。而在低频区和高频区,能被入耳听到的信号幅度要高的多。 2 1 4 掩蔽效应 声音的掩蔽效应是指一个声音的存在会影响人耳对另一个声音的听觉能力 前者成为被掩蔽音,后者称为掩蔽音。利用掩蔽效应可以用有用声音信号去除被 掩蔽的无用声音信号。 掩蔽听闽包括频域掩蔽听阚和时域掩蔽听阈。频域掩蔽听阈是指在临界频段 范围上看,一个强音会掩蔽与之同时发生的弱音。低音信号的可以有效的掩蔽高 音,但是高音掩蔽低音相对来说就困难的多,另一方面,在距离强音较远处,绝 对听闽比频域掩蔽听阈要高。 除了同时发出的声音之间有掩蔽,在很近的时间间隔内发出的两个声音会产 生暂时掩蔽,这就是时域掩蔽。一个信号可以被前面发出的信号掩蔽,这是前掩 蔽。另外,一个信号也可以被后发出的信号掩蔽,这叫做后掩蔽。产生时域掩蔽 的原因在于人的大脑处理信息需要花费一定的时间。 2 1 5 临界频段 人耳听觉感知的基础是内耳的临界频带分析,当音频音波耦合到内耳后,会 沿着耳蜗底膜产生一系列的频率位置韵变换,完成对音频信号的时频分析 在耳蜗底膜上功率谱不再以线性频率尺寸而是以被称为“临界频带”的有限频段 来表达,因而人类听觉系统可以表述为一个带通滤波器组。该滤波器组是有一系 列重叠的带宽从1 0 0 h z ( 当频率低于5 0 0 h z 时) 递增到5 0 0 0 h z ( 信号频率比较商 山东大学硕士学位论文 时) 的带通滤波器组成。临界频带是一种在频域的心理声学或音质测度,反映了 人耳的频率选择性。临界频带的单位b a r k ,1 个临界频带的的宽度为1 b a r k 。使用 b a r k 来标度,需要将物理频率转化为心理声学频率。 一些学者认为临界频段可以用下式来计算: 临界频段:2 4 7 ( 4 3 7 f + 1 )f 为中心频率 2 1 6 心理声学模型 心理声学模型是通过对人类的听觉特性进行深入研究后提出的概念,心理声 学模型说明的是人们对于听到的一切声音信号的主观反应。 心理声学模型是m p e g l 中音频部分编码的依据,心理声学模型把人的耳朵看 作这样一个器官,它将声压转换为具有能量和频率信息的脑信号。人类听觉系统 可看作为2 6 个彼此重叠的带通滤波器。当频率增大时,这些滤波器的带宽是增大 的一0 理声学模型的一个最基本的概念是听觉系统中存在一个听觉阈值电平 绝对阈值,低于该电平的信号人不能听到。心理声学模型的特征主要体现在听觉 的强度特性、频域特性、掩蔽效应以及人耳的高频定位特性等几个方面。 2 2m p 3 的基本原理及过程“” 在m p e g 一1 的标准中,将音频信号的压缩标准分为三个层级,分别是第l 层、 第2 层和第3 层,m p 3 就是m p e g 音频第3 层压缩算法的简称。m p 3 结合了m u s i c a m ( 掩蔽模式通用子带集成编码和多路复用) 和a s p e c ( 自适应感知熵编码) 两种算 法,是运算复杂度最高而压缩效果最好的一层。全面的测试表明,与1 6 位线性系 统相比,采用2 1 2 8 k b s 联合立体声m p 3 压缩格式音频节目不会感觉到质量的下 降。 m p 3 是有损压缩编码,其基本原理是感知编码,它首先分析输入信号的频率和 振幅,然后将其与人类的听觉感知模型进行比较,去除音频信号的不相干部分以 及统计冗余部分。具体的说,就是利用人体听觉系统掩蔽效应中的频域掩蔽效应, 采用感知编码算法和变换域编码以减少需存储的数据量,使用哈夫曼编码实现量 化幅值数据量无损压缩的最大化。 m p 3 编码的基本过程如图2 1 所示。m p 3 标准算法的过程为,首先将输入的1 1 5 2 个样本分为两个粒度组,每个粒度组的音频数据经过子带滤波器组,产生3 2 个子 带,每个子带3 6 个样本。在这以后,通过使用改进离散余弦变换m d c t 对滤波器 山东大学硕士学位论文 组的不足做了一些补偿。m d c t 把子带的输出在频域中进一步细分,每粒度组各个 子带得到的样本同上一个粒度组的同子带的音频数据,通过m d c t 变换成1 8 个系 数,每粒度组总共得到5 7 6 个m d c t 系数。 数字 音频 篡矗差圉m d c t滤波器组e :一 f f t ll 心理声学 1 0 2 4 点卜_ i模型 失真控 制环 非均匀 量化率 控制环 霍夫曼 编码 比特流 格式的 c r c 检验 1 1 望堂堕曼塑里 菊丽 音频流 图2 1m p 3 编码器 经过长度为1 0 2 4 的f f t 变换后,音频信号输入一个心理声学模型,以确定每 个子带中各比例因子频段的信掩比s m r ( s i g n a 一t o - m a s kr a t i o ,信号能量与掩蔽 阈值的比率) 、编码类型、感知熵。量化与编码部分用信掩比s m r 来决定分配给予 带信号的量化位数,在每个子带中,超过信掩比率的量化噪声不会被编码,最后 将编码的音频数据和格式标记及其它数据封装成比特流存储。 2 3 在m p 3 中采用的一些关键技术 2 3 1 分析子带滤波器 分析子带滤波器用来完成音频信号由时域到频域的转换。从信息论的角度来 说,变换编码减少了信息熵,从而可以进行有效编码。变换域编码的优点就在于 通过时域到频域的转换,去除样本的相关性,将散布在时域上的音频信号经过变 换集中起来,在频域内做音频信号的编码,可以实现高效的压缩编码。 分析子带滤波器组以采样频率f 。将音频信号分成3 2 个相等频间的予带,其采 样频率为f ;3 2 。 把音频信号分成子带后进行编码的特点: 1 ) 由于声音频谱的非平坦性,对不同予带合理的分配比特数,就能分别控制 各子带的量化电平数目以及相应的重建误差的方差,使码流更精确地与个子带的 信源统计特性相匹配。针对音频信号,对于低频部分,以较多位比特数来表示样 4 山东大学硕士学位论文 本值以提高精度,分配给高频部分较少的比特数。 2 ) 各子带的量化噪声只存在于子带内部,相互不影响,避免能量较小频带内 的输入信号被其他频段的量化噪声所掩盖。 2 3 2 m d c t 变换 m p 3 算法由a s p e c ( a u d i os p e c t r a lp e r c e p t u a l e n t r o p yc o d i n g ) 和o c f ( o p t i m a lc o d i n gj nt h ef r e q u e n c yd o m a i n ) 两种算法来加强,在m p 3 编码中, 通过m d c t 交换进一步将频率输出的子带数据做细分,使得进行编码的各比例因子 带( s c a l e f a c t o rb a n d ) 与临界频带相匹配,从而获得更好的频率分辨率。 根据从心理声学模型得到每粒度组数据的编码块类型,由子带滤波器输出的 子带样本需要进行不同长度的m d c t 变换。对于每个子带,每一个粒度组输出1 8 个样本,加上上一个粒度组的1 8 个样本值,一共3 6 个样本作为次m d c t 变换的 输入。 m d c t 变换的窗口长度分别是3 6 样本的长窗口和1 2 样本的短窗口,连续的变 换窗口有5 0 的重叠。长窗口有较高的频率分辨率,用于稳态信号的处理,而短窗 口提供较好的时间分辨率,用于瞬态信号的处理。 短窗口是长窗口的三分之一,在短窗口的模式。可用三个短窗口来代替一个 长窗口,所以m d c t 变换采用何种窗口对每帧的取样数大小没有影响。对于一帧音 频信号,m d c t 变换的区块大小可以全是单一模式( 长的或短的) 。也可以是混合模 式的,在混合模式下,m d c t 变换对两个较低频的子带输出样值采用长窗口的模式, 而对其余3 0 个子带的输出样值采用用短窗口的模式。这样,对于一个音频信号来 说,我们既提供了较好的频率分辨率,又提供了较好的时间分辨率。 2 3 3m p 3 标准采用的心理声学模型 在m p 3 中,采用心理声学模型以计算得到滤波器组各子带内所允许的噪声最 大值,即各子带内的掩蔽阈值。对于通过子带滤波器组输出的频谱量化后产生的 噪声,如果能够控制在掩蔽阈值以下。那么我们得到的m p 3 音频数据在被解码后 与原始音频数据在听觉上是相同的。 信号的掩蔽能力与频率和响度有关,m p e g 一1 建议的心理声学模型最终输出的 是信号信掩比s m r ( s i g n a l t o - m a s kr a t i o ) ,即信号强度与掩蔽阈值的比。其中 的闽值是以频率为自变量得到的。 心理声学模型2 的实现有很大的自由度,在m p 3 标准中,对心理声学模型的 山东大学硕士学位论文 算法进行了相应的修改。此模型每个块运行2 次,并使用5 7 6 个样本的移位长度。 输出是根据子带滤波器组输出后的频谱值重新划分后得到的信掩比。其算法为: 将时频映射后输出的谱值重新分割,把它们分为若干个阈值分区,从而得每个分 区的信掩比。 信掩比的计算过程需要3 个输入量,分别是: 1 ) 信掩比计算过程的转换长度i b l e n ,这里3 8 4 i b l e n 6 4 0 。i b l e n 在所有 门限计算过程的特定应用中必须保持为常数。如果有必要计算两个转换长度的门 限,则需要两个过程,每一个运行在一个固定的转换长度上。 2 ) 信号的最新带采样延迟的i b l e n 样值( 其延迟是在滤波器组中或是在心理 声学中的计算) ,该延迟使心理声学计算窗口集中在应用的时间窗上。 3 ) 采样率。在m p e g 的音频标准定义中提供了几套标准采样率表。采样率在 一个信掩比的计算中必须保持为常数。 在m p 3 算法中,心理声学模型的输出包括:编码类型、每个比例因子频段的 信掩比率和心理声学熵值。 m p 3 算法所采用的心理声学模型的详细计算步骤可以参看( m p e g 运动图象压 缩编码标准( i s o i e ci i l 7 2 ) ,( 机械工亚出版社,杨品、钟玉琢、蔡莲红译) 。 2 4m p 3 中系数的量化和编码 根据心理声学模型的输出的参数值,对m d c t 系数以粒度组为单位进彳亍量化和 比特分配。m p e g - i 使用了三级迭代的循环模型,其流程图分别见附录h 1 ,a 2 , a 3 。最高一级称为帧循环程序,帧循环程序调用一个名为外迭代循环的予程序, 后者又调用内迭代循环子程序。 循环模块在迭代过程中根据几条要求对输入的频谱数据矢量进行量化。内循 环此输入矢量并增加量化步长直到输出矢量能用有效比特数进行编码。当内循环 结束后,外循环检查每个比例因子频带的失真,当超过允许的失真时,扩大此比 例因子频带并重新调用内循环。 2 。5 迭代模块介绍“1 首先,帧循环程序将在该模块中用到的所有迭代变量复位,计算压缩每粒度 组数据所能提供的最大比特数。 6 山东大学硕士学位论文 然后调用外迭代循环,外层迭代循环首先调用内层迭代循环,内循环的目的 是对输入矢量进行量化,通过递增量化步长使量化输出能够在一定的比特位数限 制之内被编码。确定要选择的霍夫曼码表,并对量化频谱进行比特编码。如果比 例因子频带经过量化产生的噪声过大,超出心理声学模型允许的掩蔽阈值,则在 外迭代循环递增比例因子,对该子带进行放大,重新调用内循环,使量化满足要 求。一旦满足要求,存储每个比例因子频带的比例因子数值,跳出外迭代循环。 在帧循环程序中计算存储每粒度组数据所用的比特位数。 循环模块的输入变量为: 1 ) 经过m d c t 变换后的频谱矢量x r ( i ) ,0 i 5 7 5 ; 2 ) 每个比例因子频带允许的最大失真x n f m f s b x m i n ( s b ) = r a t i o ( s b ) e n ( s b ) l b w ( s b ) 在这里,r a t i o 为对应的每个子带心理声学模型输出的信掩比,e n 对应为m d c t 域中的比例因子频带的能量,6 w 为对应子带内m d c t 域中的频谱线条数。 3 ) 长短块选择标志、块类型、混合块标志。它们共同决定比例因子频带的 数量: 4 ) 平均比特数m e a nb i t s ,即霍夫曼编码和比例因子编码所能使用的比特数; 5 ) 除平均比特数外,还需要的比特数m o r e b i t s 它是粒度组的心理听觉熵 要求的,m o r e b i t s = 3 1 p e m e a n b i t s 。 循环模块的输出变量: 1 ) 量化后的矢量i x ( i ) ,0 f 5 7 5 : 2 ) 各比例因子频带的比例因子s c a l e f a c f ( 长块的比例因子) 或s c a l e f a c s ( 短块的比例因子) ,由长短块选择标志、块类型和混合块标志决定: 3 ) 全局增益,包含量化步长信息; 4 ) 末使用的比特数,可留待后续编码中使用: 5 ) 预增强标志。当所有高端的4 个比例因子频带在内循环第一次调用后, 实际失真超过了闽值,则将预增强开关切换到开,根据标准给出的预增强表来增 强频谱的高端部分: 6 ) 相关辅助信息,如霍夫曼码表的选择、编码区域边界等。 山东大学硕士学位论文 2 6 三级迭代循环模块算法流程 2 6 1 帧循环 帧循环的流程图见附录a 1 。 1 ) 计算平均比特数 每个粒度组的平均比特数是通过帧的大小来计算的。当输出位率为6 4 k b p s , 若采样率为4 8 k h z 时,则每粒度组5 7 6 个样本可占用7 6 8 比特,从中减去单通道 时的头信息3 2 比特和附加信息1 7 字节( 1 3 6 比特) ,由于一帧中两个粒度组共用 头信息和附加信息,则留给个粒度组的主数据的平均有效比特数为: m e a n b i t s = 7 6 8 一( 3 2 + 1 3 6 ) 2 = 6 8 4 b i t 2 ) 复位所有迭代变量 在比例因子编码部分,将长块或短块的比例因子s c a l e f a c - f 、s c a l e f a c s 分别 设置为o ;量化步长q q u a n t 设置为o ;预增强标志设置为0 ;计算q u a r t t a n f 的初 始值: q u a n t a n f = s y s t e m c o n s t + l o g 。( s f m ) 其中,s y s t e m c o n s t 的选择要使得对所有的信号内循环的第一次迭代所产 生的比特和高于要求的比特和,这样就能保证内循环的第一次调用使用尽可能多 的有效比特。频谱平直性度量s f m 的值则依赖于输入样本频谱矢量的计算,其度量 计算如下: 。将w 州0 1 j s f r o = j i :广一 言善”( f ) 2 3 ) 计算比例因子选择信息s ( 洒f 在m p 3 算法标准中,将一帧数据分为两个粒度组来处理,第一组粒度组数据 各比例因子频带的比例因子需要编码传送,它的比例因子能否被第二个粒度组利 用,需要通过计算来判定。当满足算法规定的标准时,设置s c f s i 为1 ,不传送第二 组的比例因子:若不满足m p 3 算法规定的标准,设置s c f s i 为o ,第二组的比例因子 须单独计算和传送,该选择信息充分利用了两个粒度组的相关性来减少编码位数。 4 ) 调用外循环,当外循环结束时,计算未用的比特数,存储到眈特池中待用, 返回处理下一帧数据。 山东大学硕士学位论文 2 6 2 外迭代循环: 外迭代循环又称为失真控制循环,它控制在内迭代循环中由谱线量化引起的 噪声。通过给比例因子频带分配比例因子来对量化噪声进行整形,若某频带的量 化噪声超过了允许的掩蔽阈值,则递增比例因子,放大该频带内的所有谱线。如 果所有频带的量化噪声都在允许范围内,则外迭代循环结束,流程图见附录a 2 。 具体算法如下: 1 ) 保存比例因子 所有比例因子频带的比例因子与量化步长一样,需要保存。如果外循环未能 计算出合适的结果就被取消,该值将作为一个近似值同量化后的频谱值一起传送; 2 ) 调用内循环对频谱值进行实际的量化,并得到编码实际使用的比特数; 3 ) 比例因子频带的失真计算 x f s f ,蔫卜1 螋嵫骁 其中:i b l ( s b ) 表示在一个比例因子频带中的最低频率的系数的数值,b w ( s b ) 表 示在此频带中的系数数目。 4 ) 当预增强开关切换到开时,按照标准规定的预增强表对频谱的高端部分进 行增强; 5 ) 放大超出掩蔽阈值的比例因子频带,若一个比例因子频带的失真超过了允 许值,则此频带内所有频谱都加权一个比例因子,重新量化。需要注意的是,当 第二个粒度组与一粒度组共用同一比例因子时直接从前一粒度组中提取因子, 不再调整该因子。 6 ) 循环终止条件:通常情况下,如果没有比例因子频带的失真超过心理声学 模型允许的闽值,则循环过程正常终止。同时m p 3 标准还规定在以下两种情况下 终止循环。一是所有频带的比例因子都已经被放大:二是至少有一个比例因子的 扩大超过了此比例因子的传输格式所规定的上限,该上限是一个缩放因子,在标 准中有具体规定。 2 6 3 内循环迭代: 内循环迭代对频域数据进行实际的量化并为格式化作准备。霍夫曼码表的选 择、大值区的划分、量化步长的选择都在这罩完成,( 流程图见附录a 3 ) 。 频谱值的量化公式为: 9 山东大学硕士学位论文 打c 。= i n t ( ( i 了i i :;:;b 。”一。4 s 最大量化值是有界限的。当量化后的频谱最大值超出编码范围时,则增大量 化步长,重新量化,直至最大值小于编码上限为止。量化满足基本要求之后,确 定对量化谱线进行霍夫曼编码所需的比特数,需要通过递增量化步长来保证所用 的比特数少于每粒度组可提供的最大比特数。 对于高频区量化值为0 的频谱不编码,这部分称为“0 区”;紧接着第一个不 是零的数值开始计算量化值的绝对值不大于l ( 1 ,0 ,一1 ) 的值的长度,这一部分 称为“小值区”。小值区的量化值是以4 个为一组进行霍夫曼编码的,共有m 组, 标准为这一部分提供了2 个霍夫曼码表以供选择。 剩下的部分是“大值区”。霍夫曼编码对这一部分是成对编码的,共有n 对。 这一部分有分成2 个或3 个区域,这是对大值区的进一步细分,从而获得更高的 错误恢复能力和更好的压缩效果。在长块编码时,大值区被分成三个区域( 0 区、 1 区、2 区) ,具体分割可灵活选定。实际运用时,可以选择比例因子频带的前1 3 作为0 区,后1 4 作为2 区,中间部分作为1 区。在短块编码时,大值区按标准 规定值分为两个区。标准提供了3 2 个不同的霍夫曼码表,每个分区单独采用不同 的表进行编码。 山东大学硕士学位论文 第三章数字音频的水印技术 3 1 数字水印技术概述 数字水印技术是将具有鲁棒性的秘密信息( 即水印) 嵌入到原始媒体中来证 实数据的所有权归属的一种技术“1 。数字水印可以分为可感知水印和不可感知水 印两种情况。不可感知水印是一种应用极为广泛的水印,与可感知水印相反,它 加在音频、图像或视频当中,从人的感知上是不可察觉的。但是当发生版权纠纷 时,所有者可以从中提取出标记,从而证明物品为某人所有。 对于多媒体水印来说,不同的水印应该能够满足不同的需求但它们应具有 的基本特征必须包括: 安全性 数字水印中的信息应是安全的,难以被篡改或伪造;同时,数字水印应具有 较好的检测性能,有比较简单的检测方法。 不可感知性 水印加在图像或音、视频当中对人的感知来说是不可察觉的,但是当发生版 权纠纷时,所有者可以从中提取出标记,从而证明物品的版权归属。 鲁棒性 是指加入的水印应当难以被除去,在不了解全部的数字水印信息的情况下, 试图除去或者破坏数字水印会导致媒体严重的降质而造成信息的破坏。嵌入在媒 体中的水印对一般常用的信号处理以及一般的几何变换( 仅对图像和视频而言) 具有一定的稳健性。 对水印最基本的要求是水印的不可感知性和鲁棒性。 而脆弱性水印或易碎水印具有它的特殊性,当加水印的多媒体信息或文本数 据被修改时,所加载的数字水印就会被改变或者破坏,通过对脆弱水印进行的检 测可以对数据信息的真实性进行检验。 3 2 数字音频水印的模型 数字音频水印系统框图如图3 1 所示 t 4 y 代表用户特定信息的水印数据用水 印嵌入器嵌入到原始音频信号中。嵌入水印的音频信号可以用与原始音频信号相 山东大学硕士学位论文 同的方式传输、存储和使用,任何已有的音频播放器都可以顺利地播放嵌入水印 的音频信号而不需做任何的改变,用水印提取器可以从嵌入水印的音频信号中提 取嵌入的水印信息。 水印数据 嵌入水印 音频信号 图4 1 数字音频水印系统模型图 3 3 数字音频水印的分类 对数字音频水印可以从不同的角度进行分类,下面给出数字音频水印算法的 详细分类,讨论各种方案的优缺点,对数字音频水印算法的研究现状进行全面介 绍。 3 3 1 从音频水印的实现算法上分类 数字水印方案的三个要素是数字水印本身的结构、加载水印的位置和数字水 印的检测。水印的结构一般包括两部分:一是水印所含有的具体信息,如版权所 有者、使用者等信息,二是伪随机序列或类噪声序列以表示水印的存在与否。大 多数数字水印方案的水印结构仅包括其中之一,这与数字水印的实现方法和使用 场合有关。数字水印的检测方法通常采用直接检测或相关检测,也有采用最大后 验概率检测的数字水印方案。根据数字水印加载方法的不同,数字水印可分为空 间域水印和变换域水印。 1 ) 时域数字音频水印 时域数字音频水印算法是在时域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论