(通信与信息系统专业论文)基于音频lcm特征的音频水印和指纹算法.pdf_第1页
(通信与信息系统专业论文)基于音频lcm特征的音频水印和指纹算法.pdf_第2页
(通信与信息系统专业论文)基于音频lcm特征的音频水印和指纹算法.pdf_第3页
(通信与信息系统专业论文)基于音频lcm特征的音频水印和指纹算法.pdf_第4页
(通信与信息系统专业论文)基于音频lcm特征的音频水印和指纹算法.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(通信与信息系统专业论文)基于音频lcm特征的音频水印和指纹算法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于音频l c m 特征的音频水印和指纹算法 基于音频l c m 特征的音频水印和指纹算法 专业:通信与信息系统 硕士生:麦少练 指导教师:康显桂副教授 黄继武教授 摘要 近年来,数字化和互联网技术的快速发展,为人们复制和传输各种数字音 频提供了有利途径,使得网络上出现了海量的音频多媒体信息。技术的进步为 我们的生活带来了极大的便利,但也引起了其他问题,如音频作品的安全问题 和如何在海量的音频多媒体信息中快速地查找所需的音频信息等。对于前者, 音频水印作为一种保护音频的技术手段,具有十分重要的应用前景。对于后者, 以基于音频内容自动进行音乐信息检索的数字音频指纹技术成为了近年来的研 究热点。然而,在音频水印和指纹算法的研究中,仍然存在着许多有待解决的 关键问题。 针对对数映射的不可逆变换特性,l c m 特征只对音频的傅立叶幅度系数下 标进行对数坐标映射而不改变系数,从而避免了对数采样引起的失真。本文针 对基于l c m 特征音频水印的鲁棒性进行了研究,并提出了基于l c m 特征的音频 指纹算法,论文的主要内容包括: 1 研究基于l c m 特征的音频水印算法,该算法不仅能很好的抵抗低通滤 波等常见的信号处理操作,而且能同时抵抗多种同步攻击和d a a d 变换。 2 提出一种基于l c m 特征的鲁棒音频指纹算法。该算法的创新点在于提取 音频的l c m 特征后,结合伪随机序列来生成音频指纹。我们采用比较音频指纹 之间的误码率来对音频进行识别。实验结果说明,本文算法在提取较短的音频 指纹长度的前提下,与飞利浦研究院开发出的基于音频内容特征的鲁棒音频指 中山大学硕士学位论文 纹系统相比鲁棒性有所提高,能抵抗士l o 的t s m 攻击。 关键词:音频水印,音频指纹,l c m 特征,鲁棒性 基于音频l c m 特征的音频水印和指纹算法 a u d i ow a t e r m a r k i n ga n df i n g e r p r i n t i n g 一 一一 一 ba s e do nl c mc h a r a c t e r i s t i c s m a j o r :c o m m u n i c a t i o na n di n f o r m a t i o ns y s t e m s n a m e :m a is h a o l i a n s u p e r v i s o r s :v i c ep r o f k a n gx i a n g u i p r o f h u a n gj i w u a bs t r a c t i nr e c e n ty e a r s ,t h ed e v e l o p m e n to fd i g i t i z a t i o na n di n t e r a c tt e c h n o l o g yp r o v i d e af a v o r a b l ew a yf o rp e o p l et oq u i c k l yc o p ya n dt r a n s f e ra l lk i n d so f d i g i t a la u d i o ,s o t h a tt h e r ei sm a s s i v ea u d i oi n f o r m a t i o no nt h ei n t e r a c t i ti sb e n e f i c i a lt oo u r d a i l yl i f c b u ta l s or a i s e so t h e ri s s u e s ,s u c ha sc o p y r i g h tp r o t e c t i o na n dh o wt os e a r c ht h e s p e c i f i ca u d i oc o n t e n tm u c hf a s t e r f o rt h ef o r m e r , a u d i ow a t e r m a r k i n gt e c h n i q u ea sa m e a no fp r o t e c t i o ni sd e v e l o p e df a s t f o rt h el a t t e r , t h et e c h n i q u ec a i l e x la u d i o f i n g e r p r i n t i n gi sa p p l i e dt oa u t o m a t i cr e c o g n i t i o no fm u s i cc o n t e n t ,a n db e c o m e sa h o t s p o ti nt h er e s e a r c ha n dd e v e l o p m e n tf i e l d s h o w e v e r ,t h e r ea r es t i l ls o m ek e y i s s u e sw a i t i n gt ob er e s o l v e di nt h er e s e a r c ho fa u d i ow a t e r m a r k i n ga n df i n g e r p r i n t a l g o r i t h m a st ot h el c mc h a r a c t e r i s t i c s ,i t se x t r a c t i o ni so n l ya p p l i e dt ot h ef r e q u e n c y i n d e x ,n o tt ot h ef o u r i e rt r a n s f o r i l lt o e m c i e n t s ,w h i c ha v o i d st h er e c o n s t r u c t i o n d i s t o r t i o no fi n v e r s el o g p o l a rt r a n s f o r ma n dr e d u c e st h ec o m p u t a t i o nc o s t , s ow ec a l l c a l lt h a tl c mt r a n s f o r m a t i o nh a st h ei r r e v e r s i b l ec h a r a c t e r i s t i c s i nt h i st h e s i s ,w e r e s e a r c ht h er o b u s t n e s so fa u d i ow a t e r m a r k i n gb a s e do nl c mc h a r a c t e r i s t i c sa n d p r o p o s ean e wf i n g e r p r i n t i n ga l g o r i t h m t h em a i nc o n t r i b u t i o n so f t h i sp a p e ra r ea s f o l l o w s : i i i 中山大学硕士学位论文 1 r e s e a r c ht h er o b u s t n e s so fa u d i ow a t e r m a r k i n ga l g o r i t h mb a s e do nl c m c h a r a c t e r i s t i c s t h i sa l g o r i t h mc 觚n o to n l yb e t t e rr e s i s tt oc o m m o ns i g n a lp r o c e s s i n g o p e r a t i o n s ,s u c ha sl o w p a s sf i l t e r , b u ta l s ot os y n c h r o n i z a t i o na t t a c k sa n dd a a d c o n v e r s i o n s 2 p r o p o s ear o b u s tf i n g e r p r i n t i n ga l g o r i t h mb a s e do nl c mc h a r a c t e r i s t i c s i n o u ra l g o r i t h m ,w em a k eu s eo fp s e u d o - r a n d o ms e q u e n c et og e n e r a t et h ea u d i o f i n g e r p r i n t sa f t e rt h ee x t r a c t i o no fl c mc h a r a c t e r i s t i c s t h ea u d i oa r em a t c h e db y c o m p a r i n gt h eb i te r r o rr a t e ( b e r ) b e t w e e n t h eu n l a b e l e da u d i of i n g e r p r i n t sa n dt h e a u d i of i n g e r p r i n t d a t a b a s e c o m p a r i n g w i t ht h ec o n t e n tb a s e dr o b u s ta u d i o f i n g e r p r i n t i n gs y s t e mw h i c hw a sd e v e l o p e db yp h i l i p sr e s e a r c hi n s t i t u t e ,w ee x p l o i t s h o r t e rl e n g t ho ft h ea u d i of i n g e r p r i n t ,a n de x p e r i m e n tr e s u l t ss h o wt h a to u r a l g o r i t h mh a s m a d ea l l i m p r o v e m e n t i nt h er o b u s t n e s s a g a i n s t t i m e - s c a l e m o d i f i c a t i o n ( t s m ) w i t h o u tl o s i n go t h e rp r o p e r t i e s t h i sm e t h o dc a nr e s i s tt h et s m u pt o 士l o k e y w o r d s :a u d i ow a t e r m a r k i n g ,a u d i of i n g e r p r i n t i n g ,l c mc h a r a c t e r i s t i c s , r o b u s t n e s s i v 基于音频l c m 特征的音频水印和指纹算法 图表目录 图1 1 基于内容的音频识别系统框架。2 图2 1 数字音频水印系统8 图3 1 基于内容的音频指纹识别系统框架j 1 7 图3 2 指纹提取框架:前端处理和指纹建模1 8 图4 1 水印嵌入区域的选择2 4 图4 2 水印嵌入框架图2 8 图4 3 水印嵌入过程中的对数坐标映射示意图2 9 图4 - 4 水印提取框架图3 0 图4 5 原始音频波形3 2 图4 6 嵌入水印后的音频波形3 2 图4 7d a a d 测试环境( 单声道) 3 8 图4 8a 点所录制波形图3 8 图4 9b 点所录制波形图3 9 图5 1 飞利浦模型的指纹算法流程图4 l 图5 2 基于音频l c m 特征的音频指纹算法流程图4 3 图5 3 飞利浦音频指纹算法b e r 分布直方图4 6 图5 4 基于音频l c m 特征的音频指纹算法b e r 分布直方图4 6 图5 5 飞利浦音频指纹算法b e r 概率分布图4 7 图5 - 6 基于音频l c m 特征的音频指纹算法b e r 概率分布图4 7 图5 7t s m 攻击( 4 ) 的r o c 曲线( a ) 曲线全图( b ) 局部放大图4 8 图5 8 四种算法抗t s m 攻击的r o c 曲线( a ) 曲线全图( b ) 局部放大图4 9 表2 - lo d g 客观评分标准1 3 表2 2 主观差异评级标准13 表4 1 音频水印质量评估3 2 表4 2 对常见攻击、操作的鲁棒性测试3 4 表4 3 对随机剪切和抖动攻击的鲁棒性3 4 表4 - 4 基于s t i r m a r kb e n c h m a r kf o ra u d i o 的鲁棒性测试。3 5 表4 5 对t s m ( p i t c hs h i f t 、t i m es t r e t c h 和r e s a m p l e ) 攻击的鲁棒性测试3 7 表4 6d a a d 转换实验测试3 7 表4 7 与文献 1 6 】所提算法的比较3 9 表5 1 对各种信号处理的鲁棒性测试5l v 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人 和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本 人承担。 学位论文作者签名:麦少倍、 日期:2 0 jo 年岁月;1 日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保 留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权 将学位论文用于非赢利目的的少量拷贝并允许论文进入学校图书馆、院系资料 室被查阅,有权将学位论文的内容编入有关数据库进行检索,可以采用复印、 缩印或其他方法保存学位论文。 学位论文作者签名:菱少潴、 日期:2 0 l o 年f 月31 日 导师签名:、暴迳记 日期:口l d 年岁月;j 日 基于音频l c m 特征的音频水印和指纹算法 1 1 研究背景 第1 章绪论 随着网络技术和数字化等技术的高速发展,使得当今社会的信息领域具有 网络化、数字化等特点。多媒体技术作为信息处理的一个重要内容,多媒体信 息在快速传播的同时,也使得非法拷贝、伪造等行为难以遏制。数字水印技术 作为一种对媒体作品的内容和版权进行保护的有效手段,受到国内外研究人员 的广泛关注。 一般说来,数字水印技术具有两个最基本的特性:不可见性和鲁棒性。不 可见性要求在不影响被保护数据正常使用的情况下,将水印信息嵌入作品后仍 具有很好的视觉或听觉效果。鲁棒性则要求水印在经过多种信号处理( 如旋转、 缩放、裁减、压缩等) 或者遭受各种恶意攻击后仍能可靠的提取出水印【l 】。 随着数字音频水印技术日渐成熟,其作用领域已经不仅仅局限于版权保护, 在广播监控、内容认证、指纹鉴别、拷贝控制和内容注释等领域也有所应用, 所附载的数字媒体作品包括音频、视频、图像和文本等。但与图像和视频水印 技术相比,数字音频水印技术面临的挑战却更加严峻,这是因为一方面人的听 觉系统比视觉系统具有更高的灵敏度,另一方面由于互联网上众多的音频编辑 工具对音频水印的生存构成了严重威胁 2 1 。 除数字水印可用于版权保护外,数字指纹在这方面的运用也得到了普遍认 可。由于音频压缩技术和i n t e r n e t 技术的不断发展及大容量存储器的出现,以 m p 3 为代表的网络音乐在互联网上广泛传播。面对网络中出现的海量音频信息, 以往用手工选取特定内容声乐信息的传统手段显得更加乏力,因而以基于音频 内容自动进行音乐信息检索c b m i r ( c o n t c n t b a s e dm u s i ci n f o r m a t i o nr e t r i e v a l ) 的数字音频指纹系统就是在这样的背景下诞生的【引。 音频指纹是指通过提取代表一段音乐内容的重要声学特征并结合相应的哈 希算法生成的紧致数字签名【3 1 。使用音频指纹作为基于内容的音频检索系统中相 l 中山大学硕士学位论文 应元数据的索引,可以加快匹配的速度和减少搜索的工作量,让用户快速获得 自己所想要的未知音频内容的元数据( 比如歌曲名称、词曲作者、所属专辑名称 等信息) 。一个音频指纹系统通常由两个部分组成,分别是计算听觉重要特征的 指纹提取算法和在指纹数据库中进行有效搜索的对比算法。基于内容的音频指 纹系统,只需从一段音频中提取出可以代表该段音乐重要声学特征的紧致信息, 将其作为用于识别索引音乐的指纹,并和相应的元数据信息等内容一起存储在 数据库中【4 1 。当音频指纹识别系统接收到用户提供的未知音频片段时,需先计算 出该段未知音频的指纹,再将所得指纹与数据库中已存在的指纹信息进行对比 并匹配。一个鲁棒的音频指纹识别系统,即使遇到经过不同失真版本的音频内 容也能将其准确识别,并将音频的歌名等信息返回给用户r 5 1 。 音频指纹技术的实际运用主要体现在如下几个方面【6 】: ( 1 ) 音乐识别:这是音频指纹技术最典型的应用,其识别的原理与人耳识别 音乐的过程相似,基本框架如图1 所示。首先使用音频指纹提取算法在离线状态 下将大量音乐作品的指纹计算出来作为索引,连同与各指纹相对应的一些重要 的元数据信息( 如歌曲名称、所属专辑、词曲作者、歌词等) 一并存储到数据库中。 识别未知音乐时,则需用相同的音频指纹提取算法先计算出未知音频的指纹, 再将所得指纹与数据库中所存储的指纹进行比对,如果查找成功则返回该未知 音频的相关元数据信息给查询者【5 j 。 音乐集 元数据 未知 音频 图1 1 基于内容的音频识别系统框裂5 1 2 基于音频l c m 特征的音频水印和指纹算法 ( 2 ) 基于内容的音频检索和处理:音乐检索系统所面i 临的关键问题包括两个 方面,一是如何从复杂的多媒体信息中提取出音频指纹,二是如何建立一个高 效的搜索系统。音频指纹系统从音频信号中提取出不同层次的重要信息,如旋 律、节拍、音色、和声等便作为高层信息【3 j ,其目的是将音频指纹技术的应用范 围从单一的音频内容检索扩大到相似检索【5 】。例如,从一首原版音乐中提取的指 纹不仅要能用于识别自身,也要对该音乐的不同演唱或演奏版本予以准确识别 【7 1 【8 1 o ( 3 ) 内容完整性认证:内容完整性校验的目的在于检测恶意操作对音频数据 的窜改。认证过程包括两步,第一步是从原始音频中提取指纹,既可以将所提 取的指纹存入数据库中,也可以以头文件的形式附加在原始音频上,还可以采 用水印方法嵌入到原始数据中【们。第二步则是在认证端用同样的指纹提取算法从 待认证的音频中提取指纹与原始指纹信息进行对比,即可检测出待认证的音频 内容是否被窜改以及窜改的方式。此外,也可以采用半脆弱水印技术来进行内 容完整性认证,但因该技术涉及版权的水印信息,而该信息一般只有发行者拥 有,所以其应用范围有耐1 0 1 。 ( 4 ) 水印辅助技术:音频指纹技术可以作为水印技术的辅助手段。例如,利 用指纹检测技术在音频流中找到锚点来重新同步水印信息的嵌入和检测区域, 从而协助抵抗针对水印的去同步攻击】。此外,在一些实际应用中,若对许多 音频使用相同密钥则容易引起信息的泄露,因而解决单一密钥问题的一个可行 办法便是利用音频指纹技术产生基于内容的音频指纹作为密钥,不同音频内容 所提取的指纹是不同的,密钥的多样化有助于防拷贝、共谋等攻击,从而提高 了水印的安全性【1 2 】。 1 2 研究现状 数字音频水印算法可谓层出不穷,其面临的攻击也与日剧增。在数字音频 水印的研究工作中,根据对音频信号的同步结构的影响一般把攻击分为两类: 第一类是不显著影响音频信号的同步结构,如m p e g 压缩、滤波、重采样、重 量化等常见的音频信号处理操作;第二类是攻击会损坏音频信号的同步结构, 中山大学硕士学位论文 如随机剪切、抖动攻击、变调、时间缩放等【2 】。目前大多数音频水印算法主要针 对第一类的攻击类型来设计的。然而,与常见的音频信号处理攻击相比,同步 攻击更加难以抵抗。现有的能较好地抵抗同步攻击的音频水印算法比较少,在 文献【2 】中有较详细的介绍,下面本文对几种较典型的算法做一简单概述。 文献【1 3 】在现有的图像和视频水印技术的基础上提出了一种鲁棒的音频水 印算法。该算法在频域轻微调节离散傅立叶系数,再在时间域进一步对水印进 行整形后嵌入,实验结果表明该算法能较好的抵抗m p 3 压缩、滤波、回声、士4 的t s m 、重采样、噪声等攻击。 文献d 4 运用了几种新技术在音频数据中嵌入和检测直接扩频序列水印信 息。这一举措既有效地提高了检测的准确性、水印的不可感知性,又增强了水 印抵抗同步攻击和消除攻击的能力。该算法不仅能抵抗重采样、重量化、去噪、 滤波等常规信号处理的攻击,而且对由于转速不均匀的抖晃引起的时间和频率 缩放攻击也取得了较好的效果。 文献 1 5 】提出一种鲁棒音频水印算法。嵌入时先将短时d f t 在时频平面上分 割成各个小区域,并在各个小区域中计算和处理幅度系数,实验结果表明其对 抖晃、随机剪切、变调等同步攻击具有较强的抵抗力。 文献【1 6 】提出一种局部化鲁棒音频水印技术。局部化是指选择代表音乐边缘 的高能量局部区域作为水印的嵌入区域,这是因为音乐边缘的局部区域信息在 t s m 攻击下比较容易保存下来。该算法将抵抗t s m 攻击的性能提高到士1 5 ,但 因要求嵌入水印的音乐具有比较明显的节奏变化,所以该算法有较大的应用范 围限制。 文献 1 7 】中分析和验证了音频直方图形状和均值是两个对时域伸缩非常稳 健的音频特征,并在此基础上提出了一种基于z e m i k e 矩的稳健音频水印算法。 为了达到抗音频能量变化的目的,该算法需先用音频均值来选择生成直方图的 音频幅值范围,再结合直方图形状的时域伸缩不变性,将水印信息嵌入在三个 连续的b i n 样本数量的相互关系上。实验表明其能抵抗士3 0 的t s m 和随机剪切 等攻击。此外,作者等人通过研究发现,d a a d 变换下的主要失真为幅值失真 和时间轴上的线性伸缩,进而初步建立了d 脚变换的失真模型。 4 基于音频l c m 特征的音频水印和指纹算法 以上几种算法大多是针对某一种同步攻击,其同时抵抗多种同步攻击的性 能并不理想,抗组合同步攻击仍然是数字水印领域一个有待解决的难题。此外, 在音频水印的研究中,仍然存在着许多有待解决的关键问题。如在许多音频水 印的应用中,对音频水印在模拟环境下的生存能力提出了要求,这就涉及到 d a a d 变换【1 7 1 ,现有的大多数音频水印算法还不能很好地抵抗d a a d 变换的攻 击。 与数字音频水印技术不同,音频指纹技术发展的较晚,关于音频指纹技术的 文献相对而言较少。音频指纹技术作为一个多学科交叉的领域,其涉及的相关 领域包括:信息检索、模式识别、信号处理、数据库、密码学与音乐识别等网。 音乐识别作为音频指纹技术最早期的应用,目前已经步入了实际运作的商业化 阶段,下面简单回顾一下其相关的商业化历程【3 】: ( 1 ) 2 0 0 2 年8 月份,英国s h a z a m 娱乐有限公司采用了基于不同的音频指纹 技术向用户提供了音乐识别服务【1 8 1 。 ( 2 ) 2 0 0 4 年,美国的g r a c e n o t ei n c 与飞利浦研究院( p h i l i p sr e s e a r c h ) 联合开 发出名为“g r a c e n o t em o b i l e ”的软件,这款软件结合了飞利浦音频指纹匹配技 术和g r a c e n o t e 的“波形指纹信息数据库”,从而构建起一个良好的音频检索服 务平台【1 9 1 。 ( 3 ) 西班牙通信运营商a m e n a 公司也采用p h i l i p s 的音频指纹技术向其用户 提供一种命名为m u s i w a v e 的音乐识别服列2 0 1 。 ( 4 ) 北京的酷我科技有限公司开发了一种名为“酷我m p 3 伴侣”的音乐识 别软件,并建立了大型音频指纹数据库系统,使用户通过互联网便可对未知的 m p 3 音乐进行歌名、歌手等信息的识别【2 l 】。 由此可见,音频指纹技术在音频识别上具有良好的商业应用前景。但是,除 了音乐识别外,数字音频指纹技术的典型应用还包括了音频内容控制和跟踪、 增值服务、完整性校验系统和其他应用。音频内容控制和跟踪的应用又可进一 步细分为发行端监控、传输信道监控和消费者端监控等三个方面【3 1 。发行端监控 是指内容发布者查询电台音乐数据库中某一段音乐的播放权限。传输信道监控 中山大学硕士学位论文 是指版权所有者监控电台所播放的音乐是否已支付版权费,并对播放的次数和 时间等进行统计。其中,广告商监视电台是否按协议播放广告内容等就是传输 信道监控的一个典型例子。消费者端监控则是用音频指纹识别歌曲后对歌曲在 c d 、d v d 、m p 3 等电子设备上的播放行为进行控制,达到防止消费者错误使用 音频信号的目的【3 】【5 】。增值服务是指媒体数据库中的元数据信息可以按照不同的 目的组织存储,不同的用户可以正确检索到各自感兴趣的信息。完整性校验系 统是指在播放前检测音频信号是否过度失真或遭受修改,以保证所播放内容的 完整性【3 1 。 虽然许多学者提出了不同的音频指纹算法,但它们的共同点是都基于图1 1 所示的框架模型,不同点主要表现在特征选取、指纹建模、指纹的相似性度量、 数据库的快速查找机制等方面【3 】。例如,若按照特征选取来划分,可以将现有的 音频指纹算法划分为两类:语义特征类指纹和非语义类指纹,前者是基于感知 类音频特征,而后者是基于物理类音频特征。目前大多数文献趋向于采用非语 义类特征,因而在指纹提取算法有很多的共性,比如在提取指纹时一般都是对 音频信号进行分帧处理,对每一帧计算一系列特征,这些特征需要对各种音频 信号处理至少在一定程度上保持不变【3 1 。目前,所提出的音频特征包括了傅立叶 系数d f t t 2 2 1 、迈尔倒谱系数m e lf r e q u e n c yc e p s t r a lc o e f f i c i e n t s ( m f c c ) t 2 3 1 、频谱 平滑度s p e c t r a lf l a t n e s s :4 、尖锐度s h a r p n e s s 2 q 、线性预测编码系数l i n e a r p r e d i c t i v ec o d i n g ( l p c ) t 2 4 】等,还有这些基本量的导出量如均值和方差等。每帧计 算出的指纹叫做子指纹( s u b f i n g e r p r i n t ) ,一个子指纹通常不包含足够的信息来进 行音频匹配,需要多少秒的音频来匹配整个未知音频的单元叫做指纹块,即指 纹粒度【3 】。 1 3 本文内容 本文主要研究基于l c m 特征的数字音频水印算法,并在此基础上提出了基 于l c m 特征的音频指纹算法。论文的主要内容安排如下: 第一章绪论,概括介绍了论文课题的研究背景及其研究与应用现状。 第二章主要介绍了数字音频水印的相关理论,包括音频水印的框架,数字 6 基于音频l c m 特征的音频水印和指纹算法 音频水印的算法的分类,音频水印的攻击及对策,数字音频水印的评价标准等。 第三章主要介绍了数字音频指纹的相关理论,包括音频指纹的概念和性质, 音频指纹基本框架,音频技术和水印、哈希函数的区别,指纹提取算法概述, 相似性衡量标准及搜索算法概述。 第四章研究基于l c m 特征的音频水印算法,并详细介绍了该算法的原理和 实现过程。实验结果表明,该算法不仅能很好的抵抗低通滤波等常见的信号处 理操作,而且能同时抵抗多种同步攻击和d 刖a d 变换。 第五章提出一种基于l c m 特征的鲁棒音频指纹算法。该算法的创新点在于 提取音频的l c m 特征后,结合伪随机序列来生成音频指纹。我们采用比较音频 指纹之间的误码率来对音频进行识别。实验结果说明,本文算法在提取较短的 音频指纹长度的前提下,与飞利浦研究院开发出的基于音频内容特征的鲁棒音 频指纹系统相比鲁棒性有所提高,能抵抗士1 0 的t s m 攻击。 最后是本文的结论,总结本文的研究成果与未来的研究方向。 7 中山大学硕士学位论文 第2 章数字音频水印 2 1 数字音频水印的框架 数字水印是一个多学科交叉的领域的新兴研究领域,它涉及了信号处理、 密码学、数学理论、通信理论、编码理论、数据压缩和人类听觉理论等多门学 科【1 。然而,到目前为止,关于数字音频水印技术还没有一个公认的定义,一 般说来,数字音频水印技术是指在不影响原始音频质量的条件下向其嵌入具有 某些特定意义且易于提取信息的技术【2 1 。一个完整的数字音频水印基本模型如图 2 - 1 所示【2 】【2 5 1 ,主要包括水印的嵌入和提取过程。 音频信号 图2 1 数字音频水印系统 从理论的角度看,可以把数字音频水印系统看作是一个通信系统。音频作 品视为信道,水印视为待传输的信号。许多通信领域的理论和技术都可以运用 到信息隐藏及数字水印技术中,如扩频通信、匹配滤波、量化调制和纠错编码 等。虽然水印信道和经典的通信信道很相似,但两者还是有重要区别的【2 】= ( 1 ) 由于对嵌入水印的媒体作品的各种信号处理以及攻击引起的噪声本质的 不同且难以建模描述。 ( 2 ) 人类听觉系统对音频信号的感知特性会对水印信号产生约束,这比传统 通信中简单的l 2 模型复杂得多。这些区别也使通信理论和信息论中的很多理论 结果难以直接运用到水印技术中。 2 2 数字音频水印算法分类 对于数字音频水印算法可以根据不同的标准来划分f 1 7 】【2 6 】f 2 7 】【2 8 】f 2 9 】: 8 基于音频l c m 特征的音频水印和指纹算法 ( 1 ) 按水印检测时是否需要原始音频或者辅助信息可分为盲检测水印和非 盲检测水印。盲检测水印算法的性能较好,而非盲检测水印算法由于检测软件 不需要原始音频或辅助信息便可检测,因而其应用范围较广。 ( 2 ) 按嵌入的有效载荷可以划分为l 比特水印和多比特水印。l 比特水印只 能用来判断载体中“存在水印”和“不存在水印 ,而多比特水印可以是特定 意义的信息,水印比特长度为n ,则可以代表2 n 条不同的信息。 ( 3 ) 按水印抵抗攻击操作的能力可以划分为鲁棒水印和脆弱( 或半脆弱) 水 印。鲁棒水印是指遭受攻击后仍然能够检测获提取水印,因而一般用于版权保 护。脆弱水印具有记录受到的攻击情况的特性,如果水印对采样、滤波等信号 处理是鲁棒的,而对剪切攻击等较敏感,则称之为半脆弱水印。脆弱水印和半 脆弱水印一般用于内容的完整性认证。 ( 4 ) 按水印的作用域可将水印分为时域水印、压缩域水印和变换域水印三 类。时域水印是指在时间域上直接通过修改音频样本值来嵌入水印信息,这类 算法对常规的信号处理抵抗能力较差。变换域水印是指先将音频载体经过d c t 、 d w t 或d f t 等变换方法得到变换系数,再在此基础上通过修改变换系数来嵌入 水印信息。由于在压缩域中嵌入水印信息需去除大部分冗余信息,因而算法的 设计难度较大,这方面的研究相对前两者较少,常见的有m p 3 压缩域和m p e g 2 a a c 压缩域等。 以上几种分类方法是较常见的,还有其他的一些分类方法。但这些方法有些 是相容的,如一个音频水印可以是鲁棒的,也可以是盲检测的,具体的分类由 实际的应用环境来决定。 2 3 对音频水印算法的攻击及对策 2 3 1 数字音频水印的攻击 音频水印技术要实现版权保护,内容认证等功能,就必须具有鲁棒性和安 全性。针对音频水印的攻击可能是有意,也可能是无意的,但归结起来,主要 可以分为三类:安全攻击、普通攻击和同步攻击【2 】【1 7 】【3 0 】【3 1 】【3 2 】【3 3 】【3 4 1 。 9 中山大学硕士学位论文 ( 1 ) 安全性攻击 常见安全性攻击有拷贝攻击、合谋攻击等。此外,还有针对特定水印算法 本身安全性的攻击。这是因为现有的水印技术中普遍采用了密码学中的 k e r c k h o f f s 准则,即水印系统的安全性依赖于密钥的安全性。算法设计者在考虑 水印系统的安全性时,需把算法公开,在这种情况下,专家才能对算法进行研 究和测试,找出算法的安全漏洞,因而攻击者便可在此基础上设计针对特定算 法的攻击,如典型的针对回声隐藏算法的攻击【3 5 l 。目前,这类攻击还很难防范, 学术界对该类型的攻击研究还处于起步阶段。 ( 2 ) 普通攻击 普通攻击主要包括常见的信号处理操作和噪声干扰,其特点是攻击后一般 不会引起音频样本在时域上发生平移。常见的信号处理有m p e g 压缩、滤波、 量化等。噪声干扰可以分为加性和乘性噪声等干扰。目前,大多数音频算法都 是针对这一类攻击来进行设计的,因而都能很好的抵抗这类攻击。 ( 3 ) 同步攻击 这类攻击使得水印音频的样本在时域上出现错位,从而导致水印检测器和 嵌入水印无法对齐,导致检测过程在计算上不可行。该类攻击破坏了水印的同 步结构,这对许多基于相关检测的水印算法提出了挑战。目前很少有算法能同 时抵抗这些攻击,这类攻击类型主要包括以下几个方面: 1 ) 重采样( r e s a m p l i n g ) :通过插值的方法改变原始音频的采样率,例如将一 首4 4 1 0 0 h z 采样率的音频文件转化成为8 0 0 0 h z 的音频。由于转换的比率是固定 的,因而音频样本之间在时间域上的偏移也不是很经常。 2 ) 剪切( c r o p p i n g ) :音频使用者对嵌入水印的音频进行大幅度的裁剪和拼接 操作的行为。 3 ) t s m 攻击:在广告监控或电台中经常会会遇到这种攻击,其特点是在改 变信号的长度的同时不改变基音,或者是在改变基音的同时保持信号的长度。 对人耳而言,遭受攻击的音频水印与原始音频之间几乎没有差别,现有的大多 数水印算法面对这类攻击,在检测水印时会遭受失败。 4 ) d a a d 变换攻击【3 6 1 1 3 7 1 3 s l :在许多音频水印的实际应用环境中,通常涉及 到d a a d 变换,如数字音频信号播放后通过录制设备转录成新的音频文件。音 1 0 基于音频l c m 特征的音频水印和指纹算法 频信号在n 帅转换过程中,受环境、播放和录制设备的性能等因素的影响, 不仅音频样本的幅值会发生变化,样本的位置也会发生平移,因而在设计音频 水印算法时,对鲁棒性提出了更高的要求。 5 ) 抖动攻击( j i t t e r i n g ) :若在音频样本中随机增加或删减一定数量的样本值, 虽然不会引起听觉的失真,但会直接造成了音频样本之间在时间域上的偏移, 从而使水印检测时失同步。 2 3 2 抗同步攻击的解决方案 同步问题对任何数据隐藏技术都是一个很严重的问题,尤其是对一维的音 频信号。目前大多数音频水印算法都是基于位置的,即水印信息嵌入到特定区 域再从该区域检测,同步攻击引起的位移将会使水印检测不能在嵌入位置上进 行,这需要在检测前恢复同步【2 】。c o x 等【3 9 1 人的专著 d i g i t a lw a t e r m a r k i n g ) ) 中 对现有的提出抵抗同步攻击的解决方案进行了总结,现简述如下1 2 】: ( 1 ) 穷举搜索 穷举搜索是音频信号在遭受同步攻击后,检测水印的简单方法。在定义各 个失真参数的变化范围和变化步长,检查参数的每种组合,便可遍历搜索到水 印的嵌入位置从而提取水印信息。因为穷举法具有随着搜索范围的增大其相应 的计算代价也急剧增大的特点,因而一般在小范围内搜索才比较有效。 ( 2 ) 自相关 在实际应用中,自相关是指将具有自相关性质的待嵌入数据一方面作为负 载数据,另一方面又作为同步模板。作品的自相关在零处具有一个典型的大峰 值,而在非零处迅速衰减。常用到的几种相关度量方法包括:线性相关、归一 化相关和相关系数。 ( 3 ) 显式同步 此类方法在嵌入水印信息的数据负载之外加上一个同步标记。检测过程中, 需先找到同步模板,再通过比较攻击前后的同步标记来识别媒体作品所受到的 攻击,将这些攻击逆转后再提取水印信息。 ( 4 ) 不变水印 1 l 中山大学硕士学位论文 该方法的特点是找出对各种攻击不敏感的特征用于水印嵌入来达到抵抗攻 击的目的,因而所提取的特征对攻击的不敏感程度就成为提高水印系统鲁棒性 的关键。 ( 5 ) 隐式同步 与显式同步相比,该方法是使用载体本身的实际特征来标识水印的嵌入区 域,而不是外加的同步数据,所以称之为隐式同步。与恒定水印相似,所提取 特征如音调、节拍、过零率等,只要满足在各种攻击下保持基本不变的特性, 都可以用于隐式同步。 2 4 音频水印算法的评价标准 2 4 1 感知质量评测标准 水印系统的要求之一是水印的不可感知性,所以在水印系统性能测试中需要 对嵌入水印的音频信号的感知质量进行评价。评价包括了对音质的评价和失真 的评价【3 5 1 。常用的评价方法主要有两种:客观标准和主观标准。 ( 1 ) 客观感知质量评价标准 早期的音频水印算法的感知质量大多采用信噪比( s i g n a l t o n o i s er a t i o ,s n r ) 来度量。s n r 作为一个质量评估标准,其定义参考公式( 2 一1 ) 。 n i x 2 一1 0 _ 0 8 1 赢 ( 2 - 1 ) 其中,顶彬和x 分别表示原始音频信号和嵌入水印后的音频信号。 基于s n r 的评价标准并不是一个很好的音频听觉质量评价标准,因为这 个方法的缺点是高频能量信号的信噪比占主要,忽略了低能量段信噪比对感知 的重要性。如受到轻微的同步攻击下即使听觉质量实际上几乎没有变化但s n r 也会大幅度下降【2 】。 此外,r r u r 推荐的b s 1 3 8 7 t 4 0 音频质量听觉评测标准通常用于音频编码器 的音频质量评价,也可作为一个很好的客观听觉音频质量评价标准用于音频水 1 2 基于音频l c m 特征的音频水印和指纹算法 印技术【1 7 1 。b s 1 3 8 7 结合了人类听觉系统的一些特性,推出了两个版本及相应的 测试工具:基本版本和高级版本。在基本版本使用基于f f t 的人耳模型,配套 测试工具为p e a q 1 0b e t a 4 ,高级版本中使用基于滤波器组的人耳模型,其测 试工具为e a q u a lo 1 3a l p h a 4 2 1 。在r i u - rb s 111 6 中,模型输出用一个量值来 表示听觉质量客观区分度( o d g ) ,含义如表2 1 所示【1 7 】。 表2 1o d g 客观评分标准 得分质量级别水印音频与原始音频差别 o优( e x c e l l e n t )完全不可察觉 1 0 良( g o o d )可察觉,但不明显 2 0中( f a i r ) 可察觉,比较明显 3 0 差( p o o r ) 明显 - 4 0 劣( b a d )非常明显 ( 2 ) 主观感知质量评价标准 通常测试者将原始音频和嵌入水印后的音频提供给一组受测试者,让他们 区分两者之间的差别并按照主观区分度s d g ( s u b j e c t i v ed i f f e r e n c eg r a d e s ) 打分, 打分方法一般采用五级评分标准,结果加以平均作为受测试者对所测试声音质 量的评价。平均得分越接近于零,意味着两个音频之间的差别越小【2 1 。s d g 分 值的含义如表2 2 所示。 表2 - 2 主观差异评级标准 s d g描述 0 0 不可察觉 1 0 可察觉但不刺耳 2 0 轻微刺耳 3 0 刺耳 - 4 0 非常刺耳 2 4 2 鲁棒性评测标准 鲁棒性是用来评价水印系统抵抗常规信号处理和恶意攻击的能。鲁棒性也 可以用分级的形式来说明,其级别包括以下几种:零级、低级、中级、中高级、 较高级、高级和最高级,等级越低鲁棒性越差。在实际应用中,常采用误码率( b e r ) 来衡量水印的抗攻击能力,即遭受攻击后提取的水印信息和原始水印信息之间 不同比特所占的百分比,因而b e r 的定义如下【1 7 】: 中山大学硕士学位论文 b e r = 蒜黼o 。 大多数文献在测试鲁棒性时常基于自己的测试音频和测试方法。若要比较不 同的算法性能,除非亲自实现待比较的算法,否则是无法比较的。解决这个问 题的方法是建立个共同的测试标准和工具。许多研究机构( 如国际唱片业协会、 日本著作权协会和安全数字音乐倡导者联盟等) 已经在这方面做了大量的工作并 取得了成果,其中s t e p2 0 0 0 t 4 3 1 、s t i r m a r kb e n c h m a r kf o ra u d i o 4 4 1 1 4 5 1 和s d m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论