




已阅读5页,还剩41页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文题目: 专业: 硕士生: 指导教师: 文档图像的行移编码和零水印算法研究 信号与信息处理 杨娜 张敏瑞 摘要 ( 签名4 弛卜 ( 签名) 邀丝缝 随着网络技术普及,很多重要信息都是以文档的方式存储并在网上传输,如果不对 文档采取保护措施,文档的内容很容易被非法编辑和修改,可见研究文档的版权保护问 题己迫在眉睫。 本文主要依据数字文档的特点,研究了数字文档水印嵌入和提取算法。首先介绍了 数字文档水印的基本概念、研究现状和应用情况,其次分析了现有文档水印算法及其特 点。最后重点研究了空间域和变换域数字文档水印的算法。 在空间域上,本文对现有的基于行移编码的二值文档水印算法进行改进,通过行边 界检测方法提取水印信息,并验证了该方法的可行性。 在变换域上,本文将零水印方法应用到文档水印中,对d c t 域和d w t 域文档图像 进行了零水印构造和检测,给出了攻击仿真实验,验证了算法的可行性和有效性。 关键词:文档水印;二值文档;行移编码;零水印 研究类型:理论研究 s u b j e c t :o nd o c u m e n tw a t e r m a r k i n ga l g o r i t h m so fl i n e s h i f tc o d i n g a n dz e r o - w a t e r m a r k i n g s p e c i a l t y :s i g n a la n di n f o r m a t i o np r o c e s s i n g n a m e :y a n gn a i n s t r u c t o r :z h a n gm i n - r u i a b s t r a c t ( s i g n a t u 代) 幽丝 ( s i g n a t u 代) 丛驾丛竺二竺f w i t ht h ep o p u l a r i z a t i o no fi n t e r n e t ,al o to fi m p o r t a n ti n f o r m a t i o ns t o r e da sd o c u m e n t s a r et r a n s m i t t e do nt h en e t w o r k ,p e o p l ec a l le d i ta n dm o d i f yt e x td a t ac o n v e n i e n t l yi fn o p r o t e c t i v em e a s u r e sf o rt e x t sa r et a k e n i ti so b v i o u st h a tt h er e s e a r c ho nt h ec o p y r i g h t p r o t e c t i o no ft e x t si sn ot i m et od e l a y t h i sp a p e rm a i n l ys t u d i e sw a t e r m a r k i n ge m b e d d i n ga n de x t r a c t i n ga l g o r i t h m sf o rd i g i t a l d o c u m e n ti m a g e sa c c o r d i n gt ot h e i rc h a r a c t e r i s t i c s f i r s tt h eb a s i cc o n c e p t ,t h ec u r r e n t r e s e a r c ha n dt h ea p p l i c a t i o ns i t u a t i o n so fd i g i t a ld o c u m e n tw a t e r m a r k i n ga l ed e s c r i b e d ,t h e n t h ee x i s t i n ga l g o r i t h m sa n dt h e i rf e a t u r e sa r ea n a l y z e d t h ee m p h a s e sa r ef o c u s e do nt h e s p a c ea n dt h et r a n s f o r md o m a i nw a t e r m a r k i n ga l g o r i t h m sf o rd i g i t a ld o c u m e n t s i nt h es p a c ed o m a i n ,t h el i n e s h i f tc o d i n go fd o c u m e n tw a t e r m a r k i n ga l g o r i t h m sb a s e d o nb i n a r yt e x ti m a g e si si m p r o v e d t h ew a t e r m a r ki se x t r a c t e db yd i r e c t l yu s i n gb o u n d a r y d e t e c t i o na n dt h ef e a s i b i l i t yi st e s t e d i nt h et r a n s f o r md o m a i n , z e r o w a t e r m a r k i n gm e t h o di su s e di nt h ed o c u m e n t z e r o w a t e r m a r ki sc o n s t r u c t e da n dd e t e c t e dt h r o u g hd c t - b a s e da n dd w t - b a s e da p p r o a c h t h ea t t a c ks i m u l a t i o nr e s u l t sa r eg i v e n t h ef e a s i b i l i t ya n dt h ee f f e c t i v e n e s sa l et e s t e d k e y w o r d s :d o c u m e n tw a t e r m a r k i n g b i n a r y d o c u m e n tl i n e s h i f t c o d i n g , z e r o - w a t e r m a r k i n g t h e s i s:b a s i cr e s e a r c h 要料技太攀 学位论文独创性说明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究| t 作及 其取得研究成果。尽我所知,除了文中加以标注和致谢的地方外,论文中不包含 其他人或集体已经公开发表或撰写过的研究成果,也不包含为获得西安科技大学 或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中做了明确的说明并表示了谢意。 学位论文作者签名:物驴日期:夕p 7 ,多“ 学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,1 1 0 :研究生在校攻读学位期问 论文工作的知识产权单位属于西安科技大学。学校有权保留并向国家有关部门或 机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课 题冉撰写的文章一律注明作者单位为西安科技大学。 保密论文待解密后适用本声明。 学位论文作者签名:枷唧 指导教师签名:弘南殳筛 冲白,“ 1 绪论 1 1 研究背景及意义 1 绪论 数字化的多媒体( 也称电子出版物,例如数字化的语音、图像、音乐、视频等等) 可 以快速准确的获取、传输和存储,因而成为信息交流的重要方式。其技术为我们提供了 丰富的知识、娱乐、各种信息的来源,具有携带方便,保存时间长久,价格低廉等优点。 随着多媒体技术和i n t e m e t 的迅猛发展,越来越多的知识产品以电子版的方式在网上传 播。盗版者正是利用数字产品容易复制、处理、传播的这些性能来破坏制造商和用户的 合法权利以获得个人利益。因而如何既充分利用因特网便利,又能有效地保护知识产权, 受到人们的高度重视。最早使用的版权保护手段是密码学,传统的加密系统将数据加密 后传输使没有密钥的人难以获取机密数据以达到保护版权的目的【l ,2 】。 虽然密码技术可用来解决其中的部分问题,但密码技术存在如下三个缺点:它明 确的提示攻击者哪些是重要信息,容易引起攻击者的好奇和注意,并有被破解的可能。 一旦加密文件被破解,其内容就完全透明了。攻击者可以在破解失败的情况下将信 息破坏,使得即使是合法的接收者也无法阅读信息内容。换言之,密码技术只能保护传 输中的内容,而内容一旦解密就不再有保护作用了。因此,迫切需要一种替代技术或是 对密码技术进行补充的技术,它应该使得即使在内容被解密后也能够继续保护内容。 信息隐藏技术以其特有的优点解决了密码技术的一些缺陷。信息隐藏技术是研究如 何将某一信息隐藏于另一公开的信息中,然后通过公开信息的传输来传递隐藏信息的一 种技术【3 j 。由于含有隐藏信息的媒体发布是公开的,而可能的检测者难以从公开信息中 判断隐藏信息是否存在,更加难以截获隐藏信息,从而达到保证信息安全的目的。 数字水印是一种有效的数字产品版权保护和数据安全维护技术,是信息隐藏研究领 域的一个重要分支。它将具有特定意义的标记( 水印) ,利用数字嵌入的方法隐藏在数 字图像、音频、文档、图书、视频等数字产品中,用以证明创作者对其作品的所有权, 并作为鉴定、起诉非法侵权的证据,同时通过对水印的检测和分析来保证数字信息的完 整可靠性,从而成为知识产权保护和数字多媒体防伪的有效手段。数字水印技术与传统 的数据加密有以下几点区别1 4 1 : ( 1 ) 隐藏的对象不同:加密是隐藏内容,而数字水印主要是隐藏信息的存在性。当数 字水印技术用于通信时,它比加密信息更安全,因为它隐藏了通信的发方、收方以及通 信过程的存在,不易引起怀疑。 ( 2 ) 保护的有效范围不同:传统的加密方法对内容的保护只局限在加密通信的信道中 或其他加密状态下,一旦解密,则毫无保护可言;而数字水印不影响宿主数据的使用,只 西安科技大学硕士学位论文 是在需要检测隐藏的那一部分数据时才进行检测,之后仍不影响其使用和隐藏信息的作 用。 ( 3 ) 需要保护的时间长短不同:一般来说,用于版权保护的鲁棒性水印要求有较长时 间的保护效力。 ( 4 ) 对数据失真的容许程度不同:多媒体内容的版权保护和真实性认证往往需容忍一 定程度的失真,而加密后的数据不容许一个比特的改变,否则无法解密。 依据载体的不同,数字水印可分为图像水印、视频水印、音频水印、文档水印等【5 一。 目i j ,关于图像、视频、音频水印方面的研究很多,取得了很好的研究成果【卜1 0 j 。但因 为数字文档水印的研究与图像数字水印、视频数字水印、音频数字水印的研究相比独具 特点,所以这些方法不适用于文本文档的规则结构,所以必须根据文本文档的规则结构 来设计水印算法【l 。 如果数字文档水印技术能更好的解决版权保护问题,则目前许多报刊杂志等就可以 通过网络发行,这样可以节省很多人力、物力和时间。在电子政务和政府上网等应用方 面,因为有大量的文件在互联网上流动,为了避免恶意攻击和篡改伪造,我们也可以用 水印的方法来进行版权认证【1 2 1 3 】。以下几个引起普遍关注的问题就进一步体现了研究数 字文档水印技术的重要性: ( 1 ) 有效保护数字作品的知识产权的手段 数字作品的版权保护是当前的热点问题。由于数字作品的拷贝、修改非常容易,而 且可以做到与原作品完全相同,所以原创者不得不采用一些严重损害作品质量的办法来 加上版权标志,而这种明显可见的标志很容易被篡改。“数字水印利用数据隐藏原理 使版权标志不可见或不可听,既不损害原作品,又达到了版权保护的目的。 ( 2 ) 发展电子商务的需要 电子商务使i n t e m e t 成为企业的生命线,保护企业网页安全不但是知识版权的保护, 更是商业利润的保护。而在网页中嵌入数字水印后,可保证网页的安全性和完整性。 ( 3 ) 数据完整性保护 基于数字文档水印的篡改提示是解决数据完整性这一问题的理想的技术途径,通过 隐藏水印的状态和保存水印的位置信息可以判断文档内容是否被篡改。 尽管数字文档水印还是一个不完全成熟的技术,同时将数字水印作为版权争端的证 据并为法律所承认,已为时不远。可以相信,文档水印技术是一个具有潜力的研究方向, 本课题具有重要的研究意义。 本课题来源于导师的2 个在研项目:陕西省自然科学基金项目( 2 0 0 7 f 0 4 ) 和陕西 省教育厅专项基金项目( 0 8 j k 3 7 5 ) 。 2 i 绪论 1 2 数字文档水印技术简介 1 2 1 文档水印的要求 水印系统可以由一些限定的特性来描述其特征,每一特性的重要性取决于际应用的 需要和水印的作用,实际上,即使是对水印特性的理解也会随着应用的不同而发生变化。 根据水印系统应用的不同,其对水印性能的要求也不同,这里给出当前已得到普遍认同 的文档水印的性能要求【1 4 6 1 : ( 1 ) 鲁棒性:虽然发布数据面临着无意的处理或恶意的攻击,但在受攻击版本的感知 质量没有大的下降情况下,水印信号应该尽可能地存在;尽量使水印攻击者为消除水印 而在被攻击版本上付出更多的感知代价。 ( 2 ) 感知透明性:又称为不可感知性。指水印被嵌入原始数据后,发布版本的感知质 量不出现明显下降,对人的感觉不造成影响或者影响被控制在可以忍受的范围内。 ( 3 ) 安全性:已得到普遍认同的安全性内容是k e r c k h o f f 准则,即公开的水印算法应 不会对非授权者破坏水印提供帮助,水印的嵌入形式应该和密钥密切相关,使得水印的 嵌入位置和强度分布难以被猜测。 ( 4 ) 信息载荷:水印信号必须能够传送一定数量的信息,它可以是1 个比特的存在性 信息,或者是有意义的文字或图像组成的版权标志等。 ( 5 ) 盲检测:为方便水印系统的应用,水印验证应尽量不依赖于原始数据的存在,甚 至不依赖于水印信息本身,使水印算法支持公开的或全盲的水印体制。这里把不需要任 何有关原始作品信息的检测器称为盲检测器,使用盲检测器的系统称为公开水印系统。 1 2 2 文档水印的应用领域 ( 1 ) 保密通信 随着信息战的发展,国家安全、外交、军事等部门急需利用公共信道传输涉密信息 的可靠方法,特别是我国信息安全加解密产品受外国进出口的限制,这点必须靠国人自 己研究突破。 ( 2 ) 数字图书馆与数字期刊发行 数字图书馆以电子形式保存了大量受版权保护的文章、杂志及书籍。通过文档数字 水印技术,数字文档的版权所有者拥有能够证明其所有权的证据,数字文本的发行者( 报 刊杂志社等) 降低了发行成本、增加了发行的安全性,执法部门找到了保护版权打击盗 版的新方法。 ( 3 ) 信息的完整性检验 通过网络传输的一些重要文件、秘密信息、军事机密、商业机密、电子合同等需要 3 西安科技大学硕士学位论文 防止恶意篡改。通过加密技术与脆弱型数字文档水印技术的结合,可以较好地解决这一 问题。 ( 4 ) 网络信息发布及网页安全检查 网页是企事业单位的网上门户,目前的网络安全技术还缺乏对网页篡改的侦测机 制,如果网站疏于管理,网页往往被黑客篡改数小时后网站管理员才发现,严重损害企 事业单位的利益和形象。通过自动检测网页中的数字文档水印( 网页是一种格式化的文 档) 可以解决这类问题。 ( 5 ) 远程教育 远程教育中,教师的电子教案、课件,学生的作业、试卷等都需要一定的访问控制 机制及一定程度的版权保护。数字文档水印及基于数字文档水印的安全传输机制可以较 好地解决这类问题。 ( 6 ) 数据库的安全 数据库管理系统有一定的安全机制来控制对数据库的操作,如将数字文档水印技术 引入到数据库的有关字符型字段,给数据库中的数据加入数字水印,可进一步保证数据 库的安全。 4 2 现有文档水印算法 2 现有文档水印算法 对现有文档的处理通常分为两种形式:格式化文档和图像形式文档,图像形式文档 是把文档作为一种特殊二值图像即二值文档图像,它不像灰度图像那样有丰富的灰度 级,色彩单一,大部分都是黑白色,内容主要是汉字、英文和一些标点符号等组成。 2 1 文档水印算法分类 通过对现有文献资料分析,本课题组成员对文档水印进行了总结,提出了一种方便 实用的文档水印的分类方法【1 7 】。该方法以文档为对象,按照文档是否可进行编辑进行分 类,对可编辑环境下文档进一步可分为:p d f 文档水印、w o r d 文档水印以及网页水 印等;对文档图像的水印算法可为:空域水印和变换域水印,具体如图2 1 所示。 文档水印 f 行移字移文档水印算法 i , 空域文档水印 字符特征文档水印算法 fi 文档图像水印算法i 【像素变换文档水印算法 1r lid c t 域文档水印算法 li l 变换域文档水印 ld w t 域文档水印算法 水吖= 二 除上述分类方法外,目前水印还可以按其被破坏后是否能够完整恢复分为鲁棒性水 印、半易碎水印和易碎水印。鲁棒性水印主要是为了解决数字版权保护问题,除了要求 能够抵抗一般性处理( 如:滤波、加噪声、压缩等) 以外,还需要能够抵抗一些恶意攻击。 半易碎水印适合验证多媒体内容的真实性,要求对一般性的处理( 调整文档格式,有损 压缩等) 表现出一定的鲁棒性,但对于内容篡改等操作具有很强的敏感性,它是一种对 一般性攻击鲁棒,对内容攻击敏感的水印。易碎性水印主要用于数字多媒体产品的内容 及版权等关键信息的真伪鉴定,防止非法篡改、伪造,保障数据的安全完整性。易碎性 水印通过嵌入机制直接嵌入多媒体内部,当含有水印的多媒体产品有任何改动时,水印 信息也就会发生相应的变化,这使得水印信息的篡改或删除十分困难,它强调水印对篡 5 西安科技大学硕士学位论文 改的敏感性。一般要求易碎水印的嵌入量较大。 2 2 文档水印算法介绍 最原始的文档如a s c i i 文档文件、计算机源程序中不存在可插入标记的可辨认空 间,故不能被插入水印。然而,一些高级形式的文档通常都是格式化的( 如:p o s t s c r i p t 、 p d f 、d o c 、r t f 、w p s 、h t m l 等) ,能够嵌入一些信息,可将一个水印藏入版面布局 信息或格式化编排中。 2 2 1 文档结构微调算法 这种技术是基于空间域实现水印的嵌入,数字水印直接加载到数据上。一个英文文 档文件一般由单词、行和段落等有规律的结构组合而成,对其作一些细微的改动是不易 被觉察的。基于此,b r a s s i l 和m a x e m c h u k 等人提出在p o s t s c r i p t 文档中插入隐藏信息的 多种不同方法【1 1 : ( 1 ) 行移编码:针对文档文件的行间距均匀的特点,行移编码方法通过将文档的某一 整行垂直移动来嵌入水印。通常当一行被上移或下移时,与其相邻的两行或其中的一行保 持不动。不动的相邻行作为解码过程中的参考位置,一般移动范围不超过1 3 0 0 英寸时不 易被人眼觉察,通过分析行间距就可判断文档中是否含有水印。这个过程不需要原始文档 的参与,适用于格式化文档文件和文档位图文件。 ( 2 ) 字移编码:它是通过将文档某一行中的某些单词进行水平移位来嵌入水印。编码 过程中,某一单词左移或右移,而与其相邻的单词并不移动,同样不移动的单词作为解 码过程的参考位置。经验发现,人眼无法辨认1 1 5 0 英寸以内的水平位移量。由于在最 初文档中的单词间距不是固定的,因此判定文档是否含有水印时需要原始文档。适用于 格式化文件和文档位图文件,且文档的词与词之间必须有空格隔开。 ( 3 ) 白空格编码:通过在文档中插入不可打印的a s c i i 字符来存储水印。白空格编码 有两个优点:改变空白间隔不易引起词语或句子的改变。不易引起阅读者的注意。 不可见字符编码通用性强易于实现,但强韧性差,一些字处理软件会自动删除已加入的 空格。 图2 2 是一个运用字间距编码在文档图像中隐藏秘密信息的例子【3 】,其中( a ) 显示了 第一行中单词“f o r 同前一个单词的间距被加大,第二行是正常字间距的情况:( b ) 图 是( a ) 中同样两行文档在没有垂直对齐线时的显示,以表明字间距的变化不易引起人眼的 感知。 6 2 现有文档水印算法 n o wl st h et i m ef o re l l lm e n w o m e nt o n o wl st h et i m e:- c 瞪a l lm e n w o me nt o , - -_ _ 一 ( a ) 用竖直对齐线显示出字间距的变化 2 2 2 同义词替换方法 ( b ) 没有加垂直对齐线的同一个文档 图2 2 字移编码实例 通过改变单词的词义来嵌入水印信息,即通过对文档中特定的单词进行同义词替换 达到加入水印的目的,使用同义词这种不确定的形式来替代编码二进制数据。如,认为 “对 是主要词汇,“正确是次要词汇,将“对”用“正确”替换。解码时,主要词 汇作为“1 读出,而次要词汇作为“0 读出【1 6 1 。其原理如图2 。3 。 图2 3 同义词替换方法原理图 7 西安科技大学硕士学位论文 这种方法的问题是在自动生成的同义词表罩,可能会有许多同义词,对每一个替换 的词的编码需要更多的比特,选择编码的同义词时,用到特定的语境下,意义就会改变 或是模棱两可,从而降低了文档的质量。 2 2 3 特征编码法 特征编码法是一种通过改变某个单个字母的某一特殊特征来插入标记的技术,比如 改变个别字母的高度、字体等来加入水印【l j 。通过字母变化在文档中插入不易辨认的标 记要非常细心,不能改变该字母和上下文的结合关系,它同样适用于格式化文件和文档 位图文件。目前主要有以下几种方法: 标点信息隐藏方法是利用中文与英文的标点输入所占用字符宽度的区别来进行信 息隐藏的。例如中文的逗号与英文的逗号,它们在文档中所占用的宽度是有一定的差别 的。在隐藏信息的时候,我们可以假设中文的逗号来表示所要隐藏的信息位为1 ,而英 文的逗号表示隐藏的信息位为0 ,或者相反。由于逗号在中文文档和英文文档中的使用 比较频繁,所以利用逗号的变换可以隐藏更多的信息。 字体信息隐藏方法是通过修改文档中一些文字的字体信息来隐藏秘密信息的,这些 字体被修改后很难被察觉。在现有的文字处理中,大多都支持许多种字体,如隶书、宋 体、华文仿宋等。我们可以利用两种相似的字体来进行互换来隐藏信息。比如宋体和新 宋体,d o t u m c h e 和d o t u m ,m sp m i n c h o 和m sp g o t h i c 都是很相似的,还有很多其他 的相似字体,它们在视觉上是很难分辨出来的。在进行隐藏的时候,如果原来的文字字 体是宋体,我们记为要隐藏的信息是“0 ,如果将其改变为新宋体,则记要隐藏的信息 是“1 ”。 以上几类方法实质上都是通过一些相近信息的互换来进行信息隐藏的,这 种措施不容易引起中间人的怀疑,进而对其攻击破坏,有一定的隐蔽性,而且 它隐藏信息的容量比较大。但是隐藏信息的文档一旦在传输中遭受篡改或删除,到最后 恢复秘密信息的时候会受到很大的阻碍,甚至有些根本就不能恢复。 2 2 4 其它方法 由于近年来对文档数字文档水印技术的研究日益加强,又出现了很多算法,如下: ( 1 ) 基于云模型的数字文档水印技术【1 8 】 基于云模型的数字文档水印技术是一种结合行间距和字间距的技术,利用云模型及 文档的特点,水印标记通过基本云发生器产生,云滴的组合就构成了水印信息。这种基 于云模型的文档水印嵌入和检测提取策略对文档文档能够更准确地进行盲测,具有较准 确的判断性。 ( 2 ) 基于汉字笔画的水印技术【1 8 。2 3 】 8 2 现有文档水印算法 该技术是一种基于字符特征的水印嵌入算法,这种算法是通过改变从原始图像中提 取出来的某些特征以达到嵌入水印的目的。这种方法可以在有限汉字中标记水印信,从而 提高水印容量,对于文件的局部篡改、噪声干扰具有一定鲁棒性。 ( 3 ) 基于汉字结构的数字水印l 驯 汉字具有很好的结构性,通常由若干个偏旁、部首与若干个汉字可组成一个汉字, 由两个、三个甚至更多的汉字也可组合成一个汉字。这些组合型的汉字按其位置分可分 为左右型、左中右型、上下型、交叉型等。正是由于汉字结构的特殊性,才为汉字文档 的水印信息加入提供了巨大的空间。如:“镕 字不在g b 2 3 1 2 8 0 中,我们可用偏旁“乍 与汉字“容”合并为一个字来代替“铬 字。这样,存储的是两个汉字,而显示出来的 是一个汉字,不经仔细辨认,这种情况一般很难区分开。在不另外增加汉字库的情况下, 利用标准汉字库中的汉字通过合并可得到与标准汉字库有区别的汉字,从而达到嵌入水 印的目的。 ( 4 ) 基于标点符号水印加密【2 5 j 相对于文字来说,人们对标点符号不敏感,因而存在嵌入水印的可能。下面分两种 情况来讨论:第一种删除标点符号,在许多情况下,对标点符号的使用并不是很严格,即 标点符号的误用对理解文档的意思影响不大,如短语“b r e a d ,b u 讹r ,a n dm i l k 和“b r e a d , b u t t e r a n d m i l k ”都可以认为是正确的使用。在这种方法中,形式的选择是任意的。形式 之间的替换可以代表任意的数据。但这种方法的缺陷是标点不一致的使用会被细心的读 者发现,另外标点符号的改变可能会影响文档的清晰甚至含义,故这种方法应该谨慎使 用。另一种,利用中、西文共有的标点符号替换,一般不会引起注意,例如中文逗号用 英文逗号代替、中文问号用英文问号代替,两个中文单尖括号代替书名号等等。更具有 隐藏性的方法是在西文字母之间进行替换,如英文字母用希腊字母代替、英文字母用俄 文字母代替等。 ( 5 ) 基于同义词替换的水印技术【2 6 ,2 7 】 通过改变单词的词义来嵌入水印信息,即通过对文档中特定的单词进行同义词替换 达到加入水印的目的,使用同义词这种不确定的形式来替代编码二进制数据。如,认为 “对”是主要词汇,“j 下确 是次要词汇,将“对用“正确”替换。解码时,主要词 汇作为“1 ”读出,而次要词汇作为“0 读出。这种方法的问题是在自动生成的同义词 表里,可能会有许多同义词,对每一个替换的词的编码需要更多的比特,选择编码的同 义词时,用到特定的语境下,意义就会改变或是模棱两可,从而降低了文档的质量。 ( 6 ) 基于d c t - d w t 的二值文档水印算法【2 8 】 一般情况下,文档图像的纹理细微丰富,纹理的分布比较均匀,呈现小区域边缘特性, 利用常规的频率域技术难以达到满意的水印嵌入效果。首提出一种基于d c t - d w t 相结 合的算法。首先将原始水印信号进行d c t 变换,按照从低频到高频的顺序对各块系数 9 西安科技大学硕士学位论文 进行重新排列,对应嵌入到原始文档图像的d w t 变换的细节子图中。 2 3 文档水印常见攻击 文档水印的作用有两方面,其一:版权保护,属于鲁棒性水印范畴;其二:防篡改, 属于易碎半易碎水印范畴。鲁棒性水印就是指能够尽量多的承受盗版者对于水印的攻 击,同时保证水印的存在。而易碎半易碎水印是在受到一定攻击之后,水印就消失或者 部分消失,同时提示所有者文档被篡改。好的易碎半易碎水印算法不但能够提出文档被 篡改,同时能够进行篡改的粗定位或精确定位,并且具有一定的恢复能力。目前文档水 印的常见攻击有 3 】: ( 1 ) 几何变形攻击 水平翻转:许多图像都可以被翻转而不丢失数据,尽管对翻转的抵御很容易实现, 但却很少有系统能够真正逃脱这种攻击。 旋转:一般进行小角度的旋转并不会改变图像的商业价值,但却能使水印信息无 法检测到。 剪切:对图像进行剪切可以破环水印。 尺度变换:在扫描打印图像时或将高分辨率是数字图像用于w e b 发布时,常会 带着尺度的变换。尺度变换分两类:一致尺度变换和非一致尺度变换。一致尺度变换是 指在水平方向和垂直方向进行相同的尺寸变换,而非一致尺度变换指在水平和垂直方向 使用不同的尺度因子( 即采用不同的比率) 。通常的水印方法只能抵御一致尺度变换。 ( 2 ) 噪声攻击 在图像信号的传送和处理过程中,存在大量的加性噪声和非相关的乘性噪声。噪声 的方差越大,噪声能量越大,污染也就越严重,对于较强的噪声攻击,图像几乎变得不 可用。 ( 3 ) 针对文档格式和特征的攻击 文档图像有着自身的特殊性,攻击者可以将文档伪造并改变文档的一些特征对文档 图像进行攻击。本文做的攻击主要有改变行间距,改变字号,改变字体。 ( 4 ) 针对文档内容的攻击 如果攻击者在伪造文档后,修改其中一部分内容,比如对某个词语进行替换,或者 修改标点符号,即针对文档的内容进行攻击。 2 4 本章小结 虽然数字文档水印还是一个不完全成熟的技术,同时将数字水印作为版权争端的证 据并为法律所承认,但文档水印技术仍是一个具有潜力的研究方向。本章主要对现有的文 档水印的算法进行了分类并加以介绍,并且介绍了文档水印常见的攻击。 1 0 3 空域行移编码算法研究 3 空域行移编码算法研究 几乎所有的二值文档形式,一般都是由字、行和段落等有规律的结构组合而成,而 字与字之间、行与行之间都存在一定的距离或者说是空白区域,这是文档与图像相区别 最显著的特点。因此,针对文档的特点,提出在文档的竖直方向上利用行移操作嵌入水 印。 3 1 行移编码相关概念 行移编码是将文档的一整行垂直移动来嵌入水印。通常,当整个行被上移或下移时, 与其相邻的两行或其中的一行保持不动。不动的相邻行作为解码过程的参考位置,称为 控制行。经验表明,当垂直位移量等于或小于1 3 0 0 英寸时不易被人眼觉察。这种方法 的主要特点体现于解码过程中,一个被接收文档是否被作标记可以通过分析行间距来判 断,而不需要任何有关原始文档的附加信息。 一页文档的图像信息可以用如下的函数表示【1 1 : x 2 ,v ) v ) 0 ,1 ,扰【o ,形】,v 【o ,三】 ( 3 1 ) 其中w 和l 分别代表文档图像的宽度和长度,它们的取值与扫描精度有关。为了方便, 假设u ,v 和x ( “,v ) 均可以连续取值,文档图像中的一行可简单表示为限定在如下区域内 的函数: x = 缸g ,v ) | x g ,v ) o ,1 ) ,甜【o ,wl v 19 b 】) ( 3 2 ) 其中,t 和b 分别代表该行的上下“边界 。该行的水平轮廓定义为: ho ) = f o xo ,v ,v d ,b 】( 3 3 ) 即在u 方向上所有非零像素点的长度总和。同理,该行的竖直轮廓定义为: p ( “) = f ox ( “,1 ,矽v ,材【0 ,w 】 ( 3 4 ) 为了能够补偿某些使图像发生失真的操作,只有在某一行的两个相邻行足够长的情 况下,该行才能嵌入水印。嵌入方式为将该行沿竖直方向进行非常微小的上移或下移, 从而嵌入一位水印信息。该行的两个相邻行称为控制行,必须持不动。同样,这一行也 可以通过字移嵌入水印,取将某些单词进行非常微小的左移或右移。 行移编码的原理模型如图3 1 所示,它分为三个部分,中间区域为被操作行,即在 3 空域行移编码算法研究 上下方向有轻微的移动,两边区域即左右两行的位置保持不变。这里统一用忍( 甜) 代表一 组水平轮廓信号,取值区间为甜( 6 ,p ) 。 图3 1 轮廓信息【u 包括椒盐噪声和偏斜在内,导致信息失真最严重的操作还有平移、缩放、模糊、随 机交换等。如果复印机的精度较低,纸面上会出现水平或竖直的条,颜色较深或较浅。 无论哪种条都不会对水平轮廓的检测造成大的影响。 在文档图像的轮廓生成之前,椒盐噪声和偏斜必须剔除。图3 2 给出各种图像操作 对文档图像轮廓的影响。首先在轮廓h ( u ) 中嵌入水印变为g o ( 甜) ,无失真的含水印轮廓 信息岛( “) 中引入噪声信号后变为g 。( 材) 口9 1 : ( 材) = g o ( “) + ( 甜) ( 3 5 ) ( “) 表示所有未提及的和由失真补偿引入的噪声信号。经过平移后,该轮廓信号变为 g :( “) = g 。( u - 1 )甜0 + ,名+ z ) ( 3 6 ) 然后,该轮廓信号被扩大或者缩小口倍( 其中口 0 ) 9 3 ( ”) = g :( 詈) “ 口( 6 + ,) ,口( p + ,) ( 3 7 ) 最后,经过增益系数7 ( “) 衰减( 其中y ( “) o ) , 9 4 ( 甜) 2 而1 岛( 甜) 1 2 甜 口( 6 + ,) ,以( p + ,) ( 3 8 ) 3 空域行移编码算法研究 图3 2 各种图像操作所引起的轮廓变化【1 】 下面给出简单的方法说明如何将获得的9 4 ( “) 信号变成所需的。从蜀( 甜) 得到9 0 ( “) 在水 印检测时给出。7 ( “) i 的情况下只有9 4 ( 甜) 表示竖直轮廓,同时文档图像种还存在一 条竖直方向的条时才会出现。在这种情况下,增益系数一般可近似看成一个分段函数: y ( “) = 乃1 ( 甜【甜,”,+ 。) ) ( 3 9 ) 其中,函数1 ( 材,) 表示当甜属于区间,时值为i ,否则为o ;g - j i 区m a ( b + 1 ) ,口( p + 明进 行分段。假设衰减操作对含水印行以及相邻的控制行造成的影响一致,用c o ( “) 表示上 控制行的轮廓信息,那么经过与g o ( “) 相同的过程,c o ( “) 被转换成q ( 甜) ,c 4 ( “) 衰 减操作之前的轮廓信息为 而衰减后得到的轮廓信号为 咖) = ( 三一0 q ( 甜) = 军( “【峭+ ) ) 结合每一个区间【甜。,+ 。) 内的信息,可得形的估计值 1 3 ( 3 1 0 ) ( 3 1 1 ) 3 空域行移编码算法研究 ,n ( 甜) 幽口c o 7 ,等一7 j 形= 丽= _ 玎 。_ 2 其中q ( p ,g ) 。r 。( z ) a z , o ,4 。根据假设可知,同样的衰减系数形以同样的方式用 于含水印行。于是,对于ue 以( 6 + z ) ,口( p + 伽,有 ( “) _ e 。g i 9 4 ( “) l ( “k ) ( 3 1 3 ) 平移量,和放大系数a 可以通过其实位置v o 和终止位置v l 得 :e v o - b y l 巧一场 一咯一巧 a = _ = 2 巧一场 通过这些系数,可以推出由( 掰) 得到霸( 甜) 的公式: ( 3 1 4 ) 蜀( 甜) = g 。( a ( 甜+ 啪,甜【6 ,口) ( 3 1 5 ) 设代表区间【u i ) “川) ,把式( 3 1 3 ) 带入式( 3 1 5 ) ,可推出由g 。( “) z 1 0g u ) 的公式 如f : g t ( “) 2 军隅( 口( 川) ) 1 ( 口( 川) ) , u em ( 3 1 6 ) 文献【3 0 专门针对上述过程,给出一些噪声实验。实验发现:失真的主要源头是打 印、复印、扫描以及后来对文档图像所作的各种处理复印过程引入的噪声占主导地位。 这种现象产生的原因是与复印机的工作原理有关。 3 2 行移编码水印嵌入 在某一行及其两个相邻行都足够长的情况下,该行才可以嵌入水印。被称作控制行 的两个相邻行保持不动,不能嵌入水印。控制行的作用是失真补偿和估计剩余噪声。被 选择嵌入水印的行在竖直方向上利用行移操作嵌入水印对某一行进行行移操作时,该行 的位置相对其原始位置轻微地上移或者下移。具体的移动方向取决于水印位的取值。 文献【1 】中详细介绍了行移编码嵌入和提取算法。在给定的一篇文档图像中,以每一 行之间的间隙为边界划分行。并检查相邻行之间的距离,查看行距是否满足嵌入水印信 1 4 3 空域行移编码算法研究 - i e i ii 宣i 暑暑暑暑j 息的要求,即偶数行与奇数行之间的行间距是否相等。如果满足要求则按照下面步骤进 行,如果不满足,则进行调整,直到满足嵌入水印的要求为止。假设& = & ,d ( f ) 为该 篇文档的行间距的距离值序列,其中s v , d ( i ) 表示第行亍与第i + 1 行之间的距离,假设文档 有n 行,则i = 1 ,2 ,n 一1 。则经过调整之后,新的行闻距s 叫o ) 为: s 月,do ) = i 口,d = s 口。do ) + 万口o ) f = 1 ,2 , 一, 一l ( 3 1 7 ) 其中,i 州= 面鲁s o , d ) 为该文档所有行间距的平均值,万。o ) = i 州一s o , do ) 表 v lk :l 示用来调整行间距的调整量。如果行间距是以像素为单位,则等式右边的计算结果将近 似为整数。 假设w 所 - l ,1 ) 代表第m 位行移编码水印信息,如果第f 行与上下行之间的 距离满足嵌入条件,则嵌入水印之后,最终的第f 行与上下行之间的距离将满足下面的 等式: s 。do 一1 ) = i 口,d + w m 万册o ) ( 3 1 8 ) s e , d ( i ) = i 。,d w 掰万捌( f ) 其中,s e , d ( f ) 表示嵌入水印后最终的第i 行与第i + 1 行之间的距离, 入水印时所移动的距离。 ( 3 1 9 ) 瓦( f ) 为第i 行在嵌 ( 未嵌入水印) 轮廓信息,h ,p 。】,心,e 2 并f l b 3 ,伤】为办( 材) 中的三个区间,即三块。第z 块 铲而 o 2 0 ) r 娥“) 砌 3 空域行移编码算法研究 被噪声干扰之后,轮廓信息变为 g ( 甜) = i z ( “) + ( “) ,甜【岛,e 3 ) ( 3 2 1 ) 其中,n ( u 1 为噪声信号。这样一来,两个控制行的质心变为 u = q + k ,= 巳+ 玛 ( 3 2 2 ) 中间块被移动的距离为s ( s 0 ) ,如果上移,其质心变为 = c 2 + k 一占 ( 3 2 3 ) 如果下移,其质心为 = c 2 + + 占 ( 3 2 4 ) 其中k ( f - 1 ,2 ,3 ) 是作用于质心q 的随机噪声。为了消除平移操作带来的影响,将检测建 立在两个相邻的距离一配一上,取代原来的中间块的质心绝对位置。接下来就必须 要解决一个核心问题,那就是如何让通过一u 和虬一的值来确定中间块到底是上 移还是下移。 假设噪声( 甜) 是均值为0 的白噪声,那么可知质心噪声形可近似为均值为0 的高斯 白噪声,其方差口是关于未嵌入水印信息的原始轮廓信号h u ) 的函数。根据参考位置, 用最大似然检测发直接判断行移和字移最有可能的移动方向,这种方法可以最大限度地 降低出错率。 利用以下的两个差值可以很方便的得出移动的方向: f 妒= ( - u ) 一( c :一q ) ( 3 2 5 ) 1 1 伽= ( 玑一) 一( 巳一乞) ( 3 2 6 ) 其中r 。和r 伽分别表示中间块和其上下控制块距离的变化量。在没有噪声的情况下,如 果中间块上移,则1 1 即= 一占,r 加= g ;如果中间快下移,则r 咿= s ,r 伽= 一s 。因 此可以归纳如下结论:如果r 船r 加,说明中间快上移;反之,中间块下移。如果考虑 噪声,中间行和两个控制行之间的距离必须首先经过控制块质心噪声方差加权,即使这 样做对结果影响不大。 1 6 3 空域行移编码算法研究 l i i 宣i i i 昌暑暑暑暑置i i i 宣暑暑暑置暑暑暑暑暑嗣暑暑昌暑暑暑置暑暑暑暑暑i 置宣i i 暑宣暑暑暑暑叠置置暑i i 暑i 暑暑i i 宣i | 宣 3 4 改进的行移编码算法 二值图像只有黑色和白色两种颜色,每个像素点的图像颜色为1 比特,“1 表示白 色,“0 表示黑色 3 1 。文档图像可以转化为一种特殊的二值图像,即黑白像素点比较集 中于每一行。为了便于统计水平轮廓信息,可将原始图像进行反射,即将黑色像素点表 示为“1 ”,而白色表示为“0 。将每个像素点所对应的黑色像素的个数进行累加,此时 有文字的每行的轮廓值非零,而中间的空白处为零,而且非零的轮廓信息是间断出现的, 也就是每行文字都会对应第一个非零值和最后一个非零值,将这两个非零值所对应的纵 坐标作为该行的上下边界坐标,而空白处即是两行的间距。 嵌入水印时直接搜索每一行上下边界坐标,获得行间距,通过统计行间距的平均值, 调整行间距使其满足行编码水印嵌入的要求,即偶数行和奇数行的间距相等。将奇数行 作为控制行,按水印信息要求移动偶数行。检测水印时首先统计文档图像的水平轮廓信 息,如图3 1 ,该图显示的是调整后的水平轮廓信息,横坐标代表的是每个像素点的纵 坐标,而每个小的轮廓的第一个非零点和最后一个非零点即为每行的上下边缘坐标。为 了更清楚的表示每行的上下边缘坐标,这里列表表示,如表3 1 ,五为每行的上边缘坐 标,墨为每行的下边缘坐标。因此每行的间距可以表示为: v ( j ) = 五( i + 1 ) 一五( f ) ( 3 2 7 ) 其中i = 1 ,2 ,l 表示为每行的行号,j = l ,2 ,l 一1 为第j 个间距。 待检测图像的水平轮廓信息 曩 嚼; 蜷 割 蟋 毯 霞 图3 3 待检测文档图像的水平轮廓信息 1 7 3 空域行移编码算法研究 表3 1 每行的上下边缘坐标 l23456789 1 0l l1 21 31 41 51 6 五 43 56 81 0 l1 3 01 5 91 9 32 2 22 5 52 8 83 1 73 5 13 8 04 0 74
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教A版高中数学选修2-1:2.4.1 抛物线的标准方程教学设计
- 化肥厂财务设备检查细则
- 房地产代理合同
- 第22课《杞人忧天》说课稿2025-2026学年统编版语文七年级上册
- 新课标人教版高中数学必修一 2.2基本初等函数-对数函数 教学设计
- 2024-2025学年高中物理 第一章 静电场 3 电场 电场强度和电场线说课稿 教科版选修3-1
- 中医期末试卷试题及答案
- 个体经营户与电商平台合作运营合同
- 时尚电子产品代言人合作合同范本及市场开发协议
- 高新科技园区车间租赁及创新成果转化合同
- 华北电力大学授予本科生学士学位名单
- 学生休学证明模板
- 机电安装工程技术标书(模板)
- 部编版小学一年级上册语文带拼音阅读练习题26篇
- 无机及分析化学第2章-化学热力学基础1
- GB/T 2930.1-2017草种子检验规程扦样
- 会计学原理模拟试题一套
- 第一章-宗教社会学的发展和主要理论范式课件
- 国内外新能源现状及发展趋势课件
- 临床常见护理技术操作常见并发症的预防与处理课件
- 高速公路改扩建桥梁拼宽施工技术及质量控制
评论
0/150
提交评论