




已阅读5页,还剩47页未读, 继续免费阅读
(计算机应用技术专业论文)基于中文word文档的数字水印算法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大连理工人学硕士学位论文 摘要 随着多媒体技术和网络技术的飞速发展和广泛应用,对图像、音频、视频等内容的 知识产权保护成为迫切需要解决的问题。加密和拷贝保护机制不能完全解决这一问题: 加密只在传输过程中保护数据,而拷贝保护机制又易被破坏。于是一种新的保护途径应 运而生,即数字水印技术。它甚至被认为是知识产权保护的最后一道防线。数字水印技 术不仅可用于知识产权的保护,还可用于认证、注释等。目前对图像等方面的数字水印 方法很多且比较有效,但这些方法一般不适合应用于文本。 文本数字水印技术是一个涉及密码学、图形学、视觉科学、中文信息处理、图像处 理、通信及信息安全等学科的交叉边缘科学,目前在理论上是很新的一个研究方向。己 经取得的文本数字水印研究成果主要集中在基于文本格式的算法方面。最为典型的有字 移、行移及特征编码等。但是这类算法的水印信息不是加载到文本内容之中,因此难以 抵抗打印、格式转换等常见文档处理操作。而将水印嵌入文本内容的基于自然语言处理 的文本水印算法中计算机自然语言处理技术是个瓶颈。另外,一篇文档里含有多个作者 版权水印信息的时候,真正的版权信息难以确定,一些论文针对这种攻击提出了很多协 议,但是这些协议过于复杂,或者在有效性上执行的不是很好。 本文提出并实现了一种基于字符属性的多组文本数字水印算法。w o r d 文档中的 字符存在某些属性,其默认值的修改具有很强的隐蔽性,如字符作为w o r d 中的r a n g e 对象,其n o p r o o f i n g 属性默认值保持不变而仅在编程时方可修改此值;字符的 l a n g u a g e l d f a r e a s t 属性,可将其默认值改为w w d t r a d i t i o n a l c h i n e s e 或 w d c h i n e s e s i n g a p o r e 等。 通过对以汉字为对象的特定属性值的修改可以达到嵌入水印信息的目的。实验证 明,此水印算法一方面水印隐蔽性强,水印容量不受限制,另一方面,该方法具备较强 的抗攻击能力并兼具较强的文本完整性检测性能。 关键词:数字水印:中文文本:字符属性:嵌入 人连理工大学硕士学位论文 d i g i t a lw a t e r m a r k i n ga l g o r i t h mb a s e do nc h i n e s ef o n t i nt h ew o r dd o c u m e n t a b s t r a c t w i t ht h ee x p l o s i v e g r o w t hi nm u l t i m e d i aa n dn e t w o r kt e c h n o l o g i e s i n t e l l e c t u a l p r o p e r t y p r o t e c t i o no fi m a g e s ,a u d i o ,v i d e oe t ca r em o r eu r g e n tt h a ne v e r e n c r y p t i o na n d e o p y p r o t e c t i o nm e c h a n i s m sc a nn o tf u l l ys o l v et h ei s s u e e n c r y p t i o nu s u a l l yp r o t e c t sd a t a o n l yo nt h et r a n s p o r tc h a n n e la n dc o p yp r o t e c t i o nm e c h a n i s m sa r eo f t e nc i r c u m v e n t e d e a s i l y i nt h i sc o n t e x t ,d i 舀t a lw a t e r m a r k i n gh a sb e e np r o p o s e da st h el a s tl i n eo fd e f e n s ei n t h e p r o t e c t i o n o f i n t e l l e c t u a l p r o p e r t y m o r e o v e r , w a t e r m a r k i n gc a n b ea p p l i e dt o a u t h e n t i c a t i o n ,c a p t i o n i n ge t c n o wt h e r ea r em a n ye f f e c t i v ed i g i t a lw a t e r m a r k i n gm e t h o d s f o ri m a g ee t c ,b u tt h e s em e t h o d sa r en o tu s u a l l ys u i t a b l ef o rt e x t 1 1 1 et e c h n o l o g yo ft h et e x td i g i t a lw a t e r m a r ki sac r o s sm a r g i n a ls u b j e c tw h i c hr e l a t e st o r e s e a r c h e so fc r y p t o g r a p h y ,g r a p l l i c s ,s c i e n c eo fv i s i o n ,c h i n e s ei n f o r m a t i o np r o c e s s i n g , i m a g ep r o c e s s i n g ,c o m m u n i c a t i o n s ,a n di n f o r m a t i o ns e c u r i t y ,e t ca n di sav e r yn e wr e s e a r c h d i r e c t i o ni nt h e o r ya tp r e s e n t s o 加t h ea c q u i r e da c h i e v e m e n t so nt e x td i g i t a lw a t e r m a r k i n g o r em a i n l yf o c u s e do nt h ea l g o r i t h m sb a s e do nt e x tf o r m a t t h em o s tt y p i c a lr e p r e s e n t a t i v e s a r ea l g o r i t h m so nw o r d s h i f t i n g ,l i n e s h i f t i n ga n dc h a r a c t e r - c o d i n g a st h ew a t e r m a r k i n f o r m a t i o no ft h i sk i n do fa l g o r i t h mi sn o ti n s e r t e di n t ot h et e x tc o n t e n t ,t h ea l g o r i t h m sc a n n o tr e s i s ts o m ec o m m o nd o c u m e n t o p e r a t i o n ss u c ha sf o r m a tc o n v e r s i o n ,p r i n tp r o c e s s i n g a m u l t i p l et e x tc a l c u l a t i n gm e t h o db a s e do nt h ec h a r a c t e r s a t t r i b u t e sa n dt h ew o r d s c o n t e n ti s p r o p o s e d i nt h i s p a p e r , a n di t s m e r i t sa r ea l s oa n a l y z e d i ti so fg o o d i m p e r c e p t i b i l i t yt om o d i f yt h ed e f a u l tn u m e r i c a lv a l u e so fc h a r a c t e r s s p e c i f i ca t t r i b u t e si na w o r dd o c u m e n t f o re x a m p l e ,t h ec h a r a c t e ri sr e g a r d e da st h eo b j e c to f r a n g ei nt h ew o r d d o c u m e n t ,t h ed e f a u l tn u m e r i c a lv a l u eo fn o p r o o f i n g sa t t r i b u t ec a no n l yb em o d i f i e dd u r i n g p r o g r a m m i n g ;a n dt h ed e f a u l tn u m e r i c a lv a l u eo f l a n g u a g e l d f a r e a s t ,o n eo f t h ec h a r a c t e r s a t t r i b u t e s ,c a nb em o d i f i e dt ow w d t r a d i t i o n a l c h i n e s eo rw d c h i n e s e s i n g a p o r e t oe m b e dt e x tw a t e r m a r k s ,w ec a nm o d i f yt h ed e f a u l tn u m e r i c a lv a l u e so f c h a r a c t e r s s p e c i f i ca t t r i b u t e s e x p e r i m e n t ss h o wt h a tt h ew a t e r m a r k sc a l lb eh i d e de f f e c t i v e l ya n dh a v e u n l i m i t e dc a p a c i t y m o r e o v e r ,i th a sag o o da n t i a t t a c k i n ga b i l i t ya n dg o o dp e r f o r m a n c ei n t e x ti n t e g r i t yd e t e c t i o n k e yw o r d s :d i g i t a lw a t e r m a r k ;c h i n e s ew o r dd o c u m e n t s ;c h a r a c t e ra t t r i b u t e ;i n s e r t s i i i 独创性说明 作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工 作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理 工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志 对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。 大连理t 大学硕士研究生学位论文 大连理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位 论文版权使用规定 ,同意大连理工大学保留并向国家有关部门或机构送 交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理 工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也 可采用影印、缩印或扫描等复制手段保存和汇编学位论文。 作者签名:廛垒坠 导师签名:垒三蕴垂 人连理工大学硕士学位论文 1绪论 1 1数字水印的研究背景 数字化和信息化是一对不可分割的技术,它们之间具有很强的依赖关系。数字化技 术作为一门新兴技术,它打破了传统的信息发布方式,成为信息传播的载体,为信息的 传播开辟了新的领域;反过来,信息成为数字化所依附的根本,为数字化更好的发展带 来了广阔的空间。二者为我们的生活、工作、学习提供了巨大的便利条件。 数字化的多媒体( 也称电子出版物,例如数字化的语音、图像、音乐、视频等等) 可 以被快速准确的获取、传输和存储,因而成为信息交流的重要方式。其技术为我们提供 了丰富的知识、娱乐、各种信息的来源,具有携带方便,保存时间长久,价格低廉等优 点。例如,数字化刊物可以及时更新各种新闻、节省纸张、节约人力、降低成本等;数 字化邮件可以使我们方便、快捷、及时的同任何一个远在异地的朋友交换信息;数字化 媒体可以被方便的创作、编辑、发布,节约了大量的资源、人力和时间。 总之,数字化与信息化之间的关系是相辅相成的,数字化和信息化技术给我们带来 了前所未有的机遇。 随着i n t e r n e t 技术的日益普及,照片、绘画、语音、文本、视频等数字形式的产品 在近十年来十分普遍;同时随着数字网络通讯正在飞速发展,数字产品在这种环境下很 容易被复制、处理、传播和公开。盗版者正是利用数字产品容易复制、处理、传播的这 些性能来破坏制造商和用户的合法权利以获得个人利益。因而如何既充分利用因特网的 便利,又能有效地保护知识产权,受到人们的高度重视。最早使用的版权保护手段是密 码学( c r y p t o g r a p h y ) ,传统的加密系统将数据加密后传输使没有密钥的人难以获取机密 数据以达到保护版权的目的。 一直以来密码学被认为是通信研究领域中主要的信息安全手段而受到极大重视,但 随着计算机技术的发展,传统的保密手段和版权保护系统日益暴露出其缺点【l 儿到。 ( 1 ) 安全性:随着电脑硬件技术、并行计算解密技术的同臻完善,单纯依靠增加密 钥长度来提供保密的可靠性并不现实。更为重要的是一旦传输的文件被非法拦截者破 解,那么无论是被复制、盗版、或篡改,现有的技术都无能为力。 ( 2 ) 流通性:人们在网上发布文本、音频、视频文件,除了一部分需要保密外,大 多数是以交流或传播为目的,因而仅仅为了版权保护,都将其转化为一般人并不懂的密 文,将严重影响人们利用网络的效率。由于加密在通信中的缺陷以及对多媒体内容保护 能力的局限,人们在探讨另一种版权保护或通信安全的手段。 基于中文w o r d 文档的数字水印算法 近年来国际上提出了一种新型的版权保护技术一数字水印( d i g i t a lw a t e r m a r k ) 技 术。利用人类的听觉、视觉系统的特点在图像、音频、视频中加入一定的信息,使人们 很难分辨出加水印后的资料与原始资料的区别,而通过专门的检验步骤又能提取出所加 信息,以此来证明原创者对数字媒体的版权。数字水印技术并不能阻止盗版活动的发生, 但它可以判别对象是否受到保护、真伪鉴别和防止非法拷贝、解决版权纠纷并为法庭提 供证据等。数字水印技术作为刚刚出现的信息隐藏手段,它与传统的数据加密有以下几 点区别【3 】: ( 1 ) 隐藏的对象不同:加密是隐藏内容,而数字水印主要是隐藏信息的存在性。当 数字水印技术用于通信时,它比加密信息更安全,因为它隐藏了通信的发方、收方以及 通信过程的存在,不易引起怀疑。 ( 2 ) 保护的有效范围不同:传统的加密方法对内容的保护只局限在加密通信的信道 中或其他加密状态下,一旦解密,则毫无保护可言;而数字水印不影响宿主数据的使用, 只是在需要检测隐藏的那一部分数据时才进行检测,之后仍不影响其使用和隐藏信息的 作用。 ( 3 ) 需要保护的时间长短不同:一般来说,用于版权保护的鲁棒性水印要求有较长 时间的保护效力。 ( 4 ) 对数据失真的容许程度不同:多媒体内容的版权保护和真实性认证往往需容忍 一定程度的失真,而加密后的数据不容许一个比特的改变,否则无法解密。自从l 锄 s c h y n d e l 在i c i p 9 4 上发表的题为“ad i g i t a lw a t e r m a r k ”的文章【2 5 1 以来,对数字水印的 研究兴趣在不断的增长。这既可以从学术界也可以从工业界看出来。 学术界的热情反映在水印方面的文章还在大幅度增长,且有关数字水印和信息隐藏 的会议也增长很快,几个有影响的国际会议( 如i e e ei c i p ,i e e ei c a s s p , a c m m u l t i m e d i a 等) 以及一些国际权威杂志( 如p r o c e e d i n g so fi e e es i g n a lp r o c e s s i n g , i e e e j o u m a lo fs e l e c t e da r e a so nc o m m u n i c a t i o n ,c o m m u n i c a t i o no fa c m 等) 相继出版了 数字水印的专辑。并且国际上还成立了一些专门的研究机构,如拷贝保护技术工作组 ( c p t w g ,c o p yp r o t e c t i o nt e c h n i q u ew o r k i n gg r o u p ) 从1 9 9 5 年开始致力于基于d v d 的 视频版权保护研究,安全数字音乐创作( s d m i ,s e c u r ed i g i t a lm u s i ci n i t i a t i v e ) 从1 9 9 9 年开始研究音频的版权保护,数字水印就是其中的核心关键技术。目前国际上的剑桥大 学、i b m 研究中心、n e c 美国研究所、麻省理工学院等都进行了广泛深入的研究;国 际标准组织也对数字水印技术深感兴趣。我国学术界对数字水印技术的研究也方兴未 艾,已经有相当一批实力的科研机构投入到这一领域的研究中来。但是我国的研究尚不 普及,随着数字化产品在中国的广泛开展,特别是今后几年因特网用户将成倍增长,电 大连理工大学硕士学位论文 子商务会加速发展,在网络上直接销售数字化产品将给厂家带来极大的商机,也是中国 产品走向世界的最好途径。数字水印技术可以广泛应用于电子商务、电子报刊、广播和 视频点播、虚拟博物馆或其他基于w e b 的系统中。因此数字水印技术的研究将会成为 学术界的一个热点。 1 2 数字水印的研究现状与趋势 最近几年是数字水印技术快速发展的时期,各种与水印相关的文献与日俱增,从最 初的每年几十篇到现在的每年几百篇,涉及的内容从最初的水印算法到现在的容量、理 论模型、水印结构、协议、应用分析等诸多方面全面研究,涉及的技术包括扩展频谱、 纠错编码、密码学、混沌理论、信号处理、频谱分析等,在企业界也开始针对实际的市 场应用需求建立相应的水印标准和体系架构,并进一步为数字水印技术的理论研究提供 实践和反思。 目前,数字水印算法的研究,强调盲检测和多比特水印的嵌入和准确提取,强调针 对某种攻击类型或鲁棒性要求进行研究。比如基于d c t 变换抗打印扫描的证件水印算 法【1 1 、基于小波变换抗图像合并的水印算、法【2 】基于f m 变换抗仿射变换的水印算法【3 4 】等。 此外,借鉴密码学,一些特殊应用的水印,如用于认证的公开水印和非对称水印研究等 也受到人们的重视。 模型研究方面,主要是将水印的嵌入和提取看作是一个从水印的嵌入者到水印的提 取者的通信过程,各种攻击和鲁棒性要求是对通信信道特性的描述,数字作品被当作一 类噪声、边信息或与水印复用信道的另一类信息。在c o x 的文献中对这三种模型进行了 详细的描述,进一步根据对水印嵌入、检测、攻击过程的不同假设产生了如c o s t a 模型 5 m o u l i n 模型1 6 1 ,c o h e n l a p i d o t h 模型7 1 ,s o m e k h b a r u c k 模型8 1 、并行高斯信道模型【9 】 等,在这些模型上得到了相应的水印容量结论。 容量研究方面,对来自于平稳离散无记忆信源的数字内容、嵌入水印后的数字内容 x 、攻击后的数字内容y 构成的马尔可夫链进行分析研究,得出的容量结论都是条件信 息i ( x ;yiu ) 在某一类概率分布上的极大或者极小值,水印的容量是嵌入失真度量、 攻击失真度量、以及载体的概率分布函数1 1 0 】。如c o h e n 和l a p i d o t h 的高斯分布的数字 内容在均方误差约束下的p p e ( p r i v a t e p u b l i ce q u i v a l e n c e ) 隐藏容量【l ,s o m e k h - b a r u c h 的失真约束为嵌入和攻击引起的失真超过门限的概率不大于个指数衰减函数的公开 水印容量 ,s u n 的基于隐藏者和攻击者之间的互信息游戏的信息隐藏容量,w o n g 的 在j p e g 2 0 0 0 压缩的j n d 门限约束下的理论隐藏容量【l l 】等。 基于中文w o r d 文档的数字水印算法 协议研究方面,主要是通过设计安全、合理的交互协议,使销售者、购买者共同参 与数字水印的生成、嵌入、检测和提取,解决公平性问题,维护各方的合法权益。目前 的研究成果主要包括基于可信第三方的消费者权利保护协议【1 2 1 、用于拷贝控制的版权保 护协议【”】、基于零知识证明的水印验证协议【1 4 】、基于对称公钥针对网络多媒体内容分发 的版权保护协议【l5 】等。 应用研究方面,一方面分析不同的应用环境和功能需求对数字水印算法在不可感知 性、鲁棒性、安全性、实时性等方面的要求,另一方面不断拓展数字水印的应用领域, 从单纯的版权保护拓展到内容认证、信息隐藏、秘密分享、隐秘通信等,比如证券防伪、 商标保护、电影分级、广播监视、操作跟踪、电子商务中的机要通信与防篡改、防抵赖、 数码照相机的照片认证等。所涉及的数字内容类型也在不断增加,从图像扩展到图形、 文本、m p e g 4 视频、音频、矢量数字地图、数据库、软件等【1 7 】标准的建立方面,主 要是一些企业、团体为了获得市场利益和方便司法认证,在各自的领域结合或专门针对 数字水印技术制定相应的标准。如美国c p t w g 组织的d h s g 小组组织i b m ,d i g i m a r e , h i t a c h i 等企业研究用于版权保护的数字水印基本条件并制定版权保护水印的技术标准, s d m i 和m p e g 4 中都指出应使用数字水印等技术来增强系统的安全性,并为数字水印 技术的应用预留了接口。 但是,数字水印技术到目前为止尚有很多无法解决的技术难题和未知领域。其安全 保护措施可能在某些方面还不如传统方法有效,但这绝对不是数字水印本身的缺陷,只 是时间的问题。数字水印不像密码学那样,具有完整的理论体系和成熟的算法。因为它 自诞生至今也不过十几年的时间,还不是很完善,在算法、理论等方面还有很多值得探 讨和研究的内容,主要包括以下几点: ( 1 ) 算法研究方面大多基于经验,缺乏理论指导和对现有方法的总结提升,没有对 一般化的鲁棒水印设计原理进行研究;缺乏有效的强鲁棒水印算法的研究,比如同时抵 抗压缩、滤波、量化、几何失真等;没有对如何在鲁棒性、不可感知性、容量之间建立 可接受的平衡进行研究,同时也包括符合人类的感知标准研究、鲁棒的数字水印结构研 究等;对于无争议的认证水印来说,虽然可以通过时间戳或不可逆水印来实现,但是如 何设计一个有效的不可逆水印还有待于进一步研究。 ( 2 ) 模型研究方面主要是借鉴通信领域的相关理论建立模型,还不能真正反映数字 水印在不可感知性、鲁棒性、水印容量上的矛盾关系:大多数的模型没有真正体现水印 嵌入、检测与提取之间的相关性,对嵌入和攻击的量化描述存在大量的假设,过于简单, 与实际情况不符,比如几何攻击就很难用概率转移来描述。 大连理工大学硕十学位论文 ( 3 ) 容量研究方面在数字内容、攻击描述、水印解码方法上存在过多的假设,得出 的结论是在假设载体来自于离散无记忆信源下的容量结果;容量结论只是定性的说明了 水印容量与哪些方面有关,针对具体应用环境和鲁棒性需求的容量定量研究却很少。 ( 4 ) 协议研究方面还没有完全安全的解决方案,协议的研究也往往只是针对稍费者 权利保护、拷贝控制、水印验证等某一方面,不同的协议存在不同的假设和前提条件, 还没有一个综合解决这些问题的水印协议。这样的协议必须能够同时满足水印信息的安 全性及指纹的私有性等条件。 ( 5 ) 安全性能研究,虽然对隐写术建立了频域和空域的安全评价标准,但是却无法 直接用于数字水印的安全性评价。攻击者知道数字水印的存在,可以通过对频域或空域 的分析总结攻击的方法。 目前,水印的安全性仍然停留在算法保密的安全性基础上,虽然通过使用密钥可以 一定程度上阻止对水印篡改、伪造,但是水印的安全性与鲁棒性是相关的,很难抵抗针 对水印的去除、去同步等所有攻击,离k e r k h o f s 准则相去甚远。数字水印是保障数字信 息安全的重要手段,它能克服密码技术中加密的内容在解密之后就没有有效的手段来保 证其不被非法拷贝、再次传播、非法发行及恶意篡改的问题;是近十年才形成的信息安 全的新研究领域,吸引了国内外有关密码学、图像处理、计算机图形学、模式识别、视 觉科学、通信、人工智能、信息安全等研究领域的众多学者;是当前倍受国内外众多学 者普遍关注的焦点研究课题。 1 3 本文水印研究的目的和意义 依据载体的不同,数字水印可分为图像数字水印、视频数字水印、音频数字水印、 文本数字水印等 1 8 , 1 9 1 。目前,关于图像、视频、音频数字水印方面的研究很多,取得 了很好的研究成果【2 0 。2 3 1 。但因为文本数字水印的研究与图像数字水印、视频数字水印、 音频数字水印的研究相比独具特点,有关文本数字水印的研究时间不长,研究成果不多, 研究难度很大【2 4 】。而实际上,一些文本文档比图像、视频等更需要得到保护【2 5 乏7 1 ;文本 数字水印在保护可公开传播信息的版权及保证秘密和隐私信息的安全等方面具有广泛 的应用前景【2 8 2 9 1 ,对互联网时代的政府工作和电子商纠2 7 】等的数字文本的保护也具有重 要意义;有不少具有较高理论意义和应用价值的问题值得深入地研究。但是当前国内外 对文本数字水印的研究都存在较难很好解决鲁棒性较差、隐蔽性不太好的问题。前不久 有人针对汉字的结构特点及汉字的有关结构知识,基于汉字数学表达式理论设计【3 0 - 3 2 1 和实现了一种利用汉字的结构在文本中嵌入数字水印的方法和一种汉字文本分层的方 法,很好的解决了隐蔽性不好的缺点,但是其鲁棒性还不是很好,对于恶意的内容添加 基于中文w o r d 文档的数字水印算法 或者文字替换攻击,其水印破坏比较严重,水印提取相对困难。本文以应用非常普遍的 w o r d 文档为水印载体,以汉字为文本中的对象,并利用其某些特殊属性( 通过编程才可 以修改) 进行选取嵌入点并对水印信息编码,使嵌入信息实现强隐蔽性的同时,也增强 了水印的鲁棒性。 1 4 文本数字水印的前景 文本数字水印作为数据安全领域中的新生事物,具有很高的技术含量和很强的生命 力,其研究成果对文本水印领域的研究和发展具有重要的科研和现实意义,同时也孕育 着巨大的商机,可用于十分广泛的领域。 ( 1 ) 数字图书馆与数字期刊发行 数字图书馆以数字形式保存许多受版权保护的文章、杂志及书籍;数字文本的发行 者( 报刊杂志社等) 用于电子文本的网络发行,这将大大提高生产和流通速度,降低出版 成本,拓宽发行范围,增加覆盖面。通过文本数字水印技术,数字文本的版权所有者可 以从中提取出证明其所有权的证据,增加了发行的安全性;执法部门也找到了保护版权 打击盗版的新方法,根据嵌入的水印实施版权鉴别和盗版追踪。 ( 2 ) 应用于互联网时代的政府工作和电子商务 随着互联网的发展,政府文件的分发将逐渐转向网络,还有政府上网工程中将有更 多的文件出现在网上,一旦出现恶意篡改,而无法证明真伪,后果是无法设想的。对于 电子商务中的一些经济合同文本等也存在着这些问题。因此,研究数字文本的保护方法 对互联网时代的政府工作和电子商务具有重要作用。 ( 3 ) 信息的安全性、完整性控制 在军事、金融等领域,通过网络传输的一些重要文件、秘密信息、军事机密、商业 机密、电子合同等需要保密和防止恶意篡改,并能够对文件传输后进行辨别真伪、安全 性验证。本文的水印算法在编码时通过加密算法、差错控制和水印技术相结合,构造综 合的数据安全系统可较好解决这一问题。 ( 4 ) 网络信息发布及网页安全检查 网络安全是近几年来的热门话题,网页是企业的网上门户,对网页实施保护既是对 知识产权的保护,又是对商业利润的保护,主要包含两方面的工作:一是防篡改,二是 防盗用。目前的网络安全技术还缺乏对网页篡改的有效侦测机制。网页是一种格式化的 文本,通过自动检测网页中的文本数字水印可以提供完整的安全与版权保护机制,来解 决这类问题。 ( 5 ) 远程教育 大连理工人学硕士学位论文 在远程教育中,教师的电子教案、课件,学生的作业、试卷等都需要一定的访问控 制机制及一定程度的版权保护,这可通过基于文本数字水印的安全传输机制和数据认证 解决。 1 5 文本数字水印的常见算法 文本数字水印近年来的研究取得了很大的进展,各种水印算法层出不穷,其中常见 的算法有: ( 1 ) 空间域算法:最低有效位方法( l s b 方法) 【3 3 1 ,p a t c h w o r k 方法及纹理块映射编 码法【3 4 】等。 ( 2 ) 变换域算法【3 5 】:d c t 变换,w a v e l e t 变换,f o u r i e 变换和分形。 ( 3 ) 压缩域算法【3 6 1 。 ( 4 ) n e c 算法【3 7 】。 ( 5 ) 生理模型算法【3 8 1 。 通常,变换域方法鲁棒性相对较强,但信息隐藏量小、算法复杂、速度较慢;空间 域方法则嵌入水印的信息量大,且嵌入和提取算法相对简单、速度快、易实现,但鲁棒 性较差。 1 6 论文主要工作 在文本水印方面,基于英文文本的数字水印算法研究已取得了较好的突破,然而中 文文本数字水印目前仍缺乏比较理想的具有强鲁棒性的水印方法,比如,常见的基于格 式的中文文本水印方法往往水印特征容易被察觉或破坏,抗攻击性不强、鲁棒性较差, 而基于内容的中文文本水印方法目前基本上采用同义词替换或基于计算机自然语言处 理技术的方法,前者局限于能够完全等价的同义词很少,后者采用的自然语言处理技术 还不成熟,而且使用这种技术嵌入水印后的文本很容易发生语义改变和难以理解的情 况。 经过分析,针对文本类数字产品的版权保护这一应用,本文提出和实现了一种在中 文w o r d 文档中基于字符属性的多组嵌入数字水印的算法,并实现水印检测、提取和 纠错恢复,编程实验证明此算法达到了比较好的隐蔽性、鲁棒性和安全性。开展的主要 工作有: ( 1 ) 载体文本嵌入信息 这是水印算法思路的第一步,也是与水印性能直接相关的非常重要的一步。这就要 求对水印的载体有更深一步的认识。格式化文本文档( 如w o r d ,p d f 文档) 和纯文本文档 ( 饮t ) 不同,格式化文本文档包含大量的格式信息,如字体信息、段落信息、表格信息等, 基丁中文w o r d 文档的数字水印算法 而这些信息又包括大量的属性,如字体信息中就有字体、字号、颜色、效果等几十个属 性。这给格式化文本文档带来了巨大的冗余空间供加载水印信息。本文在己有的利用文 本的词、行、句等结构进行细微的调整以插入秘密信息的水印嵌入方法的基础上,以应 用非常普遍的w o r d 文档为水印载体,研究发现,用汉字为文本中的对象,并利用其某 些特殊属性对水印进行信息编码,使嵌入信息实现较强的隐蔽性,甚至其不易遭到攻击 者的破坏。 实验发现,中文w o r d 文档中的单个汉字存在某些属性( 如汉字作为w o r d 中的 r a n g e 对象,其n o p r o o f i n g 属性默认值是保持不变的,而只有在编程时方可修改此值, 不通过编程不能读取和修改此属性值;另外其东亚语言类别即l a n g u a g e i d f a r e a s t 属性, 将其默认值改为w w d t r a d i t i o n a l c h i n e s e 或w d c h i n e s e s i n g a p o r e 后也非常隐蔽) 其默认值 可修改( 甚至其默认值一般用户难于修改) 且具有隐蔽性强的特点,通过对文字的特定属 性的值的修改可以达到嵌入水印信息的目的,此修改可以做到不会引起文本的任何可见 的变化( 包括文本编辑时不会引起拼写和语法错误产生的波浪线这个特征的变化) 。由 此,为良好性能的水印算法找到了文本载体上嵌入信息的方式。 ( 2 ) 以良好水印性能为目的设计一种中文文本汉字分组嵌入水印的算法。对载体嵌 入水印信息时以汉字为一个水印信息位嵌入对象,采用三种不同的方式实现三组嵌入, 为使三组嵌入相互独立,在向文本嵌入水印信息时基于提高水印算法的鲁棒性和文本完 整性检测性能的需要,希望嵌入的水印信息尽量分散于文本各处,并且三组水印嵌入时 分别按从不同顺序方向嵌入。 1 7 论文结构 本文分六个部分,各章节的内容及安排如下: 第1 章绪论,介绍了数字水印的研究背景、本课题的目的和意义和本文的主要工作。 第2 章为本课题的研究基础介绍,首先介绍文本水印,并叙述了数字水印的几个技 术特征和数字水印系统的通用模型,最后介绍了与水印生成有关的密码学与m d 5 算法 基础。 第3 章和第4 章详细介绍本文提出的中文w o r d 文档的水印算法,从水印的生成、 嵌入、检测、提取以及抗攻击和文本完整性检测等各个方面进行分析,用模型、算法、 规则和处理步骤等方式阐述其实现细节。 一8 一 大连理工大学硕士学位论文 第5 章,是实验部分,通过水印算法的编程实现与大量的水印程序运行实验以及对 实验结果的统计、分析,对本文所提出的水印算法进行了验证,并对水印性能进行了客 观的评价。 最后,总结本文的主要工作及需要进一步研究的问题。 基丁中文w o r d 文档的数字水印算法 2 水印的相关基础 尽管数字水印可以应用于包括文本、声音、静止图像以及视频在内的多媒体数据中, 但是目前大多数相关的研究和文献都是与静止图像、视频的保护有关的,这其中的主要 原因是由于当前有大量的图像和视频产品需要有效的手段加以保护。用于文本方面的数 字水印研究的很少,目前用于图像、视频方面的水印嵌入方法有很多,并且很多方法是 比较有效的,但是这些方法都不适用于文本文档的规则结构,同时也没有利用文本文件 的规则结构来进行检测。 实际上许多纸张文档( 如契约、遗嘱等等) 比那些音频、视频或图像之类的多媒体更 有价值。数字图书馆与档案馆以电子形式保存了大量受版权保护的文章、杂志及书籍。 如果文本数字水印技术能够很好的解决版权保护问题,目前的很多报刊杂志等都可以通 过网络发行,这样可以节省很多的人力、物力和时间。同时电子商务、政府上网等方面, 有大量的文件在互联网上流动,如果这类文件被篡改,将会产生严重的后果。文本文档 的保护技术可以提供一种追踪文本被非法复制、发行、篡改或伪造的方法。当然,仅靠 文本数字水印技术并不能完全解决篡改、盗版问题,它是一种辅助手段,但无疑它能为 这些问题引起的法律争端提供技术上的举证。 2 1当今数字水印技术的发展与应用 尽管在一千多年前我国就发明了造纸术,但是纸水印直到1 2 8 2 年才在意大利出现。 这些水印是通过在纸模中加细线模板制造出来的,纸上存在细线的区域会略薄一些,这 样也会更透明些。最早水印的意义和目的是不明确的,这些水印可能服务于某些实际功 能,例如识别某些纸是由哪些铸模制造的,或者作为识别造纸者的商标。另一方面这也 可能代表了某种神秘符号,又或者可能只是一种简单的装饰。 到1 8 世纪,水印被用做商标,记录纸张的生产日期,显示原始纸片的尺寸,水印 也开始用于钱和其他文件的防伪措施。英国人威廉亨利史密斯发明了一种实用的水印技 术。它用一种浅的浮雕雕刻制造早期水印,并把水印嵌入到纸模中,由此产生的铸模表 面的多变性创造出一种具有不同灰度阴影的漂亮水印,这就是今天2 0 美元钞票的杰克 逊总统面部上所使用的基本技术。( ( h y p n e r o t o m a c h i np o l i p h i l i ) ) 一书隐藏了不可见的水 印,该书在1 9 4 9 年匿名出版,该书每章开始的字母拼出了“p o l i a mf r a t e r f r a n c i s c u s c o l u m n ap e r a m a v i t ,意思被猜想为,“f a t h e rf r a n c e s c oc o l u m nl o v e sp o l i a 。 在1 9 5 4 年,m u z a k 公司的埃米利希姆布瞥克为带有水印的音乐作品申请了一项专利。 在此例中,通过间歇地应用中心频率为l k h z 的窄带陷波滤波器,认证码就被插入到音 大连理工大学硕士学位论文 乐中。美国专利局这样描述了该项的发明:“此发明使对音乐原作进行确证成为可能, 从而制定出了一个防止盗版的有效途径,这也可以比作纸币中的水印。 此系统被m u z a k 公司延用到了1 9 8 4 年前后。1 9 9 5 年前后,人们对数字水印的兴趣猛增。1 9 9 6 年召开的 第一届信息隐藏学术讨论会把数字水印作为它的主要议题之一。 在2 0 世纪9 0 年代末期一些公司开始j 下式地销售水印产品。v e r a n c e 企业的技术采 用了第一阶段的s d m i ,此技术同时被诸如l i q u i da u d i o 等的国际互联网音乐发行人使 用。在图像水印方面,d i g i m a r a 公司把水印的嵌入器和检测器与a d o b e 公司的p h o t o s h o p 捆绑在一起。1 9 9 3 年1 1 月m a r ca n d r e e s s e n 的m o s a i c 网页浏览器的出现使国际互联网 变得对用户友好起来,人们愿意在网上下载图片、音乐和视频。 国际互联网是一个优秀的数字媒体发行系统,这是因为它廉价,不需要仓库和库存 品,且交付几乎是瞬间完成的。然而,内容拥有者也看到了盗版的高风险性。通过录制 设备和互联网,盗版者可以不费吹灰之力地录制和发行受版权保护的材料,而无需付给 实际版权所有者正当的补偿,因此,内容所有者正在急切地寻找能有效保护他们权利的 技术。最早使用的方法是密码学,它是发展的最完善并衍生为一门科学的技术之一。在 发送之前加密内容,仅把密钥给予那些购买了内容的合法用户。遗憾的是通过加密并不 能帮助销售者监视合法用户如何处理解密后的内容。这样盗版者可以购买产品,使用密 钥获取无保护的内容副本,然后继续发行非法副本。 因此,迫切需要一种替代技术或是对密码学进行补充的技术,它应该甚至在内容被 解密后也能够继续保护内容。水印则有能力满足这些要求,因为它把信息放在内容里, 而在一般的使用中它不会被消除。即使经过解密、再加密、压缩、数一模变换和改变文 件格式这些过程,设计巧妙的水印也仍能继续存在。水印有着广阔的应用前景,主要应 用于下面几个方面: ( 1 ) 广播监视 广播监视是通过识别嵌入到作品中的水印来鉴别作品是何时何地被广播的。 ( 2 ) 版权保护 在这种应用中,象征授权的水印以不可感知( 不可见或不可听) 的方式嵌入到多媒体 中,既不损害原作品的使用价值,又达到了版权保护的目的。 ( 3 ) 内容认证 内容认证就是将签名信息嵌入到内容中以待日后检验内容是否被篡改。这些被嵌入 的签名信息通常是一些与介质内容或作者身份相关的信息,通过验证提取数据的完整性 来检测介质被篡改的情况。 ( 4 ) 操作追踪 基于中文w o r d 文档的数字水印算法 所谓操作追踪就是用水印来鉴别合法获得内容但非法重新发送内容的人。这种应用 主要是用来追踪创作者或购买者的多媒体的某种备份,如在分发给一些用户前,数字作 品版权所有者通过指纹编码向分发给每个用户的作品拷贝中引入唯一的信息,如不同用 户的i d 或序列号等。 ( 5 ) 拷贝控制 拷贝控制就是使用水印来告知录制设备不能录制什么内容。这种情况下嵌入的水印 表示某种复制控制和访问控制限制,水印检测器通常集成在一个记录回放系统,检测 时通过指使某种硬件或软件产生动作如使记录模式有效或无效来得到实施, d v d ( d i g i t a lv i d e od i s k ) 防拷贝系统就是一个典型的例子。 ( 6 ) 票据防伪 随着高质量图像输入输出设备的发展特别是精度超过1 2 0 0 d p i 的彩色喷墨、激光打 印机和高精度彩色复印机的出现,使得货币、支票以及其他票据的伪造变得更加容易。 票据防伪是保证在票据中隐藏的水印信息在打印后仍然存在,可以保证票据的真实性。 2 2 文本数字水印的概念 所谓文本数字水印,就是以一定的方式对文本内容及格式等进行修改,嵌入所需信 息而不容易被察觉。它可以标识和验证出作者、所有者、发行者或授权消费者的信息, 还可以追溯作品的非法分发。它应该具有以下特性: 察觉性与不易察觉性共存:不易察觉性指数字水印的存在不应明显干扰被保护的数 据,不影响被保护数据的正常使用;易察觉性指合法实体可以方便地知道电子出版物的 内容是否嵌入了水印并受版权保护,是指任何用户能够看见但又去不掉的特性。 隐藏位置的安全性:水印信息隐藏于数据而非文件头中,文件格式的变换不应导致 水印数据的丢失。 鲁棒性:所谓鲁棒性是指在经历多种无意或有意的信号处理过程后,数字水印仍能 保持完整性或仍能被准确鉴别。可能的信号处理过程包括信道噪声、滤波、重采样、剪 切、位移、尺度变化以及有损压缩编码等。 确定性:水印所携带的所有者信息能够被唯一的鉴别确定,而且在遭到攻击时,确 认所有者信息的精确度不会恶劣许多。 关联性:关联性是指多次嵌入水印后,应该能判断嵌入水印的先
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安徽省固镇县2026届数学八上期末综合测试试题含解析
- 专利行业财务知识培训课程课件
- 入股分红协议书范文
- 智慧城市数据底座行业产业链全景解析
- 2025年公开交易方式下集体土地使用权转让合同书新范文
- 工商银行滁州市定远县2025秋招笔试金融学专练及答案
- 邮储银行上海市崇明区2025秋招笔试金融学专练及答案
- 中国银行新乡市牧野区2025秋招英文面试20问及高分答案
- 邮储银行永州市蓝山县2025秋招笔试管理营销专练及答案
- 工商银行北海市银海区2025秋招笔试英语阅读选词题专练30题及答案
- 管理咨询项目考核方案
- Unit 1~2单元月考测试(含答案) 2025-2026学年译林版(2024)八年级英语上册
- 2025年五粮液笔试考试题及答案
- 第49部分:碳酸根、重碳酸根和氢氧根离子的测定 滴定法(报批稿)
- T/CAAM 0004-2023针刺临床试验中假针刺对照设置与报告指南
- 立陶宛语儿童文学的语言特点论文
- 民宿的内涵专题课件
- 高一必修一英语单词默写表
- 人教版六年级数学上册第一单元测试卷
- 2024年注册安全工程师生产技术押密试题及答案
- 高标准农田设计实施方案(技术标)
评论
0/150
提交评论