




已阅读5页,还剩63页未读, 继续免费阅读
(计算机应用技术专业论文)基于汉字字形区分的文本数字水印算法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 近年来,跟随着互联网的出现和不断发展,人们进行信息交流的方式发生了巨大的 改变。传统的以纸张、磁带、录像带等实物载体的信息交流方式已逐渐被以文档、音频 文件、视频文件等二进制文件载体的信息交流方式所替代。如今,由作家所创作的文学 作品、由老师或某个领域的专家撰写制作的教学资源、由音乐制作人和影视制作人出版 发行的音乐制品和各种影视作品都被拿到互联网上进行交流。这种局面带来了两方面的 效应:一方面互联网的出现使得信息更加有效地被传递和分发,使得人们可以快速的获 得有用的信息;但另一方面这种信息交流方式也会导致一些没有被授权的用户同样获得 了授权用户才能具有的利益。最终使信息资源创造者的利益受到损害,从而大大打击了 信息资源创造者的创作热情。于是,人们迫切需要一种技术,要求它既可以继续发挥互 联网积极的一面,同时又可以对各种受版权保护的信息资源给与技术上的保护。数字水 印技术就是在这样的背景下产生和发展起来的。 目前,数字水印技术已经被广泛的应用到图像、音频、视频、文档、软件、数据库 等多种应用领域,并取得了不错的应用成果,而逐渐的被人们重视起来。不过目前基于 图像、音频和视频的数字水印研究成果居多,并且其中的很多方法是比较有效的,但是 这些方法都不太适用于文本文档的规则结构。迄今为止,基于文本的数字水印研究因其 特殊性,相关的研究成果主要集中在基于文本的格式方面。即通过对文档的格式作一些 微量调整,将信息以二进制编码的形式隐藏于文本对象的变动中。这类算法由于完全依 赖于文本格式( 行移、字移、特征编码等) ,均存在抗攻击性不够强,鲁棒性较差的缺点。 究其原因,主要是因为水印信息只能加入文本内容之外,而无法加入文本内容之中。因 此,必须研究基于内容的文本数字水印算法才能较好地解决这一问题。 本文通过研究图形学中图与图之间的关系以及人类对汉字认知习惯的特点,将汉字 拆分为多个汉字部件,再将每个汉字部件看作一个图形单位,对照图与图之间的关系, 将这些汉字部件进行不同方式的组合。从而使同一个汉字具备了多个字形。然后,通过 使用不同的字形,将水印信息嵌入到文本当中。这种算法成功的将水印信息隐藏于文本 的内容之中,从而较之以前的各种水印算法,在水印的不可感知性、鲁邦性等方面均获 得了很大的进步。本文在最后,通过理论分析与实验分析,从两方面验证了本文所提出 的水印算法即可应用于电子文档,又可应用于纸制文档,同时也验证了该算法具有很强 的不可感知性和鲁邦性。 关键词:信息隐藏;数字水印;文本数字水印 大连交通大学工学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ,谢廿lt h ee m e r g e n c ea n dc o n t i n u o u sd e v e l o p m e n to ft h ei n t e m e t ,t h ew a y o fp e o p l ee x c h a n g ei n f o r m a t i o nh a sc h a n g e da1 0 t t h et r a d i t i o n a lm e a n so fe x c h a n g e i n f o r m a t i o nu s i n gp a p e r , t a p e s ,v i d e o sa n do t h e rp h y s i c a lc a r r i e rh a sb e e ng r a d u a l l yr e p l a c e d b yt h en e wm e a n so fe x c h a n g ei n f o r m a t i o nu s i n gd o c u m e n t s ,a u d i of i l e s ,v i d e of i l e sa n do t h e r b i n a r yf i l e sc a r d e rb a s eo ni n f o r m a t i o nt e c h n o l o g y n o w ,t h el i t e r a r yw o r k sw r i r e nb yw r i t e r s , t h ep r o d u c t i o no ft e a c h i n gr e s o u r c e sc r e a t e db yt h et e a c h e r so re x p e r t si no n ef i e l d ,t h em u s i c p r o d u c t sa n dv a r i o u st e l e v i s i o np r o g r a m sa n dm o v i e sp u b l i s h e da n dd i s t r i b u t e db ym u s i c p r o d u c e r sa n df i l mm a k e r sh a v eb e e np u to nt h ei n t e r a c ta n de x c h a n g e s t 1 1 i ss i t u a t i o nh a s b r o u g h tt w oe f f e c t s :o nt h eo n eh a n dt h ee m e r g e n c eo ft h ei n t e m e tm a k e si n f o r m a t i o nm o r e e f f e c t i v e l yt ob ep a s s e da n dd i s t r i b u t e d ,m a k e si tp o s s i b l et og e tu s e f u li n f o r m a t i o ni na l i t t l e t i m e ;b u to nt h eo t h e rh a n dt h i sm e a no fe x c h a n g ei n f o r m a t i o nw i l ll e a dt os o m eu s e sw h o w a s n ta u t h o r i z e dg e tt h ei n t e r e s t sw h i c hs h o u l do n l ya u t h o r i z e du s e r sc a nh a v e t h ee n d ,t h i s s i t u a t i o nh a r m st h ei n t e r e s t so ft h ec r e a t o r so ft h ei n f o r m a t i o nr e s o u r c e s ,g r e a t l yd a m a g e dt h e c r e a t i v ep a s s i o no fc r e a t o r so fi n f o r m a t i o nr e s o u r c e s t h u s ,i t su r g e n tt h a tp e o p l ew a n tt og e t at e c h n i c a l ,w h i c hc a nc o n t i n u et op l a yap o s i t i v ea s p e c to ft h ei n t e r a c t ,a tt h es a m et i m e ,i t c a nb eu s e dt op r o t e c tt h ev a r i o u si n f o r m a t i o nr e s o u r c e st h a th a v ec o p y r i g h t n l ed i g i t a l w a t e r m a r k i n gt e c h n o l o g yg e n e r a t e sa n dd e v e l o p sa g a i n s tt h i sb a c k d r o p c u r r e n t l y ,d i g i t a lw a t e r m a r k i n gt e c h n o l o g yh a sb e e nw i d e l ya p p l i e dt oi m a g e s ,a u d i o , v i d e o ,d o c u m e n t s ,s o f t w a r e ,d a t a b a s ea n do t h e ra p p l i c a t i o na r e a s ,a n dh a sa c h i e v e dg o o d r e s u l t so ft h ea p p l i c a t i o n ;t h e r e b yg r a d u a l l yg e tf u r t h e rp e o p l e sa t t e n t i o n b u ta tt h em o m e n t t h e r ei sas i t u a t i o nt h a tr e s e a r c hr e s u l t sw h i c hb a s e do ni m a g e a u d i oa n dv i d e od i g i t a l w a t e r m a r k i n gi st h em a jo r i t y ,a n dm a n yo f t h e ma r ev e r ye f f e c t i v e ,b u tt h e s em e t h o d sa r en o t a p p l i c a b l et ot h er u l e so ft e x td o c u m e n t s s of a r ,t h et e x t - b a s e dd i g i t a lw a t e r m a r k i n gs t u d y d u et ot h es p e c i a ln a t u r e ,r e l e v a n tr e s e a r c hr e s u l t sm a i n l yc o n c e n t r a t e di nt e x t - b a s e df o r m a t t h r o u g hm a k es o m ea d j u s t m e n t so nt h ef o r m a to ft h ed o c u m e n t ,h i d et h ew a t e r m a r k i n g i n f o r m a t i o ni n t ot e x td o c u m e n t s 、析mb i n a r yc o d eb yt h ed o c u m e n to b j e c tc h a n g e s a ss u c h a l g o r i t h m sr e l y e n t i r e l yo nt h et e x tf o r m a t ( 1 i n es h i f t ,t h ew o r ds h i f t ,f e a t u r ec o d i n g ,e t c ) , t h e r ea r et h es h o r t c o m i n g so fn o ts t r o n ga n t i - o f f e n s i v e ,t h ep o o rr o b u s t n e s s t h er e a s o nf o r t h i si sm a i n l yb e c a u s et h ew a t e r m a r kc a no n l yj o i no u to ft h et e x t ,b u tu n a b l et oj o i nt h e c o n t e n t so ft h et e x t t h e r e f o r e ,i tm u s tb et h a to n l yw es t u d yt h et e x tc o n t e n t b a s e dd i g i t a l w a t e r m a r k i n ga l g o r i t h m ,w ec a ns o l v et h i sp r o b l e m t l l i sp a p e rs t u d i e st h er e l a t i o n s h i pb e t w e e nm u l t i g r a p h sa n dt h eh u m a nc o g n i t i v eh a b i t s o ft h ec h i n e s ec h a r a c t e r s ,a n ds p l i to n ec h a r a c t e ri n t oan u m b e ro fc o m p o n e n t s ,t h e ne a c h c o m p o n e n ta sag r a p h i cu n i t ,a n da c c o r d i n ga st h er e l a t i o n s h i po fm u l t i - g r a p h s ,r e c o m b i n e i i 摘要 t h e s ec o m p o n e n t su s i n gd i f f e r e n tw a y t h e no n ec h i n e s ec h a r a c t e rw i l lh a v em u l t if o n ts t y l e t h e n t h r o u g hu s i n gd i f f e r e n tf o n ts t y l e ,e m b e dt h ew a t e rm a r ki n t ot h et e x t n l i sa l g o r i t h m e m b e d st h ew a t e r m a r ki n f o r m a t i o ni n t ot h ec o n t e n t so ft h et e x ts u c c e s s f u l l y c o m p a r e dw i t h t h ep r e v i o u sw a t e r m a r k i n ga l g o r i t h m ,t h i sa l g o r i t h mg e t sab i gs t e pf o r w a r do na s p e c to f i n v i s i b l ec h a r a c t e ra n dr o b u s tc h a r a c t e r f i n a l l y ,t h i sp a p e ra p p r o v e st h a tt h i sn e wa l g o r i t h m c a i lb ea p p l i e dt oe l e c t r o n i cd o c u m e n t sa n dp a p e rd o c u m e n t sb o t hb yt h et h e o r e t i c a la n a l y s i s a n de x p e r i m e n t a la n a l y s i s a n dw h a t sm o r e ,i ta l s o 印p r o v e st h a tt h i sn e wa l g o r i t h mh a s s t r o n gi n v i s i b l ec h a r a c t e ra n d r o b u s tc h a r a c t e r k e yw o r d s :i n f o r m a t i o nh i d d e n ;d i g i t a lw a t e r m a r k i n g ;t e x td i g i t a lw a t e r m a r k i n g i i i 绪论 第一章绪论 1 1 课题来源 本课题来源于辽宁省信息产业厅项目“嵌入式系统网上智能教学平台”的部分研究 工作。该项目是要建立一套大型的嵌入式系统网上智能教学平台,该平台能够提供网上 教学、网上答疑、网上交流、网上考试等功能。因为此教学平台会提供大量嵌入式系统 领域的网上教学课件、资料、案例等供学员使用和下载。这些教学资源大都是由一些老 师或该领域的专家所创作的。为了防止这些教学资源被其他网站及一些非会员用户非法 使用,必须对这些教学资源的版权进行保护。本课题就是要利用用于版权保护的数字水 印技术来解决这个问题。 1 2 研究背景 跟随着数字技术和因特网的迅猛发展,各种形式的多媒体数字作品( 文档、图像、 音频、视频等) 纷纷以网络形式发表,然而数字作品的便利性和不安全性是并存的。数 字作品虽然可以低成本、高速度地被复制和传播,同时这种特性也为创造者和使用者提 供了很大的便利,但这些特性也容易被盗版者所利用。因而,采取多种手段对数字作品 进行保护、对侵权者进行惩罚已经成为十分迫切的工作。除了与传统作品版权保护相类 似的法律和管理手段外,还应该针对数字作品本身的特点为其提供技术上的保护。数字 水印技术的研究就是在这种应用要求下迅速发展起来的i l 】。 数字水印( d i g i t a lw a t e r m a r k i n g ) 是信息隐藏技术研究领域的一个重要分支,是近十 年来出现的一种有效的数字产品版权保护和数据安全维护技术。它将具有特定意义的标 记( 水印) ,利用数字嵌入的方法隐藏在数字图像、声音、文档、图书、视频等数字产品 中,用以证明创作者对其作品的所有权,并作为鉴定、起诉非法侵权的证据,同时通过 对水印的检测和分析来保证数字信息的完整可靠性,从而成为知识产权保护和数字多媒 体防伪的有效手段。其中待嵌入水印的数字产品被称为掩体对象或载体,嵌入水印后的 数字产品被称为隐藏对象或含水印载体。 数字水印技术作为信息隐藏技术的一个分支,除应具备信息隐藏技术的一般特点 外,还有着其固有的特点和研究方法。例如,从信息安全的保密角度而言,如果隐藏的 信息被破坏掉,系统可以视为安全的,因为秘密信息并未泄露;但是,在数字水印系统 中,隐藏信息的丢失即意味着版权信息的丢失。从而失去了版权保护的功能,这一系统 就是失败的。因此数字水印技术必须具有较强的稳健性、安全性和透明性。 在现实生活中,以下几个引起普遍关注的问题构成了数字水印的研究背景【2 。5 l 。 大连交通大学工学硕士学位论文 ( 1 ) 数字作品的知识产权保护 数字作品( 如电脑美术、扫描图像、数字音乐、视频、三维动画) 的版权保护是当前 的热点问题,而对数字作品的版权保护可能是水印最主要的应用。由于数字作品的拷贝、 修改非常容易,而且可以做到与原作完全相同,所以原创者不得不采用一些严重损害作 品质量的办法来加上版权标志,而这种明显可见的标志很容易被篡改。 数字水印利用数据隐藏原理使版权标识不可见或不可听,既不损害原作品质量,又 达到了版权保护的目的。目前,包含很多图像和数字音乐的因特网站是该应用的推动力 量,网站所含的图像和音乐是可随意使用的,但是它们的所有者却要保护它们。现阶段, 用于版权保护的数字水印技术已经进入了初步实用化阶段,i b m 公司在其“数字图书馆” 软件中就提供了数字水印功能,a d o b e 公司也在其著名的p h o t o s h o p 软件中集成了 d i g m a r c 公司的数字水印插件。然而实事求地说,目前市场上的数字水印产品在技术上 还不成熟,很容易被破坏或破解,距离真正的实用还有很长的路要走。 ( 2 ) 商务交易中的票据防伪 随着高质量图像输入输出设备的发展,特别是精度超过1 2 0 0 d p i 的彩色喷墨、激 光打印机和高精度彩色复印机的出现,使得货币、支票以及其他票据的伪造变得更加容 易。据美国官方报道,仅在1 9 9 7 年截获的价值4 0 0 0 万美元的假纱中,用高精度彩色打 印机制造的小面额假钞就占1 9 ,这个数字是1 9 9 5 年的9 0 5 倍。目前,美国、日本以 及荷兰都已开始研究用于票据防伪的数字水印技术。其中麻省理工学院媒体实验室受美 国财政部委托,已经开始研究在彩色打印机、复印机输出的每幅图像中加入惟一的、不 可见的数字水印,在需要时可以实时地从扫描票据中判断水印的有无,快速辨识真伪。 另一方面,在从传统商务向电子商务转化的过程中,会出现大量过渡性的电子文件。 如各种纸质票据的扫描图像等。即使在网络安全技术成熟以后,各种电子票据也还需要 一些非密码的认证方式。数字水印技术可以为各种票据提供不可见的认证标志,从而大 大增加了伪造的难度。 ( 3 ) 声像数据的隐藏标识和篡改提示 数据的标识信息往往比数据本身更具有保密价值,如遥感图像的拍摄日期、经纬 度等。没有标识信息的数据有时甚至无法使用,但直接将这些重要信息标记在原始文件 上又很危险。数字水印技术提供了一种隐藏标识的方法,标识信息在原始文件上是看不 到的,只有通过特殊的阅读程序才可以读取。这种方法已经被国外一些公开的遥感图像 数据库所采用。 此外,数据的篡改提示也是一项很重要的工作。现有的信号拼接和镶嵌技术可以做 到“移花接木 而不为人知。因此,如何防范对图像、录音、录像数据的篡改攻击是重 2 绪论 要的研究课题。基于数字水印的篡改提示是解决这一问题的理想技术途径,通过隐藏水 印的状态可以判断声像信号是否被篡改。 1 3 文本数字水印问题的提出 尽管数字水印可以应用于包括文本、图像、声音以及视频在内的多媒体数据中,但 是目前大多数相关的研究和文献都是与图像、声音、视频的保护有关的,而涉及文本保 护的成果并不多。这其中的主要原因是由于:方面当前有大量的图像、音频和视频产 品需要有效的手段加以保护;另一方面此类数字媒体普遍存在大量的冗余数据,便于水 印信息的隐藏。随着计算机和网络的飞速发展,人们的很多创意都以文本的方式存储和 传输;数字图书馆与档案馆以电子形式保存了大量受版权保护的文章、杂志及书籍;电子 商务、电子政务需要传递大量的电子文档。事实上,文本作为信息传递的一种重要手段, 其应用大大超过了图像、视频和音频的范围。如果文本数字水印技术能够很好地解决版 权保护问题,目前的很多报刊杂志等都可以通过网络发行,这样可以节省很多人力、物 力和时间。同时电子商务、政府上网等方面,有大量的文件在互联网上流动,如果这类 文件被篡改,将会产生严重后果,所以人们也可以用水印的方法来进行版权认证。文本 文档的保护技术可以提供一种追踪文本被非法复制、发行、篡改或伪造的方法。 然而文本文档与图像、视频和音频等多媒体信息有着完全不同的特点: ( 1 ) 文本文档的图像表示是用像素点阵列的方式来描述文档各页的内容,一般可以 用一个函数来表示一页文字( 图像) : f ( x ,y ) = 0 或1 ,x 0 ,w ,y 0 ,l ( 1 1 ) 此处w 和l 分别表示一页的宽度和长度。一个文本行也可以用类似的公式来表示: f ( x ,y ) = 0 或1 ,x 0 ,w ,y t ,b ( 1 2 ) 其中t 和b 分别表示文本行的顶部和底部: ( 2 ) 文本文档一般由单词( 或汉字) 、句子和段落等有规律的结构组合而成; ( 3 ) 非格式化文档不保存文档的格式信息,其文本信号中基本不存在冗余,文本的 一个信息位发生变化,文本内容就可能发生错误; ( 4 ) 格式化文档保存文档的格式信息,其版面布局信息( 如字间距、行间距等) 或格 式化编排中,存在一定的冗余。 为此,在文本中嵌入数字水印的方法就不同于在图像、视频和音频中的方法。尽管 基于图像、视频和音频的数字水印研究成果很多,但是这些方法都不太适用于文本文档 的规则结构,人们必须从一个新的角度,根据文本文档的规则结构来设计文本数字水印 算法。 大连交通大学工学硕士学位论文 1 4 国内外相关研究现状 一般认为,数字水印的研究真正开始于2 0 世纪9 0 年代初期 6 - 7 。1 9 9 6 年i e e ei n t c o n f o ni m a g ep r o c e s s i n g 国际会议将水印技术列为专题之后,各种重要学术会议及学术 期刊上不断出现对数字水印的研究文章,数字水印开始成为学术界一个重要的热门研究 方向。目前,对水印的研究主要包括水印理论模型、水印结构、水印嵌入策略、水印检 测算法、水印性能评价、水印算法分析及水印的标准化等。根据水印载体的不同,对数 字水印的研究可分为:图像水印、视频水印、音频水印和文本水印研究o 】等。近年, 还有学者提出了针对软件产品的软件水印【1 1 1 等新的数字水印研究领域。关于图像、视频、 音频数字水印方面的研究很多,取得了很好的研究成果1 1 2 】。我国学术界在此前沿领域的 研究也非常活跃【1 3 1 ,众多单位及众多专家在此领域做出了很大的贡献。图像、视频、音 频数字水印在实现算法上比较相似,主要是利用图像、视频、音频的冗余信息和i - i v s ( h u m a nv i d e os y s t e m ) 、h a s ( h u m a na u d i os y s t e m ) 的特点来加载数字水印。 大概从1 9 9 3 年开始,才有人研究文本数字水印。1 9 9 5 年9 月i e e ej o u r n a lo ns e l a r e a si nc o m m u n i c a t i o n 杂志通过加入数字水印来保护版权的方式在互联网上试发行了 一期【l 引,第一个月的注册用户就达到了1 2 0 0 人。1 9 9 8 年i e e ej o u r n a lo ns e l a r e a si n c o m m u n i c a t i o n 出版了一本专集讨论数字版权保护问题。与图像、视频、音频数字水印 方法相比,文本数字水印所用的算法有所不同,主要集中在利用文本格式的微调隐藏“0 ” 或“l ,从而将信息直接编码到文本格式中去。到目前为止,基于文本的数字水印研 究相关的研究成果在国外己有一些,而在国内却不多见。以下列出现有文本数字水印的 研究成果和相关文献: ( 1 ) j t b r a s s i l ,n f m a x e m c h u k ,s h l o w 等人提出了p o s t s c r i p t ,p d f 等格式化文本 通过修改文档格式插入水印信息的思想【1 5 。2 0 】 行移编码:通过垂直移动文本行来编码秘密信息。 字移编码:通过将文本行中的单词水平移位来插入标记。 特征编码:通过改变文本中某些字母的某一特征来插入标记。 上述方法是文本数字水印方法中的经典算法,即利用格式文本的空间特征( 行间距、 字间距、字符特征等) 来嵌入秘密信息,却不修改文本的任何可见内容。因为格式文本 中包含有规律的字符、行和段落等结构,对这些结构的微弱调整很难被感知,因而不会 改变文本的整体外观。 ( 2 ) d i n gh u a n g ,h o n gy a n 等人提出了基于正弦波的字间平均间距文本水印技术 j ,即通过微调单词间距使不同行的字间平均间距表现出正弦曲线特征,从而将水印信 4 绪论 息编码在正弦曲线中,实现了盲检。之后h y o n g o nc h o o ,w h o i y u lk i m 等人对此方法 加以改进,提出利用不同正弦曲线的正交特性,来提高水印容量瞄】。 ( 3 ) y o u n g w o nk i m ,k y o u n a em o o n 等人提出了基于文本图像字间距统计数的文 本数字水印技术团】,较好地解决了基准字块的定位问题,其鲁棒性较j t b r a s s i l 等人的 字移编码有所改进。 ( 4 ) n o p p o mc h o t i k a k a m t h o m 提出了基于文本图像字符间距宽度序列编码的文本数 字水印技术【2 4 - 2 5 】。该方法较j t b r a s s i l 等人的字移编码提高了水印信息容量,并扩展了 语言的适用范围( 可用于中文、泰文等) 。 ( 5 ) 西安交通大学的黄华等人根据汉字文本的特点对j t b r a s s i l 等人提出的行移标 记策略和相应的质心检测方法进行了改进,提出了一种新的文本数字水印标记策略和检 测方法【2 6 - 2 7 。该方法降低了计算量,并且可以实现盲检,更为重要的是扩展了水印空间。 ( 6 ) 中国工程院士李德毅等人提出了基于云模型的文本数字水印技术【2 引。通过基本 云发生器产生水印标记,将行移与字移的模糊性和随机性有机地综合在一起,较好解决 了文本图像中短行标记问题和水印提取问题,水印容量也增加1 倍。 ( 7 ) b e n j a m i nb a r a n ,s a n t i a g og o m e z 等人提出了利用数字印章在文本中插入水印 标记和传递隐秘信息的方法 2 9 1 ,并提供了相应的商用软件。该软件可适用于多种格式文 档( r t f 、d o c 、h t m l 等) ,并可根据实际需要提供可见水印或不可见水印。算法的最 终实现仍然基于格式文档的特征编码( 微调字符大小) 。 以上各种方法的基本思想均是通过轻微调整文档的空间结构特征来加载水印。这类 算法由于完全依赖于文本格式( 行移、字移、特征编码等) ,均存在抗攻击性不够强,鲁 棒性较差的缺点。一个攻击者只需简单地试图重新调整文本的格式,就可以破坏掉所有 嵌入在文本格式中的信息。不过这类算法能够满足在文本中嵌入水印却不修改文本的任 何可见内容的要求。 ( 8 ) b e n d e r 等人从信息隐藏的角度出发,提出了对文本中特定的单词进行同义词替 换的方法【3 们。该方法把文本中某些特定的单词挑选出来构成一个同义词替换表,需要替 换的单词表示“0 ,不需要替换的单词表示“l 。这样就可以在文本中隐藏秘密数据, 隐藏的数据多少与文本中同义词组出现的频率有关。这种方法通过修改文本的内容( 单 词) 来隐藏信息,鲁棒性较好;但要求载体文本不可任意,而且在提取信息时需要同义 词替换表作为参考。再者,在文本中嵌入水印的前提是最好不要修改文本的任何可见内 容。 ( 9 ) n f m a x e m c h u k 等人提出了通过附加空格来加载秘密信息的文本数字水印方 法。该方法常用于非格式化文本,一般是在行末添加空格或不可见编码,将信息编码隐 大连交通大学工学硕士学位论文 藏在字处理系统的断行处。行尾是否有空格在视觉上难以区分,提取时可通过不可见编 码的有无及数目进行解码。该方法隐蔽性不够强,稳健性较差,而且隐藏的信息量很有 限。 ( 1 0 ) s h i n g oi n o u e ,k y o k om a k i n g i c h i r om u r a s e 等人提出了基于x m l 文档的文本 数字水印【3 1 】,即在保持d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 的约定及文档的应用能力不变的 情况下,通过改变x m l 文档的语法结构或逻辑结构来嵌入秘密信息。应该说,用这种 方法加入的水印不可见性好,鲁棒性较强。但其局限性也是显而易见的,即受限于特定 的文档结构,因而应用范围非常有限。 ( 11 ) a t t a l a h ,r a s k i n ,h e m p e l m a n n 3 2 - 3 3 j 等人提出自然语言文本可通过基于语义来 嵌入水印。该方法利用自然语言之语义冗余性加载水印,是目前研究文本数字水印的一 种新思路,己在英文文本中取得初步进展。己有的实验表明,其鲁棒性较好,可隐藏的 信息量较大。但由于自然语言语义复杂,表达千变万化,所以要完善基于自然语言的文 本数字水印技术,还有大量的研究工作要做。 上面这些文本水印都具有各自的特色和各自的优缺点。但是,这些水印算法当中, 没有一种算法是能同时做到既可应用于电子文本,又可应用于纸制文本,且具有水印信 息容量大、鲁棒性好、人的视觉影响小、抗攻击性能强的特点。 本文从人类对汉字认知习惯的特点出发,为同一个汉字配备多个不同的字形,然后 利用不同的子形来隐藏水印信息。这种新的文本水印算法可以用于解决现有文本数字水 印技术中出现的诸如不可感知性差、水印容量小、鲁棒性差、检测困难等问题。而且对 于数字水印信息的载体为电子文本、纸制文本的情况均适用。 1 5 本文的主要工作 纵观上述国内外关于文本数字水印的研究动态,不难发现目前文本数字水印的研究 成果,主要集中在基于文本格式方面( 行移、字移、特征编码等) ,这类算法普遍存在抗 攻击性不强,鲁棒性较差的缺点。究其原因,主要是因为水印信息只能加入文本内容之 外,而无法加入文本内容之中。因此,必须研究基于内容的文本数字水印算法才能较好 地解决这一问题。 本文从人类对汉字认知习惯的特点出发,并结合图形学的部分理论,为同一个汉字 配备多个不同的字形,然后利用不同的子形来隐藏水印信息。这种新的文本水印算法可 以用于解决现有文本数字水印技术中出现的诸如不可感知性差、水印容量小、鲁棒性差、 检测困难等问题。而且对于数字水印信息的载体为电子文本、纸制文本的情况均适用。 6 绪论 基于上述构想,本文提出了一种基于汉字字形区分的文本数字水印算法,具体开展 的工作主要有: ( 1 ) 对数字水印技术进行全面的分析。包括数字水印的通用模型、方法和特点; 文本数字水印的研究现状;文本数字水印的基本方法;现有文本数字水印方法的局限性; 正在研究的新思路。 ( 2 ) 提出一种基于汉字字形区分的文本数字水印算法。 ( 3 ) 研究汉字的基本特征:包括汉字的结构特征、汉字偏旁部首的组合方式等基 本特征。 ( 4 ) 研究人类对汉字的认知习惯,找到人类认知习惯中的漏洞,并利用这个漏洞 为同一个汉字配备不同的字形。 ( 5 ) 研究图形学中图与图之间的关系,并将这个关系理论应用到汉字字形当中。 ( 6 ) 为同一个汉字的多个字形进行编码,使得同一个汉字的不同字形携带不同的 水印信息。 ( 7 ) 利用统计学理论,选择理想的水印嵌入位置,增强水印算法的鲁棒性。 ( 8 ) 研究在水印嵌入过程中采用冗余嵌入思想。为了进一步增强水印对抗失真的 能力,以便恢复提取被破坏的水印,本文研究在水印嵌入过程中采用冗余嵌入思想,即 将同一个水印信息嵌入一篇文档的多个位置,当文档被部分破坏的时候,可利用冗余的 水印信息进行自我修复。 ( 9 ) 研究在水印系统的信息层采用非对称加密签名技术r s a ,预防非法嵌入者加 载水印和非法检测者检测水印,确保水印信息的安全性。 ( 1 0 ) 设计并实现一个比较完整的水印程序一基于汉字字形区分的文本数字水印系 统。通过基于n e t b e a n sv 5 5 1 的开发平台的j a v a 技术开发水印程序,实现对汉字文本 进行水印嵌入、检测功能,并可对部分篡改后的文本进行水印的恢复提取。 ( 1 1 ) 使用上述水印程序进行各类水印实验,获取实际的文本水印容量、水印嵌入、 检测和恢复提取等实验数据,并对结果进行统计及分析,验证本文所研究的文本数字水 印算法的实际性能。 总之,本文详细地论述了从数字水印的一般技术,到提出一种新的基于汉字字形区 分的文本数字水印算法,再到基于此算法实现的文本数字水印系统和基于此系统的水印 实验的全过程。 1 6 论文的结构 本文共分五章进行展开论述: 7 大连交通大学工学硕士学位论文 第一章为绪论部分,阐述了本文所研究内容的来源、背景和当前国内外的研究现 状,并对全文所要做的工作进行总体概述。 第二章主要分析了数字水印的一般理论与技术。首先简要介绍了信息隐藏的概念、 分类及应用领域。在此基础上引出数字水印的概念,阐述了数字水印的通用模型、基本 特点和分类。然后分析了文本数字水印技术的基本方法和研究现状,并通过分析发现只 有研究基于内容的文本数字水印算法才能克服现有文本水印算法的局限性。 第三章是本论文的核心章节,主要内容是提出一种基于汉字字形区分的文本数字 水印算法,并对其理论基础、算法模型和算法过程进行了全面的论述。该方法一方面利 用了人类对汉字的认知习惯漏洞,在汉字的字形中隐藏水印信息;另一方面通过统计规 律选择了最佳的水印嵌入位置,而且在嵌入水印过程中实现冗余嵌入,在提取水印过程 中实施恢复提取。此外,在水印系统的信息层采用非对称加密签名技术,达到阻止未经 许可的水印的嵌入和检测操作的目的。 第四章是基于汉字字形区分的文本数字水印算法的具体实现过程。这一章详细阐 述了基于上述算法设计并实现一个文本数字水印程序的过程。具体地说,是从“水印程 序框图”、“水印程序的关键技术 、“水印程序的关键处理”等方面来论述的。 第五章是实验部分。通过大量的水印程序实验及对实验结果的统计和分析,对本 文所提出的基于汉字字形区分的文本数字水印算法进行了验证,并对整体性能进行了客 观的评价。 最后是论文的结尾。一方面对全文进行了总结,另一方面对文本数字水印的未来发 展提供了一些值得大家研究、探讨的方向。 8 绪论 图1 1 论文结构图 f i g 1 1p a p e rs t r u c t u r e 1 7 本章小结 本章是本论文的绪论( 引言) 部分,简要介绍了本篇论文的课题来源、研究背景、 文本数字水印问题的提出、国内外相关研究的现状、本文的主要工作以及本文的结构。 通过本章的阅读可以对本篇论文有一个大致的了解,便于下面章节的阅读和理解。 9 大连交通大学工学硕士学位论文 第二章数字水印技术分析 2 1 引言 数字水印就是永久镶嵌在其它数据( 宿主数据) 中具有可鉴别性的数字信号或标记, 而且并不影响宿主数据的可用性。2 0 世纪9 0 年代末期,人们研究各种数字水印技术的 兴趣空前高涨。这些研究主要集中于图像、视频和音频等数字媒体,但也涉及其它一些 内容,如文本、软件代码、数据库【3 4 】等。这些方法被建议用在各种各样的应用中,包括 版权所有者的身份鉴定、向录制设备指出携带水印的内容不可录制、确认自嵌入水印后 内容没有被修改,以及监视广播信道来寻找携带水印的内容等。 数字水印源于信息隐藏,并与之密切相关。为此本章将首先介绍信息隐藏的基本概 念、分类和应用,然后从数字水印的基本原理、方法、特点等方面进行综合阐述,最后, 较为深入地分析和讨论文本数字水印的基本方法并分析其局限性。 2 2 信息隐藏技术 在过去的几千年的历史中,密码技术一直是保护信息机密性的一种最有效的手段。 通过使用密码技术,人们将明文加密成攻击者看不懂的密文,从而阻止了信息的泄露。 但是,在如今开放的i n t e r n e t 网上,谁也看不懂的密文无疑成了“此地无银三百两 的 标签,可能的监测者或非法拦截者完全可以截取密文进行破译。为了保证秘密信息的安 全,人们采用以柔克刚的思路重新启用古老的信息隐藏技术,并对这种技术进行现代化 的改进,从而达到迷惑攻击者的目的。 2 2 1 信息隐藏的历史起源 信息隐藏技术的思想最初是来自于古老的隐写术。大约在公元前4 4 0 年,为了鼓动 奴隶们起来反抗,h i s t i a u s 给他最信任的奴隶剃头,并将消息刺在头上,等到头发长出 来后,消息被遮盖,这样消息便可以在各个部落中传递【3 引。类似的方法,在2 0 世纪初 期仍然被德国间谍所使用。实际上,隐写术自古以来就一直被人们广泛地使用。隐写术 的经典手法实在太多,此处仅列举一些例子: ( 1 ) 使用书记板隐藏信息:在波斯朝廷的一个希腊人d e m e r a t u s ,他要警告斯巴达将 有一场由波斯国王薛西斯一世发动的入侵,他首先去掉书记扳上的蜡,然后将消息写在 木板上,再用蜡覆盖,这样处理后的书记板看起来是完全空白的。事实上,它几乎既欺 骗了检查的士兵也欺骗了接收信息的人【3 8 1 。 1 0 第二章数字水印技术分析 ( 2 ) 在一篇信函中,通过改变其中某些字母笔划的高度,或者在某些字母上面或下 面挖出非常小的孔,以标识某些特殊的字母,由这些特殊的字母组成秘密信息。 ( 3 ) 使用化学方法的隐写术。如中国的魔术中采用的一些隐写方法,用笔蘸淀粉水 在白纸上写字,然后喷上碘水,则淀粉和碘起化学反应后显出棕色字体。化学的进步促 使人们开发更加先进的墨水和显影剂。但是随着“万用显影剂 的发明,不可见墨水 的隐写方法就无效了。“万用显影剂”的原理是,根据纸张纤维的变化情况,来确定纸 张的哪些部位被水打湿过,这样,所有采用墨水的隐写方法,在“万用显影剂下都无 效了。 ( 4 ) 利用先进的缩放技术。其作法是,先将间谍之间要传送的消息经过若干照相缩 影后缩小到微粒状,然后粘贴在无关紧要的杂志等文字材料中的句号或逗号上。当这些 放有秘密信息的文字材料被从一个地方运送到另一个地方时,秘密信息也就相应的被成 功传送过去了。 2 2 2 信息隐藏的概念和通用模型 信息隐藏( i n f o r m a t i o nh i d i n g ) 就是将机密信息秘密地隐藏于另一公开的信息之中, 然后通过公开信息的传输来传递隐藏的信息。公开信息的形式可为任何一种数字媒体, 如图像、声音、视频或一般的文档等等。对加密通信而言,可能的监测者或非法拦截者 可通过截取密文,并对其进行破译,或将密文进行破坏后再发送,从而影响机密信息的 安全;但对信息隐藏而言,可能的监测者或非法拦截者则难以从公开信息中判断机密信息 是否存在,难以截获机密信息,从而能保证机密信息的安全。 其中,待隐藏的信息称为秘密信息( s e c r e tm e s s a g e ) ,可以是版权信息或秘密数据, 也可以是一个序列号;而公开信息则称为载体信息( c o v e rm e s s a g e ) ,如视频、音频片段。 这种信息隐
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辅警岗位知识培训课件
- 交通银行2025连云港市秋招无领导模拟题角色攻略
- 中国银行2025亳州市笔试英文行测高频题含答案
- 建设银行2025金昌市秋招笔试EPI能力测试题专练及答案
- 2025年3D打印的增材制造
- 农业银行2025锡林郭勒盟秋招笔试EPI能力测试题专练及答案
- 2025基因编辑技术的疾病预防研究
- 2025行业细分市场分析报告
- 建设银行2025数据分析师笔试题及答案四川地区
- 交通银行2025亳州市金融科技岗笔试题及答案
- 老年专科考试题及答案
- 护理学基础:晨晚间护理
- 数字化知识培训内容课件
- 2025年河南省周口市辅警协警笔试笔试真题(含答案)
- 2025年吉林省机关事业单位工人技术等级考试(理论知识)历年参考题库含答案详解(5卷)
- 2025-2026学年人教精通版四年级英语上册(全册)教学设计(附目录)
- 电厂安全检查表清单
- 新技术、新项目准入制度试题(含答案)
- JT-T 1062-2025 桥梁减隔震装置通.用技术条件
- 2025年河南中考历史试题答案详解及备考指导课件
- 市政道路管网施工安全文明施工措施
评论
0/150
提交评论