（计算机应用技术专业论文）基于汉字字形区分的文本数字水印算法.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-15 格式：PDF 页数：68 大小：7.04MB 积分：0 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

（计算机应用技术专业论文）基于汉字字形区分的文本数字水印算法.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要近年来，跟随着互联网的出现和不断发展，人们进行信息交流的方式发生了巨大的改变。传统的以纸张、磁带、录像带等实物载体的信息交流方式已逐渐被以文档、音频文件、视频文件等二进制文件载体的信息交流方式所替代。如今，由作家所创作的文学作品、由老师或某个领域的专家撰写制作的教学资源、由音乐制作人和影视制作人出版发行的音乐制品和各种影视作品都被拿到互联网上进行交流。这种局面带来了两方面的效应：一方面互联网的出现使得信息更加有效地被传递和分发，使得人们可以快速的获得有用的信息；但另一方面这种信息交流方式也会导致一些没有被授权的用户同样获得了授权用户才能具有的利益。最终使信息资源创造者的利益受到损害，从而大大打击了信息资源创造者的创作热情。于是，人们迫切需要一种技术，要求它既可以继续发挥互联网积极的一面，同时又可以对各种受版权保护的信息资源给与技术上的保护。数字水印技术就是在这样的背景下产生和发展起来的。目前，数字水印技术已经被广泛的应用到图像、音频、视频、文档、软件、数据库等多种应用领域，并取得了不错的应用成果，而逐渐的被人们重视起来。不过目前基于图像、音频和视频的数字水印研究成果居多，并且其中的很多方法是比较有效的，但是这些方法都不太适用于文本文档的规则结构。迄今为止，基于文本的数字水印研究因其特殊性，相关的研究成果主要集中在基于文本的格式方面。即通过对文档的格式作一些微量调整，将信息以二进制编码的形式隐藏于文本对象的变动中。这类算法由于完全依赖于文本格式( 行移、字移、特征编码等) ，均存在抗攻击性不够强，鲁棒性较差的缺点。究其原因，主要是因为水印信息只能加入文本内容之外，而无法加入文本内容之中。因此，必须研究基于内容的文本数字水印算法才能较好地解决这一问题。本文通过研究图形学中图与图之间的关系以及人类对汉字认知习惯的特点，将汉字拆分为多个汉字部件，再将每个汉字部件看作一个图形单位，对照图与图之间的关系，将这些汉字部件进行不同方式的组合。从而使同一个汉字具备了多个字形。然后，通过使用不同的字形，将水印信息嵌入到文本当中。这种算法成功的将水印信息隐藏于文本的内容之中，从而较之以前的各种水印算法，在水印的不可感知性、鲁邦性等方面均获得了很大的进步。本文在最后，通过理论分析与实验分析，从两方面验证了本文所提出的水印算法即可应用于电子文档，又可应用于纸制文档，同时也验证了该算法具有很强的不可感知性和鲁邦性。关键词：信息隐藏；数字水印；文本数字水印大连交通大学工学硕士学位论文 a b s t r a c t i nr e c e n ty e a r s ，谢廿lt h ee m e r g e n c ea n dc o n t i n u o u sd e v e l o p m e n to ft h ei n t e m e t ，t h ew a y o fp e o p l ee x c h a n g ei n f o r m a t i o nh a sc h a n g e da1 0 t t h et r a d i t i o n a lm e a n so fe x c h a n g e i n f o r m a t i o nu s i n gp a p e r , t a p e s ，v i d e o sa n do t h e rp h y s i c a lc a r r i e rh a sb e e ng r a d u a l l yr e p l a c e d b yt h en e wm e a n so fe x c h a n g ei n f o r m a t i o nu s i n gd o c u m e n t s ，a u d i of i l e s ，v i d e of i l e sa n do t h e r b i n a r yf i l e sc a r d e rb a s eo ni n f o r m a t i o nt e c h n o l o g y n o w ，t h el i t e r a r yw o r k sw r i r e nb yw r i t e r s ， t h ep r o d u c t i o no ft e a c h i n gr e s o u r c e sc r e a t e db yt h et e a c h e r so re x p e r t si no n ef i e l d ，t h em u s i c p r o d u c t sa n dv a r i o u st e l e v i s i o np r o g r a m sa n dm o v i e sp u b l i s h e da n dd i s t r i b u t e db ym u s i c p r o d u c e r sa n df i l mm a k e r sh a v eb e e np u to nt h ei n t e r a c ta n de x c h a n g e s t 1 1 i ss i t u a t i o nh a s b r o u g h tt w oe f f e c t s ：o nt h eo n eh a n dt h ee m e r g e n c eo ft h ei n t e m e tm a k e si n f o r m a t i o nm o r e e f f e c t i v e l yt ob ep a s s e da n dd i s t r i b u t e d ，m a k e si tp o s s i b l et og e tu s e f u li n f o r m a t i o ni na l i t t l e t i m e ；b u to nt h eo t h e rh a n dt h i sm e a no fe x c h a n g ei n f o r m a t i o nw i l ll e a dt os o m eu s e sw h o w a s n ta u t h o r i z e dg e tt h ei n t e r e s t sw h i c hs h o u l do n l ya u t h o r i z e du s e r sc a nh a v e t h ee n d ，t h i s s i t u a t i o nh a r m st h ei n t e r e s t so ft h ec r e a t o r so ft h ei n f o r m a t i o nr e s o u r c e s ，g r e a t l yd a m a g e dt h e c r e a t i v ep a s s i o no fc r e a t o r so fi n f o r m a t i o nr e s o u r c e s t h u s ，i t su r g e n tt h a tp e o p l ew a n tt og e t at e c h n i c a l ，w h i c hc a nc o n t i n u et op l a yap o s i t i v ea s p e c to ft h ei n t e r a c t ，a tt h es a m et i m e ，i t c a nb eu s e dt op r o t e c tt h ev a r i o u si n f o r m a t i o nr e s o u r c e st h a th a v ec o p y r i g h t n l ed i g i t a l w a t e r m a r k i n gt e c h n o l o g yg e n e r a t e sa n dd e v e l o p sa g a i n s tt h i sb a c k d r o p c u r r e n t l y ，d i g i t a lw a t e r m a r k i n gt e c h n o l o g yh a sb e e nw i d e l ya p p l i e dt oi m a g e s ，a u d i o ， v i d e o ，d o c u m e n t s ，s o f t w a r e ，d a t a b a s ea n do t h e ra p p l i c a t i o na r e a s ，a n dh a sa c h i e v e dg o o d r e s u l t so ft h ea p p l i c a t i o n ；t h e r e b yg r a d u a l l yg e tf u r t h e rp e o p l e sa t t e n t i o n b u ta tt h em o m e n t t h e r ei sas i t u a t i o nt h a tr e s e a r c hr e s u l t sw h i c hb a s e do ni m a g e a u d i oa n dv i d e od i g i t a l w a t e r m a r k i n gi st h em a jo r i t y ，a n dm a n yo f t h e ma r ev e r ye f f e c t i v e ，b u tt h e s em e t h o d sa r en o t a p p l i c a b l et ot h er u l e so ft e x td o c u m e n t s s of a r ，t h et e x t - b a s e dd i g i t a lw a t e r m a r k i n gs t u d y d u et ot h es p e c i a ln a t u r e ，r e l e v a n tr e s e a r c hr e s u l t sm a i n l yc o n c e n t r a t e di nt e x t - b a s e df o r m a t t h r o u g hm a k es o m ea d j u s t m e n t so nt h ef o r m a to ft h ed o c u m e n t ，h i d et h ew a t e r m a r k i n g i n f o r m a t i o ni n t ot e x td o c u m e n t s 、析mb i n a r yc o d eb yt h ed o c u m e n to b j e c tc h a n g e s a ss u c h a l g o r i t h m sr e l y e n t i r e l yo nt h et e x tf o r m a t ( 1 i n es h i f t ，t h ew o r ds h i f t ，f e a t u r ec o d i n g ，e t c ) ， t h e r ea r et h es h o r t c o m i n g so fn o ts t r o n ga n t i - o f f e n s i v e ，t h ep o o rr o b u s t n e s s t h er e a s o nf o r t h i si sm a i n l yb e c a u s et h ew a t e r m a r kc a no n l yj o i no u to ft h et e x t ，b u tu n a b l et oj o i nt h e c o n t e n t so ft h et e x t t h e r e f o r e ，i tm u s tb et h a to n l yw es t u d yt h et e x tc o n t e n t b a s e dd i g i t a l w a t e r m a r k i n ga l g o r i t h m ，w ec a ns o l v et h i sp r o b l e m t l l i sp a p e rs t u d i e st h er e l a t i o n s h i pb e t w e e nm u l t i g r a p h sa n dt h eh u m a nc o g n i t i v eh a b i t s o ft h ec h i n e s ec h a r a c t e r s ，a n ds p l i to n ec h a r a c t e ri n t oan u m b e ro fc o m p o n e n t s ，t h e ne a c h c o m p o n e n ta sag r a p h i cu n i t ，a n da c c o r d i n ga st h er e l a t i o n s h i po fm u l t i - g r a p h s ，r e c o m b i n e i i 摘要 t h e s ec o m p o n e n t su s i n gd i f f e r e n tw a y t h e no n ec h i n e s ec h a r a c t e rw i l lh a v em u l t if o n ts t y l e t h e n t h r o u g hu s i n gd i f f e r e n tf o n ts t y l e ，e m b e dt h ew a t e rm a r ki n t ot h et e x t n l i sa l g o r i t h m e m b e d st h ew a t e r m a r ki n f o r m a t i o ni n t ot h ec o n t e n t so ft h et e x ts u c c e s s f u l l y c o m p a r e dw i t h t h ep r e v i o u sw a t e r m a r k i n ga l g o r i t h m ，t h i sa l g o r i t h mg e t sab i gs t e pf o r w a r do na s p e c to f i n v i s i b l ec h a r a c t e ra n dr o b u s tc h a r a c t e r f i n a l l y ，t h i sp a p e ra p p r o v e st h a tt h i sn e wa l g o r i t h m c a i lb ea p p l i e dt oe l e c t r o n i cd o c u m e n t sa n dp a p e rd o c u m e n t sb o t hb yt h et h e o r e t i c a la n a l y s i s a n de x p e r i m e n t a la n a l y s i s a n dw h a t sm o r e ，i ta l s o 印p r o v e st h a tt h i sn e wa l g o r i t h mh a s s t r o n gi n v i s i b l ec h a r a c t e ra n d r o b u s tc h a r a c t e r k e yw o r d s ：i n f o r m a t i o nh i d d e n ；d i g i t a lw a t e r m a r k i n g ；t e x td i g i t a lw a t e r m a r k i n g i i i 绪论第一章绪论 1 1 课题来源本课题来源于辽宁省信息产业厅项目“嵌入式系统网上智能教学平台”的部分研究工作。该项目是要建立一套大型的嵌入式系统网上智能教学平台，该平台能够提供网上教学、网上答疑、网上交流、网上考试等功能。因为此教学平台会提供大量嵌入式系统领域的网上教学课件、资料、案例等供学员使用和下载。这些教学资源大都是由一些老师或该领域的专家所创作的。为了防止这些教学资源被其他网站及一些非会员用户非法使用，必须对这些教学资源的版权进行保护。本课题就是要利用用于版权保护的数字水印技术来解决这个问题。 1 2 研究背景跟随着数字技术和因特网的迅猛发展，各种形式的多媒体数字作品( 文档、图像、音频、视频等) 纷纷以网络形式发表，然而数字作品的便利性和不安全性是并存的。数字作品虽然可以低成本、高速度地被复制和传播，同时这种特性也为创造者和使用者提供了很大的便利，但这些特性也容易被盗版者所利用。因而，采取多种手段对数字作品进行保护、对侵权者进行惩罚已经成为十分迫切的工作。除了与传统作品版权保护相类似的法律和管理手段外，还应该针对数字作品本身的特点为其提供技术上的保护。数字水印技术的研究就是在这种应用要求下迅速发展起来的i l 】。数字水印( d i g i t a lw a t e r m a r k i n g ) 是信息隐藏技术研究领域的一个重要分支，是近十年来出现的一种有效的数字产品版权保护和数据安全维护技术。它将具有特定意义的标记( 水印) ，利用数字嵌入的方法隐藏在数字图像、声音、文档、图书、视频等数字产品中，用以证明创作者对其作品的所有权，并作为鉴定、起诉非法侵权的证据，同时通过对水印的检测和分析来保证数字信息的完整可靠性，从而成为知识产权保护和数字多媒体防伪的有效手段。其中待嵌入水印的数字产品被称为掩体对象或载体，嵌入水印后的数字产品被称为隐藏对象或含水印载体。数字水印技术作为信息隐藏技术的一个分支，除应具备信息隐藏技术的一般特点外，还有着其固有的特点和研究方法。例如，从信息安全的保密角度而言，如果隐藏的信息被破坏掉，系统可以视为安全的，因为秘密信息并未泄露；但是，在数字水印系统中，隐藏信息的丢失即意味着版权信息的丢失。从而失去了版权保护的功能，这一系统就是失败的。因此数字水印技术必须具有较强的稳健性、安全性和透明性。在现实生活中，以下几个引起普遍关注的问题构成了数字水印的研究背景【2 。5 l 。大连交通大学工学硕士学位论文 ( 1 ) 数字作品的知识产权保护数字作品( 如电脑美术、扫描图像、数字音乐、视频、三维动画) 的版权保护是当前的热点问题，而对数字作品的版权保护可能是水印最主要的应用。由于数字作品的拷贝、修改非常容易，而且可以做到与原作完全相同，所以原创者不得不采用一些严重损害作品质量的办法来加上版权标志，而这种明显可见的标志很容易被篡改。数字水印利用数据隐藏原理使版权标识不可见或不可听，既不损害原作品质量，又达到了版权保护的目的。目前，包含很多图像和数字音乐的因特网站是该应用的推动力量，网站所含的图像和音乐是可随意使用的，但是它们的所有者却要保护它们。现阶段，用于版权保护的数字水印技术已经进入了初步实用化阶段，i b m 公司在其“数字图书馆” 软件中就提供了数字水印功能，a d o b e 公司也在其著名的p h o t o s h o p 软件中集成了 d i g m a r c 公司的数字水印插件。然而实事求地说，目前市场上的数字水印产品在技术上还不成熟，很容易被破坏或破解，距离真正的实用还有很长的路要走。 ( 2 ) 商务交易中的票据防伪随着高质量图像输入输出设备的发展，特别是精度超过1 2 0 0 d p i 的彩色喷墨、激光打印机和高精度彩色复印机的出现，使得货币、支票以及其他票据的伪造变得更加容易。据美国官方报道，仅在1 9 9 7 年截获的价值4 0 0 0 万美元的假纱中，用高精度彩色打印机制造的小面额假钞就占1 9 ，这个数字是1 9 9 5 年的9 0 5 倍。目前，美国、日本以及荷兰都已开始研究用于票据防伪的数字水印技术。其中麻省理工学院媒体实验室受美国财政部委托，已经开始研究在彩色打印机、复印机输出的每幅图像中加入惟一的、不可见的数字水印，在需要时可以实时地从扫描票据中判断水印的有无，快速辨识真伪。另一方面，在从传统商务向电子商务转化的过程中，会出现大量过渡性的电子文件。如各种纸质票据的扫描图像等。即使在网络安全技术成熟以后，各种电子票据也还需要一些非密码的认证方式。数字水印技术可以为各种票据提供不可见的认证标志，从而大大增加了伪造的难度。 ( 3 ) 声像数据的隐藏标识和篡改提示数据的标识信息往往比数据本身更具有保密价值，如遥感图像的拍摄日期、经纬度等。没有标识信息的数据有时甚至无法使用，但直接将这些重要信息标记在原始文件上又很危险。数字水印技术提供了一种隐藏标识的方法，标识信息在原始文件上是看不到的，只有通过特殊的阅读程序才可以读取。这种方法已经被国外一些公开的遥感图像数据库所采用。此外，数据的篡改提示也是一项很重要的工作。现有的信号拼接和镶嵌技术可以做到“移花接木而不为人知。因此，如何防范对图像、录音、录像数据的篡改攻击是重 2 绪论要的研究课题。基于数字水印的篡改提示是解决这一问题的理想技术途径，通过隐藏水印的状态可以判断声像信号是否被篡改。 1 3 文本数字水印问题的提出尽管数字水印可以应用于包括文本、图像、声音以及视频在内的多媒体数据中，但是目前大多数相关的研究和文献都是与图像、声音、视频的保护有关的，而涉及文本保护的成果并不多。这其中的主要原因是由于：方面当前有大量的图像、音频和视频产品需要有效的手段加以保护；另一方面此类数字媒体普遍存在大量的冗余数据，便于水印信息的隐藏。随着计算机和网络的飞速发展，人们的很多创意都以文本的方式存储和传输；数字图书馆与档案馆以电子形式保存了大量受版权保护的文章、杂志及书籍；电子商务、电子政务需要传递大量的电子文档。事实上，文本作为信息传递的一种重要手段，其应用大大超过了图像、视频和音频的范围。如果文本数字水印技术能够很好地解决版权保护问题，目前的很多报刊杂志等都可以通过网络发行，这样可以节省很多人力、物力和时间。同时电子商务、政府上网等方面，有大量的文件在互联网上流动，如果这类文件被篡改，将会产生严重后果，所以人们也可以用水印的方法来进行版权认证。文本文档的保护技术可以提供一种追踪文本被非法复制、发行、篡改或伪造的方法。然而文本文档与图像、视频和音频等多媒体信息有着完全不同的特点： ( 1 ) 文本文档的图像表示是用像素点阵列的方式来描述文档各页的内容，一般可以用一个函数来表示一页文字( 图像) ： f ( x ，y ) = 0 或1 ，x 0 ，w ，y 0 ，l ( 1 1 ) 此处w 和l 分别表示一页的宽度和长度。一个文本行也可以用类似的公式来表示： f ( x ，y ) = 0 或1 ，x 0 ，w ，y t ，b ( 1 2 ) 其中t 和b 分别表示文本行的顶部和底部： ( 2 ) 文本文档一般由单词( 或汉字) 、句子和段落等有规律的结构组合而成； ( 3 ) 非格式化文档不保存文档的格式信息，其文本信号中基本不存在冗余，文本的一个信息位发生变化，文本内容就可能发生错误； ( 4 ) 格式化文档保存文档的格式信息，其版面布局信息( 如字间距、行间距等) 或格式化编排中，存在一定的冗余。为此，在文本中嵌入数字水印的方法就不同于在图像、视频和音频中的方法。尽管基于图像、视频和音频的数字水印研究成果很多，但是这些方法都不太适用于文本文档的规则结构，人们必须从一个新的角度，根据文本文档的规则结构来设计文本数字水印算法。大连交通大学工学硕士学位论文 1 4 国内外相关研究现状一般认为，数字水印的研究真正开始于2 0 世纪9 0 年代初期 6 - 7 。1 9 9 6 年i e e ei n t c o n f o ni m a g ep r o c e s s i n g 国际会议将水印技术列为专题之后，各种重要学术会议及学术期刊上不断出现对数字水印的研究文章，数字水印开始成为学术界一个重要的热门研究方向。目前，对水印的研究主要包括水印理论模型、水印结构、水印嵌入策略、水印检测算法、水印性能评价、水印算法分析及水印的标准化等。根据水印载体的不同，对数字水印的研究可分为：图像水印、视频水印、音频水印和文本水印研究o 】等。近年，还有学者提出了针对软件产品的软件水印【1 1 1 等新的数字水印研究领域。关于图像、视频、音频数字水印方面的研究很多，取得了很好的研究成果1 1 2 】。我国学术界在此前沿领域的研究也非常活跃【1 3 1 ，众多单位及众多专家在此领域做出了很大的贡献。图像、视频、音频数字水印在实现算法上比较相似，主要是利用图像、视频、音频的冗余信息和i - i v s ( h u m a nv i d e os y s t e m ) 、h a s ( h u m a na u d i os y s t e m ) 的特点来加载数字水印。大概从1 9 9 3 年开始，才有人研究文本数字水印。1 9 9 5 年9 月i e e ej o u r n a lo ns e l a r e a si nc o m m u n i c a t i o n 杂志通过加入数字水印来保护版权的方式在互联网上试发行了一期【l 引，第一个月的注册用户就达到了1 2 0 0 人。1 9 9 8 年i e e ej o u r n a lo ns e l a r e a si n c o m m u n i c a t i o n 出版了一本专集讨论数字版权保护问题。与图像、视频、音频数字水印方法相比，文本数字水印所用的算法有所不同，主要集中在利用文本格式的微调隐藏“0 ” 或“l ，从而将信息直接编码到文本格式中去。到目前为止，基于文本的数字水印研究相关的研究成果在国外己有一些，而在国内却不多见。以下列出现有文本数字水印的研究成果和相关文献： ( 1 ) j t b r a s s i l ，n f m a x e m c h u k ，s h l o w 等人提出了p o s t s c r i p t ，p d f 等格式化文本通过修改文档格式插入水印信息的思想【1 5 。2 0 】行移编码：通过垂直移动文本行来编码秘密信息。字移编码：通过将文本行中的单词水平移位来插入标记。特征编码：通过改变文本中某些字母的某一特征来插入标记。上述方法是文本数字水印方法中的经典算法，即利用格式文本的空间特征( 行间距、字间距、字符特征等) 来嵌入秘密信息，却不修改文本的任何可见内容。因为格式文本中包含有规律的字符、行和段落等结构，对这些结构的微弱调整很难被感知，因而不会改变文本的整体外观。 ( 2 ) d i n gh u a n g ，h o n gy a n 等人提出了基于正弦波的字间平均间距文本水印技术 j ，即通过微调单词间距使不同行的字间平均间距表现出正弦曲线特征，从而将水印信 4 绪论息编码在正弦曲线中，实现了盲检。之后h y o n g o nc h o o ，w h o i y u lk i m 等人对此方法加以改进，提出利用不同正弦曲线的正交特性，来提高水印容量瞄】。 ( 3 ) y o u n g w o nk i m ，k y o u n a em o o n 等人提出了基于文本图像字间距统计数的文本数字水印技术团】，较好地解决了基准字块的定位问题，其鲁棒性较j t b r a s s i l 等人的字移编码有所改进。 ( 4 ) n o p p o mc h o t i k a k a m t h o m 提出了基于文本图像字符间距宽度序列编码的文本数字水印技术【2 4 - 2 5 】。该方法较j t b r a s s i l 等人的字移编码提高了水印信息容量，并扩展了语言的适用范围( 可用于中文、泰文等) 。 ( 5 ) 西安交通大学的黄华等人根据汉字文本的特点对j t b r a s s i l 等人提出的行移标记策略和相应的质心检测方法进行了改进，提出了一种新的文本数字水印标记策略和检测方法【2 6 - 2 7 。该方法降低了计算量，并且可以实现盲检，更为重要的是扩展了水印空间。 ( 6 ) 中国工程院士李德毅等人提出了基于云模型的文本数字水印技术【2 引。通过基本云发生器产生水印标记，将行移与字移的模糊性和随机性有机地综合在一起，较好解决了文本图像中短行标记问题和水印提取问题，水印容量也增加1 倍。 ( 7 ) b e n j a m i nb a r a n ，s a n t i a g og o m e z 等人提出了利用数字印章在文本中插入水印标记和传递隐秘信息的方法 2 9 1 ，并提供了相应的商用软件。该软件可适用于多种格式文档( r t f 、d o c 、h t m l 等) ，并可根据实际需要提供可见水印或不可见水印。算法的最终实现仍然基于格式文档的特征编码( 微调字符大小) 。以上各种方法的基本思想均是通过轻微调整文档的空间结构特征来加载水印。这类算法由于完全依赖于文本格式( 行移、字移、特征编码等) ，均存在抗攻击性不够强，鲁棒性较差的缺点。一个攻击者只需简单地试图重新调整文本的格式，就可以破坏掉所有嵌入在文本格式中的信息。不过这类算法能够满足在文本中嵌入水印却不修改文本的任何可见内容的要求。 ( 8 ) b e n d e r 等人从信息隐藏的角度出发，提出了对文本中特定的单词进行同义词替换的方法【3 们。该方法把文本中某些特定的单词挑选出来构成一个同义词替换表，需要替换的单词表示“0 ，不需要替换的单词表示“l 。这样就可以在文本中隐藏秘密数据，隐藏的数据多少与文本中同义词组出现的频率有关。这种方法通过修改文本的内容( 单词) 来隐藏信息，鲁棒性较好；但要求载体文本不可任意，而且在提取信息时需要同义词替换表作为参考。再者，在文本中嵌入水印的前提是最好不要修改文本的任何可见内容。 ( 9 ) n f m a x e m c h u k 等人提出了通过附加空格来加载秘密信息的文本数字水印方法。该方法常用于非格式化文本，一般是在行末添加空格或不可见编码，将信息编码隐大连交通大学工学硕士学位论文藏在字处理系统的断行处。行尾是否有空格在视觉上难以区分，提取时可通过不可见编码的有无及数目进行解码。该方法隐蔽性不够强，稳健性较差，而且隐藏的信息量很有限。 ( 1 0 ) s h i n g oi n o u e ，k y o k om a k i n g i c h i r om u r a s e 等人提出了基于x m l 文档的文本数字水印【3 1 】，即在保持d t d ( d o c u m e n tt y p ed e f i n i t i o n ) 的约定及文档的应用能力不变的情况下，通过改变x m l 文档的语法结构或逻辑结构来嵌入秘密信息。应该说，用这种方法加入的水印不可见性好，鲁棒性较强。但其局限性也是显而易见的，即受限于特定的文档结构，因而应用范围非常有限。 ( 11 ) a t t a l a h ，r a s k i n ，h e m p e l m a n n 3 2 - 3 3 j 等人提出自然语言文本可通过基于语义来嵌入水印。该方法利用自然语言之语义冗余性加载水印，是目前研究文本数字水印的一种新思路，己在英文文本中取得初步进展。己有的实验表明，其鲁棒性较好，可隐藏的信息量较大。但由于自然语言语义复杂，表达千变万化，所以要完善基于自然语言的文本数字水印技术，还有大量的研究工作要做。上面这些文本水印都具有各自的特色和各自的优缺点。但是，这些水印算法当中，没有一种算法是能同时做到既可应用于电子文本，又可应用于纸制文本，且具有水印信息容量大、鲁棒性好、人的视觉影响小、抗攻击性能强的特点。本文从人类对汉字认知习惯的特点出发，为同一个汉字配备多个不同的字形，然后利用不同的子形来隐藏水印信息。这种新的文本水印算法可以用于解决现有文本数字水印技术中出现的诸如不可感知性差、水印容量小、鲁棒性差、检测困难等问题。而且对于数字水印信息的载体为电子文本、纸制文本的情况均适用。 1 5 本文的主要工作纵观上述国内外关于文本数字水印的研究动态，不难发现目前文本数字水印的研究成果，主要集中在基于文本格式方面( 行移、字移、特征编码等) ，这类算法普遍存在抗攻击性不强，鲁棒性较差的缺点。究其原因，主要是因为水印信息只能加入文本内容之外，而无法加入文本内容之中。因此，必须研究基于内容的文本数字水印算法才能较好地解决这一问题。本文从人类对汉字认知习惯的特点出发，并结合图形学的部分理论，为同一个汉字配备多个不同的字形，然后利用不同的子形来隐藏水印信息。这种新的文本水印算法可以用于解决现有文本数字水印技术中出现的诸如不可感知性差、水印容量小、鲁棒性差、检测困难等问题。而且对于数字水印信息的载体为电子文本、纸制文本的情况均适用。 6 绪论基于上述构想，本文提出了一种基于汉字字形区分的文本数字水印算法，具体开展的工作主要有： ( 1 ) 对数字水印技术进行全面的分析。包括数字水印的通用模型、方法和特点；文本数字水印的研究现状；文本数字水印的基本方法；现有文本数字水印方法的局限性；正在研究的新思路。 ( 2 ) 提出一种基于汉字字形区分的文本数字水印算法。 ( 3 ) 研究汉字的基本特征：包括汉字的结构特征、汉字偏旁部首的组合方式等基本特征。 ( 4 ) 研究人类对汉字的认知习惯，找到人类认知习惯中的漏洞，并利用这个漏洞为同一个汉字配备不同的字形。 ( 5 ) 研究图形学中图与图之间的关系，并将这个关系理论应用到汉字字形当中。 ( 6 ) 为同一个汉字的多个字形进行编码，使得同一个汉字的不同字形携带不同的水印信息。 ( 7 ) 利用统计学理论，选择理想的水印嵌入位置，增强水印算法的鲁棒性。 ( 8 ) 研究在水印嵌入过程中采用冗余嵌入思想。为了进一步增强水印对抗失真的能力，以便恢复提取被破坏的水印，本文研究在水印嵌入过程中采用冗余嵌入思想，即将同一个水印信息嵌入一篇文档的多个位置，当文档被部分破坏的时候，可利用冗余的水印信息进行自我修复。 ( 9 ) 研究在水印系统的信息层采用非对称加密签名技术r s a ，预防非法嵌入者加载水印和非法检测者检测水印，确保水印信息的安全性。 ( 1 0 ) 设计并实现一个比较完整的水印程序一基于汉字字形区分的文本数字水印系统。通过基于n e t b e a n sv 5 5 1 的开发平台的j a v a 技术开发水印程序，实现对汉字文本进行水印嵌入、检测功能，并可对部分篡改后的文本进行水印的恢复提取。 ( 1 1 ) 使用上述水印程序进行各类水印实验，获取实际的文本水印容量、水印嵌入、检测和恢复提取等实验数据，并对结果进行统计及分析，验证本文所研究的文本数字水印算法的实际性能。总之，本文详细地论述了从数字水印的一般技术，到提出一种新的基于汉字字形区分的文本数字水印算法，再到基于此算法实现的文本数字水印系统和基于此系统的水印实验的全过程。 1 6 论文的结构本文共分五章进行展开论述： 7 大连交通大学工学硕士学位论文第一章为绪论部分，阐述了本文所研究内容的来源、背景和当前国内外的研究现状，并对全文所要做的工作进行总体概述。第二章主要分析了数字水印的一般理论与技术。首先简要介绍了信息隐藏的概念、分类及应用领域。在此基础上引出数字水印的概念，阐述了数字水印的通用模型、基本特点和分类。然后分析了文本数字水印技术的基本方法和研究现状，并通过分析发现只有研究基于内容的文本数字水印算法才能克服现有文本水印算法的局限性。第三章是本论文的核心章节，主要内容是提出一种基于汉字字形区分的文本数字水印算法，并对其理论基础、算法模型和算法过程进行了全面的论述。该方法一方面利用了人类对汉字的认知习惯漏洞，在汉字的字形中隐藏水印信息；另一方面通过统计规律选择了最佳的水印嵌入位置，而且在嵌入水印过程中实现冗余嵌入，在提取水印过程中实施恢复提取。此外，在水印系统的信息层采用非对称加密签名技术，达到阻止未经许可的水印的嵌入和检测操作的目的。第四章是基于汉字字形区分的文本数字水印算法的具体实现过程。这一章详细阐述了基于上述算法设计并实现一个文本数字水印程序的过程。具体地说，是从“水印程序框图”、“水印程序的关键技术、“水印程序的关键处理”等方面来论述的。第五章是实验部分。通过大量的水印程序实验及对实验结果的统计和分析，对本文所提出的基于汉字字形区分的文本数字水印算法进行了验证，并对整体性能进行了客观的评价。最后是论文的结尾。一方面对全文进行了总结，另一方面对文本数字水印的未来发展提供了一些值得大家研究、探讨的方向。 8 绪论图1 1 论文结构图 f i g 1 1p a p e rs t r u c t u r e 1 7 本章小结本章是本论文的绪论( 引言) 部分，简要介绍了本篇论文的课题来源、研究背景、文本数字水印问题的提出、国内外相关研究的现状、本文的主要工作以及本文的结构。通过本章的阅读可以对本篇论文有一个大致的了解，便于下面章节的阅读和理解。 9 大连交通大学工学硕士学位论文第二章数字水印技术分析 2 1 引言数字水印就是永久镶嵌在其它数据( 宿主数据) 中具有可鉴别性的数字信号或标记，而且并不影响宿主数据的可用性。2 0 世纪9 0 年代末期，人们研究各种数字水印技术的兴趣空前高涨。这些研究主要集中于图像、视频和音频等数字媒体，但也涉及其它一些内容，如文本、软件代码、数据库【3 4 】等。这些方法被建议用在各种各样的应用中，包括版权所有者的身份鉴定、向录制设备指出携带水印的内容不可录制、确认自嵌入水印后内容没有被修改，以及监视广播信道来寻找携带水印的内容等。数字水印源于信息隐藏，并与之密切相关。为此本章将首先介绍信息隐藏的基本概念、分类和应用，然后从数字水印的基本原理、方法、特点等方面进行综合阐述，最后，较为深入地分析和讨论文本数字水印的基本方法并分析其局限性。 2 2 信息隐藏技术在过去的几千年的历史中，密码技术一直是保护信息机密性的一种最有效的手段。通过使用密码技术，人们将明文加密成攻击者看不懂的密文，从而阻止了信息的泄露。但是，在如今开放的i n t e r n e t 网上，谁也看不懂的密文无疑成了“此地无银三百两的标签，可能的监测者或非法拦截者完全可以截取密文进行破译。为了保证秘密信息的安全，人们采用以柔克刚的思路重新启用古老的信息隐藏技术，并对这种技术进行现代化的改进，从而达到迷惑攻击者的目的。 2 2 1 信息隐藏的历史起源信息隐藏技术的思想最初是来自于古老的隐写术。大约在公元前4 4 0 年，为了鼓动奴隶们起来反抗，h i s t i a u s 给他最信任的奴隶剃头，并将消息刺在头上，等到头发长出来后，消息被遮盖，这样消息便可以在各个部落中传递【3 引。类似的方法，在2 0 世纪初期仍然被德国间谍所使用。实际上，隐写术自古以来就一直被人们广泛地使用。隐写术的经典手法实在太多，此处仅列举一些例子： ( 1 ) 使用书记板隐藏信息：在波斯朝廷的一个希腊人d e m e r a t u s ，他要警告斯巴达将有一场由波斯国王薛西斯一世发动的入侵，他首先去掉书记扳上的蜡，然后将消息写在木板上，再用蜡覆盖，这样处理后的书记板看起来是完全空白的。事实上，它几乎既欺骗了检查的士兵也欺骗了接收信息的人【3 8 1 。 1 0 第二章数字水印技术分析 ( 2 ) 在一篇信函中，通过改变其中某些字母笔划的高度，或者在某些字母上面或下面挖出非常小的孔，以标识某些特殊的字母，由这些特殊的字母组成秘密信息。 ( 3 ) 使用化学方法的隐写术。如中国的魔术中采用的一些隐写方法，用笔蘸淀粉水在白纸上写字，然后喷上碘水，则淀粉和碘起化学反应后显出棕色字体。化学的进步促使人们开发更加先进的墨水和显影剂。但是随着“万用显影剂的发明，不可见墨水的隐写方法就无效了。“万用显影剂”的原理是，根据纸张纤维的变化情况，来确定纸张的哪些部位被水打湿过，这样，所有采用墨水的隐写方法，在“万用显影剂下都无效了。 ( 4 ) 利用先进的缩放技术。其作法是，先将间谍之间要传送的消息经过若干照相缩影后缩小到微粒状，然后粘贴在无关紧要的杂志等文字材料中的句号或逗号上。当这些放有秘密信息的文字材料被从一个地方运送到另一个地方时，秘密信息也就相应的被成功传送过去了。 2 2 2 信息隐藏的概念和通用模型信息隐藏( i n f o r m a t i o nh i d i n g ) 就是将机密信息秘密地隐藏于另一公开的信息之中，然后通过公开信息的传输来传递隐藏的信息。公开信息的形式可为任何一种数字媒体，如图像、声音、视频或一般的文档等等。对加密通信而言，可能的监测者或非法拦截者可通过截取密文，并对其进行破译，或将密文进行破坏后再发送，从而影响机密信息的安全；但对信息隐藏而言，可能的监测者或非法拦截者则难以从公开信息中判断机密信息是否存在，难以截获机密信息，从而能保证机密信息的安全。其中，待隐藏的信息称为秘密信息( s e c r e tm e s s a g e ) ，可以是版权信息或秘密数据，也可以是一个序列号；而公开信息则称为载体信息( c o v e rm e s s a g e ) ，如视频、音频片段。这种信息隐

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于汉字字形区分的文本数字水印算法.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于汉字字形区分的文本数字水印算法.pdf

文档简介

温馨提示

最新文档

评论

相关文档