(计算机应用技术专业论文)基于句法变换的自然语言文本水印技术研究.pdf_第1页
(计算机应用技术专业论文)基于句法变换的自然语言文本水印技术研究.pdf_第2页
(计算机应用技术专业论文)基于句法变换的自然语言文本水印技术研究.pdf_第3页
(计算机应用技术专业论文)基于句法变换的自然语言文本水印技术研究.pdf_第4页
(计算机应用技术专业论文)基于句法变换的自然语言文本水印技术研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机应用技术专业论文)基于句法变换的自然语言文本水印技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕 学像论文 摘要 文本数字水鞠是数字水印领域中一个十分活跃的研究方向,在电子商务、电子政务、 囤家安全和版权保护等领域应用广泛,并得到越来越多人的重视和研究。基于文档图像 和格式酌文本数字水印算法由于不能抵御常规的光学扫描识别和格式变换豹攻击, 且不能适用于纯文本,在应用上有很大的限制。因此,人们提出了基于自然语言 处理的文本求印技术,鄯塞然语言文本永印技术。该技术在不改变文本原意麓蒋提 下,将需要隐藏的水印信息嵌入到原始文本内容中。由于和具体的文本格式无关, 这种技术有着更大的应用前景。鼹蓠,针对英语黪童然语言文本水印研究较多, 而汉语的相关研究则很少。 本文在现有瞧然语言文本水印的研究基础上,应用依存语法、变换分撬等语 苦学理论和现有的自然语言处理技术,提出了一种基于依存句法的自动句法变换方 案和一神新的基于句法变换的自然语言文本水印算法。 在鸯动句法变换方案的设计中,首先提敬并剩用依存关系对句法变换规剡进行撼 述,然后借鉴语句复述和基于转换的机器翻译中的有关思想,提出一种基于依存句法的 窝动句法变换方案,并霜予生成水印嵌入对所需豹嗣义旬。 在自然语言文本水印算法中,酋先通过比较基于依存句法树排序和基于序列置乱的 水窜甸选择算法,选择了嚣者作为本文水印旬的选择算法。然后,在分耩汉语诞汇语素 分布特点的基础上,提出一种针对汉语的基于句子权煎的水印信息位表示方法。为了提 高水印嵌入鲍成功率和本球的鲁棒性,算法采用语句分组的方法嵌入水印,并对水印信 息进行了纠错编码。 实验结果表明,水印提取的准确度较高,算法具有较好的隐蔽性、鲁棒性和 一定靛容量。 关键词:信息隐藏;文本数字水印;塞然语言数字末舔;巍然语言处理 至董 基于句法变换的自然谮言文本承印技术研究 a b s t r a c t t e x tw a t e r m a r k i n gi sav e r ya c t i v er e s e a r c hd i r e c t i o ni nd i g i t a lw a t e r m a r k i n ga n d h a sf o u n dm a n ya p p l i c a t i o n si ne - c o m m e r c e ,e g o v e r n m e n t ,n a t i o n a ls e c u r i t ya n d c o p yp r o t e c t i o n ,e t c 。t h u sm o r ea n d m o r ea t t e n t i o na n ds t u d yh a sb e e nd e v o t e dt ot e x t w a t e r m a r k i n g h o w e v e r ,p r e v i o u sd o c u m e n ti m a g ea n d f o r m a t b a s e da p p r o a c h e s c o u l dn o tr e s i s to p t i c a lc h a r a c t e rr e c o g n i t i o na n dr e f o r m a t t i n ga t t a c k s ,c a n n o tb e a p p l i e dt op l a i nt e x ta n dt h e s er e s t r i c tt h e u s ei nr e a la p p l i c a t i o n s t od e a lw i t ht h e s ep r o b l e m s ,t e x tw a t e r m a r k i n gs c h e m eb a s e do n n a t u r a l l a n g u a g ep r o c e s s i n g ,n a m e l yn a t u r a ll a n g u a g ew a t e r m a r k i n gw a sp r o p o s e d i nt h i s s c h e m e w a t e r m a r ki n f o r m a t i o ni se m b e d d e di n t ot h ec o n t e n to ft h ec o v e rt e x t p r o v i d e dt h a tt h eo r i g i n a lm e a n i n gi sp r e s e r v e d a sn a t u r a ll a n g u a g ew a t e r m a r k i n gi s r e g a r d l e s so ft e x td o c u m e n tf o r m a t s ,i th a saw i d e ra p p l i c a t i o np r o s p e c t c u r r e n t l y , m u c hr e s e a r c hw o r kh a sb e e nd o n eo nn a t u r a ll a n g u a g ew a t e r m a r k i n gf o re n g l i s h t e x t s h o w e v e r ,t h e r eh a sb e e nl i t t l es t u d yo nt h ec h i n e s el a n g u a g e i nt h i st h e s i s ,b a s e do np r e v i o u ss t u d i e s ,ad e p e n d e n c y b a s e da u t o m a t i cs y n t a c t i c t r a n s f o r m a t i o ns c h e m ea n dan o v e ls y n t a c t i ct r a n s f o r m a t i o nb a s e dw a t e r m a r k i n g s c h e m ea r e p r o p o s e d t h ep r o p o s e d s c h e m e se m p l o yd e p e n d e n c yg r a m m a r , t r a n s f o r m a t i o na n a l y s i s a n ds t a t e o f - t h e 一鑫式n a t u r a ll a n g u a g ep r o c e s s i n gt e c h n i q u e s 。 i nt h e p r o p o s e ds y n t a c t i ct r a n s f o r m a t i o n s c h e m e ,t r a n s f o r m a t i o nr u l e s a r e m a n u a l l yc o l l e c t e da n dr e p r e s e n t e dv i ad e p e n d e n c yr e l a t i o n s 。t h e n ,u s i n gt h ei d e a si n p a r a p h r a s i n g a n dt r a n s f e r b a s e dm a c h i n et r a n s l a t i o n ,t h et h e s i sp r o p o s e sa d e p e n d e n c y - b a s e d s c h e m ea n dt h e n a p p l i e si t t o g e n e r a t em e a n i n g 。p e r s e v e r i n g s e n t e n c e sw h i c hw i l lb eu s e di nw a t e r m a r k i n ge m b e d d i n gp r o c e s s 。 i nt h ep r o p o s e dw a t e r m a r k i n gs c h e m e ,s e q u e n c ep e r m u t a t i o na l g o r i t h mi sc h o s e n f o rs e n t e n c es e l e c t i o na f t e rc o m p a r i s o nw i t hd e p e n d e n c yt r e es o r t i n ga l g o r i t h m b a s e d o nt h es t u d yo fm o r p h e m e sd i s t r i b u t i o ni nc h i n e s ew o r d s ,an e wc h i n e s e s p e c i f i c w a t e r m a r kb i tc a r r y i n ga p p r o a c hu s i n gs e n t e n c ew e i g h ti sp r o p o s e d a n d ,t oi m p r o v e e m b e d d i n ga c c u r a c ya n de n h a n c ew a t e r m a r k i n gr o b u s t n e s s ,t h ef i n a ls c h e m ea l s o a p p l i e ss e n t e n c eg r o u p i n ga p p r o a c hf o rw a t e r m a r k i n ge m b e d d i n ga n de r r o r - c o r r e c t i n g c o d e sf o rw a t e r m a r ki n f o r m a t i o ne n c o d i n g 。 e x p e r i m e n t sr e s u l t sh a v es h o w nt h a tt h ep r o p o s e da l g o r i t h mh a sar e l a t i v e l yh i g h a c c u r a c y ,ap r e f e r a b l ei m p e r c e p t i b i l i t ya n dr o b u s t n e s s ,a n das a t i s f y i n gc a p a c i t y 。 k e yw o r d s :i n f o r m a t i o nh i d i n g ;t e x tw a t e r m a r k i n g ;n a t u r a ll a n g u a g e w a t e r m a r k i n g ;n a t u r a ll a n g u a g ep r o c e s s i n g i i i 基于句法变换的自然语言文本水卵技术礤究 插图索引 图1 1论文结构图一4 图2 。l水印嵌入和提取模型6 图3 1依存关系树举例1 7 图3 2l t p 模块框架图1 9 图3 。3自动句法变换模块樵架图2 l 图3 4 句子依存句法分析结果2 2 图3 。5依存句法树前序遍历结果2 2 图4 1原始句依存关系图2 6 图4 。2原始旬依存句法树莳序遍历结果2 6 图4 3对原始旬依存句法树按二次剩余标号结果2 6 图4 ,4汉语依存树库单词词素分布示意图。2 8 图4 。5水印嵌入示意图。3 3 图4 6水印提取示意图3 4 蚕5 1n l w m 运行界面圈3 7 图5 2 原始载体文本3 8 图5 。3句法分析 ! 孽到的x m l 文件。3 8 图5 4先序遍历依存句法树后得到的x m l 文件一3 9 图5 。5保存句子变换信息和可用信息的x m l 文件。3 9 图5 6水印文本4 0 v | l 硕一 :学锭论文 附表索引 表3 1常见的依存关系表。1 6 表3 。2 常见汉语句法变换模式举例。l8 表4 1 简单位置权重表2 9 表5 1 g :l ,未使用海明码一4 1 表5 2 g = 2 ,且使用海明码j 4 l 表5 3 g = 3 ,未使用海明码4 2 湖南大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或者集体已经发表或者撰写的成果作品。对本文的研究做出重 要贡献的个人和集体,均已在文中以明确方式表明。本人完全意识到本声 明的法律后果由本人承担。 作者签名: 弓;,也 曰期: p ? 年6 月f 7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留,使用学位论文的规定,同意 学校保鼯并向圈家有关部门或者机构送交论文的复印件和电子版,允许论 文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或者部分内 容编入有关数据库进行检索,可以采用影印,缩印或者扫描等复制手段保 存和汇编本学位论文。 本学位论文属于 l 、保密口,在年解密后适用本授权书。 2 、不保密冈。 ( 请在以上相应方框内打“) 作者签名: 专、屯 日期: 。譬年月力日 翩魏豸? 星拶俨 硕士学使论文 1 1 课题研究来源及意义 1 1 1 本课题研究的来源 第l 章绪论 本课题研究来源于国家自然科学基金重点项目“文本内容安全研究” ( 6 0 7 3 6 0 16 ) 和国家自然科学基金项冒文本数字承馨及文本信息安全研究 ( 6 0 3 7 3 0 6 2 ) 的部分研究内容。 l 。l 。2 课题研究的背景及意义 计算机技术的不断发展以及互联网的普及,为各类信息的存取和传播提供了 极大的便利,发布和获取匿像、音频、视频、文本等各种形式的数字作黯交得更 加方便和快捷,并极大地促进了电子印刷出版、电子商务、电子政务、。数字图书 馆、网络音频和视频服务等彳亍业的快速发展。但是,这些新技本的出现同时也降 低了盗版者和攻击者的成本,大规模复制和传播未经授权的数字作品的事件频频 发生,而且人们还可利用软件对数字作品进行篡改,以假乱真,达到非法的目的。 在信息和网络时代,为确保数字作品的正确传播,必须考虑以下信息安全问 题:一是数字作品内容的版权问题不会得到侵犯;二是必须判断数字作品来源的 完整性和可靠性。而且,在对保密性要求较高的应用如军方通信、电子商务、电 子政务等,在数字内容传递的过程中还要确保数字作品有很强的保密性和完整性。 一种解决方案是利用密码术对信息明文进行若于变换,在没有密码酌情况下 就无法看到明文,但这样的话,解密后的信息依旧没有有效的手段来保证其不被 j 乒法复制和传播;而且信息的重要性也被暴露了,在实际应用中,这一点常掌是 至关重要的。 另一种解决方案就是数字水印技术i ,它是信息隐藏技术研究领域的重要分支。数 字水印技术利用载体信息中具有随机特征的冗余部分,将重要信息嵌入载体信息中,使 其不被其它人发现。在实际应用中,存在冗余信息的载体非常丰富,这一点也在客观上 增强了数字水印技术的隐蔽性和可行性。同时,通过把信息存在本身隐藏起柬的技术使 得攻击者无从获取秘密信息的位置,从而增强了安全性。 数字水印技术,由于可以为电子商务、电子政务和数字信息舨权保护提供有 效的解决方案,具有广阔的应用前景,近十年来得到了飞速发展,并成为学术界 一个前沿的研究方向【引。各种水印技术魏鍪像水印【强、音频水印 4 1 、视频本印【熨, 软件水印1 6 1 等受到了学者的广泛注意和研究。在实际应用方面,由于d i g i m a r c 、 a d o b e 和i b m 等大公司参加了研究并给予了经费支持,数字水印技术的商业化研 幕予句法变换瀚舀然语苦文本水印技术研究 究发展很快,相关应用软件的市场已初具规模。 但是,应该注意到,目前市场上的数字水印软件主要是以图像水印、音频水 印和视频水印为主,丽应用十分广泛的数字文本的水印软件相对较少。这主要是 因为相关技术仍不够成熟,实际应用中,水印比较容易被破坏或破解。早期的文 本水印方法基于文档图像和基于文件格式i 7 1 ,安全性较差,不能抵御常规的 o c r ( 光学字符识别) 和格式变换的攻击,而且不能适用于纯文本,应用上也有很 大的限制。 为了解决这些目题,有学者提出了利用巍然语言处理技术实现在文本中嵌入 水印信息的方法,这就是自然语言文本数字水印( n a t u r a ll a n g u a g ew a t e r m a r k i n g ) 技术1 8 ,】。该永印技术所依赖的自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,简称 n l p ) 技术是人工智能和计算语言学的一个分支,主要研究如何运用计算机对自 然语言进行分析和理解,从箍使计算机在某种程度上具有人的语言熊力。经过多 年的发展,目前已积累了大量的自然语言文本处理经验和技术,如分词、句法分 析、语句复述、词义消歧等【l o l 。这些为自然语言文本水印技术奠定了一定的基础。 由于自然语言文本水印不依赖于具体的文本格式,在很多方筒有着特别重要的应用 价值,如可通过文本水印信息确认信息的来源,也用于隐秘信息的传送,尤其是军事情 报领域的信息,还可耀子解决文本的版权保护问题。此外,和以往的文本水印方法相比, 通过采用自然语言处理技术嵌入的水印信息更加安全、可靠,因而具有更大的应用潜力。 进行自然语言文本数字水印的研究,一方瑟大量利用了分词、句法分析、语 句生成、本体论、机器翻译等现有自然语言处理技术,使数字水印研究取得了新 的突破点和增长点;反过来,这方面的研究也推动着自然语言处理技术的研究, 促进其迸一步发展和成熟。 目前,国内外很多科研机构对此进行了大量的研究工作,国外主要有美国普渡大学、 爱尔兰都柏林三一学院l 娃l 。国内也有不少高校开始了相关的研究工作,如南| 歼大学h 引、 哈尔滨工业大学【13 1 、湖南大学【14 1 、北京邮电大学【1 5 】等。 结合自然语言处理技术当蘸的发展情况,一般认为关于基于句子句法结构静罄然语 言水印研究是最有前景的研究方向【埔】。豳前,关于英语的囱然语言文本水印研究地较多, 丽关于汉语的相关研究则很少。因此开浸汉语自然语言文本水印技术方面的研究具有重 要的理论和现实意义。 1 2 本文完成的主要工作 目前,国内外有关自然语言文本水印的研究1 大多是基于文献【9 】中提出的水印算 法设计思想,且大多研究的是英语自然语言文本,而对中文自然语言文本的研究较少。 本文在统计分析汉语词汇词素分布的基础上,提盘了一种新酶基于句子权重的自然 2 硕l j 擎位论文 语言永印表示方法。该方法既有臻显的汉语词汇特色,又较好的提嵩了水印成功嵌入和 提取的概率。 和其他载体不同,自然语言文本中信息冗余较少,用于嵌入水印信息的位置十分有 限,水印嵌入成功率较低和水印容量不高等问题一直都没有得到很好得解决。本文提出 的基于的句法变换的自然语言文本水印算法利用句子分组方法较好地提高了水印信息 嵌入的成功率,并利用纠错编码技术使得水印信息具有一定的检错和纠错性能。 本文完成的具体工作如下: ( 1 ) 结合哈尔滨工业大学开发的l t p 自然语言处理平台l l 习和开源的t i n y x m l 解 析系统【1 8 】提出了一种基于依存句法的自动句法变换方案,并将之应用于本文开发的自 然语言文本水印原型系统。 ( 2 ) 提出了两种汉语文本水印句选择算法。一种是利用本文设计的二次剩余判别 方法,结合汉语依存句法,设计并实现了一种基于汉语依存句法树的选择算法;另一种 是利用前人的工作,设计并实现了一个新的基于序列置乱的水印句选择算法。本文对这 两种选择算法进行了比较,并将后者应用到提出的水印算法中。 ( 3 ) 在统计分析汉语词素个数的基础上,提出了句子权藿的定义,给出了一种基 于句子权重的水印信息位表示方法。然后利用这种新的水印信息位表示方法, 提出了一种基于句法变换豹自然语言文本数字水印算法。为提高水印嵌入的成功率和 水印的鲁棒性,还对水印信息进行了纠错编码,并采用了语句分组的方法来嵌入水印。 ( 4 ) 用v i s u a lc + + 6 0 实现了上述水球算法,开发了一个原型系统,并利蠲 语料库作为测试文本进行了水印嵌入和提取实验,以验证提出的算法的性能。 1 3 本文的内容结构 本文一共分五章展开,每章具体内容概述如下; 第l 章概述了本研究课题的来源和研究背景,并提出了本论文的基本框架。 第2 章介绍了自然语言文本水印的相关理论与技术。首先,简要介绍了数字水印、 文本数字水印的定义和分类;然后,重点介绍了自然语言文本数字水印技术,对基于词 汇、基于句法、基于语义等三类自然语言文本水印技术进行了比较;此外,还贪缨了自 然语言文本水印相关的评价指标。 第3 章介绍了基于依存句法的旬子鲁动变换设计。首先,篱要介绍了汉语自动变换 和同义旬生成技术的发展现状;然后,介绍了与自动句法变换相关的语言学理论和自然 语言处理技术,如依存句法理论,句法变换理论和语句生成理论。最矮介绍了汉语句法 变换规则和本文开发的基于依存句法的句子自动变换模块。 第4 章是本文的重点,详细介绍了本文提出的基于句法变换的汉语自然语言水印算 法。首先,余绍了在自然语言文本水印算法设计中使用很广的二次剩余的概念,提出了 3 苯予句法变换鹃臼然语言文本永窜技术磺究 一种二次剩余的计算方法;其次,对鲁然语言文本水印嵌入句子的选择算法进行了概述, 重点介绍了本文设计的基于依存句法树和基于序列置乱的句子选择算法,并选择后者作 为本文提出的算法中的句子选择算法;然后,在总结现有水印信息位的表示方法优 缺点的情况下,提出了一种新的句子权重表示方法;在此基础上,提出了一种新的基 于句法变换的汉语自然语言水印嵌入算法,该算法采用句子权重值表示水印信息,使用 句子分组和纠错编码保证了水印嵌入成功率和水印的鲁棒性;本章最后介绍了对崴的水 印提取算法,并对该算法有关性能从理论上进行了分析。 第5 章主要对第4 章中提粥的算法慧想进行了验证性实验,并分析了有关实验数据。 首先,简要介绍了开发的n l w m 原型系统;其次,举例介绍了水印嵌入和提取流程; 然怎,介绍了对两个语料库进行水印嵌入和提取的实验结果,对结果数据进行了分析。 最后,在结论部分,对全文工作进行了总结,展望了可能进行的改进。 论文结构如图1 1 所示。 第l 章绪论 1r 第2 章自然语亩文本水印技术简介 土 第3 章基于依存句法的句子自动变换设计 1r i 繁4 掌基予句法变换的鑫然语言文本本露算法设计 上 第5 章原型实验和结果分析 上 结论 图1 1论文结构图 4 硕一l j 学位论文 第2 章自然语言文本水印技术简介 为了引入自然语言文本水印,本章首先介绍数字水印的基本概念,然后详细 地介绍文本数字水印和自然语言文本水印技术的研究现状,最后介绍与囱然语言 文本水印技术评价相关的知识。 2 1 数字水印简介 2 1 1 数字水印的基本概念 数字水印的概念最早可以追溯到1 9 5 4 年m u z a c 公司e m i lh e m b r o o k e 申请的 “i d e n t i f i c a t i o no f s o u n da n dl i k es i g n a l s ( 声音和其他类似信号的识别) 专利江1 。1 9 8 8 年,k o m a t s u 和t o m i n a g a 第一次使用了数字水印( d i g i t a lw a t e r m a r k ) 的术语【1 9 j 。1 9 9 0 年,他们提如了将数字水印应用到文档图像和数字签名的思想f 2 们。1 9 9 3 年,t i r k e l 等 人在d i c t a 9 3 上正式提出了电子水印( e l e c t r o n i cw a t e r m a r k ) 的概念。这些文献是对 数字水印最早的研究。到了1 9 9 5 年前后,数字水印的研究浅现急剧增长的态势1 2 。邈 此之后,数字水印技术得到了长足发展,成为信息隐藏技术领域的一个十分重要分支, 并成为信息安全研究领域的一个热点。 根据文献 21 中的定义,数字水印是把关于数字作品的信息( 水印) 嵌入 到数字作品( 载体) 本身的行为。嵌入的水印不能影响载体的商用价值,并且 可以从食有水印的载体中提取或检测出来。 一般说来,数字水印具有以下主要特性【2 2 】: ( 1 ) 安全性:数字水印应是安全的,难以篡改或伪造;藏时,应当有较低 的虚警率。 ( 2 ) 隐蔽性:数字水印应是不麓被感知的,而且应不影响被保护数据的正 常使用,不会降质。不能被感知有两重含义,一是指从人类的感官角度看,嵌 入水印的数据和原始数据完全一样;二是指对大量的用同样水印方法处理的数 据产品,即使用统计的方法也无法确定其存在。 ( 3 ) 鲁棒性:数字水印在经历多种无意或有意的信号处理过程后,数字水 印很难被擦除,可保持部分完整性并能被准确鉴别。任何试图完全破坏或删除 数字水印的操作将对载体的质量产生严煎破坏,使得载体失去使用价值。 ( 4 ) 抗检测性:指水印载体与原始载体具有一致的特性,如具有一致的统 计噪声分布等,以使非法攻击者无法判断是否有隐蔽信息。 数字水印算法般包括水印豹嵌入( 加载) 和水印的提取( 检测 掰个方面。 慕予句法交换的臼然语言文本承印投米石拜究 一般的数字水印嵌入和提取过程如图2 圭所示。 虚线的左侧表示水印的嵌入过程,该部分的输入有三个,分别是原始载体 信息,水印信息渺和密钥足,加载水印的数据是嵌入过程的输出结果;虚 线的右侧则表示水印的提取( 检测) 过程,其输出结果要么是提取出的水印信 息,要么则判断载体中是否含有水印信息。 + 菇e 离;舞妾声r 一i + 为冀;赞鞫吝 。 图2 。l水印嵌入和提取模型 2 1 2 数字水印的分类 数字水田分类的标准 醚多,这零仅仅介绍几种常见的分类方法【2 羽。 按照水印所附载媒体的不同,可把水印分为文本水印、图像水印、音频水印、 视频水印、软件承印、数据库水印等几种类型。 按照水印是否可以被人类的视觉所认知,可把水印分为可见水印和不可见水 印。不可见水印是最常用的水印技术,它利用了人类视觉系统的特点,使彳导隐藏 在数据中的水印无法通过肉眼分辨出来,它又可以分为鲁棒水印、脆弱水印、半 脆弱水印三种。 按照水印的检测过程是否需要原始载体信息,可将水印划分为非盲水印( 私有 水印) 和盲水印( 公开水印) 。明文水印必须用到原始载体信息,而崮水印则不必 使雳原始载体信息。 按照水印嵌入和提取过程是否使用相同的密钥,可将水印划分为对称水印 和鼍对称水印。对称东印中水印的嵌入和提取算法使用榴同的密钥,两j 对称水 印中进行水印嵌入时,要用到私钥( 也有可能用到公钥) ,水印提取的时候只需用 到公钥。 本文研究的自然语言文本水印属于对称的不可见文本水印,是具有鲁榉性的 盲水印。 2 1 3 数字水印的应用 匿前,数字水印的应用主要集中在如下几个领域2 1 】: 6 硕 j 学位论文 版权保护:数字作黑的所有者可用密钥产生承印,并将其嵌入原始数据, 然后公开发布其水印版本作品。当该作品被盗版或出现版权纠纷时,所有者即 可从被盗版作晶中获取水印信号作为依据,从丽保护其合法权益。 数字指纹:为避免数字作晶未经授权被拷贝和发行,版权所有人可以向分 发给不同用户的作品中嵌入不同的水印以标识用户的信息。该水印可根据用户 的序号和相关的信息生成,一量发现未经授权的拷贝,就可以根据此拷贝所恢 复出的指纹来确定它的来源。 内容认证和完整性验证:在军方通信和新闻广播中,对传播的信息来源进 行认证是至关重要的。可以在信息中嵌入脆弱水印,如果嵌入了的水印的信息 因为某种原因发生了改变,承印将无法提取,那么接收方就有理由怀疑信息的 真实性。 访闽控制:可以将访问控制信息嵌入到数字作品中,在使用数字作品之前 通过检测嵌入到其中的访问控制信息,以达到访问控制的目的,它要求水印具 有很高的鲁棒性源。 广播和互联网监控:可在要发布的数字作品中嵌入独特的标识符、或者发 布者、r 期和时间等信息,然后在该数字作品投放主要的市场中,安装水印检 测工具,通过辩水印的提取,可以获褥该媒体内容的作者信息、具体播放的时 间和地点等有关信息。 2 2 文本数字水印 文本数字水印是数字水印的一种,是以文本为原始载体的数字承印技术。其设计思 想和图像数字水印相似:除了文本的作者或者版权拥有者,戴它任何人都不能从中检测 出水印信息。但是,在文本中加入永印信息更加困难,原因在于:和图像、声音中的存 在噪声数据不同,文本中并不包含用于秘密信息传递的冗余信息。 文本水印研究早期的研究是在文档图像( d o c u m e mi m a g e ) 中嵌入水印1 2 引,采用的 方法和图像水印类似,或者利用结构化文档各自格式上的特点嵌入水印,如基于w o r d 、 p d f 、p o s t s c r i p t 、h t m l 、x m l 、l a t e x 等有关的行移编码、字移编码、特征编码、存 储物理和逻辑结构、标记变换等等t 2 4 。以上方法只考虑保留文本的褫觉形式丽不考虑其 具体内容,通用性较好,隐藏容量较大,但是安全性较差,不能抵御常规的o c r ( 光学 字符识别) 和格式变换的攻击,丽显不麓适耀于纯文本,应用上也有很大的限制。 长期以来,由于纯文本中没有数据冗余,没有可供插入标记的可感知空间( p e r c e p t u a l h e a d r o o m ) ,有学者认为文本是不能被插入水印的 2 5 1 。为了向纯文本中嵌入水印,一些 学者们试图采用插入拼写字母、词的变换、标点符号甚至一些错误的内容等方法来实现 这个目的【2 6 】。一般认为,美国普渡大学m i k h a i lj ,a t a l l a h 等于2 0 0 0 年最先提崽了自然 语言文本水印的概念】。其实早在1 9 9 6 年,b e n d e r 等就提出了利用句法和语义变换对 7 恭于甸法交换酌自然语亩文本水印援术研究 文本进行信息隐藏蹬l ,可以说是自然语言文本水印有关的最早研究之一。 下面,对文档图像文本水印、格式化文档文本水印、基于自然语言处理的文本水印 等常见文本水印技术逐一进行介绍。 2 2 1 文档图像文本水印技术 文档图像具有般图像的共性,本质上,它仍是数字鎏像,数字图像的变换处理原 理和方法对其仍然适用。但是文档图像又有其独特的个性,如多为二值图像和欢度图像, 图像中存在大量的空白区域( 非文字非图像区域) ,笔画之间存在着极大的几何形态的相 关性和局部稳定性,明暗对比明显,层次分明,图像的像素具有成块不变性和块间跳变 明最的特点等。 文档图像虽然是一种图像,但是常见基予变换域的图像水印算法对之并不适用,如 果不加改变直接应用到文档图像中,嵌入的水印则可以很容易的通过二值化的方法去掉 f 2 7 1 。另外,从具体需要和入类视觉的特点来看,某些情况下只要文字的大概轮癣存在, 文字就是可以识别的。为了充分利用文档图像的上述特点,人们提出了适合文档图像的 一些水印算法郾1 : ( 1 ) 基于修改行间距、字间距、段落间距的方法。这类方法通过轻微改变文本中 的行间距、字间距的方法来嵌入水印信息。这些改变是非常细微的,一般为l 1 5 0 英寸 左右,人眼一般是无法察觉的。例如,可以规定文本行向上移动为“1 ”,反之为“0 ”, 一个字符向左移动为“l ”,向右移动为“0 。 ( 2 ) 基于字符特征编码的方法。这类方法从文字字符中提取局部特征,通过改交 这些字符特征来嵌入数据。可改变的字符特征包括:字体、字号、高度、颜色、段落、 底纹、下划线、笔划赢度和方向等,不同特征的变化可分别用来表示编码0 和l 。 ( 3 ) 图像固定分块的方法。这类方法把文档图像切割成m n 的固定块,通过计 算这些固定块的像素数据或不变量来嵌入水印僖息。 ( 4 ) 边界修改的方法。这类方法把水印数据隐藏在字符的8 - 连通边界中。如可用 固定数星的长为5 像素的边界模式对来嵌入数据。 2 2 2 格式化文档文本水印技术 对于格式化文档( 如p o s t s c r i p t ,l a t e x ,p d f ,w o r d ,x m l 、h t m l ) ,可以将水 印嵌入版面布局信息或者文件物理存储格式中。主要方法有: ( 1 ) 结合不同的文件格式,利用格式信息的编码实现微调行闻距、字阍距、 段落间距的方法和字符特征编码的方法外。如对w o r d 文档,可通过修改字体 颜色的方法嵌入水印信息f 29 1 。对于p d f 文档,可先解码提取出文本字符所对应的 字符码,通过修改相关的字符间距参数及操作符把水印信息嵌入到文档数据流中, 再对数据流进行编码从而生成带水印的p d f 文档【3 0 j 。 ( 2 ) 应用物理存储格式冗余嵌入水印。例如,对于p d f 文档,可以利用被丢弃对 8 硕j :学位论文 象的废弃空间获取有限的水印嵌入空闻,或者利用增加对象获取理论上任意容量的水印 嵌入空间f 3 l j 。又如,通过对比w o r d 文档,发现即使几个字节的文件也有十几k 大小, 说明w o r d 文件存储格式中有大量的冗余信息,可以利用这些冗余信息嵌入水印p 列。 此外,对于x m l 、h t m l 等结构化格式文本,人们也发展了一些数字水印算法。 文献 2 5 1 t 9 提出在适当的位霞增加一些不可见字符,如空格、制表符等,利用这些不可 见字符嵌入水印。虽然加入水印后,文件看起来并没有变化,但是由于增加了不可见字 符,文件的大小也相应得到了增加。基于此,文献 3 3 1 提出了通过修改h t m l 中标记 大小写嵌入水印的方法,并结合p c a 方法将之推广刘x m l 领域疆引。文献【3 5 坤则提出 了一种利用查询模板嵌入在x m l 巾嵌入水印的方法。 2 2 。3 基于自然语言处理的文本水印技术 基于自然语言处理技术的文本水印技术亦即自然语毒文本水印技术是最近几 年发展起来的研究课题。对其进行研究的目的希望通过使用自然语言理解技术, 在不改变文本原意的情况下通过语义等价或近似语义等价变换以实现在纯文本中 嵌入和提取东印。与一般数字水印不同,自然语言文本水印采用适合于文本转换 和表达的方法,以达到将水印信息加入到文本中的目的,但水印的信息并不体现在 文本中,读者只能通过特定的算法来读取出水印信息。这样,恶意的攻击者即便 是得到了嵌入水印信息的文本,也无法提取出水印信息,从而在不破坏文章原义 的前提下很难破坏文中所包含的水印信息。 假设t 为自然语言文本,w 是比t 小的多的字符串,t7 为生成的自然语言文本, 那么自然语言文本水印算法应满足如下条件p 6 j : 、在本质上,t7 与t 意思等同。 、t7 包含水印信息w ,w 的存在可以作为识别信息来源或者处理版权纠纷问题 的依据等。 、没有密钥,无法从t7 中读取出w 。 、知道密钥的入可| 以扶t 获得w 谣不需要t ( 邸軎提取) 。 、除非知道密钥,甭则在没有大幅改变文本原意的情况,很难从t 中删除w 。 、向文本t 中加入水印的过程和从文本t 中提取水印的过程不是保密的。该 方案的安全性是幽密钥来保证的。 、如果两个人a 和b 在同一个文本里面加入了两个不同的水印,那么a 不能读 出或删除b 所加入的水印信息,对b 也一样。 此外,一个鲁棒的自然语言文本水印算法还应该能抵御下述方法的攻击【3 6 j ; 、对文本中的句子进行同义转换( 包括翻译到另外一种语言) ; 、改变文本中的部分句子的意思,但文本意思整体上基本未变或改变很少; 、在文本审插入新的句子; 9 摹予匍泫变揍豹鑫然语言文本永印技拳研究 、将文本中从个地方移动到另外一个地方,如整段、整节、整章文字互换位置。 2 3 自然语言文本水印研究概述 自然语畜文本数字水印技术自提出以来,得到了学术界的广泛关注。早期的 研究主要集中在英语自然语言文本【1 ,而艨逐步扩大到同语【3 、汉语”、土母 其语哪! 和韩语1 3 9 j 等语种。 根据生成新的自然语言文本中的采用变换所涉及的层次,可把囱然语言文本 数字水印的方法分为三种:基于词汇的变换,基于句法的交换和基于语义的变换。 下面将对这三种自然语言文本水印研究的现状分别进行介绍。 2 3 1 基于词汇的自然语言文本水印 基于词汇的自然语言文本水印算法,即基于同义词替换的方法,是通过对文 本中的文件结构及句法特点的分析,在保持语义不变或稆近的前提下,从文本中 挑出一些词语,用其他一些与其意思十分相近的词语进行替换,从而实现水印信 息的嵌入。如:“群众 与靠大众”,“大家与“大饮弹、“大饮儿 ,“m a k e 与 “p r o d u c e 等等。对于选定的水印位置,可以用“0 表示没有发生替换,“1 ” 表示发生了替换。对于一对圈义词,也可选鬻其中一个或另一个分别表示“0 或 “1 ”。有些词可能存在好几个同义词,则这些词就可以嵌入更多的信息。一般来 说,隐藏信息的容量与同义词疼的大小有关,同义词库越大,文件的隐藏容量通 常也越大。 由于其变换思想篱单,网义词替换的方法在自然语言文本水印中得到了广泛 研究和应用。研究的重点集中在如何选择同义词进行替换和如何对同义词组进行 编码上。早期的研究中从预先编码的分类词典中直接选取同义词f 4 0 1 。文献【4l 】中 使用单词选择哈希编码方法把文本单词的选择状态映射成一组二进制位。后来, 有学者提出首先把同义词分成绝对意义和相对意义上的两大类同义词,对绝对同 义词的使用没有限翩,两褶对露义词则必须提前和包含要替换的词的搭配进行语 义兼容测试,这样替换后的句子句法上尽可能正确,语义上尽可能一致1 4 引。文献 4 3 】中提出使用优先选择数据瘴来对圆义词选择。与上述方法不同,文献【4 4 提出 的算法则选取最有歧义的单词进行替换,因为这样增加了攻击的难度。 在使用阈义词替换方法进行水印嵌入时,必须考虑到语境的因素,对于一词 多义的情况,必须在同一词义下进行变换,这就涉及了自然语言处理中的单词词 义消歧问题。从语用学上讲,某些词在特定的语境中有特定的含义,可以和其他 词迸行替换,但是脱离了这个语境则有可能无法替换。如英语的”b a n k ”有银行、 河岸、储存库等多重含义;中文的“人大 有可能是“人民代表大会的缩写, 可有可能是“人民大学 的缩写。具体选择哪一种意思必须结合语境进行选择。 l o 颈 j 学绽论文 再如在甸子“我去食堂抒饭去了 中的“打”字可以用“买”替换,但是句子“小 张把他打了一顿中的“打”字则不能用“买 替换。 同义词替换的方法普遍存在如下几个问题: ( 1 ) 提取水印时一般必须参照原文或同义词表( 库) ,否则在只有密码的情况 下不能独立读取水印信息,因此应用价值一般不大【l 川。 ( 2 ) 水印鲁棒性和水印容量与采用豹同义词表( 库) 质量密切相关。 ( 3 ) 鲁棒性不强,受攻击后水印信息可能会无法提取。如,攻击者可以替换 文本的全部同义词,这样承印信息就可能被彻底破坏了。 2 3 2 基于句法的自然语言文本水印 为进一步提高水印嵌入的质量,a t a l l a h 等提如了基于句法变换的自然语言文 本水印方案【3 6 1 ,他们把一篇自然语言文本看成一组句子的组合,在按照某种特定 方式随视选择一些原始语句的前提下,把永印信息隐藏到被选中的语句的句法树 的相关信息中。该方案首先利用句子依存句法树信息排序得到水印标识句( 简称 “标识旬”) ,然后侬据水印位的要求对拟嵌入水印的句子( 简称“水印旬 ) 进行 相关句法变换。例如,我们要把“1 ”作为水印信息嵌入到水印旬中,如果这时候水 印訇的句法树结构信息恰好是“l ,则不做任何变换,完成该水印的嵌入过程;如果 这时候水印句的句法树结构信息是“0 ”,则需要对原始文本中的水印句进行变换 使水印句的句法树结构信息变换为“l ,以完成水印的嵌入过程。可以看出,在 旬法变换中,句子的意思在前后没有发生明显变化,但是句子的结构发生了变化, 从而使得句子的句法树( 或者其他表征句子信息的变量) 发生了改变。我们可以 通过利用这种改变实现水印信息的嵌入。 结合g b ( g o v e r n m e n ta n db i n d i n g ,管辖一约束) 语法理论,m u r p h y 全面总 结了荚语中常觅静句法变换,并指出适合自然语言文本水印的旬法变换模式主要 包括【4 5 1 :利用关系从句进行句法变换、移动附加语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论