(计算机应用技术专业论文)基于文本文档的信息隐藏技术研究.pdf_第1页
(计算机应用技术专业论文)基于文本文档的信息隐藏技术研究.pdf_第2页
(计算机应用技术专业论文)基于文本文档的信息隐藏技术研究.pdf_第3页
(计算机应用技术专业论文)基于文本文档的信息隐藏技术研究.pdf_第4页
(计算机应用技术专业论文)基于文本文档的信息隐藏技术研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于文本文档的信息隐藏技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第l 页 摘要 随着因特网的迅猛发展与多媒体技术的广泛应用,信息隐藏技术已成为信 息安全领域中的一个新研究热点。当前,大多数信息都以文本文档的方式存储 与传输,文本文档作为信息传递的一种手段,这种文本文档传输的普遍性使得 基于文本文档的信息隐藏方法极具研究价值。鉴于此,本文就基于文本文档的 信息隐藏技术做了相关研究。 本文首先介绍了信息隐藏技术的基本理论,然后分析了文本文档信息隐藏 技术,并结合目前提出的几种基于文本文档的信息隐藏方法,对每类算法进行 了分析与比较。 在以上工作的基础上,本论文对两种基于文本文档的信息隐藏算法进行了 改进和算法实现。其中,第一种是基于文字颜色值的信息隐藏算法存在信息隐 藏量小、执行时间效率低的基础上,采用修改文字下划线颜色值的方法改进了 该算法,进而提高了信息隐藏量。第二种是在基于字归类和节归类信息隐藏算 法的思想基础上,对该信息隐藏算法进行了两个方面的改进,一是信息隐藏算 法实现方式的改进,并通过实验验证了此改进算法的有效性、鲁棒性和安全性; 二是针对信息隐藏算法隐藏量小的缺点进行了算法性能的改进,增大了其隐藏 容量。对于本文改进的这几种算法,都进行了编程实现,而且对实验结果进行 了详细比较和分析。同时,实验结果表明,本论文改进后的算法具有信息隐藏 量大、隐蔽性高,且有一定的鲁棒性。 关键词:信息隐藏;文本文档信息隐藏;信息隐藏量;隐蔽性;鲁棒性 西南交通大学硕士研究生学位论文 第l l 页 a bs t r a c t w i t hd r a m a t i ca d v a n c eo fi n t e r n e ta n dw i d ea p p l i c a t i o no ft h em u l t i m e d i a t e c h n o l o g y ,i n f o r m a t i o n h i d i n gt e c h n i q u e sh a y eb e c o m ean e w h o tt o p i ci nt h e d o m a i no ft h ei n f o r m a t i o ns e c u r i t y t o d a y ,l o t so fp e o p l e so r i g i n a l i t yc a n b es a v e d a n dt r a n s f e r r e db yt h ew a yo ft e x td o c u m e n t i tb e c o m e sa ni m p o r t a n tw a yo f i n f o r m a t i o nt r a n s f e r s i t su n i v e r s a l i t ym a k e st h er e s e a r c ho fd a t ah i d i n g i nt e x t d o c u m e n t sv e r yv a l u a b l e s i n c et h i s , d e t a i li nt h i sp a p e r t h et e x th i d i n gt e c h n i q u e sa r ed i s c u s s e di n i nt h et h e s i s 。f i r s t l yw ei n t r o d u c et h eb a s i ct h e o r i e so fi n f o r m a t i o nh i d i n g t e c h n o l o g i c s t h e nw ea n a l y z et h ei n f o r m a t i o nh i d i n gt e c h n i q u e s b a s e do nt e x t d o c u m e n ti nd e t a i l ,a n dg i v eas u r v e yo ft o d a y sp o p u l a ra l g o r i t h m s o ft e x t d o c u m e n ti n f o r m a t i o nh i d i n ga n dt h e i ra d v a n t a g e sa n ds h o r t c o m i n g s b a s e do nt h ea b o v ew o r k ,t h i st h e s i si m p r o v e s t w oi n f o r m a t i o nh i d i n g a l g o r i t h m sb a s e do nt e x td o c u m e n t sa n di m p l e m e n t st h e s et w oa l g o r i t h m s t h e f i r s to n ei su n d e r l i n ec o l o ri n f o r m a t i o nh i d i n ga l g o r i t h mw h i c h i san e wi m p r o v e d a i g o r i t h mt h a ti sp r o p o s e db yt h et e x t c o l o ri n f o r m a t i o nh i d i n ga l g o r i t h mh a sa s m a l la m o u n to fi n f o r m a t i o nh i d i n ga n de x e c u t i o n t i m eo ft h el o we f f i c i e n c y ,a n d t h ei m p i o v e da l g o r i t h mi m p r o v e st h ea m o u n to f i n f o r m a t i o nh i d i n g t h es e c o n di s t w oi m p r o v e m e n t so ft h et e x td o c u m e n ti n f o r m a t i o nh i d i n ga l g o r i t h mi nt e r m so f w o r dc l a s s i f i c a t i o na n ds e g m e n tc l a s s i f i c a t i o n o n ew a yi s t h ei m p r o v e m e n to f i n f o r m a t i o nh i d i n ga l g o r i t h ma p p r o a c h ,a n dt h ee x p e r i m e n t st e s t a n dv e r i f yt h e e f f e c t i v e n e s sa n dr o b u s t n e s so ft h ei m p r o v e da l g o r i t h m ;t h e s e c o n dw a yi st h e i m p r o v e m e n t o fa l g o r i t h m sp e r f o r m a n c e ,b e c a u s e t h ei n f o r m a t i o nh i d i n g a l g o r i t h mh a sas m a l la m o u n to fi n f o r m a t i o nh i d i n g ,a n dt h ei m p r o v e da l g o r i t h m i m p r o v e st h ea m o u n to fi n f o r m a t i o nh i d i n g t h i s t h e s i sp r o g r a m sa n dr e a l i z e s s e v e r a li m p r o v e da l g o r i t h m s ,a n dt h ee x p e r i m e n t a l r e s u l t sa r ec o m p a r e da n d a n a l y z e di nd e t a i l a tt h es a m et i m e ,t h er e s u l t ss h o w t h a tt h ei m p r o v e da l g o r i t h m s h a v eal a r g eh i d d e ni n f o r m a t i o nc a p a c i t y h i g hc o n c e a l m e n ta n dac e r t a i nd e g r e eo f r o b u s t n e s s k e yw o r d s :i n f o r m a t i o nh i d i n g ;t e x td o c u m e n t i n f o r m a t i o nh i d i n g ;i n f o r m a t i o n h i d i n gc a p a c i t y ;i m p e r c e p t i b i l i t y ;r o b u s t n e s s 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密d ,使用本授权书。 ( 请在以上方框内打“、”) 学位论文作者签名:刮女3 1 日期: 知f o 彳f 5 7 特刻醛名夕孑久 一, 7 z、1 日期:乙一口夕j ,一_ 西南交通大学硕士学位论文主要工作( 贡献) 声明 本人在学位论文中所做的主要工作或贡献如下: 1 、针对基于文字颜色值的信息隐藏算法存在信息隐藏量小、时间效率低 等性能的不足,改进了该算法。介绍了改进算法的嵌入过程和提取过程;分析 了改进算法的性能和程序实现流程;编程实现和分析了改进算法;总结了改进 算法的性能。 2 、在分析和研究了基于字归类和节归类信息隐藏算法思想的基础上,本 论文通过对字归类和节归类后,采用修改字符间距的变换方式来实现了字归类 和节归类信息隐藏算法。同时通过实验,验证了此信息隐藏算法的有效性和鲁 棒性。 3 、针对基于字归类和节归类隐藏算法存在信息隐藏容量小的缺点,本文 改进了此算法,提高了信息的隐藏容量。本文编程实现了改进算法,并通过实 验,以及详细比较和分析了改进前后两种算法的实验结果。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所 得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本 人承担。 学位论文作者签名: 刮女戋 日期: 矽f o 、6 1 5 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 1 1 课题研究目的与意义 随着信息时代的到来,特别是互联网技术的普及,信息的安全保护问题日 益突出。目前的信息安全技术基本上都是基于密码学理论的,无论是采用传统 的密钥系统( 如d e s ) 还是公钥系统( 如r s a ) ,其保护方式都是控制文件的 存取,即将文件加密成密文,使非法用户不能解读。但是,随着计算机能力的 不断提高,这种通过增加密钥长度来提高系统安全性的方法越来越不可靠,而 且密文容易引起攻击者注意。因此具有伪装特点的新兴的信息安全技术一一信 息隐藏( i n f o r m a t i o nh i d i n g ) 应运而生,并成为隐藏通信和版权保护的有效手 段,迅速成为国际上的研究热点i 1 】。 ( 1 ) 研究目的 目前,就信息隐藏技术而言,利用图像、声音和视频载体的研究较广泛和 深入,而基于文本方面的研究比较少。由于文本文件【2 】是直接对文字数据进行 编码,因而不存在数据冗余,就不可能通过修改文件的有效数据来进行信息隐 藏。而事实上,大多数的创意都是以文本的方式存储和传输,文本作为信息传 递的一种手段,其应用大大地超过了图像、视频和音频的范围,再加上文本数 字水印对互联网时代的政府办公和电子商务具有非常重要的作用。所以,文本 信息隐藏是一个极具潜力的研究方向。 ( 2 ) 理论与实际意义 从当前发表的大量研究论文来看,研究最多与最深入的是在图像载体中隐 藏信息和嵌入数字水印,一方面是因为图像处理的直观性,另一方面是因为图 像中存在大量的冗余信息【3 】。但是,对于文本文档载体就不同了,因为文本文 档载体中几乎不存在冗余信息,倘若文本文档的一个比特发生变换,文本文档 就会发生错误,因此在文本文档载体中进行信息隐藏的难度非常大。但是,由 于当前在网络上传输的绝大部分信息仍是文本信息,且文本信息隐藏具有一定 的难度,所以隐藏了密文的文本载体往往不容易受到怀疑,具有十分好的安全 性。因此,基于文本文档的信息隐藏具有十分重要的理论与现实意义。 1 2 国内外研究现状 信息隐藏是信息安全领域一个新兴的也是非常重要的研究领域。自从2 0 西南交通大学硕士研究生学位论文第2 页 世纪9 0 年代世界各国开始研究数字媒体信息隐藏技术以来,已有相当数量的 研究成果问世。在隐藏技术方面,由于图像、声音等数字载体自身具有一定的 数据冗余度、隐藏容量大等特点,目前的研究也主要是利用图像、声音等载体 来进行隐藏。不过,近年来人们也着手研究秘密信息在文字数据( 如文本、超 文本等1 中的隐藏。 在基于文本的隐藏方面,国外的研究开始得较早,开发出并公开了一些商 用软件。而国内在这方面的研究起步较晚。不过,不管是从国内还是国外来说, 纵观目前所公开的利用文本进行信息隐藏的研究成果很多。如文献【5 】中提出了 利用字体信息隐藏的算法。文献【1 2 】中总结了在目前发表的论文中关于文本隐藏 的一些方法,它们主要是利用文本字符的字间距、行间距、标点符号等位置隐 藏几个比特的信息,而这些信息当对文本进行文字编辑,或者重新读取并存盘 后,就会消失。另外此文献中还提到了一种方法,称为自由上下文语法,它是 用一些常用的主、谓、宾单词根据要隐藏的比特进行组合,组合出一些具有正 常含义的句子。文献【l3 】中提出将不具有冗余度的文本信号经过变换后,得到具 有冗余度的信号,再在冗余空间中进行文本的伪装。文献【2 。7 】中提出了利用标点 信息隐藏的算法。文献1 5 l 】中提出了一种根据字符间距的变化实现w o r d 文档中 信息隐藏的方法,该方法结合字移位编码技术在w 0 r d 文档中利用v b a 编程 语言实现了信息的隐藏和提取。文献”2 】中提出了一种新的文本数字水印嵌入及 检测算法。该方法根据特征编码思想,针对w o r d 文档格式特点,通过改变文 档中某些字的大小以嵌入和检测水印。文献1 2 5 】中提出了一种基于字体颜色的文 本数字水印算法。该算法根据人眼对蓝色最不敏感的特性,针对w o r d 文档格 式特点,通过修改文本字符的蓝色成分使其嵌入水印信息和检测水印。目前基 于文本信息隐藏技术还不是很完善,要使该隐藏技术走向实用,还需要进行更 深入的研究,寻求更安全有效的隐藏方法。 1 3 本文的研究内容 信息隐藏技术对网络系统的安全性具有重要意义,而信息隐藏技术是一种 新兴的信息安全解决方案,国内外学者对它的研究正方兴未艾。本文对基于文 本文档的信息隐藏方法进行了研究,主要包括以下几个方面: ( 1 ) 介绍了信息隐藏技术的基本理论;分析了国内外信息隐藏技术的发 展现状:研究了几种文本文档信息隐藏方法,并对这几种信息隐藏方法进行了 详细的分析和比较。 ( 2 ) 针对文字颜色值的信息隐藏算法存在信息隐藏量小、时间效率低等 西南交通大学硕士研究生学位论文第3 页 性能的不足,采用修改文字下划线颜色值的方法改进了此算法,实验结果表明 改进算法提高了信息隐藏量。 ( 3 ) 在字归类和节归类信息隐藏算法的思想基础上,本文通过对字归类 和节归类后,采用修改字符间距的变换方式来实现了字归类和节归类信息隐藏 算法。同时通过实验,验证了此信息隐藏算法的有效性、鲁棒性和安全性。 ( 4 ) 针对字归类和节归类隐藏算法存在信息隐藏容量小的缺点,稍微改 进了此算法,提高了信息的隐藏容量;编程实现了改进算法;通过实验,详细 比较和分析了改进前后两种算法的实验结果。 ( 5 ) 根据本文所做的研究,总结了本论文的工作及对信息隐藏算法的一 些实验和结论,并对改进后的字归类和节归类信息隐藏算法的未来研究提出了 展望。 1 4 本文的组织结构 第一章绪论,阐述了信息隐藏技术的研究目的和意义,以及国内外研究 现状;概括了本论文的主要研究工作和组织结构。 第二章信息隐藏的相关理论与技术,简要介绍了信息隐藏的相关理论知 识;分析了国内外信息隐藏技术的发展现状;研究了几种文本文档信息隐藏方 法,并对这几种信息隐藏方法进行了详细的分析和比较。 第三章基于文字颜色值的信息隐藏算法的研究,简要介绍了国际上现有 的几种基于文字颜色值的信息隐藏算法思想,并对这几种算法进行了分析,总 结了此算法存在的性能;详细介绍了改进算法的算法思想、嵌入过程和提取过 程:分析了改进算法的性能和程序实现流程;编程实现了改进算法;测试比较 了改进前后两种算法;总结了改进算法的性能。 第四章基于字归类和节归类的信息隐藏算法研究,在字归类和节归类信 息隐藏算法的思想基础上,对此信息隐藏算法进行了两个方面的改进,一是信 息隐藏算法实现方式的改进,二是针对字归类和节归类信息隐藏算法隐藏量小 的缺点进行的算法性能改进。编程实现了两种改进算法,通过实验验证了第一 种改进算法的有效性、鲁棒性和安全性,及第二种改进算法信息隐藏量高的性 能;并且对第二种改进算法和原始算法的实验结果作了详细的比较和分析。 总结与展望,先对本文的工作进行总结,然后对将来进一步的研究工作进 行了展望。 最后是参考文献、致谢及攻读硕士学位期间发表的论文。 西南交通大学研究生学位论文第4 页 第2 章信息隐藏的相关理论与技术 2 1 信息隐藏的相关理论 2 1 1 信息隐藏的基本概念和原理 1 、信息隐藏的定义 信息隐藏f 7 】是指把机密信息隐藏在另一非机密的可公开的信息载体中,然 后通过公开信息的传输来传递机密信息,从而达到信息安全传输的目的。 2 、信息隐藏的原理 信息隐藏的原理【8 】如图2 1 所示。 宿 听视觉特征 隐藏信息 图2 1 信息隐藏的基本原理 掩密信号 对于一定尺寸和频率特性的宿主信号,在满足不可感知的前提下,允许隐 藏的信号总功率是一定的。隐藏信号宿主信号特征分析和听视觉过滤器的作用 在于引入了听视觉系统特征,以合理地分配隐藏信号分量的布局能量,从而尽 可能提高稳健性和信息隐藏容量性能。最终嵌入宿主信号的数据是处理后的隐 藏信号和宿主信号特征的合成。 2 1 2 信息隐藏的特征与分类 l 、信息隐藏的特征 信息隐藏虽有不同的分支,但各个分支具有许多共同的特征。这些基本特 征主要包括如下几点9 1 。 西南交通大学研究生学位论文第5 页 ( 1 ) 不可感知性( i m p e r c e p t i b i l i t y ) 或透明性( i n v i s i b i l i t y ) 。是指人类视 觉或听觉上的不可感知性。若在信息嵌入过程中使载体引入了人为痕迹,给多 媒体载体的质量带来了可视性或可听性的下降,就会减少已嵌入信息的多媒体 载体的价值,破坏信息隐藏系统的安全性。 ( 2 ) 鲁棒性( r o b u s t n e s s ) 或稳健性。是指隐藏载体的媒体信号经过一些 常用的改变后,仍具有较好的可检测性。这些改变包括常见信息处理( 如:数 据压缩、低通滤波、图像增强、二次抽样、二次量化、a d 和d a 转换等) 、 几何变换和几何失真( 如:裁剪、尺度拉伸、平移、旋转、扭曲等) 、噪声干 扰、多重水印的重叠等。在经过这些改变后,稳健的水印算法应该仍能从载体 中提取出嵌入的秘密信息。 ( 3 ) 嵌入容量和强度。是指载体中隐藏信息的数据量。在保证不可感知 性和载体一定的前提下,要尽量在载体中传送更多的信息。另外,希望嵌入信 息的强度较高,这可增强信息隐藏系统的鲁棒性,但会减弱信息隐藏的不可感 知性和安全性,所以要均衡考虑这些问题。 ( 4 ) 密钥安全性。与信息加密技术一样,信息隐藏技术也是把对信息的 保护转化为对密钥的保护。 ( 5 ) 自恢复性。隐藏有信息的信号在传输过程中,由于经过一些操作或 变换后,可能会对隐藏载体产生较大的破坏,如果只从留下的片段数据中,仍 能恢复隐藏信号,且恢复过程不需要宿主信号,这就是自恢复性。 2 、信息隐藏的分类 信息隐藏技术是一种新兴的知识领域,尽管现还处在发展研究阶段,但根 据隐藏技术的应用不同,可以分为不同的类别1 7 j 。 ( 1 ) 按保护对象分类 主要分为隐匿技术和版权标记技术。隐匿技术主要用于保密通信,它所要 保护的是秘密信息本身,而版权标志技术主要用于保护隐秘载体。 ( 2 ) 按密钥分类 主要分为无密钥隐藏和有密钥隐藏两大类。在无密钥隐藏信息过程中,秘 密信息在嵌入到隐秘载体之前不做任何加密处理,同时信息嵌入过程也无密钥 控制,因而秘密信息的安全性没有保障。有密钥隐藏根据密钥体制的不同可以 分为对称密钥隐藏、非对称密钥隐藏和公钥隐藏。若秘密信息的嵌入和提取采 用相同密钥,则称其为对称密钥隐藏,反之为非对称密钥隐藏。若秘密信息的 嵌入和提取分别采用公钥体制,则称其为公钥隐藏。 ( 3 ) 按载体类型分类 主要包括基于文本、图像、音频、视频、超文本、网络层、图形等媒体的 西南交通大学研究生学位论文第6 页 信息隐藏技术。 ( 4 ) 按嵌入域分类 主要分为空域方法和变换域方法。空域替换方法是直接用待隐藏的信息替 换载体信息中的冗余部分。交换域信息隐藏技术又可以分为d f c 域、d c t 域、 小波域等。 ( 5 ) 按提取要求分类 主要分为盲隐藏和非盲隐藏,若在提取隐藏信息时不需要利用原始数据, 称为盲隐藏,否则称为非盲隐藏。 总而言之,信息隐藏技术包含的内容非常广泛,可作如图2 2 分类。 信息隐藏 隐秘信道 隐秘术 匿名 版权标记 厂- 厂_ 语言上的隐 技术上的隐 秘术 秘术 数 稳健的版脆弱的版权 权标记标记 卜 可见水印不可见水印 图2 - 2 信息隐藏技术分类 2 2 国内外信息隐藏技术发展现状分析 2 2 1 国外发展现状 国际上,2 0 世纪9 0 年代早期,信息隐藏的应用引起不同研究团体的关注 和重视。第一篇关于图像数字水印的文章发表于19 9 4 年,1 9 9 6 年5 月在英国 剑桥召开了第一届国际信息隐藏学术研讨会标志着信息隐藏作为一门新的学 科的诞生。19 9 8 年在波兰、19 9 9 年在德国、2 0 0 1 年在美国、2 0 0 2 年在荷兰、 2 0 0 4 年在加拿大又先后召开了5 届信息隐藏学术研讨会。目前国外研究信息 隐藏的学术机构有美国的麻省理工学院的多媒体实验室、i b m 研究中心、普尔 顿大学、瑞士洛桑联邦工技院、美国的n e c 研究所等一些大学和一些机构, 并推出了一些数字水印软件产品,如h i g h w a t e r f b i ,d i g i m a r cc o r p o r a t i o n , c o r p o r a t i o n ,f r a u n h o f e r ss y s c o p 。 经过多年的努力,信息隐藏技术的研究已经取得了很大进展,现在国际上 西南交通大学研究生学位论文第7 页 先进的信息隐藏技术已能做到:使隐藏有其它信息的公开信息不但能经受人的 感觉检测和仪器设备的检测,而且还能抵抗各种人为的蓄意攻击。但总的来说, 信息隐藏技术尚未发展到完善的可实用的阶段,仍有不少技术性的问题需要解 决。信息隐藏技术的理论体系还有待于完善。目前,使用密码加密仍是网络上 主要的信息安全传输手段,信息隐藏技术在理论研究、技术成熟度和实用性方 面都无法与之相比,但是它潜在的价值是无可估量的,可以说是根本无法被取 代的,相信其必将在未来的信息安全体系中发挥重要作用。 2 2 2 国内发展现状 国内在信息隐藏方面的研究起步稍晚,但已经引起了信息安全领域研究人 员的普遍重视,并于19 9 9 年12 月召开了第一届信息隐藏学术研讨会,会议决定 研讨会每年召开一次,以促进国内信息隐藏技术的研究工作。第二届信息隐藏 学术研讨会2 0 0 0 年6 月在北京召开,会议发表了论文集。第三届信息隐藏学术 研讨会2 0 0 1 年9 月在西安举行。2 0 0 2 年8 月,第四届全国信息隐藏研讨会( c i h w ) 召开。第八届全国信息隐藏学术研讨会于2 0 0 9 年3 月在湖南大学( 长沙) 举行【1 5 】。 数字水印的研究人员也于2 0 0 0 年1 月召开了国内第一届数字水印技术研讨会, 并建立了数字水印研究主页和邮件列表,对国内信息隐藏研究工作的交流起到 了很好的促进作用。c h i w 现已成为国内最具有代表性的信息隐藏学术交流活 动。国内的学术期刊上相关文章的数量从2 0 0 0 年开始迅速增加。 2 2 3 信息隐藏技术的应用 对应于信息隐藏广泛的研究领域,信息隐藏技术已经在人类生活的许多方 面得到了相当广泛的应用。目前数字水印技术的主要应用方面【1 0 】f 1 1 】【1 2 1 有:版 权保护、防止非法复制、违反者追踪、身份认证、电子商务中的网页保护和票 据防伪、印刷品防伪等。 2 3 基于文本文档的信息隐藏技术分析 文本文档【l6 】是指文字信息的数字化表示形成的电子文件。其主要包括两大 类:种是以a s c i i 码表示内容并包含格式的文栲格式文件,如纯文本( 奉t x t ) 、 w o r d 文档( d o e ) 、r t f 格式( 宰r t f ) 、w e b 页面( 宰h t m 或奉h t m l ) 、p d f 格式 ( 宰p d f ) 等,其中汉字用双字节表示;另一种是以像素点阵的方式来描述内容 的文档图像表示文件。文本文档信息隐藏1 1 7 】是指以一定的方式对文本文档的内 容与格式等进行修改,进而嵌入所需要的信息,但不易被察觉。所以,文本文 西南交通大学研究生学位论文第8 页 档信息隐藏具有隐藏性好、不易被感知的特征。 2 3 1 基于语义的文本隐藏算法 基于语义的文本隐藏算法的原理:在将一段正常的语言文字修改为另一段 正常的语言文字的过程中把机密信息隐藏进去。例如,b e n d e r 等人提出的对文 本特定单词进行同义词替换的方法【2 2 】就是基于语义的文本隐藏。通常英文或 中文文本中的许多单词或词组都有意义相近的同义词,而且这些单词或词组同 义词替换后意思表达几乎一样。如用“b i g ”替换“l a r g e ”、“s m a r t 替换“c l e v e r ”、 “c h i l l y ”替换“c o o l ”、“通信”替换“通讯 、“老师 替换“教师 等,把文 本中这些特定的单词或词组挑选出来构成一个同义词组替换表。需替换的单词 用“0 ”表示,无需替换的单词用“1 表示。提取信息时需要同义词替换表作 为参考,这样就可以在文本中隐藏秘密信息。 2 3 2 基于语法的文本隐藏算法 基于语法的文本隐藏算法的原理是将要隐藏的信息按照某种规则替换成 一些自然语言。其算法描述【2 3 】:假设要隐藏的密文为c ,规则为r ,隐藏后的 句子集合为t ,则有r :c _ 丁。其中规则r 由词汇字典d 与句子风格s 来决 定,d 由常见的地词、人词、动词、名词、副词和形容词等构成,如w h e r ei s t h et h i n gf o rt h ea d j e c t i v et h i n g ,d 中的成员根据s 中的不同类型组 成不同的句子,要隐藏的密文将通过r :c ( d ,s ) 一t 映射为多个句子。最简单的 隐藏规则是将密文按字节划分,字典d 取2 5 6 个词汇,每个字节的密文与字典 词汇形成单映射,每三个字节的密文形成一组,根据组与组的区别特征与风格 形成单映射,密文的还原过程则是其反过程。如 c : “0 11110 111 1110 0 0 0 10 0 1l0 1o ”,d :“0 11 11 0 11h p l a y ”、“l1l10 0 0 0h t r e e ,、 “l0 0 11 0 10 七,h o t l y ,s - “t h e x xr a r e l y x ”,贝l jt :“t h ep l a yt r e er a r e l y h o t l y ”。 2 3 3 附加空格编码法及标点符号法 l 、附加空格编码方法 附加空格编码方法主要有:句间空格编码、行尾空格编码和字间空格编码。 ( 1 ) 句间空格编码法是在某个特征符号后插入一个或者两个空格来表示所 要嵌入的信息。如:在英文诗歌的每行后或者语言源程序的每个分号后加入空 西南交通大学研究生学位论文第9 页 格。一个空格表示二进制的“0 9 99 两个空格表示“1 ”。 ( 2 ) 行尾空格编码法是在文章每一行的行尾插入空格。其中,每一行后有 几个空格是事先约定好的。比如每行后有2 个空格,编码为1 位;有4 个空格 为2 位;若有8 个空格为4 位,这时每2 行就可以隐藏8 位( 即1 个字节) 的 信息量。 ( 3 ) 字间空格编码法是在词与词之间插入空格进而嵌入秘密信息。为了区 别插入的空格与原有的空格,可使用类似于曼彻斯特编码的方法进行编码和解 码,即用0 1 表示“l ”,用l o 表示“0 ”,0 0 和1 1 表示空“n u l l9 9 0 比如“l0 0 0 1 0 1 10 1 表示“0 0 1 9 99 “1 1 0 0 11 ”表示“n u l l ”。 2 、标点符号法 许多情况下,标点符号是任意的或者标点符号的误用对理解文本的意思影 响不太大。比如短语“b r e a d ,b u t t e r ,a n dm i l k 与“b r e a d ,b u t t e ra n dm i l k ” 均可认为是正确的。这种方法中,形式的选择是任意的,并且形式之间的替换 可以代表任意的数据。但是,这种方法的使用有可能会被细心的读者发现其标 点符号的不一致性,而且标点符号的改变也有可能会影响文本的清晰度,所以 这种方法应当谨慎使用。 2 3 4 空间特征替换法 1 、行移位编码 行移位编码1 2 4 j 就是在文本的每一页中,每间隔一行轮流地嵌入水印信息。 但嵌入信息的行的相邻上下两行位置不动,作为参照,需嵌入信息的行根据水 印数据的比特流进行轻微的上移和下移。在移动过的一行中编码一个信息比 特,如果这一行上移,则编码为“1 ,如果这一行下移,则编码为“o ”。一般 来说,大部分的文档格式都有一个特点:一段内的各行的间距是均匀的。尽管 人眼以熟练于区分不均衡的情况,但由经验知道,当垂直位移量等于或小于 1 3 0 0 英寸时人眼将无法辨认。既然一个文本最初的行间距是均匀的,那么一 个被接收文档是否被做标记可以通过分析行间距来判断,而不需要任何有关这 个文档的原始情况。为了方便准确地提出水印信息,通常页面上第一行和最后 一行都不作为嵌入的行,对较短的行也不动,不作编码。行间距编码提取水印 信息可采用质心检测法,质心定义为水平轴上一行的中心。用a r + 表示移动行 与其上一个不动行的质心之间的距离,用r 表示移动行与其下一个不动行的 质心之间的距离,用从+ 与从表示原来未作修改文本文档中相应的质心距 离。由此可作如下判断,若 西南交通大学研究生学位论文第l 0 页 敞+ 一r 馘+ 一蚁 酞+ 七敞越。+ 议 则说明它与上一行的距离被增大,即这行被下移。若 欲+ 一欲赵+ 一赵 欲+ + 监赵+ + 赵 ( 2 1 ) ( 2 2 ) i t h i si sam e t h o do fa l t e r i n gad o c u m e n tb yv e r t i c a l l fs h i f t i n gt h el o c a t i o n so ft e x tj i l l n e st ou n l q u e l ye n c o d et h ed o c u m e n t t h i sm e t h o dp r o v i d e st h eh l g h t e s tr e l i a b i l i t yl l f o rd e t e c t i o no ft h ee m b e d d e dc o d ei nl m a g e sd e g r a d e db yn o i s e t od e m o n s t r a t et h a t i t h i st e c h n l c l u ei sn o tv i s b l et ot h ec a s u a lr e a d e r ,- eh a v ea p p l t e dl l n e - - s h i l t i 图2 - 3 垂直移动行距 2 、字移位编码 字移位编码【2 4 1 是通过将文本某一行中的一个单词进行水平移位。通常是在 编码过程中,将某一个单词左移或右移,而与其相邻的单词并不移动,不移动 的单词作为解码过程中的参考位置。编码实例如图2 4 所示。 a ) n o wist h eti m ef 0 1 a11m e n n o wist he ti m ef 0 1 a11m e n b ) 图2 - 4 水平移动字间距 图a ) 显示了第一行中单词“f o r 同前一个单词的间距被加大,第二行是 正常字间距的情况:b ) 是a ) 的复制,只是b ) 没有画垂直线,此图表明字间 距的变化不易引起人眼的感知。 - - n n e e m m 1 上 1 1 上 1 a a r r o o f f e e m m - 1 1 一 庀 庀 e e h h 庀 t s s 匝 匝 w w o o n n 西南交通大学研究生学位论文第1 1 页 由上例可知,字移位编码是通过改变指定的一行中的词块( 一个或多个 单词) 之问的水平距离( 间隔) 来嵌入信息。经过编码后,间隔的变化很小并 且是不均匀的,隐藏不易被察觉。 3 、特征编码 特征编码【2 4 】是通过改变文档中某个字符的某特殊特征来嵌入标记。即先 确定文本文档中哪些字符的特征需要改变,然后根据所定的规则“代码字”, 扫描全文中所有字符,若符合该规则的字符,则需要进行变换,若不符合该规 则的字符,则保留原来的特征不变。文本文档中字符可变化的特征很多,比如 英文文本文档中,改变字母b 、d 、h 、k 的垂直线,使其长度稍作修改但仍可 使得一般人不易发觉。如图2 5 中,图a ) 显示了未被编码的文本文档;图b ) 将特征编码应用到被选择的字符中。图c ) 放大了特征编码以显示文字的改变。 k sa n d1 一l r 祀r e r n e n t a lm 州| - _ - _ - _ i ;二_ - ;- _ _ - _ _ - _ _ - - _ _ _ _ _ - - - - - _ - _ _ i _ j o u _ _ - j o _ - _ _ _ - i - - - - - - 一u q “_ - _ _ _ - l - - - 一 l :sa n d1i n c r 洲a lm o d j l :五d q|l d e 哩m 鱼疆选l 嗵型i 图2 - 5 特征编码 2 3 5 几种文本文档信息隐藏算法的分析比较 1 、语义法 同义词替换法在提取秘密信息时需要同义词替换表作为参考,且文本中隐 藏的信息量与文本中同义词组出现的频率一致。因此,这种方法可隐藏的信息 隐藏量较小,而且可隐藏的信息量不固定。 在同义词替换法中,倘若修改了文本内容,运用到特定的语境下,文本意 义就会改变或是模棱两可。因此,该方法的鲁棒性弱。 2 、语法 由语法隐藏算法的描述可知,该算法的信息隐藏量不确定。 由于语法隐藏算法是建立在语义内容无关的语法体系上的,虽然每个句子 的语法结构都是正确的,但词汇间没有联系甚至是矛盾的,易于被人察觉。因 此,该算法的不可感知性差,鲁棒性弱。 3 、附加空格编码法及标点符号法 嵌入空格方法中嵌入的空格是任意的,即使读者可能没有注意到它已被操 西南交通大学研究生学位论文第1 2 页 纵,但词处理器可能会在不注意的情况下就已经改变了空格的数目,破坏了水 印。因此,该算法的鲁棒性弱。 4 、空间特征替换法 行移位编码在经过多次复制或对页面按某个伸缩因子进行多次缩放时,嵌 入的水印仍可被检测出来。因此,该编码具有很强的稳健性。 字移位编码在提取水印时,需要确定基准词块的准确位置。因此,字移位 编码比行移位编码处理过程复杂。它虽然比行移位编码能隐藏更多的比特,但 抗攻击能力较行移位编码弱。 2 4 本章小结 本章从信息隐藏技术的定义、产生和发展入手,概述了信息隐藏技术的分 类、基本特征;讨论了信息隐藏的原理和技术应用;介绍了文本文档的概念、 分类和特征;研究了几种文本文档信息隐藏方法,并对这几种信息隐藏方法进 行了详细的分析和比较。 西南交通大学研究生学位论文第1 3 页 第3 章基于文字颜色值的信息隐藏 算法研究 3 1 基于文字颜色值的信息隐藏算法分析 1 、算法的提出 国内外基于文本的信息隐藏算法有很多,但基于文字颜色值的信息隐藏算 法主要有以下几种方式。第一种是刘豪等人提出的通过修改文本字符的蓝色成 分使其嵌入隐密信息的方法1 2 s 1 ,第二种是唐承亮等人提出的基于文字r g b 颜色 变化的脆弱型文本数字水印技术方案1 26 1 ,第三种是巩晓婷等人提出的基于文 字颜色值的信息隐藏算法1 3 8 i 。 2 、算法的设计思想 第一种隐藏方式的思想是通过修改文本中字符的蓝色成分来嵌入秘密信 息。第二种隐藏方式的思想是通过修改文本中字符r g b 颜色变化来嵌入秘密 信息。第三种隐藏方式的思想是通过置换文本中字符r g b 颜色值中r 、g 、b 的低4 位值来嵌入秘密信息。 通过分析上述几种基于文字颜色值的信息隐藏算法,本文总结了其算法的 设计思想:根据w o r d 文本文档的特点和人类的视觉特征,通过轻微改变字符 r o b 颜色值中r 、g 、b 的值来嵌入信息。即这种信息隐藏算法是对需要嵌入 秘密信息的载体文本文档字符,置换字符r g b 颜色值中r 、g 、b 的值,进而 实现每个载体文本文档的字符可隐藏二进制数。 3 、几种基于文字颜色值信息隐藏算法的性能分析 ( 1 ) 隐藏容量:由于修改文本字符的蓝色成分隐藏信息比修改文本字符 的红、绿、蓝三种成分隐藏信息的置换位数少。所以,第二种和第三种颜色值 替换法比第一种颜色值替换法的隐藏量多。 ( 2 ) 时间效率:这几种算法的隐藏时间和提取时间比较长,且隐藏后的 文本文档与原文本文档的相似度有点低。因此,缩短隐藏时间和提取时间,以 及提高隐藏后文本文档与原文本文档的相似度,是基于文字颜色值信息隐藏算 法应该解决的关键问题。 ( 3 ) 鲁棒性:如果修改当前已隐藏了秘密信息的文本文档载体的格式, 则秘密信息就有可能完全被破坏,且无法再恢复原样。所以,基于文字颜色值 信息隐藏算法的鲁棒性较弱。 西南交通大学研究生学位论文第1 4 页 ( 4 ) 安全性:在现有几种基于文字颜色值的信息隐藏算法中,既没有对 载体文本文档的内容本身进行加密操作,也没有对需要隐藏的秘密信息进行加 密。因此,基于文字颜色值信息隐藏算法的安全性较差。 ( 5 ) 隐藏性:该算法的信息隐藏与字符r g b 颜色值中r 、g 、b 值置换 位数的选取有关,若选取置换低3 位,则字符颜色变化小,隐藏性高;若选取 置换低5 位,则字符颜色变换大,隐藏性低。若置换低4 位,人的视觉在感觉 上不是很明显,信息隐藏容量适中。因此,基于文字颜色值信息隐藏算法的隐 藏性较好。 通过以上的算法性能分析与实验结果,可以得出如下结论:基于文字颜色 值的信息隐藏算法存在信息隐藏量小、时间效率低、鲁棒性弱、安全性差等缺 点。 3 2 一种改进的信息隐藏算法 本文结合w o r d 文档中存在文字下划线的情况,对基于文字颜色值的信息 隐藏算法进行了改进,提出了一种基于文字下划线颜色值的信息隐藏秘密方 法。 3 2 1 改进算法的设计思想 本文在研究中发现,绝大多数的w o r d 文本文档中,字符有下划线的情况 是极少的。也就说明,字符下划线r g b 颜色值是冗余信息。倘若通过改变字 符下划线的r g b 颜色值来进行信息隐藏,则可以进一步提高信息的隐藏容量。 其中每个载体文本文档中的字符可实现2 4 位二进制数的隐藏,其w o r d 文本文 档中文字下划线r g b 值的长整型数据结构如图3 1 写a 部分所示。在已嵌入 秘密信息的文本文档中,下划线的可见性仍设置为“无 ,嵌入密文信息后的 文本文档视觉上和原文本文档是完全一样的,所以更不容易被察觉。 算法思想是:信息发送方将信息秘密地传递给接收方,首先通过加密模块 对隐藏信息进行加密,然后将秘密信息通过隐藏模块嵌入到一个公开的载体信 息中,形成一个伪装信息。接着将伪装信息通过公开信道传递给接收方,接收 方通过信息提取模块将隐藏在伪装信息中的秘密信息提取出来,最后通过调用 解密模块将秘密信息还原。 西南交通大学研究生学位论文第15 页 保留 r 值0 - - 2 5 5 g 值0 2 5 5b 9 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论