




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)文本自动比对研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
y 1 御嬲 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。本论文除了文中特别加以标注和致谢的内容外,不包含其他人或其他 机构已经发表或撰写过的研究成果,也不包含为获得南京信息工程大学或其他 教育机构的学位或证书而使用过的材料。其他同志对本研究所做的贡献均已在 论文中作了声明并表示谢意。 学位论文作者签名:zi 龙金 签字日期:塑丛笙主日红鲎 关于论文使用授权的说明 南京信息工程大学、国家图书馆、中国学术期刊( 光盘版) 杂志社、中国科 学技术信息研究所的中国学位论文全文数据库有权保留本人所送交学位论 文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文,并通 过网络向社会提供信息服务。本人电子文档的内容和纸质论文的内容相一致。 除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权南京信息工程大学研究 生院办理。 公开 口保密( 一 年月) ( 保密的学位论文在解密后应遵守此 协议) 学位论文作者签名:至叠垒叁 签字日期:堑l f 垒日三 丑 指导教师签名: 互联网与计算机技术的迅速发展,各种资源呈爆炸式增长,共享程度越来越高,给工 作和生活带来极大的便利,成为人们传递和交流信息的重要平台。但是与此同时,造成了 网页重复率高、知识产权侵占以及信息的泄密等问题。如何快速、准确的检测出相似内容 已成为我们研究的焦点。另一方面,文本相似度比较作为自然语言处理的重要基础与内容, 被广泛用于文本分类、聚类、信息检索、文本复制检测等领域,一直受到众多学者的普遍 关注与研究,因此,文本相似度比较是解决这些问题有效的方法之一,在理论和实际应用 中都具有重要的意义。 本文围绕以上问题,进行了深入的研究与实践。论文主要工作包括: 首先,将文本相似度比较技术首次引入到涉密文本的泄密检测中,为目前涉密文本的 泄密检测仍然停留在人工检测的基础上增加了一种有效的方法与途径。主要工作有:一是 提出了一种基于自然语言处理的文本泄密自动检测技术。该方法以基于v s m 的相似度比 较模型为基础,结合中文分词、文本加密、w e b 信息抽取等其它自然语言处理技术,旨在 不泄密的前提下,通过不可逆加密算法,利用w e b 信息抽取技术,对密文进行相似度比较, 检测特定网站是否存在涉密文本以及泄密的程度。二是对于特定网站内容的获取研究,结 合视觉分块的w e b 信息抽取优点,提出一种基于正则表达式的深层次网页文本抽取方法, 以此作为比较的数据源。 其次,将目前文本相似度检测技术与其他自然语言处理技术相结合,实现了基于自然 语言处理的文本相似度检测系统。该系统实现了篇章、段落到语句的多层次检测;拓宽了 比较方式,功能上涵盖了普通文本与涉密文本的检测;数据源包括本地文本和互联网文本 信息:相似部分能自动定位标注。 本文的主要特色与创新之处: l 、将文本相似度比较技术首次引入到涉密文本的泄密检测中。有效的解决目前泄密检 测仍采用人工检测方式的问题,并且保证涉密文本的安全性。 2 、设计并实现了基于自然语言处理的文本相似度检测系统。该系统具有多层次、多数 据源、多比较方式、多功能以及多线程计算的特点。 关键词:自然语言处理,相似度比较,文本泄密,w e b 信息抽取 a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e r n e ta n dc o m p u t e rt e c h n o l o g y , v a r i e t i e so fr e s o u r c e se m e r g e e v e r yd a y , t h ed e g r e eo fi n f o r m a t i o ns h a r i n gi sh i g h e ra n dh i g h e r , w h i c hg r e a t l ys i m p l i f i e s p e o p l e sw o r ka n dd a i l yl i f e b u ta tt h es a m et i m e ,i tc a u s e ss o m ei s s u e s :h i 【g hr a t eo fw e bp a g e r e p e t i t i o n , e n c r o a c h m e n to fi n t e l l e c t u a lp r o p e r t y , i n f o r m a t i o nd i v u l g e n c ea n dt h el i k e t h ea b i l i t y t od e t e c tt h es i m i l a rc o n t e n t sq u i c k l ya n da c c u r a t e l yb e c a m eo u rc o n c e r n o nt h eo t h e rh a n d ,t e x t s i m i l a r i t yc o m p a r i s o nw h i c hi st h eb a s eo fn a t u r a ll a n g u a g ep r o c e s s i n g , i sw i d e l yu s e di ns u c h a r e aa st e x tc l a s s i f i c a t i o n ,c l u s t e r i n g ,i n f o r m a t i o nr e t r i e v a l ,t e x tc o p yd e t e c t i o na n ds oo n , a t t r a c t i n gm a n ys c h o l a r s c o n c e r n a sar e s u l lt e x ts i m i l a r i t yc o m p a r i s o ni so n eo ft h ee f f e c t i v e w a y st os o l v et h e s ep r o b l e m sb o t l li nt h e o r ya n dp r a c t i c e i nt h i sd i s s e r t a t i o n ,t h er e s e a r c hf o c u s i n go nt h ea n s w e r i n gt ot h ea b o v eq u e s t i o n sa r ed e e p l y s u m m a r i z e da sf o l l o w s : f i r s t , t e x ts i m i l a r i t yt e c h n o l o g yi si n t r o d u c e dt od e t e c tt h ee n c r y p t e dt e x t ,p r o v i d i n gan e w e f f e c t i v em e t h o dt od e t e c te n c r y p t e di n s t e a do ft h ec u r r e n tm a n u a ld e t e c t t h em a i na c h i e v e m e n t i s :1 ) p r e s e n tat e x tb a s e do nn a t u r a ll a n g u a g ep r o c e s s i n g ,a u t o m a t i cl e a kd e t e c t i o nt e c h n o l o g y t h i sm e t h o di sb a s e do nv s m s i m i l a r i t ym e t h o dm o d e l ,c o m b i n e dw i t ht h ew o r ds e g m e n t a t i o n , t e x te n c r y p t i o n ,w e bi n f o r m a t i o ne x t r a c t i o na n do t h e rn a t u r a ll a n g u a g ep r o c e s s i n gt e c h n o l o g yt o n o n d i s c l o s u r eu n d e rt h ep r e m i s eo fa ni r r e v e r s i b l ee n c r y p t i o na l g o r i t h mt h r o u g ht h eu s eo fw e b i n f o r m a t i o ne x t r a c t i o nt e c h n o l o g y , c o m p a r i n gt h es i m i l a r i t yo ft h ec r y p t o g r a p ht od e t e c ta s p e c i f i cn e t w o r ks t a n dt h ee x i s t e n c eo fs e c r e tt e x t , a n dt h ee x t e n to fd i s c l o s u r e 2 ) t h er e s e a r c h o na c c e s s i n gt os p e c i f i cw e bc o n t e n t , i nc o m b i n a t i o nw i t hs u b - b l o c ko fv i s u a la d v a n t a g e so fw e b i n f o r m a t i o ne x t r a c t i o n ,p r e s e n t i n gad e e pi nw e bp a g e sa t t r a c t i n gm e t h o db a s e do nr e g u l a r e x p r e s s i o n sw h i c hb e c a m eo u rd a t as o u r c e s e c o n d , t h ec u r r e n tt e x ts i m i l a r i t yd e t e c t i o nt e c h n o l o g yi si nc o m b i n e dw i t ho t h e rn a t u r a l l a n g u a g ep r o c e s s i n gt e c h n o l o g y , a c h i e v i n gt h en a t u r a ll a n g u a g ep r o c e s s i n gb a s e do nt e x t s i m i l a r i t yd e t e c t i o ns y s t e m t h i ss y s t e mh a st h ec h a p t e ra n dv e r s et o t h es t a t e m e n to ft h e m u l t i - l e v e ld e t e c t i o n ;b r o a d e nt h ec o m p a r a t i v ea p p r o a c h , c o v e r i n gt h ep l a i nt e x tf u n c t i o na n dt h e d e t e c t i o no fs e c r e tt e x t ;d a t as o u r c e si n c l u d i n gt e x ta n de a c hl o c a li n t e m e tt e x ti n f o r m a t i o n ; s i m i l a rp a r t sc a nb ea u t o m a t i c a l l yp o s i t i o n i n gm a r k t h em a i nf e a t u r e sa n di n n o v a t i o n s :1 ) n et e x ts i m i l a r i t yc o m p a r i s o nt e c h n i q u ew a sf i r s t i n t r o d u c e dt ot h et e x tl e a k i n gc l a s s i f i e dd e t e c t i o nw h i c he f f e c t i v e l ys o l v e dt h em a n u a ld e t e c t i o n p r o b l e ma n de n s u r et h es e c u r i t yo fd o c u m e n t sw i ms e c r e t 2 ) d e s i g na n di m p l e m e n t a t i o no ft e x t i i f e a m m s k e y w o r d s :n a t u r a ll a n g u a g ep r o c e s s i n g , s i m i l a r i t yc o m p a r i s o n ,t e x tl e a k s ,w e bi n f o r m a t i o n e x t r a c t i o n i i i 目录 第一章绪论。l 1 1 文本相似度概述1 1 2 相似度国内外研究现状。2 1 2 1 国外研究现状2 1 2 2 国内研究现状。3 1 2 3 现有的原型系统一4 1 3 高度共享引发的问题。5 1 4 本文工作内容和组织结构6 1 4 1 本文工作内容。6 1 4 2 本文组织结构一6 1 5 本章小结7 第二章相关自然语言处理技术8 2 1 中文分词一8 2 2w e b 信息抽取9 2 3 文本加密1 0 2 3 1 加密的分类1 l 2 3 2 几种加密算法1 l 2 4 本章小结1 2 第三章涉密文本泄密自动检测技术研究1 3 3 1 问题提出1 3 3 2 模型与流程1 3 3 3 相关技术与算法1 4 3 3 1w e b 信息抽取技术。1 4 3 3 2 文本预处理1 6 3 3 3 相似度比较算法17 3 3 4 基于自然段落的相似度计算1 9 3 4 实验与分析2 0 3 5 本章小结2 5 第四章系统设计与实现一2 7 4 1 系统分析2 7 4 2 系统框架2 7 4 3 系统实现2 8 4 3 1 开发工具与运行环境2 8 4 3 2 系统主要模块2 9 4 3 3 系统界面2 9 4 4 实验与分析3 4 4 4 1 实验结果3 4 4 4 2 结果分析3 9 4 5 本章小结4 0 第五章总结与展望4 l 5 1 本文主要结论4 1 5 2 主要创新点4 l 5 3 展望4l 参考文献。4 3 致谢4 7 作者简介4 8 附录一缩写词表5 0 附录二本文对应图表51 能领域的一个重要方向,成为国内外很多学者研究的热点之一。在国内,中文信息处理作 为自然语言处理的一个分支,同样成为国内学者研究的重点。中文信息处理是- f 多学科 交叉性学科,它涉及到计算机科学、数学、信息论、语言学等。随着社会的发展以及科技 的进步,中文信息处理的应用涵盖了文本分类、聚类、信息检索、机器翻译等多个领域。 文本相似度比较是中文信息处理中一项基础而重要的内容,是信息检索、数据挖掘、 知识管理、机器翻译、文档复制检测、问答系统、网页去重等领域的基本问题。 另一方面,随着计算机技术和网络技术的飞速发展,特别是i n t e m e t 应用的普及,互联 网已经发展为当今世界上最大的信息库和全球范围内传播信息最主要的渠道,各种资源呈 爆炸式增长,共享程度越来越高,其中文本是最重要的信息载体。因此对互联网文本信息 处理的研究十分有必要。 1 1 文本相似度概述 对于文本相似度的定义有很多种,在语义学、信息论等领域都被广泛的讨论。2 0 0 1 年, d e k a n g l i n 和p a t r i c kp a n t e l 从信息论的角度给出一个非形式化的定义i l 】。a 与b 之间的相 似度一方面与它们的共性相关,共性越多,相似度越高;另一方面,与它们的区别相关, 区别越大,相似度越低;当a 与b 完全相同时,相似度达到最大值。 文本相似度比较研究是研究两文本间相似程度的度量方法,它是自然语言处理、信息 检索、文本复制检测、机器翻译等领域研究中比较重要的环节。文本相似度比较是指利用 计算机自动计算文本间的相似度【2 ,3 】。文本相似度表示的两个或多个文本之间匹配程度的一 个度量参数,相似度大,说明文本相似程度高,反之文本相似程度就低。文本相似度的精 确计算问题是进行信息处理的关键。目前人们已经提出众多的文本相似度计算方法,但是 最佳的文本相似度比较计算方法并不存在。相似度的比较对不同的应用有不同的要求,有 文本级、段落级、句子级、词语级和语素级等不同的级别,相似算法常常表现为相似度计 算的公式或者模型。 目前文本相似度计算的主要模型有:1 ) 基于布尔逻辑模型;2 ) 基于概率推理模型;3 ) 基于潜在语义分析模型:4 ) 基于向量空间模型。 南京信息工程大学硕士学位论文 表1 1 各个文本相似度数学表示模型比较 文本表示模型优点不足 信息表达不充分,语义表达不 布尔逻辑模型 实现简单 准确 概率推理模型考虑了文本间的相关性不确定因素多 语义表达准确,简化了特征向量 潜在语义分析模型对于大规模文本实现困难 空间 特征词高维稀疏,不能区分同 向量空间模型实用性很强,理论清晰成熟 义词 1 2 相似度国内外研究现状 1 2 1 国外研究现状 国外从2 0 世纪7 0 年代初,就开始有研究防止程序抄袭的软件,但直至1 9 9 1 年第一 个自然语言文本抄袭识别软件w o r d c h e e k 才诞生【4 】。现有的自然语言文本复制检测系统主 要采用的是基于字符串比较和词频统计两种方法【5 】。基于字符串比较的方法也称为基于语 法的方法,这类方法都要求从文档中选取一些字符串( 这些字符串被称为“指纹”) ,把指 纹映射到h a s h 表中,一个指纹对应一个数字。最后统计h a s h 表中相同的指纹数目或者比 率,作为文本相似度依据。词频统计法源于信息检索技术中的向量空间模型( v e c t o rs p a c e m o d e l ) ,该类方法首先都要统计每篇文档中各个单词的出现次数,然后根据单词频度构成 文档特征向量,最后采用点积、余弦或者类似方式度量两篇文档的特征向量,以此作为文 档相似度的依据。 m a n b e r 于1 9 9 4 年提出了用于大规模文件系统中相似文件查询的s i f ( 后来改名为s i f r ) 工具1 6 j 。1 9 9 5 年,b r i n 等人在研究斯坦福大学的“数字化图书馆”项目中,采用数字指纹 技术开发了c o p s ,用于识别文档的完全复制和部分复制。c o p s 是以句子作为文本块划分 的标志,因此它无法识别某一单词( s i n g l e - w o r d ) 的改变:为了减少噪音,c o p s 去除了指纹 集中的短单词和短句子:同时,c o p s 中一篇文档的指纹之间有重叠,也能提高精度,但 是显然增加了索引空剐5 。同年,s h i v a k u m a r 等采用相关频率模型( r e l a t i v ef r e q u e n c ym o d e l ) 开发了新的复制检测系统s c a m ,s c a m 早在那时就成功被用于期刊编辑部来检阅新稿是 否有抄袭l s 】。2 0 0 0 年,m o n o s t o f i 、z a s l a v s k y 等采用后缀树( s u f f i xt r e e ) 搜索字符串之间最大 子串的m d r ( m a t c hd e t e c tr e v e a l ) 方法来确定文档的重叠度 9 1 。2 0 0 1 年,f i n k e l 提出 s e ( s i g n a t u r ee x t r a c t i o n ) 方法检测文档的重叠度,s e 方法包括文本分害u j ( c h u n k i n g ) 、挑拣 ( c u l l i n g ) 、摘要( d i g e s t i n g ) 、排序( s o n i n g ) 和比较( c o m p a r i n g ) 等步骤,识别精确度较高l 。2 0 0 2 年,c h o w d h u r y 等研究了大规模文档集合中重复文档的快速检测方法,采用和s i f t 类似的 技术开发了i - m a t c h 系统。i - m a t c h 对数据进行智能化预处理,为了提高系统效率先去除高 频词和低频词,以整篇文档作为指纹。i - m a t c h 系统在识别相似度很高的文档时效果很好, 2 第一章绪论 但无法识别部分抄袭的情况i l 。2 0 0 3 年,s c h l e i m e r 等提出了基于数字指纹的w i n n o w i n g 算法来精确识别文档复制问题,并应用于抄袭识别在线服务网站m o s s 上【5 l 。2 0 0 4 年,j u n j i t o m i t a 等提出一种基于图形的文本表示模型来计算文本之间的相似度。 最近很多学者采用本体论的方法来研究文本之间的相似度【l 引。2 0 0 4 年,j u l i a n 等提出 一种方法去探索项与项之间的语义相似度和关系,从而来改进v s m 方法i l3 1 。2 0 0 5 年,y o u j i n 等提出一种侧重词的意义歧义方法,从而来解决同义词和多义词问题。该方法的缺点是会 造成项的分类错误,同时忽略了语义相似性的影响【1 4 j 。2 0 0 6 年,l i p i k ad e y ,a s h i s hc h a n d r a r a s t o g i 和s a c h i nk u m a r 等提出用机器学习的方法,采用聚类分析和模糊逻辑的方法来构 造文本的本体模型,对文本进行处理。该方法的缺陷是需要分析文档语料库,从而来构建 本体模型,所以文本最后相似度处理的结果完全取决于本体模型【1 引。2 0 0 7 年,j a m e sz w a n g ,w i l l i a mt a y l o r 提出一种基于本体论的文本相似度计算方法( c o n c e p tf o r e s t ) 解决 以上学者研究存在的不足1 1 州。该方法主要有三部分组成:c o n c e p tf o r e s t 构造、语义内容提 取以及相似度计算。目前对于语义相似度比较的研究仍然在进行中,更多的是对模型的改 进或对方法的拓宽,但真正将此研究转化为成型系统的少之又少,这也是目前很多学者研 究的重点与热点。 1 2 2 国内研究现状 国内对中文信息的处理起步较晚,但同样取得了不错的成绩。目前国内学者通过吸收 国外对文本相似度计算的优势的基础上,针对汉语的特殊性,提出各种中文文本相似度计 算方法。 张焕炯等首先建立文本集与码字集之间的1 1 对应关系,然后借用编码理论中汉明距 离的计算公式,计算文本相似度1 1 7 l 。中科院计算所以属性论为理论依据,建立了文本属性 重心削分模型,并在属性坐标系中表示文本之间的匹配距离,从而得到文本相似度【1 8 】。程 玉柱、邬书跃将文本内容特征映射到部件频次模型( c o m p o n e n tf r e q u e n c ym o d e l ,c f m ) , 将文本相似度计算转换为空间坐标系中向量夹角余弦的计算问题,文本相似度计算方法与 传统v s m 方法相比,避免了汉语词切分的技术瓶颈,为相似性比较计算提供了一种新的 思路【l 引。宋擒豹、沈钧毅等提出了c d s d g 原型系统,该系统是为了解决数字商品非法复 制和扩散问题而开发的,此算法不但能检测整体非法复制行为,而且还能检测部分非法复 制行为【2 0 。晋耀红提出基于语境框架的相似度计算算法,采用的语义模型是一个文本内容 的形式化结构,从语义的角度给出文本之间的相似关系的同义和多义现象,并且考虑了对 象之间的语义关系,但是相似度算法依赖语义分析,而目前的语义分析技术还有待改进, 分析的准确率有待提高【2 。金博、史彦军、滕弘飞针对学术论文的特有结构,对学术论文 进行篇章结构分析,再通过数字指纹和词频统计等方法计算出学术论文之间的相似度,从 而找出学术论文抄袭的现象,这是基于篇章结构相似度的复制检测算法,目标对象是书写 格式规范的学术论文1 2 2 】。张明辉针对重复网页问题提出了基于段落的分段签名近似镜像新 算洲2 3 1 。燕山大学李旭的硕士论文构建了基于k a r p r a b i n 串匹配检测系纠2 4 1 ,该系统提 3 南京信息工程大学硕士学位论文 出了一种基于k - g r a m s 的文档特征提取方法,速度快、准确率高,系统所利用的文档相似 性度量方法不仅解决l :1 的文档关系,也可以解决1 :n 文档关系,但该系统面向对象却 是英文文档。霍华、冯博琴提出的基于压缩稀疏矩阵矢量相乘的文本相似度计算方法,能 够减少计算和存储空间的开销。该方法仅对非零元素存储和表示,用压缩稀疏矩阵矢量相 乘的方法计算文本间的相似度i z 引。余刚、裴仰军、朱征宇等提出的基于词汇语义计算的文 本相似度研究。采用了基于知网的词汇语义计算方法来计算两篇文章向量的相关性,并用 最大匹配算法来获得相似度【2 6 。化柏林开发了一个基于句子匹配的文章自写度测试系统, 句子是组成文章的重要单位,也是表明作者行文观点的最小单位,对于任一文章,利用句 子匹配分析可以得到文章的自写度【27 1 。高茂庭等提出了基于文档标引图模型的文本相似度 策略,它是基于文档标引图特征模型,提出文档相似度计算加法和乘法策略,采用变换函 数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性 能【2 引。 1 2 3 现有的原型系统 目前,文本的相似度识别技术在国内外有了较大的发展,先后涌现出一批具有代表性 的原型系统、检测网站以及工具。目前较成熟的国外主要有t u m i t i n 网站【2 9 】,国内主要有 知网研发的学位论文学术不端行为检测系统与武汉大学的r o s t 文档相似性检测工具。 t u r n i t i n i i o ! 是t u r ni ti n 的联写,即“交上来”的意思。该网站创办于1 9 9 6 年,它的m s p 功能( 论文作业管理服务功能) 提供审核作业是否存在剽窃、网上修改作业评分和学术评 级审定三种服务。该网站通过三个数据库的内容来检测交上来的作品:1 ) 公众可以查到的 互联网上的所有存档的文件( 超过4 5 亿页,每天更新大约4 0 0 0 万) ;2 ) 成百万的已经出 版的作品,包括p r o q u e s t 商业数据库,a b l i n f o r m ,期刊摘要等,另外还有数万本电子书 籍,包括古登堡经典文献收藏;3 ) 成百万篇学生提交到该网站的论文。学生将自己的作业 和论文连同名字和电子邮箱地址提交后,t u m i t i n 系统将学生的作业和数据库内的千万篇论 文进行比较,最后由人工对“类似指数”进行评审。目前,该网站已经阻止了世界范围内 将近6 0 0 万的学生和教育者的剽窃行为,在使用的高峰期,每天可以收到2 万篇论文,目 前已有1 2 6 个国家和地区在使用该网站,仅美国就约有7 0 0 0 所学校和其他机构在使用。 t u m i t i n 的m s p 功能中,若被审核作业连续扣5 字一样算作抄袭。3 0 以下为绿色,超3 0 为黄色,更多则为红色。 t u r n i t i n 系统同样也存在一些缺点:它所采用的政策是将学生的作业、论文添加到其数 据库,用于剽窃检测,但它本身是一个营利性企业,这在一定程度上危机了教师及学生的 隐私。另外,t u m i t i n 不支持中文文本相似度检测。 学位论文学术不端行为检测系统【3 0 】( 简称“t m l c ”) 以中国学术文献网络出版总库 为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供 用户检测学位论文,并支持用户自建比对库。t m l c 采用c n k i 自主研发的自适应多阶指 纹( a m l f p ) 特征检测技术,具有检测速度快,准确率,召回率较高,抗干扰性强等特征。 4 研发,可以有效检测论文的抄袭相似情况。通过比对源文档和目标文档的相似性给出相似 度结果。r o s t 反剽窃系统的技术特点:1 ) 覆盖面广,通过混合引擎覆盖约1 8 8 亿个网页 和4 9 0 万篇论文。2 ) 模糊检测,柔性匹配,无论如何替换部分字符,删除部分标点符号, 系统都能通过相似度来进行判定。3 ) 引文及参考文献去除,使得误判的可能性降至最低。 4 ) 分块检测机制,将文章的每一文本块与其他文档的相似度都精确的表示出来,每一文本 块约为2 0 0 字至4 0 0 字不等,以红色表示极度相似( 相似度大于8 0 ) ,一目了然,清晰醒 目。5 ) 相似文档模块跟踪技术,可以通过简单操作直接定位相似文档模块位置,直观明了。 6 ) 方便的结果分析功能,自动分析文档相似结果,给出评价意见。7 ) 支持多种文件格式 的文档,包括p d f 、d o c 、p p t 、x l s 、t x t 等文档。 r o s t 文档相似性检测工具也存在一些不足:比较方式单一,仅支持l :n ( 1 1 = 1 ) 的 比较;另外该工具免费版仅支持4 0 0 0 字以下的文本检测,长本文需购买收费版;最后,需 要在网络环境中使用,无法单机版进行检测。 1 3 高度共享引发的问题 互联网高速发展和社会信息化时代的到来, 的角色,它已经成为人们获取信息的主要方式, 使得互联网在日常生活中扮演着非常重要 高度信息共享是其最重要的特征之一。据 最新中国互联网络发展状况统计报告显示【3 2 1 ,8 7 8 的网络信息以文本形式出现在互联网 上,文本数据广泛的存在于各种形式中,如新闻报道、电子图书、网页、各类研究论文文 献等。电子数据为人们获取信息资源提供了方便,但与此同时也引发了一些问题。由于电 子资源获取便利,简单的“复制”与“粘贴”就可获得信息资源。引发了以下几大问题:1 ) 网页重复率高。目前互联网中很多网页内容重复,究其原因,要么转载,要么直接复制粘 贴。2 ) 侵占他人知识产权。在g o o g l e 搜索引擎中输入“抄袭”,返回约1 4 5 0 0 0 0 0 条结果, 可见互联网的高度共享为论文剽窃抄袭等学术不道德行为以及其他侵占知识产权行为提供 了“沃土”。3 ) 信息的泄密。政府、企事业单位等网站作为互联网的一部分,也随着我国 信息化建设的快速推进正逐步的普及。而这些网站也日益成为政府、企事业单位等信息公 开的一个重要渠道和形式,由于人为的疏忽或其他原因,近年来泄密事件屡屡发生,对企 业、政府乃至整个国家造成了巨大的损失。 由此可见,事物都是具有两面性,互联网带来便利的同时也会产生相应的问题。问题 产生了,如何去解决是关键。一方面从源头上预防,提高知识产权保护意识:另一方面, 通过检测来发现问题并减少问题发生的可能性。人为检测如此庞大的信息量显然是不实际 也不可取的,这也是本文研究的意义与目的所在。这些问题归根到底就是文本相似度比较 5 南京信息工程大学硕士学位论文 问题,本文着重研究后两个问题,将文本相似度比较应用到论文相似性检测与涉密文本的 泄密检测中。以下是文本工作内容与组织结构。 1 4 本文工作内容和组织结构 1 4 1 本文工作内容 互联网的飞速发展带来高度共享与方便的同时,同样造成了网页重复率高、知识产权 侵占以及信息的泄密等问题。另一方面,文本相似度比较作为自然语言处理的重要基础与 内容,被广泛用于文本分类、聚类、信息检索、文本复制检测等领域,一直受到众多学者 的普遍关注与研究,因此,文本相似度比较是解决这一类问题有效的方法之一。 本文围绕以上问题,进行了深入的研究与实践。主要工作包括: l 、将文本相似度比较技术首次引入到涉密文本的泄密检测中,为目前涉密文本的泄密 检测仍然停留在人工检测的基础上增加了一种有效的方法与途径。主要工作有: 1 ) 以v s m 的相似度比较模型为基础,结合中文分词、文本加密、w e b 信息抽取等 其他自然语言处理技术,建立一个基于自然语言处理技术的文本泄密自动检测模型。 旨在不泄密的前提下,通过不可逆加密算法,利用w e b 信息抽取技术,对密文进行 相似度比较,检测特定网站是否存在涉密文本以及泄密的程度。 2 ) 特定网站内容的获取研究。结合视觉分块的w e b 信息抽取优点,利用正则表达 式,提出一种基于规则的深层次网页文本抽取方法,以此作为比较的数据源。 2 、将目前文本相似度检测技术与其他自然语言处理技术相结合,实现了基于自然语言 处理的文本相似度检测系统。该系统采用了w e b 信息抽取、中文分词等技术,具有多层次、 多数据源、多比较方式、多功能以及多线程计算的特点。 1 4 2 本文组织结构 本文分析了文本相似度研究的背景、现状,研究了中文文本相似度比较的主要方法与 关键技术,并且研究了相关自然语言处理技术,针对目前针对涉密文本的泄密检测仍然停 留在人工检测阶段,重点探讨了如何利用自然语言处理技术,来解决涉密文本泄密的问题, 建立相关模型;最后建立一个文本相似度检测系统,检测普通文档相似度与涉密文档的是 否泄密。 全文共分五章,本文章节及内容安排如下: 第一章绪论。主要介绍了文本相似度比较技术的发展情况以及主要研究内容与方向, 并且从理论和实际应用上介绍了文本相似度的国内外的研究现状以及目前存在的问题,在 此基础上提出了论文的选题背景和意义。 6 的严重性,而传统的泄密检测还停留在人工查看,效率低且易造成二次泄密等问题,采用 文本相似度自动比较和数据加密方法,提出了一种基于自然语言处理的文本泄密自动检测 技术,该技术应用于涉密文本泄密的检测,具有保密、人工干预少、效率高、疑似段落定 位等特点。 第四章系统设计与实现。主要介绍了文本相似度检测系统的设计思路、框架、系统的 实现和实验结果与分析。 第五章总结与展望。主要总结了本文研究的工作,提出了未来的研究方向。 1 - 5 本章小结 图1 1 本文内容组织结构 本章首先对本文的研究内容、研究背景进行了阐述,然后对文本相似度检测的国内外 研究现状做了详细的介绍,除对理论研究的介绍外,本章从应用上介绍了目前国内外较成 熟的文本相似度检测的原型系统及网站以及目前存在的问题,由此提出了本文的研究意义 与目的。最后给出本文工作内容与组织结构。 7 南京信息工程大学硕士学位论文 第二章相关自然语言处理技术 本章主要介绍目前相关自然语言处理技术,包括中文分词、w e b 信息抽取技术以及文 本加密技术。 2 1 中文分词 词是具有独立意义、最基本的语义和语法的单位。汉语和英语不一样,汉语是以字为 基本书写单位,词与词之间没有明显的分隔标记,是连续的汉字串,是意合( s e m o t a c t i c ) 语言,注重语义平面:而英语是形合( m e r p l o t a c t i c ) 语言,注重句法平面,英语单词与单 词之间使用空格或者标点符号隔开。因此,中文分词是处理汉语语言的基础,是自然语言 处理的首要问题1 1 0 j 。 所谓分词【3 4 1 ,是指自动识别词边界,将汉字串切分为正确的词串的过程。中文分词具 有十分广泛的应用,比如机器翻译、语音合成、自动分类、自动摘要、自动校对、中文信 息搜索等领域。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和 基于统计的分词方法1 3 3 , 3 5 】。 1 ) 基于字符串匹配的分词方法 又称为机械分词方法【3 们,它是按照一定的策略将待分析的汉字串与一个“足够大的” 机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的 不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可 以分为最大( 最长) 匹配和最小( 最短) 匹配:按照是否与词性标注过程相结合,又可以 分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:( 1 ) 正向最大匹配法( 由左到右的方向) ;( 2 ) 逆向最大匹配法( 由右到左的方向) ;( 3 ) 最少 切分( 使每一句中切出的词数最小) 。 2 ) 基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想 就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通 常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词 子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即模拟了人对 句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼 统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分 词系统还处在实验阶段。 8 第二章相关自然语言处理技术 3 ) 基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。 可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个 字的互现信息,计算两个汉字x 、y 的相邻共现概率。互现信息体现了汉字之间结合关系 的紧密程度。当紧密程度高于某一个阀值时,便可认为此字组可能构成了一个词。这种方 法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计 取词方法。但这种方法也有一定的局限性,会经常提取一些共现频度高、但并不是词的常 用字组,并且对常用词的识别精度差,时空开销大。 表2 1 三种主流分词方法性能比较 分词方法基于字符串匹配基于理解基于统计 歧义识别差强较好 需要字典需要不需要小焉妥 需要规则库小需要需要不需要 算法复杂性 容易很难一般 技术成熟度成熟不成熟成熟 实施难度容易很难较容易 分词准确性 一般 准确较准 分词效率快慢较快 在实际应用中,一般将基于字符串匹配( 字典法) 与基于统计的分词方法相结合,即 使用分词词典进行串匹配分词,同时使用统计方法识别一些新的词,将串频统计和串匹配 结合起来,既发挥串匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下 文识别生词、自动消除部分歧义的优点。 由于汉语是一种十分复杂的语言,计算机理解汉语更是困删3 4 , 3 7 , 3 8 】。所以在中文分词 过程中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年成功入职必刷题招聘笔试模拟题目及答案
- 2025年英语翻译岗位招聘考试指南翻译技能预测题及解析
- 危险化学品泄漏事故现场处置方案
- 2025健康养老专业试题及答案
- 2025年可持续发展工程师专业能力认证考试试题及答案
- 2025年健康照护师高级试题及答案
- 2025年保健药品测试试题及答案
- 2025年酒店管理师证考试中级模拟题集与答案解析
- 药剂科人员工作总结汇报5篇
- 北京市门头沟区2023-2024学年九年级下学期中考第二次模拟考试道德与法制试题含参考答案
- 潜才晋升管理办法
- 二零二五年度汽车配件销售合作协议
- 手术室术中无菌技术课件
- 2025至2030中国食品工业中的X射线检查系统行业项目调研及市场前景预测评估报告
- 企业安全生产费用支出负面清单
- 2024云南师范大学辅导员招聘笔试真题
- 2025年广省中考作文《走到田野去》写作指导及范文
- 2025年山东省中考数学试卷(含答案逐题解析)
- 慢阻肺非肺部手术麻醉管理策略
- 一例ICD置入患者的护理查房
- 2025至2030年中国露点传感器行业市场研究分析及投资前景规划报告
评论
0/150
提交评论