




已阅读5页,还剩47页未读, 继续免费阅读
(管理科学与工程专业论文)基于文本结构和内容的中文论文复制检测系统研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于文本结构和内容的中文论文复制检测系统研究 摘要 随着数字图书馆的发展和i n t e r n e t 应用的普及,网络数字资源已经成为人 们信息获取的重要来源。同时,网上数字学术资源不断丰富,为广大科研工作 者提供了便捷的学术交流机会。网络数字学术资源获取的便利及数字资源本身 所具有的简单“复制”“粘贴”功能,为论文抄袭、非法使用和扩散等不道德行 为提供便利。数字学术论文文本是网络学术资源的重要组成部分,学术论文的 文本复制检测技术有待发展。文本复制检测技术是为了防止数字文本的非法复 制和扩散而提出的技术,是保护文本知识产权和提高信息检索效率的重要手段。 文档复制检测就是判断一篇给定文本是否抄袭,剽窃或者复制于另外一篇或者 多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变 换、同义词替换以及改变说法重述等方式。 本文首先综述了文本复制检测技术,分析了现有的文本复制检测系统的系 统结构、文本表示方式和文本复制检测算法等关键问题;其次,分析了中文论 文的格式和内容的特点,提出结构和内容相结合的中文论文文本表示方法,即 以树形结构表示文本结构和以v s m 表示文本内容的加权树形结构;再次,提 出基于加权树形结构的中文论文文本复制检测的系统模型,分析了c h e c k 系统的 不足,改进了树形结构文本表示。根据新的论文的相似度定义,改进了现有的 复制检测算法,提出新的完全抄袭的检测方法。最后,通过实验验证了系统的 有效性。 关键词:文本复制检测向量空间模型相似度文本表示 r e s e a r c ho fc o p yd e t e c t i o no fc h i n e s es c i e n t i f i cp a p e r s b a s eo nt b x ts t r u c t u r ea n dc o n t e n t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fd i g i t a ll i b r a r ya n dt h ep o p u l a r i z a t i o no ft h e a p p l i c a t i o no fi n t e r u e t ,t h en e t w o r kh a sb e e na ni m p o r t a n ti n f o r m a t i o ns o u r c e st o m o s tp e o p l e e s p e c i a l l yt os c i e n t i s ta n ds t u d e n t t h es c i e n t i f i ci n f o r m a t i o ni n n e t w o r kh a sg i v e nt h e me f f i c i e n c yo fc o m m u n i c a t i o no fs c i e n c e o nt h eo t h e rh a n d , t h ee a s i l ya c c e s st ot h es c i e n t i f i ci n f o r m a t i o na n dt h ee a s yw a y t o “c o p y a n d - p a s t e h a v eg i v ec h a n c e st op l a g i a r i s mo ra b u s ea n d r e d i s t r i b u t i n gi n f o r m a t i o ni l l e g a l l y i t v e r yn e c e s s a r y t or e s e a r c ht h e t e c h n i q u e o fs c i e n t i f i cd o c u m e n t s c o p y d e t e c t i o n t h et e c h n o l o g yo fd o c u m e n t sc o p yd e t e c t i o ni sap o w e r h lm e a s u r et o p r o t e c ti n t e l l e c t u a lp r o p e r t ya n di m p r o v ee f f i c i e n c y o fi n f o r m a t i o nr e t r i e v a l d o c u m e n t sc o p yd e t e c t i o n ( d c d ) i st oj u d g ew h e t h e rt h eg i v e nd o c u m e n t p l a g i a r i z ec o n t e n t so fo t h e rd o c u m e n t si nt h ed a t a b a s e ,w h i c hp l a g i a r i s mo c c l l r si n s o m ew a y , s u c ha sb yd u p l i c a t i n gp a r t i a lo rt o t a ld o c u m e n tc o n t e n t s ,b yu s i n g d i f f e r e n tw o r d so rs e n t e n c e st oe x p r e s st h es a m em e a n i n go ft h et e x t so fp e r v i o u s d o c u m e n t si nt h ed a t a b a s e f i r s t l y , t h i sp a p e ri n t r o d u c e st h eo v e r v i e w so ft h e o r i e so ft h et e c h n o l o g yo f d o c u m e n tc o p yd e t e c t i o na n da n a l y s e st h ek e yt e c h n o l o g i e so fc u r r e n tc o p y d e t e c t i o ns y s t e m s ,s u c ha ss y s t e ms t r u c t u r e ,d o c u m e n tr e p r e s e n t a t i o ni nc o m p u t e r , t h ea l g o r i t h mo fd o c u m e n ts i m i l a r i t ye t c a n di tu s ev e c t o rs p a c em o d e l ( v s m ) t o e x p r e s sc h i n e s es c i e n t i f i cd o c u m e n ta n dc o m p n t es i m i l a r i t yb a s e o nv s m s e c o n d l y , i ta n a l y s e st h ec h a r a c t e r so ft h ec h i n e s es c i e n t i f i cd o c u m e n t ,a n d p r e s e n t st h em e t h o do fd o c u m e n tr e p r e s e n t a t i o nb a s eo ns t r u c t u r ea n dc o n t e n t ,o n w h i c hi st r e es t r u c t u r ea n dv s mc o n t e n tr e p r e s e n t a t i o n t h i r d l y , i tp r e s e n t st h e s y s t e ms t r u c t u r eo fc h i n e s es c i e n t i f i cd o c u m e n tc o p yd e t e c t i o nb a s eo nt r e e s t r u c t u r ew i t ht h ew e i g h to ft h ef e a t u r e se x t r a c t e do u to ft h ed o c u m e n t ,a n dg i v e n e wd e f i n i t i o no fd o c u m e n ts i m i l a r i t ya n dan e wf u n c t i o no ft o t a lc o p yd e t e c t i o n f i n a l l y , s o m ee x p l o r a t o r ye x p e r i m e n t sh a v ep r o v e dt h ev a l i d i t yo ft h es y s t e mb a s e d o nt h e s er e s e a r c h e s k e y w o r d s :d o c u m e n tc o p yd e t e c t i o n ,v e c t o rs p a c em o d e l ( v s m ) ,s i m i l a r i t y , t e x tr e p r e s e n t a t i o n 插图目录 图l 一1 文本复制检测的检测层次模型4 图1 2 模式识别系统结构7 图2 - 1c o p s 的系统结构1 l 图2 - 2c h e c k 系统结构1 l 图2 3 文本复制检测系统通用系统结构1 2 图2 - 4 文本块重复的字符串选择方式1 3 图3 1 中文学术论文撰写格式1 9 图3 2 论文总体结构图2 0 图3 - 3 树形比较示意图。2 6 图3 - 4 论文加权树型结构。2 6 图4 2 输入的论文目录部分实例2 8 图4 3 根据文本目录构造树形结构示例2 9 图4 4 加权树形结构计算机表示。3 0 图4 5 相似度计算示意图。3 1 图4 6 文本树形结构比较顺序3 2 图4 7 论文树示意图3 3 图4 8 论文相似度计算流程图3 5 图5 - 1 阈值设置示意图。3 7 表目录 表4 - 1 根结点信息表2 9 表4 2 其他结点信息表2 9 表4 - 3 文章a 树描述表格3 5 表4 - 4 文章b 的树描述表格3 5 表5 一l 部分抄袭检测实验结果3 8 表5 21 :n 实验结果3 9 表5 - 3 本系统与c h e c k 系统的实验结果比较4 0 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 金蟹王些太堂 或其他教育机构的学位或 证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示谢意。 学位论文作者签名:稚琵颤 签字日期:力哆年善月1 2 - e l 学位论文版权使用授权书 本学位论文作者完全了解金壁王些盍堂有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授 权盒胆王些左堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 概驺 签字日期:砌7 年5 月l e t 学位论文作者毕业后去向; 工作单位: 通讯地址: 导师签名:细 签字日期:加7 年5 , e l f 日 电话: 邮编: 致谢 本文从选题、定纲、修改到定稿,无不倾注了导师刘心报教授的心血,在 此感谢刘老师在论文指导过程中以及在研究生学习的三年时间里所给予的关心 和教导。刘老师博大精深的学识、精益求精的风格以及诲人不倦的教育态度给 我留下深刻的印象,将激励我在今后的工作、学习中刻苦钻研、追求上进。 同时,感谢管理学院的全体老师,他们的谆谆教导让我对专业知识有了更 深的了解,为我的进一步学习打下坚实的基础。尤其感谢决策所的所有老师, 他们兢兢业业的工作态度和在科研上不懈追求的精神给我了很大的激励。论文 的完成离不开实验室的同学们的支持和帮助,他们是吴观字、光熠、徐翔、 李含伟、马豁、何畏、周谧、聂萍等同学,非常珍惜我们在一起度过的美好时 光。 特别感谢合肥工业大学图书馆的老师和同事们给我提供了一个宽松、愉快 的工作环境,谢谢他们对我工作,学习和生活上的帮助和支持! 最后,借此机会感谢我的父母和爱人,是他们的无微不至的支持和关爱给 了我最坚实的后盾和不断追求进步的动力。 作者:程克敏 2 0 0 7 年5 月2 6 号 1 1 研究背景及意义 第一章绪论 随着计算机技术和网络技术的飞速发展,特别是i n t e r n e t 应用的普及,互 联网已经成为人们传递和交流信息的重要平台。在网上信息量迅速膨胀的同时, 网络搜索引擎、自动分类、信息抽取等信息技术也在研究和成熟之中,为人们 高效、准确地获取信息提供了有利的保证。网络信息资源以文本、图像、视频、 音频等形式存在,在我国,据最新c n n i c 中国互联网发展统计报告,文本信息 占网上资源的7 0 。其中,对科研工作者来说最有价值的文本信息来源于专业 的数字学术资源检索平台、学术论文数据库以及全球高校自建的学术论文数据 库,如i s lw e bo fs c i e n c e 、e iv i l l a g e 、i e e e i e ee l e c t r o n i cl i b r a r y ( i e l ) 、 中文的中国知网等商业数据库以及高校自建的学位论文库等。科研工作者获取 电子学术资源的其他来源还有网上科研工作者的个人站点、论坛、电子邮件列 表等方式。这些学术资源以用户认证、i p 限制或是免费开放等形式提供论文 的检索和下载,为广大学者和师生提供丰富的学术资源和便利的学术交流机会, 促进科学技术的发展。 与此同时,电子学术资源获取的便利及电子资源本身简单的“复制”“粘 贴”功能,为学术论文的抄袭、剽窃、非法扩散等不道德行为提供了方便。为 保护知识产权和端正学术风气,必须进行学术资源非法复制的防止和检测。除 了政策、法规和道德等途径的管理外,针对网络资源的复杂、繁多的特点,有 必要从技术上对网络学术资源进行自动的非法复制检测,对于数字学术论文来 说,必须进行学术论文的文本复制检测。上世纪9 0 年代,国外开始针对大型网 络数据库、大型文件系统和数字图书馆资源,进行英文文本复制检测技术研究。 在我国,近年来对中文文本复制检测技术的研究也被提上日程。 我国学术论文抄袭现象频频发生,引起社会各界的广泛关注。为防止学术 论文抄袭,端正学术风气,进行中文学术论文复制检测技术的研究非常有意义 现在,在我国应用比较良好的中文学术期刊数据库,包括中国知网的中国学术 期刊网、万方数字化资源系统和重庆维普资源系统,收录了全国大部分有价值 的中文学术期刊的学术论文、各高校的学位论文、重要会议论文等学术资源, 并提供了高效的论文检索和下载平台。以中国知网为例,目前就全文学术期刊 来说,其收录期刊的总共有八千多种,总共收录从1 9 7 9 年至今的两千万篇论文 全文,并以每天几千篇的速度增长。所以,论文抄袭识别如果仅仅靠人工来 做,工作量巨大,效果也没有办法保证,必须在技术上研究学术论文的非法复 制防止和检测技术,进行自动的文本复制检测。论文复制防止和检测技术的应 用,也有利于论文数据库的查重、去重工作,提高数据库检索效率。 1 2 文本复制检测的基本概念和研究现状 1 2 1 文本知识产权保护的两种机制 论文的文本复制检测技术是进行文本知识产权保护的技术。在技术上,数 字产品的知识产权保护可以通过两种机制实现,即“复制防止机制”和“复制 检测机制”1 。“复制防止”是通过访问控制、用户限制等技术来保证只有合 法的用户才能获得数字产品,例如将信息存放在隔离的硬件或是局域网中,定 义用户的访问权限等技术,现在大多数有价值的学术论文检索平台和检索数据 库都通过用户i p 限制、用户认证等方式来确认用户的合法性。复制防止具有一 定的效果,但是它限制了合法用户对资源的访问和使用,也妨碍了信息的传递 和交流,有违数字图书馆的资源整合和促进共享的初衷嘲。从另一个方面说, “复制防止”从某种程度上只能是“防君子不防小人”,它没有办法防止合法 用户对数字论文的非法使用和非法扩散。 “复制防止机制”的目的是让非法用户不可能得到或很难得到数字文本。 而“复制检测机制”对用户如何得到文本并不关心,它对文件的传递不做任何 限制,只是通过对文本本身进行检测来确定用户是否为非法用户以及对文本的 使用是否为非法使用。“检测机制”包括两类,有基于签名的检测机制和基于 内容的检测机制。基于签名的文本检测是在文档中加入“签名”,通过检测“签 名”来识别该文本是否为原始文档,如在文档中植入用户无法识别的数字水印, 通过对数字水印的检测来确保文本版权。“签名”机制具有其弱点,首先,签 名有可能被破坏而无法进行文档识别,其次,它无法进行文本部分复制的检测 “”。基于内容的文本复制检测是将待测的文档通过预处理后和原始文档进行 直接的内容比较,当原始文档和待查文档间相似超过- 二定程度,系统就报告存 在复制现象。当然,基于内容的文本检测在文本预处理和相似度计算等方面比 较复杂。 总之,复制防止和复制检测两种机制各有优缺点,可以将两者结合起来进 行数字信息的知识产权的保护。 1 2 2 文本复制检测的基本概念 论文文本复制检测技术是针对学术论文的文本复制检测。文本复制检测是 指判断一个文本的内容是否复制或抄袭于另一个或多个文本,本文的文本复制 检测的对象是文本的具体内容,是基于内容的文本复制检测。两个或多个文本 间存在复制现象,可能表现为文本间内容完全相同或部分相同。另外,文本复 制不仅仅意味着原封不动地照搬,还包括对原文的移位变换、同义词替换以及改 变说法重述等方式“, 文本复制检测的核心任务是判断文本之间的相似度。所谓文本相似度是指 2 文本间内容相同和相关的比例,文本间相似度越大,文本复制的可能性越大, 相似度越小,文本复制的可能性越小“】。按照我们日常经验,当文本的复制的 部分大到一定的程度,我们才能判断其存在复制或抄袭。所以,在文本复制检 测中要对文本相似度定义一个阚值,只有相似度要大于一定阙值才能判断其存 在复铡现象。 文本复制检测技术一般不是将整个文本作为处理对象的,因为一方面利用 整个文本进行相似度计算,计算量大,另一个方面;无法识别文本的部分复制, 对稍作改变的文档也无法识别。文本复制检测技术一般是从原始文本中抽取一 些文本块( 或称为特征项) 来代表整个文本,通过比较这些文本块( 特征项) 集合来判断文本问是否存在复制。文本块是指文本复制检测中直接进行比较的 文本单位“3 ,最大的文本块就是整个文本,最小的文本块是一个语言单位。现 存的系统选择的文本块也多种多样。文本块的选择对复制检测意义重大,文本 块过大,会遗漏存在的复制和抄袭,文本块过小,会存在误判,将无关的文本 被判断成抄袭文本,而同时文本块过小,会加大复制检测计算量。 1 2 3 文本复制检测技术的研究现状 文本复制检测技术分为程序文本复制检测和自然语言文本复制检测。程序 文本中包含很多结构化的信息,程序文本是结构化文本或半结构化文本,而自 然语言文本是非结构化的,在复制检测中,自然语言文本复制检测比程序复制 检测复杂的多。本文中提到的文本复制检测是指自然语言文本复制检测。自然 语言文本复制检测技术产生于2 0 世纪末,发展至今,已存在许多典型的系统。 依据系统所采用的复制检测算法,这些典型可以分成两类,一类是基于数字指纹 的字符串匹配方法的系统,另一类是基于词频统计的相似度计算方法的系统。前 者的有s i f 哺1 、c o p s ”、 k o a l a m 、 s h i n g l i n g 吲、m d r 睁”3 等系统,后者著名 的系统有s c a m “玎( d s c a m “耵) 、c h e c k “1 和c o s d g “”1 系统。 1 2 3 1 基于字符串匹配的文本复制检测系统 1 9 9 3 年m a n b e r 提出了s i f 工具是基于字符串匹配的思想,其目的是在大 规模文件系统中查找内容相似的文档,s i f 工具首次提出了“近似指纹 ( a p p r o x i m a t ef i n g e r p r i n t ) ”概念,被以后基于字符串匹配的文本复制检测 系统广为发展和使用哺1 。1 9 9 5 年,b r i n 和g a r c i a - m o l i n a 等提出c o p s ( c o p y p r o t e c t i o ns y s t e m ) 系统,它将文本分成句子序列,通过比较文本间相同指纹 的句子数目来进行复制检测1 。c o p s 系统提出了基于注册的系统结构,成为文 本复制检测的通用系统结构。同期还有人提出了基于数字指纹的字符串匹配的 k o a l a 系统( 与s i f 类似) h 1 ,“s h i n g l i n g ”方法“1 。2 0 0 0 年,m o n o s t o r i 等采 用基于后缀树( s u f f i xt r e e ) 的字符串匹配方法来进行文本复制检测,提出了 m d r ( m a t c hd e t e c tr e v e a l ) 系统模型,用后缀树来搜索字符串之间的最大子串, 后又采用后缀向量( s u f f i xv e c t o r ) 存储后缀树陋棚,从而提高识别效率 除了以上典型的原型系统外,以后的基于字符串匹配的系统从不同的方面 来提高检测进度或系统性能。2 0 0 1 年,f i n k e l 提出方法s e ( s i g n a t u r ee x t r a c t i o n ) 方法l l8 l 检测文档的重叠度,s e 方法强调文本预处理对文本复制检测的影响, 利用一些基本的文本处理技术对文本进行详细的预处理,提高识别精确度。 2 0 0 3 ,s c h l e i m e r 等提出了基于数字指纹的w i n n o w i n g 算法来精确识别文档复制 问题1 1 9 1 1 2 3 2 基于词频统计的文本复制检测系统 1 9 9 5 年,g a r c i a - m o l i n a 等针对c o p s 系统只能进行基于语句的复制检测, 不能对部分句子进行复制检测以及c o p s 系统英文句子边界识别存在失误等问 题1 ,提出了s c a m ( s t a n f o r dc o p ya n a l y s i sm e c h a n i s m ) 系统,应用信息检 索领域的向量空间模型来表示文本,结合词频统计的方法来度量文本间的相似 性,得到了优于c o p s 系统的性能。1 9 9 7 年,s i 和l e o n g 等人建立了c h e c k 原 型”,利用关键词统计和文本结构信息来度量文本闻的相似性,文本结构信息 的引入,避免了无关的检测过程。2 0 0 3 年,宋擒豹等针对数字商品非法复制和 扩散问题提出c d s d g ( c o p yd e t e c t i o ns y s t e mo fd i g i t a lg o o d s ) 系统“”1 , 通过统计关键词频率进行语义信息,同时考虑了数字商品的结构信息,结合结 构和语义进行复制检测。 除了上面两类文本复制检测系统,2 0 0 3 年,h o a d 和z o b e l 综合采用了词 频统计和数字指纹方法来解决衍生文档的识别问题,通过对大量x m l 数据和 l i n u x 文件的测试以寻找较好的抄袭识别算法瞄”。2 0 0 6 年,n a m o hk a n g 等“” 从剽窃模式的角度进行文本复制检测的研究,描述了如图卜i 文本复制检测从 难到易的检测层次倥”,该模式按照难易程度将文本复制检测分为各个层次的检 测,提出一个基于剽窃模式的更为精确的文本复制检测系统。 e a s yt od e t e c t 冒一e x a c td o c u m e n t c o p y 目p a r a g r a p hc o p y l s e n t e n c ec o p y 目s i n g l e w o r dc h a n g e s 垦s e n t e n t es t r u c t u r e 一g e s d i m c u l td e t e c t 图1 1 文本复制检测的检测层次模型 我国近年在文本复制检测上也有一些研究除了上面提到的c d s d g 系统, 2 0 0 4 年,鲍军鹏等针对大规模文集中的文本复制检测问题,提出基于网格的文 本复制检测系统o c d g r i d 啪1 ,把单个巨型文集分解成多个中小规模文集分布在 网络上,通过网格计算的方式,在多台计算机上检测剽窃文本。同年,鲍军鹏 等人乜们提出了基于语义序列的文件复制检测方法,强调了词汇的位置信息,提 高了检测精度,后来又提出相应的检测模型( s s k ) ,这样的方法适合于没有词语 更改的复制检测。2 0 0 6 年,鲍军鹏乜酗又提出了不均衡相似检测模型,改进了相 似度算法中c o s 算法,提出了h f m ( h e a v yf r e q u e n c yv e c t o r ) ,改进了检测 性能。 国外文本复制检测技术主要针对英文,虽然经过了近2 0 年的发展,技术已 经较为成熟,但由于自然语言的特性,现在的文本复制检测的效果依然差强人 意。在我国,中文文档复制检测方面的研究还不是很多,2 0 0 3 年,金博,史彦 军等人o “2 ”提出了一种基于语义理解的复制检测系统架构,利用知网语义进行 中文文本的复制监测;2 0 0 5 年,c h e n gy u z h u 等根据汉字的计算机表示形式 ”,提出了文本复制的数学表示,利用文本特征的v s m 和词频统计来进行文本 相似性计算,开辟了中文文本复制检测技术研究的新局面。 综上所诉,文本复制检测的关键问题包括文本表示、文本块选择或特征提 取、相似度计算等问题,以及如何在现有系统的基础上进一步提高系统性能, 提高检测精度。自然语言文本复制检测的一个发展趋势是,将文本的结构信息 引入到文本复制检测中。 1 3 相关的研究领域 文本复制检测技术是保护知识产权和提高信息检索效率的有效手段,主要 的应用领域包括大型文本数据库系统管理、数字图书馆、网络搜索引擎及网页 查重、反垃圾邮件等领域。而与文本复制检测技术相关的研究技术还有模式识 别及其中的字符串匹配技术、信息技术领域的文本自动分类、信息检索信息过 滤、信息抽取等技术以及中文信息处理的分词、词频统计等。 1 3 1 文本复制检测技术的应用领域 1 、大型文档管理系统维护们 现在,绝大部分企业都有大型文档数据库来存放其价值巨大的信息,包括 技术公司的技术支持数据库、商业企业的客户关系数据仓库等,存放的成千上 万的文档,蕴含了企业运作的重要知识,对这些大型文档数据库的内容管理的 中心任务是挖掘与文档有关的知识。随着时间推移,这些文档会被定期的修改 和合并,在这个过程中,不可避免的出现众多1 日版本的文件和内容重叠的文本 文件,即相似文本。识别和除去相似文本对数据库的管理非常重要,有利于提 高数据库的数据质量和检索效率,便于数据库的知识挖掘,提高用户满意度。 2 、数字图书馆管理阳” 随着数字图书馆的发展,文本复制检测技术被提出应用于是针对数字图书 馆海量信息的管理上,包括数字图书馆信息资源的知识产权保护问题和提高数 字图书馆的检索效率的问题。数字图书馆中信息资源是信息提交者的精神和智 力成果,对新提交的信息,数字图书馆的管理者有义务对其进行检测,证实信 息的合法性,这样既有利于信息提交者对自己知识产权保护,又利于一般的用 户对信息资源的共享。其次主要是对数字图书馆中不同版本或不同格式的相同 内容文本过多,影响到数字图书馆信息质量,加大服务器的性能损耗,延长用 户的检索时间,必须对文档系统进行去重,以优化系统性能,提高检索效率。 再次,数字图书馆的首要任务是对数字资源的整合和促进资源共享,基于内容 的检测机制能在保证网络资源的传递与共享和保护知识产权之间达到一定的平 衡。 3 、搜索引擎及网页查重曲” 网页查重技术是文本复制检测的又一重要应用。针对现在网上信息的爆炸 式增长,对相同的内容的不同格式网页和镜像站点上相同内容的网页进行去重 处理。网页查重利用文本复制检测技术来确定网页内容的相似度,除此之外, 它还必须对网页的结构、重复链接等其他信息进行检测。网页去重技术关键是 对网络缓存的管理和对搜索引擎搜索结果去重,便于人们进行网络信息检索。 4 、反垃圾邮件” 反垃圾邮件技术中对垃圾邮件的基于内容的检测也应用到文本复制检测技 术。随着i n t e r n e t 的迅猛发展,电子邮件已经成为人们交流信息的常用工具, 电邮用户在收取有用的信息的过程中,会被大量的垃圾邮件困扰,必须花很大 的时间和精力来识别有用信息和垃圾邮件。一般垃圾邮件内容不作改动或作微 小改动的发送给学多用户,可以通过文本复制检测技术来过滤垃圾邮件。 文本复制检测技术应用很广,本文针对中文论文的复制或是抄袭现象,提 出将文本复制检测技术应用于学术论文文本的知识产权保护,识别论文抄袭, 此外,文本复制检测技术还能应用于学术论文数据库的建设的查重、去重工作 中。 1 3 2 与文本复制检测技术相关的研究领域 文本复制检测技术是模式识别,自然语言理解、文本信息处理等领域知识 的融合。 l 、模式识别 “模式识别就是指用计算机实现人的模式识别能力,用机器去完成人类智 能中通过视觉、听觉、触觉等感官去识别外界环境的自然信息的那些工作”, 。”模式识别是使计算机能够对给定的事务进行鉴别,是一切信息处理的基础模 型,文本复制检测也是一种模式识别。模式识别的系统模型如图卜2 ,预处理 6 模块主要是进行一些信息数字化,噪声去除等工作,在文本复制检测中,预处 理的对象是原始文本,包括进行去除文本信息以外的其它信息等工作特征选 择在文本复制检测中为要求提取的特征项能代表文本,提取的数量又要满足系 统的要求。识别算法是在特征提取的基础上进行的运算,以确定是否存在复制 检测。文本复制检测的一般过程如下;( 1 ) 文本的预处理;( 2 ) 文本特征选择 及计算机表示;( 3 ) 文本相似度计算,相似度越大,文本间存在复制的可能性 越大;( 4 ) 对相似度和阈值进行比较,判断两篇文章是否存在复制现象。 一输入模式匝堕 = 屯亟习爿亟巫黼 图1 2 模式识别系统结构 文本复制检测,从人工实现的角度看,主要是通过逐行对比,直接在计算 机实现时通过字符串匹配进行复制检测。模式识别中的字符串匹配算法,是基 于字符串匹配的文本复制检测技术的关键算法。 2 、自然语言处理” 本文提到的文本复制检测是自然语言文本复制检测,自然语言文本处理在 文本复制检测预处理阶段作了主要工作。对于中文,预处理包括中文分词、去 停用词、同义词处理、词频统计等,为中文文本复制检测提供了基础保证。 3 、其他领域 与文本复制检测技术一样,从自然语言处理和模式识别的角度进行研究的 其它的文本处理技术还有信息检索领域的文本自动分类和聚类、文本结构分析 m 1 、自动文摘口”等,文本复制检测技术从信息检索领域借鉴了一些非常有效的 工具,如在信息检测领域应用良好的向量空间模型被引用到文本复制检测中来 进行文本表示。当然,由于系统目的不同,文本复制检测和以上的文本处理技 术有很大的区别。对于信息检索领域的技术,如文本自动分类,主要是计算用 户的搜索项和被检索的文本集中的文本的相关程度,从而进行归类,强调特征 选择的区分度。而文本复制检测计算的文本之间的相似度,是集中在文字表达 上的,文本篇章、段落和语句之间的内容上的重复性。文本复制检测技术在应 用向量空问模型表示文本时,在特征项提取、权重计算等方法都与一般的信息 检索的文本处理不同。 i 4 本文的主要工作 本文的主要工作是将在国处发展迅速的文本复制检测技术应用到中文论文 的复制检测上,解决中文论文抄袭的检测和识别问题。在充分分析中文论文结 构和内容特征的基础上,提出新的中文论文的文本表示方式和文本复制的定义, 改进的中文文本复制检测算法,并通过试验验证该算法的有效性。 本文总共分为六个部分,第一部分讨论了文本复制检测系统的研究背景及 研究意义以及国内外文本复制检测技术的研究现状和面临的主要问题,叙述了 文本复制检测的应用领域和与之相关的研究领域。第二部分研究了现有的文本 复制检测系统的系统结构、文本表示方式和现有的文本复制检测算法,通过对 现有算法的讨论和比较,提出将信息检索领域的向量空间模型( v s m ) 的文本表 示方法应用于中文论文的复制检测中。本文第三部分分析了我国中文论文的格 式和内容的特点,提出了将结构和内容相结合的中文论文文本表示方法,将中 文论文表示成以树形结构表示文本结构,以v s m 表示内容的加权树形结构。第 四部分提出基于加权树形结构的文本复制检测的系统模型,定义了论文复制检 测的l :1 和1 :n 的复制可能性的定义,并提出了基于树同构的完全抄袭的检测 方法。第五部分通过实验验证了系统的有效性。第六部分是对全文的总结和对 进一步工作的展望。 8 第二章文本复制检测的相关理论和原型系统 文本复制检测技术的研究始于2 0 世纪末,随着网络和数字图书馆的发展, 文本复制检测技术的提出既是实施知识产权保护的保证又能提高文本信息检索 效率。文本复制检测技术应用到学术论文抄袭检测上即为知识产权保护的实施 问题,同时在数字学术论文库的建设过程中能降低数据库的数据冗余,提高数 据库的检索效率。 2 i 经典的文本复制检测系统 英文文本复制检测技术已经发展的比较成熟,研究至今,已有几个非常经 典的文本复制检测系统,为后来的文本复制检测研究打下了基础。 2 1 1s i f 1 9 9 4 年,m a n b e r 提出了s i f 工具,它主要用于在大型文件系统中查找相似 文档,而非直接应用于文本复制检测。它的主要贡献是提出了“近似指纹”的 概念,并利用其进行表示文本和文本相似度计算。s i f 工具进行相似度计算的 主要过程如下:先提取一定的字符串作为“指纹”,通过h a s h 运算将不同的字 符串映射不同的数值,在比较不同文档的数值集合,如果代表两篇文档的数值 组合中相同的数字超过一定的阈值,则判断两篇文档相似。这样,“近似指纹” 计算将字符串的匹配问题转换成了数值比较问题。“近似指纹”的思想在以后 的文本复制检测系统中得到广泛的使用,如1 9 9 6 年提出的k o a l a 系统,b r o d e r 提出的s h i n g l e 系统,都是基于近似指纹的字符串匹配的算法进行复制检测的 【耵。 2 1 2c o p s 1 9 9 5 年,斯坦福大学的b r j n 和6 a r c i a m o l i a a 等人开发出了c o p s 原 型系统。c o p s 是基于注册的文本复制检测系统,它首先将合法的文本进行文 本预处理,分解成句子集合,h a s h 每个句子得到一系列h a s h 值,将文本及其 h a s h 值注册到数据库中,然后将待测的文本进行相同的句子h a s h ,并将其h a s h 值与与系统中原本存在的合法文本的h a s h 值进行匹配,通过判断相同h a s h 值 得数量进行文本复制检测,如果相同的h a s h 值的个数大于阈值,表明如果两个 文本共有句子的数目超过一定阈值,就可以认为是相似文本。c o p s 系统也存在 一些问题,它以句子为单位进行复制检测,不能实现部分句子的复制检测。c o p s 进行英文文本复制检测时,存在分界错误的问题,如“”既是语句的句号,在 9 人名、地名上也有使用,存在混淆。 c o p s 提出了基于注册的文本复制检测的通用系统结构,以后的文本复制监 测系统的结构都和它相似旧。 2 1 - 3s c a m 1 9 9 5 年g a r e i a m o l i n a 等人针对c o p s 的问题,提出了s c a m 系统。s c a l i 借鉴了信息检索领域的向量空间模型( v s m ) 进行文本表示,以词语作为文本块, 通过词频统计和相应的相似度计算来进行文本复制检测,得到了比c o p s 更优的 检测效果。但是,s c a m 的文本块定义过小,有时会出现将完全不存在抄袭的 文档误判成抄袭“”。 2 1 4c h e c k 1 9 9 7 年,s i 等人提出了c h e c k 系统原型进行文本复制检测,它的特点是将 文本的篇章结构引入到复制检测中来,利用关键词统计结合树形文本结构进行 文本的相似度计算。树形结构的根节点内容代表全文,树的分枝代表文本的篇 章结构,叶子节点是文本最后的内容层次,父节点的内容包括子节点的内容。 将文本结构引入复制检测的好处是,当上层节点通过判断是无关时,无需进一 步对该节点的下层进行比较,避免了无关的计算。而且,将文本的结构引入文 本复制检测中也是文本复制检测技术的发展趋势。 。 2 1 sm d r 2 0 0 0 年,m o n o s t o r i 等人建立了u d r 原型系统。m d r 系统主要是引进了后 缀树来表示文本,然后运用字符串匹配统计算法直接在被检测文档中寻找最大 匹配字符串。为了解决后缀树存储问题,提出了后缀向量来存储文本。在我国, 文献 3 8 也提出用后缀树进行中文文本表示,利用后缀树表示文本,通过字符 串匹配,在文本处理中可以避免中文分词砖1 。 2 1 6c d s d g 2 0 0 3 年,我国西安交通大学的宋擒豹提出了c d s d g 原型系统,是为解决数 字产品的非法复制和扩散问题的系统。c d s d g 和c h e c k 系统相似,也是将结构 信息引入到文本复制检测中,将文本按照篇章结构表示成树形结构。在进行文 本比较时,对相应的节点,先度量其语义相似度,还要度量其结构相似度,当 上层节点相似,才进一步对下层节点进行比较,最后,进行叶子节点的比较时, 利用句子匹配的方法来最后确定复制现象是否发生“”,。 l o 2 2 文本复制检测系统的系统结构 本文研究的是基于注册的文本复制检测系统,基于注册的文本复制检测系 统的通用结构最初由c o p s 系统提出,以后的系统结构和c o p s 相似,c o p s 的结 构如图2 1 所示,总体分成三部分,第一部分是将各种不同的文本格式转换成 a s c i i 格式模块,第二部分为句子识别和h a s h 运算模块,第三部分为比较模块。 图2 1o o p s 的系统结构 其它系统的结构,以c h e c k 为例,如图2 - 2 ,可以看出即使是基于词频统 计的文本复制检测系统结构亦与c o p s 大同小异,c h e c k 系统由三个子模块组 成:文本注册模块、文本比较模块和文本分析模块。文本注册模块将合法文本 注册到数据库系统中,文本比较模块将输入的待测文本和数据库中存在的合法 文本进行比较,以判断是否存在复制。文本分析模块将l a t e x 文档转换成a s c i i 文档,分析输入文本的结构和关键词统计,即对文本进行特征提取和文本表示。 图2 - 2 c h e c k 系统结构 从图2 - 1 和2 2 来看,虽然两者进行文本复制的方法不同,c o p s 和c h e c k 的系统结构都是基于注册的系统结构是相似的,都包括文本输入与预处理模块、 复制检测的比较模块、输出模块和数据库模块,主要不同之处在于文本预处理 和文本比较模块的方法的不同。其他原型系统,如s c a m 、m d r 、c d s d g 系统原型 都大同小异。 据此,文本复制检测系统的通用模型如图2 3 所示: l 文档输入 图2 3 文本复制检测系统通用系统结构 2 3 文本复制检测算法概述 文档复制检测是判断一篇给定文本是否抄袭剽窃或者复制于另外一篇或 者多篇文本的内容,包括原封不动地抄袭和对原作的移位变换,同义词替换以 及改变说法重述等方式。与图像,音频,视频类文件不同,文本文档的复制检 测很容易直接进行字符串匹配汹1 。但是即使是文本,若按照一般的字符串匹配 进行复制检测,速度也会非常之慢,不适合实际应用。不同的文本复制检测系 统针对不同的“文本复制”的定义和不同的文本表示方式,提出不同的检测算 法。国外对英文文本复制检测技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 监护证考试题及答案
- 华强物业考试题及答案
- 费米估算面试题及答案
- 2025年国家焊工技师证书职业技能考试练习题库(含答案)
- 2025年广西中烟工业有限责任公司招聘考试笔试试题(含答案)
- 2025年佛山市禅城区南庄镇堤田小学招聘教师考试笔试试题(含答案)
- 2025建筑工地材料储存库建设合同
- 2025年医疗机构手卫生规范考试试题及答案
- 北京消防知识培训课件
- 北京汽车知识培训课件
- 2023年科普知识竞赛试题库及答案(共300题)
- GB/T 9452-2023热处理炉有效加热区测定方法
- 城市轨道交通接触轨系统维修要求
- 上市公司信息披露培训-上交所
- tgnet中文使用手册
- 射线检测焊缝返修通知单
- 病历书写规范培训(修改)
- DL T774-2015规程试题库(含答案)
- 2023年电气工程师职称评审个人业务自传
- CB/T 3780-1997管子吊架
- 物资供应投标书范本
评论
0/150
提交评论