已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 作业环节是整个教学过程中的一个重要的环节。作业环节信息化是教育信息化中重要的 组成部分。作业环节的j :作质量、效率和效益直接影响着整个教育教学工作的质量、效率和 效益的全局。然而,教改这么多年,课堂教学、考试工作方面都取得了可喜的成绩,作业环 节却始终被人们所遗忘,成为教育教学1 :作的一个缺憾,阻碍了教育教学上作的顺利开展。 本文在对教学过程中作业环节现存的问题进行分析的基础上,设计了一种电子作业管理 系统,并就其中涉及的关键技术,如作业收集、作业版本管理,作业抄袭检测等进行了深入 的探讨和研究。本文的主要工作可以概括为以下几个方面: ( 1 ) 提出了种基于网络邮件系统的作业自动收集技术。 针对传统作业环节中,作业提交时间跨度大,作业版本多的特点,本文提出了一种基于 网络邮件系统的作业自动收集技术。其核心思想是:教师首先规定好作业命名格式,然后学 生将作业提交到教师指定的邮箱中。作业提交一律使用附件格式,作业格式支持o f f i c e 文 档。p d f 文档和网页文档。系统定期自动检测邮箱,下载最新提交的作业,对文档内容进行 分析,提取文档的文本内容,最后将作业信息流和作业文本内容一起保存到数据库中。 ( 2 ) 提出了种基于句子相似度的文档复制检测技术。 , 作业环节中缺乏强有力的作业监督体制,学生作业抄袭严重。依靠教师手动发现作业雷 同现象,往往使教师身心俱疲。因此,本文设计了一套自动检测作业抄袭行为的方案。将文 档按标点符号分解成句子序列,通过计算句子之间的相似度最终确定文档间的相似程度,并 高亮显示雷同内容,给教师做出最后的判断提供依据。并通过实验进一步证明该算法的有效 性。 ( 3 ) 设计了一个电子作业管理系统。 本文在对传统的作业环节进行分析的基础上,设计并实现了一个屯子作业管理系统。本 系统一共分四个模块:作业收集模块、教师作业管理模块、学生作业管理模块、作业抄袭检 测模块。教师可以在线布置作业,批改作业,对作业完成情况进行相关数据统计等,学生也 可以在线查看自己的作业完成情况,作业批改状态,还可以撤销未批改的作业重新提交。各 个模块相辅相成,提高了作业环节的上作效率。 基于上述= 作,并在此基础上进行了大量的实验,实验证明,该系统具有较强的实用性。 将给教师在今后的教学工作中带来很大的帮助。 【关键字】电子作业管理,文档复制检测,文档预处理,文档相似度 a b s t r a c t c o u r s c w o r kh a sb e e nt a k i n ga l li m p o r t a n tr o l ei ne d u c a t i o na n dp u t t i n gad i r e c t i m p a c to nt h eq u a l i t y , e f f i c i e n c ya n dt h ee f f e c to fi t n o wp e o p l eh a v ew o ng r e a t a c h i e v e m e n ti ni n s t r u c t i o na n de x a m i n a t i o nt h r o u g has e r i e so fi n n o v a t i o nt h e s ey e a g s e x c e p tc o u r s e w o r k 。u n f o r t u n a t e l y , i tr e s u l t si na n y s e r i o u sp r o b l e m sf o rt e a c h i n g i nt h i sp a p e r , a l le l e c t r o n i cc o u r s e w o r km a n a g e m e n ts y s t e mi sd e s i g n e da n d i m p l e m e n t e di no r d e rt oi m p r o v et h em a n a g ee f f i c i e n c y w ea l s oi n t r o d u c et h ek e y t e c h n o l o g i e so f t h es y s t e mi nd e t a i l s 1 1 1 em a i nw o r ko f t h i sd i s s e r t a t i o nc a nb es u m m a r i z e d 够f o l l o w s : ( 1 ) a ne m a i l b a s e dc o u r s e w o r ka u t o m a t i c a l l yc o l l e c t e dt e c h n o l o g yi sp r o p o s e d a st ot h ep r o b l e m so fl o n gt i m es 口a na n dm o r ee d i t i o n si nt h et r a d i t i o n a l c o u r s e w o r kc o l l e c t e dp r o c e s s ,w ep r o p o s ea l la u t o m a t i cm e t h o db a s e do nt h ee r f l a i l s y s t e m ,t h a ti s 。t h et e a c h e rd e f i n et h ee n u r s e w o r k sn a m ef o n n a tf o rt h ef i r s t ,t h e nt h e s t u d e n t ss u b m i tt h e i rw o r kt ot h ea p p o i n t e de m a i ll i s tu s i n ga p p e n d i xp a t t e r n a r u n n i n gt h r e a d w i l lc h e c k e dt h ee m a i l1 i s t a u t o m a t i c a l l ye v e r yc e r t a i np e r i o d d o w n l o a d i n gt h ew e r k ,a n a l y z i n gt t l e i rc o n t e n ta n ds u b t r a c t i n gt h e i ra t t r i b u t ei n f o , s a v i n gt h e r f li n t ot h ed a t a b a s ea tl a s t ( 2 ) an e wp l a g i a r i s md e t e c tt e c h n o l o g yb a s e do nt h es e n t e n c es i m i l 耐t yi s p r o p o s e d t h el a c ko fa ne f f e c t i v es u p e r v i s i o ni nt h ea s s i g n m e n tp a r tl e tt h ec h e a t i n gm o r e a n dm o r es e r i o u s s o ,ap l a g i a r i s md e t e c ts y s t e mi sd e s i g n e dt of i n dt h ec h e a t e r a u t o m a t i c a l l yi n s t e a do ft h em a n n a lo p e r a t i o ni nt h ep a s t i ti m p r o v e st h ed e t e c t e f 萌c i e n c yg r e a t l y w eb r e a kt h ed o c u m e n ti n t os e n t e n c e s t h e nc a l c u l a t et h es i m i l a r i t y o ft h es e n t e n c e si np a i r sa n dh i g h l i g h tt h ep l a g i a r i z e dd o c u m e n t s c o n t e n t f i n a l l y , v e r i f yt h ea l g o r i t h mw i t hal o to f e x p e r i m e n t s ( 3 ) ac o u r s e w o r km a n a g e m e n ts y s t e mi sd e s i g n e d t h ec o u r s e w o r km a n a g e m e n ts y s t e mi sm a d eu po ff o u rm o d e l s :t h ec o l l e c t i n g m o d e l ,t h et e a c h e rm a n a g e m e n tm o d e l ,t h es t u d e n tm a n a g e m e n tm o d e la n dt h e p l a g i a r i s md e t e c tm o d e l t ot h et e a c h e r , h ec a na s s i g n sc o u r s e w o r ko nl i n e e v a l u a t e s t h e ma n dd o e ss o m es t a t1 a t e r t ot h es t u d e n t ,h ec a ns u b m i th i sc o u r s e w o r k ,l o o k su p i t ss t a t a s a n de v e nh ec a nr e s e t si to n l yi fi th a s n tb e e ne 、r a l u a t e d e v e r ym o d e l r e l a t e dt oe a c ho t h e rt o g e t h e rc o n s i s to f t h es y s t e r n a b o v ea u ,al o to fe x p e r i m e n t sa l et a k e na n di tt e s t i f i e st h a tt h es y s t e mi ss o p r a c t i c a lt h a ti tw i l lg r e a t l yf a v o rt h et e a c h e r si nt h ef u t u r e 【k e yw o r d s 】e l e c t r o n i cc o u r s e w o r km a n a g e m e n t , d o c u m e n tc o p yd e t e c t i o n , d o c u m e n tp r e t r e a t m e n t ,d o c u m e n ts i m i l a r i t y n 学位论文独创性声明 本人郑重声明: l 、坚持以“求实、创新”的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究成 果。 3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构已 经发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示了 谢意。 作者签名: 日期; 学位论文使用授权声明 盈趔 本人完全了解南京师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 予版和纸质版;有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅;有权将学位论文的内容编入有关数据库进 行检索:有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 作者签名: 日,期: 盈缒 幽! 辛舅 第一章绪论 1 1 研究背景 随着校园网和i n t e r n e t 的不断普及,师生的生活,学习、工作方式发生了巨大的变化 一方面,学生开始利用弼络搜索各种学习资源和参考资料、提交作业、直接基于两络进行学 习;另一方面,教师利用网络搜索各种教学资源和参考资料、传播教学材料、直接基于网络 开展教学、了解和跟踪科研领域前沿动态等等。网络已逐渐溶入师生的生活,为他们服务, 给他们提供便利。诚然,网络在人们的学习生活中的优势是无可厚非的,但是它也存在一些 弊端,如在作业环节中,可以概括为以下几个方面: 第一、作业收集效率不高。如今,由于许多作业都是在计算机上完成的,作业提交方式 也变得灵活多样。但是却给老师对作业的管理带来了许多麻烦:( 1 ) 基于软盘的作业提交方 式不便于携带且软盘质量比较差,经常出现打不开的现象;( 2 ) 基t - u 盘的作业收集方式比 较耗时,且存在病毒交互感染风险;( 3 ) f t p 服务虽然比较方便,但也存在技术和管理上的 问题。不管哪一种作业收集方式都存在一个共同的问题,就是都需要教师的参与且学生经常 会延期提交作业,时间跨度大给老师带来了对作业评分上的烦恼。 第二二、缺乏作业版本管理机制。时常,学生由于遗忘或者对自己已经完成的作业质量不 满意,同一次作业向老师提交多个版本,而事实上,教师只需要批改学生自认为最满意的那 个版本就足够了,这样也节约了大量的时间。 第三、作业环节缺乏强有力的监督体制。如今,作业抄袭现象严重,尤其是网络的普及, 使得作业抄袭变得更加方便,作业质量严重下滑,老师无法通过作业情况获取相席的信息反 馈。学生抄袭作业的行为包括学生之间电子文档相互拷贝抄袭和通过网络搜索相关文档并拷 贝抄袭。学生抄袭作业时,情节较轻的少部分复制他人文档;情节稍重的则人部分复制他人 文档,内容仅做少许修改;情节最严重的,则全盘抄袭他人文档,内容完全或者基本不作修 改。比如:有的学生为了应付老师布置的作业将从网络上搜索到的类似文章原封不动地就 发给了老师,结果作业中甚至还包含着l 告词、产品联系人姓名、电话和地址等内容;有的 甚至请别人代交一模一样电子作业。老师在批阅作业时,常常需要不断地对比相互雷同的作 业,以对作业做出合适的评判。当学生数量多,老师靠手工检 测抄袭行为变得越来越匪潍。 正因为如此,许多学生平时学习放松,作业甚至考试靠抄袭蒙混过关。 “教育信息化首先是教学信息化,教学信息化的重头戏在作业环节的信息化”。作业 环节是整个教学过程中一个重要的教学环节,作业环节的:i 二作质量、效率和效益直接影响教 育教学工作质量、效率和效益的全局,电子作业管理和作业抄袭检测的自动化技术,无疑是 作业环节信息化中重要的研究内容,对于减轻老师的作业管理工作量、提高老师的工作效率、 监督学生的作业质量,都具有重要的意义 1 2 本文的研究思路和主要工作 龚晖,杨宁学,谢君华,高泽胜:教学信息化舞台:作业环节信息化,中国教育和科研计算机嘲, h t t p :m e d u c n 2 0 0 3 1 0 0 8 3 0 9 2 3 1 8 s h t m l l 1 2 1 本文的研究思路 作业管理和作业抄袋检测是个复杂的过程。它需要计算机学科和数学知识的支持,一 个实用的电子作业管理和作业抄袭检测自动化系统,需要同时兼顾效率和准确率。本文通过 大量调研,以及对各种文档复制检测技术的优缺点的分析,确定了以下的研究思路和相关研 究内容。 1 2 1 1 结合应用的作业管理系统的设计 本文从“实用主义”的角度出发,多听取一线教师在作业环节中遇到的困难和问题,有 针对性的进行设计。主要解决如何有效地辅助教师收集、管理作业,并监督作业的质量问题。 通过系统的构建。把老师从繁重的的作业管理过程中解脱出来,从而把更多的精力和时间投 入刽教育教学工作中去,提高教学的效率和质量。 1 2 1 ,2 基于邮件系统的在线作业收集方式 传统的作业收集方式,都需要教师的参与,且作业提交时间跨度大,作业版本多的问题 给教师的作业批改带来很多困难。那么,是不是可以把教师从中独立出来,实现这一环节的 自动化处理呢? 经过大量探讨,调研,我们提出了一种基于网络邮件系统的自动作业收集方 案。学生遵循一定的规范将作业提交教师指定的屯子信箱列表中,然后作业收集程序将定期 扫描邮箱列表,自动下载作业,分析作业的属性信息,并将作业分门别类的保存剑数据库中。 在保存过程中同时检测作业多版本问题,并按照老师设定的参数自动进行处理。整个作业收 集过程都不需要教师的干预。 1 2 1 3 文档抄袭检测技术的研究 针对目前学生电子作业抄袭现象严重的问题,一个高效且准确的作业抄袭检测机制的设 计则显得1 f 常重要。通过稃序自动发现作业中的抄袭行为代替教师的人1 :检测过程。既有利 于提高教师的丁作效率,又有利于对作业做出一个公正的评判,进一步遏制作业抄袭行为。 检测文档之间是否存在抄袭嫌疑,主要通过比较两篇文档之间的内容重叠程度或者内容 相似度,并用一个数值来进行描述。数值越大则说明抄袭嫌疑越大,反之,则说明抄袭嫌疑 越小。为了便于检测机制的顺利进行,必须处理好以下三个问题: 一、文档内容提取。现有的电子文档种类繁多,如h t m l 网页、o f f i c e 文档、p d f 、c a 3 等,为了能够对文档问的内容进行比较,首先必须提取出各类电子文档的正文,这也是检测 工作的前提。 二、文档相似度检测。文档之间是否存在抄袭嫌疑,主要通过计算文档间内容重叠程度 或者相似程度。关于这方面的研究国内外研究比较多。可供借鉴的成果也比较多。本文主要 针对学生作业文档特征,并结合现有的相关研究成果,寻求一个高效的、准确的检测方案。 三、文档结果显示。最终判断作业是否存在抄袭行为的决策者是老师。文档抄袭检测机 制只是用来给教师提供一个参考,缩小教师查找文档抄袭现象的范哥。因此,给用户提供一 个可视化检测结果界面就显得至关重要。 2 1 2 2 本文的主要工作 本文研究思路的核心是利用基于w e b 的自动化作业管理系统来提高师生的作业管理效 率,从而提高教育教学效率。围绕该研究思路,本文的主要工作概括如下: 1 在线作业自动收集技术研究。实现电子作业收集的自动化过程,并能自动分析作业 的相关属性,将文档分门别类保存到数据库中,有效解决作业收集过程中时间跨度 问题和作业多版本问题。 2 文档预处理技术研究。电子文档种类繁多,为了便于电子作业的自动收集和文档内 容的比较,必须能够从不同类型的档中成功提取出它的文本信息,为文档的进一步 分析提供条件。文档预处理是系统正常运行的基础。 3 文档复制检测技术研究。现有的文档复制检测方法比较多。通过大量的比较并在实 验的基础上,对原有算法进行改进,找出更加高敛、准确的文档复制检测方案,并 通过大量的试验来验证算法的可行性。 4 原型系统的设计与实现。基于本文的研究思路,我秆设计并开发了一个电子作业管 理系统原型,以验证本文所提出的各种方法的在实际运用中的效果。 1 3 本文的研究成果 1 基于w e b 的在线作业自动收集方案的设计。 2 电子文档复制检测技术方案的设计,通过接口的合理设计与使用,进步提高了系 统的通用性和可扩展性。 3 常见电子文档内容提取方案的设计。 1 4 本文的组织结构 本文共分为六章,文章的组织结构如下: 第二章“文档复制检测技术概述”,介绍了国内外电子文档复制检测技术的研究进展, 并对现有的各种检测方法的优、缺点进行了详细阐述。本章介绍了文档特征提取的方法以及 应注意的问题,最后对介绍了文档复制检测的评价技术。 第三章“电子作业管理技术”,针对传统作业管理环节中的种种弊端,本文提出了一个 自动作业管理系统,对作业管理系统设计的关键技术进行了详细描述。同时介绍了作业管理 系统各个模块的设计,以及他们的功能。 第四章“基于句子相似度的文档复制检测技术”,通过对文档复制类型的研究,本文提 出了一种基于句子相似度的文档复制检测机制。本章着重介绍了该算法的r = 作原理,并详细 介绍了该算法所涉及到的关键技术,最后通过大量实验对该算法进行实践检验,并对检测结 果进行了统计、分析,以验证该算法的有效性。本章还将本算法和其他的算法进行了比较, 实验证明,本算法是切实可行的。 第瓦章“原型系统的设计与实现”,介绍了电子作业管理和抄袭检测自动化系统的各个 板块的组成和功能,突出系统特色,并指出了系统中存在的问题。 第六章“总结与展望”。总结全文的内容,对进一步需要研究的工作进行展望。 3 第二章自然语言文本复制检测技术概述 目前,国内外学术著作的抄袭现象比较严重,这不仅使学术研究成果质量严重下降,还 妨碍了网络文化秩序的健康有序发展,严重损害了他人的利益。如今,许多用户冈为害怕自 己的文章被他人抄袭或者转载而不愿意把文章上传到i n t e r n e t 上。为了加强知识产权的保 护。急需建立一套文档复制检澳j 机制以维护他人的知识产权。 2 1 文档复制检测概念 所谓文档复制检测就是判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或多个 文件。剽窃不仅仅意味着原封不动的照搬,还包括对原作的移位变换,同义替换以及改变说 法重述等方式2 。 文档复制检测的思路是:将文章看成是一系列文本块( c h u n k ) 的集合,可以是字、词、 旬、段落、章节等,从文档吐、以中提取出备白的文本块集合c l ,岛。那么通过比较就可 以确定以下关系: 1 如果c i = c 2 ,那么d l 是如的完全拷贝; 2 如果c lc 岛,那么西是t 的子集复制,即吐是吃的部分; s 如果篝 爿 v a 胁“那么d l ,吐之间存在抄袭嫌疑,否则不存在v a h e 是用 户设定的检测阈值,即文档相似度。 数字产晶主要有两种保护措施:一种是“阻p 法”,另一种是“检测法”。 “阻j h 法”的思路是在数据源处进行限制,通过对数据源加密,使用水印或者使用基于 授权的方法等来防j p 用户的非法拷贝。但这种方法并不能防j l 授权川户的非法复制行为,而 且这种方法一旦被破解,用户就可以随意的复制,因此这种方法不能有效地解决知识产权的 保护问题。 “检测法”不考虑对数据源的获取加以限制,而是从一组已注册的文档集中查找出与给 定文档内容相似的文档集,将检测结结果向朋户汇报,并采取相应措臆对剽窃者进行惩罚, 以遏制抄袭行为的发生。“检测”法的核心在于文档复制检测技术,该方法相对“阻止”法 来说比较主动,且更有效。 2 2 文档复制检溯技术的进展 文档复制检测可以追溯到2 0 世纪7 0 年代,那时候的研究主要是围绕大规模的程序拷贝 展开的。自然语言文本复制检测技术的发展是继程序复制检测技术之后发展起来的,晚了近 2 0 年。 自从1 9 9 1 年用于查询重复基金申请书的w o r d c h e c k 软件应用以后,自然语言文本的抄 2 喜色军鹏、沈均毅、刘晓东、宋擒豹,自然语言文档复制检测研究综述,软件学报2 0 0 3 v 0 1 1 4 n o 1 0 4 袭识别技术在国外有了较大的发展,出现了多个抄袭识别系统。1 9 9 4 年,m a n d e r 开发了用 于大规模文件系统中相似文件查询的s i f 工具。率先应用数字指纹技术来计算文件相似度。 为抄袭论文识别技术提供了新思路。1 9 9 5 年,在研究斯坦福大学的“数字化图书馆”项目 中,b r i n 等采用数字指纹技术开发了数字文档的复制检测系统c o p s ,用丁识别文档的完全 复制和部分复制。c o p s 采用文档注册机制,其系统架构为后来的多数抄袭识别系统所采用。 同年,s h i v a k u m a r 等采用相关频率模型( r e l a t i v ef r e q u e n c ym o d e l ) 开发了新的复制检测 系统s c a m ,对c o p s 系统进行了改进,s c a w 借鉴了信息检索技术中的向量空间模型( v e c t o r s p a c e m o d e l ) ,采用了改进的余弦法来计算文档相似度。从试验结果看,s c a m 系统优于c 0 p s 系统。1 9 9 6 年,h e i n t z e 采用数字指纹技术开发了基于w e b 的抄袭识别原型k o a l a ,并发 布在网上供免费测试。1 9 9 7 年,b r o d e r 等采用了“s h i n g l i n g ”方法对1 5 0 g b 的w e b 文档 集合进行了分类,得到较好的试验结果。同年,a n t o n i o 等针对l a t e x 格式文档建立了抄袭 识别系统原型c h e c k ,c h e c k 先将l a t e x 文档分解为树型结构,再利用向量点积法来比较文 档相似度,首次使用了文档的结构信息,减少了无谓的计算,具有一定的实_ f i j 价值。2 0 0 0 年,g o n o s t o r i 等采用具有较高识别精度的m d r ( m a t c hd e t e c tr e v e a l ) 方法来确定文档的重 叠度,m d r 用后缀树( s u f f i xt r e e ) 来搜索字符串之间的最大子串,后来义采用后缀向量 ( s u f f i xv e c t o r ) 存储后缀树,从而提高识别效率。2 0 0 1 年,f i n k e l 提出s e ( s i g n a t u r e e x t r a c t i o n ) 方法检测文档的重叠度。s e 采朋0m o dp 的方法对文档指纹进行随规抽样,减 少了对指纹的存储消耗,提高了计算速度。但它对内容较少的文档的检测效果比较差,对内 容丰富的文档识别精确度较高。该方法包括文本分割( c h u n k i n g ) 、挑拣( c u l l i n g ) 、摘要 ( d i g e s t i n g ) 、排序( s o r t i n g ) 和比较( c o m p a r i n g ) 等步骤。2 0 0 2 年,c h o w d h u r y 等研究了犬 规模文档集合中重复文档的快速检测方法,采用和s i f f 类似的技术开发了i m a t c h 系统。 i m a t c h 对数据进行智能化预处理,去除高频词和低频词,优点在于提高系统效率。i - m a t c h 系统在识别相似度很高的文档时效果很好,但由于每个文档只有一个f l a s h 值,无法处理部 分抄袭的情况。2 0 0 3 年,s c h l e i m e r 等提出了基于数字指纹的w i n n o w i n g 算法来精确识别文 档复制问题,并麻用丁二抄袭识别在线服务网站m o s s 上。在国内,来擒豹等提出了数字商品 非法复制的检测算法,通过对数字正文的多层次、多粒度表示来构建基于词频统计的重叠度 度量算法,取得了较好效果。 本文着重研究自然语言抄袭检测技术,对于自然语言中程序抄袭检测技术不作介绍,本 文所提及的文档复制检测技术均指自然语言的文本复制检测。 2 3 文档复制检测技术分类 根据检测方法的不同,可将文档复制检测技术大致分为二类:基于字符串比较的方法、 基于统计的方法。 2 3 1 基于字符串比较的方法 该方法主要从文档中选取一些文本块( c h u n k ) ,然后使用h a s h 函数将这些字符串都映 射成数字,存在散列表中,最后统计两篇文档中具有相同文本块的数目,根据相似度计算公 式计算出两篇文档的相似度,作为判断它们是否存在抄袭嫌疑的依据。 5 现有的大部分用于文档复制检测的技术都是基于字符串比较的方法,。f 面选取其中典型 的几个进行介绍。 2 3 1 1c o p s 原型系统 c o p s 是由美国斯坦福大学数字实验室在1 9 9 5 年发明的用于文档复制检测的原型系统。 c o p s 把待检测文档与注册文档库中的数字文档进行逐一比较来鉴定是否存在抄袭现 象。它将文档根据标点符号( 如。,;,? 等) 分解成句子序列,并使用h a s h 函数 将句子转成整数的形式保存到数据库中,待检测的文档也使用同样的方式拆解成句子序列。 然后,通过比较两篇文档中旬子的散列值,得出两篇文档中相同句子的数量,相同句子的数 量与两篇文档中共有的句子数目的比值作为两篇文挡之间的相似度,以此来度量文档之问的 抄袭嫌疑大小程度。 c o p s 系统中,文档相似度计算公式如下所示: 踟( 删= 勰u 馘2 - l j 【a ) j ( 矗) i 其中,a ,b 分别代表待测文档和候选文档,s ( a ) 和s ( b ) 分别表示文档h ,b 的散列值集合。 图2 - 1c 0 p s 原型系统结构圈 c o p s 对检测大面积文档复制比较有效,计算速度比较快。但是它不能有效检测对句子 局部复制的现象且句子的边界比较模糊。如何判断句子的结束是个难点。文档中一些术语、 图标等常使c o p s 在界定句子的时候发生错误。如“e g ”就会被拆解成两个句子,“e ”和 “g ”,从而造成了无关文档匹配的机会增多,影响了检测结果的准确率。 2 3 1 2 啪s s 原型系统 2 0 0 3 年,s c h l e i m e r 等建立了基于数字指纹的w i n n o w i n g 算法的t 1 0 s s 系统 m o s s 采用基于k - g r a m 的方法来提取文档特征,即选取长度为k 的字符串作为文档的特 征项,每相邻的两个特征项之间有k 一1 个字符是相同的。字符串间的匹配必须满足两个特 性: ( 1 ) 只有长度大于t 的子串才会被进行匹配。t 是事先设定的阈值; ( 2 ) 那些长度小于k 的子串不会进行匹配。k 是噪声阈值且t2k 。 再通过匹配文档间的特征项,依据相似性公式得出待检测文档与数据库中已有文档的相 似程度,从而判断待测文档是否属于剽窃文档。 6 k - g r a m 法将产生大量的指纹,消耗大量的存储空间。为了降低比较的复杂性,m o s s 系 统采用随机抽样的方法对文档的指纹进行筛选。筛选同样也遵循两个原则: ( 1 ) 要能提取足够的指纹来作为文档的特征项; ( 2 ) 指纹提取方法能适应不同长短的文档。 m o s s 定义了大小为t - k + l 的窗口对文档的指纹集进行滑动提取,每个窗口中都必须选 择一个指纹作为文档的特征项。每个窗口中选取哈希码最小的那个指纹,如果一个窗口中最 小的指纹有多个,则选择最右边的那个指纹。通过滑动窗口的使用,充分保证了文档指纹的 密度。实验证明,该方法效果良好 2 3 1 3 岫r 原型系统 2 0 0 0 年,m o n o s t o r i 等人建立了m i ) r 原型系统。 m d r 首先把候选文档构造成棵后缀树,然后运用匹配统计算法直接在被检测文档中寻 找最大匹配字符串。m i ) r 的后缀树需要很人的存储空间,所以后缀树不适合人量文本的检测。 后来m o n o s t o r i 等人x 提出用后缀向量存储后缀树。后缀向量是从后缀树导出的有向 无环图的一种存储方式。后缀向量中只保存结点信息,不保存边索引,边标识从字符串中获 取,所以极大地节省了空间。 2 3 2 基于统计的方法 基丁统计的方法主要受信息检索技术的启发,将每一个文档都看成是由一组独立词条组 成的向量空间,这样,一篇文档就可以表示为: 哆= ,w 2 ,心j , d ,表示文档j ,表示词在当前文档中山现的频率。通过点积法或者余弦法计算两个文档 向量之间的相似度,如果相似度值超过一定的蒯值就认为两者是相似的。 2 3 2 1s c a m 原型系统 s c a m 就是典型的基于词频统计的方法。s c a m 参照信息检索领域空间向量模型( v e c t o r s p a c em o d e l ) ,提出了相关频率模型( r e l a t i v ef r e q u e n c ym o d e l ) 。它认为文档相似不一 定非要出现大面积的内容重叠,如果两篇文档的语义相似也能说明文档之间存在抄袭嫌疑。 s c a m 在进行文档相似检测时,使用两篇文档中词频相差不大的一组词来做为文档的特 征。令r 是待测文档,s 是候选文档,s c a m 定义了一个靠近集( c l o s e n e s ss e t ) 用于选择 文档r 和s 中出现频度相近的词,且满足如卜- 公式: 卜( 器+ 器j 。 黼一z l c ( s )# ( r ) j “ 其中= 2 + ,a o ) 是一个用户可调的常数,只( r ) ,巧( s ) 代表词频。需要注意的是:靠 近集中的词是两篇文档中共有的。如果两篇文档中,同一个词出现的频率一致,那这个 7 词一定在靠近集中,与占无关。两篇文档的相似度表示如下: 筇,= 避茹竽 馘:4 其中c ( r ,s ) 表示靠近集,a 表示词权重,显然s u b s e t ( r ,s ) s u b s e t ( s ,r ) ,因此, s i m ( r ,s ) = m a x ( s u b s e t ( r ,s ) ,s u b s e t ( s ,r ) ) 。如果s u b s e t ( r ,s ) 1 则令s u b s e t ( r ,s ) = 1 。用r f m 可以很好的检测子集包含式复制,并且占越大,说明对两篇文档中共有单词的容 忍度越大,但是无关文档匹配的几率就越大:占越小,说明对两篇文档中共有单词的容忍度 越小,检测小程度文档重合的能力也就越小。s c a m 并没有指出一个普适的值,但认为占= 2 5 对网络新闻文档比较有效。 s c a n 检测机制把文档转化成词袋的形式( b a go fw o r d s ) ,它忽视了文档中的词的特征 信息( 词出现的先后顺序) ,对丁学生的作业来说,尤其是同一个专业,同一次的作业来说, c h e c k 系统是1 9 9 7 年香港理工大学开发的原型系统。它也是采用关键词统计的方法来 计算文档的相似度,但与统计方法不同的是它引入了文档结构信息。c h e c k 首先将文档按照 章、节、段等构建一颗文档树,树的根结点就是整篇文档,其他节点都是文档的一部分。父 节点的内容是其子节点的内容的总和。然后使用词频统计的方法提取出各个节点的主题信 题信息,如果节点的主题信息相似,就继续节点的具体内容以及节点对应的子结点,否则不 进行比较,从而降低了文档无谓比较的次数,提高了程序的性能。最终以匹配的节点数目作 为文档是否具有抄袭嫌疑的依据。c h e c k _ l j 点积法计算关键词向量的相似度,计算公式如下: s c 匕,2 1 7 l 躲 公式:4 其中匕,分别代表文档a b 的关键词向量r = 吃t j 是文档词向量的并集,属于参考 向量,l j ,j j 分别是经过归一化后的巧,关键词,归一化公式如下: = o 徽。 公式2 5 其中,是关键词4 在该节点的权重。 在提取各个节点主题信息的过程中,还考虑了特殊格式的单词,如粗体、斜体,对于这 些词一律认为是很重要的词,不论它们出现的频率的多少。c h e c k 统计各个节点上关键词词 频,并以每一个关键词在该节点上的频率比重为相应权重,由此构建成的文档树就代表该文 档的结构特征。 2 4 文档特征提取方式 判断两篇文档之间是否存在抄袭嫌疑,主要通过比较这两篇文档中的内容雷同部分的多 少来衡量。雷同部分越多说明文档抄袭嫌疑越人,反之,说明文档抄袭嫌疑就越小。要确定 内容雷同部分的多少,首先需要提取出文档的特征。 根据文本块粒度的大小不同,我们可以把文档分解成字,词,句子,段落,章节等,每 一种分解方式称之为单元类型,单元类型的具体实例称之为单元。一个文本块就是一个或多 个连续的单元序列组成。文本块的选择将在很大程度上影响程序的效率。常用的文本块选取 策略如下: 第一,将一篇文档作为一个文本块。这是最粗的文本块选择方法,但它的效率比较高, 一篇文档被看做一个单一的文本块去希i 其他的文档进行比较。对文档进行h a s h 处理,所需 的存储空间也很小。但它只适合h j 来比较文本的精确相同,对内容部分相同的文本不能有效 识别。如果两个文本绝大部分相同,只有少部分相同,一般就可以认为这两个文档是相似的, 但是这种方法就认为不同。 第二,把一个句子看做一个文本块。要检测文档的部分复制,就必须减少文本块的长度。 把文档分解成句子序列,那么两篇文档的相似群序就可以通过它们共有的句子的数目来衡 量。对一篇文章来说,句子是比较有意义的单元,句子要比字词含有更多的语义信息。因此, 选择句子作为文本块是比较合理的。但是这中方法存在两个问题:一,对于句子的界定比较 模糊;二,不能识别句子级的部分复制现象。 第三,把每一个字作为一个文本块。这是最细的选取策略。两篇文章如果含有大量相同 的字,他们的相似度就会比较高。跟句子相比。一篇文章中字的数量相对较少。大部分字都 是相同的,所以把单字作为文本块,程序的效率反而比较高。但是它忽略了字词问的位置关 系,得出来的结果有失准确性。 第四,选择连续的k 个单元作为一个文本块,相邻的两个文本块之间不存在重复的单元。 如对于字符串“a b c d e f ”,设定一个字符是一个单元,连续三个字符作为一个文本块,那么 分解后的文本块有“a b c ”,“d e f ”。这种方法所需的存储空间比较小,效率比较高,但插入 9 或删除一个字符将使所有的文本块都移动一个位置,也就意味着修改后的文件跟源文件没有 共同的文本块,而事实并非这样。 第五,选择连续的k 个单元作为一个文本块,相邻的两个文本块之间存在k - 1 个重复单 元。按照规则四中的例子的相关设定将得到如下文本块:“a b c ”,“b c d ”,“c d e ”,“d e f ”。这 种方法能够有效识别文档部分抄袭的现象,且插入、删除、修改部分内容不会对检测结果带 来巨大的影响。但是它将耗费比原文档大很多的存储空间。可以通过抽样的方法从文本块集 中选取一部分作为文档的特征。 第六,h a s h 断点法。针对四、五规则中的缺陷,一个折中的选择方法就是使用h a s h 断点法。先计算出文档中第一个字的h a s h 值。对k 取余( k 是一个任意设定的数) ,如果余 数等于0 ,那么第一个文本块就是第一个字;如果不等于0 。就考虑第二个字,如果它的h a s h 值对k 取余等丁0 ,那么第一个文本块就是前两个字。如果还不等就接着算下一个字,直到 它的h a s h 值对k 取余等于0 为止,那么从前一个断点到当前字之间的一些列字的组合就组 成一个文本块。 2 5 文档复制检测技术的评价 实验评价在很多领域的研究中都起着举足轻重的作用,对文档复制检测系统来说尤为重 要。文档复制检测系绕的性能主要从检测效果( e f f e c t i v e n e s s ) 和检测效率( e f f i c i e n c y ) 两个方面米衡量。 2 5 1 检测结果 检测效果体现了系统的检测结果的准确程度( a c c u r a c y ) 。又包括检测结果的误报率 ( m i s c a l l ) 利漏报率( o m i t c a l l ) 。假定存在一个文档集合d d 中所包含的文档数m , 用户检测请求文档q ,系统返同的检测结果集合r ,r 所包含的文档数以,其中与g 相关 的文档数目是虬d ,不相关的文档数目是w ,未返回的文档集合r ,其中与g 相关的 文档数目南,不相关的文档数目,在文档集合d 中与口相关的文档数目是, 不相关的文档数目是越d ,则检测结果的误报率和漏报率分别表示如下: 所妇蒯= 等 公式z 石 n m | 一n a 删 公式2 - 7 n f d 误报率指通过程序检测出来的具有抄袭嫌疑的文档数经人工鉴定为没有抄袭嫌疑的几 率。它反应了系统返网捡测结果的准确程度;猫报率指人工鉴定具有抄袭嫌疑的文档,程序 没有能够检测出来的几率。它反应了系统检测相关文档的完备性,是对算法查找能力的度量。 1 0 一个好的系统应该同时具有较低的误报率和较低的漏报率但是两个标准是互补的,单纯提 降低其中一个必然导致另一个的升高,实际的系统往往追求两者的折中。 2 5 2 检测效率 系统的运行效率也是决定系统成败的关键因素。主要包括两个方面:1 系统处理一篇注 册文档所需要的时间;2 获取一篇文档的检测结果所需的时间。一个优秀的检测系统戍充分 考虑以上两个方面,尤其是后者。对于系统,用户最关注的还是检测一篇文档所需要时间损 耗。实际上,一个高效率但准确率稍低的系统可能要比一个低效但准确率稍好一点的系统更 受欢迎。 2 6 本章小结 本章首先介绍了文档复制检测技术的概念以及它的发展,然后着重介绍了文档复制检测 技术的分类,并对其中比较典型的几个检测系统进行介绍和分析,接f 来对文档特征提取常 用的一些方法进行了介绍,并分析了他啊j 各自的优缺点,晟后介绍了文档复制检测结果的评 价技术。 第三章电子作业管理技术 电子作业管理是教学:r 作中的一个重要环节,作业环节的信息化更有助于教育信息化进 程的进一步推进。实际上,教师花在作业管理上的时间不比花在教学上的时间少。一个好的 作业管理系统可以有效减轻教师的作业管理负担,使得教师可以把更多的精力投入到教学中 去。本章分析了传统的作业管理体系中的一些不足,提出了一种基于网络邮件系统的自动作 业管理方式,并详细阐述了作业管理中所涉及到的关键技术。 3 1 电子作业管理的概念 电子作业管理针对不同的对象来说它的含义也不一样。对于老师来说,它主要涉及作业 的分发与收集,作业批改,作业统计,成绩统计,信息查询,作业版本管理以及作业抄袭检 测等;对于学生来说,它意味着学生可以查询作业的当前状态,如作业提交状态,作业批
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年吸尘袋纸行业分析报告及未来发展趋势报告
- 通江县(2025年)员额法官遴选面试考题及答案
- 2025年护考胃癌试题库及答案
- 2025年孤立性肺结节的影像诊断思路及处理策略考核试卷附答案
- 邢台市公开遴选公务员笔试题及答案解析(A类)
- 2026年政策法规考试题库及答案
- 2026年职场礼仪知识模拟考核试题及答案
- 2026年国家公务员考试公共基础知识每日一练题库及参考答案
- 河南省洛阳市(2026年)辅警招聘公安基础知识题库附含答案
- 2025年营养科考核测试题及答案
- 2026安徽合肥机场国际服务中心运营管理人员招聘2人笔试备考试题及答案解析
- AQ 3067-2026《化工和危险化学品生产经营企业重大生产安全事故隐患判定准则》解读
- 结算审计廉政建设制度
- 职场压力管理:从认知到行动的全面解决方案
- 上海市闵行区2026届初三一模英语试题(含答案)
- 产房环境管理与消毒
- 中考数学-12个模型例题详解练习(含答案)
- GB/T 5780-2025紧固件六角头螺栓C级
- 肛瘘病中医课件
- 重大事故隐患的判定标准
- 国际边境管控原则的法理分析
评论
0/150
提交评论