




已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,基于指纹的中文文档复制检测系统,2,主要内容,3,应用背景,文档剽窃 Internet为人们提供了 前所未有的便利,我们可以方 便、快捷获得和传递信息,它 推动着高科技不断向前发展。但 是,信息资源的易获性和开放性也 有不利方面,它使剽窃有机可乘, 剽窃越来越容易,越来越猖獗; 剽窃侵犯了著作者的著作权, 严重影响了科学文化的 健康发展。,Title Add your text,Title Add your text,互联网重复网页 互联网上的信息资源正 在以指数级增长,重复网页 日益增多,很多网页都存在多个 版本。因此搜索引擎经常检索出 具有相同信息的重复网页。这样既 浪费了查询者很多宝贵的查询时 间,降低了检索效率.去除重复 网页成为了搜索引擎技术 中一项很有意义的 工作.,4,研究意义,在数字图书馆里文档主要以电子形式存在,所以很容易被拷贝,经常出现剽窃论文的现象,这种现象必须解决,否则信息所有者不愿意将宝贵的信息发布到图书馆中,而且这些剽窃的文档占有存储空间。在数字图书馆中加入复制检测技术可以检测出剽窃文档,保护信息所有者的知识产权。,信息检索,在进行信息检索时总是希望尽快找到准确的内容,一篇文档很有可能以多种格式存在,检索时可能返回多个结果,这就降低了检索效率且浪费网络资源。如果在提交此结果之前我们先加入一个复制检测系统来优先索引网页,如果新的网页被发现与已经索引的网页相似度很大,那么不再提交此网页。,网上论文提交,现在存在很多网上论文提交系统,在论文提交后,编辑们要处理两个问题:一是提交的论文与别人在以前的会议、杂志、学术报告上有多大的相似性;另外,还要检查现在提交的论文与作者本人以前发表论文有多少不同。,数字图书馆,5,复制检测又称剽窃检测(plagiarism detection),就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或者多个文件,剽窃不仅仅意味着原封不动地照搬还包括对原文内容的移位交换、同义词替换、改变说法重述等。,复制检测的定义,6,2006年,Namoh Kang等从剽窃模式的角度进行文本复制检测的研究,描述了文本复制检测从难到易的检测层次(如下面图),该模式按照难易程度将文本复制检测分为各个层次的检测,提出一个基于剽窃模式的更为精确的文本复制检测系统。,易,文档复制 段落复制 句子复制 词的移位变换 句子结构改变改变说法重述,文档复制检测的难易程度,难,7,现有的文档复制检测方法,基于词频统计的方法 基于hash文本块的方法 基于语义知识的方法,8,研究现状,基于词频统计的文档复制检测方法 把文档表示成以词为元素组成的向量,根据每个词出现的频率与逆文本频率赋以相应的权值,再通过点积或者余弦等方式度量文档间的相似度。具有代表性的词频统计方法为1995年美国Stanford大学提出的SCAM (Stanford Copy Analysis Method)模型、1997年香港理工大学建立的CHECK原型、西安交通大学2001年提出的CDSDG(Copying Detection System of Digital Goods)系统和2006年提出的高频模型HFM(Heavy Frequency Model)。 缺点: (1)基于词频统计的文档复制检测方法虽然广泛应用于文本聚类、信息检索等领域,但是它并不适用于文档复制检测技术; (2)只能检测出两篇文档之间的相似度,不能发现一篇文档同时复制多篇文档的行为; (3) 检测结果准确率不高,误差大。,9,研究现状,基于Hash文本块的文档复制检测方法 从文档中选取一些字符串,然后把字符串映射为Hash表中的数值,这些数值被称为“指纹”。通过统计Hash表中相同的指纹数目或者比率来得出文档间的重叠度。具有代表性的Hash文本块方法为1994年ARIZONA亚利桑那州立大学提出的Sif工具、1995年Stanford大学开发的COPS(COPy detection System)系统、2000年Monostori等人建立的MDR(Match Detect Reveal)原型系统和2003年芝加哥大学提出的Winnowing算法。 优点:算法简单、运算速度快 缺点: 该类方法实际上只是进行简单的字符串匹配,因此只能检测出完全相同的全部或部分复制文本,以及移位变换的复制文本,无法发现复杂复制方式,如同义词替换、改变说法重述等。,10,研究现状,基于语义知识的文档复制检测方法 从计算语言学领域出发,试图通过各种形式化的方法表示出文本的语义特征,从而度量文档间的重叠度。 现存的基于语义知识的文档复制检测方法为2005年大连理工大学金博等人提出的基于语义理解的文本相似度算法。该算法以知网的概念描述为基础,改进了现存的词语相似度的计算公式,并将词语相似度计算推广到段落范围,进而将这种段落相似度计算推广到篇章相似度计算。 缺点:能够发现的文档复制方式有限,检测结果的准确率不理想。,11,基于指纹的文档复制检测系统,计算指纹,比较指纹,分词,文档,按段落分块,按句子分块,计算句子指纹,计算段落指纹,计算文档指纹,文档指纹相同,文档1各粒度指纹,文档2各粒度指纹,句子指纹相同,段落指纹相同,分词,N,N,N,文档1与2 完全相同,文档1与2 段落相同,文档1与2 句子相同,Y,Y,Y,12,基于指纹的文档复制检测系统,高校是培养人才的基地。大学生是高校思想政治教育的主体。以人为 本是高校思想政治工作必备的理念。 以人为本是社会主义市场经济和时代发展的需要。现代社会是政治经济科技教育文化和生活变化发展极其迅捷的时代。造成了更加激烈的社会竞争,现代社会知识经济初见端倪。,高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。 以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。,分词,按照段落划分,13,基于指纹的文档复制检测方法,高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。,以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。,高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。,高校/是/培养/人才/的/基地。,大学生/是/高校/思想政治教育/的/主体。,按照句子划分,以人为本/是/高校/思想政治工作/必备/的/理念。,14,基于指纹的文档复制检测方法,高校/是/培养/人才/的/基地。,令asc(高校)=0; asc(是)=1; asc(培养)=2; asc(人才)=3; asc(的)=4; asc(基地)=5;,计算句子指纹,Hp(w1w2wn)=(w1bn-1+w2bn-2+wn-1b1+wn) mod p 令b=2,p=最大的素数, n=6,Hp(高校/是/培养/人才/的/基地)=025+ 124 + 223 + 322 + 421 + 520= 52,Hp(大学生/是/高校/思想政治教育/的/主体)=30,大学生/是/高校/思想政治教育/的/主体。,以人为本/是/高校/思想政治工作/必备/的/理念。,Hp(以人为本/是/高校/思想政治工作/必备/的/理念)=20,15,基于指纹的文档复制检测方法,段落指纹:Hp(s1s2sn)=(s1bn-1+s2bn-2+sn-1b1+wn) mod p 令b=2,p=最大的素数。,Hp(s1)= 52, Hp(s1)= 30, Hp(s1)= 20,P1: 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。,Hp(P1)=(s1bn-1+s2bn-2+sn-1b1+sn) mod p = 5222+ 3021 + 2020 = 308,以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争,现代/社会/知识经济/初见端倪。,P2:,Hp(P2)=566,计算段落指纹,16,基于指纹的文档复制检测方法,P1: 高校/是/培养/人才/的/基地。大学生/是/高校/思想政治教育/的/主体。以人为本/是/高校/思想政治工作/必备/的/理念。,以人为本/是/社会主义/市场经济/和/时代/发展/的/需要。现代/社会/是/政治经济科技/教育/文化/和/生活/变化发展/极其/迅捷/的/时代。造成/了/更加/激烈/的/社会/竞争
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河北邯郸冀南新区选聘农村党务(村务)工作者111人模拟试卷附答案详解(黄金题型)
- 2025广东广州市花都区汽车客运站有限公司招聘会计人员人员模拟试卷有完整答案详解
- 第二十一章 一元二次方程 单元试卷 【含答案】2025-2026学年人教版数学九年级上册
- 2025年消毒与灭菌技术职业资格考试试卷及答案
- 2025年公务员面试试题题及答案
- 公安公路隔音墙施工方案
- 立法法执法考试题及答案
- 电站安全教育培训课件
- 2025合同填写签订范本
- 2025私营企业劳动合同解除协议
- 火锅店引流截流回流方案
- 国庆中秋双节安全培训课件
- 2025年全国青少年全国禁毒知识竞赛试题及答案
- 云南学法减分题库及答案
- 幼儿园大班数学活动《4的分解与组合》课件
- 2025秋七年级开学新生家长会《启幕新篇章携手创辉煌》【课件】
- GJB3243A-2021电子元器件表面安装要求
- 2025年4月自考03450公共部门人力资源管理试题
- TCCEAS001-2022建设项目工程总承包计价规范
- 初中语文古诗词教学策略课件
- 视频安防监控技术交底
评论
0/150
提交评论