论文相似度分析系统设计.pdf

上传人：s*** IP属地：河南上传时间：2020-01-17 格式：PDF 页数：51 大小：4.06MB 积分：0 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

论文相似度分析系统设计.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

山东大学硕士学位论文论文相似度分析系统设计姓名徐川申请学位级别硕士专业软件工程指导教师徐秋亮 2012 10 16 山东大学硕士学位论文摘要论文抄袭是困扰学术界的严重问题之一当前英文论文的相似度分析主要采用数字指纹和字符串匹配等技术该技术发展应用的比较成熟但是在进行中文论文的相似度分析时我们采用的算法一般都是识别率比较低效率也低因此对中文论文的相似度分析还需提高文本复制检测技术在知识产权保护和信息检索中有着重要应用文档复制检测在初期主要检测程序复制现在则主要应用于学术不端论文检测文章首先对文本复制检测技术的研究意义和发展历史进行了简单的介绍接着文章介绍了中文分词因为中文分词是解决论文相似度分析的基础并且文章分析了I C T C L A S 中文分词系统本文设计了一套论文相似度分析综合方法本设计主要使用两种基本的文本复制检测方法基于段落的词频统计和逐层的指纹识别这套方法是对词频统计指纹识别和K M P 字符串匹配等方法的改进和完善基于段落的词频统计只需要对某个抄袭的段落进行匹配操作即可无需全篇匹配大大提高了性能同时由于字符串直接匹配是最准确的匹配方法因此提高了抄袭判定的准确率逐层的指纹识别性能比词频统计系统更优更适合于超大规模计算的文本复制检测方法本文的指纹生成使用k w o r d s 法为基础指纹选取使用w i n n o w i n g 策略本文使用j a v a 代码实现了这套方法的部分功能实现功能包括段落词频统计和交互式论文相似度分析系统交互式论文相似度分析系统包括词频统计指纹识别双重K M P 等部分本文还对此程序进行了系统测试分析主要包括交互式论文相似度系统测试和段落词频统计程序测试证明了其可行性和性能优势文章最后在大量工作的基础上总结了中英文文本复制检测的异同点并对未来中文文本复制检测方法进行了展望关键词复制检测词频统计指纹识别 I C T C L A S K M P 算法山东大学硕士学位论文 A B S T R A C T P l a g i a r i s mi so n eo ft h es e r i o u sp r o b l e m st h a tt r o u b l e da c a d e m i a A tp r e s e n t w em a i n l y u s ed i g i t a lf i n g e r p r i n ta n ds t r i n gm a t c h i n gt e c h n i q u e sf o rs i m i l a r i t ya n a l y s i so ft h e E n g l i s hp a p e r s i ti sm o r em a t u r e B u tf o rC h i n e s ep a p e r s t h e r ea r em a n yp r o b l e m sf o r m o s ta l g o r i t h m sl i k el o wr e c o g n i t i o nr a t ea n dl o we f f i c i e n c y S ow em u s ti m p r o v et h e s i m i l a r i t ya n a l y s i st e c h n o l o g y I th a sv e r yi m p o r t a n ta p p l i c a t i o nb o t hi ni n t e l l e c t u a lp r o p e r t yp r o t e c t i o na n di n f o r m a t i o n r e t r i e v a lf o rt e x tc o p yd e t e c t i o n I ne a r l yd a y s t e x tc o p yd e t e c t i o nm a i n l yc o n c e n t r a t e d o np r o g r a mp l a g i a r i s ma n dn o wt h em o s ts t u d i e sa r eo nt h ep a p e r sd e t e c t i o no f a c a d e m i cm i s c o n d u c t F i r s t l yt h ep a p e ri n t r o d u c e st h es i g n i f i c a n c eo fr e s e a r c ha n d d e v e l o p m e n t so ft h et e x tc o p yd e t e c t i o nt e c h n o l o g y t h e nt h ep a p e rd e s c r i b e sC h i n e s e W o r dS e g m e n t a t i o n b e c a u s eC h i n e s ew o r ds e g m e n t a t i o ni st h eb a s i so fs o l v i n gt h e p r o b l e mo fp a p e r s s i m i l a r i t ya n a l y s i s T h ep a p e ra l s oi n t r o d u c e st h eI C T C L A SC h i n e s e w o r ds e g m e n t a t i o ns y s t e m A n dt h e nt h ep a p e rd e s i g n sa c o m p r e h e n s i v ea n a l y s i sm e t h o do fp a p e r ss i m i l a r i t y T h e r e a r et w om a i nb a s i ct e x tc o p yd e t e c t i o nm e t h o d si nt h i sd e s i g n w o r df r e q u e n c ys t a t i s t i c s b a s e do nt h ep a r a g r a p ha n df i n g e r p r i n ti d e n t i f i c a t i o ns t e pb ys t e p T h ec o m p r e h e n s i v e p l a ni st h ei m p r o v i n ga n dp e r f e c t i n go ft h ep l a no b t a i n i n gf r e q u e n c yc o u n t f i n g e r p r i n t i d e n t i f i c a t i o na n dK M P s t r i n gm a t c h i n gm e t h o d W eo n l yn e e dt om a t c haa p l a g i a r i z e d p a r a g r a p h n o tac o m l p l e t em a t c hf o rw o r df r e q u e n c ys t a t i s t i c sb a s e do nt h ep a r a g r a p h i tg r e a t l yi m p r o v e st h ep e r f o r m a n c e A tt h es a m et i m et h es t r i n gd i r e c tm a t c h i n gi st h e m o s ta c c u r a t em e t h o d t h e r e f o r ei ti m p r o v e st h ea c c u r a c yo fp l a g i a r i s md e t e r m i n a t i o n T h ep e r f o r m a n c eo ff i n g e r p r i n ti d e n t i f i c a t i o ns t e pb ys t e pi sm u c hb e t t e ra n di ti sm o r e s u i t a b l ef o rl a r g e s c a l ec a l c u l a t i o ni nt h et e x tc o p yd e t e c t i o nm e t h o d s T h ef i n g e r p r i n t g e n e r a t i o nu s e su s i n gk w o r d sm e t h o d f i n g e r p r i n ts e l e c t i o nu s e sw i n n o w i n gs t r a t e g y T h e n W eu s et h eja v ac o d et oa c h i e v es o m eo ft h ef u n c t i o n so ft h i sa p p r o a c h t h e f u n c t i o n si n c l u d et h e p a r a g r a p h w o r d f r e q u e n c y s t a t i s t i c sa n di n t e r a c t i v e p a p e r s i m i l a r i t ya n a l y s i ss y s t e m t h es y s t e mi n c l u d e sw o r df r e q u e n c ys t a t i s t i c s f i n g e r p r i n t i d e n t i f i c a t i o na n dd o u b l eK M RT h ep a p e ra l s oc a r r yo nt h e s y s t e mt e s ta n a l y s i s i n c l u d i n gi n t e r a c t i v es i m i l a r i t ys y s t e mt e s ta n dp a r a g r a p h sw o r ds t a t i s t i c a lp r o c e d u r e t e s t W e p r o v e i t s f e a s i b i l i t ya n dp e r f o r m a n c ea d v a n t a g e s F i n a l l y t h i sp a p e r 山东大学硕士学位论文 s u m m a r i z e st h es i m i l a r i t i e sa n dd i f f e r e n c e si nC h i n e s ea n dE n g l i s ht e x tc o p yd e t e c t i o n b a s e do nal o to fw o r k a n dp o i n to u tt h ed e v e l o p m e n td i r e c t i o no fC h i n e s et e x tc o p y d e t e c t i o nm e t h o d K e yw o r d s T e x tc o p yd e t e c t i o n w o r df r e q u e n c ys t a t i s t i c s F i n g e r p r i n ti d e n t i f i c a t i o n I C T C L A S K M Pa l g o r i t h m I I I 山东大学硕士学位论文 C o N T E N T S C h i n e s eA b s t r a c t I E n g l i s h A b s t r a c t I I P a r tII n t r o d u c t i o n 1 1 1 B a c k g r o u n da n ds i g n i f i c a n c eo f t h e r e s e a r c h 1 1 2R e s e a r c hS i t u a t i o n 1 1 3T h em a i nw o r k 2 P a r t A no v e r v i e wo ft h eC h i n e s ew o r ds e g m e n t a t i o n 3 2 1T h e r eC h i n e s ew o r ds e g m e n t a t i o nm e t h o d s 3 2 1 1W o r ds e g m e n t a t i o nm e t h o d sb a s e do nt h es t r i n gm a t c h i n g 3 2 1 2W o r ds e g m e n t a t i o nm e t h o d sb a s e do nt h eu n d e r s t a n d i n g 4 2 1 3W o r ds e g m e n t a t i o nm e t h o d sb a s e do nt h es t a t i s t i c a l 5 2 2T h eI C T C L A S C h i n e s ew o r ds e g m e n t a t i o ns y s t e mo fC h i n e s eA c a d e m yo f S c i e n c e s 5 2 2 1C h a r a c t e r i s t i c so ft h eI C T C L A S 6 2 2 2T h ed e v e l o p m e n th i s t o r yo fI C T C L A S 7 P a r tIl l T h e d e s i g no fp a p e r ss i m i l a r i t ya n a l y s i ss y s t e m 8 3 1R e v i e wo f t h es y s t e md e s i g n 8 3 1 1T h ed i a g r a mo fs y s t e ms t r u c t u r e 8 3 2w o r df r e q u e n c ys t a t i s t i c sb a s e do nt h ep a r a g r a p h 9 3 2 1 T h em o d e lo f v e c t o rs p a c e 1 0 3 2 2 R e c o g n i t i o na l g o r i t h md e s i g no fw o r df r e q u e n c ys t a t i s t i c s b a s e do n p a r a g r a p h 1 2 3 3 F i n g e r p r i n ti d e n t i f i c a t i o ns t e pb ys t e p 1 2 3 3 1 F i n g e r p r i n tg e n e r a t i o na l g o r i t h m 1 4 3 3 2S t r a t e g yo f f i n g e r p r i n ts e l e c t i o n w i n n o w i n gf i n g e r p r i n ts e l e c t i o n 1 5 3 4 S t r i n gm a t c h i n ga l g o r i t h m 1 8 3 5T h es y n o n y ms u b s t i t u t i o na n do t h e rm e t h o d s 1 9 P a r t T h er e s l i z a t i o no fp a p e r ss i m i l a r i t ya n a l y s i ss y s t e m 21 4 1T h ef r a m e w o r ka n dp r o c e s so f t h es y s t e m 2 1 山东大学硕士学位论文 4 2I n t e r a c t i v ep a p e r s i m i l a r i t ya n a l y s i ss y s t e m 2 2 4 2 1P a r a m e t e rs e t t i n g sa n dp a p e r s a d d s 2 2 4 2 2T h es y s t e mi n t e r f a c ea n do p e r a t i o nm e t h o d 2 3 4 2 3T h er e a l i z a t i o nm e t h o do ft h ec o r ef u n c t i o n s 2 4 4 2 3 1L a y e r e d f i n g e r p r i n ti d e n t i f i c a t i o nr e a l i z a t i o nm e t h o d 2 4 4 2 3 2R e a l i z a t i o nm e t h o do f w o r df r e q u e n c ys t a t i s t i c s 2 5 4 2 3 3R e a l i z a t i o nm e t h o do f d o u b l eK M P 2 6 4 3I n d e p e n d e n tw o r df r e q u e n c ys t a t i s t i c s 2 7 P a r tV S y s t e mt e s t 2 9 1 1T h ep u r p o s eo f t h et e s t 2 9 5 2T h et e s to fi n t e r a c t i v ep a p e rs i m i l a r i t ya n a l y s i ss y s t e m 2 9 5 2 1C o n t e n to f t h et e s t 2 9 5 2 2P r o c e s so f t h et e s t 2 9 1 3T h et e s to f w o r df r e q u e n c ys t a t i s t i c s 3 4 5 3 1 C o n t e n to ft h et e s t 3 4 5 3 2P r o c e s so ft h et e s t 3 4 5 4T e s tr e s u l t s 3 8 P a r t D i s c u s s i o na n dp r o s p e c t so fp a p e rs i m i l a r i t ya n a l y s i ss y s t e m 3 9 6 1D i f f e r e n c e si nC h i n e s ea n dE n g l i s ht e x tc o p yd e t e c t i o n 一39 6 2 P r o s p e c t so f p a p e rs i m i l a r i t ya n a l y s i ss y s t e m 4 0 R e f e r e n c e s 4 2 A c k n o w l e d g e m e n t s 4 3 山东大学硕士学位论文 1 1 研究背景及意义第1 章引言近些年来论文抄袭成为困扰学术界的严重问题之一抄袭剽窃之风在今天的学术界愈演愈烈几乎是不争的事实抄袭是指将他人作品或者作品的片段窃为己有更准确地说抄袭是指将他人作品或者作品的片段窃为己有并公开发表论文中可以适当地引用他人作品的部分内容当然要指明出处但如果引用不合理就涉嫌抄袭著作权法实施条例第二十七条第二款规定所引用部分不能构成引用人作品的主要部分我国文化部1 9 8 5 年曾对合理引用量作了规定该规定指出引用非诗词类作品不得超过2 5 0 0 字或被引用作品的十分之一多次引用同一部长篇非诗词类作品总字数不得超过1 万字引用诗词类作品不得超过4 0 行或全诗的四分之一但古体诗词例外凡引用一人或多人的作品所引用的总量不得超过本人创作作品总量的十分之一但专题评论和古体诗词除外目前对于英文论文的相似度分析比较成熟主要采用数字指纹和字符串匹配等技术而对于中文论文的相似度分析还不太成熟大多数算法存在识别率低效率不高等问题 l 论文相似度分析不仅只是单纯用来进行学术不端行为的检测还具有以下两种功能第一文献保护可准确发现您的重要文献是否被他人非法使用或者保护个人或单位的重要文件资料被他人不恰当的描述还可以预防个人或单位的保密信息和资源在其他文献中被不恰当的公开第二文献比对可实现一个文献与其他一个或多个文献的比对例如出版社可能希望避免潜在的版权侵犯行为律师在知识产权案件中可使用文本复制检测技术来快速确定两篇或多篇文献中的文字复制情况 2 J 1 2 研究现状自然语言文档复制检测技术最早出现在1 9 9 3 年 A R I Z O N A 大学的M a n b e r 提出了S i l l 2 1 工具用于在大规模文件系统中寻找内容相似的文件 S i f A 2 具提出了近山东大学硕士学位论文似指纹 a p p r o x i m a t ef i n g e r p r i n t s 的概念就是利用基于字符串匹配的方法来度量文件之间的相似性此后很多文本复制检测系统都采用了这个思路女n c o P s K O A L A s h i n g l i n g I M a t c h M D R Y A P 等 1 9 9 5 年斯坦福大学的B r i n 和 G a r c i a M o l i n a 等人首次提出了文本复制检测机 1 C O P S 及其相应的算法随后 S h i v a k u m a r 等人又提出了S C A Mf S t a n f o r dc o p y a n a l y s i sm e t h o d 原型1 改进了C O P S 系统用于发现知识产权冲突 S C A M 借鉴了信息检索技术中的向量空间模型使用基于词频统计的方法来度量文本相似性后来G a r c i a M o l i n a 币l S h i v a k u m a r 等人还在S C A M 的基础上提出d S C A M 模型把检测范围从单个注册数据库扩展到分布式数据库上以及在W e b 上探测文本复制的方法同期又出现了K O A L A 系统与之类似的还有B r o d e r 等人提出来的 s h i n g l i n g 方法到了2 0 0 0 年又出现了用后缀树来搜寻字符串之间的最大子串的M D R 原型西安交通大学宋擒豹等人提出了 C D S D G c o p y i n gd e t e c t i o ns y s t e mo f d i g i t a lg o o d s 系统这是为了解决数字商品非法复制和扩散问题而开发的一个基于注册的复制监测原型系纠引除此之外还有很多文本比较工具和软件都是针对两篇文档的内容进行比较的例如 W C o p y f i n d 和B e y o u dC o m p a r e 等 2 0 0 7 年金博等人还从论文的篇章结构相似度出发提出了基于篇章结构相似度的复制检测算法它是在学术论文理解的基础上针对学术论文的特有结构对学术论文进行篇章结构分析再通过数字指纹和词频统计等方法计算出学术论文之间的相似度从而找出抄袭的现象但此算法只是针对书写格式规范的学术论文抄袭情况的判定 1 3 本文的工作本文在前人工作的基础上设计了一套论文相似度分析综合方法设计主要包括基于段落的词频统计逐层的指纹识别一种字符串匹配方法和同义词替换方法等基于此设计使用J A V A 语言实现了交互式论文相似度分析系统和独立的段落词频统计程序并对此程序进行了测试分析证实了其可行性和性能优势本文在大量工作的基础上总结了中文文本复制检测的异同并对未来中文文本检测的发展方向进行了展望山东大学硕士学位论文第2 章中文分词概述中文分词 C h i n e s eW o r dS e g m e n t a t i o n 是将某个中文汉字的序列切分成一个一个独立的词分词就是将连续的字序列按照一定的规范重新组合成词序列的过程我们知道在英文的语句中单词之间是以空格作为自然分界符的但是对于中文只有字句和段能通过明显的分界符来划分而词没有一个形式上的分界符虽然英文对短语的划分也存在着问题但是对于词的划分问题中文比之英文要复杂的多困难的多 4 1 解决论文相似度分析的基础是中文分词只有进行合理的中文分词才能进行自动识别语义中文分词技术概念比较专业属于自然语言处理的专业范畴例如对于一篇文章的某一段话来说我们能分辨出不同种类的词而计算机却不能主动的辨别出来我们的目的就是通过分词算法让计算机也能区分出词国际上的分词算法可分成3 类字符串匹配的分词算法基于理解的段落方法和基于分词统计的方法中文在文法上的特殊性促使了中文分词技术的不断向前发展主要表现在以下几个方面 1 在拉丁语系以英文为例子中英文用空格作分割符但是中文却不存在例如 Il o v ey o u 可自然分割为I l o v e y o u 三个词各个词语能独立表义但是在中文里我喜欢你实在是缺少分隔符没有办法对符合汉字表义的切分我喜欢你 2 在中文之中单字不如词的的表义能力强词语是现代汉语的基本表义单位以多字或双字为多这些词语独立切分后无法独自表义例如软件学院基本语义单元为软件和学院如果按单字切分为软件学院可是这四个单独的字无法正确表达意义因此不符合意义因此中文分词技术是中文信息处理的前提和基础 2 1 三种中文分词方法 2 1 1匹配字符串的分词法山东大学硕士学位论文该方法又叫做机械分词法就是匹配待分析的汉字串和一个足够大的超级词典中的词语如果在词典中能找到某个词语或者串那么就表示匹配成功否则则失败串匹配分词法有三种分词方法根据与词性标解的结合与否又可分为独立分词法和分词与标解相结合的方法根据长度不同优先匹配的原则可分为最长匹配和最短匹配根据扫描方向的不同又分为逆向和正向匹配以下是几个常用的机械分词方法 1 最少切分法每一个句子切出的词语数最少 2 最大正向匹配方法由左到右的方向 3 最大逆向匹配方法由右到左的方向 4 最大双向匹配方法分别进行两次扫描方向是由左到右由右到左在实际应用中我们一般是几种方法相互组合例如正向最大匹配法和逆向最大匹配法结合起来就构成了双向匹配法该方法就比较强大因为汉语往往一个字就是一个词所以最小正向匹配和最小逆向匹配我们不常见综合来说逆向匹配的切分精确度整体高于正向匹配遇到的歧义现象也是比较少的但是结果仍然不够精确工作标准的分词系统都是把机械分词作为一个简单的初次识别的手段为了改进切分的精准率我们还需要采集更多的语言信息改进切分方法一种方法是把分词和词类标解相结合该方法的优点是不仅能使用丰富的词语类信息而且还能检测分词的结果这种方法对于提高切分的准确率有很大的帮助还有一种方式法就是扫描方式进行改革创新我们称之为特征扫描或标志切分我们先将段落中带有明显特点的词语切分出来并且以这些词语作为切分基础将段落切分为小的字符串最后进行机械分词这样的机械分词法最终能组建成为普遍应用的模型在这方面有专业论文研究我们这里不做详述 2 1 2 基于理解层面上的分词法这类方法我们需要让计算机模拟人的思维理解句意的含义这个核心算法就是不仅进行分词而且还分析句子的语法和含义使用句法海量信息和语义海量信息来处理歧义的发生这个方法包括三个核心部分总控系统句法语义系 4 山东大学硕士学位论文统分词系统总控系统的主要功能是负责整体协调分词系统可以得到所有词和句子等的句法和语义信息来对分词歧义进行判断意思是分词系统模拟人理解句子和段落的过程这类分词方法必须使用海量的语言信息和语言知识可是汉语语言实在是博大精深它的广泛性和复杂性我们很难用各种信息组成计算机可以直接理解的形式所以该分词系统还处在摸索阶段 2 1 3 基于统计的分词法在字面上看某几个稳定的字或单独的字组成词所以在段落中相邻的字出现的次数越多组成词的概率更大那么字和字之间同时出现的频度或者说概率可以非常明显的反映出成词的可靠度我们统计出中相邻共现的字的组合的频率计算出它们同时出现的概率根据字的互现记录计算两个汉字的相邻共现概率巧1 概率越高表明我国汉字关系更紧密一旦紧密度高于某一个阈值时我们就认定此字的组合构成了一个词这种方法主要是统计字组的频度不进行分词的切分因而又叫做无切分词语分词法但是这种方法也有一定的缺陷可能会看到很多出现频度高不是词的常见字组例如就认她的可的而缺缺少的等工业中使用的应用统计分词系统进行串匹配分词时以基本的分词词典为基础再利用统计方法识别出一些不常见的词语即将字符串频率统计和字符串匹配结合起来既体现匹配分词切分效率高速度快的优点还可以利用无词典分词结合段落识别生词自动解决歧义的优点当今没有哪一种分词技术敢说自己的准确的最高工业使用中的任意一个识别系统来说都不会独独利用一种方法来实现其功能都需要将不同的方法结合起来例如海量科技的分词方法就是采用复方分词法该方法与中药中的复方的意思有异曲同工之处就是不同的算法综合起来处理对于中文语言 2 2中科院I C T C L A S 中文分词系统中科院的I C T C L A S 5 1 和天津海量科技公司的分词系统是我们常用的分词软件这两个软件在国内发展的较成熟特别是中科院的汉语词法分析系统 I C T C L A S 该系统包含的功能很多包括中文分词命名实体识别新词识别同时支持用户词典等本文就是采用中科院的I C T C L A S J A V A 简单版进行分山东大学硕士学位论文词预处理的 2 2 1I C T C L A S 特色 1 国内外权威的公开测评五万以上使用者的认可 I C T C L A S l 0 在中国九百余名专家参与的测评中获得了第一的名次 I C T C L A S 2 0 经过S i n H a n 机构组织的资质测评荣获第一名这些权威机构水平非常之可信他们的测评结果是可以完全信任的日前国内外学校学术机构和企业就是有超过五万个组织或者个人接受了 I C T C L A S 的授权其中较为知名的企业包括云南日报中华上午 N E C 硅谷动力学校包括清华大学麻省理工大学与此同时人民日报海外版等多家传媒也都广泛的报道过I C T C L A S 2 综合性能最优分词识别系统能否达到工业标准取决于两个因素分词的识别度和速度这两者相互制约无法平衡我们当然希望快而准可是大部分时候恰恰相反我们研制出了完美P D A T 大规模知识库管理系统在高速度与高准确度之间取得了重大进展这个系统能够管理百万级别的词典信息库单机每秒可以查询1 0 0 万词语可是内存需求只需知识库大小的1 5 倍以下由于这个技术的成功研发 I C T C L A S 3 0 分词准确度9 8 4 5 速度为9 9 6 K B s A P I 小于2 0 0 K B 压缩后词典数据不到3 兆可以说是当今世界上最棒的 3 语言算法框架汉语分词涉及汉语分词未知词的统计词性标解以及词语特例等多个要素一般的系统没有统一的解决办法全都采用松散耦合的模式进行拼凑最终结果无法快速准确的解析博大精深的汉语词语可是I C T C L A S 系统采用了层叠隐马尔可夫模式 H i e r a r c h i c a lH i d d e nM a r k o vM o d e l 可以把汉语词语的分析方法等所有阶段统一到一个完整的体系框架去可以达到较好的效果理论研究全部发表的国内外顶级刊物和顶级研讨会上实践与理论得到了有效的结合 4 支持不同环境下的应用开发 I C T C L A S 使用了C 语言编码支持w i n d o w s k l i n u x 等各种主流的操作系统支持C C J A A 等主流的开发语言山东大学硕士学位论文 5 与时俱进个性需求所有功能全部进行模块化组装可拆卸 I C T C L A S 有G B 2 3 1 2 和B I G 5 版本能够支持简体和繁体支持当今所有最先进的分词技术包括计算所词类标注集 I C T P O S 3 0 滨州大学标准北大标准国家语委标准台湾中文研究院香港城市大学使用者能够直接自定义输出的词类标准定义输出格式使用者可以根据自己的需求进行量身自助式定做适合自己的分词系统 6 I C T C L A S 的性能评估 2 0 0 2 年7 月6 日 I C T C L A S 参加了国家9 7 3 英汉机器翻译第二阶段的开放评测测试结果如下领域搴育国际文艺法制理潦经济总计 2 2 2IC T C L A S 的发展历史 S E G 9 70 i 9 7 5 1 9 6 4 0 9 8 4 4 9 81 2 篙 9 7 8 0 9 7 5 8 图2 1分词测试结果图 2 0 0 4 年7 月推出I C T C L A S 2 0 2 0 0 5 年1 2 月推出I C T C L A S 2 6 2 0 0 6 年4 月推出I C T C L A S 3 0 速度接近1 M B s 精度9 8 1 3 2 0 0 7 年调整部分接口使之更贴合用户使用 2 0 0 8 年推出I C T C L A S 2 0 0 8 共享版 I C T C L A S 官方网站的建立 2 0 0 9 年2 月推出I C T C L A S 2 0 0 9 版嚣蒜篙 G 1 8 9 9 l 6 2 3 7 5 5 9 l 4 T R 9 0 0 6 8 8 9 8 9 9 8 8 8 8 嚣篱 l 了 5 了 6 9 5 2 G T 5 4 2 2 2 3 T 6 B 7 5 7 6 T 6 0 8 8 8 6 0 o o 8 8 3 4 8 S 5 c 一势蝴嘲泓蝴缙借枷适置曰q屯S毛培 3 5 2 1 5 2 M 山东大学硕士学位论文第3 章论文相似度分析系统设计 3 1 系统设计方案综述国内主流的中文论文相似度分析方法基本采用指纹识别词频统计 6 7 1 字符串匹配的综合运用本节设计了一种综合方案并使用J A A 代码进行了部分功能的实现本设计主要使用两种基本的文本复制检测方法基于段落的词频统计和逐层的指纹识别两种方法的分词系统均采用中科院I C T C L A S 分词J A A 简单版此版本的分词系统词典库较小本系统的详细设计概况在3 1 1 节中介绍 3 1 1 系统结构功能示意图本系统包括三个部分段落词频统计运算逐层指纹识别运算和其他高级运算输入输出结果见下图图3 1系统结构功能示意图其中段落词频统计运算结束后对疑似抄袭段落使用双重K M P 字符串匹配法进行匹配若匹配则输出匹配内容若不匹配则抄袭判定错误指纹识别的误判较率低不需要字符串直接匹配进行确认其他运算包括同义词替换运算等本章后面的几节详细设计了图中所示的段落山东大学硕士学位论文词频统计方法逐层指纹识别方法以及与系统有关的其他内容参数和数据源部分在第5 章系统实现中介绍 3 2 基于段落的词频统计普通的词频统计方法是统计全篇文章的词频然后通过计算重复词频率来表示文章的相似度本系统采用方法是基于段落设计思路分别统计各个段落的词频找出相似段落然后使用字符串直接匹配方法对相似段落进行进一步分析输出段落词频统计结果和具体相似段落的相似语句注意这是一种特别精确的抄袭检测方法设计示意图图3 2 段落词频设计不意图流程图解释使用I C T C L A S 进行分词统计词频统计各段词频然后可以选择使用余弦法或者按比率计算法统计抄袭结果最后使用双重K M P 字符串匹配算法输出抄袭内容其中余弦法与V S M 空间向量模型有关将在后面进行详细介绍按比率计算指抄袭词语数与总词语数之比双重K M P 将在本章的最后进行详细说明一般的基于词频统计的抄袭判定系统仅仅能解决全文抄袭或大部分抄袭等情况而针对个别段落的抄袭的情况特别是那些从多篇文章中摘抄段落的情况容易疏漏再者那些基于段落相似度来进行比较判定时而大多情况下抄袭者并不是整段的抄袭有些仅仅是调整词语的顺序还有就是摘抄段落的一小部分再或者是对某些段落进行合并扩充或者压缩等等因此判断的过程很容易就漏查或误查针对这些问题提出的算法便是基于段落的词频统计和比较来判定是 9 山东大学硕士学位论文否存在抄袭 8 1 在很多防抄袭系统中可以直接输出或者点亮抄袭的内容要知道即使使用 K M P 字符串匹配算法这种消耗也是巨大的整篇文章匹配的策略在大规模抄袭判定中是绝对不可行的但是基于段落的词频统计很好的解决了这一问题因为只需要对某个抄袭的段落进行匹配操作即可无需全篇匹配大大提高了性能同时由于字符串直接匹配绝对是最准确的匹配方法这也就提高了抄袭判定的准确率在段落词频统计中需要遵循以下几个设计原则第一不敏感段落的消除对于只有几个字或者几十个字的段落来说它很有可能是无关紧要的可以直接忽视第二阈值的选择要高些段落匹配阈值选择可以高一些一般为2 0 以上第三匹配反馈对于已经判定抄袭的段落使用字符串直接匹配的方法进行复查如不存在抄袭则说明前面的判定有误 9 1 3 2 1向量空间模型词频统计方法在对文本进行词语统计之后需要使用一种方法来检测文本是否属于抄袭笔者认为可以使用特征向量所代表的词语计算的结果随后应用点积余弦公式等其他的方法度量文档的类似度其中所应用的向量空间模型V S M 来表示 V S M 模型广泛应用于信息搜索等领域在该模型中论文空间被看做由一组独立词条所组成的向量空间每个论文表示为一个特征向量进行相似度计算向量空间模型 9 V S M V e c t o rS p a c eM o d e l l 由S a l t o n 等人在6 0 年代所提出的并在著名的S M A R T 文本检索系统中得以充分的验证 V S M 概念简单的理解就是将文本内容的简化成向量空间中的向量运算它在空间上的相似度代表了语义的相似度更为直观且便于理解将文档表示成文档空间的向量通过计算向量之间的相似性来衡量文档之间的相似性在文本处理中最为常见的相似性度量方式余弦公式简单来说V S M 就是关键词权重的n 维空间向量公式如下 V P C 1 W 1 P C 2 W 2 P C W P 山东大学硕士学位论文权重公式如下 w e i g h t w i f w il g N 刀w 图3 3 权重公式其中f w i 为关键词 w 在文档i 中出现的频率 N 为论文库中文档数 n W 为论文库中包含词条W 的文档的个数 W i 为文档i 中所有关键词的个数权重公式总结权重越大越重要词语在文档中出现次数越多权重越大包含此词语的论文库中的论文数越多权重越小利用上面的向量空间模型文本数据便转换为计算机可以辨别处理的结构化数据各文档之间的相似性就转变成了两个向量之间的相似性的问题计算计算相似度的余弦公式 k 为关键词数如下 S i m p l P 2 K W p W i p 图3 4 相似度余弦公式其中P lP 2 为文档1 和2 W i P 为对应关键词权重 K 为关键词个数观察公式不难看出S i m p l p 2 的最终值介于0 与l 之间其值越接近1 相似度越高越接近O 相似度越小简单的说此公式就是权重向量的内积一个权重向量的模的计算下面对此公式进行举例分析假设1 包含三个关键词的向量空间假设2 论文库中只有两个文档文档1 和文档2 文档d 1 d 1 文档d 2 d 2 待测文档q q q 1 1 0 由于关键词书在这两个文档中同时出现因此利用公式文档1 向量和文档2 向量中关键词书的权重都为0 书没有区分能力也就是说标准化以后文档山东大学硕十学位论文 1 和文档2 可以通过如下两个向量来表示 d l 0 1 O 和d 2 0 0 1 根据点积法公式s i m q d 1 l 根号2 0 7 s i m q d 2 0 根号2 0 结论文档q 与文档d l 相似度0 7 文档q 与文档d 2 相似度0 3 2 2 以段落词频统计为基础的识别算法设计以段落词频统计方法为基础的论文抄袭判定具体算法 1 0 步骤 1 将需要查询的论文先进行分词处理然后将每个词依次放入那些以段落为单位所建立的若干数组和H a s h M a p 中主要通过使用H a s h M a p 来提高检索速度其中键代表的是词二而值代表的是词频代入的过程中去掉无关紧要的词例如叹词虚词停用词等等步

人人文库> 全部分类> 生活休闲 > 科普知识

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

论文相似度分析系统设计.pdf

文档简介

温馨提示

最新文档

评论

相关文档