




文档简介
山东大学 硕士学位论文 论文相似度分析系统设计 姓名 徐川 申请学位级别 硕士 专业 软件工程 指导教师 徐秋亮 2012 10 16 山东大学硕士学位论文 摘要 论文抄袭是困扰学术界的严重问题之一 当前 英文论文的相似度分析主要 采用数字指纹和字符串匹配等技术 该技术发展应用的比较成熟 但是在进行中 文论文的相似度分析时 我们采用的算法一般都是识别率比较低 效率也低 因 此对中文论文的相似度分析还需提高 文本复制检测技术在知识产权保护和信息检索中有着重要应用 文档复制检 测在初期主要检测程序复制 现在则主要应用于学术不端论文检测 文章首先对 文本复制检测技术的研究意义和发展历史进行了简单的介绍 接着文章介绍了中 文分词 因为中文分词是解决论文相似度分析的基础 并且文章分析了I C T C L A S 中文分词系统 本文设计了一套论文相似度分析综合方法 本设计主要使用两种基本的文本 复制检测方法 基于段落的词频统计和逐层的指纹识别 这套方法是对词频统计 指纹识别和K M P 字符串匹配等方法的改进和完善 基于段落的词频统计只需要对 某个抄袭的段落进行匹配操作即可 无需全篇匹配 大大提高了性能 同时由于 字符串直接匹配是最准确的匹配方法 因此提高了抄袭判定的准确率 逐层的指 纹识别性能比词频统计系统更优 更适合于超大规模计算的文本复制检测方法 本文的指纹生成使用k w o r d s 法为基础 指纹选取使用w i n n o w i n g 策略 本文使用j a v a 代码实现了这套方法的部分功能 实现功能包括 段落词频统 计和交互式论文相似度分析系统 交互式论文相似度分析系统包括词频统计 指 纹识别 双重K M P 等部分 本文还对此程序进行了系统测试分析 主要包括交互 式论文相似度系统测试和段落词频统计程序测试 证明了其可行性和性能优势 文章最后在大量工作的基础上总结了中英文文本复制检测的异同点并对未来中文 文本复制检测方法进行了展望 关键词 复制检测 词频统计 指纹识别 I C T C L A S K M P 算法 山东大学硕士学位论文 A B S T R A C T P l a g i a r i s mi so n eo ft h es e r i o u sp r o b l e m st h a tt r o u b l e da c a d e m i a A tp r e s e n t w em a i n l y u s ed i g i t a lf i n g e r p r i n ta n ds t r i n gm a t c h i n gt e c h n i q u e sf o rs i m i l a r i t ya n a l y s i so ft h e E n g l i s hp a p e r s i ti sm o r em a t u r e B u tf o rC h i n e s ep a p e r s t h e r ea r em a n yp r o b l e m sf o r m o s ta l g o r i t h m sl i k el o wr e c o g n i t i o nr a t ea n dl o we f f i c i e n c y S ow em u s ti m p r o v et h e s i m i l a r i t ya n a l y s i st e c h n o l o g y I th a sv e r yi m p o r t a n ta p p l i c a t i o nb o t hi ni n t e l l e c t u a lp r o p e r t yp r o t e c t i o na n di n f o r m a t i o n r e t r i e v a lf o rt e x tc o p yd e t e c t i o n I ne a r l yd a y s t e x tc o p yd e t e c t i o nm a i n l yc o n c e n t r a t e d o np r o g r a mp l a g i a r i s ma n dn o wt h em o s ts t u d i e sa r eo nt h ep a p e r sd e t e c t i o no f a c a d e m i cm i s c o n d u c t F i r s t l yt h ep a p e ri n t r o d u c e st h es i g n i f i c a n c eo fr e s e a r c ha n d d e v e l o p m e n t so ft h et e x tc o p yd e t e c t i o nt e c h n o l o g y t h e nt h ep a p e rd e s c r i b e sC h i n e s e W o r dS e g m e n t a t i o n b e c a u s eC h i n e s ew o r ds e g m e n t a t i o ni st h eb a s i so fs o l v i n gt h e p r o b l e mo fp a p e r s s i m i l a r i t ya n a l y s i s T h ep a p e ra l s oi n t r o d u c e st h eI C T C L A SC h i n e s e w o r ds e g m e n t a t i o ns y s t e m A n dt h e nt h ep a p e rd e s i g n sa c o m p r e h e n s i v ea n a l y s i sm e t h o do fp a p e r ss i m i l a r i t y T h e r e a r et w om a i nb a s i ct e x tc o p yd e t e c t i o nm e t h o d si nt h i sd e s i g n w o r df r e q u e n c ys t a t i s t i c s b a s e do nt h ep a r a g r a p ha n df i n g e r p r i n ti d e n t i f i c a t i o ns t e pb ys t e p T h ec o m p r e h e n s i v e p l a ni st h ei m p r o v i n ga n dp e r f e c t i n go ft h ep l a no b t a i n i n gf r e q u e n c yc o u n t f i n g e r p r i n t i d e n t i f i c a t i o na n dK M P s t r i n gm a t c h i n gm e t h o d W eo n l yn e e dt om a t c haa p l a g i a r i z e d p a r a g r a p h n o tac o m l p l e t em a t c hf o rw o r df r e q u e n c ys t a t i s t i c sb a s e do nt h ep a r a g r a p h i tg r e a t l yi m p r o v e st h ep e r f o r m a n c e A tt h es a m et i m et h es t r i n gd i r e c tm a t c h i n gi st h e m o s ta c c u r a t em e t h o d t h e r e f o r ei ti m p r o v e st h ea c c u r a c yo fp l a g i a r i s md e t e r m i n a t i o n T h ep e r f o r m a n c eo ff i n g e r p r i n ti d e n t i f i c a t i o ns t e pb ys t e pi sm u c hb e t t e ra n di ti sm o r e s u i t a b l ef o rl a r g e s c a l ec a l c u l a t i o ni nt h et e x tc o p yd e t e c t i o nm e t h o d s T h ef i n g e r p r i n t g e n e r a t i o nu s e su s i n gk w o r d sm e t h o d f i n g e r p r i n ts e l e c t i o nu s e sw i n n o w i n gs t r a t e g y T h e n W eu s et h eja v ac o d et oa c h i e v es o m eo ft h ef u n c t i o n so ft h i sa p p r o a c h t h e f u n c t i o n si n c l u d et h e p a r a g r a p h w o r d f r e q u e n c y s t a t i s t i c sa n di n t e r a c t i v e p a p e r s i m i l a r i t ya n a l y s i ss y s t e m t h es y s t e mi n c l u d e sw o r df r e q u e n c ys t a t i s t i c s f i n g e r p r i n t i d e n t i f i c a t i o na n dd o u b l eK M RT h ep a p e ra l s oc a r r yo nt h e s y s t e mt e s ta n a l y s i s i n c l u d i n gi n t e r a c t i v es i m i l a r i t ys y s t e mt e s ta n dp a r a g r a p h sw o r ds t a t i s t i c a lp r o c e d u r e t e s t W e p r o v e i t s f e a s i b i l i t ya n dp e r f o r m a n c ea d v a n t a g e s F i n a l l y t h i sp a p e r 山东大学硕士学位论文 s u m m a r i z e st h es i m i l a r i t i e sa n dd i f f e r e n c e si nC h i n e s ea n dE n g l i s ht e x tc o p yd e t e c t i o n b a s e do nal o to fw o r k a n dp o i n to u tt h ed e v e l o p m e n td i r e c t i o no fC h i n e s et e x tc o p y d e t e c t i o nm e t h o d K e yw o r d s T e x tc o p yd e t e c t i o n w o r df r e q u e n c ys t a t i s t i c s F i n g e r p r i n ti d e n t i f i c a t i o n I C T C L A S K M Pa l g o r i t h m I I I 山东大学硕士学位论文 C o N T E N T S C h i n e s eA b s t r a c t I E n g l i s h A b s t r a c t I I P a r tII n t r o d u c t i o n 1 1 1 B a c k g r o u n da n ds i g n i f i c a n c eo f t h e r e s e a r c h 1 1 2R e s e a r c hS i t u a t i o n 1 1 3T h em a i nw o r k 2 P a r t A no v e r v i e wo ft h eC h i n e s ew o r ds e g m e n t a t i o n 3 2 1T h e r eC h i n e s ew o r ds e g m e n t a t i o nm e t h o d s 3 2 1 1W o r ds e g m e n t a t i o nm e t h o d sb a s e do nt h es t r i n gm a t c h i n g 3 2 1 2W o r ds e g m e n t a t i o nm e t h o d sb a s e do nt h eu n d e r s t a n d i n g 4 2 1 3W o r ds e g m e n t a t i o nm e t h o d sb a s e do nt h es t a t i s t i c a l 5 2 2T h eI C T C L A S C h i n e s ew o r ds e g m e n t a t i o ns y s t e mo fC h i n e s eA c a d e m yo f S c i e n c e s 5 2 2 1C h a r a c t e r i s t i c so ft h eI C T C L A S 6 2 2 2T h ed e v e l o p m e n th i s t o r yo fI C T C L A S 7 P a r tIl l T h e d e s i g no fp a p e r ss i m i l a r i t ya n a l y s i ss y s t e m 8 3 1R e v i e wo f t h es y s t e md e s i g n 8 3 1 1T h ed i a g r a mo fs y s t e ms t r u c t u r e 8 3 2w o r df r e q u e n c ys t a t i s t i c sb a s e do nt h ep a r a g r a p h 9 3 2 1 T h em o d e lo f v e c t o rs p a c e 1 0 3 2 2 R e c o g n i t i o na l g o r i t h md e s i g no fw o r df r e q u e n c ys t a t i s t i c s b a s e do n p a r a g r a p h 1 2 3 3 F i n g e r p r i n ti d e n t i f i c a t i o ns t e pb ys t e p 1 2 3 3 1 F i n g e r p r i n tg e n e r a t i o na l g o r i t h m 1 4 3 3 2S t r a t e g yo f f i n g e r p r i n ts e l e c t i o n w i n n o w i n gf i n g e r p r i n ts e l e c t i o n 1 5 3 4 S t r i n gm a t c h i n ga l g o r i t h m 1 8 3 5T h es y n o n y ms u b s t i t u t i o na n do t h e rm e t h o d s 1 9 P a r t T h er e s l i z a t i o no fp a p e r ss i m i l a r i t ya n a l y s i ss y s t e m 21 4 1T h ef r a m e w o r ka n dp r o c e s so f t h es y s t e m 2 1 山东大学硕士学位论文 4 2I n t e r a c t i v ep a p e r s i m i l a r i t ya n a l y s i ss y s t e m 2 2 4 2 1P a r a m e t e rs e t t i n g sa n dp a p e r s a d d s 2 2 4 2 2T h es y s t e mi n t e r f a c ea n do p e r a t i o nm e t h o d 2 3 4 2 3T h er e a l i z a t i o nm e t h o do ft h ec o r ef u n c t i o n s 2 4 4 2 3 1L a y e r e d f i n g e r p r i n ti d e n t i f i c a t i o nr e a l i z a t i o nm e t h o d 2 4 4 2 3 2R e a l i z a t i o nm e t h o do f w o r df r e q u e n c ys t a t i s t i c s 2 5 4 2 3 3R e a l i z a t i o nm e t h o do f d o u b l eK M P 2 6 4 3I n d e p e n d e n tw o r df r e q u e n c ys t a t i s t i c s 2 7 P a r tV S y s t e mt e s t 2 9 1 1T h ep u r p o s eo f t h et e s t 2 9 5 2T h et e s to fi n t e r a c t i v ep a p e rs i m i l a r i t ya n a l y s i ss y s t e m 2 9 5 2 1C o n t e n to f t h et e s t 2 9 5 2 2P r o c e s so f t h et e s t 2 9 1 3T h et e s to f w o r df r e q u e n c ys t a t i s t i c s 3 4 5 3 1 C o n t e n to ft h et e s t 3 4 5 3 2P r o c e s so ft h et e s t 3 4 5 4T e s tr e s u l t s 3 8 P a r t D i s c u s s i o na n dp r o s p e c t so fp a p e rs i m i l a r i t ya n a l y s i ss y s t e m 3 9 6 1D i f f e r e n c e si nC h i n e s ea n dE n g l i s ht e x tc o p yd e t e c t i o n 一39 6 2 P r o s p e c t so f p a p e rs i m i l a r i t ya n a l y s i ss y s t e m 4 0 R e f e r e n c e s 4 2 A c k n o w l e d g e m e n t s 4 3 山东大学硕士学位论文 1 1 研究背景及意义 第1 章引言 近些年来论文抄袭成为困扰学术界的严重问题之一 抄袭剽窃之风在今天的 学术界愈演愈烈几乎是不争的事实 抄袭是指将他人作品或者作品的片段窃为己 有 更准确地说 抄袭是指将他人作品或者作品的片段窃为己有并公开发表 论 文中可以适当地引用他人作品的部分内容 当然要指明出处 但如果引用不合理 就涉嫌抄袭 著作权法实施条例 第二十七条第二款规定 所引用部分不能构成 引用人作品的主要部分 我国文化部1 9 8 5 年曾对合理引用量作了规定 该规定指 出 引用非诗词类作品不得超过2 5 0 0 字或被引用作品的十分之一 多次引用同一 部长篇非诗词类作品 总字数不得超过1 万字 引用诗词类作品不得超过4 0 行或全 诗的四分之一 但古体诗词例外 凡引用一人或多人的作品 所引用的总量不得 超过本人创作作品总量的十分之一 但专题评论和古体诗词除外 目前 对于英 文论文的相似度分析比较成熟 主要采用数字指纹和字符串匹配等技术 而对于 中文论文的相似度分析还不太成熟 大多数算法存在识别率低 效率不高等问题 l 论文相似度分析不仅只是单纯用来进行学术不端行为的检测 还具有以下两种 功能 第一 文献保护 可准确发现您的重要文献是否被他人非法使用 或者保护个 人或单位的重要文件资料被他人不恰当的描述 还可以预防个人或单位的保密信 息和资源在其他文献中被不恰当的公开 第二 文献比对 可实现一个文献与其他一个或多个文献的比对 例如出版社 可能希望避免潜在的版权侵犯行为 律师在知识产权案件中可使用文本复制检测 技术来快速确定两篇或多篇文献中的文字复制情况 2 J 1 2 研究现状 自然语言文档复制检测技术最早出现在1 9 9 3 年 A R I Z O N A 大学的M a n b e r 提出 了S i l l 2 1 工具 用于在大规模文件系统中寻找内容相似的文件 S i f A 2 具提出了 近 山东大学硕士学位论文 似指纹 a p p r o x i m a t ef i n g e r p r i n t s 的概念 就是利用基于字符串匹配的方法来度量 文件之间的相似性 此后 很多文本复制检测系统都采用了这个思路 女n c o P s K O A L A s h i n g l i n g I M a t c h M D R Y A P 等 1 9 9 5 年 斯坦福大学的B r i n 和 G a r c i a M o l i n a 等人首次提出了文本复制检测机 1 C O P S 及其相应的算法 随后 S h i v a k u m a r 等人又提出了S C A Mf S t a n f o r dc o p y a n a l y s i sm e t h o d 原型1 改进了C O P S 系统 用于发现知识产权冲突 S C A M 借鉴了信息检索技术中的向量空间模型 使 用基于词频统计的方法来度量文本相似性 后来G a r c i a M o l i n a 币l S h i v a k u m a r 等人还 在S C A M 的基础上提出d S C A M 模型 把检测范围从单个注册数据库扩展到分布式 数据库上以及在W e b 上探测文本复制的方法 同期又出现了K O A L A 系统 与之类 似的还有B r o d e r 等人提出来的 s h i n g l i n g 方法 到了2 0 0 0 年 又出现了用后缀树来 搜寻字符串之间的最大子串的M D R 原型 西安交通大学宋擒豹等人提出了 C D S D G c o p y i n gd e t e c t i o ns y s t e mo f d i g i t a lg o o d s 系统 这是为了解决数字商品非法 复制和扩散问题而开发的一个基于注册的复制监测原型系纠引 除此之外 还有很 多文本比较工具和软件 都是针对两篇文档的内容进行比较的 例如 W C o p y f i n d 和B e y o u dC o m p a r e 等 2 0 0 7 年 金博等人还从论文的篇章结构相似度出发提出了 基于篇章结构相似度的复制检测算法 它是在学术论文理解的基础上针对学术论 文的特有结构 对学术论文进行篇章结构分析 再通过数字指纹和词频统计等方 法计算出学术论文之间的相似度 从而找出抄袭的现象 但此算法只是针对书写 格式规范的学术论文抄袭情况的判定 1 3 本文的工作 本文在前人工作的基础上设计了一套论文相似度分析综合方法 设计主要包 括基于段落的词频统计 逐层的指纹识别 一种字符串匹配方法和同义词替换方 法等 基于此设计 使用J A V A 语言实现了交互式论文相似度分析系统和独立的段落 词频统计程序 并对此程序进行了测试分析 证实了其可行性和性能优势 本文 在大量工作的基础上总结了中文文本复制检测的异同 并对未来中文文本检测的 发展方向进行了展望 山东大学硕士学位论文 第2 章中文分词概述 中文分词 C h i n e s eW o r dS e g m e n t a t i o n 是将某个中文汉字的序列切分成一个一 个独立的词 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 我们知道 在英文的语句中 单词之间是以空格作为自然分界符的 但是对于中 文 只有字 句和段能通过明显的分界符来划分 而词没有一个形式上的分界符 虽然英文对短语的划分也存在着问题 但是对于词的划分问题 中文比之英文要 复杂的多困难的多 4 1 解决论文相似度分析的基础是中文分词 只有进行合理的中文分词 才能进 行自动识别语义 中文分词技术概念比较专业 属于自然语言处理的专业范畴 例如 对于一篇文章的某一段话来说 我们能分辨出不同种类的词 而计算机却 不能主动的辨别出来 我们的目的就是通过分词算法让计算机也能区分出词 国际上的分词算法可分成3 类 字符串匹配的分词算法 基于理解的段落方法 和基于分词统计的方法 中文在文法上的特殊性促使了中文分词技术的不断向前 发展 主要表现在以下几个方面 1 在拉丁语系 以英文为例子 中 英文用空格作分割符 但是中文却不存 在 例如 Il o v ey o u 可自然分割为I l o v e y o u 三个词 各个词语能独立表义 但是在中文里 我喜欢你 实在是缺少分隔符 没有办法对符合汉字表义的切分 我 喜欢 你 2 在中文之中 单字不如词的的表义能力强 词语是现代汉语的基本表义单位 以多字或双字为多 这些词语独立切分后 无法独自表义 例如 软件学院 基本语义单元为 软件 和 学院 如果按单字切 分为 软 件 学 院 可是这四个单独的字无法正确表达意义 因此不符 合意义 因此中文分词技术 是中文信息处理的前提和基础 2 1 三种中文分词方法 2 1 1匹配字符串的分词法 山东大学硕士学位论文 该方法又叫做机械分词法 就是匹配待分析的汉字串和一个 足够大的 超级词 典中的词语 如果在词典中能找到某个词语或者串 那么就表示匹配成功 否则 则失败 串匹配分词法有三种分词方法 根据与词性标解的结合与否 又可分为 独立分词法和分词与标解相结合的方法 根据长度不同优先匹配的原则 可分为 最长匹配和最短匹配 根据扫描方向的不同 又分为逆向和正向匹配 以下是几 个常用的机械分词方法 1 最少切分法 每一个句子切出的词语数最少 2 最大正向匹配方法 由左到右的方向 3 最大逆向匹配方法 由右到左的方向 4 最大双向匹配方法 分别进行两次扫描 方向是由左到右 由右到左 在实际应用中 我们一般是几种方法相互组合 例如 正向最大匹配法和逆 向最大匹配法结合起来就构成了双向匹配法 该方法就比较强大 因为汉语往往 一个字就是一个词 所以最小正向匹配和最小逆向匹配我们不常见 综合来说 逆向匹配的切分精确度整体高于正向匹配 遇到的歧义现象也是比较少的 但是 结果仍然不够精确 工作标准的分词系统 都是把机械分词作为一个简单的初次 识别的手段 为了改进切分的精准率 我们还需要采集更多的语言信息 改进切 分方法 一种方法是把分词和词类标解相结合 该方法的优点是不仅能使用丰富的词 语类信息 而且还能检测分词的结果 这种方法对于提高切分的准确率有很大的 帮助 还有一种方式法就是扫描方式进行改革创新 我们称之为特征扫描或标志 切分 我们先将段落中带有明显特点的词语切分出来 并且以这些词语作为切分 基础 将段落切分为小的字符串 最后进行机械分词 这样的机械分词法最终能组建成为普遍应用的模型 在这方面有专业论文研 究 我们这里不做详述 2 1 2 基于理解层面上的分词法 这类方法我们需要让计算机模拟人的思维 理解句意的含义 这个核心算法 就是不仅进行分词 而且还分析句子的语法和含义 使用句法海量信息和语义海 量信息来处理歧义的发生 这个方法包括三个核心部分 总控系统 句法语义系 4 山东大学硕士学位论文 统 分词系统 总控系统的主要功能是负责整体协调 分词系统可以得到所有词 和句子等的句法和语义信息来对分词歧义进行判断 意思是分词系统模拟人理解 句子和段落的过程 这类分词方法必须使用海量的语言信息和语言知识 可是汉 语语言实在是博大精深 它的广泛性和复杂性 我们很难用各种信息组成计算机 可以直接理解的形式 所以该分词系统还处在摸索阶段 2 1 3 基于统计的分词法 在字面上看 某几个稳定的字或单独的字组成词 所以在段落中 相邻的字 出现的次数越多 组成词的概率更大 那么字和字之间同时出现的频度或者说概 率可以非常明显的反映出成词的可靠度 我们统计出中相邻共现的字的组合的频 率 计算出它们同时出现的概率 根据字的互现记录 计算两个汉字的相邻共现 概率巧1 概率越高表明我国汉字关系更紧密 一旦紧密度高于某一个阈值时 我 们就认定此字的组合构成了一个词 这种方法主要是统计字组的频度 不进行分 词的切分 因而又叫做无切分词语分词法 但是这种方法也有一定的缺陷 可能 会看到很多出现频度高 不是词的常见字组 例如 就认 她的 可的 而 缺 缺少的 等 工业中使用的应用统计分词系统进行串匹配分词时 以基本的 分词词典为基础 再利用统计方法识别出一些不常见的词语 即将字符串频率统 计和字符串匹配结合起来 既体现匹配分词切分效率高 速度快的优点 还可以 利用无词典分词结合段落识别生词 自动解决歧义的优点 当今 没有哪一种分词技术敢说自己的准确的最高 工业使用中的任意一个识 别系统来说 都不会独独利用一种方法来实现其功能 都需要将不同的方法结合 起来 例如 海量科技 的分词方法就是采用 复方分词法 该方法与中药中的复 方的意思有异曲同工之处 就是不同的算法综合起来处理对于中文语言 2 2中科院I C T C L A S 中文分词系统 中科院的I C T C L A S 5 1 和天津海量科技公司的分词系统是我们常用的分词软 件 这两个软件在国内发展的较成熟 特别是中科院的汉语词法分析系统 I C T C L A S 该系统包含的功能很多 包括中文分词 命名实体识别 新词识别 同时支持用户词典等 本文就是采用中科院的I C T C L A S J A V A 简单版 进行分 山东大学硕士学位论文 词预处理的 2 2 1I C T C L A S 特色 1 国内外权威的公开测评 五万以上使用者的认可 I C T C L A S l 0 在中国九百余名专家参与的测评中获得了第一的名次 I C T C L A S 2 0 经过S i n H a n 机构组织的资质测评荣获第一名 这些权威机构水平非 常之可信 他们的测评结果 是可以完全信任的 日前 国内外学校 学术机构和企业就是有超过五万个组织或者个人接受了 I C T C L A S 的授权 其中较为知名的企业包括 云南日报 中华上午 N E C 硅谷 动力 学校包括 清华大学 麻省理工大学 与此同时 人民日报 海外版等多 家传媒 也都广泛的报道过I C T C L A S 2 综合性能最优 分词识别系统能否达到工业标准取决于两个因素 分词的识别度和速度 这 两者相互制约 无法平衡 我们当然希望 快而准 可是大部分时候恰恰相反 我 们研制出了完美P D A T 大规模知识库管理系统 在高速度与高准确度之间取得了 重大进展 这个系统能够管理百万级别的词典信息库 单机每秒可以查询1 0 0 万 词语 可是内存需求只需知识库大小的1 5 倍以下 由于这个技术的成功研发 I C T C L A S 3 0 分词准确度9 8 4 5 速度为9 9 6 K B s A P I 小于2 0 0 K B 压缩后词 典数据不到3 兆 可以说是当今世界上最棒的 3 语言算法框架 汉语分词涉及汉语分词 未知词的统计 词性标解以及词语特例等多个要素 一般的系统没有统一的解决办法 全都采用松散耦合的模式进行拼凑 最终结果 无法快速准确的解析博大精深的汉语词语 可是I C T C L A S 系统采用了层叠隐马尔 可夫模式 H i e r a r c h i c a lH i d d e nM a r k o vM o d e l 可以把汉语词语的分析方法等所有 阶段统一到一个完整的体系框架去 可以达到较好的效果 理论研究全部发表的 国内外顶级刊物和顶级研讨会上 实践与理论得到了有效的结合 4 支持不同环境下的应用开发 I C T C L A S 使用了C 语言编码 支持w i n d o w s k l i n u x 等各种主流的操作系统 支持C C J A A 等主流的开发语言 山东大学硕士学位论文 5 与时俱进 个性需求 所有功能全部进行模块化组装 可拆卸 I C T C L A S 有G B 2 3 1 2 和B I G 5 版本 能够支持简体和繁体 支持当今所有最先进的分词技术 包括计算所词类标注集 I C T P O S 3 0 滨州大学标准 北大标准 国家语委标准 台湾中文研究院 香港城 市大学 使用者能够直接自定义输出的词类标准 定义输出格式 使用者可以根 据自己的需求 进行量身自助式定做适合自己的分词系统 6 I C T C L A S 的性能评估 2 0 0 2 年7 月6 日 I C T C L A S 参加了国家9 7 3 英汉机器翻译第二阶段的开放评 测 测试结果如下 领域 搴育 国际 文艺 法制 理潦 经济 总计 2 2 2IC T C L A S 的发展历史 S E G 9 70 i 9 7 5 1 9 6 4 0 9 8 4 4 9 81 2 篙 9 7 8 0 9 7 5 8 图2 1分词测试结果图 2 0 0 4 年7 月 推出I C T C L A S 2 0 2 0 0 5 年1 2 月 推出I C T C L A S 2 6 2 0 0 6 年4 月 推出I C T C L A S 3 0 速度接近1 M B s 精度9 8 1 3 2 0 0 7 年 调整部分接口 使之更贴合用户使用 2 0 0 8 年 推出I C T C L A S 2 0 0 8 共享版 I C T C L A S 官方网站的建立 2 0 0 9 年2 月 推出I C T C L A S 2 0 0 9 版 嚣蒜篙 G 1 8 9 9 l 6 2 3 7 5 5 9 l 4 T R 9 0 0 6 8 8 9 8 9 9 8 8 8 8 嚣 篱 l 了 5 了 6 9 5 2 G T 5 4 2 2 2 3 T 6 B 7 5 7 6 T 6 0 8 8 8 6 0 o o 8 8 3 4 8 S 5 c 一 势蝴嘲泓蝴缙借枷 适置曰q屯S毛培 3 5 2 1 5 2 M 山东大学硕士学位论文 第3 章论文相似度分析系统设计 3 1 系统设计方案综述 国内主流的中文论文相似度分析方法 基本采用指纹识别 词频统计 6 7 1 字 符串匹配的综合运用 本节设计了一种综合方案并使用J A A 代码进行了部分功能 的实现 本设计主要使用两种基本的文本复制检测方法 基于段落的词频统计和逐层 的指纹识别 两种方法的分词系统均采用中科院I C T C L A S 分词J A A 简单版 此 版本的分词系统词典库较小 本系统的详细设计概况在3 1 1 节中介绍 3 1 1 系统结构功能示意图 本系统包括三个部分 段落词频统计运算 逐层指纹识别运算和其他高级运算 输入输出结果见下图 图3 1系统结构功能示意图 其中段落词频统计运算结束后 对疑似抄袭段落使用双重K M P 字符串匹配法 进行匹配 若匹配则输出匹配内容 若不匹配则抄袭判定错误 指纹识别的误判 较率低 不需要字符串直接匹配进行确认 其他运算包括同义词替换运算等 本章后面的几节详细设计了图中所示的段落 山东大学硕士学位论文 词频统计方法 逐层指纹识别方法以及与系统有关的其他内容 参数和数据源部 分在第5 章系统实现中介绍 3 2 基于段落的词频统计 普通的词频统计方法是统计全篇文章的词频 然后通过计算重复词频率来表 示文章的相似度 本系统采用方法是基于段落 设计思路 分别统计各个段落的词频 找出相似段落 然后使用字符串直接 匹配方法对相似段落进行进一步分析 输出段落词频统计结果和具体相似段落的 相似语句 注意这是一种特别精确的抄袭检测方法 设计示意图 图3 2 段落词频设计不意图 流程图解释 使用I C T C L A S 进行分词 统计词频 统计各段词频 然后可以 选择使用余弦法或者按比率计算法统计抄袭结果 最后使用双重K M P 字符串匹配 算法输出抄袭内容 其中余弦法与V S M 空间向量模型有关 将在后面进行详细介 绍 按比率计算指抄袭词语数与总词语数之比 双重K M P 将在本章的最后进行详 细说明 一般的基于词频统计的抄袭判定系统仅仅能解决全文抄袭或大部分抄袭等情 况 而针对个别段落的抄袭的情况 特别是那些从多篇文章中摘抄段落的情况 容易疏漏 再者 那些基于段落相似度来进行比较判定时 而大多情况下抄袭者 并不是整段的抄袭 有些仅仅是调整词语的顺序 还有就是摘抄段落的一小部分 再或者是对某些段落进行合并 扩充或者压缩等等 因此判断的过程很容易就漏 查或误查 针对这些问题 提出的算法便是基于段落的词频统计和比较来判定是 9 山东大学硕士学位论文 否存在抄袭 8 1 在很多防抄袭系统中 可以直接输出或者点亮抄袭的内容 要知道即使使用 K M P 字符串匹配算法 这种消耗也是巨大的 整篇文章匹配的策略在大规模抄袭 判定中是绝对不可行的 但是 基于段落的词频统计很好的解决了这一问题 因 为只需要对某个抄袭的段落进行匹配操作即可 无需全篇匹配 大大提高了性能 同时由于字符串直接匹配绝对是最准确的匹配方法 这也就提高了抄袭判定的准 确率 在段落词频统计中需要遵循以下几个设计原则 第一 不敏感段落的消除 对于只有几个字或者几十个字的段落来说 它很 有可能是无关紧要的 可以直接忽视 第二 阈值的选择要高些 段落匹配阈值选择可以高一些 一般为2 0 以上 第三 匹配反馈 对于已经判定抄袭的段落 使用字符串直接匹配的方法进 行复查 如不存在抄袭则说明前面的判定有误 9 1 3 2 1向量空间模型 词频统计方法 在对文本进行词语统计之后 需要使用一种方法来检测文本 是否属于抄袭 笔者认为可以使用特征向量所代表的词语计算的结果 随后应用 点积 余弦公式等其他的方法度量文档的类似度 其中所应用的向量空间模型V S M 来表示 V S M 模型广泛应用于信息搜索等领域 在该模型中 论文空间被看做由 一组独立词条所组成的向量空间 每个论文表示为一个特征向量进行相似度计算 向量空间模型 9 V S M V e c t o rS p a c eM o d e l l 由S a l t o n 等人在6 0 年代所提出的 并在著名的S M A R T 文本检索系统中得以充分的验证 V S M 概念简单的理解就是将文本内容的简化成向量空间中的向量运算 它在 空间上的相似度代表了语义的相似度 更为直观且便于理解 将文档表示成文档空 间的向量 通过计算向量之间的相似性来衡量文档之间的相似性 在文本处理中 最为常见的相似性度量方式 余弦公式 简单来说V S M 就是关键词 权重的n 维空间向量 公式如下 V P C 1 W 1 P C 2 W 2 P C W P 山东大学硕士学位论文 权重公式如下 w e i g h t w i f w il g N 刀w 图3 3 权重公式 其中f w i 为关键词 w 在文档i 中出现的频率 N 为论文库中文档数 n W 为论 文库中包含词条W 的文档的个数 W i 为文档i 中所有关键词的个数 权重公式总结 权重越大越重要 词语在文档中出现次数越多权重越大 包 含此词语的论文库中的论文数越多权重越小 利用上面的向量空间模型 文本数据便转换为计算机可以辨别处理的结构化 数据 各文档之间的相似性就转变成了两个向量之间的相似性的问题 计算计算相似度的余弦公式 k 为关键词数 如下 S i m p l P 2 K W p W i p 图3 4 相似度余弦公式 其中P lP 2 为文档1 和2 W i P 为对应关键词权重 K 为关键词个数 观察公 式不难看出S i m p l p 2 的最终值介于0 与l 之间 其值越接近1 相似度越高 越接 近O 相似度越小 简单的说此公式就是 权重向量的内积 一个权重向量的模的计 算 下面对此公式进行举例分析 假设1 包含三个关键词的向量空间 假设2 论文库中只有两个文档 文档1 和文档2 文档d 1 d 1 文档d 2 d 2 待测文档q q q 1 1 0 由于关键词 书 在这两个文档中同时出现 因此利用公式文档1 向量和文档2 向量中关键词 书 的权重都为0 书没有区分能力 也就是说标准化以后 文档 山东大学硕十学位论文 1 和文档2 可以通过如下两个向量来表示 d l 0 1 O 和d 2 0 0 1 根据 点积法公式s i m q d 1 l 根号2 0 7 s i m q d 2 0 根号2 0 结论 文档q 与文档d l 相似度0 7 文档q 与文档d 2 相似度0 3 2 2 以段落词频统计为基础的识别算法设计 以段落词频统计方法为基础的论文抄袭判定具体算法 1 0 步骤 1 将需要查询的论文先进行分词处理 然后将每个词依次放入那些 以段落为单位所建立的若干数组和H a s h M a p 中 主要通过使用H a s h M a p 来提高检 索速度 其中键代表的是词 二而值代表的是词频 代入的过程中去掉无关紧要 的词 例如叹词 虚词 停用词等等 步
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子宫颈的变化
- 年度安全培训教育报告课件
- 年底安全培训工作汇报
- 工业机械手安全培训课件
- 年前年后安全培训大会课件
- 威廉迈巴赫课件
- 海运出口代理订舱合同5篇
- 工业废水培训课件
- 威亚安全培训课件
- 工业安全技能培训内容课件
- 2024年-2025年《公路养护》知识考试题库与答案
- 与信仰对话 课件-2024年入团积极分子培训
- NB-T31052-2014风力发电场高处作业安全规程
- 国际地图语言学研究进展
- 《水利水电建设工程验收规程》-SL223-2008
- AIOT智能物联产业学院建设方案
- 行政管理专业教学实施细则
- 闭合性颅脑损伤重型个案护理
- 紫金矿业员工工作手册
- FZ-T 01158-2022 纺织品 织物刺痒感的测定 振动音频分析法
- 工程部造价管控手册
评论
0/150
提交评论