(通信与信息系统专业论文)学术期刊网络化运行与管理中的数据挖掘方法研究.pdf_第1页
(通信与信息系统专业论文)学术期刊网络化运行与管理中的数据挖掘方法研究.pdf_第2页
(通信与信息系统专业论文)学术期刊网络化运行与管理中的数据挖掘方法研究.pdf_第3页
(通信与信息系统专业论文)学术期刊网络化运行与管理中的数据挖掘方法研究.pdf_第4页
(通信与信息系统专业论文)学术期刊网络化运行与管理中的数据挖掘方法研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 随着计算机技术的迅速发展以及数据库管理系统的广泛应用,越来越多的 数据被存储起来,如何在这些海量的数据中寻找真正所需要的知识显得尤为重 要。数据挖掘作为一个多学科的交叉学科,能够在海量数据中发现有用的模式 和规则,是将数据转化为知识的重要手段。数据挖掘技术虽然渗透到了社会的 各个方面,但在学术期刊上应用却比较少。论文以“期刊网络化综合运行管理 平台”为应用背景,针对该平台已有的业务数据,基于业务数据库与主题数据 仓库,采用数据挖掘方法对有关期刊运行效率与管理质量中的问题进行了研究, 并将研究的结果形成新的质量管理规则,运用到学术期刊在线运行管理中。 首先,研究了学术不端行为的检测方法,设计出了一种基于字符串匹配的 文本复制检测算法。通过抽取各期刊论文的特征,建立稿件信息数据仓库,运 用设计的检测方法,先对数据仓库中的论文进行研究方向和关键字的筛选,缩 小比对范围,然后再利用k m p 算法对论文的摘要进行详细检查,把相同的文字 显示出来,为工作人员尽快准确判别和发现学术不端行为提供了一种有效方法。 其次,对投审稿信息进行了挖掘方法研究,依据统计分析法对稿源信息进 行了统计挖掘分析,同时,提出了一种审稿专家的聚类分析方法。前者为工作 人员从研究方向,基金类型等各个方面来了解稿源情况提供了依据,后者,则 为工作人员构建审稿专家库和合理送审提供了依据。 最后,针对期刊运行与管理系统中日志文件的特点,基于数据仓库技术, 对系统日志进行了统计挖掘分析,为期刊的日常运行和维护提供了科学的分析 方法和分析依据。 通过对上述数据挖掘方法在期刊运行与管理系统中的研究和实现,为期刊 的管理提供了一套辅助分析方法,为提高刊物的办刊质量和办刊效率,减少工 作人员的工作量创造了条件,对学术期刊的高质量的健康发展和高效稳定运行 具有重要的理论和实践意义。 关键词:学术期刊,数据挖掘,k 一均值算法,k m p 算法 武汉理工大学硕十学位论文 a b s t r a c t w i t hp r o m p td e v e l o p m e n to fc o m p u t e rt e c h n o l o g ya n dw i d ea p p l i c a t i o no fd a t a b a s ea n di t sm a n a g e m e n t ,m o r ea n dm o r ed a t ah a sb e e ns t o r e du p i ti sp a r t i c u l a r l y i m p o r t a n tt of i n do u tt h ek n o w l e d g et h a tp e o p l er e a ln e e df r o mt h e s em a s s i v ed a t a a s a m u l t i d i s c i p l i n a r yi n t e r d i s c i p l i n a r y ,d a t am i n i n g c a l lf i n do u tu s e f u lm o d e l sa n dr u l e s f r o mm a s s i v ed a t aa n di ti sa ni m p o r t a n tm e a nt og e tk n o w l e d g ef r o md a t a ,a l t h o u g h d a t am i n i n gt e c h n o l o g yh a sp e n e t r a t i o nt oa l la s p e c t so fs o c i e t y , f e wo ft h e ma p p l yt o a c a d e m i cj o u r n a l t h ep a p e ru s i n g ”j o u r n a lo fi n t e g r a t e dn e t w o r ko p e r a t i o na n d m a n a g e m e n tp l a t f o r m ”f o rt h ea p p l i c a t i o nb a c k g r o u n d ,a i m i n ga tt h eb u s i n e s sd a t a o ft h ep l a t f o r m ,b a s i n go nb u s i n e s sd a t a b a s e sa n ds u b j e c t b a s e dd a t aw a r e h o u s e ,u s e d a t am i n i n gt e c h n i q u e so nt h ee f f i c i e n c ya n dq u a l i t yo fm a n a g e m e n tj o u m a li s s u eh a s b e e ns t u d i e d t h er e s u l t so ft h es t u d yi sf o r m e dan e w q u a l i t ym a n a g e m e n tr u l e s ,a n d a p p l i e si tt ot h eo p e r a t i o na n dm a n a g e m e n to fa c a d e m i cj o u r n a l so n l i n e f i r s t l y , r e s e a r c ht h em e t h o do nd e t e c t i n ga c a d e m i cm i s c o n d u c t ,t h e nd e s i g na t e x tc o p yc h e c k i n ga l g o r i t h mb a s e do ns t r i n gm a t c h i n g b ye x t r a c t i n gt h ef e a t u r e so f p a p e r i nv a r i o u s m a g a z i n e s ,e s t a b l i s h i n f o r m a t i o nd a t aw a r e h o u s eo fp a p e r i n f o r m a t i o n ,u t i l i z et h ed e t e c t i n gm e t h o dt h a th a v eb e e nd e s i g n e d ,t h r o u g ht w o m o d u l e st oc h e c kt h ea c a d e m i cm i s c o n d u c t f i r s tf i l t e rt h ep a p e r so nt h ed a t a w a r e h o u s eb yd i r e c t i o n sa n dk e y w o r d ,n a r r o w i n gt h es c o p eo fc o m p a r i s o n ,t h e n , c h e c kt h es u m m a r yo ft h ep a p e rb yk m pa l g o r i t h m ,a n dd i s p l a yt h es a m et e x t t h e s t a f fc a nb ea ss o o na sp o s s i b l et oi d e n t i f ya n df i n do u ta c a d e m i cm i s c o n d u c tb yt h i s m e t h o d s e c o n d l y , r e s e a r c ht h ed a t am i n i n gm e t h o do nc a s ta n dr e v i e wi n f o r m a t i o n a n a l y s i st h es o u r c eo fi n f o r m a t i o nb a s eo nm i n i n g s t a t i s t i c a la n a l y s i s ,w h i l e ,a r e v i e w e ro ft h ec l u s t e ra n a l y s i si sp r o p o s e t h ef o r m e rp r o v i d eab a s i sf o rs t a f ft o u n d e r s t a n dt h es o u r c ef r o mr e s e a r c h ,f u n dt y p e sa n do t h e ra s p e c t s ,t h el a t t e r , p r o v i d e ab a s i sf o rs t a f ft ob u i l tr e v i e w e r sd a t a b a s ea n ds e n tf o rs c r e e n i n gr e a s o n a b l e 武汉理工大学硕士学位论文 f i n a l l y , a i m i n ga tt h ec h a r a c t e r i s t i c so ft h el o gf i l ep r o d u c e db yo p e r a t i o na n d m a n a g e m e n ts y s t e m ,t h i sp a p e ra n a l y s i st h el o gb ys t a t i s t i c a lm i n i n gb a s eo nd a t a w a r e h o u s et e c h n o l o g y p r o v i d e sas c i e n t i f i cb a s i sf o ra n a l y z et h ed a i l yo p e r a t i o na n d m a i n t e n a n c ej o u r n a l t h r o u g hr e s e a r c ha n di m p l e m e n tt h ed a t am i m n gm e t h o do nj o u r n a lo f i n t e g r a t e dn e t w o r ko p e r a t i o na n dm a n a g e m e n tp l a t f o r m p r o v i d e sas e to fa u x i l i a r y m e t h o df o r i m p r o v i n gt h eq u a l i t yo f p u b l i c a t i o na n de d i t i n ge f f i c i e n c y , c r e a t e c o n d i t i o n so fr e d u c i n gt h ew o r k l o a do fs t a f f i ti sm e a n i n g f u lt oe s t a b l i s hh i g h - q u a l i t y a c a d e m i cj o u r n a l sa n dh i g hp e r f o r m a n c ei nt h e o r ya n dp r a c t i c e k e y w o r d s :a c a d e m i cj o u m a l ,d a t am i n i n g ,k - m e a n s a l g o r i t h m s ,k m p a l g o r i t h m s 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 武汉理工大学或其它教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示了谢意。 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即: 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的 全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制 手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有 关机构或论文数据库使用或收录本学位论文,并向社会公众提供信息 服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :罗复& 导师( 签名) 阳乞专日期驯。,耽6 武汉理工大学硕士学位论文 1 1 课题背景及意义 第1 章绪论 近几十年来,我国期干u 业取得了长足的进步,期刊总数从1 9 7 8 年的9 3 0 种 增加到2 0 0 7 年的9 4 6 8 种,同时也得到过国际学术出版业的认可,国际重要检索 机构已近收录中国期刊2 1 3 4 种【1 1 。可以说,我国期刊业已经发展成为一个拥有 较强思想舆论引导能力、文化信息传播能力、社会资源聚合能力和文化市场开 拓能力的重要文化事业和产业形态。随着互联网的迅速发展,不少期刊社采取 网上管理系统,加快了作者稿件传递速度,避免稿件丢失。方便了稿件查询。 作者和编辑部查询稿件状态等操作就会方便很多,减轻了编辑人员的文字校对 工作量,便于主编掌握稿件编辑流程和全面情况,提高了编排效率,从而有效 增加了每年出版的文章数量,增加了每年出版的文章数量,同时,完整地保存 期刊运行和发展的各类历史信息。但现在的大多数期刊管理与运行系统主要实 现了期刊社日常的稿件登记,稿件送审,专家审稿,发放录用通知等业务操作 处理,很少有辅助决策功能。 数据挖掘( d a t am i n i n g ,d m ) 是2 0 世纪末刚刚兴起的数据智能分析技术,它 源于数据库引发的海量数据和人们利用这些数据的愿望。数据挖掘可以从数据 库或数据仓库,以及其他各种大量数据类型中,自动抽取或发现有用的模式知 识数据挖掘又称为数据库中知识发现( k n o w l e d g ed i s c o v e ri nd a t a b a s e ,k d d ) , 是一种基于计算智能的知识获取过程的一个主要步骤。数据挖掘技术的主要特 点是能利用已有的海量数据来掘取有用信息。是当前信息处理和数据管理领域 研究、开发和应用最活跃的分支之一。如何利用期刊运行与管理系统数据库储 存的信息进行挖掘分析,为编辑部人员提供辅助决策支持,是当前期刊管理领 域一个亟待研究和开发的热门问趔2 1 。 武汉理工大学信息理论与智能信息系统研究所开发的期刊网络化综合运行 管理管理平台,实现了网上投稿、网上审稿、编辑部采编管理、财务管理、编 辑部日常事务处理等一系列功能,极大提高了编辑部人员的工作效率。目前该 平台已积累了大量的历史数据,可以充分进行数据挖掘方法的研究。本课题以 “期刊社信息化建设”为依托,以“期刊网络化综合运行管理平台 为应用背 武汉理工大学硕七学位论文 景。结合现行期干u 社的实际稿件处理流程,引入数据挖掘和数据仓库理论和技 术,将研究的结果形成新的质量管理规则,运用到学术期刊在线运行管理中, 制定和完善学术刊物新的质量评价标准,可有效提高刊物的办刊质量和办刊效 率,减少工作人员的工作量。上述研究工作将对学术期刊的高质量的健康发展 和高效稳定运行具有重要的理论和实践意义。 1 2 国内外研究状况与进展 学术期刊为科技事业的进步做了很大的贡献。它是知识传播的媒介,是广 大学者的精神食粮,在人类历史的发展长河中占据着重要的地位。改革开放以 来,随着人们越来越意识到知识的重要性,我国的学术期刊业的发展取得了长 足的进步。过去3 0 年里我国的期刊总数翻了几翻,现在几乎每所大学,和许多 科研机构都有自己的学术期刊【3 】。到9 0 年代的后期,随着网络的普及,有些期 刊开始采用网络化运营,使得稿源更加广泛,投稿量增加,为我国期刊业的发 展和进步做出了贡献f 4 】。在国外,很多杂志社也采取了网上采编,比如法国物理 化学会出版社、美国自然科学协会出版社等。据美国图书馆协会统计,美国网 上期刊由1 9 9 1 年的1 1 0 种增加到1 9 9 9 年的6 9 5 7 种,几乎涵盖了所有学科1 5 j 。 据国际i s s n 注册者数据库1 9 9 8 年1 2 月统计,全球连续出版物己达6 0 万种, 而因特网上的主页即达1 3 亿页,并以1 0 力页天的速度继续增加。 我国网络学术期刊的诞生和发展与国外相比,大约相差2 3 年时间。早在 1 9 9 4 年,我国第一个网络学术期刊电子信息与通讯网络杂志在上海出版, 它是在名为c h i n a l i n k 的网络上出版的,由上海医科大学信息资源中心等单 位编辑,通过网络定期送到用户的电子信箱。通过c e r n e t 出版发行的神州 学人于1 9 9 5 年1 月进入互联网。1 9 9 8 年6 月,中国科学院诞生了网络报 和互连网周刊,表明公共信息网络的事业发展己使网络观念深入人心。中国 科技信息所的网络中心则在1 9 9 8 年初实现了中国部分优秀期刊的全文上网。 药物分析杂志从1 9 9 7 年第一期开始推出了因特网在线版,并于每月1 8 日 向全世界发布。至1 9 9 8 年底,中国报刊上网4 5 0 种,占中国报刊总数的5 , 占世界上网刊数的4 5 显然,网上的中文信息远远不能满足读者的需要。大力 发展网上中文信息资源的建设不仅关系到民族信息产业的发展和以资源为核心 的中国信息化进程,而且关系到中国“国家知识基础设施建设的速度和成效。 2 武汉理工大学硕士学位论文 还成立了很多像万方数据资源系统,c n i k 中国学术期刊全文数据库,维普中文 科技期刊全文数据库等的期刊资源数据库公司【6 】。网络出版是信息时代数字技术 不断发展,互联网应用不断普及的产物,已经成为数字出版业中影响力最大, 成长最快,应用水平最高的主流媒体。网络出版尤其是学术信息资源的网络化 建设可以说承载着各种知识的汇集,其传播范围之广、传播程度之深是难以用 数据显示的。学术期刊是我国研究人员通过长时间的研究而写出来的学术成果, 代表着各个领域的先进的方向,与网络的结缘,可以让学术成果得到更广泛的 传播与应用,促进经济建设和社会发展。根据统计,目前网络学术文献已经达 到了8 0 0 0 多万篇,4 0 0 0 亿字,年产值已经达到3 4 亿。其中特别要提到的就是 网络学术期刊的出版取得了惊人的业绩,目前我们国家网络学术期刊已经实现 网上出版的总数已经达到7 4 8 6 种,占全部学术期刊的9 9 ,也就是说大家如果 想要查找学术期刊的话,9 9 的学术期刊都可以实现网上检索查询。同时,又 实现了网络期刊回溯查询可以达到4 0 年的程度,也就是说4 0 年前出版的学术 期刊,我们都可以实现网上的查询。但是纵观现有的期刊网络化管理系统的功 能,大多以完成稿件的业务处理为主,而没有充分利用和挖掘已有的历史数据, 实现期刊管理的辅助决策和管理,没能为提高刊物的办刊质量提供及时有效的 支持【卜1 2 】。如何充分利用期刊已有的历史信息,运用科学的方法对其进行分析, 进而得出提高期刊办刊质量的方法,为期刊的发展提供辅助决策支持,是学术 期刊在线运行管理所面临的重要问题【 】。 随着数据库技术的发展及数应用,人们积累的数据越来越多。激增的数据 背后隐藏着许多重要的信息,简单的查询和统计已经无法满足商业的需求,需 要出现一种挖掘数据背后隐藏的知识的手段。同时,计算机技术的另一领域, 它就是人工智能,自1 9 5 6 年诞生之后取得了重大进展。经历了博弈时期、自然 语言理解、知识工程等阶段,目前的热点是机器学习。用数据库管理系统来存 储数据,用机器学习的方法来分析数据,挖掘大量的数据背后的知识,这两者 的结合促成了数据库中的知识发现( k d d :k n o w l e d g ed i s c o v e r yd a t a b a s e s ) 的产 生。1 9 8 9 年8 月在美国底特律召开的第l l 届国际人工智能联合会议的专题讨论 会上首次出现知识发现( k d d ) 这个术语。此后,由美国人工智能协会主办的k d d 国际研讨会已经召开了8 次,规模由原来的专题讨论会发展到国际学术大会, 研究重点也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成, 3 武汉理1 二大学硕士学位论文 以及多种学科之间的相互渗透。后来w j f r a w l e y , g p i a t e t s k ys h a p i r o 等人 提出了数据挖掘的概念【l4 1 。它针对海量数据,运用统计学和智能算法对其进行 分析,得出隐藏在数据背后的规则和知识的方法【1 5 】。比较常用的数据挖掘技术 有回归分析,聚类分析,孤立点分析,相关性分析等【l6 1 。无论是商业机构,政 府组织还是公司企业,在过去一段很长的时间里积累了大量的数据。正是由于 数据挖掘技术的提出,使人们可以发现隐藏在这些海量数据背后的知识,意识 到了以前认为不重要的数据的意义,成为现在研究的热点。比如美国开发的作 为大规模数据库中先进的数据分析工具的s e q u o i a 2 0 0 0 项目【1 7 j 。很多银行和企业 也利用他们系统中的业务数据,分析客户的习惯和行为,相应地调整他们的战 略来赢得更大的利润【i 引。但是数据挖掘研究与开发的总体水平相当于数据库技 术在2 0 世纪7 0 年代所处的地位,迫切需要类似于关系模式、d b m s 系统和s q l 查询语言等理论和方法的指导,才能使其应用得以普遍推广。 目前,数据挖掘的研究热点包括网站的数据挖掘( w e bs i t ed a t am i m n g ) 、生 物信息或基因( b i o i n f o r m a t i c s g e n o m i c s ) 的数据挖掘及其文本的数据挖掘 ( t e x t u a lm i n i n g ) 等等。 ( 1 ) 网站的数据挖掘:随着w e b 技术的发展,各类电子商务网站风起云涌, 如何让电子商务网站有效益是一个关键问题。电子商务网站每天都生成大量的 记录文件和登记表,如果能对这些数据进行分析和挖掘,充分了解客户的喜好、 购买模式,并设计出满足于不同客户群体需要的个性化网站,必能增加商家的 竞争力。在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方 面是客户的背景信息,主要来自于客户的登记表;另外一部分数据主要来自浏 览者的点击流,主要用于考察客户的行为表现。就分析和建立模型的技术和算 法而言,网站的数据挖掘和原来的数据挖掘差别不大,很多方法和分析思想都 可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的 数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据 准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。 ( 2 ) 生物信息或基因的数据挖掘:生物信息或基因数据挖掘在商业上很难讲 有多大的价值,但对于人类却受益非浅。无论在数据的复杂程度、数据量还有 分析和建立模型的算法而言,生物信息或基因的数据挖掘比通常的数据挖掘要 复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在 4 武汉理工大学硕士学位论文 致力于这方面的研究。但就技术和软件而合一,还远没有达到成熟的地步。 ( 3 ) 文本的数据挖掘:无论是在数据结构还是在分析处理方法方面,文本数 据挖掘与数据库中的数据挖掘相差很大。文本数据挖掘并不是件容易的事情, 尤其是在分析方法方面,还有很多需要研究的问题。目前市场上有一些类似的 软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现 频率,并没有真正的分析功能。 尽管数据挖掘技术已被广泛研究和应用,并在居多方面取得了较多成果, 但是,迄今为止,将该技术应用到学术期刊在线运行管理和决策分析中还不多 见。如何解决数据挖掘在期刊运行与质量管理中的有效应用已成为不可忽视的 学术研究问题。 1 3 本文所做工作 在武汉理工大学信息理论与智能信息系统研究所开发的期刊网络化综合运 行管理平台上,已经有二十多家杂志在其上运行。该系统不仅提高了杂志社 的办事效率,减少了工作人员的工作量,而且也完整地保存了期刊运行和发 展的各类历史信息。运用数据挖掘的方法可以充分利用期刊已有的历史信息, 对其进行分析,进而提高期刊办刊质量。结合各杂志社的对文章及其处理的质 量需求和期刊网络化运行系统的工作流程,我们提出了进行数据挖掘的功能模 块如图1 1 所示。 罔蕊 ! 类;嚣l i 毳!;器i 妻f 誊 l 錾j! 蓬: 耋!l 雾 捻j! 菥i l 塑ul ! j 图1 1 期刊网络化运行系统数据挖掘模块划分 5 掘 一 挖 一 据 一 数 一 统 一系块一 理模 管一 息 一 信 一 刊 一 期 一 武汉理工大学硕士学位论文 上图中各功能模块的含义如下: 学术不端行为检测:针对作者的新投稿件,对论文的标题、摘要、关键词 等关键信息进行检测。其具体实现方法为,构造一种基于字符串匹配算法来评 价某篇稿件的摘要和数据库中已存在稿件的相似度。 稿源信息库分析:针对投稿信息库,按稿件的研究方向、受资助的基金类型 等内容进行分类统计分析,以此得出把握期刊社稿件质量的基本信息,使杂志 社工作人员能更清楚了解稿件的质量在各年度中的变化。 审稿信息库库分析:审稿专家库的建设关系到杂志社的长久发展。通过聚 类分析方法,对审稿专家的年龄分布、审回时间长度、专家审稿量、专家审稿 尺度等因素进行分析,以此来帮助杂志社工作人员判断专家库建立是否合理。 系统日志分析:系统日志可以反映系统具体的运行情况。通过对数据库的 不同数据粒度的抽取,聚合成轻度和高度综合级别的数据构建数据仓库,并对 其记录的信息进行分类统计,以此使得杂志社工作人员可以从不同角度来观察 系统的运行情况。 依照上述数据挖掘的功能划分和需求,本文以学术期刊数据库的数据挖掘 技术为研究对象,以“期刊网络化综合运行管理平台为应用背景。主要做了 以下的工作。 ( 1 ) 针对新投稿件,提出并实现了一种学术不端行为的发现方法; ( 2 ) 基于投稿信息库,采用统计分类算法,对稿件的来源进行统计挖掘分析; ( 3 ) 基于审稿专家库,运用k - m e a n s 算法对审稿专家的审稿过程和结果信息 进行了聚类分析; ( 4 ) 构造了基于系统日志分析的数据仓库模型,并对同志信息进行了统计数 据挖掘分析。 1 4 本文结构和组织 论文共分为五章,主要的内容概要如下: 第1 章阐述了本课题的研究背景、意义和国内外研究现状与进展,提出了 本文的研究内容,简要说明了期刊管理系统对数据挖掘方法的需求,以及 本文所作的工作,阐述了论文的组织结构。 第2 章分析了学术不端行为的特点,探讨了现有的文本检测方法。结合期 6 武汉理工火学硕士学位论文 刊网络运行与管理系统的特点,针对新投稿件,提出了一种学术不端行为的识 别方法,并对其进行了实现。 第3 章基于投审稿信息库,对稿源信息进行了多角度的统计挖掘分 析;基于审稿信息库,对审稿信息进行了聚类分析,为编辑部提高稿源质量 和选择审稿专家提供了辅助决策依据。 第4 章分析了数据仓库的特点,建立了基于系统日志的数据仓库,并对系 统同志进行了统计挖掘分析。 第5 章对本文所做的工作进行总结对下一步数据挖掘研究方向进行展望。 7 武汉理工大学硕士学位论文 第2 章一种学术不丛_ 4 而i 1 i 行为的分析方法 2 1 学术不端行为的特点及其分析 学术不端行为近年来成为社会各界关注的焦点。目前对什么叫做学术不端 社会上还没有明确权威的定义,一般来说它是指研究和学术领域内各种滥用和 骗取科研资源,编造、作假、剽窃等科研活动过程中违背社会道德的行为【l 9 1 。 它阻碍学术创新,败坏社会风气,对我国建设和谐社会产生了不良影响。学术 不端已经渗透到社会的各个角落,严重影响到作为学术交流平台的学术期刊的 发展【2 0 1 。主要表现为6 种行为:它的特点主要表现在以下几方面。 ( 1 ) 抄袭。抄袭是指在所有者没有同意的情况下把别人的成功占为己有。更 具体的说就是对他人论文进行整体的抄袭或者是对多篇论文进行东拼西凑合成 自己的论文,有的也就是只是稍加改动。它与“适当引用 是有差别的。我国 法律规定论文引用他人作品的字数不能超过两千五百字或者不能占论文总字数 的十分之一。近年来抄袭现象越来越严重,特别是在学术期刊中,而且范围更 加广泛。上述行为中,有的学者并不是有意抄袭而是缺乏基本的论文写作常识, 比如在在引用他人观点结论时不注明出处。这种情况也是普遍存在的。 ( 2 ) 伪造数据。这在理工类的论文较为严重。这种行为的社会危害比前面一 种危害大得多,因为抄袭危害的只是单一个体而伪造数据会对一个群体产生影 响。但这种行为具有很大的隐蔽性,因为数据是本来不存在的,他人难以充分 实验来验证。编造窜改数据,改动记录和图片,做虚假的描述都属于这种行为。 但因为在各种利益的驱动下这种行为屡见不鲜。 ( 3 ) 一稿多投。为了确保文章能发出去,很多作者将同一篇文章向多家杂志 社投稿。这无疑会增加编辑部的工作量,造成资源浪费。但在当前的学术期刊 中这种现象相当普遍。据有关部门统计,在所调查的论文中一稿多投占总数的 三分之左右。可见这个问题的严重性。 ( 4 ) 学术内容重复水平低。也就是缺乏创新,论文观点,论据雷同,千篇一 律,是学术上的垃圾【2 1 - 2 3 】。 学术不端行为出现的原因是多方面的原因的。主要有以下几个方面: 武汉理,1 :大学硕七学位论文 ( 1 ) 社会体制【2 4 1 。现在社会上评定职称,研究生毕业等要求在核心期刊上发 表论文。更有甚者,连工资、职务、公积金等都会和论文发表挂钩。这无疑会 给人们造成压力甚至形成误导,使得人们只注重发表论文的数量而对论文的质 量漠不关心。有的甚至会为了自身利益,急功近利的通过抄袭和一稿多投来达 到目的。 ( 2 ) 科技进步【2 5 1 。随着科技的不断发展,互联网已经进入千家万户,电脑也 成为人们生活的必需品。人们可以通过互联网方便的了解世界,实现资源共享, 搜索引擎功能强大,能在网上找到任何想了解的资料。人们获取信息的渠道变 得很方便,但同时也为抄袭者提供了机会。另一方面因为电子文档容易被复制 粘贴,抄袭者只需简单操作就可以将别人的成功占为己有,为一稿多投提供了 方便。 ( 3 ) 缺乏惩罚措施。虽然我国制定了有关知识产权的法律,而且有的杂志社 也联合起来,已经发现有哪位作者一稿多投,就会好几年内不接受其文章。但 总的来说执行力度不够。效果不大。缺乏惩罚机制客观上纵容了学术不端行为 的发展。 ( 4 ) 学术期刊自身原因。作为考核学术成果品质最后的“把关人”,学术期 刊应该严格审稿。但由于查证工具相对缺乏,没有能有效的把关。 基于上述分析可见,学术不端行为往往容易在期刊孤立运行的离线送审与 管理中出现,当实现期刊网络化运行和管理系统后,作者所投的文章就被记录 在数据库中,实现了文章数据的结构化规范管理,因此,可针对新投稿件,依 托已有的历史文章的信息,对稿件的抄袭现象进行识别。为此,本文对上述学 术不端行为的特征进行了分析,并提出了一种学术不端行为的识别方法。 2 2 一种学术不端行为的识别方法设计 2 2 1 文档复制检测法及其特点 判断一个文件的内容是否抄袭或者复制于另外个或者多个文档的技术叫 做复制检测也可以称为称剽窃检n t 2 6 1 。现在主要有两种措施来检查文档。一种 是阻止法。它通过加密、水印等方法来使文档内容难以拷贝从而来保护知识产 权。但上述方法容易被破解,不能完全解决知识产权保护问题。另一种就是检 9 武汉理工大学硕士学位论文 查法【2 7 1 。它判断当前文档是否含有复制或者剽窃的内容而不管文档是如何抄袭 的。它的核心就是复制检测技术。早在上世纪6 0 年代就有很多学者研究设计如 何识别大规模拷贝的技术和软件。在这期间基于属性计数的检查软件最先在 1 9 7 6 年提出。现在随着科技的发展,复制检查软件业越来越成熟。已经出现了 很多具有代表性的作品。他们是斯坦福大学的b r i n 和g a r c i a - m o l i n a 等人开发出 了c o p s 原型系统。g a r c i a m o l i n a 等人提出了s c a m 原型系统。香港理工大 学的s i 等人建立了c h e c k 原型系统【2 8 】:复制检测系统的结构主要由四个模块 组成,他们是: ( 1 ) 数据库模块。它里面存储着大量的注册文档,也就是要与被检查文档进 行比对的对象。它的信息的存储规模和完整度直接关系到整个系统的检查效果。 ( 2 ) 输入模块。这个模块用来输入待检查对象。进行检查前的数据清理,提 取特征值等事前工作。 ( 3 ) 检查模块。这是整个系统的核心模块。运用相应的算法将检测文档和数 据库中的文档进行对比。 ( 4 ) 解释模块。它主要负责输出检测结果并把结果解释给用户。 2 2 2 基于字符串匹配的文档复制检测方法 字符串是由多个字符组成的序列,通常一个字符串可以表t _ “t o t l t n 其中 n 0 字符序列t o t i t n 叫做长度为1 的字符串t 的值【2 9 1 。字符串的子串是指该字 符串任意个连续的字符组成的子序列。而该字符串叫做这个字串的主串。用子 串的第一个字符在主串中的位置来表示子串在主串中的位置。当两个字符串的 长度相等并且各个对应位置的字符也相等时称这两个字符串相等。假设t 1 、t 2 和t 都是字符串,如果串t 的值的前一段和串t 1 的值相等而后段和串t 2 的 值相等,则称字符串t 可以由t 1 和t 2 连接得到。求子串的过程即为从串t 找 出从第p o s 个字符开始长度为l e n 的连续字符序列的过程。串的模式匹配也就 是子串的定位操作,它是各种串的处理最基本的操作之一。具体的说,如果有 两个字符串t “t o t l t n ”,s = “s o s l s n ”。找出t 中和s 相等的子串的过程就叫做字 符串的模式匹配。其中t 和s 分别叫做目标和模式。模式匹配算法的基本思路 为:从主串t 的第p o s 个字符起和模式的第一个字符比较,如果相等,则继续逐 个比较下去,否则从主串的下一个字符起再重新和模式的字符比较。重复上面 l o 武汉理工大学硕士学位论文 的过程,直至模式串中的每个字符依次和主串中的一个连续的字符序列相等称 匹配成功。否则称为匹配失败。下面是两种常见的字符串匹配算法。这种算法 也称为朴素匹配算法【3 0 1 。这个过程可以形象的看成用一个模式串沿着文本目标 串滑动。对每个位移比较模式串的子串和目标串是否相等。下面是该算法的一 个例子: 第一趟匹配t a r g e t :a bab cab cac b = = p a t :a b c 第二趟匹配t a r g e t :a bab cab cacb p a t : a 第三趟匹配t a r g e t :ab abcabcac b = =2 p a t : ab cac 第四趟匹配t a r g e t :aba b cab cac b p a t : a 第五趟匹配t a r g e t :aba b cab cac b p a t : a 第六趟匹配t a r g e t :aba b cab cac b = = = = p a t : ab cac 朴素算法易于理解。但算法比较到某一字符不相等时,目标串必须右移一 个字符并且只能是一个字符和模式串重新进行比较,产生回溯现象。假设目标 串的长度为1 1 ,模式串的长度为m ,在最坏情况下,对于目标串可能的n - m + 1 个 可能的位移值,模式串必须循环的比较m 次。运行时间为o ( ( n m + 1 ) m ) 。这种 算法的效率不高的原因在于我们没有考虑模式串自身的特点。而模式串自身的 信息其实是非常有用的。下面我们就介绍一种有效利用这一信息来改进算法时 间复杂度的k m p 算法。 武汉理丁大学硕士学位论文 k m p 算法是由k n u t h ,m o m s ,p r a t t 三人设计的线性时间字符串匹配算法【3 l 】。 其核心思想是:在发生失配时,目标串不需要回溯,而是利用已经得到的“部 分匹配”结果将模式串右移尽可能远的距离继续比较。而至于右移多远,就是 通过模式串自身的信息计算出来。 如果模式串中存在满足p l p 2 p k - 1 希“1p j k + 2 p i j 的两个子串,则在匹配过 程中当主串中第i 个字符和模式中第j 个字符不相等时,将模式向右移动到模式 中第k 个字符与主串中的第i 个字符对齐,这个时候模式串中头k 1 个字符的子 串p i p 2 p k l 必定与主串中第i 个字符之前长度为k 一1 的子串p j 。k + 1 p j - k + 2 f f 。1 相等。 匹配仅需从第k 个字符与主串中第i 个字符比较起继续进行。用伪代码算法如 下。方法k m p 返回模式串m 在主串的位置。如果不匹配则返回1 。其中s 是主窜, m 为模式串。方法k m p 调用了一个辅助方法p r e n e x t 来计算n e x t 。 k m p ( s ,m ) 1 n - - l e n g t h s 2 m , - l e n g t h m 】 3 n e x t 卜p r e n e x t m 4 q 卜0 匹配的个数 5f o ri 0a n dm q + l 】s i 】 7d oq oa n dm k + 1 m q 】 6d ok - - n e x t k 7 i f m k + 1 = m q 】 8t h e n k4 - - - k + 1 9 n e x t q 】卜k 1 0r e t u mn e x t 通过k m p 算法,上面例子的匹配过程变为: 第一趟匹配t a r g e t :aba b ca = = 壬 从左到右计算n e x t 的值 b cac b p a t :a b c 第二趟匹配t a r g e t :a babcabcac b = p a t : ab cac 第三趟匹配t a r g e t :a babcab cacb p a t : ab cac k m p 算法的时间复杂度为线性的,为o ( n 慨) ,这比朴素匹配算法多项式级 复杂度o ( ( n m + 1 ) x m ) 有很大提高。特别是对与大规模的文本处理该算法的优势 更为突出。 2 3 识别方法的实现 本学术期刊运行与管理运行系统已经有二十多家期刊社采用,积累了大量 的历史数据和文章,为论文的学术不端检查工作提供了良好的平台,通过这些 杂志社不同的数据库提取的数据仓库可以容易的检测出一稿多投的和抄袭行 为。首先要从不同的期刊数据库中抽取出有用的数据,形成文章信息数据仓库。 提取的信息包括:文章i d ,题目,摘要,关键字,研究方向,所在的杂志,还 有文章的存储地址。作为学术期刊运行平台数据仓库中的文章信息表。 武汉理工大学硕士学位论文 表g - 1a r t i c li n f o 关键字字段名字段类型字段长度数据字典 1 l 木 a i di n t 流水账号 n a r t i c l _ i d v a r c h a r2 0论文i d a r t i c l - t i t l e v a r c h a r l o o论文题目 a r t i c l _ k e y w v a r c h a r5 0 关键字 o r d s a r t i c l a b t r a v a r c h a r5 0 0 0摘要 c t d o iv a r c h a r2 0中图分类号 p e r r i d i c a lv a r c h a r2 0期刊代号 a r t i c l e _ p a t h v a r c h a r5 0 0存储路径 因为研究方向各个杂志社都有自己的分类方法,造成了研究方向没有统一 的标准。这就要对原始数据进行规范。我们用中国图书馆分类法来对论文的研 究方向进行分类。用中图分类号来做为研究方向的代号。每个月从期刊运行平 台中各个期刊的数据库提取当月新提交论文信息的信息到数据仓库中。这样可 以提高效率也保证了良好的实时性。 本识别模块分为两个部分,根据比较对象范围的不同,又可以把文档复制 检测系统分为两种。先是1 :1 1 _ 的通过数据库保存论文的关键字和研究方向进行 筛选。这样可以减少怀疑对象。缩小检查范围。然后为1 :1 的通过两篇论文摘 要内容基于字符串匹配的复制检测。它的系统结构如图2 - i 所示。 1 4 武汉理工大学硕士学位论文 图2 1 检查模块系统结构 检查学术论文工作流程为: ( 1 ) 待测论文进入第一模块初始筛选模块。 ( 2 ) 把数据库中研究方向与被检测论文研究方向相同的论文筛选出来。 ( 3 ) 把在上一步骤筛选出来的论文再剔除一部份,只有当其中有一关键字与 被检测论文相同时才留下来。 ( 4 ) 进入下一个模块。把剩下的论文进行一对一的基于字符串匹配按论文摘 要进行检测。 ( 5 ) 当有连续的n 个或n 个以上字符完全相同时,输出相同的内容。其中n 的 值由操作者来规定。 第一模块的任务是在数据库里的海量的学术论文中找到内容相似的论文以 减少后面模块比对的工作量,因为内容和体裁越相似的论文抄袭的可能性越大。 研究方向是论文的研究范围,而且系统中研究方向是通过中图分类号归类的, 比较规范,数目有限,使得筛选速

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论