(计算机软件与理论专业论文)数据挖掘技术在科研评价系统中应用研究.pdf_第1页
(计算机软件与理论专业论文)数据挖掘技术在科研评价系统中应用研究.pdf_第2页
(计算机软件与理论专业论文)数据挖掘技术在科研评价系统中应用研究.pdf_第3页
(计算机软件与理论专业论文)数据挖掘技术在科研评价系统中应用研究.pdf_第4页
(计算机软件与理论专业论文)数据挖掘技术在科研评价系统中应用研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着计算机技术,特别是数据库技术的发展,高校的信息化发展有了很大的 进步,校园网内各类管理信息系统以及因特网上权威检索数据库中存储的数据已 初具规模。如何发现隐含在这些数据中的规则和知识,并辅助教育决策,成为亟 待解决的问题。数据挖掘技术的出现和发展为此提供了有力的支持。 本文从信息计量学的角度,对构建科研评价体系中的问题需求进行分析,进 而寻找该体系中具有强支持度的属性和规则。当前科研管理信息系统中的数据主 要以关系型数据库存储,因此本文采用关联规则挖掘算法对科研数据进行挖掘研 究,旨在为构建科学的科研评价体系提供数据支持,从而更好地完善科研评价, 科学地实施教育决策。文中首先介绍高校科研评价的研究现状,发现现行体系中 的不足,并阐述数据挖掘技术在高校科研管理中应用研究的内容和意义。其次, 介绍分析数据挖掘及其主要技术。数据挖掘是集成多项技术( 如统计学、人工智 能、数据库等) 于一体的交叉性学科,是从大量不完备的、模糊随机的数据中, 提取出事先未知的、但具有价值的信息和知识的过程。数据挖掘的主要技术之一 是关联规则,后者从多种信息存储库( 如事务数据库、关系数据库等) 中的大量 数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。关联规则中的经 典算法主要有a p r i o r i 算法及其改进算法。再次,高校科研数据的关联挖掘系统 的设计。坚持科学性、前瞻性、导向性、可行性、平衡性等的原则构建高校科研 评价体系,其目标可以实现科学预测、项目评估、专家遴选以及人才与科研机构 评价等,进而指导教育决策。高校科研管理系统中包含科研人员库、专家库、项 目库、论文库、著作库等大量数据,文中仅以成果库中项目、著作、论文数据为 对象进行挖掘研究。同时由于各类数据表都具有多个属性,因此文中着重针对关 联挖掘多维a p r i o r i 算法进行设计和研究。有了核心算法,就可从科研数据挖掘 系统的设计需求、执行流程以及系统结构方面对该系统作设计。最后,高校科研 数据的关联挖掘系统的实现。选择部分科研项目、学术论文、学术著作等数据进 行清理、集成,通过去除冗余、模糊信息确认、事务信息定义等步骤,实施由一 个关系数据表变成事务表,进而生成事务集的数据变换过程。经过上述数据准备, 山东大学硕士学位论文 就可以进入关联挖掘过程的具体实施。对挖掘结果进行分析,发现一些潜在的、 能有助实施评价的关联规则;发掘影响科研成果的关键要素,以及各科研条件间 和科研成果间的关联规则。从而为组织、协调及评价教师科研工作,并作出科研 决策提供科学依据,为科研管理提供一种新的思路和研究方法。 本文使用关联规则挖掘技术对高校管理信息系统中的数据进行发掘,这是数 据挖掘在科研管理信息系统中的一次应用研究。本次应用也仅是对大量数据中的 抽样数据进行实验性发掘。因各高校现行科研体制各具特色,所以今后还需加大 总结各高校的特点,进行具有针对性实例性研究。发掘科研管理系统中对科研评 价有强支持度的数据、条件及事务,从而为构建科研评价体系和实现评价系统, 为教育决策提供有力支持,为提高高校科研管理信息系统的实时性和智能性提供 了有效可行的技术途径。 6 关键词:科研评价;信息计量学;数据挖掘;关联规则 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e rt e c h n o l o g ye s p e c i a l l y t h ed a t a b a s e t e c h n o l o g y , i td e v e l o p m e n t i nu n i v e r s i t i e sh a sb e e ni m p r o v e di n c r e a s i n g l y a l lk i n d s o fi n f o r m a t i o nm a n a g e m e n ts y s t e m si nc a m p u sn e ta n dd a t as t o r e do nt h ei n t e m e t i n f o r m a t i o nr e t r i e v a ls y s t e mb e g a nt ot a k es h a p e h o wt of i n dt h ep o t e n t i a lr u l e sa n d k n o w l e d g ea n da s s i s tt h e mw i t h e d u c a t i o n a ld e c i s i o n - m a k i n gb e c o m e sa l lu r g e n t p r o b l e m t h ea p p e a r a n c eo f d a t am i n i n gt e c h n o l o g yh a sp r o v i d e ds t r o n gs u p p o r t f r o mp e r s p e c t i v eo fl n f o r m a t i c s ,t h i sp a p e ra n a l y s e st h ed e m a n di ne s t a b l i s h i n g e v a l u a t i o ns y s t e mo fs c i e n t i f i cr e s e a r c ha n ds t e p sf u r t h e rt of i n di t sc h a r a c t e r sa n d r u l e s t h ed a t ai nc u r r e n ti n f o r m a t i o ns y s t e ma r es t o r e dm a i n l yb yt h ew a yo f r e l a t i o n a ld a t a b a s e ,s ot h i sp a p e rt a k e st y p i c a la s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mt o r e s e a r c ht h es c i e n t i f i cd a t a ,w h i c ha i m sa tp r o v i d i n gd a t as u p p o r tf o re s t a b l i s h m e n to f s c i e n t i f i ce v a l u a t i o ns y s t e m t h u ss c i e n t i f i ce v a l u a t i o n w i l lb ep e r f e c t e da n d e d u c a t i o n a ld e c i s i o n m a k i n gw i l lb ec a r r i e do u ts c i e n t i f i c a l l y f i r s to fa l l 。i ti n t r o d u c e st h ec u r r e n tr e s e a r c ho f e v a l u a t i o ns y s t e m si nu n i v e r s i t i e s , f i n d so u tt h ed i s a d v a n t a g e si nt h e ma n dd i s c u s s e st h ec o n t e n t sa n ds i g n i f i c a n c eo f r e s e a r c ho nd a t am i n i n gt e c h n o l o g y s e c o n d ,i ti n t r o d u c e sa n da n a l y s e sd a t am i n i n g a n di t sm a i nt e c h n o l o g y d a t am i n i n gi sac r o s ss u b j e c tw h i c hi n t e g r a t e san u m b e ro f t e c h n o l o g i e s ( s u c ha ss t a t i s t i c s ,a r t i f i c i a li n t e l l i g e n c e ,d a t a b a s e ,e t c ) ,a n d i ti sa p r o c e s sw h i c he x t r a c t sp r i o ru n k n o w n ,b u tv a l u a b l ei n f o r m a t i o na n dk n o w l e d g ef r o m al a r g en u m b e ro fi n c o m p l e t e ,f u z z yr a n d o md a t a o n eo fi t sm a i nt e c h n o l o g i e si s a s s o c i a t i o nr u l e s t h el a t e rf i n d si n t e r e s t i n g , f r e q u e n tp a t t e r n s ,a s s o c i a t i o n a n d r e l e v a n c ef r o mav a r i e t yo fi n f o r m a t i o nr e p o s i t o r i e s ( s u c ha st r a n s a c t i o nd a t a b a s e , r e l a t i o n a ld a t a b a s e ,e t c ) a m o n gi t e ms e t si nl a r g ea m o u n t so fd a t a am a i na n d t y p i c a la s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mi sm i n i n gm u l t i - d i m e n s i o n a la s s o c i a t i o n r u l e sa p r i o r ia n dt h ed e v e l o p e do n e t h i r d l y , i ti sa b o u th o wt od e s i g na s s o c i a t i o n r u l e s m i n i n gs y s t e m i tc a na c h i e v ei t sg o a l so f s c i e n t i f i cp r e d i c t i o n ,p r o j e c t e v a l u a t i o n 。e x p e r ts e l e c t i o na n de v a l u a t i o no f t a l e n ta n ds c i e n t i f i cr e s e a r c hi n s t i t u t i o n s , e t c ,a n dt h e ng u i d ee d u c a t i o n a ld e c i s i o n m a k i n gi fs c i e n t i f i cr e s e a r c he v a l u a t i o n s y s t e mi s e s t a b l i s h e du n d e rt h ep r i n c i p l e so fs c i e n t i f i cn a t u r e ,f o r w a r d l o o k i n g 7 山东大学硕士学位论文 曼篁曼皇璺量曼葛皇鼍曼曼鼍詈量晕量曼曼晨曼皇_ 舅曼量皇舅舅皇曼篁毫置蔓皇曼量量皇j ,i !i i o r i e n t a t i o n ,g u i d a n c eq u a l i t y , f e a s i b i l i t y , b a l a n c e , a n ds oo n r e s e a r c hm a n a g e m e n t s y s t e mi nu n i v e r s i t i e sc o n t a i n sal a r g eo fd a t a b a s e s o fs c i e n t i f i cr e s e a r c hi n d i v i d u a l s , e x p e r t s ,p r o j e c t ,t h e s i s ,b o o k sa n ds oo n h o w e v e rt h i sp a p e ro n l y r e s e a r c h e s a c h i e v e m e n t sd a t a b a s ea n dt a r g e t si t sp r o j e c t s ,p u b l i c a t i o n s ,t h e s i sa sd a t am i n i n g o b j e c t s a t t h es a m et i m e ,b e c a u s et h e r ea r ev a r i o u st y p e so fd a t at a b l e st h i sp a p e r f o c u s e so nt h ed e s i g n i n ga n dr e s e a r c h e so fm i n i n gm u l t i d i m e n s i o n a la s s o c i a t i o nr u l e s a p r i o r ia l g o r i t h m w i t ht h i sc o r ea l g o r i t h m ,w e c a nd e s i g nt h i ss y s t e mf r o ma s p e c t so f i t sd e s i g nr e q u i r e m e n t s ,i m p l e m e n t a t i o na n ds y s t e ms t r u c t u r e f i n a l l y , i tt e l l st h e r e a l i z a t i o no fa s s o c i a t i o nr u l e sm i n i n gs y s t e m f o rs c i e n t i f i cr e s e a r c hd a t ai n u n i v e r s i t i e s w i t hs e l e c t i n gp a r to fr e s e a r c hp r o j e c t s ,a c a d e m i cp a p e r s ,a c a d e m i c w r i t i n g st oh a v ed a t ac l e a n i n g ,i n t e g r a t i o na n dg o i n gt h r o u g hs o m es t e p so f r e m o v a l , c o n f i r m a t i o na n dd e f i n i t i o n ,d a t as e t sa f f a i r st r a n s f o r m a t i o np r o c e s si sg e n e r a t e d a t t e ra b o v ed a t ap r e p a r a t i o n ,a s s o c i a t i o nr u l e sm i n i n gs y s t e mc a nb ei m p l e m e n t e d i fa n a l y z et h er e s u l t ,t h ep o t e n t i a la n dh e l p f u la s s o c i a t i o nr u l e sw i l lb ef o u n d t o m i n e t h ei m p a c to ft h ek e ye l e m e n t so fs c i e n t i f i cr e s e a r c h ,a sw e l la sa s s o c i a t i o nr u l e s a m o n gv a r i o u sr e s e a r c hc o n d i t i o n sa n dr e s u l t sc a np r o v i d e an e ww a yo ft h i n k i n ga n d r e s e a r c hm e t h o d sf o rt h eo r g a n i z a t i o n ,c o o r d i n a t i o na n de v a l u a t i o no ft e a c h e r si n s c i e n t i f i cr e s e a r c hw o r ka n dm a k i n gs c i e n t i f i cd e c i s i o n - m a k i n g i nt h i sp a p e r , t h eu s eo fa s s o c i a t i o nr u l em i n i n gt e c h n o l o g yi sa na p p l i e dr e s e a r c h o nd a t am i n i n gi nr e s e a r c hm a n a g e m e n ti n f o r m a t i o ns y s t e m s t h ea p p l i c a t i o n sa r c o n l yak i n do fe x p e r i m e n t a lm i n i n ga b o u tal a r g en u m b e r o fd a t as a m p l i n g d u et ot h e d i f f e r e n tc h a r a c t e r i s t i c so fs c i e n t i f i cr e s e a r c hs y s t e m si n c u r r e n t c o l l e g e sa n d u n i v e r s i t i e s ,s p e c i f i ce x a m p l e so fr e s e a r c h s h a l lb ei n c r e a s e db a s e do nt h o s e c h a r a c t e r i s t i c s i th e l p st ob u i l da n di m p l e m e n te v a l u a t i o n ss y s t e m ,a n dp r o v i d e s s t r o n gs u p p o r tf o re d u c a t i o n a ld e c i s i o n m a k i n ga n da ne f f e c t i v em e a n so fv i a b l e t e c h n o l o g i e sf o rr e a l - t i m ea n di n t e l l i g e n c eo fi n f o r m a t i o ns y s t e m st om i n et h ed a t a , c o n d i t i o n sa n da f f a i r sw h i c hs t r o n g l ys u p p o r tt h e e v a l u a t i o no fr e s e a r c h k e yw o r d s :e v a l u a t i o no fs c i e n t i f i c r e s e a r c h ,l n f o r m e t r i c s ,d a t am i n i n g , a s s o c i a t i o nr u l e s 3 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:趁驻日 关于学位论文使用授权的声明 本人同意学校保留或向国家有关部门或机构送交论文的印刷件 和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:雄导师签名:? 逊日期:劢缉! i i 山东大学硕士学位论文 1 绪论 随着改革开放的深化和高等教育的进一步发展,处在经济时代的我国高等学 校将迎接着更大的挑战。科学研究已提到了极其重要的地位,单纯以培养人才为 目标的大学已不能适应社会的需要,教学与科研相结合,二者要并重,为社会输 送合格人才和提供科技等方面的服务。提高科研创新实力是促进高校改革与发展 的关键,而建立科学的高校科研评价体系是加强高等学校科研管理和提高学术水 平的重要举措。 1 1 高校科研评价的背景 提高自主创新能力,建设创新型国家,是国家发展战略的核心,是提高综合 国力的关键。我国近现代著名的高等教育思想家梅贻琦在近1 7 年的清华大学校 长工作中形成了内涵丰富的大学理念。他认为:“办学校,特别是办大学,应有 两种目的:一是研究学术,二是造就人才 。多年来,清华大学在梅贻琦领导下, 取得了丰硕的成果。今天清华大学的人均科研和研究专题仍居于全国高校之首。 邓小平1 9 7 7 年在有关教育工作的谈话中指出:“重点大学既是办教育的中心, 又是办科研的中心 。这说明,重点大学应逐渐加大科研的分量,多出高水平的 科研成果。把科技进步和创新作为经济社会发展的重要推动力,把发展教育和培 养德才兼备的高素质人才摆在更加突出的战略位置,深化体制改革,加大投入, 加快科技教育发展,努力建设创新型国家和人力资本强国。我国高等教育在“十 一五”期间继续推动“2 1 l 和“9 8 5 工程建设,实施科教兴国战略,加强高水 平大学和重点学科建设,将逐步形成一批处于学术前沿的新兴和交叉学科,部分 学科接近或达到国际先进水平。作为学术创新与科技创新的前沿阵地,高校建立 科学研究评价必须坚持以鼓励创新、服务发展为第一要义,以公开、公平、公正 为第一准则。时代需要创新,国家需要创新,为提高高校的科研实力和学术水平 提供了有力的发展契机。 高校的科学研究发展规律,在很大程度上是由高校的人才、条件与成果的消 9 山东大学硕士学位论文 长演变、增长速度、学科构成及其比例关系来体现的。而这些方面的发展又集中 反映在科学文献的各种变化上。这是因为科学文献是科技知识和成果的客观记 录,是科学存在的表现形式。任何一项科学研究和技术创造,都要以拟写必要的 科学文献为其最后阶段。同时,科学技术也是借助科学文献来继承和发展的。因 此,科学文献的数量和质量无疑是对科学技术水平的一种量度。就如同一个好的 软件,不仅要有顺利执行的程序,还要有易于阅读的文档。所谓科研评价指对科 研成果( 科研成果可以分成学术性成果、工作性成果,还可以分成理论性或政策 性成果,等等) 的工作质量、学术水平、实际应用和成熟程度等予以客观的、具 体的、恰当的评价。这是科研成果管理的一项重要内容,是一项政策性和技术性 很强的工作,直接关系到科研的发展方向和科研人员的积极性以及经济建设的发 展。它一经推出就以其目标明确、标准清晰、便于操作的特点受到许多国内外科 研院所的认可,客观上改变了当时科研评价无具体明确目标、科研活动随意松散 的局面,被认为是较好的科研评价方式。演变到今天,它已成为一种科研行政部 门进行管理的手段和方式,管理的职能和特点尤为突出,但在实际操作中也出现 许多问题,带来诸多负面效应。如何正确认识科学研究本质,怎样合理评价科学 研究成果,原创性科研成果的生产也是时代之需,因此科研管理部门和广大科研 工作者都应该认真思考。 科学研究是核心,教师要在不断做出重大科研成果的同时,培养出众多有创 造性的学生。这里要求教师将科研当做工作的灵魂,而不是可有可无的附加品, 更不是评职晋级的手段。同时教师应将科研工作与发展国家和地区的经济紧密结 合,并力争与世界接轨和赶超世界水平。高校科研,是指高校师生所从事的一 切科学研究活动。既包括自然科学研究,也包括社会科学研究。 i i 】随着i n t e r a c t 技术的引进和数字化校园的建设,基于校园网和i n t e r a c t 的应用系统的开发正在 蓬勃发展。高校的各类管理信息系统,如学生管理、教务管理、人事管理和科研 管理系统正在建设并逐步完善起来。基于网络的科研管理系统的实施,使高校积 累了大量的科研数据。如何对这些数据进行充分利用,将现有的管理数据转化为 可供深入使用的知识,提高科研管理水平和科研预测,是目前建立评价系统应该 重点考虑的问题。 1 0 山东大学硕士学位论文 1 2 高校科研评价体系中存在的问题 目前,我国各高等院校已经充分意识到科研评价的重要作用,并将科研实力 的评价作为科技管理的常规工作。高校科研评价体系是高校科研工作的重要组成 部分,它由科研成果考评办法、科研项目管理办法、重点学科建设办法、学科带 头人培养办法等科研管理文件组成。科研评价体系是一项系统工程,不单是评价 成果,还兼有评价项目、评价学科等作用。其中直接参与评价的是科研成果考核 办法,其他几方面间接为科研评价体系服务。但现有科研评价系统在建立、使用 以及评价结果分析的过程中仍存在一些问题,例如评价理论的研究、评价手段的 使用、评价方法的更新等问题,这些问题直接影响着高校科研评价功能的发挥以 及潜在知识的挖掘。科研评价体系是学校科研工作的晴雨表,对学校科技水平的 提升、核心竞争力的增强、能够起到体制的支撑作用。 1 定性评价中的人文问题 教师的德才总会通过各种方式表露出来,因而就为评价和发现人才提供了各 种途径和方法。国内比较通用的方法是:通过科技成果的评议和鉴定、定期考核、 实践考验以及各种竞赛等活动来评选和发现人才。通过各种学术会议和学术交流 活动发现优秀论文;各种学术期刊编辑部门可以通过对来稿的审查,发现具有创 造才能,并提出新理论、新思想、新观点的人才。上述这些方法虽然可行,但一 个共同的缺陷就是缺少定量分析。许多研究表明,从信息计量的角度定量地对人 才进行评价,其结果比较客观、准确,能屏蔽一些人文因素。 2 评价指标的全面性问题 评价体系中的各项指标在内容上一般涉及科研态度、科研成果的创新程度和 科研实力等方面,但目前这些能够全面反映教师综合素质和个性方面的评价指标 在评估体系中很少涉及,因此在建立评价指标体系中应给予充分地考虑。随着科 研环境的变化和实验设备的改进,教师运用计算机、网络等资源的能力也要在指 标体系中占有一席之地。因此评价体系中的各项指标应随着教育的发展而动态地 变化,以适应新时期对高校科研人员的要求。 3 指标权值分配的平衡性问题 评价体系中各项指标( 属性) 对评价结果的影响程度存在差异,应分配不同 的权重值,但目前仍然有许多高校为了工作方便,采用相同权重值的方式,或主 山东大学硕士学位论文 观地确定一个权重值分配表来建立评价体系,利用这样的评价体系进行评价,不 仅降低了评价结果的可信度,而且为评价数据的进一步挖掘设置了障碍。因此, 各属性权重值的合理分配是完善评价体系的关键步骤。 4 评价方法和手段的问题 传统的评价方法有“求和法”、“加权求和法”等,这些方法虽然运算简单, 但容易降低评价结果的可靠性和可信性,并且无法对评价结果进行跨院系、跨专 业比较,因此引入科学的计算方法,是解决以上问题的主要手段。传统的科研评 价通常采用纸质的评价表格让参与者进行打分的形式,这种形式不仅造成了各项 资源的浪费,而且使评估的效率大大降低。随着网络技术在教育领域的应用,高 校校园网建设逐步成熟,评价过程的网络化将成为解决这一问题的重要方法。 5 后期的数据分析与应用问题 随着网络评价在数字化校园的推广,使得管理信息系统中的数据库数据存储 量急剧增多。面对“堆积如山”的数据集合,传统的数据分析手段只能获得这些 数据的表层信息,( 如,检索、统计等操作) 难以从中挖掘出深层次有价值的信 息。如何更好地利用与日俱增的数据提取知识是目前实施科研评价的重要目的。 目前,现代科学技术方法及手段缺乏、评价反馈与控制机制不完善等问题是 科研评价系统所面临的重要问题,特别是评价指标建立的科学性以及指标权值的 平衡性将直接影响着评价结果的正确性与公信度。因此,建立健全高校科研评价 体系是提高教师科研水平的重要途径,是提高高校科研管理水平的迫切要求。从 管理的角度讲,没有评价就没有管理,没有科学的评价就没有科学的管理。因此, 从信息计量的角度来探讨和评价科学学、人才学、预测学、科技史等方面的研究 和管理,是一个崭新的有效途径。数据挖掘技术是从大量的数据中提取或“挖掘 知识的有效技术。在本文的研究中,数据挖掘技术不仅可以辅助科研评价体系的 构建,而且可以实现科研成果数据的知识挖掘,因此基于数据挖掘技术的高校科 研评价系统的研究将是未来教育科学研究的重要趋势,具有重大的现实意义。 1 3 数据挖掘技术在科研评价系统中应用的研究现状及意义 随着计算机技术、网络技术等的迅速发展,科研管理系统对数据存储、查找、 统计、报表等的能力有了很大提高,其管理功能一般能够满足科研管理的需要; 1 2 山东大学硕士学位论文 j i i 皇曼曼皇曩鲁鼍置曼富暑量量量量 然而系统的不断使用造成大量数据积累,这些数据背后隐藏着怎样的信息? 能否 通过对数据的多角度分析为相关人员提供更加丰富和有利的决策支持呢? 目前 科研管理系统的数据分析功能尚十分有限,基于科研评价数据的知识提取是提高 高校管理者决策能力的重要手段之一,因此,通过数据挖掘技术,找出有价值的 信息,客观、科学、全面地供管理部门参考具有重要的现实意义。 科研管理数据库和大型科技数据库中蕴藏着大量的信息资源,管理者虽然可 以针对明确的信息,利用查询等工具直接获取,但隐藏在大量数据中的关系、趋 势等信息却无法从数据表层获得。需要有新的、更有效的技术对大量数据进行挖 掘以发挥其潜能,从中迅速萃取有用的信息以指导和辅助科研管理。因此,有必 要在科研管理中引入数据挖掘技术,以提高高校科研管理的水平和能力【2 】。数据 挖掘是解决数据丰富而知识贫乏的有效途径,其实质是从数据库中提取隐含的、 未知的和潜在有用信息的过程,被公认为是数据库研究中的一个极具应用前景的 新领域。数据挖掘技术包括聚类分析、分类与预测以及关联分析等功能,关联规 则挖掘是数据挖掘中最活跃的研究方法之一。它们可以从评价数据中找出大量真 正有价值的信息和知识,能够更好地对高校的发展和未来趋势做出定量的分析和 预测,为高校的教育管理者提供更科学的决策基础,有针对性地加强科技管理和 学术建设,进而有效的提高学术创新和科技创新的能力,更好地为社会服务。 本文所研究的高校教师科研评价系统借助数据挖掘技术,实际解决了评价体 系建立过程中的指标多层次、多级化特点和权重值分配等问题、评价结果的不确 定性问题以及评价数据的深层挖掘等问题,使评价体系更科学、更合理,评价结 果更可靠,并且有助于教育管理者利用评价所新提取的知识进行决策,从而不断 提高管理水平。 1 4 本文的研究内容及组织结构 1 4 1 研究内容 目前有研究者将数据挖掘技术应用于高校的科研管理系统中,但这些研究大 都基于理论上的分析,没有给出实例:或者只是单独对科研管理的某方面进行数 据挖掘,没有与科研管理有关的其它数据库中的数据相关联。因此,本文使用数 1 3 山东大学硕士学位论文 据挖掘技术中的关联规则挖掘法,对高校教师的科研成果数据进行挖掘,根据教 师科研成果数据,联系教师的科研工作量,得到最适宜教师发展的教学与科研工 作量之间的关系,并发现科研工作中各重要数据属性之间存在的问题,以及高校 各学科发展的情况,为下一步科研工作的管理作辅助指导。实现科研评价体系模 型的科学构建是本文的研究目的。主要研究内容如下: ( 1 ) 利用数据挖掘技术及信息计量学,研究评价体系的构建模型; ( 2 ) 研究科研成果数据的特点,采用数据挖掘技术进行数据处理,以提高 评价结果的正确性,从而使各种科研成果形式平衡、较好发展; ( 3 ) 依据评价结果,发掘科研项目、学术论文以及出版著作各属性间的关 联关系,并能为建立评价体系作前期预测; ( 4 ) 针对日益增多的科研数据,结合高校其它数据库,进行关联分析,提 取有效规则,提高决策的科学性,为构架评价体系作前期研究。 1 4 2 组织结构 本文的主要内容涉及高校科研评价体系的构建研究、评价指标的数值化处理 以及管理系统的数据关联挖掘等,本文的组织结构安排如下: 1 绪论。主要介绍高校科研评价的研究背景,提出利用数据挖掘技术解决目 前评价系统中的不足,以及该课题的研究内容及研究意义。 2 数据挖掘。介绍数据挖掘的研究现状、数据挖掘过程、功能,以及关联规 则的基本理论、经典关联规则a p r i o r i 算法及改进算法。 3 科研评价数据的关联挖掘系统的设计。阐述科研评价体系的构建原则及在 科研评价中引入数据挖掘技术的目标。介绍当前高校普遍使用的科研管理系统中 的数据存储情况,并从系统的设计需求、执行流程以及系统结构方面对科研数据 挖掘系统进行详细设计。 4 高校科研数据的关联挖掘的实现。主要介绍高校科研数据的整理、集成与 数据变换等工作,并具体针对高校科研成果( 科研成果主要表现形式:科研项目、 学术著作、学术论文、专利、获奖等) 的各项任务对科研数据进行关联挖掘。 5 结束语。对全文进行总结,提出本文的创新点,并对数据挖掘在高校科研 评价系统中的进一步研究进行分析与展望。 1 4 山东大学硕士学位论文 量曼璺皇鲁罾量量量量曼曼罾曼曼曼量量量鼍曩量量鼍置鲁鲁皇曼曼寡置舅皇鲁ii 曼鼍皇寡舅皇置曹量量皇量暑置奠皇鼍| 置舅置皇曼皇_ 2 数据挖掘 随着计算机技术的飞速发展,尤其是数据库技术与应用的日益推广普及,人 们面临着信息数据快速膨胀,甚至呈现指数级速度增长( 所谓“信息爆炸一或 “信息冗余 也出现了) 如何有效利用这些数据成为信息技术工作者所关注的焦 点之一。数据挖掘技术的出现将会解决“数据丰富 而“知识贫乏一的局面。 2 1 数据挖掘概述 各行各业都开始采用计算机及相应的信息技术进行管理和运营,使得数据量 与日俱增。政府机构、科研机构和企业都投入大量的资源去收集和存储数据。企 业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性 的东西,所以对企业来说,这些“堆积如山的数据无异于一个巨大的宝库。除 此之外,互联网的发展更是为社会带来了海量的数据和信息。存储在各种数据媒 介中的海量数据,在缺乏强有力工具的情况下,已经远远超出了人的理解和概括 的能力。于是,造成了“数据丰富静与“知识贫乏”并存的特殊局面1 3 1 。 随着数据库技术的发展,数据仓库技术应运而生,数据仓库是一种多个异种 数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包 括数据清理、数据集成和联机分析处理( o n - l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 。 o l a p 是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信 息的能力 4 1 。尽管o l a p 工具支持多维分析和决策,对于深层次的分析,如数据 分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。而数据挖掘技术 可以进行数据分类和预测、聚类分析、关联分析、孤立点分析和演变分析等,能 够对数据进行深层次挖掘,因此数据挖掘技术是提高分析和决策能力的重要研究 领域。 2 - 1 1 数据挖掘的概念 随着科教兴国战略的实施,教育事业得到飞速发展,尤其是高等教育的快速 1 5 山东大学硕士学位论文 发展,教育管理信息化、网络化、现代化水平有了长足的进步。高校各部门管理 信息系统( m i s ) 应运而生,m i s 的成功实施为高校的日常管理工作带来了很大 的便利,提高了管理效率和水平,在日常工作中也积累了越来越多的数据。因此 吸取隐藏在这些数据后面的有价值的知识并利用这些知识的能力变得愈加重要。 运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程, 就叫做数据挖掘。数据挖掘( d a t am i n i n g ) 作为一项集统计学、人工智能、模 式识别、并行计算、机器学习、数据库等技术于一体的交叉性学科研究技术也就 应运而生了【5 1 。 数据挖掘,也叫数据采掘、数据开采,就是从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的 有用信息和知识的过程 6 1 。与这一概念相近的术语有川:从数据库中发现知识 ( k d d - k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 、数据采集、数据分析、模式分析、 知识抽取、数据考古、信息收割、商业智能、数据融合以及决策支持等。 世界上对数据挖掘的正式研究始于1 9 8 9 年的第一届k d d 专题讨论会,数据 库中的知识发现术语( k d d ) 也是在此会议上提出的。k d d 是一个综合的过程,是 基于数据库的知识发现,指的是从大型数据库或数据仓库中提取人们感兴趣的知 识,这些知识是隐含的、事先未知的、潜在有用的、易被理解的信息【8 】。它包括 数据录入、迭代求解、用户交互以及许多定制要求和决策设计等,而d a t am i n i n g 则是k d d 中的一个具体却是关键的环节。w j f r a w l e y 等给数据挖掘这样定义: 是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知 的、潜在有用的信息,提取的知识可表示为概念( c o n c e p t s ) 、规则( r u l e s ) 、规 律( r e g u l a r i t i e s ) 、模式( p a t t e r n s ) 等形式。实际上,数据挖掘的对象不仅是数 据库,也可以是文件系统,或其他任何数据集合。比较k d d 与叫的定义,实质 上,这两个概念的内涵大致相同,只是从不同的角度认识问题而已。就如计算机 和信息技术专家通常说数据挖掘,而人工智能的研究人员倾向于讲知识发现 ( k d d ) 。 2 1 2 数据挖掘过程 1 6 数据挖掘一般实验性程序包括以下步骤【9 1 : 山东大学硕士学位论文 ( 1 ) 陈述问题和阐明假设 数据挖掘是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种 知识就成为整个过程中第一个也是最重要的一个阶段。为了提出一个有意义的问 题陈述,数据挖掘人员必须和应用领域专家以及最终用户之间紧密地相互协作, 而这种协作将会贯穿数据挖掘的整个过程。一方面明确数据挖掘的目的,清晰地 定义业务问题;另一方面通过对各种学习算法的对比而确定可用的学习算法。后 续的学习算法选择和数据集准备都是在此基础上进行的。 ( 2 ) 数据收集和预处理 数据准备又可分为三个子步骤:数据选取( d a t as e l e c t i o n ) 、数据预处理 ( d a t ap r e p r o c e s s i n g ) 和数据变换( d a t at r a n s f o r m a t i o n ) 。数据选取的目的是 确定发现任务的操作对象,即目标数据( t a r g e td a t a ) ,是根据用户的需要从原 始数据库中抽取有效样本数据。数据预处理一般包括消除噪声、处理缺失信息和 异常点、消除重复记录、完成数据类型转换等。数据变换的主要目的是数据维度 归约,就是进行消减数据维数或降维( d i m e n s i o n r e d u c t i o n ) ,即从初始特征中找 出较少量资料丰富的特征,为后来的数据建模提供最佳的陈述。高质量的数据准 备能大大提高挖掘出的模式的质量,缩短实际挖掘时间。+ ( 3 ) 数据挖掘( 模式评估) 根据问题定义明确挖掘的任务或目的和数据集的具体特征,从多个模式的基 础上,按照从数据中学习和发掘的原则,选择最好的模式。然后就要决定使用什 么样的算法和挖掘工具。选择实现算法有两个考虑因素:一是不同的数据有不同 的特征,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求。 有的用户希望获取描述型的( d e s c r i p t i v e ) 容易理解的知识,而有的用户只是获 取预测准确度尽可能高的预测型( p r e d i c t i v e ) 的知识。根据选定的挖掘工具和 算法,在清理和转换过的数据集上进行数据挖掘。 ( 4 ) 解释模型和得出结论 对数据挖掘阶段构建出来的模型的有效性和可靠性进行评估,经过评估可能 存在冗余或无关的模型,这时需要将其剔除。也有可能模型不满足用户要求,这 时则需要整个发现过程回退到前一阶段。重新选取数据、采用新的数据变换方法、 设定新的参数值,甚至换一种算法。另外,数据挖掘是面向最终用户的,因此需 要对发现的模型进行可视化,或者需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论