科研数据挖掘技术论文_第1页
科研数据挖掘技术论文_第2页
科研数据挖掘技术论文_第3页
科研数据挖掘技术论文_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、科研数据挖掘技术论文 一、数据挖掘相关概念 数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由r.atal,inipusqi,sqtm三人提出的apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是suppor(t支持度)和confi-dence(可信度)。

2、只有当support和confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。 二、使用weka进行关联挖掘 weka的全名是怀卡托智能分析环境(waikatoenviron-mentforknowledgeanalysis),是一款免费的、非商业化的、基于java环境下开源的机器学习以及数据挖掘软件2。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。weka软件提供了explorer、experimenter、knowledge-flow、simplecli四种模块2。其中explorer是用来探索数据环境的,experimenter是对各种实验计划进

3、行数据测试,knowledgeflow和explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,simple-cli为简单的命令行界面。以下数据挖掘任务主要用ex-plorer模块来进行。 (一)数据预处理 数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。 (二)数据载入 点击explorer进入后有四种载入数据的方式,这里采用第一种openfile形式。由于weka所支持的标准数据格式为a

4、rff,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。 (三)关联挖掘与结果分析 weakexplorer界面中提供了数据挖掘多种算法,在这里我们选择“associate”标签下的apriori算法。之后将“lowerboundminsupprot”(最小支持度)参数值设为0.1,将“upperboundminsupprot”(最大支持度)参数值设为1,

5、在“metirictype”的参数值选项中选择lift选项,将“minmetric”参数值设为1.1,将“numrules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。 三、挖掘结果与应用 以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。 1、科研立项得分与论文、科研总得分关联度高,即科研立项为a级的论文也一定是a。这与实际也是相符的,因为科研立项得a的教师应该是主持了省级

6、或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。 2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。 3、讲师类教师的论文等级不高。从论文得分能够推断出讲师类教师所发表论文的级别不高。为了鼓励这类教师的论文发表,在今后的科研量化工作中对省级、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论