林业科研档案数据挖掘研究_第1页
林业科研档案数据挖掘研究_第2页
林业科研档案数据挖掘研究_第3页
林业科研档案数据挖掘研究_第4页
林业科研档案数据挖掘研究_第5页
免费预览已结束,剩余2页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    林业科研档案数据挖掘研究    刘丹+程全英+李凡+赵扬+张卓立(中国林业科学研究院资源信息研究所,北京 100091)摘 要:对林业科研档案实行信息化的管理及深度的数据挖掘,不仅能够及时、准确地反映林业科研活动的动态、发展方向、最新成果,还能够为林业科研项目的正确、合理实施提供参考依据。整合多种格式的数据来源,包含电子表格数据、文本数据、音视频数据,通过神经元网络、聚类分析等技术,实现了对林业科研档案数据的深度发掘和分析,为林业科研档案的充分利用提供了方法。关键词:林业;科研档案;数据挖掘;挖掘算法:tp311.13 :a doi:10.159

2、13/ki.kjycx.2016.22.019一个单位的档案就是一部历史,里面记载着这个单位的发展历程,凝聚着几代人的心血和智慧,是前人留给后人的宝贵遗产,是历史交给未来的无价资源。无论是各级领导,还是档案的生产、管理、使用等业务和智能部门,都应重视挖掘档案材料中蕴藏着的丰富的信息资源,为科研创新能力的形成、生长提供有力的服务。档案资料是重大活动、重要事件经验的积累,规律的揭示,是信息和知识的重要资源,是维护科研单位合法知识产品的有利凭证,也是科研传统教育的生动教材。林业科研档案主要记录科研项目执行的全部轨迹,包含项目申请、项目中验、项目验收等过程中产生的一切文档资料。中国林业科学研究院资源信

3、息研究所成立于1985年,承担了多项科研任务,积累了大量的科研档案,档案的管理经历了从传统的馆藏档案模式到数字化、信息化管理方式的转变,已经建立起具有管理标准化、服务网络化、安全可靠的数字化档案馆,制定了符合档案信息化发展和林业科研特点的标准规范和管理体系。但是这些档案只停留在简单的检索、查询这样的数据管理和共享层面,没有对档案本身的内容进行挖掘,提炼出有价值的数据。科研档案用好了,有助于开阔思路、启迪智慧,全面、系统、深入地了解学科建设的阶段性特色,不断深化对新时期、新阶段学科建设规律的认识,使科研工作更加符合科学发展观的要求。1 林业科研档案的数据挖掘需求“数据挖掘”是一门广义的交叉学科,

4、脱胎于计算机,虽然已被应用到诸多领域,图书、情报界的实践也已经充分验证其价值,但在档案界,数据挖掘仍然被当成深奥的技术和理论。如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识呢?这个过程的目的就是发现隐藏在大量数据泥沙中的“知识金矿”。数据挖掘不是简单的面向特定数据库的检索、查询、调用,而是要对这些数据进行全方位的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互联系,甚至利用已有的数据对未来的活动进行预测。资源信息研究所档案分类的实际情况具有以下几个特点:资源信息研究所档案管理系统储存管理的是研究所日常工作的

5、科研档案,具有专业特点,其划分的类别和特征词汇都具有专业性。资源信息研究所的档案数量级不会很大,不会有大量的训练样本供机器学习。而通常分类算法都是需要手工对一定数量的训练样本分类作为训练集。如果训练集的数量过小,则会影响分类的精确度。档案类型丰富,包含圖片、视频、文本等。需要在著录入系统时对档案分类。这就需要分类算法在性能上必须有很好的保证,不能让著录的系统用户长时间等待。而上述分类算法都需要计算当前文本与其他所有分类个体的相似度,无法在时间花费上满足实际需要,必须优化。2 林业科研档案的数据挖掘算法设计在档案管理系统中,分类算法的选取需要结合资源信息研究所档案的专业性特点、档案数量以及考虑档

6、案分类需求在系统功能中对效率等方面的实际要求。贝叶斯、knn、svm、tf-idf等常用分类算法的主要思想都是要计算一篇文本与其他类别文本的相似度(距离),或者依照词频等指标计算文本属于某个类别的概率,从而判断此文本属于某个类别。这些算法虽然各有特点,但都无法被直接应用于档案管理系统。综合以上各种因素,最终选取tf-idf算法并优化调整:考虑到科研档案分类的专业性,同时也为了保证算法的执行速度,选取资源信息研究所提供的专业词汇作为特征词集,以此作为分类计算用的关键词。其他非专业词汇,与分类相关性不大,作为“应删除词”排除在分类算法之外。在档案著录时,业务人员会将档案的题目以及摘要录入,主题及特

7、征词在录入信息中体现。因此,没有必要对整篇档案进行扫描、分词并计算,只需对题目和摘要进行分词,对比特征词集挑选关键词计算即可。档案管理系统的档案数量级决定了不会有大量的手工分类样本作为训练集,同时为了提高算法的执行效率,改由有经验的专业人员通过系统的专业词管理功能,配置特征词集中的特征词的所属类别及权重,以作为分类算法的计算依据,并可随时依据算法对实际运行情况进行调整。优化后的算法如下。从档案的题目及摘要中的单词中,对照特征词集挑选出此档案s包括的所有特征词tk(1kn,n为此档案所含特征词总数)。tk在此档案中出现的次数为dk,tk在分类时的权重为wk。tk中属于档案分类cj(cjc,c为所

8、有分类集合)的特征词可以tj表示,对应的出现次数以djp表示,权重以wjp表示。则档案s中属于分类cj的特征词加权求和为 (1mn,m为档案s中属于分类cj的特征词总数,n为此档案所含特征词总数),档案s与分类cj相关性为:例如,档案东北常见树木生长周期研究的题目及摘要中包含5个特征词,即“松木”“核桃楸”“白桦”“黑土”“冬季”。其中,松木(出现1次)、核桃楸(出现2次)、白桦(出现3次)属于分类“树木类”,权重分别为0.4,0.3,0.1;黑土(出现2次)属于“地质类”,权重为0.2;冬季(出现1次)属于“气象类”,权重为0.3.则档案东北常见树木生长周期研究分类为:3 总结通过对中国林业

9、科学研究院资源信息研究所现有的纸质、声像、实物等各种形式的科技档案进行深入的调查与筛选,确定符合林业科技档案需求的数据挖掘算法。通过该算法,可以充分将现有档案中的知识更好地利用起来,更好地服务全体科研人员,为研究所领导提供科研决策支持,将大大提高研究所科研档案管理工作的信息化水平。参考文献1冯惠玲.档案管理学m.北京:中国人民大学出版社,1999.2王传宇.科技档案管理学m.北京:中国人民大学出版社,2009.3楼淑君,钟小安.档案管理事务m.重庆:重庆大学出版社,2010.4黄秀芬.关于科技档案信息资源开发利用的思考j.广东水利水电,2009(12).5李海燕,吴志华,王可炜.充分发挥科技档案在科研管理中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论