



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘技术在文献搜索中的应用 摘要:在研究相关领域的课题时,人们往往需要通过查阅相关文献来获得该领域的一些发展趋势、背景分析等信息。随着互联网技术的发展,在线文献搜索的响应速度需求越来越高,如何将数据挖掘技术充分应用于文献搜索研究受到更多的重视。本文通过运用RefViz工具,通过其独有的算法计算找出每个文献的相关特性,并能够在其中挖掘出有用的热点问题和该领域的趋势分析。 关键词:数据挖掘文献检索RefViz :TP311:A:1007-9416(xx)08-0000-00 随着计算机技术的发展,许多传统的文献也转变成数字信息存储在网络存储器中,网络往往能够快速、及时地展现出相关的研究成果,但是其庞大的数据量也让文献的筛选成为一个难题,传统的关键字匹配的搜索机制缺乏一些限制机制,使得搜索结果存在不少的冗余信息,人们需要花费较多的时间去过滤结果,随着各个研究领域的不断深入和细化,人们对文献的检索、信息的归类、后期数据的分析处理要求也变得越来越高。 1数据挖掘应用在文献研究的意义 数据挖掘就是从大量的、不完全的、有噪声的模糊的、随机的实际应用数据中,提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程1。预测趋势、关联分析、偏差检测是数据挖掘的主要功能,而这些功能在文献检索过程也常常被用到。 传统的文献检索需要耗费大量的人力来查阅关键字,摘要等内容,人为地查找相关性,当数据量很大的时候,这种方法往往力不从心。引入数据挖掘技术,运用计算机技术来进行数据的归类、分析、关联等,大大提高了文献检索的效率。同时,运用数据挖掘技术能够对大量的文献进行直观的、系统的定量分析,用于弥补传统定性研究的缺陷,并通过海量的样本分析提高文献研究分析的完整性,达到增强研究的科学性和确定性的目的。 2数据挖掘的技术分类 不同的标准产生不同的数据挖掘分类,在文献研究中,主要用到聚类和关联分析等,将数据挖掘分为两类:共词分析和共篇分析。 共词分析属于内容分析技术的一种,通过分析在文本中的每个条目对单词共同出现的形式,确认文本主题关系,进而分析关联发展。从文献中抽取出现频率较高的词汇,统计相互之间出现的次数,构成一种共词矩阵,并分析矩阵。共词分析应用主要为了了解研究领域间的关联以及挖掘潜在的研究领域。 共篇分析是通过分析两篇或以上的多篇文献之间的共同的关键词,来得出文献间的关联关系。它从内容上挖掘文献间在研究方向的关联性;同时通过年份等信息,获得该领域的研究方向和研究趋势;根据相同关键字的文献作者,能够了解研究领域的分布范围以及作者跟一些研究机构之间的关系。 3RefViz的应用 RefViz是ThomsonISIReasearchSoft和OmniViz公司合作推出的一款可视化的文本分析和数据挖掘工具,能对大量文献进行组织分析,以利于研究者对参考文献的理解,是典型的共篇分析工具。能够将大量的文献内容进行分析排列,并以图形化的方式展现出来,通过其强大的分析功能,人们就可以获得文献的研究热点和发展趋势;并且用户可以进行不同数据库之间的文献检索比较,也可将数据进行导入和导出。 RefViz在处理文献时,是通过一种“阅读-查找-分析”的过程,发现词汇的范式以及相互间的联系。RefViz在分析词汇时,并不是简单地通过词出现的频率进行统计,而是通过构建复杂的数学模型,将关键词带入到模型中获得该词在文献中的重要程度并将其分级,一般分为三个等级;然后就用这三个等级的关键词对每个文献进行描述,同时用标准聚类的方式将导入的文献分成几组,这些关键词和描述语句就成为了每组文献之间的联系和文献主题的概念描述。 在界面上,RefViz由4个可视化的窗口构成:视图窗口,用来展示软件分析的最终结果,用户可以垂直或列表的方式来查看分析数据;主题/搜索窗口,就是展示每篇搜索文献的三级主题描述词,从左到右依次是主要主题词、次要词、描述词,并且用户也可以自定义一些干预词汇,在自动处理的前提下加入人工筛选,实现个性化检索的功能,将数据挖掘工具的作用发挥到最大;参考文献窗口,该窗口中展示了软件通过聚类将参考文献进行的分组信息,包括显示文献的作者、发表日期、标题等;用户日志窗口,主要反馈用户操作过程中的一些日志数据的反馈,及时提示用户的操作以及一些软件状态返回。 使用0RefViz进行文献检索的步骤如下:选择文献索引的数据库,一般为某个研究领域中比较权威的数据库,再设定相应的筛选范围,得出相关文献若干篇;导入数据,将刚才检索到的文献通过“主题词+关键词”的格式输出到Endnote软件当中,通过两者的关联分析;预处理,此时一些意思相近的词汇没有区分,会出现大量与主题词无实质相关性的词,通过预处理,比如降低次要概念词的词级、添加和控制同义词等,将主题词进行二次调准和筛选;分析数据,通过对上述结果分析,可以比较直观地发现文献之间的联系,比如研究的热度等,以文献发表时间为例,软件可以统计出在一定时间内,以某个研究领域为题的论文发表的篇数,由此就可以看出该研究领域的研究热度的时间分布。也可以通过每个国家在该领域发表论文的数量来得出该研究领域在哪个国家进行的比较成熟等等。通过RefViz软件,也能够分析出文献研究的发展方向以及与哪些领域关联性较强,这样就可以在检索的时候有目的有针对性地进行文献的检索。 4结语 随着互联网技术的不断发展,人们往往不能满足于文献关键字的检索,数据挖掘技术的发展和应用,能够从大量的文献当中发掘具有价值的信息,使得信息的利用率不断加强,同时也能提高文献研究过程中的效率和水平,促进各领域各学科研究的科学性和提供良好的发展方向。信息技术的发展也带动了各种便捷的可视化数据挖掘工具的诞生,在工具不断地升级和改良的过程中,利用数据挖掘工具进行文献的检索和研究也将变得越来越便捷和高效,使得人们可以从文献检索的结果中发现的、具有价值的文献信息,大大增加了文献检索的结果和效率。 参考文献 1RoigerRJ,GeatzMW,Dataminingatutoria
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年康复科康复物理疗法技能操作验收答案及解析
- 2025年免疫学理论知识与实操操作答案及解析
- 商品批发合同(GF-202-0172)
- 2025年幼儿照看合同范本下载
- 物流运输合同范本与案例解析
- 2023年部门工作总结报告范文
- 墓地刻碑聘用合同7篇
- 资产抵押贷款合同模板
- 2025年新能源行业数字化转型中的数字化转型路径与案例分析报告
- 2025年海洋能发电技术商业化路径与海洋能源产业投资前景报告
- 学习通《大学生就业指导》章节测试含答案
- 食品行业的食品创新与新产品开发
- 物业客户投诉处理及技巧培训课件
- 华中师范大学2016年841物理化学考研真题
- 岩棉复合板外墙保温的施工工艺
- JJF 1334-2012混凝土裂缝宽度及深度测量仪校准规范
- GB/T 4025-2010人机界面标志标识的基本和安全规则指示器和操作器件的编码规则
- 水池(水箱)清洗记录
- 大学学生转学(转入)申请表
- 角膜 角膜炎课件
- DL∕T 5440-2020 重覆冰架空输电线路设计技术规程
评论
0/150
提交评论