高校数字图书馆构建中的数据挖掘应用研究_第1页
高校数字图书馆构建中的数据挖掘应用研究_第2页
高校数字图书馆构建中的数据挖掘应用研究_第3页
高校数字图书馆构建中的数据挖掘应用研究_第4页
高校数字图书馆构建中的数据挖掘应用研究_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、    高校数字图书馆构建中的数据挖掘应用研究     摘要:本文介绍了数据挖掘及其相关技术,探讨了数据挖掘技术在高校数字图书馆构建中的应用,给出了一个基于数据挖掘的数字图书馆个性化信息服务模型,指出了在高校数字图书馆构建中应用数据挖掘技术所要解决的几个难题。关键词:数据挖掘,数字图书馆,个性化服务一、数据挖掘概述1.数据挖掘的概念数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。原始数据可以是结构化的,也可以是半结构化的,还可以是分布在网络上的异构型数据。2.

2、数据挖掘的基本功能数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标按其功能可分为以下几类。(1)自动预测趋势和行为数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势。(2)关联分析关联分析能寻找到数据库中大量数据的相关联系,常用的两种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性;序列模式分析将重点放在分析数据之间的前后因果关系上。(3)聚类输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或族,使得在同一个族中的对象之间具有较高

3、的相似度,而在不同族中的对象差别很大。聚类技术主要包括传统的模式识别方法和数学分类法。(4)概念描述概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。(5)偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。二、高校数字化图书馆构建中的数据挖掘应用1.在信息咨询中的应用在图书馆的信息参考咨询过程中,用户

4、提出的检索任务和信息需求不再满足于对相关信息、信息线索、文献书目数据或信息参考数据的获取,而更注重获取有深度的信息内容、文献全文或针对查询问题的全面深层解答。采用数据挖掘技术能够对大量的数据信息进行深层次的挖掘,分析它们之间的相关关系,并保证数据的一致性、完整性和安全性。其分析查询高效率和交互式图形接口能够高质量、迅速地满足用户特定的信息需求。2.在信息资源优化中的应用采用数据挖掘技术可以评判数字图书馆信息资源的利用率、有效率、拒借率等指标,引导数字图书馆的馆藏建设;各数字图书馆系统还可根据本馆资源与人才结构发展特色化馆藏,使用web智能信息搜索工具,加以人工干预,搜集加工internet页面

5、信息,建设全面深入的特色资源。3.在读者的分类研究中的应用在数据挖掘中,通过对已知类别的个体进行归纳,找出各类的特征属性,即分类模式。分类模式用于提取能代表群体的特征属性。在有些情况下,先由领域专家对个体进行分类,再通过分类模型提取分类模式。高校数字图书馆可以按照年龄、学历、专业等不同因素,通过对读者的属性和特征分析、读者满意度分析而把读者群体进行细分,以便更清楚地了解用户的特点,掌握不同的群体借阅量,从而有针对性地为读者提供不同的服务。4.在读者相似性和差异性分析中的应用聚类模式是把数据划分到不同的组中,使得组之间的差别尽可能大,组内的差别尽可能小。聚类模型从未知开始,既不知道具体的分类标准

6、,又不知道会有些什么类,只是按照给定的聚类参数(如距离等)进行分解、合并。得到的结果由领域专家进行甄别,如果不满足目标,需要改动聚类参数,重新聚类;一旦达到目标,分类规则也就通过聚类参数得到。聚类模式挖掘可应用到高校数字图书馆读者群体的聚类,通过聚类分析,把读者按照相似性和差异性分为若干类别。5.在读者需求分析中的应用回归分析方法是用属性的历史数据预测未来趋势,反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。回归分析方法可以应用于图书馆读者需求分析,结

7、合数据挖掘、数据仓库和联机分析技术,图书馆管理者能够对图书馆数据仓库中的海量数据进行充分分析,并根据分析结果找出读者需求中出现的各种问题,以便能及时调整策略,适应不断变化的读者需求。6.在图书借阅规律分析中的应用时间序列模式是根据数据随时间变化的趋势预测将来的值,所采用的方法一般是在连续的时间流中截取一个时间窗口,窗口内的数据作为一个数据单元,让这个时间窗口在时间流上滑动,以获得建立模型所需要的集合。运用时间序列挖掘方法,可以从图书流通数据库中挖掘出流通量的周期性规律。分析读者借出图书流通的高峰期和低谷期,借此可以科学安排流通部门的全年和每天的工作,在人力资源、图书资源有限的情况下,为读者提供

8、更多更优质的服务,为流通部门日常工作的安排提供科学的参考数据。7.在个性化服务中的应用从数字图书馆的大量访问信息中挖掘用户的访问模式,也可从用户访问文档的超链接来预测用户的访问兴趣,采用关联性法则和聚类方法发现不同的用户群体,然后对他们提供信息定制服务,帮助群体成员搜索、处理知识。支持多用户的web开发,以使成员定制自己的web站点。数字图书馆中的互动性研究强调建立一个统一的信息提供平台,让不同用户群体实现信息共享。通过对用户访问信息、使用信息的挖掘,在数字对象和用户、对象分类和主题之间进行模式匹配,采用不同挖掘技术如基于业务聚类、使用聚类和联合规则来自动提取知识,从而确定个性化服务内容,提高

9、为用户知识服务的自动化水平。三、应用实例基于数据挖掘的高校数字图书馆个性化信息服务模型高校数字图书馆个性化信息服务包括两个方面:第一,用户可以根据自身的需求定制自己所需要的信息;第二,数字图书馆信息库针对用户的特点,主动为用户选择最需要的资源与服务。基于数据挖掘的高校数字图书馆个性化信息服务模型包括三个主要模块:信息采集模块、个性分析引擎模块、信息返回模块。信息采集模块:其采集的数据是个性分析引擎的数据来源,如采集用户经常访问的地址与栏目、用户的ip地址、停留时间、访问的时间频率、经常检索的关键词、访问的时间段、用户必要的个人信息。个性分析引擎模块:个性分析引擎有两大主要组成部分:一是用户的信息库,二是分析处理模块。它的工作方式是分析处理模块结合最新采集的信息与信息库中的数据资源进行新的分析,并把分析结果传递到信息返回模块,同时更新用户信息库中的数据。信息返回模块:信息返回模块根据个性分析引擎处理后的个性参数,来选择合适的信息资料并将页面反馈给用户以满足其信息需求。对于用户来说,其发出一个请求得到一个响应,中间的过程是透明的,其个性处理的内部过程并不为用户所察觉。四、在高校数字图书馆构建中应用数据挖掘技术所要解决的几个难题(1)从异构数据源中挖掘信息;(2)数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论