版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 在图书馆现有的数字化系统中,每时每刻都在产生着大量的统计数据和表单,如何以“大数据”为基础,把这些统计数据和表单在进行分析和处理后,其内在的信息量可以对图书馆的各种业务,尤其是采购、馆藏、咨询业务,起着很强的指导作用。 在图书馆数字化系统中采用各种数据挖掘技术,可以分析读者借阅行为信息资源的各项指标,例如图书馆藏资源的利用率、图书馆藏资源的有效率、图书馆藏资源的拒借率等指标,帮助图书馆加强采购、馆藏以及咨询等服务业务,能将被动的为读者提供图书资料,转变成主动地为读者提供可能感兴趣的信息资源,更好地为读者提供个性化的推荐服务。1、数据挖掘应用于图书馆数字化系统的技术分析。2、收集本校图书馆管理
2、系统的后台数据,建立数据仓库,选取合适的数据挖掘分析工具。3、运用数据挖掘技术,对读者借阅数据进行挖掘,分析读者行为习惯及特点,发现借阅行为中隐含的学科关联、借阅图书特点等。4、数据挖掘技术在图书馆的读者借阅行为分析中的具体应用。 随着图书馆读者的信息水平和信息要求的提高,也客观上要求图书馆能够为读者提供的信息服务能够更加主动和富于个性化,因此,图书馆要进一步加强对读者的借阅行为信息的处理和分析能力,并能够对读者借阅行为信息资源进行进一步组织和整合,从海量的表面上庞杂无序的读者借阅行为信息中提取有价值的内在联系供图书馆使用,满足读者新的更复杂的借阅需求。 数据挖掘(data mining。dm
3、),就是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用信息和知识的过程。数据挖掘常常也被称为数据库知识发现(knowledge-discovery from databases,kdd),它可以从数据库或数据仓库以及其他各种数据库的大量各种类型数据中,自动抽取或发现有用的模式知识。 数据挖掘是对传统的需求分析技术进行提升后的新技术,应用在图书馆数字化系统中时,可以从图书馆数字化系统中所产生的海量历史数据中分析读者的需求,这是一种决策支持过程,支撑这种过程中可以应用到人工智能和统计学等技术,做到高度自动化地分析海量历史数据,从而,从海量历
4、史数据中作出归纳性的推理,挖掘出潜在的读者借阅行为的模式,对今后的读者借阅行为进行预测,帮助图书馆的工作人员调整图书采购策略,进一步完善馆藏建设,加强图书信息咨询服务工作。 数据挖掘技术应用于图书馆的首要工作,是建立数据仓库。图书馆数字化系统中的业务数据很多,数据之间存在着复杂的横向联系,但大而化之,可以将数据仓库中所包含的信息分为主要的三类:读者信息、图书信息和读者借阅流通信息。在构建数据仓库时,具体可以按以下步骤进行:第一步,对图书馆各种业务数据进行数据建模,这是一个确定图书馆数据仓库主题的过程;第二步,对所建的数据仓库的数据库进行设计,并确定数据转换的程序;第三步,管理元数据。定义图书馆
5、数据仓库的元数据,对图书馆各种业务数据进行元数据的表示、定义,确定其具体的意义,同时建立数据库系统中各组成部件的相互关系;第四步,确定数据挖掘的数据分析工具,在实现和使用数据仓库的基础上,建立结构化的决策支持查询,帮助图书馆进行决策,实现图书馆决策支持需求。 在构建了图书馆的数据仓库后,就要开始进行数据挖掘体系结构的构建了。这个过程中可以分解为以下几个方面: 首先,将图书馆各种业务数据,包括读者基本信息、图书信息和流通信息,进行数据集成、数据过滤和数据转换,然后存储在数据库或数据仓库的服务器中; 然后,建立数据挖掘的工具引擎,调用数据挖掘的数据分析工具(例如excel数据分析工具和olap数据
6、分析工具),同时在知识库中存放数据挖掘算法(例如关联规则、聚类分析等算法),这是进行数据挖掘的核心过程。 最后是得出对图书馆各种业务数据挖掘结果,并向用户进行展示。图书馆各种业务数据通过前端开发工具调用后台建立的数据包进行数据挖掘的结果,其展示可以是表格、立方体,或者是其他模型,特点是直观、简明。 利用关联规则、聚类分析等算法,通过数据挖掘分析图书的实际利用情况。数据仓库中大量的这些读者信息、图书信息和读者借阅流通信息数据都属于结构化数据,对其进行数据挖掘的的算法很多,一般最常用的有两种:利用关联规则算法和利用聚类分析算法。1)利用关联规则算法主要是侧重于借阅历史数据中的分析,通过对信息资源借
7、阅历史进行关联规则算法的分析后,例如发现有大量读者在阅览a书同时也对b书进行了阅览,则图书馆的服务工作中可以增加一项向阅览a书的读者推荐b书的服务,这些规则的发现,对提高图书馆的图书资源的利用率和为读者提供更人性化的服务很有帮助。2)利用聚类分析算法主要是通过对新近书籍与历史书籍的聚类分析,以判断新近书籍对读者的借阅价值。 根据图书馆现有的数字化系统中所产生大量的统计数据和表单建立的数据仓库,是真实的。对于图书馆而言,从这些大量的统计数据和表单中所发现的读者借阅信息和知识是潜在的,图书馆所感兴趣的,可理解、可运用的知识正是隐藏在这些大量的读者信息、图书信息和读者借阅流通信息背后。数据挖掘分析后
8、的决策 数据挖掘分析读者的借阅行为后进行决策的依据可以有两个维度:1)读者信息维借阅数量比较对读者借阅行为数据展现中的读者信息维度借阅数量进行比较,可以以目标群读者的所有图书持续时间为度量值,以读者群的类别和共计持有时间来进行比较,这样可以得到按照读者类别来判断读者实际持有时间的分析情况。2)图书信息维借阅数量比较在图书馆的图书分类中,通常是以中图法为分类依据的,这样图书馆在进行决策时可以根据全体读者借阅某类书的持有时间来横向比较,分析得出,哪类书更受读者欢迎,哪类书更能满足读者需求。对图书馆进行统计,就是将图书信息维分为若干个级别,例如一级类目、二级类目、三级类目和图书条形码等级别,然后分析
9、得出受欢迎和不受欢迎的图书种类,保障图书馆的馆藏资源可以得到合理充分的利用。 数据挖掘分析图书的实际利用后的决策,以图书馆为例,其决策树如图2。 数据仓库的建立(1)数据源:图书馆的历史借阅日志和还书日志;(2)拥有者:图书馆;(3)记录的数目10550条借阅记录、9875条还书记录;(4)原始数据的格式主要是excel表,其中借书记录是l3个字段、还书记录是15个字段,见表1。 本次分析中,读者借阅的图书共有 1246个大类,借阅情况如图3所示。借阅次数大于100次的有19种,占总类目的1.52,0次到10次之间的有213种,占总类目的17.09;小于10次的类目为1014种,占总类目的81.38。可见,在这段时间大量的文献被读者借阅次数很少,如a1马克思、恩格斯著作大类只被读者借阅了1次;有少部分文献却被读者频繁地借阅 为什么会这么多的书籍被读者所借阅的次数很少?这需要我们深入分析其中的原因,尽量提高这部分文献的利用率,此外对于该部分图书的采购工作应加以限制,因为现有馆藏已可满足当前读者的借阅需求。 在对图书馆现有的数字化系统中所产生统计数据和表单进行分析和处理后,其内在的信息量可以对图书馆的各种业务起着很强的指导作用。图书馆数字化进程的不断发展,对图书馆要处理和提供的数据的处理提出了更高的要求,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 揭阳事业编招聘考试真题及答案解析-5
- 桂花雨教学设计
- 方剂学考研备考习题集锦
- 月子中心面试问题及答案
- 材料员知识竞赛试题题库
- 幼儿园小班食品安全教案课件-1
- 水利施工员考试模拟卷及答案
- 水库建设史党课案例
- 2025年监护人员试题及答案
- 2025年监理工程师年度工作总结(3篇)
- 2026年建设工程造价案例分析(交通运输工程)综合考试题
- 主题班会活动方案设计与实施步骤
- 2025年南昌市消防救援支队水上大队招聘勤务及宣传勤务文员3人笔试考试参考试题及答案解析
- 2025年中国新能源公交车发展现状与市场前景分析
- 2025云南大理州建设投资(集团)有限公司招聘专业技术人员19人笔试历年典型考点题库附带答案详解试卷2套
- 2025年“一带一路”人工智能应用场景案例集-上海人工智能研究院
- AxureRP9互联网产品原型设计课件全套第1-12章了解互联网产品原型设计-设计制App原型
- 2026莱商银行校园招聘笔试考试参考题库附答案解析
- 煤矿重大灾害治理顶层设计方案
- 部编人教版小学4四年级语文下册(全册)课件集【新教材】
- 内蒙古乌兰察布市基层诊所医疗机构卫生院社区卫生服务中心村卫生室地址信息
评论
0/150
提交评论