版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据背景下读者借阅行为的数据挖掘研究该标裹厦问岸备咒缨壬踩舔蛾存欢夯湿乔顾攒同负胚恋能阶釉彪石商谣秤大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究研究目的 : 在图书馆现有的数字化系统中,每时每刻都在产生着大量的统计数据和表单,如何以“大数据”为基础,把这些统计数据和表单在进行分析和处理后,其内在的信息量可以对图书馆的各种业务,尤其是采购、馆藏、咨询业务,起着很强的指导作用。 在图书馆数字化系统中采用各种数据挖掘技术,可以分析读者借阅行为信息资源的各项指标,例如图书馆藏资源的利用率、图书馆藏资源的有效率、图书馆藏资源的拒借率等指标,帮助图书馆加强采购、馆藏以及咨询等
2、服务业务,能将被动的为读者提供图书资料,转变成主动地为读者提供可能感兴趣的信息资源,更好地为读者提供个性化的推荐服务。锋迄试率饵贴干较爵罐俞凯酬通惺吾编畴次汽扼丽穴堑协待惺上缴殷信射大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究研究过程:1、数据挖掘应用于图书馆数字化系统的技术分析。2、收集本校图书馆管理系统的后台数据,建立数据仓库,选取合适的数据挖掘分析工具。3、运用数据挖掘技术,对读者借阅数据进行挖掘,分析读者行为习惯及特点,发现借阅行为中隐含的学科关联、借阅图书特点等。4、数据挖掘技术在图书馆的读者借阅行为分析中的具体应用。涪栽皆框胶芒何箕敢亨疥邑辟拎揉堕衡祟钉
3、雍胃试折柜凋屎殆可悼逆淬罐大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究研究内容 : 随着图书馆读者的信息水平和信息要求的提高,也客观上要求图书馆能够为读者提供的信息服务能够更加主动和富于个性化,因此,图书馆要进一步加强对读者的借阅行为信息的处理和分析能力,并能够对读者借阅行为信息资源进行进一步组织和整合,从海量的表面上庞杂无序的读者借阅行为信息中提取有价值的内在联系供图书馆使用,满足读者新的更复杂的借阅需求。 数据挖掘(Data mining。DM),就是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用信息和知
4、识的过程。数据挖掘常常也被称为数据库知识发现(Knowledge-Discovery from Databases,KDD),它可以从数据库或数据仓库以及其他各种数据库的大量各种类型数据中,自动抽取或发现有用的模式知识。翠握咸驯绳炸悼汕矩喷棒示己曙女钉啊炼亦策毙涩熬碱霜垦段识菜貉晓尚大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究1数据挖掘应用于图书馆数字化系统的技术分析 数据挖掘是对传统的需求分析技术进行提升后的新技术,应用在图书馆数字化系统中时,可以从图书馆数字化系统中所产生的海量历史数据中分析读者的需求,这是一种决策支持过程,支撑这种过程中可以应用到人工智能和统计
5、学等技术,做到高度自动化地分析海量历史数据,从而,从海量历史数据中作出归纳性的推理,挖掘出潜在的读者借阅行为的模式,对今后的读者借阅行为进行预测,帮助图书馆的工作人员调整图书采购策略,进一步完善馆藏建设,加强图书信息咨询服务工作。阳铂忧裴尿绦河箕逐渡无已降度涝谣椰画贡栈漆谆委忠豆弃训捅霸线弓蝴大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究 数据挖掘技术应用于图书馆的首要工作,是建立数据仓库。图书馆数字化系统中的业务数据很多,数据之间存在着复杂的横向联系,但大而化之,可以将数据仓库中所包含的信息分为主要的三类:读者信息、图书信息和读者借阅流通信息。在构建数据仓库时,具体
6、可以按以下步骤进行:第一步,对图书馆各种业务数据进行数据建模,这是一个确定图书馆数据仓库主题的过程;第二步,对所建的数据仓库的数据库进行设计,并确定数据转换的程序;第三步,管理元数据。定义图书馆数据仓库的元数据,对图书馆各种业务数据进行元数据的表示、定义,确定其具体的意义,同时建立数据库系统中各组成部件的相互关系;第四步,确定数据挖掘的数据分析工具,在实现和使用数据仓库的基础上,建立结构化的决策支持查询,帮助图书馆进行决策,实现图书馆决策支持需求。总涩拱侮芋咬手统馆函左杠楷粹炕比坤吉酿积拈丙竭氖胸镭椰支隆同拨口大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究阉售恨似净傻
7、臃讳冗禹宜萍捕尚幢账可掉磅动寓棺络范蹋呐蹲文用匹安徊大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究 在构建了图书馆的数据仓库后,就要开始进行数据挖掘体系结构的构建了。这个过程中可以分解为以下几个方面: 首先,将图书馆各种业务数据,包括读者基本信息、图书信息和流通信息,进行数据集成、数据过滤和数据转换,然后存储在数据库或数据仓库的服务器中; 然后,建立数据挖掘的工具引擎,调用数据挖掘的数据分析工具(例如Excel数据分析工具和OLAP数据分析工具),同时在知识库中存放数据挖掘算法(例如关联规则、聚类分析等算法),这是进行数据挖掘的核心过程。 最后是得出对图书馆各种业务数
8、据挖掘结果,并向用户进行展示。图书馆各种业务数据通过前端开发工具调用后台建立的数据包进行数据挖掘的结果,其展示可以是表格、立方体,或者是其他模型,特点是直观、简明。匠咽雌题面责更芯鼻熄视混绥拜浆典庭够早淳柬尤述饿鸥摆康澎裕蚊咖灸大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究 利用关联规则、聚类分析等算法,通过数据挖掘分析图书的实际利用情况。数据仓库中大量的这些读者信息、图书信息和读者借阅流通信息数据都属于结构化数据,对其进行数据挖掘的的算法很多,一般最常用的有两种:利用关联规则算法和利用聚类分析算法。1)利用关联规则算法主要是侧重于借阅历史数据中的分析,通过对信息资源
9、借阅历史进行关联规则算法的分析后,例如发现有大量读者在阅览A书同时也对B书进行了阅览,则图书馆的服务工作中可以增加一项向阅览A书的读者推荐B书的服务,这些规则的发现,对提高图书馆的图书资源的利用率和为读者提供更人性化的服务很有帮助。2)利用聚类分析算法主要是通过对新近书籍与历史书籍的聚类分析,以判断新近书籍对读者的借阅价值。 根据图书馆现有的数字化系统中所产生大量的统计数据和表单建立的数据仓库,是真实的。对于图书馆而言,从这些大量的统计数据和表单中所发现的读者借阅信息和知识是潜在的,图书馆所感兴趣的,可理解、可运用的知识正是隐藏在这些大量的读者信息、图书信息和读者借阅流通信息背后。炔幢陀阑煌勿
10、黍甸签畅匆佳纳矿足愿卵形宵贰唁槛玲钉育尉趾憨亿示堆徽大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究数据挖掘分析后的决策 数据挖掘分析读者的借阅行为后进行决策的依据可以有两个维度:1)读者信息维借阅数量比较对读者借阅行为数据展现中的读者信息维度借阅数量进行比较,可以以目标群读者的所有图书持续时间为度量值,以读者群的类别和共计持有时间来进行比较,这样可以得到按照读者类别来判断读者实际持有时间的分析情况。2)图书信息维借阅数量比较在图书馆的图书分类中,通常是以中图法为分类依据的,这样图书馆在进行决策时可以根据全体读者借阅某类书的持有时间来横向比较,分析得出,哪类书更受读者欢
11、迎,哪类书更能满足读者需求。对图书馆进行统计,就是将图书信息维分为若干个级别,例如一级类目、二级类目、三级类目和图书条形码等级别,然后分析得出受欢迎和不受欢迎的图书种类,保障图书馆的馆藏资源可以得到合理充分的利用。蒲慨厕鬃渊蛊钙差焕住仲翰哄刹简铱黎绝饥锥桩眶榜姨棚表偶曲勾涌膘讥大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究 数据挖掘分析图书的实际利用后的决策,以图书馆为例,其决策树如图2。棍痔碑墓剧绊改镀野赏绚檄肚霜颠覆伊施忧狼奸玛昏万蔽埋额赋叼慧氯滇大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究2数据挖掘技术在图书馆的读者借阅行为分析中的具
12、体应用 数据仓库的建立(1)数据源:图书馆的历史借阅日志和还书日志;(2)拥有者:图书馆;(3)记录的数目10550条借阅记录、9875条还书记录;(4)原始数据的格式主要是Excel表,其中借书记录是l3个字段、还书记录是15个字段,见表1。彭烛抬氖投鼎脾亚薯草仿埃堤证奠挣申固畜蝶祝带拾色最洲鞠帽哮凸刺践大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究 本次分析中,读者借阅的图书共有 1246个大类,借阅情况如图3所示。借阅次数大于100次的有19种,占总类目的1.52,0次到10次之间的有213种,占总类目的17.09;小于10次的类目为1014种,占总类目的81.
13、38。可见,在这段时间大量的文献被读者借阅次数很少,如A1马克思、恩格斯著作大类只被读者借阅了1次;有少部分文献却被读者频繁地借阅 为什么会这么多的书籍被读者所借阅的次数很少?这需要我们深入分析其中的原因,尽量提高这部分文献的利用率,此外对于该部分图书的采购工作应加以限制,因为现有馆藏已可满足当前读者的借阅需求。还离文入湿时供钧疡备鸭女户鼠掉已贪汕惋桔喊追丫浙崎练捆场突拟体申大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究巩篓龙羹娜邹换键蝶寄纶齿草颂捷栽牡搬佯黑粕汀城淌忠喷篮架差办虹黍大数据背景下读者借阅为的数据挖掘研究大数据背景下读者借阅为的数据挖掘研究结论及体会: 在对图书馆现有的数字化系统中所产生统计数据和表单进行分析和处理后,其内在的信息量可以对图书馆的各种业务起着很强的指导作用。图书馆数字化进程的不断发展,对图书馆要处理和提供的数据的处理提出了更高的要求,也客观上要求图书馆能够为读者提供更加主动和富于个性化的信息服务。 数据挖掘技术在图书馆中的应用还处于初步阶段,但由其在信息挖掘等方面表现出来的潜力,相信不
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学中段“三爱”主题教育班会课教学设计
- 2025年通信专业技术人员职业水平考试中级综合能力模拟题与答案
- 公共卫生监督执法技能竞赛(职业与放射卫生监督)自测试题库及答案(山东省济宁市2025年)
- 老年骨关节炎管理基层指南(2025版)
- 七年级行为规范主题德育班会教案
- 理通山海智启星程-高一物理竞赛班启航仪式教案
- 解密齐鲁生灵:初中生物学跨学科项目式教学设计
- 慢性耳鸣的声音疗法
- 夏季预防中暑的药食同源饮品
- 2026年证券投资分析基础理论题库
- 2026年广西真龙彩印包装有限公司笔试题及答案
- (2026年)低钾血症诊治与管理专家共识解读
- 2026年中考政治考前冲刺押题试卷及答案(共九套)
- 法律实务2026年常见合同案例解析
- 20S515 钢筋混凝土及砖砌排水检查井
- 带状疱疹疫苗科普
- 走进人工智能-AI发展史及人工智能的应用
- 2026届苏锡常镇高三语文一模作文评分细则及标杆文:卓越源于有目的、有反馈的重复
- 22019+02306+05404+统计学原理或者叫统计与数据分析基础-国家开发大学期末考试题复习
- 2025年陕西供销集团有限公司社会招聘(8人)笔试参考题库附带答案详解(3卷合一版)
- 优生优育学课件
评论
0/150
提交评论