




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 大数据挖掘在高校图书馆个性化服务中应用研究 4 面向个性化服务的高校图书馆大数据挖掘实现方案4.1 大数据挖掘的云计算支撑环境高校图书馆大数据具有4v特征,需要高性能的计算平台支持,从而进行大规模数据的分布式、并行处理。4v特征给大数据挖掘带来的挑战是数据输入输出交换和数据移动的代价高,以及需要在不同站点间分析数据挖掘模型间的关系。高校图书馆大数据挖掘需要新的云计算基础构架支撑。诸多云计算设施中,hadoop为用户提供了一个快速、可靠的大数据分析和处理平台16。它由两项关键服务构成:一是采用分布式文件系统hdfs实现可靠数据存储服务;二是利
2、用mapreduce映射/规约技术和spark内存计算技术提供高性能并行数据处理服务。hadoop具有高容错性、高扩展性、高可靠性、高效性等优点。何胜等指出,资金投入受限阻碍了高校图书馆大数据服务的开展。而hadoop是开源软件,成本不高,对硬件的要求也不高,具有低成本的优势,适合高校图书馆采用。此外,诸多运行在hadoop平台上的软件产品组成一个生态系统,共同实现全面、灵活的大数据分析和处理。例如,mahout、r等软件可以满足高校图书馆大数据挖掘的需求,而且是开源项目可以免费获取使用,从而帮助高校图书馆节省资金。4.2 高校图书馆大数据挖掘方案设计基于上述分析,本文以hadoop为大数据分
3、析平台、mapreduce/spark为计算框架设计了面向个性化服务的高校图书馆大数据挖掘解决方案(见图2)。在图2所示的大数据挖掘实现方案中,主要模块分为数据收集、角色建模、算法实现和结果存储、前端应用。角色建模、算法实现和结果存储属于离线部分,在线部分涉及数据收集和前端应用。4.2.1 在线部分(1)数据收集通过开源分布式文件系统hdfs和hbase数据库管理系统实现高校图书馆大数据的存储以及数据读写。hdfs文件系统是一个可扩展、高可靠、高可用的大规模数据分布式存储管理系统,为上层应用程序提供了一个逻辑上成为整体的大规模数据存储文件系统。hbase是一个建立hdfs之上的分布式数据库,具
4、有对结构化、半结构化甚至非结构化大数据的实时读写和随机访问能力。用户的行为会作为很多个性化服务算法的数据来源,因此需要收集用户访问的日志。此外,用户使用检索和推荐引擎本身的数据也会被记录,并以此来对之后的算法做进一步的优化。(2)前端应用前端应用用于接收网页或移动设备发过来的推荐请求,并经过必要的初步处理之后向推荐后端引擎传递,并在拿到后端返回的结果之后返回给用户。利用本体和云平台上的关联数据技术,结合海量语义网知识库的实时检索,应对知识迷航,为用户提供实时性、交互性的个性化服务。4.2.2 离线部分(1)角色建模角色建模包括用户建模和文献建模。用户建模根据用户的人口统计学信息和用户行为数据建
5、立用户画像等模型,刻画其短期和中长期兴趣。文献建模根据文献的领域属性,以及用户访问这些文献的数据,建立文献画像模型,刻画其本质特征。用户建模和文献建模有本体建模方法和非本体建模方法,这两种建模方法都可以在mapreduce/spark计算框架下高效实现,模型都可以由hbase数据库进行分布式存储和检索。(2)算法实现和结果存储推荐、检索和推送算法根据所建立的用户模型和文献模型,通过不同的方式进行计算,最终找到能与用户或输入所匹配的文献。利用大数据挖掘技术来优化算法,进一步提高各种个性化服务的质量,提升高校师生及各类工作人员的满意度。mahout是基于hadoop和mapreduce计算框架的可
6、扩展软件包,它具有处理高校图书馆大数据的能力。mahout创建并提供经典的数据挖掘和机器学习并行化算法类库。mahout对于基于用户的推荐和基于物品的推荐都有实现,而且包含聚类、分类、频繁项集挖掘等广泛使用的数据挖掘算法。一方面,可以利用mahout提供的主成分分析、奇异值分解等降维方法进行数据降维,以帮助解决高校图书馆大数据的高维度问题;另一方面,可以利用mahout中已实现的相关算法来实现个性化服务。r是一种著名的统计分析开源软件包,能把原始模型转变为图形和可视化视图,拥有很多和数据科学相关的功能。近年来,研究人员致力于集成r和hadoop,使得r成为大数据平台上理想的分析和可视化工具。最
7、后将基于大数据挖掘技术得到的推荐、检索和推送结果保存下来,以便于在线的实时访问。4.3 数据特征选取无论采用本体建模还是非本体建模,用户建模和文献建模的关键之一是数据特征选取,在对象有了基于特征的数据表示之后便可以通过模型来分析它们。个性化服务通常需要基于内容、用户行为、专业知识、社交网络等来计算相似度。考虑到目前的高校图书馆用户之间普遍还没有形成社交网络,可以选择基于内容和基于行为的特征。内容特征涵盖了文献的标题和类别、用户的背景和兴趣等。用户行为则涵盖了他们浏览、下载或借阅了哪些文献。基于内容和用户行为的特征可以相互补充。用户流量不足时,内容特征是首选,它不需要用户的访问记录,可以解决大数
8、据挖掘系统中常常面临的“冷启动”问题。而当用户流量足够高的时候,行为特征可以挖掘从文字本身中无法发现的潜在语义,提供惊喜度更高的推荐内容。4.3.1 高校图书馆用户的常见内容特征高校图书馆服务的主要对象是在校师生,他们构成了用户(见表1)。这里要注意区分用户的内容特征和访问行为特征。用户的内容特征强调的是除了文献浏览、下载、借阅等具体行为之外的特征。例如,表1中的系统访问属性只关心系统访问的次数、频次和周期等,并不考虑具体的浏览、下载、借阅等行为。4.3.2 高校图书馆用户的常见行为特征对于用户行为,需要考虑哪些行为特征可以纳入考量。以图书使用为例(见表2),对于这些特征,或者说是不同类型的行
9、为,应该赋予不同的权重。比如,浏览、收藏、预约、借阅和留下好评,代表用户对于图书的喜好程度由浅到深,自然在计算时的权重也需要从低到高。此外,目前人们考虑的比较多的是正向特征,很少考虑负向特征。但是,对于特别讲究用户体验的高校图书馆个性化服务而言,负面的信息同样重要,可以设计算法来针对负向特征进行推荐。4.4 个性化服务算法选取高校图书馆要提供高质量的个性化服务,基础算法选取很重要。以协同过滤推荐算法来说,基于物品和基于用户的推荐各有其适用场合。这里从准确性、高效性、稳定性三个角度简单分析这两种方法在高校图书馆个性化服务中的适用性。(1)准确性:推荐系统的准确性在很大程度上依赖于系统中用户数和物
10、品数量间的比例。通常情况下,一小部分相似度高的用户,其价值远远高于一大部分相似度较低的近邻。在大型商业系统的购物网站中,如果用户之间的区分度不够,就很难界定哪些是真正高相似度的用户,此时宜采用基于物品的协同过滤。高校图书馆用户包括学生、教师、实验师、行政人员等类别,每一类用户又可以细分,如学生有不同专业、年级等,用户之间区分度较高。采用基于用户的协同过滤能使高校图书馆个性化推荐更为精准。(2)高效性:一般情况下,大数据挖掘部分是离线计算,并不要求实时返回结果。但是,现在也出现了需要实时性挖掘结果的应用。因此,需要尽可能提高挖掘效率。当用户数量远远大于物品数量时,物品的相似度计算所消耗的资源要远
11、远小于用户的相似度计算,因此基于物品的协同过滤效率更高。反之,基于用户的协同过滤会更高效。由于高校图书馆通常拥有的文献数量远大于用户数量,采用基于用户的协同过滤效果更佳。(3)稳定性:物品和用户在不断变化。如果系统中物品集合比用户集合更稳定,则宜采用基于物品的方法以避免频繁的数据计算和更新,反之宜采用基于用户的方法。对于高校图书馆而言,一方面,学校每年都有新生入学,也有学生毕业,学生用户不很稳定;另一方面,图书馆每年都会购入新书,引入新文献。从稳定性的角度来看,基于用户的方法和基于物品的方法难分伯仲。5 结语大数据时代来临,使得高校图书馆个性化服务面临着信息过载和知识迷航的问题。采用大数据挖掘
12、技术,可以准确分析各类用户对文献的需求,在个性化服务方面提高用户的满意度、惊喜度,对为以师生为主体的高校图书馆用户提供高质量服务具有重要意义。参考文献:1郅秀丽.基于信息素质教育视阈下的民族地区高校图书馆个性化服务提升策略以宁夏大学图书馆为例j.图书馆理论与实践,2015(12):78-81.2王福.数字图书馆个性化服务要素啮合机理研究j.图书馆,2016(8):91-94.3熊拥军.数字图书馆个性化服务资源推荐模式分析j.图书馆,2014(2):132-134.4熊太纯,等.calis贮存图书馆个性化服务研究j.图书馆工作与研究,2014(12):94-97.5叶春蕾,冯璐,冷伏海.数字图书
13、馆个性化服务中用户弱信息需求模型研究j.图书情报工作,2012,56(15):25-30.6王敬东.基于知识聚合的数字图书馆信息智能检索模型j.图书馆学研究,2014(21):72-76.7何胜,等.高校图书馆大数据服务现实困境与应用模式分析j.图书情报工作,2015,59(22):50-55.8陈祖琴,刘喜文,郑昌兴.面向科研跟踪推送的个性化知识服务模型j.图书馆学研究,2015(1):78-83.9杨利军,高军.图书馆个性化服务中的大数据可视化分析与应用研究j.现代情报,2015,35(7):68-72.10李文阔,李永先.数据挖掘在数字图书馆中的应用研究综述j.新世纪图书馆,2012(2
14、):30-33.11zhai zp. the design and realization of university library personalized service based on date-mining technologyj.applied mechanics and materials,2014(1).12常雅红.基于大数据挖掘的数字化图书馆服务新模式研究j.图书情报导刊,2016(7):11-15.13李艳,吕鹏.李珑.基于大数据挖掘与决策分析体系的高校图书馆个性化服务研究j.图书情报知识,2016(2):60-68.14yi c,xia y,zhang zy. study on the personal push service of university library based on big data miningj. advanced materials research,2014(1).15jiawei han,micheline kamber. data mining:concepts and techniques(third edition)m. morgan kaufmann,2011.16黄宜华.深入理解大数据:大数据处理与编程实践m.北京:机械工业
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-湖南-湖南房管员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖南-湖南动物检疫员二级(技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北经济岗位工三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北机械热加工二级(技师)历年参考题库含答案解析
- 创业孵化基地建设资金申请报告:2025年创业环境优化策略
- 2025年事业单位工勤技能-海南-海南医技工五级(初级工)历年参考题库含答案解析
- 保险行业数字化理赔服务与保险欺诈防范研究报告
- 2025年K2教育STEM课程实施效果评估:学生问题解决能力提升策略研究报告
- 2025年休闲农业与乡村旅游乡村旅游产业投资机会分析报告
- 2025年虚拟现实教育产品在虚拟现实心理健康教育中的应用设计与效果评估报告
- 2025高级会计师考试试题及答案
- 2025-2030中国特高压电网建设规划与设备需求分析报告
- 2026版赢在微点顶层设计大一轮物理-专题提升二十 测量电阻的其他几种方法
- 民族文化宫2025年公开招聘17人笔试模拟试题含答案详解
- 光传输业务配置课件
- 2025年幼儿园教师专业考试试题及答案书
- 机关事业单位工人汽车驾驶员高级、技师国家题库练习题及答案
- 2025年辽宁省地质勘探矿业集团有限责任公司校园招聘笔试备考题库带答案详解
- 2025年青海辅警招聘考试题及答案
- 2025新外研版初中英语八年级上全册课文原文翻译
- 2025年高处作业特种作业操作证考试试卷:高处作业特种作业操作证考试备考攻略与技巧
评论
0/150
提交评论