基于用户使用数据分析的图书馆学术推荐服务.doc_第1页
基于用户使用数据分析的图书馆学术推荐服务.doc_第2页
基于用户使用数据分析的图书馆学术推荐服务.doc_第3页
基于用户使用数据分析的图书馆学术推荐服务.doc_第4页
基于用户使用数据分析的图书馆学术推荐服务.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于用户使用数据分析的图书馆学术推荐服务施晓华,曲建峰,宋海燕(上海交通大学图书馆 上海 200240)摘要:本文阐述了目前国外对学术用户使用数据的研究情况,介绍了BX学术推荐工具的主要架构和原理;最后分析了BX在图书馆的应用和需要改进之处。关键词: 用户使用数据; 推荐服务; SFX; BXAcademic Recommendation services for libraries based on Usage Data analysisShi Xiaohua, Qu Jianfeng, Song Haiyan(Library of Shanghai Jiaotong University, Shanghai 200240, China)Abstract: In this paper, we described the current foreign study about usage data of academic researcher, introduced the main framework and principles of academic recommended toolsBX, finally analyzed applications and what need to be improved. of the BX in the library. Keywords: Usage Data; Recommendation Service; SFX; BX 引言信息膨胀的时代,学者们需要新的工具来帮助他们在学习和研究中更好的找到和获取所需要的信息资源。在当当、豆瓣、亚马逊甚至网上购物浏览时,网站系统通过挖掘客户的使用过程数据实现了用户全新的推荐体验,如“购买此商品的顾客也购买了”、“查看此商品的顾客也查看了”、“同类热销商品”等;这些体验也对图书馆服务的学术推荐提出了新的思路和服务方式。基于用户使用数据分析的图书馆学术推荐服务就是在通过挖掘用户使用学术论文的数据,达到当读者浏览一篇论文时,旁边出现一个提示读者可能会感兴趣的论文或者浏览本文的读者还浏览过的论文信息。这种关联并非只是基于关键词或主题词相同,或是有相同的参考文献,而是基于通过挖掘分析用户对文献资源的使用及其过程后获取的推荐信息。1、国外对用户使用数据的研究在国外,研究分析学术用户使用数据的项目主要有:l COUNTER计划1。COUNTER(全称 Counting Online Usage of Networked Electronic Resources)是一项国际计划,通过协助在线使用统计的记录与交换而服务于图书馆员、出版社和中间商。它开发并确立了一套国际公认、可扩展的操作代码(Code of Practice,即COP),从而可以通过一种可信、一致、同时更加兼容的方式来衡量由服务商提供的在线信息产品和服务相关数据的使用情况。COUNTER于2008年8月推出了第三版的有关期刊和数据库的COP,主要包括: 需要获取的数据元素 数据元素的定义 使用报告的内容、格式、频率和传递方式 整合直接使用和通过中间件使用的相关报告的协议同时它也提供了供应商数据处理的准则和审计协议。l SUSHI项目2SUSHI(The Standardized Usage Statistics Harvesting Initiative)作为一个草案标准版本由NISO发起,标准定案完成于2006年9月,作为草案标准用于测试使用,试用日期为2006年9月20至2007年5月20日,在测试使用显示比较成功后,对标准进行了小幅的调整,2007年7月被选作为Z39.93-200X标准协议。SUSHI定义了一个基于Web service自动请求,响应、收割电子资源用户使用数据的模型。它是一个XML信息,也是一种在两个系统之间传输信息的方法,以Web Service的方式实现,自动通过一个XML架构将使用数据从一个系统传送到另一个系统。它建立在SOAP(Simple Object Access Protoco1)协议上,以传递请求和响应信息3。SUSHI在COUNTER标准的基础上,采用统一的协议,来收集这些不同数据库商提供的数据并进行处理,使用户在很大程度上能更系统、高效地收集和分析数据库商提供的使用数据,节省用户在使用数据收集和整理上的时间,使用户有更多的时间进行数据分析,为用户的科学决策提供数据依据。l JISC MOSAIC项目4MOSAIC (Making Our Scholarly Activity Information Count) 项目是由JISC(英国联合信息体系委员会)资助,完成于2009年3月至12月。主要任务是调研在英国高校系统中挖掘用户活动和现在或潜在的用户使用数据的可能性,以增进图书馆服务,使用户更加受益。项目通过对一系列不同的高校图书馆数据集进行研究分析,获取了大量关于大学和全国图书馆服务发展前景以及隐患相关的潜在知识信息。l UKSG使用因子研究5英国期刊工作组(United Kingdom Serials Group,简称 UKSG)一直致力于全球范围内期刊工作和学术交流过程的研究。考虑到学术团体和出版商对影响因子(Impact Factor,简称IF)的过分依赖和Counter使用统计标准在全球推广中的良好表现,Counter标准工作组主席Richard Gedye与英国期刊工作组主席Paul Harwood开始着手期刊使用因子(Usage Factor,简称UF)的研究和推广。首先,给出具有操作性的期刊使用因子的定义和计算公式,然后探讨提出期刊使用因子概念的意义、在实践中的可操作性(如相关利益团体的接受情况和能否为网上期刊的质量与价值评价提供新的视角),探索该指标在全球范围的运行机制6。期刊的使用因子是基于期刊被使用频率( frequeny-based)计算的评价期刊影响力的定量指标,UKSG给出期刊使用因子的计算公式为:上述公式中, a为某种期刊相对于研究对象(可以为机构、国家和全球)的绝对使用数据, b为该期刊在某个时间段(目前已有的针对时间段长度的观点有1年、2年、5年,具体时间的确定需要更深入的统计学分析和检验)内发表并可以提供使用的全部文章数量。标准化期刊使用因子的发展将使文献计量学的研究重心从论文发表者转向读者,这是一片至今没有被探索的领域。l MESUR项目7MESUR项目(MEtrics from Scholarly Usage of Resources)是由美国梅隆基金会(Andrew W. Mellon Foundation)支持的探讨期刊定量评价指标的项目,旨在开发评价学术交流载体(如文章、期刊、会议文献等)价值的定量化指标。项目的主要目的是丰富学术交流载体的评价工具,开发基于期刊使用数据的定量评价指标。项目没有明确提出期刊使用因子的概念,因为他们认为基于期刊使用的评价指标有很多,需要通过交叉验证的方式确定不同指标的价值。研究方法侧重从用户使用行为出发,通过研究读者、作者、使用数据、引用数据和目录数据之间的关系建立本体模型,通过本体模型组织数据建立语义网,分析语义网的结构和划分,最终确立侧重于不同应用的期刊使用评价指标,验证不同指标的正确性、可靠性和适用环境。项目收集了2002-2007年各出版商,集成商以及图书馆的近10亿条使用日志。通过定义和验证范围基于使用的度量地图的结构学术社区8。2、 基于用户使用数据分析的BX学术推荐服务研究学者们总是想要知道一个特定研究区域上所有相关的文章,但是面对大量的学术信息是他们很难获取所有需要的文献。目前可以帮助学者的方法主要有,如通过一篇文章的引文来获取,寻找被引作者的其他作品,或者进一步检索现有的关键词或主题词;然而,通过这些传统的引文分析方法还是难以查找出全部相关的资料。实际研究中发现,在学术研究者之间是总是有相似的共同观点,基于此可以建立一个自动发现机制来获取相关的学术资料11。用户在使用资源时的具体方法和过程被系统收集后,就可以以此来判断一些资源之间的关联性或重要程度。以搜索引擎Google为例,通过用户点击链接的响应时间来判断网站的排名,比如说一个用户直接在Google主页搜索某一个关键词,用户点击了第一个结果,然后五秒钟之内返回点击第三个结果。再过30分钟以后,这个用户才再次回到Google检索页,查看其他结果。那么Google就可以得出结论,第三个网站比第一个网站更能给用户提供有用的信息。如果这种模式大量反复,那么Google就有可能把这两个网站的排名互换,把用户最可能需要的网站排在最前面。搜索引擎可以很好地推出这一通过挖掘分析用户行为来优化用户服务的手段,就是因为他们获取与用户点击链接时的大量相关数据。BX9是Exlibris公司新近开发的一款学术推荐工具,在2006 年2月由在美国洛斯阿拉莫斯国家实验室(LANL)工作的Herbert Van de Sompel和Johan Bollen的研究产品发展形成12,而Herbert 也同时SFX (上下文链接服务器)的最初设计者;BX依据LANL的研究成果MESUR和全球典型SFX10用户使用的日志来提供文章级别的学术推荐和关联。在商业界,搜索引擎依靠收集社会数据,以确定基于Web网络资源的相关性;相对应的BX服务则是依靠收集链接解析器(见图1)中的用户使用数据,因为目前有越来越多的图书馆利用SFX链接解析器来提供访问该馆所有的在线电子资源馆藏。 BX推荐服务分析了来自多个机构链接解析器(Link Resolver)中与用户使用相关的数据仓储;在用户通过链接服务器访问各类学术内容的过程中,不断收集用户使用数据,并运用它来提供增值服务。图1 SFX链接解析器作为业界首款链接解析器产品,Ex Libris推出了首款对应商业产品-SFX。随而许多其他产品也因应而生,如Serials Solutions的 360 Link,WorldCat Resolver,以及EBSCO的LinkSource。链接解析器也出现在开源软件领域,包括加拿大西蒙弗雷泽大学(Simon Fraser University)开发研究的GODOT/CUFS。对于图书馆提供的大量的电子期刊馆藏来讲,链接解析器已逐渐成为其的技术服务基础几乎不可或缺的组成部分。如图1显示了在一个学术机构的特定用户群体的信息环境下,有许多分布式学术信息服务,它们可以通过SFX链接解析器(Link Resolver)联系起来作为信息环境的中心枢纽。链接解析器的主要目的是,依据本馆订阅的文献资源列表及是否可获取全文的相关元数据,为用户动态计算生成的实用合理的文献链接地址。虽然实际链接的计算涉及到机械逻辑过程,因为每个操作是建立在用户对某一期刊文章请求的基础之上,解析器的各类用户使用日志包含有用户选择对象、请求时间和使用过程的一些数据。这些数据揭示了用户在一次检索的会话(Session)中所选择的文章信息。BX学术推荐就是基于以下原理,由用户在一次检索会话中选择的多篇文章之间是有一定联系的(见图2)。虽然在一次特定的会话中这一联系也许不一定被确定,但是在聚合、分析上百万次会话后,就会揭示出一些文章之间的关联性13。 图2文章间的使用关联性BX服务商创造了大量的用户使用数据信息库,以增强其Bx的推荐服务。该产品的架构主要包括将用户日志数据格式化为一个标准格式,并且聚合一个机构的链接服务器的用户数据。来自多个机构的数据通过OpenURL和OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting)协议被聚合和收割到一个中心数据仓储。这些多层次的聚合产生一个用户数据的硕大集合,然后可以作为一个服务提供者,通过分析软件来进一步处理,以响应需要相关文章的请求推荐服务(见图3)。 图3 BX推荐服务机制3、BX推荐服务工具在图书馆的应用BX推荐服务不需要有专门的工作界面,作为一种推荐服务功能可以整合至其他工作界面;比如可以添加至SFX菜单界面中,将对研究可能最有帮助的论文展示在研究者面前,基于且符合用户的搜索习惯,帮助研究者尽快找到最需要的文章。BX推荐的文章列表会在读者点击SFX菜单时显示,无须特别安装插件。在SFX菜单中显示的推荐文章可以通过点击 SFX按钮关联到全文或其他扩展服务,还可以将文章导出到Reference Manager、Procite、EndNote或Refworks中等个人文献管理工具。目前全球有近250多家使用SFX的图书馆应用了BX服务,在国内图书馆推出BX试用的主要有清华大学图书馆14和上海交通大学图书馆15,如图4为上海交通大学图书馆试用BX服务工具的SFX菜单,所推荐的文章出现在“浏览本文的读者还浏览过”列表中;目前在交大图书馆的“思源探索”一站式检索平台、学术信息资源检索系统(AIRA)、购买的大型数据库如EI、Scopus、ISI Web Of Knowledge等平台中均得到了应用。图4 上海交通大学图书馆BX学术信息推荐由于目前在国内推荐使用的BX服务是挖掘许多国外图书馆用户的使用数据而实现的,所以在上海交通大学图书馆的试用效果尚不是非常理想,如:推荐语种目前仅限于外文;推荐范围相关度尚不够高;推荐文章的时间范围不够全面,系统推荐机制也不够理想等等。这些都需要经过进一步获取、分析大量的国内学术用户的使用情况才能逐步解决。结语基于用户使用数据推荐和基于引文分析的推荐一样解决了当前数字图书馆由于大量数据而产生的协同过滤推荐数据长期稀疏(Sparsity)问题17。通过分析用户使用数据,扩展了图书馆在线服务范畴,将用户可能所需的信息推荐到他们身边,扩展用户的视野,帮助他们更好的进行学习和研究,通过使用图书馆的系统,用户能快速高效的获得推荐的结果。同时,推荐服务还需要更多的图书馆和机构的参与,贡献自己用户的学术使用数据。参考文献【1】 2010-02-03【2】/workrooms/sushi/ 2010-02-03【3】SUSHI网络电子资源利用与统计数据获取协议 闫晓弟 李娟 大学图书馆学报 2009年第2期 P 50-54【4】http:/www.sero.co.uk/jisc-mosaic.html 2010-03-12【5】/usagefactors 2010-03-12【6】一种新的期刊定量评价指标期刊使用因子 李莉,郑建程 图书情报工作 2009 53卷第6期 P143-146【7】/ 2010-03-12【8】MESUR: usage-based metrics of scholarly impact. 2010-07-12 /Documentation_files/JCDL07_bollen.pdf【9】/category/bXOverview 2010-09-02【10】/category/SFXOverview 2010-09-02【11】Smart Libraries Newsletter bX Recommender Service Now Available from Ex Libris2010-09-02 /ltg-displaytext.pl?RC=14580【12】An architecture for the aggregation and analysis of scholarly usage data. JCDL 2006Johan Bollen, Herbert Van de Sompel 2010-09-02 /herbertv/papers/jcdl06_accepted_version.pdf【13】bX: Schola

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论