




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
近十年国内图书馆数据挖掘研究文献计量分析* 国家社科基金项目“自动文本分类技术研究”(编号:08CTQ003)资助。奉国和 奉永桃(华南师范大学经济管理学院,广东 广州 510006)摘要检索2000年-2009年国内图书馆数据挖掘研究论文,按照论文年度分布、期刊分布、著者情况、主题特征等方面进行文献计量分析。从图书馆管理、资源建设、用户服务、综合应用等方面进行主题评述,指出图书馆数据挖掘研究存在的问题,归纳该领域研究热点。 关键词图书馆;数据挖掘;计量分析中图分类号G250.72 图书馆发展到今天需要更高效地管理和更好地服务用户。图书馆拥有大量信息资源与读者数据,如何挖掘此数据,发现其隐含的、有价值的规律,是图书馆迫切需要解决的问题之一,数据挖掘技术能为此提供帮助,它从大型数据集中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程1。利用数据挖掘技术图书馆可以提升其管理与服务水平,更好地满足读者需求。笔者统计近十年间我国图书馆数据挖掘研究领域论文,从文献计量角度分析该领域研究内容、存在问题、研究热点。1 论文统计分析在CNKI中以“数据挖掘” 为关键词,并以“图书馆”为主题检索词进行检索,经筛选后得到273篇该主题相关文献。1.1 年度数量分布统计从论文年代数量分布表,可知,该研究领域的发展可分为两个阶段:(1)起始阶段(2000-2003年),发文数14篇,占文献总量的5.13%,该阶段图书馆对数据挖掘关注比较少。(2)快速发展阶段(2004-2009年),随着数据挖掘理论的成熟,应用范围越来越广,图情领域掀起数据挖掘研究热潮,成果明显增多。表1 论文年度数量分布表年份2000200120022003200420052006200720082009总计文献数量01761828326564522731.2 论文来源分布统计检索论文中,学术期刊载文240篇,硕博士论文33篇。240篇期刊论文分布在100种期刊上,有11种期刊发文量在5篇或以上,其中,科技情报开发与经济22篇、现代情报18篇、情报杂志14篇、现代图书情报技术10篇、情报探索10篇、图书馆学研究9篇、大学图书情报学刊8篇、情报科学6篇、电脑知识与技术5篇、晋图学刊5篇、农业图书情报学刊5篇。收录论文112篇,占论文总数的46.7%,表明有近半数的论文刊载在7.6%的少数期刊上,该11种期刊可视为研究该领域的核心期刊。但这11种期刊中权威期刊仅4种,发文量约占112篇论文中的34.8%,可见,国内在该领域研究不够深入,研究论文质量不高。1.3作者分布统计据统计,该主题研究者总人数为329人,发文量最高的学者为黄兰和鲍静(含第二作者),论文数3篇;发文2篇以上作者27人(含第二作者),共发文56篇,占发文总量的23.3%。数据表明该领域研究没有形成核心作者群。1.4主题分布统计按研究主题进行划分,可将图书馆数据挖掘研究内容分为图书馆管理、资源建设、用户服务、综合应用、其它五个方面。数据分布见表2。表2论文主题分布表主题2000-200120022003200420052006200720082009合计百分比图书馆管理10018789114516.5%资源建设0117610179116222.8%用户服务022561027332410939.9%综合应用032585101064917.9%其它01100033082.9%合计176182832656452273100%2主题研究分析基于主题研究分析,可以多角度全面了解国内在该领域的研究内容及进展。2.1图书馆管理研究2.1.1决策管理数据挖掘技术能够为领导科学决策提供强有力的保障。张炜、洪霞2探讨数据挖掘技术对信息管理系统中书目、读者和借阅信息、OPAC检索记录以及WEB问卷调查数据发现读者利用及需求的规律和模式,辅助图书馆决策。钱强、李英3用关联规则对某类读者的计算机类图书借阅记录进行挖掘,分析每类读者的借阅特征,找出其借书规律,为图书馆管理提出建议。罗仕健等4认为图书馆利用数据挖掘进行管理决策体现在三个方面:将涉及图书馆这一信息系统的各种内部数据和外部信息汇集起来,经过处理和转换,形成集中统一、随时可用的决策信息;利用数据挖掘系统提供的OLAP工具,对集成数据进行多维分析比较,对决策假设进行审查和验证,提高决策的可靠度和可行性;数据挖掘工具可从历史数据中找出潜在的模式,并在模式的基础上自动作出预测,启发图书馆决策者的创新思维。2.1.2业务管理 数据挖掘技术可以提高图书馆日常业务工作效率,辅助图书馆员有效提升对信息资源的采集加工水平。现今出版物数量日益增多,载体日益丰富,图书馆信息结构、读者需求与资金利用的平衡问题越来越不易把握,也令采访决策变得更加复杂。基于数据挖掘在分析内部历史采购数据、读者数据、流通数据、反馈信息以及来自外部各种学科发展信息的基础上深入了解学科走势和读者需求,帮助采购人员确定采购重点,保障图书馆信息资源体系的科学性与合理性4。2.1.3读者管理读者服务是图书馆工作的出发点和落脚点,运用数据挖掘技术实现读者管理是十分必要的。高巨山5总结数据挖掘实现读者管理的集中模式:读者分类,利用分类技术,按照年龄、学历、专业等不同因素,通过对读者的属性和特征分析、读者满意度分析而把读者群体进行细分,以便更清楚地了解用户的特点,掌握不同的群体借阅量,从而有针对性地为读者提供不同服务。利用聚类模式分析读者相似性和差异性。利用回归法分析读者需求,根据分析结果找出读者需求中出现的各种问题,以便及时调整策略,适应不断变化的读者需求。现代化图书馆需要先进的管理,管理水平好坏直接影响图书馆工作的开展和功能的扩展。图书馆利用数据挖掘技术可以辅助图书馆有效管理,提升图书馆管理水平。2.2资源建设研究2.2.1资源深加工图书馆拥有海量信息资源,需要深层次开发和有效管理,才能实现信息增值,从而为较大范围的用户利用。潘小枫6探讨了利用数据挖掘技术进行馆藏资源的深层次加工、网络资源的加工与挖掘。杨传明7针对数字图书馆资源的异构性、分布性、自治性等问题,将移动代理和数据挖掘技术相结合,设计出一个嵌入式基于移动代理的数据挖掘平台,有效实现图书馆资源的知识提取与建设。2.2.2 资源优化李默8总结了数据挖掘技术在以下三方面有助于资源优化:可以对流通记录、检索请求进行分析,按类统计文献拒绝借阅信息和频繁借阅信息,有针对性地补充和丰富信息资源。可结合文献的利用率,及时剔除过时的文献信息,或减少部分文献信息的复本量或共享站点数。同时对用户每次借阅的文献进行关联分析,发现各类文献间的关联规则或比例关系,优化信息建设或馆藏布局。收集整理并重构图书馆网上咨询、荐购书刊等栏目中的数据,使之转化为标准的结构化数据库,利用数据挖掘方法发现用户兴趣模式,甚至可以预先发现用户群体兴趣的变迁,调整馆藏方向,提前做好文献信息的搜集订购。对Web访问信息的挖掘可以发现信息资源的缺漏,并利用路径分析模式采掘捕捉用户频繁浏览访问的路径,改进数字图书馆站点结构设计。图书馆只有不断加强信息资源建设,并从海量信息资源中挖掘有价值的知识提供给用户,才能体现图书馆的核心价值,数据挖掘技术有利于图书馆资源建设,为图书馆拥有深层次信息资源提供帮助。2.3用户服务研究经过文献整理归纳,将用户服务分为信息咨询服务与用户个性化服务。2.3.1信息咨询服务信息咨询是图书馆的一项重要工作,利用数据挖掘技术提高图书馆信息咨询服务质量是十分必要的。梅红9从信息需求的影响、物质基础的形成、实现技术的成熟等方面探讨了图书馆利用数据挖掘技术提升信息咨询服务的可行性与必要性。刘军凤10提出两步法构建信息咨询模型:利用各种方式、各种途径对用户的需求进行调研、分类,建立用户需求模型;根据用户的各种需求,进行数据挖掘,对各种数据库及网络中的大量数据进行抽取、转换、分析和分类,建立信息咨询模型。2.3.2个性化服务郭家义11探讨了数据挖掘在个性化检索中的应用,为用户提供个性化检索服务,满足个人用户的个性化信息需求,提高信息检索的效率与信息服务的质量。张金镯12利用数据挖掘技术推出活跃读者的评价规则,并提出活跃读者的管理模式,为图书馆有针对性的深层次服务提供决策依据。史嘉陵13提出一种有效提高信息获取速度方法以提升个性化服务的效果:利用关联规则采掘算法找到访问频率超过给定阈值的专题(项目)集,用分类算法把客户的浏览模式与频繁项目集进行相似匹配,将具有相似浏览模式的客户组织到一个服务器上,减少服务器缓存和传输页面的数量。找到事务库中某频率访问的专题集,利用关联分析得到专题之间的关联规则,存入服务器的知识库,当用户浏览某页面时,网络代理根据规则预先连接其关联页面,从而提高响应速度。利用Web挖掘得到用户访问序列模式,根据预测,预先传播用户可能阅读的页面。图书馆应研究用户行为特征,主动发现用户需求,为用户主动提供个性化的、真正需要的服务。现代技术构建下的图书馆,其工作人员应掌握数据挖掘技术以便更好地为用户提供便捷的信息服务。2.4综合应用研究赵卫军14探讨了数据挖掘在图书馆优化资源、智能化服务、提供个性化服务、信息自动化处理等方面的应用和产生的价值。高巨山5总结了数据挖掘在信息咨询、信息资源优化、读者分类研究、读者相似性和差异性分析、读者需求分析、图书借阅规律分析、个性化服务等方面应用。大量的综合应用文献整体上阐述数据挖掘可以在哪些方面为图书馆服务,但没有深入研究如何应用,应用效果怎样,缺乏深度。图书馆现代化建设需要各种先进的信息技术,数据挖掘也不例外,而且渗透到图书馆建设的各个环节,成为图书馆建设与发展的关键技术之一。3问题与挑战3.1研究缺乏深度与广度3.1.1理论研究不足目前图书馆数据挖掘理论研究存在不足。国外在此方面走在前列,很多学者提出面向图书馆的数据挖掘应用原理与技术。Scott Nicholson研究图书馆书目挖掘,利用书目挖掘,从基于行为的信息与数据中获取隐含的模式15。May Chau提出了图书馆数据挖掘理论模型,开发了图书馆数据挖掘系统,辅助用户查找信息15。国内虽有很多学者已投入到该领域研究中,但至今未出现有影响力的挖掘模型,同时从成果的数量与内容都反映出对图书馆数据挖掘的理解还停留在较浅层面。3.1.2应用研究缺乏针对性目前国内该领域研究文献基本停留在将数据挖掘方法搬过来应用,而当中应用较多的挖掘方法为贝叶斯分类、聚类分析、关联规则等,其它应用挖掘方法则比较少见。研究没有针对图书馆的实际需求进行深入分析与研究,方法原理与应用上缺乏创新。笔者认为只有通过深入理解图书馆业务,分析图书馆为什么需要数据挖掘,运用数据挖掘能帮助图书馆解决什么等问题,探讨图书馆数据挖掘基本原理与应用才有意义,才能发挥数据挖掘的强大威力。3.2结果有效性与确定性数据挖掘处理对象是海量样本,但大部分研究论文分析案例数据量小,且有些还是模拟数据,并非真实数据。对小样本数据,寻找的规律或结果可能不具有统计显著意义,不能说明规律或结果的有效性。国外除在理论上有突破外,实例研究比重也较大,且数据分析量大,结果有较高的有效性与确定性。3.3驱动力不强目前图书馆对用户依赖度不高,没有激情去分析哪些客户是黄金客户,哪些客户具有对促销比较高的响应率,哪些客户在未来具有大的流失可能性等等,数据挖掘对图书馆来说不迫切。但事实上图书馆需要数据挖掘技术,如数据挖掘分析读者借阅行为,有利于引导文献采购;工作人员利用数据挖掘,对信息从深度上,广度上进行加工,为读者提供增值服务;利用数据挖掘技术辅助图书馆的决策管理等。另一方面,图书馆缺乏数据挖掘人才,致使图书馆数据挖掘研究工作高质量成果少,影响图书馆事业的发展。3.4面临挑战潘旭武16总结图书馆数据挖掘面临的挑战:从异构数据源中挖掘信息;数据挖掘结果的有用性和确定性;数据挖掘结果的不同形式表示;在不同抽象层次上进行交互的挖掘。由于数据挖掘的方法和模式多种多样,彼此又互相孤立,联系很少,没有统一的约定对模型进行描述和定义,造成各挖掘系统之间的封闭现象。4 研究热点240篇期刊论文按主题分布统计,资源建设方面论文数为62篇,占论文总数22.8%,而近三年论文数为37篇;用户服务方面论文数为109篇,占论文总数39.9%,近三年论文数为84篇,同时综合应用研究论文中也涉及资源建设与用户服务方面内容。据此判断,图书馆数据挖掘研究热点集中在:(1)资源建设,如何利用数据挖掘技术建设有特色的信息资源,提炼有价值的知识是图书馆的工作核心。(2) 用户服务,如何将有价值的知识资源提供给有需求的用户是图书馆的主题。基于数据挖掘技术的用户服务研究主要模式是:基于用户数据与用户行为数据的挖掘,研究用户行为特征、兴趣爱好,为用户提供个性化服务,满足用户的信息需求。参考文献1奉国和.基于SAS数据挖掘技术的航空CRM系统分析J.情报杂志, 2006,25(5):56-59. 2张炜,洪霞.基于读者利用挖掘的图书馆决策与应用分析J.现代情报,2009,29(7):47-50.3钱强,李英.数据挖掘技术在图书馆读者分析中的应用J.图书情报工作,2009,53(6):121-124.4罗仕健,朱光磊.数据挖掘技术在网络环境下图书馆中的应用J.情报杂志,2004,6:22-24.5高巨山.数字图书馆构建中的数据挖掘应用研究J.图书馆工作与研究,2009,158(4):20-21.6潘小枫.数据挖掘技术及其在数字图书馆建设中的运用J.图书馆理论与实践,2006(4):105-106.7杨传明.基于移动代理的数据挖掘在数字图书馆中的应用研J.情报理论与实践,2008,31(3):436-439.8李默.基于Web的数据挖掘技术在数字图书馆中的应用J.大学图书情报学刊,2007,25(4):44-46.9梅红.数据挖掘技术在图书馆信息咨询系统中的应用J.江西教育学院学报,2005,26(3):35-36.10刘军凤.数据库中知识发现在中医药信息咨询中的应用探索J.辽宁中医药大学学报,2007,3:227-228.11郭家义.个性化检索系统中的数据挖掘技术分析J.图书情报工作,2003(8):93-97.12张金镯.基于数据挖掘的图书馆活跃读者研究J.现代图书情报技术,2008,167(7):96-99.13史嘉陵.数据挖掘在数字图书馆个性化服务中的应用J.农业网络信息,2009,4:77-79.14赵卫军.数据挖掘技术在高校图书馆中的应用J.图书馆论坛,2007,27(4):126-128.15Nicholson S.Bibliomining for automated collection development in a digital library setting: Using data mining to discover Web-based scholarly research works. Journal of the American Society for Information Science and Technology , 2003,54(12). 1081-1090. 16潘旭武,陈玲洪.数据挖掘在数字图书馆中的应用研究J.浙江高校图书情报工作,2007(1):36-39.Bibliometric Analysis of Library Data Mining Published in the last ten yearsFeng GuoheFeng YongtaoSchool of Economics & Management, South China Normal Unive
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于ICA和EMD融合的睡眠脑电图预处理算法优化与应用研究
- 基于HPLC技术精准测定胆固醇代谢酶CYP7A1活性的方法学构建与验证
- 住宅楼给排水系统设计方案
- 网球快速入门及训练技巧手册
- 临床医学专业职业发展规划与路径设计
- 高校毕业生求职简历优化技巧大全
- 移动应用产品用户行为分析报告
- 铝及铝合金表面处理技术详细介绍
- 医院门诊药品调配操作规程
- 初中化学碳元素氧化物考试复习题
- 配网全过程管理
- 立陶宛语儿童文学的语言特点论文
- 学生代表大会制度
- 民宿的内涵专题课件
- 高职高考数学复习第五章数列5-1数列课件
- 高一必修一英语单词默写表
- GB/T 40816.2-2024工业炉及相关工艺设备能量平衡测试及能效计算方法第2部分:钢加热炉
- 增值税发票清单模板
- 第10课《往事依依》教学课件+2024-2025学年统编版语文七年级上册
- 人教版六年级数学上册第一单元测试卷
- 2024年注册安全工程师生产技术押密试题及答案
评论
0/150
提交评论