版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘在学校图书馆的应用廖志平(上海海事大学高等技术学院 上海 200129)摘 要:在当前信息量急速增长的情况下学校图书馆迫切需要数据挖掘的技术手段对文献管 理系统产生的数据及大量 Web 信息进行统计和分析工,为读者提供个性化服务,以推动学校图书 馆现代化信息服务水平的不断提高。关键词:图书馆 数据挖掘 Web 数据挖掘中图分类号:G256 文献标识码:A 文章编号:1674-098X(2012)04(c)-0211-021 数据挖掘概述数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的
2、信息和知识的过程 1。它可 以帮助人们对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,并进行微观、 中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,从中提取辅助决策的信 息和数据,帮助提高决策的科学性和针对性。数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程 2。为了取得良好 的数据挖掘的效果,在数据挖掘过程中我们首先要注意避免出现不好的数据格式、各个系统中数 据含义的不一致、缺少相应可以实施的功能、挖掘出的结果缺乏充分的理由等情况。数据挖掘 不是用于验证某个假定的模型的正确性,而是在数据库中自己寻找模型,也就是说数据挖掘过程 是一个归纳的过程。它主
3、要包括确定业务对象、数据准备、数据挖掘、结果分析和知识的同化 当前数据挖掘应用主要集中在金融(信用分析、客户欺诈)、电信(客户分析、客户欺诈)、 零售(销售预测)、电子商务(营销分析)、电力(系统优化)、生物(基因分析)、天体(星体分类) 等方面。近年来,数据挖掘也开始被广泛应用于图书馆信息处理,与一系列的信息检索、文献加 工、数据库等方法实现了紧密结合3。比如美国科学家 Sweason 运用知识发现法,创建了 Arrowsmith 软件系统,用于对 Medline、Biosis、Embase 等数据库中的文献资料进行处理,并且 在医学科学研究当中取得了巨大的成效,为情报学界所瞻目。2 数据挖
4、掘主要技术数据挖掘经常采用的技术包括:统计技术、关联规则方法、基于历史的分析 MBR 方法、聚集 检测、连接分析、决策树和规则推理、神经元网络、遗传算法等 2,其性能评价如(表 1)。3 数据挖掘在图书馆的应用图书馆作为学校信息的聚集地,文献资源、数字资源和网络资源不断增加;而目前 Internet 已经发展成为一个分布广泛的全球性信息服务中心。如何从海量数据中发现对读者有价值的信 息或知识,成为一项非常艰巨的任务。通过对图书馆文献管理集成系统及 Internet 网络资源的数据挖掘可以从海量的数据中提取读者所需的显性知识和隐性知识,提升图书馆知识管理服务水 3.1 对图书馆文献管理集成系统的
5、挖掘文献管理集成系统主要对文献信息资源进行科学的管理、有效的开发、实现资源共享,是图 书馆实现现代化管理的重要内容之一。以文献管理集成系统中的流通管理数据为研究主体 ,利用 数据挖掘中的关联规则、决策树和聚类分析等方法对其中的读者信息、书目信息及借阅历史信 息进行分析研究,掌握读者的借阅规律,了解读者的借阅需求,可以为图书馆的馆藏建设和图书推 荐服务等工作提供帮助。3.1.1 馆藏建设图书馆馆藏建设主要包括信息采集和馆藏布局。传统图书馆信息采集多由专门采访人员独 自确定或与少数专家商讨决定,不可避免的带有极大的主观性以及个人喜好;而且图书馆每年的 文献购置费是有限的,各门学科之间如何分配,各种
6、文献载体形式如何均衡才能使这此经费最好 地发挥效益,这是一件令人头疼的事。而运用数据挖掘技术可以通过对图书馆的借阅流通记录、 检索请求进行分析、挖掘,按类统计文献拒借集和频繁借阅集,从而有针对性的补充和丰富信息 资源,并可以籍此分析出文献的利用率,及时剔除过时、老化的文献信息。通过对用户每次借阅 的文献进行关联分析,从中发现出各类文献之间的关联规则或比例关系 ,进而合理进行馆藏布局。3.1.2 图书推荐服务运用数据挖掘技术,根据读者的兴趣爱好、研究方向,向读者推荐相关专题信息,或主动将相 关信息提供给他们;同时通过总结各类用户的特征,挖掘出图书馆的潜在读者,逐渐将他们发展为 图书馆的常客;运用
7、关联规则对图书馆借阅数据进行处理,得到各专业图书及资料之间的联系,从 而不仅给读者提供信息,还提供包含着大量用用于解决问题的知识,提供的信息或知识可能是利 用挖掘出的数据组织成的报表或绘制成的直观图形。Web 数据挖掘是以 Internet 的数据为分析对象,以抽取有用知识为目标,把传统数据挖掘技 术和 Internet 相结合的数据挖掘的一个重要分支。 Web 数据挖掘是一门交叉性学科,涉及数据 挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等 Web 数据挖掘主要包含 Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web St
8、ructure Mining)和Web 日志挖掘(Web Usage Mining)。在实际应用中这三个研究方向并不是孤立的,而 是相互交叉、相互渗透和相互联系的。3.2.1 Web 内容挖掘Web 内容挖掘主要是针对网页中非结构化的数据,如文本数据、音频数据、视频数据、图形 图像数据等多种数据相融合的多媒体数据挖掘。它是一种基于网页内容的 Web 挖掘,是从大量的 Web 数据中发现信息、抽取有用知识的过程。Web 内容挖掘的任务是从用户的角度出发,主要解决怎样提高信息质量和帮助用户过滤信息 的问题。学校图书馆可以通过 Web 内容挖掘建立 Web 站点的数据模型并加以集成,为读者提供复 杂
9、查询的支持,而不只是简单的基于关键词的搜索 ,大大提升图书馆信息服务的针对性和专业性。3.2.2 Web 结构挖掘Web 结构挖掘是指通过分析不同 Web 页面之间的超链接结构,发现许多蕴含在 Web 页面之外 的对用户有潜在价值的模式和知识的过程。从站点的组织结构和页面结构中推导出知识 ,对 Web 页面间的结构进行挖掘,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而提高图 书馆为读者提供隐性知识的能力。3.2.3 Web 日志挖掘Web 日志挖掘是对用户访问 Web 时在服务器留下的访问记录进行挖掘,来发现用户访问 Web 页面的模式,通过分析日志记录中的规律,可以识别用户对于
10、各类网页信息的喜好。通过 Web 数据挖掘,图书馆可将 Web 上的文档进行分类、寻找文档主题、汇总搜索结果,为 读者提供更加全面准确的网络信息;利用Web 数据挖掘可以对网上大量文本进行表示、特征提取、 内容总结、分类、聚类、关联分析、语义分析以及利用网络文本进行趋势预测,提高信息检索的 精度和效率,改善检索结果的组织,使图书馆信息推送服务更符合读者的需求。4 结语在互联网时代的今天,各种信息如海潮般涌向我们,从纷繁复杂信息中收集对读者有用信息 的准确性,是学校图书馆现代化信息服务工作水平的体现。时代的发展要求我们将以往拉取式获 取信息改变为推送式信息服务,数据挖掘技术成功地解决了在主动式信息服务过程中的各种难题, 这在图书馆现代化信息服务将成为趋势的今天,有非常现实的意义。参考文献JiaweiHanMichelineKamber译.数据挖掘概念与技术.北京 : 机械工业出版社 2001.8.2Mehmed Kant
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025四川泸州市纳溪区融新文化传媒有限责任公司面向社会招聘1人考试题库附答案
- 2025广西柳钢集团社会招聘备考笔试试题及答案解析
- 2025云南曲靖市麒麟区政协办公室招聘公益性岗位工作人员1人备考核心题库及答案解析
- 2025广西南宁市青秀区融媒体中心招聘2人参考题库附答案
- 2025四川雅安石棉县佳业劳务派遣有限公司招聘石棉县综合应急救援大队队员1人考试重点题库及答案解析
- 2025年广东潮州湘桥区公益性岗位安置工作笔试备考题库及答案解析
- 2025青海西宁市城北区事业单位招聘1人考试核心试题及答案解析
- 2025广东惠州市儿童公园招聘19人参考考试题库及答案解析
- 2025年淮南安徽省焦岗湖国有资产运营有限公司公开招聘9名工作人员备考核心题库及答案解析
- 2025天津渤海轻工投资集团有限公司公开选聘合规管理部副部长考试题库附答案
- 2025年有关护理程序试题及答案
- 2026包钢(集团)公司新员工招聘322人考试题库附答案
- 2025年云南省人民检察院聘用制书记员招聘(22人)笔试考试备考题库及答案解析
- 店长岗位职责与日常管理手册
- 大学生校园创新创业计划书
- 2025-2026学年北师大版五年级数学上册(全册)知识点梳理归纳
- 2021年广东省广州市英语中考试卷(含答案)
- 2025年警考申论真题及答案大全
- 合格考前一天的课件
- 宿舍心理信息员培训
- 2025北京市实验动物上岗证试题及答案
评论
0/150
提交评论