全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于读者行为特征的数据挖掘实例张文华(东华理工大学图书馆江西抚州344000)摘 要 数字图书馆改变了传统图书馆的服务模式,同时也积累了大量的读者信息,为个性化服务提供了数据基础。本文重点研究了聚类分析技术及其在图书馆中的应用,利用两步聚类模型实现了对读者的聚类分析。关键词 数字化图书馆 数据挖掘技术读者行为特征Examples of Data Mining Based on Characteristics of the Readers BehaviorZhang WenHua(East China Institute of Technology, fuzhou jiangxi,344000)Abstract : Digital Library has changed the traditional model of library services, it accumulats a large number of readers information which provide base data for personalized service. This article focuses on a cluster analysis technique and its application in the library, using a two-step clustering model of cluster analysis on readers.Keywords Digital Library,Data Mining,readers behavior数据挖掘简介数据挖掘技术是随着计算机的广泛应用和数据的大量积累而发展起来的。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的研究涉及机器学习、数据库、模式识别、统计学、人工智能、管理信息系统、知识获取、数据可视化等许多领域。数据挖掘在图书馆中的应用小结数据挖掘的应用非常广泛,下面仅就它在图书馆中的应用做个小结。数据挖掘技术技术应用关联规则分析找出读者个人特征与图书之间的关联性;利用读者个人的相似性推荐图书;将同性质的图书,推荐给适当的读者;分类分析由不同读者的特征及借阅记录,判别读者的相似性,找出各类特性的读者对图书的兴趣;建立模式之后,当有新的图书,可按照此模式推荐给有该特性的读者;聚类分析找出图书与图书、读者与读者间的关系,以探讨使用者的集群特性,并找出其借阅行为的倾向;次序相关分析依据读者借阅图书的顺序,推荐给其他未借阅的读者;表1 数据挖掘技术应用于图书馆领域小结由于本例中主要用到聚类分析,所以下面对它做一简要介绍。.聚类分析聚类分析(Cluster Analysis)是数据挖掘领域最常用的技术之一。所谓聚类就是将物理或抽象对象的集合组成为由类似的对象组成的多个类或簇的过程。由聚类生成的簇是一组数据对象的集合,同一簇中的对象尽可能相似。而不同簇中的对象尽可能相异。通过聚类,人们可以发现数据分布的一些特征。聚类分析已被广泛应用于许多研究领域,包括数据挖掘、图像分割、模式识别等研究领域。如在商务上,聚类能帮助市场分析人员从客户基本信息中发现不同的客户群,并且用购买模式来刻画不同的客户群特征。在生物学上,聚类能推导植物和动物的分类,对基因分类。聚类分析还可以应用在其他挖掘算法的预处理步骤,如先对数据进行聚类,再在得到的聚类结果上进行其他的研究和处理。数据挖掘的基本过程和主要步骤图1如上图所示数据挖掘过程中各步骤的大体内容如下:(1) 确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。()数据准备) 数据的选择搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。) 数据的预处理研究数据的质量,为进一步的分析作准备。并确定将要进行的挖掘操作的类型。) 数据的转换将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。()数据挖掘对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。()结果分析解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。()知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。 数据挖掘实例操作在图书馆系统中,存在大量的借阅数据,通过对读者的借阅次数进行聚类分析,可得到哪些读者借阅频率较高,哪些读者的借阅频率较低。下面根据图书管理系统的实际数据,应用上面的挖掘过程和步骤,做了实际挖掘实验。.数据的清理与准备本例用到的数据来自东华理工大学图书馆图书管理系统丹诚系统,反映读者借阅情况的数据存储于读者库中,其中除了有读者姓名、借书证号、单位基本信息外,还有借阅统计量、当前借阅状况、借阅历史和被罚记录等信息。首先要将其中的数据通过系统自带功能以ISO格式导出,然后再通过自带的软件转换成EXCEL格式,最后导入到SQL Server 2000中进行数据清理和准备。删除存在冗余空缺数据、不完整和含噪声等信息的“脏数据”;同时对那些已经注销了图书证的读者信息,也进行了清理。为了简便,这里只选取其中几个关键字段,具体库机构参见下图2,cardnum:借书证号,rname:读者姓名,depart:读者单位,rtype:读者类别,sumb:借阅总量,下图3是全部19544条记录中的一部分。图2 图3.对数据进行聚类分析 数据挖掘工具有许多种,本例选择的是SPSS公司推出的企业级数据挖掘产品Clementine,它提供了包括神经网络、决策树、聚类分析、关联分析、因子分析、回归分析等在内的丰富的数据挖掘模型,它通过节点的连接来完成整个数据挖掘过程。它完全支持世界通行的跨行业数据挖掘标准流程(CRISPDM) ,提供了从商业理解、数据理解、数据准备、建立模型、模型评估到结果部署的整个数据挖掘过程的项目管理功能和相对应的节点。它主要可以用来生成客户档案和客户生命周期、检查和预测组织的疏漏、预测未来的趋势、研究响应、分类和聚类。Clementine数据挖掘是一个三级过程:Clementine读入数据;通过一系列操作运行数据;把数据送到目的地。操作的这个顺序被称为数据流,通过每次操作数据流都会随着相关操作发生相关变化,最后,令那些目标数据输出一个模型或者可视化的结果。在Clementine中,所有流程都与创建和修改数据流有关。聚类分析有多个模型,本例用其中的两步聚类模型,两步聚类节点提供了一种聚类分析方法。在最初并不知道数据的分类时,可用两步聚类将数据集分成不同的群组。同Kohonen节点和KMeans节点一样,两步聚类模型不使用目标字段。两步聚类尽量反映输入字段集的结构而不是预测某一结果。两步聚类对记录进行分组,同组记录彼此相似,不同组记录差异较大。 两步聚类是一种分两步进行的聚类方法。第一步单独通过数据,在此间把原始数据压缩成易处理的子类集。第二步使用层次聚类方法,将子类逐渐合并成越来越大的聚类,不需要再次通过数据。层次聚类的好处是不要求提前选择聚类数。许多层次聚类从单个记录开始分群,逐步合并成更大的聚类。两步聚类的要求:要训练两步聚类模型,需要至少一个In字段。设置为Out、Both或者None的字段将被忽略。两步聚类算法不处理缺失值。在建立模型时,任一输入字段有空白值的记录将被忽略。两步聚类的优点:两步聚类能够处理混合类型的字段,并能有效处理大型数据集。两步聚类也能检验几种聚类方案,然后选出最佳方案,因此无须在开始分群时要求聚类数。两步聚类还能设置成自动排除离群值(outliers),或者破坏聚类结果的离群值。图图是数据流视图。图图是生成的两步聚类模型的odel视图。图图6是生成的两步聚类模型的Viewer视图。图图7是生成的两步聚类模型导出的Table视图。.结果分析上面的挖掘,仅仅从读者的借阅次数角度来衡量读者的需求,体现图书馆服务群体的某个方面的行为特征。结果将读者分成三类:消极型、一般型和积极型。对聚类结果产生的第三类读者,由于他们的借阅需求比较大,可以考虑调整他们借阅流通图书的最大册数,而不是千篇一律的采用同一标准对待需求不同的读者,更好地为读者服务。另一方面,对那些较活跃的读者可以进一步挖掘他们的借阅兴趣,为他们提供更主动的推荐服务。参考文献陈文文图书馆使用者行为模式的数据挖掘研究D重庆:西南大学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届浙江省绍兴县物理九上期末考试模拟试题含解析
- 美容会所顾客满意度调查企业制定与实施新质生产力项目商业计划书
- 森林养生自然教育创新创业项目商业计划书
- 猎头美容美发猎头创新创业项目商业计划书
- 米粉连续蒸煮设备企业制定与实施新质生产力项目商业计划书
- 瑜伽与冥想工作室加盟创新创业项目商业计划书
- 宠物情绪安抚床创新创业项目商业计划书
- 山东省菏泽市成武县2025年中考三模数学试题含解析
- 河北省石家庄市石门实验学校2026届九年级物理第一学期期中联考试题含解析
- 浙江省杭州市经济开发区2026届物理八年级第一学期期末经典模拟试题含解析
- 校本活动课程无人机教案
- 风电运输方案
- DB32T3916-2020建筑地基基础检测规程
- AIoT系统开发(基于机器学习和Python深度学习)
- 婴幼儿托育服务与管理职业生涯规划
- 环境工程的工程伦理问题探讨
- 《小猴子下山》基于标准的教学设计
- 飞机维护的常见工具
- 我的家乡河北固安宣传介绍
- 钢轨和钢轨伤损 钢轨伤损的分类和形成原因
- 广告策划之大白兔奶糖
评论
0/150
提交评论