(计算机应用技术专业论文)数据挖掘技术在高职院校图书馆管理系统中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘技术在高职院校图书馆管理系统中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘技术在高职院校图书馆管理系统中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘技术在高职院校图书馆管理系统中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘技术在高职院校图书馆管理系统中的应用.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘技术在高职院校图书馆管理系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文数据挖掘技术在高职院校图书馆管理系统中的应用 摘要 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在 其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘就是如 何从海量的数据中提取有用的知识发展起来的数据处理技术。如今,数据挖掘技术已 经在各种领域中获得广泛应用。 图书管理系统中大量的信息只是简单的被存储起来,并没有进行深层次的研究分 析。面对如此大量的数字信息,如何主动地进行分析研究,利用已有信息发现规律、 指导工作成为目前亟待解决的问题。有效地利用数据挖掘技术可以为用户提供更好的 个性化服务,提高满意度,指导图书馆合理分布馆藏和挖掘学科间隐藏的关联性。 本文以扬州环境资源职业技术学院图书馆中的已有信息为依据,结合数据挖掘的 流行方向,应用聚类算法和关联规则挖掘算法对读者的行为模式进行分析研究,总结 了一套有效的分析系统,获得对图书馆管理有用的信息,促进图书馆管理工作效率和 资源利用率,更好地为学生服务。 关键词:数据挖掘,聚类分析,关联规则,图书关联性,个性化服务 硕士论文 a b s t r a c t d a t am i n i n gi st h ep r o c e s so fa b s t r a c t i n gu n a w a r e ,p o t e n t i a la n du s e f u li n f o r m a t i o n a n d k n o w l e d g ef r o mp l e n t i f u l ,i n c o m p l e t e ,n o i s y , f u z z ya n ds t o c h a s t i cd a t a d a t am i n i n gi s t h et e c h n o l o g yw h i c hr e t r i e v eu s e f u li n f o r m a t i o nf r o mv a s tq u a n t i t i e so fd a t a n o w a d a y s , d a t am i n i n gt e c h n o l o g yh a sb e e nw i d e l yu s e di nm a n yf i e l d i nl i b r a r ym a n a g e m e n ts y s t e m ,ag r e a td e a lo fi n f o r m a t i o nh a sb e e ns t o r e ds i m p l y w h i c hn e e d sf u r t h e ra r a l y s i s f a c i n gg r e a td e a lo fi n f o r m a t i o n , h o wt oa n a l y z ea n dr e s e a r c h i m t i a t i v e l ya n dh o w t of i n dr u l e sf r o mt h e s ei n f o r m a t i o nt og u i d ew o r kh a v eb e c o m ea n u r g e n tp r o b l e m u s e i n gd a t am i n i n gt e c h n o l o g ye f f e c t i v e l yc a np r o v i d eu s e r sw i t hb e t t e r i n d i v i d u a t i o ns e r v i c e s i tc a l le s t a b l i s hr e a s o n a b l e l a y o u tl i b r a r yh o l d i n g ,m a k ei t c o n v e n i e n tf o rr e a d e r st ob o r r o wo rr e t u r nb o o k sa n dp e r i o d i c a l ss oa st om a k el i b r a r y r e a d e rs e r v i c ew o r kg of u r t h e r t h er e s e a r c ha l s or e v e a l sa s s o c i a t i o nb e t w e e n d i s c i p l i n e s t h i sd i s s e r t a t i o nf o c u s e so nt h ed a t ai nl i b r a r yo fy a n g z h o uv a c a t i o n a lc o l l e g eo f e n v i r o n m e n ta n dr e s o u r s e c l u s t e r i n ga l g o r i t h ma n da s s o c i a t i o nr u l e sm i n i n ga l g o r i t h m w i l lb ea p p l i e dt oa n a l yr e a d e r s p a t t e r n so fb e h a v i o r a n dd e s i g n sa n dr e a l i z e st h e m a n a g e m e n ts y s t e mt og e tu s e r f u li n f o r m a t i o nb a s e do nt h ed a t am i n i n gt e c h n o l o g y as e t l o g i c a ls y s t e mw i l lb e s e tu pt oa n a l y z ei no r d e rt oo b t a i nt h er e s u l tw h i c hw ea r e c o n c e r n e da b o u t t h i sw i l lp r o v i d et h ed e c i s i o n - m a k i n gc r i t e r i o n sf o rt h em a n a g e m e n to f l i b r a r ya n di m p r o v et h el e v e lo fs e r v i c et or e a d e r s k e yw o r d :d a t am i n i n g , c l u s t e r i n ga l g o r i t h m ,a s s o c i a t i o nr u l e sm i n i n ga l g o r i t h m , a s s o c i a t i o no fb o o k s ,i n d i v i d u a t i o ns e r v i c e s 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学 位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布 过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的 材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明 确的说明。 研究生签名:乒垒亟 年上月沙日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上 网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权 其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文, 按保密的有关规定和程序处理。 研究生签名:乒兰l l 嫡7 年,2 月偶日 硕士论文 数据挖掘技术在高职院校图书馆管理系统中的应用 1 绪论 一直以来,高校图书馆肩负着科学、文化、教育和科研的重任,是学院进行教学 和科研活动的重要场所。长期以来,由于主客观条件的限制,高职院校图书馆一直被 认为是文献资源的保管部门,主要是以藏为主,管理方式和服务手段落后,图书馆处 于坐等读者上门的服务模式,主要工作也仅仅是图书的借借还还。随着社会的发展, 现代技术的进步,特别是高职院校教学改革不断深入,读者对知识信息的需求不断深 化,高职图书馆必将被赋予更新的形式、更新的功能。我们知道,图书馆馆藏资源如 果能被妥善利用,一定会给人类带来很大的受益,但万一资源无人问津,那无疑就是 一种极大的浪费,是件很可怕的事情。因此,高职院校图书馆必须要及时调整方向, 提高认识,转变观念,更新观念,树立创新意识,把创新意识融入图书馆事业中,主 动抛弃一切不适的观念和行为,充分发挥图书馆资源作用,拓展图书馆的教育职能, 从传统管理模式向现代化管理模式转变,用先进的管理理念统领和指导图书馆实践工 作。从而更好发挥图书馆资源作用,提高高职图书馆的服务效率。 目前的图书馆管理系统都已经实现电子化,每天产生着大量的数据,并且数据还 在迅猛的增加。现代的图书馆要通过海量数据的背后了解到这些数据中存在的规律, 思考怎样将这些规律应用到图书馆管理中,提高馆藏的利用率,更好的服务于读者。 而现有的高职院校图书管理系统中都只能看到一些表面数据,没有办法直接了解到这 些数据中存在什么样的联系和规则。这就不能挖掘数据背后隐藏的知识,不能预测读 者的求知需求,不光读者难以找到自己所需的真正信息,管理者也无法得知读者的真 实需求。图书馆和读者之间缺乏交流,没有互动。图书馆被动的提供服务,没有做到 真正的为读者提供主动服务,这是一种资源的浪费。 目前的图书管理系统通过发生的借阅行为在数据库产生相应的记录,这些信息好 好研究将会对图书馆的采购、馆藏、咨询等业务工作产生强大的指导作用。如何合理 地利用这些有价值的信息,为图书馆管理服务,为读者服务,是我们亟待研究的课题。 本文就是利用数据挖掘( d a t a m i n i n g ) 技术,分析过去图书借阅情况,读者借阅的 历史记录,了解读者的借阅习惯、读者的借阅关联性,将这些规则应用在指导管理者 图书采购、图书排架、提高馆藏利用率和个性化服务上。本论文中运用的主要数据挖 掘算法有:聚类算法和关联规则挖掘算法。 本文第一章绪论部分主要介绍了本论文使用的相关技术及研究意义。第二章数据 挖掘技术部分主要介绍了数据挖掘的相关知识,包括数据挖掘的概念、任务、对象和 工具。第三章高职院校图书馆管理系统需求分析介绍了目前管理软件的不足及进行数 据挖掘的必要性。第四章采用聚类算法中的k - m e a n s 算法分析现有数据的聚类特征, l 绪论 硬士学位论文 为个性化服务做准备。第五章采用关联规则算法中改进的a p r i o r i 算法对借阅数据进 行关联性分析,挖掘出哪几类图书借阅量大,并存在何种关联性。第六章在前四章基 础上,对高职院校图书馆管理系统进行分析设计和实现,第七章总结与展望部分对论 文研究阶段所做的工作进行总结,并展望了论文中有待进一步解决的问题。 1 1 相关技术概述 1 1 1 数据挖掘技术及发展历史 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随机的数据 中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程【1 1 。 随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以t b 计,如何从海量 的数据中提取有用的知识成为当务之急【2 】。数据挖掘就是为顺应这种需要应运而生发 展起来的数据处理技术。 数据挖掘的发展历史是建立在相关学科发展的基础上的。随着数据库技术的发展 及数据库应用,人们积累的数据越来越多。很多重要的信息就藏在这些激增的数据中。 简单的查询和统计已经无法满足商业的需求,需要出现一种挖掘数据背后隐藏的知识 的手段。“人工智能 一词最初是在1 9 5 6 年d a r t m o u t h 学会上提出的,从此之后取得 重大的发展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的热点是机器 学习 3 1 。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数 据背后的知识,这两者的结合促成了数据库中的知识发现( k d d :k n o w l e d g e d i s c o v e r yi nd a t a b a s e s ) 的产生。 1 9 8 9 年8 月在美国底特律召开的第1 1 届国际人工智能联合会议的专题讨论会上 首次出现知识发现( k d d ) 这个术语【4 】。此后,由美国人工智能协会主办的k d d 国际 研讨会已经召开了8 次,从起初的专题讨论会发展成为国际性的学术大会,研究重点 也逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之 间的相互渗透。数据库中的知识发现是机器学习、专家系统、数据库、统计学、模糊 学等多种技术交叉的一个领域,其应用的前景相当广阔和吸引入。几乎可以这样说, 有数据库的应用领域就会有k d d 的应用,包括银行、交通、法律、商业、工业、农业、 教育、:科技、环境、资源、军事、医疗卫生等。k d d 系统能给这些领域提供更好的 咨询和辅助决策,真正发挥数据库潜在的价值。 数据挖掘( d m ) 是知识发现( 1 d ) 最核心的部分。1 9 9 8 年第四届知识发现与 数据挖掘国际学术会议上不仅进行了学术讨论,并且有3 0 多家软件公司展示了他们 的数据挖掘软件产品,不少软件己在北美、欧洲等国得到应用。经历十多年的发展, 数据挖掘已经成为一个自成体系的应用学科。 2 硕士论文数据挖掘技术在高职院校图书馆管理系统中的应用 1 1 2 数据挖掘研究现状 数据挖掘是一门新兴的边缘学科,9 0 年代有了突飞猛进的发展。2 0 0 1 年, g a r t n e r g r o u p 的一次高级技术调查将数据挖掘和人工智能列为“未来- - = n 五年内将对 工业产生深远影响的五大关键技术【3 j 之首,并且还将并行处理体系和数据挖掘列为 未来五年内投资焦点的十大新兴技术前两位。 早期数据挖掘的应用主要集中在帮助企业提升竞争能力。随着数据挖掘的日益普 及,数据挖掘的应用已经深入到生物、金融、零售、电信等越来越多的领域,数据挖 掘算法的效率和可扩展性也在不断地提高。在数据挖掘结果的展示方面,越来越多可 视化数据挖掘的图形界面问世,更有利于从大量的数据中发现知识,有助于推进数据 挖掘作为数据分析的基本工具【5 】。数据挖掘的发展趋势其研究方面主要有:对知识发 现方法的研究进一步发展,如近年来注重传统的统计学回归法在k d d 中的应用; b a y e s ( 贝叶斯) 方法以及b o o s t i n g 方法的研究和提高;k d d 与数据库的紧密结合。 在应用方面包括:k d d 商业软件工具不断产生和完善,重视建立解决问题的整体系 统,而不是一个孤立的过程。国外很多计算机公司非常重视数据挖掘的开发应用,i b m 和微软都成立了相应的研究中心进行这方面的工作。主要的研究热点有:客户关系管 理、电子商务、w e b 数据挖掘、空间数据挖掘等。 1 2 本文的研究内容 如何提升图书馆对读者的服务品质和利用已有信息服务于图书管成为现代数字 化图书馆的目标。因此就现在的图书馆管理系统而言,应该主动挖掘读者的需求,主 动提供读者需要的信息,而不是坐在图书馆中被动的等待读者利用。 而图书馆的每天产生的大量读者借阅记录就是读者使用图书馆资源的最佳数据 来源,也是读者主动满足个人信息需求的行为,这类数据往往可以反映出读者真正的 利用需求。因此对于提高图书馆馆藏利用率,提升读者的兴趣,鼓励阅读具有参考价 值和指导意义。本文的主要工作如下: ( 1 ) 简单介绍各种数据挖掘算法,使用合适的算法进行挖掘。采用聚类算法中 的k - m e a n s 算法和关联规则算法中改进的a p r i o r i 算法进行扬州环境资源职业技术学 院图书馆信息进行挖掘。 ( 2 ) 以扬州环境资源职业技术学院图书馆信息研究对象进行数据挖掘。分析日 常借还操作产生的业务数据,抽取对数据挖掘有用的数据集,并预先处理了数据。主 要工作包括数据清理、数据集成、噪声处理等。用已选择的挖掘算法进行数据挖掘, 得出数据挖掘结果并对结果进行分析,为图书馆管理者及读者提供有意义的信息。 ( 3 ) 实现高职院校图书馆管理系统。 3 l 绪论 硕士学位论文 a 图书聚类分析。图书馆里的图书资源众多,有的图书较受欢迎,被借阅的次 数多,有的图书上架以来很长时间都没有被借阅过。但只根据图书借阅次数排名,也 不能全面说明它们的受欢迎程度。因为有的图书刚刚上架,有的已在馆中多年,因此 在考量读者关注度时,应将上架时间参与考虑。另外,哪几类图书会经常被借阅也值 得研究。这对于提高馆藏利用率有着指导性意义。 b 图书的关联性分析。就像买啤酒同时会买尿布一样,有些隐藏在表面信息背 后的规则同样需要我们的挖掘。哪几类图书会被同时借阅,哪些读者的借阅习惯有着 相似性,这样的关联性分析可以根据挖掘到的结果应用,主动的为读者提供感兴趣的 图书,提供主动服务。 c 读者聚类分析。在图书馆的众多读者中,每个读者对图书馆的使用程度不同, 对读者进行聚类分析,一方面可以了解读者对图书馆资源的利用程度,另一方面也为 读者提供个性化服务,针对不同读者采取不同的服务措施。 1 3 本文的研究意义 近几年来,随着高职院校的发展,高职院校规模迅速扩张,同时,教育与教学资 源的发展却远远没有跟上在校人数的扩张。以笔者所在的扬州环境资源职业技术学院 为例。学院前身是一所中专学校,当时在校学生数大约2 0 0 0 人,馆藏图书2 万多册, 只有1 个借阅室,而且较为陈旧,当时学生每人每次借阅图书限定1 本。2 0 0 1 年学 校准备升格,为了与筹建条件相匹配,图书馆迅速扩张,单就馆藏图书这一项指标就 有了非常大的突破,达到了3 4 万册。同时升格成功后这几年,招生人数也大幅攀升, 现在校人数达到1 万余人,图书馆硬件建设也有了大的改观。软件建设中引进了汇文 图书管理系统,在日常使用中满足了一般的借阅、查阅功能,但对于日常借阅等行为 产生的巨大数据量只是简单的存储( 没有购买汇文管理系统的高级统计功能) ,没有 将这些数据进行深层的分析,分析研究能力很低。 全院3 4 万藏书中有1 9 余万本在7 年之中,平均被借阅的次数只有2 4 次,表面 上看这部分图书利用率极低,是不是这些图书就是不应该引进的呢? 对于这个问题, 究其原因,实际上还要分成以下几种情况t ( 1 ) 图书确实不符合学生的需求,( 2 ) 学 生想借阅,但由于种种原因没有借到,( 3 ) 图书上架时间过短,还没有学生接触到。 不同的情况就应该有不同的解决方法,一概而论只会引起管理者错误的思路。判断到 底属于哪种情况,从现有的管理系统中根本无法直接得到,也就无法就目前的状态找 到提高借阅率的方法。学生也常常反映在学院图书馆中,比较热门的书籍分布在不同 的借阅室,有时候觉得麻烦就不借了,打击了学生的阅读兴趣。学生当中三年在校期 间借阅过1 0 次以下图书的大有人在,这就给我们提出一个问题:馆藏提高了,硬件 建设也过硬了,怎么才能真正的为学生服务,吸引到学生,提高他们的阅读热情,让 4 硕士论文数据挖掘技术在高职院校图书馆管理系统中的应用 书本转化为学生的知识,更好的服务于社会。 随着高职院校图书馆数据库中数据量的迅速增加,如果能通过收集、加工和处理 读者行为的大量信息,确定特定借阅群体或个体的兴趣、借阅习惯、借阅倾向和借阅 需求,推断出未来借阅行为,则可以提高图书馆的服务质量,使图书馆朝着自动化、 数字化和信息化的方向快速发展。合理的利用现有信息,对它们进行数据挖掘,掌握 读者利用图书馆服务的程度,另一方面也可以针对不同读者采取不同的服务措施;可 以改进图书馆的馆藏结构,提高利用率;通过图书的关联性分析可以形成个性化服务 模式等等。这对于信息爆炸却无从下手的今天来讲具有特别的指导意义。 馆藏布局不太合理,对于文献信息检索重视不够,管理理念也没有更新等等,这 些都是高职院校图书馆管理中普遍存在的问题。面对日常借阅中产生的海量数据,如 何对它们进行有效利用,将之变成一个有用的资源,从中及时发现于我们有用的知识, 充分利用这些数据,作出有利于图书馆管理者的决策信息,将我们的图书馆从纯粹的 被动服务转化为主动地为读者提供服务,更新我们的服务理念,优化馆藏布局,为读 者提供个性化的服务,提高读者的满意度。 2 数据挖掘 硕士论文 2 数据挖掘 2 1 数据挖掘概念 所谓的数据挖掘,简单地说就是从存储于数据库、数据仓库等系统的大量数据中 挖掘出感兴趣的知识的处理过程【1 3 】。数据挖掘包含下列几个步骤【6 - 9 1 : 1 ) 确定目标:在数据挖掘中,首先要做的是明确地定义出问题和目标。 2 ) 准备数据:这个步骤是数据挖掘过程中最消耗时间的一个步骤,占整个过程 6 0 9 6 左右的时间。这个步骤又分成三个部分: a ) 数据选取从所有的信息中选择出所用到的数据。 b ) 数据的预处理确保尽量减少脏数据,尽量保证数据的完整性和真实性。 c ) 数据转换根据将要用到的不同挖掘算法,将数据转换成其需要的格式。 3 ) 数据挖掘:选择适当的数据挖掘算法来挖掘上个步骤经过处理的数据。 4 ) 分析结果:评估步骤3 挖掘出来的信息准确性和可用性等。 5 ) 应用知识:将挖掘出来的结果进行整理加以应用。 图2 - 1 为整个数据挖掘的流程图i l o j : 6 卜卜- 一款搋攘蠡却魏獬挖翱扣卜兹祭凌选和躺移叫 图2 - 1 数据挖掘流程图 硕士论文数据挖掘技术在高职院校图书馆管理系统中的应用 2 2 数据挖掘的任务和对象 2 2 1 数据挖掘的任务 我们数据挖掘的任务就是要从海量数据中挖掘到隐藏在数据中的客观规律,以便 提供给决策者进行决策。实际工作中,通常是分为预测任务和描述任务两大类。我们 主要是在关联分析、时序模式分析、分类分析、聚类分析、偏差分析等方面进行工作。 ( 1 ) 关联分析( a s s o c i a t i o na n a l y s i s ) 在描述有关关联规则的一些细节之前,先来看一个有趣的故事:9 尿布与啤酒 的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这 个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在某国 际连锁店超市的真实案例,并一直为商家所津津乐道。这家连锁店拥有世界上最大的 数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,对其顾客的购物行为进 行购物篮分析,想知道顾客经常一起购买的商品有哪些。这家连锁店正是通过数据仓 库中其各门店的详细原始交易数据,对数据使用数据挖掘方法进行分析和挖掘而得出 了上述结论的。 关联规则挖掘是由r a k e s ha p w a l 等人首先提出的。两个或两个以上变量的取值 之间存在某种规律性,就称为关联【l 卜1 2 】。事先给定由一组事件组成的项目和事件形成 的记录集,根据记录集推导出项目之间的相关联系。可记为:x = y ,x 称为前提或左 部,y 称为后续或右部【1 3 1 。比如:“买面包的人也会买牛奶。“买面包刀是左部,“买 牛奶是右部,购买了面包的人大部分也会购买牛奶,这两个事件具有关联性。 一个关联规则的完整示例:“在超市1 的交易量中顾客同时购买了面包和牛奶, 在购买面包的交易记录中,有6 0 5 的记录同时购买了牛奶 。支持度和可信度是衡量 关联规则重要性的两个阈值。在上面的例子中,支持度具体指买了面包同时买了牛奶 的交易量占整个超市交易量的比值,是1 。计算方法为:x 与y 同时出现的次数总 记录数。可信度指买了面包同时买了牛奶的交易量占买面包交易量的比值,是6 0 9 6 。 计算方法为:x 与y 同时出现的次数x 出现次数。支持度说明挖掘到的规则是否有意 义的,没有挖掘意义的关联规则可以过滤掉。可信度高说明规则的可靠程度。引入了 这样的参数,使得关联分析所挖掘的规则更符合需求。 a p r i o r i 是用关联规则进行数据挖掘的一个经典算法,思路明晰,易于实现。a p f i o f i 算法的主要思想是利用逐层搜索的迭代方法,来寻找数据库中频繁出现的项集。该算 法的主要步骤是【1 4 】:第一步,产生频繁卜项集l l ,扫描数据库d ,出现在d 中各个 数据项的集合组成为卜项候选项集c l ,并统计出每个数据项出现的次数,次数大于 最小支持计数的项的集合就是频繁卜项集集合l 1 ,第k 步,产生频繁k 一项集l k ,利 用上一步产生的频繁( k - 1 ) 一项集l ( k 一1 ) ,与自己连接产生k 一项集候选集c l 【,扫描数据 7 2 数据挖掘硕士论文 库事务,计算c k 中每个成员出现的次数,将小于最小支持数的候选项删除,最后产 生出频繁k 一项集。 ( 2 ) 时序模式分析( t i m e s e r i e sp a r e ma n a l y s i s ) 时序模式分析也是挖掘数据之间的联系,与关联分析的区别是,它侧重于根据时 间先后发生记录的概率。“在某一段时间内,顾客购买商品x ,接着购买商品y ,而后 购买商品z ,即序列x y z 出现的频度较高 ,可记为:x y z ,按照时间序列排 列。比如:“同时购买微波炉和托盘的顾客中,9 0 先买了微波炉,后买了托盘 。根 据这个规则,卖场可以推出针对有微波炉的顾客的优惠措施。同样,用支持度和可信 度两个阈值可以衡量规则的重要性。它也是用己知的信息推断出未来的事件,区别在 于考虑时间的先后。 ( 3 ) 分类分析( c l a s s i f i c a t i o na n a l y s i s ) 设有一个数据库和一组具有不同特征的类别标记,该数据库中的每一个记录都赋 予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是根据一个 已经按一定标准分过类的数据集,再对每个分类作出准确描述或找到规则的过程。也 就是说得出对一个类别的准确描述,它代表了这类数据的整体信息,即该类的内涵描 述,并用这种描述来构造模型,一般用规则或决策树模式表示【1 1 1 。结果可被用于规则 描述和预测。 ( 4 ) 聚类分析( c l u s t e r i n ga n a l y s i s ) 聚类分析分析的是一组未被分类的记录集,并且这些记录将会被分成几类也是事 先未知的。结果要把数据库分成不同的几组,并且每组之间的差别很明显,而同一个 组中的数据尽可能的相似。聚类分析可以建立宏观的概念,发现数据的分布模式,以 及可能的数据属性之间的相互关系。有时候,一次聚类得到的分类可能并不好,需要 删除或增加变量来改变分类的方法,反复多次后才能得到一个理想的结果。 聚类分析问题可描述为:给定m 维空间r 皿中的n 个向量,把每个向量归属到s 聚类中的某一个,使得每个向量与其聚类中心的“距离 最小【1 5 】。聚类分析问题的实 质是一个全局最优问题。在这里,可认为是样本参与聚类的属性个数,n 是样本的个 数,用s 是由用户预先设定的分类数目。 定义:对于m 维空间r i 中的向量x i ,x j ,x i = x i l ,x i 2 ,x i m ) ,x j = x j l ,x j 2 , x j m ) ,向量x i ,:x j 之间的距离为【1 7 】: 压_ d i j 2 ,眨( 瓦一知) 2 七= l 数据聚类在包括数据挖掘、统计学、机器学习、空间数据库技术、生物学,以及 市场营销等领域中得到快速的发展。聚类分析是数据挖掘研究领域中一个非常活跃的 课题。 8 硕士论文数据挖掘技术在高职院校图书馆管理系统中的应用 ( 5 ) 偏差分析( d e v i a t i o na n a l y s i s ) 数据库中的数据常有些异常情况,比如:学生评学系统中,一个班级有一两个学 生对一位教师打分与班级其他同学有很大差异,这个应该可以作为异常分数处理,也 就是将之剔除,这样得到的数据才会比较干净,不会影响得到真实的结果,用这样的 数据进行分析得到的结果才是可信的。 2 2 2 数据挖掘的对象 数据挖掘的对象是数据,数据的存在方式非常广泛。挖掘的对象可以有关系数据 库、文本数据库、w e b 信息以及多媒体数据库【1 6 j 。 ( 一) 关系数据库 现实世界存在各种事物( 也称为实体) ,事物与事物之间存在各种联系,数据模 型就是用来描述现实世界中的事物及其联系的。它将数据库中的数据按照一定的结构 组织起来,以反映事物本身及事物之间的各种联系。 任何一个数据库管理系统都是基于某种数据模型的,目前常用的数据模型有三 种:层次模型、网状模型和关系模型。与之相对应,数据库也分为三种基本类型:层 次型数据库、网状型数据库和关系型数据库。 由关系模型构成的数据库就是关系数据库。关系数据库由包含数据记录的多个数 据表组成,用户可在有相关数据的多个表之间建立相互联系。在关系数据库中,数据 被分散到不同的数据表中,以便使每一个表中的数据只记录一次,从而避免数据的重 复输入,减少冗余。关系数据库是数据挖掘最流行、最丰富的数据源,因此是数据挖 掘研究的主要数据形式。 ( 二) 文本数据库 文本数据库属于高级数据库,它存储的数据主要是对对象的文字描述,而且这种 文字描述不是简单的关键词,而是句子或短文,比如图书介绍、理论报告、笔记或其 他文档。文本数据库可以是非结构化的,可以是半结构化的,也可以是良结构化的。 一般采用关系数据库来实现具有良好结构的文本数据库。 对文本数据库的数据挖掘,需要将标准的数据挖掘技术与信息检索技术、文本数 据特有的层次结构以及面向学科的( 如图书馆学) 术语分类系统集成在一起。 ( 三) w e b 信息 随着网络的发展,网络的规模以近乎指数规律增长。在图书馆学领域,通过网络 共享馆藏信息,访问互联网上的馆藏数据查询信息已经成为图书馆管理学工作和科研 的必要内容。网页上的信息是非结构化的,现有搜索工具只能根据关键字搜索,不能 利用网页的上下文内容搜索。用户在输入关键字后,出来的网页鱼龙混杂,用户需要 自己剔除无用的信息,这占用了大量的时间,提供的帮助很有限。现在迫切需要解决 9 2 数据挖掘硕士论文 的问题是如何在众多的资源中,快速有效的找到需求信息。w e b 信息数据挖掘技术应 运而生,该技术可以采用特定的模式抽取信息,能够识别网页中数据隐含的规律。 ( 四) 多媒体数据库 由于多媒体对象的特殊性,用传统的关系模型难以描述多媒体信息和定义对多媒 体数据对象的操作,因此较多的采用语义模型的方法。关系模型主要描述的是数据结 构,而语义模型主要表达数据的语义。目前比较好的描述和建立多媒体数据对象的方 法是面向对象的方法,面向对象的主要概念包括对象、类、方法、消息、封装和继承 等,可以方便地描述复杂的多媒体信息。在搜索时,需要将多媒体数据的表示方法和 数据挖掘的方法集成,难点就是多媒体数据的存储及表示方法。 在数据库数十年的发展过程中,关系数据库取得了巨大的成功,现在已占据主流 地位。关系数据库系统也积累了大量的数据,因而关系数据库也是数据挖掘最主要的 研究对象。 2 3 数据挖掘的工具 数据挖掘工具根据其适用的范围分为两类:专用挖掘工具和通用挖掘工具【2 1 1 。 专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候 充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据 挖掘工具。例如,i b m 公司的a d v a n c e d s c o u t 系统【2 l j 针对n b a 的数据,帮助教练优 化战术组合。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为 针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知 识可靠度也比较高。 通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数 据类型。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常 见的数据类型。例如,i b m 公司a l m a d e n 研究中心开发的q u e s t 系统,s g i 公司开 发的m i n e s e t 系统,加拿大s i m o n f m s e r 大学开发的d b m i n e r 系统。通用的数据挖掘 工具可以做多种模式的挖掘,挖掘什么、采用何种标准来挖掘都由用户根据自己的应 用来选择。 2 4 本文所选用的数据挖掘技术 本论文主要是利用数据挖掘技术对高职院校图书馆借阅行为生成的数据信息进 行分析,特点是数据量大和关联性多,所以决定选用聚类分析法对数据进行预处理, 再通过关联规则分析找出数据之间的联系,从而指导高职院校图书馆的管理工作。 1 0 硕士论文数据挖掘技术在高职院校图书馆管理系统中的应用 3 高职院校图书馆管理系统需求分析 3 1 高职院校图书馆管理的必要性 本科院校一般都有比较悠久的历史,建馆时间长,馆藏资源丰富,藏书结构和借 阅服务体系都比较完善。而高职院校因为建院时间短,不管在藏书数量、藏书质量, 还是在读者服务方面,高职院校图书馆和本科院校图书馆之间存在较大的差距。 扬州环境资源职业技术学院前身为专科学校,于2 0 0 2 年和省内其它7 所中专同 一批次升格为大专。图书馆建设在这几年间突飞猛进,在职业技术学院中具有一定的 代表性和典型性。现在所使用的图书馆管理软件为“汇文图书管理系统”,是联机事 务处理系统,一般包括图书借出、图书还回、续借、图书查询等功能。虽然提供了一 些普通统计功能,比如统计每年馆藏结构,读者利用情况,以使管理者大致掌握图书 馆情况。但其统计结果并没有给管理者明确指出下一步应该制定什么样的相应对策, 对于图书馆提高利用率、提高服务质量没有起到指导作用。目前,9 0 的信息只是简 单的存储在数据库中,隐藏在数据库中的潜在信息被闲置,没有充分利用。比如:以 扬州环境资源职业技术学院图书馆2 0 0 1 年到2 0 0 8 年这8 年间的馆藏结构情况和读者 利用情况为例进行说明。 表3 12 0 0 1 年- 2 0 0 8 年馆藏结构情况 表3 - 22 0 0 1 年一2 0 0 8 年读者利用情况 3 高职院校图书馆管理系统需求分析硕士论文 从表3 - 1 中看出,2 0 0 1 年到2 0 0 8 年每年藏书种类和册数都直线上升,其中2 0 0 1 年到2 0 0 5 新馆建设阶段尤为明显。表3 - 2 中可以看到,同一阶段读者不管是人数还 是借阅册次数基本也呈现出直线上升状态。但仔细读表后发现,人均借阅册数2 0 0 6 年达到最高的2 3 7 0 册,到2 0 0 7 年和2 0 0 8 年分别下降为2 1 0 1 册和1 8 7 4 册。2 0 0 8 年读者借阅人数比上年增加了4 6 人,而借阅册次却从2 0 0 7 年的2 4 3 7 0 7 册减少为 2 1 8 3 2 7 册,减少了1 0 4 1 ,下降幅度较大。 学院花费大量经费和精力在图书馆建设中,希望利用图书馆在教书育人中不可替 代的作用,使学生在校阶段能够构建合理的知识结构,提高学生的使用信息能力和终 身学习的能力。但数据说明,花掉的经费和精力没有起到预期的结果。这对于不断建 设中的图书馆而言是个不利的信息。想要明白其中原因,光从数据表面难以看出,从 现有的普通管理系统( 汇文) 中也无从得知。 许多非常有价值的信息就隐藏在图书馆数据库中,从中能分析和挖掘出读者的现 在及未来需求,让管理者知道自己所拥有的资源被哪些读者所需要。当然,这些信息 都是隐藏的,无法直接得到,人力难以找到存在其中的规律。即使管理者觉得自己应 该摒弃原来的方式,而采用更为主动的服务,积极地为读者提供信息,但懂得从日常 借阅行为产生的海量数据中提取有价值的信息,也是件很困难的事。必须通过各种原 理和工具对数据进行分析和挖掘,才能使这些数据变成对每个馆员和决策者真正有用 的数据。这个服务方式对于大部分高职图书馆来说都是巨大的挑战。 3 2 高职院校图书馆管理系统的应用分析 通过以上的分析,高职院校图书馆管理系统应该在以下方面有所应用: 1 馆藏建设方面。 分析哪几类图书近期被频繁利用,根据读者需求变化有针对性的在文献采购中政 策性倾斜,提高馆藏建设的资金效益。通过数据挖掘技术,帮助采购人员不盲目购书 造成浪费,对各类图书进行及时增减。帮助编目员掌握新书上架的最佳时间,让读者 在最少的时间内找到自己最需要的文献资料。 2 排架管理方面。 目前高职院校图书馆基本都是按照中图法类别进行馆藏分布的,这样排架的优势 是读者可以迅速找到自己想要的某本文献,并同时可以很方便的发现同类图书。将同 类图书排放在一起,可能可以扩大对着对某类图书的阅读,但无法引起读者对其他类 图书的兴趣。这对于培养综合知识型人才是不利的。同时,严格按照分类号排架,就 必须为每类图书留下充足的新书空间,预留空间过大,造成空间浪费,预留空间不足, 对于图书的保管工作也不利,不停地整架和排序会导致图书迅速老旧直至破损不堪。 3 藏书利用率方面。 1 2 硕士论文数据挖掘技术在高职院校图书馆管理系统中的应用 在很多领域都有“- - j k 效应,同样也适用于图书馆。即2 0 的文献拥有8 0 0 , 6 的利 用率。高职院校图书馆藏书几十万册,并不是每一本都能为读者所利用。从表3 1 和3 - 2 中发现现有藏书利用率不高,2 0 0 8 年馆藏利用率只有6 3 6 8 。通过数据挖掘 技术,找出利用率最高的文献和利用率最低的文献,对热门馆藏进行扩充,对失去价 值的文献可以采用转赠等方式进行淘汰,优化馆藏结构,提高利用率。 4 个性化建设方面。 对于不同的读者群体,采用同一服务标准,造成想多读书的群体固于借阅本数和 借阅范围限制了读书的兴趣;惰性读者群体得不到正确的指导和宣传,读书观念得不 到改变,读书兴趣不高。可以通过挖掘各个群体的信息,得到有用的信息,比如:分 析借阅数据,对于活跃读者可以增加最多借阅本数,增大借阅权限:对于不活跃读者, 找到某一时期内最受欢迎图书,开设好书介绍栏目,进行好书介绍和推荐。此外,根 据读者的借阅习惯和读者在图书馆的连贯借阅行为以及借阅图书的类别,挖掘出图书 之间的关联性,在每位进馆读者的必经处设立专门的图书展读处,这样图书馆就能做 到变等待读者上门借阅为主动吸引每一位到馆读者利用图书馆资源。另外,还可以根 据各类图书的利用率和读者借书的时间特性,科学地制定各类读书节活动,有效地提 高图书馆的资源利用率,改善服务。 应用数据挖掘技术,可以分析图书馆数据库,根据读者借阅情况分析出哪几类图 书具有关联性,哪些读者借阅习惯相似,哪些图书更受欢迎等规律。据此,管理者可 以对合理文献采购、优化排架结构、提高馆藏利用率、高质量读者服务等工作制定正 确的策略,应用于图书馆日常工作,来有效促进图书馆的工作效率。进而可以使读者 妥善利用图书馆、正确的阅读,增加知识的积累、提高综合能力,更好的立足于当今 社会,成为综合型人才,进而促进学院和社会的发展。 1 3 4 聚类分析在高职院校图书馆管理中的应用硕士论文 4 聚类分析在高职院校图书馆管理系统中的应用 4 1 聚类分析的概念 聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使 得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同瞄】。按照 相似程度的大小,将事物( 样本、对象或变量) 逐一归类。 聚类分析是一种重要的人类行为。“物以类聚,人以群分一,人类认识世界往往从 将被认识的对象迸行分类而开始的,因此,聚类是一项最基本的认识活动。通过适当 聚类,事物才便与研究,事物的内部规律才可能为人类所掌握。聚类分析是用数学方 法研究和处理所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的 条件下进行分析的技术。 在数据挖掘中,如科学数据探测、信息检索、文本挖掘、空间数据库分析、w e b 数据分析、客户关系管理等方面聚类起着重要作用。生物学领域,聚类能帮助植物和 动物的分类推导,对基因进行分类,获得对种群中固有结构的认识。在经济学,聚类 能帮助市场分析人员从客户基本库中发现不同的客户群,分析他们的购买模式从而刻 画不同客户群的特征。聚类根据w e b 信息资源的特点,设定模式抽取,可以对已存在 的信息进行分类,以发现隐藏的规律。作为一个数据挖掘的工具,聚类分析可以获得 数据分布的情况,根据每个类的特点,集中对特定的某些类做进一步的分析。此外, 其他算法( 如特征和分类等) 的预处理部分可以通过聚类分析完成,这些算法再在分 析后的结果上进行处理。 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法,在多元数据 分析中占有重要地位。从机器学习的角度看,聚类是无监督的学习过程,由算法自动 找到这个分类属性值。从实际应用的角度看,聚类在经济学、生物学、气象学、医药 学、信息工程和工程技术领域都有重要应用。 聚类的严格数学描述如下田j : 被研究的样本集为e ,类c 定义为e 的一个非空子集,即ce e 且c 谚。聚类 就是满足c l u c 2 u c 3 u u c k = e 和c i n c i _ 谚( 对任意i :j ) 两个条件的类c l ,c 2 , c 3 ,c k 的集合。由第一个条件可知,样本集e 中的每个样本必定属于某一个类; 由第二个条件可知,样本集e 中的每个样本最多只属于一个类。 由聚类生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此地相 似,与其他簇中的对象相异瞄j 。 1 4 硕士论文 数据挖掘技术在高职院校图书馆管理系统中的应用 4 2 常用聚类算法的分类 主要的聚类算法可以划分为如下几类【2 4 】: 1 划分方法( p a r t i t i o nm e t h o d ) 给定一个n 个对象或元组的数据库,一个划分方法构建数据的k 个划分,每个划 分表示一个聚簇,并且k 称为项 目集( i t e m s e t ) ,其中i k 称为项目( i t e m ) 。( k = - i ,2 ,m ) 定义5 2 项目集的长度【l8 】:把一个项目集所包含的项目的个数称为此项目集的长 度或项目集的维数。长度为k 的项目集,称作k 维项目集。 定义5 3 支持度( s u p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论