(计算机应用技术专业论文)数据挖掘在数字图书馆个性化服务中的应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在数字图书馆个性化服务中的应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在数字图书馆个性化服务中的应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在数字图书馆个性化服务中的应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在数字图书馆个性化服务中的应用.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在数字图书馆个性化服务中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本文针对现有数字图书馆个性化服务系统存在着数据分析能力 欠缺、信息孤岛现象严重和个性化服务单一等问题,将数据仓库、联 机分析和数据挖掘技术引入到数字图书馆个性化服务系统,并结合计 算机网络技术,进行了深入的理论和实践研究。 论文运用数据仓库、联机分析处理和数据挖掘技术通过对读者、 资源以及读者对资源的访问等数据对象进行分析和挖掘,设计和实现 了一种基于关联挖掘和读者兴趣模型的个性化服务系统。该系统通过 对数据的关联分析和挖掘以及自动地识别读者兴趣来为读者提供个 性化的服务。论文的主要内容如下: ( 1 ) 采用新型决策支持系统的思想,设计出数字图书馆个性化服 务系统模型,模型中突出了对数据的分析和挖掘以及读者兴趣的自动 识别。 ( 2 ) 采用维度建模的方法,对读者、资源以及读者对资源的访问 三个主题进行了数据仓库逻辑模型设计。 ( 3 ) 对a p r i o r i t i d 算法进行了改进,算法采用事务压缩和项目 压缩相结合方法,候选项目集及支持度的计算是在每条事务压缩后通 过联接产生,候选项目集采用关键字识别,省去了a p r i o r i t i d 算法 中的剪枝和字符串模式匹配步骤,实验结果表明,改进的算法执行效 率明显优于a p r i o r i t i d 算法。 ( 4 ) 建立了资源访问的多维数据立方体,并利用a p r i o r i t i d 改 进算法对文献资源进行关联分析和挖掘,来分析资源的访问情况以及 读者对资源的访问关联。 ( 5 ) 设计与实现了基于资源多层分类树的读者兴趣模型,该模 型通过与读者的主动和被动交互,不断地接收读者的兴趣和推测读者 的兴趣,积累读者信息需求的偏好,从而实现自适应的个性化服务。 本文所作的研究工作,对数字图书馆个性化服务系统的建设和发 展打下了良好的基础。 关键词数据仓库,关联挖掘,读者兴趣模型,数字图书馆,个性化 服务 a b s t r a c t t os o l v et h ep r o b l e m si nt h et r a d i t i o n a lp e r s o n a l i z e ds e r v i c es y s t e m o fd i g i t a ll i b r a r y ,s u c ha sd e f i c i e n c yo f d a t aa n a l y s i s ,p h e n o m e n ao f i n f o r m a t i o na l o n ei s l a n d s ,a n ds i n g l e n e s so fp e r s o n a l i z e ds e r v i c e sm o d a l , e t c ,t h ep a p e r , i n t r o d u c i n gd a t aw a r e h o u s e ( d w ) ,o n - l i n ea n a l y t i c a l p r o c e s s i n g ( o l a p ) a n dd a t am i n i n g ( d m ) c o n c e p t st o g e t h e r w i t h n e t w o r kt e c h n o l o g y , c a r r i e st h r o u g hac o m p r e h e n s i v et h e o r e t i c a la n d e m p i r i c a ls t u d yo nd i g i t a ll i b r a r y t h e p a p e r ,w i t hd w ,o l a pa n dd mt e c h n i q u e sa d o p t e d ,h a s a n a l y z e da n dd e l v e di n t ot h ed a t ao fr e a d e r , r e s o u r c e s ,a n dt h ei n t e r v i e w s b e t w e e nt h e m ,a n dt h e nd e s i g n e da n dr e a l i z e da ni n d i v i d u a ls e r v i c e s y s t e mo fu n i v e r s i t yd i g i t a ll i b r a r yb a s e do nt h ea s s o c i a t i o na n a l y s i sa n d r e a d e ri n t e r e s tm o d e l s ,t h es y s t e ma n a l y z e st h ed a t aa n di d e n t i f i e s r e a d e r s i n t e r e s t sb e f o r ep r o v i d i n gt h e mw i t hp e r s o n a l i z e ds e r v i c e s t h e m a i nc o n t e n t so ft h i sd i s s e r t a t i o na r es u m m a r i z e da sf o l l o w s : ( 1 ) a d o p ta n e wd e c i s i o ns u p p o r ts y s t e m ( d s y ) t od e s i g nt h e m o d e lo ft h ep e r s o n a l i z e ds e r v i c es y s t e m ,w h i c he m p h a s i z e sa n a l y z i n g r e s o u r c e sa n di d e n t i f y i n gr e a d e r s i n t e r e s t s ,i na d i g i t a ll i b r a r y ( 2 ) a d o p t ad i m e n s i o n m o d e l i n gm e t h o dt od e s i g nt h ed a t a w a r e h o u s el o g i c a lm o d eb a s e do ns u c ht h r e es u b j e c t sa sr e a d e ra n a l y s i s , r e s o u r c ea n a l y s i sa n di n t e r v i e wa n a l y s i s ( 3 ) p u tf o r w a r da ne n h a n c e da l g o r i t h m ,w h i c ha s s o c i a t e sa p r i o r i t i d w i t ht r a n s a c t i o nr e d u c t i o na n di t e mr e d u c t i o nt e c h n i q u e i nt h i sa l g o r i t h m , c a n d i d a t es e tg e n e r a t i o na n dt h es u p p o r tc a l c u l a t i o no fe a c hi t e ms e ti s c r e a t e da f t e re a c ht r a n s a c t i o ni s c o m p r e s s e da n dc o n n e c t e d a st h e c a n d i d a t es e ta d o p t sk e yw o r d st o i d e n t i f y i nt h i sa l g o r i t h m ,t h u st h e p r o c e s s o fp r u n i n ga n ds t r i n gp a t t e r nm a t c h i n gi sr e m o v e df r o m a p r i o r i t i da l g o r i t h m i t i ss h o w n ,f r o mt h er e s u l t so ft e s t s ,t h a tt h e a l g o r i t h mo u t p e r f o r m sa p r i o r i t i da l g o r i t h m ( 4 ) e s t a b l i s ham u l t i d i m e n s i o n a ld a t ac u b eo fi n f o r m a t i o na n du s e t h ea p r i o r i t i de n h a n c e da l g o r i t h mt oa n a l y z ed o c u m e n tr e s o u r c e sf o r a n a l y z i n gr e s o u r c ei n t e r v i e w sa n dt h ea s s o c i a t i o nb e t w e e nr e a d e r sa n d r e s o u r c e r i i ( 5 ) d e s i g na n dr e a l i z ear e a d e ri n t e r e s tm o d e lb a s e do nar e s o u r c e c l a s s i f i c a t i o nt r e e ,w h i c h ,t h r o u g ha c t i v ea n dp a s s i v ei n t e r a c t i o nw i t ha r e a d e r , c o n s t a n t l yr e c e i v e sa n ds p e c u l a t e st h e r e a d e r s i n t e r e s t ,a n d a c c u m u l a t e st h er e a d e r si n f o r m a t i o nr e q u i r e m e n tb i a s ,t h u sr e a l i z i n g s e l f - a d a p t i v ep e r s o n a l i z e ds e r v i c ei nd i g i t a ll i b r a r y t h er e s e a r c hw o r ki nt h i sd i s s e r t a t i o nh a sl a i da g o o df o u n d a t i o nf o r t h ec o n s t r u c t i o na n dd e v e l o p m e n to ft h ep e r s o n a l i z e ds e r v i c es y s t e mo fa d i g i t a ll i b r a r y k e yw o r d sd a t a w a r e h o u s e ,d a t am i n i n g ,r e a d e ri n t e r e s tm o d e l , d i g i t a ll i b r a r y , p e r s o n a l i z e ds e r v i c e s i i i 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共 同工作的同志对本研究所作的贡献均已在在论文中作了明确的说明。 嚣釜篓日日期:丛坐年上月j 丛日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名: 导师签名: 日期: 中南大学硕士学位论文第一章绪论 1 1技术背景 第一章绪论 随着计算机技术和通讯技术的不断发展,人们对信息的需求越来越高,已不 满足于计算机能帮助他们迅速处理具体业务,而是需要从大量业务数据中探索出 业务活动的规律、市场的运作趋势,并为他们参与市场竞争中做出重要的决策。 但是,常规的数据库管理系统因自身的局限性,已无法满足对较大规模决策支持 数据的分析。决策支持系统在数据的处理、组织与管理方面与信息管理系统有很 大差别,它除了通过对历史与现状信息、系统内与系统外的数据进行加工处理, 掌握尽可能多且真实准确的情报,进而发现问题外,还要产生如预测结果、决策 方案的实施条件与产生的后果及影响等增值数据。 在2 0 世纪9 0 年代初,一种适用于决策支持系统的数据组织与管理技术应运 而生,这就是数据仓库技术i l 】( d a t aw a r e h o u s e ,d w ) 技术。它们不仅被理论界 和学术界视为是对数据库技术和人工智能技术的重大发展,而且也被企业界看作 是能够为其带来巨大社会效益和经济效益的应用领域。目前,一些主要的数据库 厂商( 如i b m 、o r a c l e 等) 业已开发出支持数据仓库产品。 虽然数据仓库技术的发展,为决策支持带来了可喜的变化,但是随着信息总 量的不断增加,迫切需要有效的分析工具,来发现大量数据问隐藏的依赖关系, 从大量数据中抽取有用的信息或知识。尽管很早就出现了简单的数据统计技术和 随着数据仓库同时发展的联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 技术,但它们不能够解决这些问题。由于缺乏强有力的数据分析工具,导致了“数 据丰富,但信息贫乏”的现象。 数据挖掘技术1 2 ( d a t am i n i n g ,d m ) 旨在能从大型数据库中提取隐藏的预测 性信息,又称知识发现。它能发掘数据间潜在的模式,找出企业经营者可能忽视 的信息,以便于理解和观察的形式反映给用户,并为企业做出基于知识的决策参 考意见。目前国际上在该领域的研究相当活跃,无论在理论上,还是实用技术上 都取得了喜人的成果,同时也开发出了各种专用或通用的商业数据挖掘软件。 目前,数据仓库和数据挖掘以及联机分析处理,三者的有效结合,被认为是 一种新型的决策支持系统i “。虽然很多领域都有产品出现,但遗憾的是在图书馆 的应用领域,提供决策支持的相关产品还未出现。 中南大学硕士学位论文第一章绪论 1 2 课题研究意义和目的 数据挖掘技术在数字图书馆( d i g i t a ll i b r a r y ,d l ) 【3 】个性化服务中的研究 和实践是i t 行业新兴起的一个交叉研究领域。本课题是依托中南大学数字图书 馆建设“2 1 1 工程”和“9 8 5 计划”项目进行研究。 数字图书馆个性化服务 4 1 包括个性化和主动两个方面。个性化服务是对不同 的用户采用不同的服务策略,提供不同的服务内容。主动服务则是指很少需要或 不需要用户做什么,而是由系统自动按照用户的信息需求提供相应的服务。个性 化主动服务将使用户能以最小的努力获得尽可能好的服务。 图书馆作为信息资源收集、加工和服务的中心,随着信息技术的不断发展, 在图书馆积累了丰富的数字信息资源。图书馆的数据库系统可以高效地实现数据 的录入、查询、统计等功能,但无法发现数据间存在的关系和规则,无法根据现 有的数据预测读者的信息需求,缺乏挖掘数据背后隐藏的知识的手段,以致无法 为读者提供更为方便、快捷和高效的服务。 在数字图书馆服务中,我们考虑采用数据仓库、数据挖掘和联机分析处理技 术,对读者、资源以及读者对资源的访问等数据进行分析和挖掘,从中发现读者 兴趣和资源的关联,来为读者开展个性化服务,有着重要的理论和实践意义,主 要表现在以下几个方面。 采访服务:信息资源的收集是为读者提供服务的基础,通过分析历史采购信 息、读者信息、资源流通和阅览信息、读者反馈信息以及来自外部的各种学科发 展信息的基础上深入了解学科的走势和读者的需求,帮助采购人员确定采购重 点,保障图书馆信息资源体系的科学性和合理性,以及采购资金的合理分配,来 为信息资源的采集提供决策服务。 咨询服务:图书馆的咨询服务由原来读者与馆员面对面的咨询发展到数字图 书馆的网络虚拟咨询。通过网络,读者除了可以从咨询馆员或专家哪里获取信息 之外,还可以进入知识库,获取自助式的服务。其中知识库的建立需要运用数据 挖掘的方法对历史数据进行分析,挖掘出隐藏其中的规律信息,形成满足用户需 求的深层次信息产品。另一方面,还可以根据读者的历史咨询及访问信息,分析 出他们的研究方向和兴趣所在,变被动咨询为主动咨询。 资源分析:通过对数字图书馆的各种数字信息资源进行分类后,从不同的视 角来观察资源的配置及利用情况。分类的角度可以从学科专业( 如中图法图书分 类) 、馆藏分布、文献类型、语种、年代等进行划分,来分析资源的配置、利用 率、使用价值以及不同学科之间的关联,为采访、咨询和服务等的决策提供科学 依据。 中南大学硕士学位论文第一章绪论 读者服务:主要是对读者群体进行分类后,从不同的视角分析读者对资源的 利用情况。划分的角度可以按照读者本身的自然属性,如读者性别、年龄段、年 级、学历、院系、专业等。对信息资源借阅历史进行比较分析,识别读者的兴趣、 发现潜在的访问规则等,例如,如果发现有很多读者访问了a 文献也会访问b 文献,则对访问a 文献的读者,我们可以将b 文献推荐给他。又如,根据同 学科的读者对不同学科资源的访问或同一学科的资源被不同类型读者的访问,来 发现学科之间的关联和读者的关联。 另外,通过对历史访问数据和读者兴趣的分析和挖掘,预测读者的资源需求, 在读者下一次访问时,使用所挖掘的信息,动态地提供个性化w e b 页面,这也 就是为读者提供“自适应个性化服务”。 1 3 国内外研究现状 1 31 国外研究现状 美国于1 9 9 1 年率先开始数字图书馆的研究,其后,英国、法国、日本、德 国、意大利等国也相继斥巨资进行数字图书馆研究口,5 】。在数字图书馆个性化信 息服务方面,这些国家同样也先行一步。目前,个性化数字图书馆在国外已经形 成了初步成果,进入实际应用阶段。比较完善的数字图书馆个性化服务系统主要 有美国康奈尔大学图书馆的m y l b r a r y1 6 j 。 1 9 9 8 年,美国康奈尔大学图书馆在调查分析的基础上,开发了网络个性化 服务平台m y l i b r a r y 系统,并于1 9 9 9 年投入使用。该系统由个性化链接( m y l i n k s ) 和个性化更新( m y u p d a t e s ) 两个部分组成,用户可以通过m y l i n k s 收集和组织自 己常用的电子资源,这些资源既可以来自康奈尔大学图书馆的网络门户,也可以 来自互联网的其他任何地方,类似于用户的个性化主页;m y u p d a t e s 每周向用户 提供符合其个人需要的新书、期刊和其他加入到图书馆目录中的媒体通告,用户 无需为查找最新的资料而耗费时间,相关资料会主动持续地找到相应的用户1 6 1 7 】。 其设计是一种基于定制的方法。 除了最早的康奈尔大学图书馆,美国华盛顿大学、北卡州立大学图书馆、加 州数字图书馆、新加坡国立图书馆等都相继采用信息定制和推送等方式开发了自 己的网络个性化服务系统,并收到了良好的应用效果【8 j 。 1 3 2 国内研究现状 我国数字图书馆的研究与建设真正始于2 0 世纪9 0 年代后期,在数字图书馆 中南大学硕士学位论文第一章绪论 个性化定制服务领域,和其他发达国家相比,存在着一定的差距。 最早在1 9 9 9 年底,国家科技部支持的“中国数字图书馆示范系统”项目1 9 1 中就提到了数字图书馆的个性化服务问题;2 0 0 0 年初,社会科学基金资助的“基 于w e b 的数字图书馆定制服务系统”项目【l0 】开始研究开发实用的数字图书馆个 性化定制系统,该项目是由北京大学信息管理系余锦风教授负责承担的;2 0 0 2 年1 0 月开始的中国数字图书馆标准规范建设科技基础性工作专项资金重点 项目f i l l 在近年也着手开始制定数字图书馆服务标准规范:正在实施的国家8 6 3 计划“中国数字图书馆工程”【”】提出了把数据仓库技术应用到数字图书馆建设中, 工程的一个重要部分就包括建立分布式存储、集中式管理的大型数据仓库,并对 其进行智能化的管理与挖掘,再通过个性化和智能化的人机交互界面实现网络信 息服务。 目前,国内数字图书馆个性化服务的应用仍处于初始的探索阶段,一些相关 的项目、课题仍在进展中,但个性化服务也得到了一些初步的应用。 投入实用的个性化服务系统有深圳市图书馆开发的i l a s i i 图书馆自动化集 成系统捆绑的个性化服务子系统,这套系统是在2 0 0 0 年初推出的,专门为图书 馆用户提供个性化的服务。用户登录后,除了用户可以得到书目查询、新书通报、 联合目录等普通的服务外,系统还能够根据用户的兴趣爱好列出其感兴趣的新 书。与国外的数字图书馆个人性化服务系统相比,该系统的个性化特征相对要差 得多,其个性化服务的资源有限,只限于书目。其服务功能有待于进一步提高和 完善。 在2 0 0 2 年,中国科学院国家科学数字图书馆推出了自己的个性化服务系统 ”3 l ,它是一个用户驱动的个性化集成定制门户。系统向用户提供对虚拟资源集 合的个性化定制功能,目的是根据用户的学科、偏好等特征,通过用户定制、系 统推荐和推送功能,为用户提供个性化的信息服务,减少用户在信息使用过程中 信息过载的困扰。 较之西方国家,我国的数字图书馆技术与应用基础薄弱,起步较晚,网络个 性化服务发展更是滞后,相比之下主要有以下几点不足: ( 1 ) 应用规模小,图书馆网络个性化服务应用还是少数、探索性质的。 ( 2 ) 应用水平低,网络个性化服务比较简单,般只包含一些简单的查询 服务和信息的定制,形式也比较单一,数据分析能力欠缺。 ( 3 ) 应用的资源面不广,信息孤岛现象严重,信息资源处于异构的环境之 中,缺乏统一的检索和管理平台。 ( 4 ) 应用效果不明显,一方面用户不习惯现有的网络个性化服务,需要进行 市场培养,另一方面,数字图书馆网站的在个性化服务方面建设不足,经常有流 中南大学硕士学位论文 第一章绪论 于形式的情况。 未来图书馆的发展趋势是数字化【3 “】,鉴于数据仓库、数据挖掘和联机分析 处理技术在数据的组织、分析与知识发现等方面存在的巨大潜力,学术界普遍认 为其可为数字图书馆的个性化服务提供关键技术。 1 4 研究方法 本文采用理论与实践相结合的研究方法,应用数据仓库、数据挖掘和联机分 析处理技术,根据数字图书馆个性化服务系统需求,进行数字图书馆个性化服务 系统结构和数据仓库模型设计。建立多维数据立方体,运用关联规则挖掘算法发 现读者对信息资源的访问模式。根据读者对资源的访问和资源之间的关联设计出 读者兴趣模型,结合生成的模式和读者兴趣来设计数字图书馆个性化服务系统。 在理论上深入分析关联挖掘a p r i o r i t i d 算法( 2 j 以及对其改进后的优势所在。采用 数据挖掘查询语言 1 5 l ( d a t am i n i n gq u e r yl a n g u a g e ,d m q l ) 来实现数据仓库模 型和挖掘模型,采用j 2 e e 架构对个性化系统进行设计。 1 5 本文的工作和论文组织 本文主要工作和创新点: ( 1 ) 采用新型决策支持系统的思想,设计出数字图书馆个性化服务系统模 型,模型中突出了对数据的分析和挖掘以及读者兴趣的自动识别。 f 2 ) 采用维度建模的方法,对读者、资源以及读者对资源的访问三个主题进 行了数据仓库逻辑模型设计,以及对数据提取、转换和装载( e x t r a c tt r a n s f o r m l o a d ,e t l ) 策略,粒度和分割策略的研究分析。 ( 3 ) 提出一种基于事务压缩和项目压缩相结合a p r i o r i t i d 改进算法,本算法 中候选项目集及支持度计算是在每条事务压缩后通过联接产生,候选项目集采用 关键字识别,省去了a p r i o r i t i d 算法中的剪枝和字符串模式匹配步骤,实验结果 表明,改进的算法执行效率明显优于a 州o r i t i d 算法。 ( 4 ) 建立了资源访问的多维数据立方体,并对文献资源进行关联分析和挖 掘,来分析资源的访问情况以及读者对资源的访问关联。 ( 5 ) 设计与实现了基于资源多层分类树的读者兴趣模型,该模型通过与读 者的主动和被动交互,不断地接收读者的兴趣和推测读者的兴趣,积累读者信息 需求的偏好,从而实现自适应的个性化服务。 ( 6 ) 对数字图书馆个性化服务系统进行了初步的设计,采用基于j 2 e e 四层 皇查盔堂堡主兰堡坠苎釜二童堑笙 体系结构,运用j s p 、s e r v l e t 和j a v a b e a n s ,实现了信息的统一检索以及基于读 者兴趣的相关检索。 本文的组织思路: 数字图书馆个性化服务系统的设计,首先要分析出读者的兴趣和访问资源的 模式或关联,这些信息的获取是通过对读者历史访问信息的分析和挖掘,而数据 仓库、联机分析和数据挖掘技术的新型决策支持系统为这些信息分析和挖掘提供 了技术支持。按照这个思路,木文各章的组织如下: 第一章介绍本论文的课题来源、国内外研究现状、研究目的和意义以及论文 的工作和组织。 在第二章中主要阐述了基于数据仓库、数据挖掘和联机分析处理的新型决策 支持系统的体系结构,接着在第三章中对数字图书馆的特征,个性化服务系统的 特点及服务方式作了分析,并设计出基于新型决策支持系统的数字图书馆个性化 服务系统体系结构。 第四章:简要介绍了数据仓库设计的开发方法和开发的基本过程,并根据数 字图书馆个性化服务的需求,采用维度建模的方法,设计出读者、资源和读者对 资源的访问三个主题在数据仓库中的逻辑模型,以及分析其数据e t l 策略,粒 度和分割策略,为数据的分析和挖掘作准备。 第五章对关联规则挖掘作了分析,提出一种基于事务压缩和项目压缩相结合 a p r i o r i t i d 改进算法,算法中候选项目集及支持度计算是在每条事务压缩后通过 联接产生,候选项目集采用关键字识别,省去了a p r i o r i t i d 算法中的剪枝和字符 串模式匹配步骤,实验结果表明,改进的算法执行效率明显优于a p f i o f i t i d 算法。 第六章作为本文的重点,对数字图书馆个性化服务模型作了详细的分析,在 所建立的数据仓库基础上,对文献资源进行了关联规则的分析和挖掘,并设计出 基于资源分类树的读者兴趣模型,通过实验表明,此模型能有效的发现读者对文 献资源兴趣。最后,对数字图书馆个性化服务系统进行了初步的设计,采用基于 j 2 e e 四层体系结构,运用j s p 、s e r v l e t 和j a v a b e a n s 组件技术,初步实现了基于 文献相关性和读者兴趣的检索系统。 最后在结束语中对本文进行了总结,本文的研究工作为建立数字图书馆个性 化服务系统打下了良好的基础,但要构建一个个性化服务平台并为读者服务,还 有许多问题值得研究,以后的工作是对数字图书馆个性化服务理论进一步研究的 同时,采用计算机相关技术来搭建数字图书馆个性化服务平台,为读者提供个性 化的服务。 中南大学硕士学位论文 第二章新型决策支持系统 第二章新型决策支持系统 新型决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 是基于数据仓库、联 机分析处理和数据挖掘技术的商业智能系统,通过数据采集、转换、分析和挖 掘的一整套解决方案,来为企业提供决策支持。本章介绍数据仓库、联机分析 处理和数据挖掘技术,以及它们在新型决策支持系统中基本框架和研究进展。 2 1决策支持技术的发展 自从计算机用于信息处理以后,信息处理大致经历了数据处理系统、管理信 息系统和决策支持系统等阶段“”。信息处理逐步从集中式走向分布式,由孤立系 统转向集成系统,由部门职能管理发展为企业决策支持。二十世纪八十年代初, 关系数据库技术日益成熟,决策支持研究得到了进一步深化。八十年代后期,决 策支持系统与专家系统结合,出现了智能决策支持系统的研究热潮。然而,决策 支持系统也面临着其发展上的巨大障碍,投入应用的成功实例并不多。主要原因 有以下几个方面:1 ) 决策支持涉及大量历史数据和半结构化问题,而在传统数据 库管理系统基础上建立决策支持系统只能提供辅助决策过程中的数据级支持,难 以求解复杂的半结构化决策问题。2 ) 决策支持系统以集成数据为基础,然而现实 中的数据往往分散管理且大多分布于异构的数据平台,数据集成不易。3 ) 决策支 持系统的建立需要对数据、模型、知识和接口进行集成,而数据库语言数值计算 能力较低,因而采用数据库管理技术建立决策支持系统知识表达和知识综合能力 比较薄弱,难以满足人们日益提高的决策要求。 随着信息系统的广泛应用,企业积累了大旦的事务数据,如何把这大量的数 据有效地利用起来,把它转化成有用的知识,使之有效地支持决策,这成为了研 究热点。九十年代初,数据仓库技术的发展给以上问题的解决带来了新的契机。 d w 将来自各个数据库的信息进行集成,从事物的历史和发展的角度来组织和存储 数据,供用户进行数据分析,并辅助决策支持。随之发展的联机分析处理和随后 发展的数据挖掘技术,是作用于d w 之上的分析工具,它们很快成为决策支持的新 型应用领域”。”1 。 2 2 新型的决策支持系统的基本结构 d w 、o l a p 和d m 是三种相互独立又相互关联的技术“。d w 是从数据库技 中南大学硕士学位论文 第二章新型决策支持系统 术发展中出现的一种为决策服务的数据组织、存储技术。d w 由基本数据、历史 数据、综合数据和元数据组成,能提供综合分析、时间趋势分析等决策信息。 o l a p 是对多维数据进行分析的技术。由于大量数据集中于多维空间中,o l a p 技术提供从多视角分析途径获取用户所需要的辅助决策的分析数据。d m 对数据 库或d w 中的数据使用一系列方法进行挖掘、分析,从中识别和抽取隐含的、潜 在的有用信息,并利用这些技术进行辅助决策。联机分析挖掘 1 9 1 ( o n l i n e a n a l y t i c a lm i n i n g ,o l a m ) 是通过d m 和o l a p 有效结合而形成的技术。 他们从各自不同的角度辅助决策。d w 是基础,o l a p 和d m 是两种不同的分 析工具,三者的结合使辅助决策能力提高,这是一种新型的决策系统【1 8 】,它的结 构如图2 1 所示。通过元数据来支持和管理系统。 2 3 数据仓库 图2 - 1 新型决策支持系统基本结构 2 3 1 数据仓库的基本概念 数据仓库创始人w h i n m o n 在他所著的建立数据仓库一书中对数据仓 库所下的定义为:数据仓库就是用于管理决策支持的面向主题、集成、稳定、 随时间变化的数据集合【1 1 。 ( 1 ) 面向主题 业务系统是以优化事务处理的方式来构造数据结构,对于某个主题的数据 常常分布在不同的业务数据库中。这对于决策支持来说是极为不利的,因为这 意味着访问某个主题的数据实际上需要去访问多个分布在不同数据库中的数据 决策信息反馈到业务系统中 中南大学硕士学位论文 第二章新型决策支持系统 集合。数据仓库将这些数据集中于一个地方,对应某个主题的全部数据被存放 在同一数据库中,这样决策者可以非常方便地在数据仓库中的一个位置检索包 含某个主题的所有数据。可使应用程序访问数据的效率更高。 f 2 ) 数据的集成性 是指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,而是 经过系统加工、汇总和整理,保证数据仓库内的信息是一致的全局信息。全面 而正确的数据是有效地分析和决策的首要前提,相关数据收集得越完整,得到 的结果就越可靠。而当前绝大多数企事业单位内现有的业务数据库系统中的数 据是分散而非集成的,造成这种分散的原因很多,主要有事务处理应用分散、 数据处于异构环境、外部数据和非结构化数据等。要实现数据的集成,就必须 对数据进行清洗和转化。 ( 3 ) 数据的稳定性 业务数据库系统中一般保存的是当前状态的数据,数据会随时间而发生变 化,是动态的、不稳定的,它记录的是系统中每一个变化的瞬态。 但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量 的历史数据为依托。数据仓库可以看成是一个虚拟的只读数据库系统。数据一 旦被写入,就不再从系统中删除,一般情况下将被长期保留,也就是数据仓库 中一般有大量的插入和查询操作,但修改和删除操作很少。也就是说,数据仓 库中的数据相对业务系统来说是稳定的。 ( 4 ) 数据随时间变化的特点 数据仓库数据的稳定性是针对应用而言,即用户进行分析处理时不对数据 进行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中 的数据是随时间变化而定期地被更新,每隔段固定的时间间隔后,运作数据 库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本 仍被保留在数据仓库中,如同“定期摄影术”,每隔一周、一月或适当的间隔就 照一张像。随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势 分析的要求。当数据超过数据仓库的存储期限,或对分析不在有用时,这些数 据才从数据仓库中删去。 关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数据 仓库维护工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护, 用户不必关心数掘仓库如何被更新的细节。 中南大学硕士学位论文第二章新型决策支持系统 2 3 2 数据仓库的体系结构 一个完整的d w 应当具备建立、管理和使用的全部成分,d w 结构上可分为: 数据源、后端加工、前端服务以及数据仓库的管理【2 0 】。 数据源为d w 提供源数据,如各种生产系统数据库、联机事务处理的事务数 据、外部数据源等都可作为d w 的数据源。 后端加工工具即数据e t l ( 抽取、转换、装载) :其功能是从数据源中抽取 数据,对数据进行检验和整理,并根据d w 的设计要求,对数据进行重新组织和 加工,装载到d w 的目标数据库中,并且可以周期性地刷新d w 以反映源的变化 以及将d w 中的数据作转储。 数据仓库管理主要是通过元数据来实现的,元数据仓储用于存储数据模型和 元数据,其中,元数据描述了d w 中源数据和目标数据本身的信息,定义了从源 数据到目标数据的转换过程,这些可以通过数据建模工具管理以适应企业业务的 发展,来满足企业决策和综合分析的需要;d w 监控和管理工具对d w 的运行提 供监控和管理手段,包括系统资源的使用情况、用户操作的合法性、安全管理、 存储管理等多方面的内容。d w 存储经检验、整理、加工和重新组织后的数据, 它可以是关系数据库或多维数据库。 前端工具主要是d m 工具和o l a p 分析工具,这些工具从数据仓库获取数据 通过o l a p 服务器,o l a p 服务器存储数据立方体,它是功能强大的多用户的数 据操纵引擎,特别用来支持和操作多维数据结构。 2 4 联机分析处理 2 4 1 o i _ a p 的基本概念 0 l a p 是一类以d w 为基础的客户朋务器方式软件技术f 2 ”,主要功能是深 入了解事务,并作出总结性分析,以可视化的方式呈现给用户。0 l a p 主要有 两个特点【2 “,一是在线性,体现为对用户请求的快速响应和交互式操作,它的 实现是由客户服务器这种体系结构来完成的:二是多维分析,这也是0 l a p 技 术的核心所在。 目前,针对o l a p 技术的研究领域相当活跃,对o l a p 的理解也不断深入。 有人提出了o l a p 的更为简洁的定义,如n i g e lp e n d s e 提出的f a s m i t 3 1 ( f a s t a n a l y s i so f s h a r e dm u l t i d i m e n s i o n a li n f o r m a t i o n ) 。他将o l a p 所满足的特点用 五个词来描述:f a s t ( 对用户请求的快速响应) ,a n a l y s i s ( 可以应用多种统计分 中南大学硕士学位论文 第二章新型决策支持系统 析工具和算法对数据进行分析) ,s h a r e d ( 多个用户同时存取数据时,能保证 系统的安全性) ,m u l t i d i m e n s i o n a l ( 体现了o l a p 应用多维的实质) , i n f o r n l a t i o n ( 指应用所需的数据及其导出信息) 。以上是对o l a p 的一个简单定 义,其所涉及的几个基本概念如下: ( 1 ) 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集 合构成一个维( 如时间维、地理维等) 。 ( 2 ) 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细节 程度不同的各个描述方面( 如时间维:日期、月份、季度、年) 。 ( 3 ) 维的成员:维的一个取值。是数据项在某维中位置的描述。( “某年某 月某日”是在时间维上位蚤的描述1 。 ( 4 ) 多维数组:维和变量的组合表示。一个多维数组可以表示为:( 维1 , 维2 ,维n ,变量) ,如,( 时间,地区,产品,销售额) 。 ( 5 ) 数据单元( 单元格) :多维数组的具体取值,如,( 2 0 0 0 年1 月,上海, 笔记本电脑,$ 1 0 0 0 0 0 ) 。 2 4 2o k a p 的基本分析动作 o l a p 分析主要是通过对多维组织后的数据进行切片、切块、聚合、钻取、 旋转等分析动作y , 2 1 1 ,以求剖析数据,使用户能够从多种维度、多个侧面、多 种数据综合度查看数据,从而了解数据背后蕴含的规律。 ( 1 1 数据切片( s l i c e ) 多维数据数组是由多个维度组成的,如果在某一维度i 上选定一个取值, 则多维数据就从n 维下降成了n l 维,我们称多维数组的子集( 维度l 、维度 2 、维度i 、维度n ,度量变量) 为多维数组在维度i 上的切片。 ( 2 1 数据切块( d i c e ) 数据切块就是将完整的数据立方体切取一部份数据而得到的新的数据立方 体。选定多维数组( 维度1 、维度2 、维度i 、维度n ,度量变量) 中若干维度( 通常是3 个维度) 的取值范围,从而形成了多维数据的子集( 维 度1 、维度2 、a i 维度i b 1 、a 2 维度j b 2 、a 3 维度k 电 图4 - 5 数字图书馆服务关系 为了更好地为读者提高服务质量和资源的利用率,我们需要在了解信息资源 和读者的特征以及服务的情况下,进行读者、资源及访问情况的功能需求分析。 4 4 1 读者分析的功能需求 数字图书馆服务的对象是读者,要吸引读者并留住读者,首先必须要了解读 者。读者分析的目的是根据其的属性( 包括自然属性和行为属性) ,从不同角度 深层次分析读者,从而达到了解读者的行为特征,来针对不同的类型读者采取不 同服务策略。 表4 - 1 根据信息读者的相关属性列出了读者分析的功能需求。 直盔兰堡主兰垡笙塞 星凹童壑主目兰堕塑堡垒壁丕丝堡:! 士 表4 - 1 读者分析功能需求 读者分析读者爿i 同属性的功能需求分析 功能名称功能描述度量 涉及维度维成员 读者特征 读者性别构成不同性别的读读者数量、访问 读者性别男 者数量及使用次数、查阅文献 女 情况数、服务费用 未知 读者年龄层次 j ;同年龄段读读者数量、数量读者年龄段1 8 以下 者数量及使用百分比、访问次 1 8 2 2 情况数、查阅文献 2 2 2 5 数、服务费用 2 5 3 0 3 0 一3 5 2 5 4 0 4 0 5 0 5 0 以上 读者文化程度结构不同文化程度读者数量、数量读者文化程度 博士研究生 的读者数量及百分比、访问次硕士研究生 使用情况数、查阅文献大学本科生 数、服务费用 大专 中专 高中 其它 读者职称结构不同职称的读读者数量、访问读者职称初级 者数量及使用次数、查阅文献 中级 情况 数、服务费用 副高级 正高级 其它 读者职务结构不同职务的读读者数量、访问读者职务尤 者数量及使用次数、查阅文献副科级 情况数、服务费用 正科级 副处级 正处级 读者专业结构不同专业的读读者数量、访问读者专业学科分类 者总量及访问次数、查阅文献 情况数、服务费用 读者办证时间不同年份在数读者数量、访问时间年月日 字图书馆开户次数、查阅文献 的读者情况分数、服务费用 析 在校读者年级层次 不同年级的在 读者数量、访问 年级一、二、三、四、 校读者总量及次数、查阅文献其它 使用情况 数、服务费用 中南大学硕士学位论文 第四章数字图书馆数据仓库系统设计 继表 功能名称 功能描述 度量 涉及维度 维成员 读者单位不同单位的读读者数量、访问单位单位名称列表 者数量及使用次数、查阅文献 情况分析 数、服务费用 服务收赞类型不同服务类型读者数量、访问读者服务类型免费 的读者数量及次数、查阅文献收费 费用。数、服务费用 读者兴趣分析根据读者对文 献的访问,分析 读者对不同学 科文献的兴趣 4 4 2 资源分析功能需求 数字资源是数字图书馆服务的基础,其基本单元是数字对象。在图书馆领域 数字对象的属性一般采用d c ( 都柏林核心元数据) 来进行描述。根据对资源的 特征来以及资源的利用情况进行分析和预测,总结出其功能需求如表4 2 所示。 中南大学硕士学位论文第四章数字图书馆数据仓库系统设计 表4 - 2 资源分析功能需求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论