




已阅读5页,还剩68页未读, 继续免费阅读
(计算机应用技术专业论文)基于web的科研管理与决策支持系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北方上业大学硕士学位论文 摘要 随着社会的发展和计算机存储信息量的激增,从大量数据中提取用于制定决策的信 息显得越来越重要。如何从数据中分析和挖掘出对企业业务管弹、客户关系管理等有用 的信息,成为用户们所面临的现实问题,也成为近儿年来计算机技术最活跃的研究领域 之。基于数据仓库的决策支持及相关技术不但在零售业、银行业、电信业得到了广泛 的应用,而且在其他领域也得到了相当成功的应用。 随着高等教育的快速发展,高等学校的科研工作越来越受到重视。为了挖掘高校潜 力,开展科研工作,更好地促进教育教学水平的提高,为社会经济的建设和发展服务, 高校领导和各级主管部门经常需要对学校科研数据进行多角度、多层次的分析,在此基 础上进行科学决策。 本文针对我校科研处的具体情况,首先完成了科研管理系统的设计,并在此基础 上,结合数据仓库、o l a p 等技术,实现了一个基于w e b 的科研管理与决策支持系统, 对我校的科研数据迸行分析预测,指导下一步的科研工作。系统以w e b 方式在学校校园 嘲巾实现信息共享,使学校领导、主管部门和学院负责人及教师在不同权限下进行数据 录入、管理和查询,并能够多角度、多层次分析展示科研数据,从而进行科学决策。近 半年的实际使用证明,该系统大大提高了我校的科研管理和决策支持水平。 关键词:科研管理w e b数据库 数据仓库多维分析 北方:r 业大学硕士学位论文 w e b b a s e ds c i e n t i f i cr e s e a r c hm a n a g e m e n ta n d d e c i s i o ns u p p o r ts y s t e m a b s t r a c t w i t ht h ed e m a n df o rs o c i e t yd e v e l o p m e n t ,e x t r a c t i o no fd a t af r o ml a r g ei n f o r m a t i o nf o r d e c i s i o n m a k i n gh a sb e c o m em o r ei m p o r t a n tt h a ne v e r t h e ni th a sb e e nt h em o s ti m p o r t a n t p r o b l e mt h a tt h er i s e r sa r ef a c i n ga n dt h em o s ta c t i v er e s e a r c hf i e l di nr e c e n ty e a r sm a th o w t o a n a l y z ea n df m du s e f u li m f o r m a t i o n t ob u s i n e s sm a n a g e m e n t c u s t o m e rr e l a t i o n s h i pa n d d e c i s i o n s d e c i s i o ns u p p o r tb a s e do nd a t aw a r e h o u s ea n dt h er e l a t i v et e c h n o l o g ya r ea p p l i e d w i d e l yn o to n l ya tt h er e t a i lt r a d e ,t h eb a n k i n g ,t e l e c o m m u n i c a t i o n ,b u ta l s oo b t a i n e dt h eq u i t e s u c c e s si no t h e rd o m a i n s a l o n gw i t l lf a s td e v e l o p m e n to ft h eh i g h e re d u c a t i o n t h eu n i v e r s i t ys c i e n t i f i cr e s e a r c hi s p a i dm o r ea t t e n t i o n i no r d e rt od e v e l o pp o t e n t i a lt op r o m o t es c i e n t i f i cr e s e a r c ho f t h eu n i v e r s i t y a n de n h a n c et h et e a c h i n gl e v e lt os e r v ef o rt h ee c o n o m i c a lc o n s t r u c t i o na n dd e v e l o p m e n to f t h e s o c i a l i s m ,t h el e a d e r so fu n i v e r s i t ya n da l lo fd e p a r t m e n t sn e e dt oa n a l y z es c i e n t i f i cr e s e a r c h d a t ai nt h em u l t i p l ep e r s p e c t i v e sa n dm u l t i l e v e l sf r e q u e n t l y t h e nt h es c i e n t i f i cd e s i c i o n sw i l l b eb a s e do nt h e m a tf i r s t ,a c o r r d i n gt of a c to fm yu n i v e r s i t y ,w eh a v ec o m p l e t e dt h ed e s i g no ft h es c i e n t i f i c r e s e a r c hm a n a g e m e n ts y s t e m t h e nw eh a v eu s e dd a t aw a r e h o u s ea n do l a pt e c h n o l o g yt o r e a l i z e daw e b b a s e ds c i e n t i f i cr e s e a r c hd e c i s i o ns u p p o r ts y s t e mi nt h ef o u n d a t i o n ,w h i c hc a r l a n a l y z et h es c i e n t i f i cr e s e a r c hd a t ao f t h eu n i v e r s i t ya n dc a ni n s t r u c tt h en e x ts t e pw o r k i nt h e c a m p u sn e t w o r k ,t h es y s t e mr e a l i z e si n f o r m a t i o ns h a r e db yt h ew e bw a y t h eu n i v e r s i t yl e a d e r s , t h ed e p a r t m e n t sa n dt h et e a c h e r sc a ni n p u td a t a ,m a n a g ed a t aa n di n q u i r yd a t au n d e rt h e d i f f e r e n tj u r i s d i c t i o n s ,a n dc a na n a l y ea n dd i s p l a yt h es c i e n t i f i cr e s e a r c hd a t ai nt h em u l t i p l e p e r s p e c t i v e sa n dt h em u l t i l e v e l ,t h u sm a k et h es c i e n t i f i cd e c i s i o n t h r o u g h ta p p l i c a t i o no ft h e h a l fy e a r ,t h es y s t e me n h a n c e ds c i e n t i f i cr e s e a r c hm a n a g e m e n to ft h et m i v e r s i t ya n dt h e d e c i s i o ns u p p o r tl e v e lg r e a t l y k e yw o r d s :s c i e n t i f i cm a n a g e m e n tw e bd a t a b a s e d a t aw a r e h o u s e m u l t i - d i m e n s i o na n a l y s i s 一2 一 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果,也不包含为获得j e 直王些太堂或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文作者签名:月乳易胜签字日期:沙彤年r 月;f 日 学位论文版权使用授权书 本学位论文作者完全了解j e 左至些太堂有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权j 友至些盍堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:夕霄荡翁钲 签字日期:) 一幻矿月;f 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 翰、尊 签字日期:蒯划月;日 电话 邮编 北方工业大学硕士学位论文 引言 l 、课题背景及来源 科研工作是高等学校教师工作的两大主要组成部分之。一个高校的年科研经费、 发表科研论文数量、科研成果签定与获奖、申请专利数量等,是评价一个学校科研水平 的重要指标。而科研水平的高低,是衡量一个高校综合水平的标志。所以,无沦国内、 国外,主要的大学都非常重视学校的科研建设。 在我国商校中,科研处是进行科研管理的职s 部门,主要肩负着科研项目管理、科 技成果管理的职能和为教师提供科研服务的职责。如何准确、及时地管理和处理相关科 研数据,为学校领导、各职能部门和学院提供准确的数据以及进行决策的依据,是科研 处的主要工作之一。 在传统的科研工作中,所有相关工作都是由工作人员手工完成,不仅效率低,而且 数据容易发生偏差。随着计算机特别是嘲络的应用,各高校都相继使用计算机来完成棚 关的管理工作,主要是数据统计处理,更高层次的应用是建立专门的管理信息系统,以 提高工作效率。 2 0 0 3 年,我校建立了基于w e b 的科研管理系统,能够实现科研项目数据、科研成 果数据的录入、查询和简单统计工作,为教师及时存储科研成果、学校统计科研成果发 挥了积极作用。但是,在该系统中,存在着许多不足,例如,涉及到教师发表文章的多 作者问题,科研项目横向、纵向分别在不同的表中,科研经费的分期到款等,致使许多 数据的存储和统计无法完成。为此,需要对我校的科研管理信息系统进行重新构建。首 先是改变原有数据库结构的设计。其次,在校领导、科研处和各学院的f 1 常工作中需要 从多角度、多层次来分析和汇总科研数据以进行科研决策,因此,要在比较完善的科研 信息管理的基础上,进一步建立我校的科研决策支持系统,方便学校领导作出正确的决 策。基于此,提出本项目的研究任务:建立基于w e b 的科研管理与决策支持系统。 2 、相关技术的发展现状 本项目的核心是构建基于数据仓库和o l a p ( 联机分析处理) 的科研数据决策分析 系统,具体应用到数据仓库技术和多维分析技术,下面介绍这两种技术的发展现状。 数据仓库和联机分析处理是决策支持系统的重要组成部分,与传统的联机事务处理 不同,是对现有的数据进行归纳、分析和处理,从而为决策提供支持。 数据仓库是“面向主题的、集成的、稳定的和随时间变化的数据集合,主要用于决 策制定”【l 】【3 9 。数据仓库的这些特点决定了它与传统的面向事物处理的数据库有着本质 北方工业大学硕士学位论文 的不同。作为个新兴的研究领域,数据仓库发展得很快,许多大学和公司都在这个领 域进行着广泛深入的研究,其中尤以斯坦福大学、i b ma l m a d e n 研究中心、威斯康辛大 学、微软和a t & t 的研究最具代表性。斯坦福大学进行了一个名为“w h i p s ( w a r e h o u s i n gi n f o r m a t i o np r o j e c ta ts t a n f o r d ) ”的科研项目,他们的研究目标是 要生成一个高效的、自动集成异构数据源的算法和工具。这个课题组已经提出了一个基 本的数据仓库模型和,些相应的算法。i b ma l m a d e n 研究中心和微软进行了个称为 “q u e s t ”的项目。他们的研究重点是多维数据库的建模与组织。威斯康辛大学和a t & t 的研究则侧重于实视图( m a t e r i a l i z e dv i e w ) 、o l a p 数据组织、数据立方体计算等方 面5 】【7 】。 m i c r o s o f t 的o l a p 解决方案是随s q ls e r v e r 2 0 0 0 一起发布的a n a l y s i ss e r v i c e 。 分析服务由服务器和客户端( 中间层:m i d d l et i e r ) 软件组件组成。在服务器端,分析 服务器( a n a l y siss e r v e r ) 作为m i c r o s o f tw i n d o w sn t 服务来进行运作,并提供核心的 计算功能。在分析服务器中,对管理功能的编程访问是通过称为决策支持模型 ( d e c i s i o ns u p p o r to b j e c t s :d s o ) 的对象模型来实现的。分析管理器( a n a l y s i s m a n t a g e r ) 是一个用于o l a p 服务的内置的管理用户界面,它也是在d s 0 的基础上开发 的,且提供了丰富的用户界面而无需编程。分析管理器i u 以在一台独立于分析服务器的 计算机上执行,它允许数据库管理员设计o l a p 数据模型、存耿r d b m s 仓库中的信息、 设计总和,以及给o l a p 数据仓库装入数据等等。( ) l a p 元数据定义被存储在专用库 ( p r i v a t er e p o s i t o r y ) 中,但是使用。个简单的实用工具,o l a p 元数据可以导入到采 用o l a p 开放信息模型( o p e ni n f o r m a t i o nm o d e l :0 i m ) 的m i c r o s o f tr e p o s i t o r y 中。 在客户端,分析服务包含一个称为微软数据透视表服务( m i c r o s o f tp i v o t t a b l e s e r v i c e ) 的组件。数据透视表服务是将0 l a p 客户端应用连接到提供分析服务的服务器 上的一个工具【i ”。 客户端应用程序通过o l ed b 2 0 接口或a d 0 2 0 对象模型来连接数据透视表服 务,透视表服务通过专门的必议与分析服务器通信,并把o l a p 数据返叵i 给客户端。微 软的分析服务提供了灵活的数据存储模型和分布式处理的能力,通过分区不仅可以调整 多维数据集的大小,也可以把多维数据集分布在多个服务器上,以便并行处理。服务器 端和客户端都提供了高速缓存,以便提高查询的响应速度7 l 。 3 、研究内容及意义 本课题包括两个部分:建立基于w e b 的科研管理系统和基于w e b 的科研决策支持系 统。 2 北方:i 二业大学硕士学位论文 建立一个基于w e b 的、较为完善和健壮的科研管理系统,使我校的科研管理工 作全部实现计算机网络化,包括提供科研处工作人员和老师进行科研数据的录入、简单 查询和科研处f i 常事务管理工作的功能。 建立基于w e b 平台上的科研数掘多维分析和查询系统,主要为学校领导、科研 处和各学院职能部门的决策分析提供支持。 因此,该项目的实施,将改善当前科研工作的管理状况,及时准确地提供科研数 据,促进学校科研工作的发展,并为学校对教师和学院进行科研考核奠定基础。 一3 一 北方- i :i , l k 大学硕士学位论文 1 相关知识背景介绍 1 1 数据仓库 1 9 9 1 年,数据仓库之父w h 1 n m o n 首先提出了数据仓库的概念:“数据仓库是一 个面向主题的、集成的、稳定的、随时间而变化的数据集合,用以支持企、i p 管理中的决 策处理。”应该说,数据仓库主要的贡献在于,它提出了数据处理的两种不同的类型: 操作型处理和分析型处理,并且在实际的实现中将它们区别开来,形成了d 卜d w 的主 要结构【1 l p l l 。数据仓库是一个综合的解决i 疗案,而数据库只是一个现成的产品而已。 i 1 1 数据仓库的体系结构 数据仓库的体系结构见图1 1 所示,它包括以下几个部分: 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信 ,g r u f f 部信息。内部信息包括存放于r d b m s 中的各种业务处理数据和各类文档数据。外 部信息包括各类法律法规、市场信息和竞争对手的信息等等。 数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的 存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对 外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数 据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集 成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门 级数据仓库( 通常称为数据集市) 。 e j 相关数据 e j 业务数据 e j 遗留数据 e j 外部数据 数据源 数据集市 图1 1 数据仓库的体系结构 d 北方工业大学硕士学位论文 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以 及各种基于数据仓库或数据集市的应用丌发工具。其中数据分析工具主要针对( ) l a p 服务 器,报表工具、数据挖掘工具主要针对数据仓库。 o l a p 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进 行多角度、多层次的分析,并发现趋势。其具体实现i 叮以分为:r o l a p 、m o l a p 和 i o l a p 。r o l a p 基本数据和聚合数掘均存放在r d b m $ 之中;m o l a p 基本数据和聚合数据均 存放于多维数据库中:h o l a p 基本数据存放于r d b m s 之中,聚合数据存放于多维数据库 中。 数据仓库体系主要有三个关键环节,从上到下依次为:数据的访问和分析处理;数 据的存储管理;数据的提取( e xt r a c t ) 、转换( t r a n s f o r m ) 和装入( l o a d ) 处理( 简称 e t l ) 。其中数据的e t l 过程是最复杂的,一般要占用整个数据仓库工程的7 0 左右的时 间和资金1 1 口l s l 。关系数据库之父e f c o d d 根据处理数据的范围、用户分析人员的交互 需要、多维分析需要以及现有工具的支持等因素将数据分析处理模型分为四种:绝对模 型、解释模型、思考模型和公式模型i lj | “。 绝对模型:它属于静态数据分析,主要是可以通过比较历史数据或行为来描述 过去发生的事实。它可以回答“w h a t ”查询; 解释模:它也是静态数据分析,用j 、分析人员可以利用系统中已经有的多层次 的综合路径进行层层细化,找出事实发生的原因。它可以回答“w h y ”查询; 思考模型:这种模型较前面两种模型又进了一步,属于动态数据分析。它旨在 说明在维或多维一卜引入一组具体变量或参数后将会发生什么。因为分析人员在确定要 引入的变量或公式关系时,需要创建大量的综合路径,因此要较高层次的数据分析人员 介入。它可以回答“w h a ti f ”一类问题; 公式模型:它是动态性最高的一类模型,用以表示在多个维上,需要引入那些 变量或参数,以及引入后所产生的结果。它可以回答“h o w ”一类问题。 】l _ 2 数据仓库的特点 根据数据仓库概念的含义,数据仓库拥有以下四个特点口0 】: 面向主题。操作型数据库的数据组织而向事务处理任务,各个业务系统之间各 自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念, 是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息 系统相关。 一5 一 j e 方一l :业大学硕士学位沦文 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之 问相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变 化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一 旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中般有大 量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化。操作型数据库主要关心当前某个时间段内的数据,而数据仓 库中的数据通常包含历史信息,系统记录了企l k 从过去某一时点( 如开始应用数据仓库 的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势 做出定量分析和预测【l 。 1 1 3 数据仓库与传统数据库系统、传统数据库的区别 1131 数据仓库与传统数据库系统的区别5 】 2 2 j 传统数据库系统是为了进行联机事务处理( o l t p ) ,用电子化管理来代替手工劳 动,在对决策支持方面存在以下不足: 各种来源的数据在定义和组织方式上不同,为决策者统一调用数据和进行不同 系统的比较带来了困难: 数据库提供的数据是事物性的、操作性的; 数据库【= 卜保存的是当前数据,无法进行历史趋势分析。而数据仓库的本质是为 了辅助决策,这使得它与传统的数据库系统相比有很大的不同。 1 1 3 2 数据仓库与传统数据库的区别 传统数据库采用孤立的数据存储,其数据只能为现有孤立系统使用;数据仓库 存储的是现有系统所汇集的全企业范围内的数据。 传统数据库的数据是当前的操作数据;数据仓库存储的既有最近的数据,又包 括历史数据。 传统数据库的数据存储可存放在不同的平台上;数据仓库则使用一个单独的平 台来进行数据存储。 传统数据库数据按照操作或职能组织,如销售、生产、采购、工资、订货处理 等;数据仓库的数据按照主要的商务信息项目组织,如客户或产品。 6 一 北方工业大学硕士学位论文 传统数据库的目的是为了支持公司内部的操作,数据经常变动;数据仓库的目 的是为了支持决策,数据基本不变。 1 1 4 分析处理工具 数据仓库的工具大体上可以分为以下几类: 普通的报表查询工具。这类工具既有用户定制的查询程序,也有灵活的工具。 定制的程序象用v b 、p o w e r b u i l d e r 、s q lw i n d o w s 丌发的查询程序。 验证型工具。用户首先提出自己的假设,然后利用各种工具通过反复的、递归 的检索查询以验证或否定自己的假设。这类工具主要给用户提供灵活的多维分析处理, 从数据仓库中发现事实。o l a p 工具就属于这。类。 发掘型工具。这类工具的应用主要是从大量的数据中发现数据模式,预测趋势 和行为。与验证型工具不同,用户在整个信息的发掘过程中不需要或只是需要很少的指 导。这类工具主要指的是数据挖掘。 1 2o i ,a p 技术 数据仓库中尽管包含了大量的有价值的历史数据,但如果让决策支持人员直接去看 这些数据是没有任何实际意义的,必须要有方便有效的工具能够很容易地对其中的数掘 进行分析处理。1 9 9 3 年,e f c o d d 提出联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s , 简称o l 。a p ) 的概念。简单地说它就是针对特定问题的联机数据访问和分析。通过对信息 的多个角度( 维) 进行快速、一致、稳定地交互访问,决策分析人员汀以深入地观察。应 该说,o l a p 工具是为了满足更高效地进行多维分析的需求而产生的,其主要功能是根 据用户所选择的分析角度,事先计算好一些辅助结构,以便在查询时能够尽快抽取到所 需要的记录,尽快地计算分析的结果,并快速地从一维转变到另一维。这样一来,用户 就可以在短时问内从各种不l 刊的角度审视业务的经营情况。“联机”一词形容的就是这 种机动的、快速显现的功能。更直接地说,数据仓库应该是一种体系结构的基础,而 o l a p 则是一种技术。在整个数据仓库的体系结构环境中,数据集市层用的就是o l a p 技 术,这一层的d b m s 称为多维d b m s n 。 数据仓库和多维d b m s 产品( 或者说o l a p 产品、数据集市) 有以卜区别: 数据仓库中有大量的详细历史数据,时问范围般为5 1 0 年,而多维d b m s 至少要少一个数量级,它的数据的时间范围也很短,其中有大量的汇总数据f 3 3 1 : 数据仓库只适合少量的灵活访问,而多维d b m s 适合于大量的以不可预测形式的 随机的灵活的分析处理; 北方工业大学硕士学位论文 数据仓库由于要支持整个企业,有多个主题领域,它的结构通常采用规范的第 三范式,而数据集市主要支持部门级,它的主题单一,结构通常采用星型模式来更好地 支持分析处理; 数据仓库的数据来源是操作型环境,通过提取、转换、装入过程定期刷新数 据,而数据集市的数据来源是数据仓库,它只是定期地从数据仓库中刷新数据。 e f c o d d 在提出o l a d ? 概念,并给出了o l a p 产品的1 2 条基本准则:透明性准 则、存取能力准则、稳定的报表性能、客户服务器体系结构、维的等同性结构、动态 稀疏矩阵处理准则、多用户支持能力准则、不受限的跨维操作、直观的数据处理、灵活 的报表生成、多维概念视图、非受限的维与维之间的层次川。 1 2 1o l a p 的概念 o l a p 与数据仓库不同,它的程序将商业软件目录化,让用户以数据立方体( d a t a c u b e ) 为单位来进行操作。典型的o l a p 运作包含数据的集结( e o n s o l i d a t e ) 、下钻 ( d r i l l d o w n ) ( 如查询定义) 、切片( s l i c e ) 、切块( d i c e ) 及旋转( r o t a t e ) 等f 2 9 1 p 4 。产 生的结果既丁以用传统的方式也可以用表格化的数据库格式呈现,甚至还可以将它们作 成图表。虽然这样的输出可能只是一种同定格式,但它通常允许用户直接操作数据来做 进一步的分析,例如验证趋势( t r e n d ) 、相关性( c o r r e l a t i o n ) 或时间序列( l i m e s e r :i e s ) 等。使用w e b 上的应用程序来进行线上分析处理,将可以大大增强w e b 技术的威 力【1 【9 】。 根据o l a p 产品的实际应用情况和用户对o l a p ) “品的需求,人们提出了一种对o l a p 更 简单明确的定义,即共享多维信息的快速分析 3 4 1 。通过对多维信息以多种观察方式进行 快速、稳定、一致和交互性的存取,允许管理决策人员对数据进行深入的观察,具有p 有下面四个方面的特点: 3 3 4 0 j 快速性 用户对o l ,a p 的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析 要求做出反应。如果终端用户在3 0 秒内没有得到系统响应就会变得不耐烦,因而可能失 去分析主线索,影响分析质量。对于大量的数据分析要达到这个速度并不容,因此就更 需要一些技术上的支持,如专门的数据存储格式、大量的事先运算、特别的硬件设计 等。 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编 程,但并不意味着系统已定义好了所有的应用。用户无需编程就可以定义新的专门计 8 一 北方工业大学硕士学位论文 算,将其作为分析的一部分,并以用户理想的方式给出报告。用户可以在o l a p 平台上进 行数据分析,也丁以连接到其他外部分析工具上,如时间序列分析工具、成本分配工 具、意j b - 7 警、数据开采等。 多维性 多维性是o l a p 的关键属性。系统必须提供对数据分析的多维视图和分析,包括对层 次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是 o l a p 的灵魂。 信息性 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息,并且 管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、 o l a p 产品的性能及与数据仓库的结合度等m 。 l - 22o l a p 的多维数据概念 多维结构是决策支持的支柱,也是o l a p 的核心。o l a p 蓰现在用户面前的是一幅幅多 维视图。维有自己固有的属性,如层次结构( 对数据进行聚合分析时要用到) 、排序 ( 定义变量时要用到) 、计算逻辑( 是基丁二矩阵的算法,【j j 有效地指定规则) 。这些属 性对进行决策支持是非常有用的。人们很容易理解个二维表( 如通常的电子表格) ,对 于三维立方体同样也容易理解。o l a p 通常将三维立方体的数据进行切片,显示三维的某 一平面。如一个立方体有时问维、商品维、收入维,其图形很容易在屏幕上显示h 来并 进行切片。但是要加一维( 如加入商店维) ,则图形很难想象,也不容易在屏幕上画出 来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。o l a p 的多维分析视图就是 冲破了物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上 展示多维视图的结构,使用户直观地理解、分析数据,进行决策支持 2 5 】。 数据在多维空问中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在 一起,其密度很大。因此,o l a p 系统的开发者要设法解决多维数据空间的数据稀疏和数 据聚合问题。事实上,有许多方法可以构造多维数据t “。 超立方结构 超立方结构( i l y p e r c u b e ) 指用三维或更多的维数米描述一个对象,每个维彼此垂 直。数据的测量值发生在维的交叉点上,数据空间的各个部分都有相同的维属性。 这种结构可应用在多维数据库和面向关系数据库的o l a p 系统中,其主要特点是简化 终端用户的操作。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更 大,数据的维数更少,并可加入额外的分析维。 9 北方a - 、j k _ 人学硕士学位论文 多立方结构 在多立方结构( m u l t i c u b e ) 巾,将大的数据结构分成多个多维结构。这些多维结 构是大数据维数的子集,而向某一特定应用对维进行分割,即将超立方结构变为子立方 结构。它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效率。 一股来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户更容易接 近超立方结构,它可以提供高水平的报告和多维视图。但具有多维分析经验的m i s 专家 更喜欢多立方结构,因为它具有良好的视图翻转性和灵活性。多立方结构是存储稀疏矩 阵的一个更有效方法,并能减少计算量。因此,复杂的系统及预先建立的通用应用倾向 于使用多立方结构,以使数据结构能更好地得到调整,满足常用的应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立 方结构来进行计算,结合了超立方结构的简化性和多立方结构的旋转存储特性。 1 2 3 o l a p 的存储结构 o l a p 产品在上层尽管都提供多维分析的数据模型,但在底层具体实现上按照数据 的存储结构基本上又分为m o l a p ( 多维立方体o l a p ) ,r o l a p ( 关系o l a p ) 和 h o l a p ( 混合o l a p ) i i 1 9 1 8 1 1 2 3 。 m o l a p m o l a p 主要是基于多维数据库来实现的,它同时以多维的方式来组织和显示数据, 是一种直接为支持多维查询分析处理而设计的结构。尽管它的多维数据的物理存储方法 和稀疏矩阵的处理技术会强烈影响它的性能、内存需要和所能实现的最大存储单元数, 但直到今天它并不象关系数据库那样有一个统一的实现标准,各个厂商的内部实现都有 很大的差异,包括接口方面。 目前的n ) d b x l s 系统大多是基于一种两层的数据结构。存储多维数据的一种简单的 方法是采用线性数组,但同时由于稀疏数据的处理要采用一些压缩技术。这样m d d b m s 系统就结合了这两种技术形成了两层结构:它的上层主要是存储一些稀疏数据以及指 针,这些指针指向含有真正需要的信息的数组,这些数组位于第二层。其中含有大量高 密度的数据。 它的存储结构可以见图1 2 。 1 0 北方: 业大学硕士学位论文 图l2m d d b m s 的存储结 m o l a p 性能好、响应速度快,数据装载速度比r o l a p 慢。专为o l a p 所设计, 维护简单,如果已知数据的访问模式,则数据的结构i q 以优化。支持复杂的跨维计算、 多用户的读写操作、行级的计算。信息是以数组形式存放的,可以在不影响索引的情况 下更新数据,较适合于读写应用。不足之处在于系统复杂度、培训与维护费用增加;受 操作系统平台中文件大小的限制,难以达到t b 级:维数有限,需要进行预计算,可能 导致数掘爆炸:无法支持维的动态变化,缺乏数据模型和数据访问的标准,不支持通用 的更新处理:对数据的动态连接的支持是有问题的,如果对路径的访问不被数据设计所 支持的话,这种结构就显得不灵活。 r o l a p 与m o l a p 系统相比r o l a p ( r a t i o n a lo l a p ) 是种直接用关系型数据库做存储结构 的o l a p 系统。r o l a p 引擎的主要作用是动态地在逻辑的多维数据模型m 和关系型存储 模型r 之间进行转换。简单地说,就是将在一个多维模型m 上的多维查询m 转换为在关 系模式r 上的s q l 查询语句。图1 3 表示这种系统的基本体系结构。 i 一舻 山 l 一 i 。 上 再司 多维查询优化多维查询处理 关系查询产生器结果转换 t 、r _ _ 一) 图13r o i a p 的基本体系结构 r o l a p 引擎 北方_ t 业大学硕士学位沦文 r o l a p 一般比m o l a p 响应速度慢,但数据装载速度比m o l a p 快。r o l a p 维数 一般没有限制,现有的关系数据库的技术可以沿用,可以通过s q l 实现详细数据与概 要数据的储存,支持数据的动态连接和通用数据的更新处理。现有关系型数据库已经对 o l a p 做了很多优化,包括并行存储、并行查询、并行数据管理、基于成本的查询优 化、位图索引、s q l 的o l a p 扩展等大大提高了r o l a p 的速度。r o l a p 维护复杂, 只读、不支持有关预算的读写操作,s q l 无法完成多行和维之问的计算。 h o l a p 通过上面的比较,我们可以看到,m o l a p 和r 0 1 a p 都是有许多优点也有许多缺点。 为了充分利用他们的优势,提出了者的一个折衷:t 1 0 1 ,a p ,即混合0 l a p ,它是多维数 据结构和关系数据表的结合。目自u 个普遍的观点是:它在m o i a p 中保存了聚集的数据 以利用m o l a p 的快速响应特点加快访问分析处理,面在r 0 。a p 中保存了详细的数据,可 以使它的数据存储容量不受限制,同时当用户分析处理到m 0 1 。a p 中没有的统计数据时, 系统自动透明地将多维查询分析处理的语句转变为s q l 查询浯句并且发到关系数据库, 由关系数据库进行查询并将结果返回用户。h o l a p 的优点:对于性能上尽管没有m 0 1 a p 快但也是优化的;对于用户的访问分析处理同样能非常快速地进行响应;由于利用关系 数据库存储细节数据,没有容量上的限制。它的缺点: 些数据的预聚集程度需要用户 控制,否则处理的效果不是很好。 1 2 4 活动数据的存储 用户对某个应用所提取的数据称为活动数据,它的存储有以下三种形式: 关系数据库 如果数据来源于关系数据库,则活动数据被存储在关系数据库中。在大部分情况 下,数据以星型结构或雪花结构进行存储。 多维数据库 在这种情况f ,活动数据被存储在服务器上的多维数据库中,包括来自关系数据库 和终端用户的数据。通常,数据库存储在硬盘上,但为了获得更高的性能,某些产品允 许多维数据结构存储在r a m 上。有些数据被提前计算,计算结果以数组形式进行存储。 基于客户的文件 在这种情况下,可以提取相对少的数据放在客户机的文件上。这些数据可预先建 立,如w e b 文件。与服务器上的多维数据库一样,活动数据可放在磁盘或r a i l l - _ 。 这三种存储形式有不同的性能,其中关系数据库的处理速度大大低于其他两种 一1 2 北方工业大学硕士学位论文 l _ 3 数据挖掘技术 近十儿年来,人们利用信息技术生产和搜集数据的能力大幅度提高,干万万个数据 库被用于商业管理、政府办公、科学研究和工程开发等等,并且这一势头仍将持续发展 下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎 成为人人需要面对的问题。如何才能不被信息| 勺汪洋大海所淹没,从- p 及时发现有用的 知识,提高信息利用率呢? 要想使数据真正成为一个公司的资源,只有充分利用它为公 司自身的、i k 务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃 圾。因此,数据挖掘和知识发现( d m l ( d ) 技术应运而生,并得以蓬勃发展,越来越显示出 其强大的生命力。 数据挖掘( d a t am i n in g ) 就是从大量的、4 i 完全的、有噪声的、模糊的、随机的数 据巾,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 【1 3 j 3 7 】。还有很多和这一术语相近似的术语,如从数据库中发现知识( k d d ) 、数据分析、 数据融合( d a t af u s i o n ) 以及决策支持等。人们把原始数据看作是形成知识的源泉,就 像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半 结构化的,如文本、图形、图像数据,甚至是分布在网络卜- 的异构型数据。发现知识的 方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知 识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维 护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了不同领域的研究者,尤其是数 据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是而向特定数据 库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综 合和推理,以指导实际问题的求解,企图发现事件问的相互关联,甚至利用已有的数据 对未来的活动进行预测。这样一来,就把人们对数据的应用,从低层次的末端查询操 作,提高到为各级经营决策者提供决策支持。这种需求驱动力,比数据库查询更为强 大。同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理, 也不是要去发现崭新的自然科学定理和纯数学公式,更不是机器定理的征明。所有发现 的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被 用户理解,晟好用自然语言表达发现结果”。因此d m k d 的研究成果是很讲求实际的。 1 3 北方t 业大学硕士学位论文 1 3 1 数据挖掘研究现状 k d d 一词首次出现在1 9 8 9 年8 月举行的第1 1 届国际联合人工智能学术会议上。迄 今为止,由美国人工智能协会主办的k d d 国际研讨会已经召开了7 次,规模由原来的专 题讨论会发展到国际学术大会,人数由二三十人到七八百人,研究重点也逐渐从发现方 法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗 透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学 界的一大热点。 此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟 了k d d 专题或专刊。i e e e 的k n o w l e 电e a n d d a t a e n g i n e e r i n g 会刊领先在1 9 9 3 年出版了 k d d 技术专刊,所发表的5 篇论文代表了当时k d d 研究的最新成果和动态,较全面地论 述了k d d 系统方法论、发现结果的评价、k d d 系统设计的逻辑方法,集中讨论了鉴于数 据库的动态性冗余、专家系统、人工神经网络、数理统计分析系统的联系和区别,以及 相应的基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个性化定制哺乳期离婚财产分割及子女抚养协议
- 髋臼股骨撞击症课件
- 书中故事:故事情节和人物给我的启示
- 公司员工休假要求
- 职业教育学习环境改善方案
- 农学中的农村环境卫生管理政策实施实况调研
- 购物中心O2O电子商务平台设计与实现
- 职业教育实践教学总结
- 领导者团队管理技能授课
- 2025浙江金华市城投集团选聘中层管理人员拟聘(第一批)笔试历年参考题库附带答案详解
- 手性新药的注册要求
- 图形创意设计的课件完整版
- SH/T 0660-1998气相防锈油试验方法
- GB/T 4956-2003磁性基体上非磁性覆盖层覆盖层厚度测量磁性法
- 第三、四章-证据的分级、来源与检索课件
- 《计算机系统结构(第二版)》配套教学课件
- 职业技术学院学生退费申请表
- 微生物实验室风险评估报告
- 六年级上册美术课件-《戏曲人物》 浙美版(2014秋) (2)(共13张PPT)
- 投标文件标书采购类
- 2022年阜阳市工会系统招聘考试题库及答案解析
评论
0/150
提交评论