(计算机应用技术专业论文)科技管理信息多维数据模型的建立与olap设计.pdf_第1页
(计算机应用技术专业论文)科技管理信息多维数据模型的建立与olap设计.pdf_第2页
(计算机应用技术专业论文)科技管理信息多维数据模型的建立与olap设计.pdf_第3页
(计算机应用技术专业论文)科技管理信息多维数据模型的建立与olap设计.pdf_第4页
(计算机应用技术专业论文)科技管理信息多维数据模型的建立与olap设计.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)科技管理信息多维数据模型的建立与olap设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘耍 信息化浪潮使科技管理领域数据库的数量和容量越来越惊人,科技决策人员 已经被淹没在科技管理信息的数据海洋里,但又很难从中得到想要的知识,出现 了数据过剩知识匮乏的现象,这种现象困扰着越来越多的科技决策人员。本文综 合利用数据仓库技术和o l a p 技术对科技管理领域已产生的海量数据进行分析, 从中发掘出想要的知识,提炼成智慧,解决科技决策人员面临的难题,为他们进 行科技立项、成果推广、人才引进与培养等决策服务。 本文的任务是对济宁市科技管理局长期积累的大量科技管理数据建立数据仓 库,并对其进行o l a p 设计。建立数据仓库的关键是设计存储方案,即确定数据 的存储模式。数据仓库存储数据的目的是支持复杂查询、为决策提供依据,而复 杂查询或进行决策时所要考虑的问题往往是多方面的,因此,数据仓库的存储模 式应是多维的,从而使决策人员能从多个方面进行数据查询、数掘分析,发现数 据变化的规律,得出有用的结论。科技信息数据仓库多维数据模型的建立方法如 下:首先研究数据仓库的基本理论,然后深入科技管理局的各部门进行调查,接 着对调查结果进行分析,提出各部门的决策需求,并与相应部门讨论修改,根据 最后修订的决策需求建立多维数据模型,然后根据该模型将数据装入数据仓库。 本文的第二个任务是对系统进行o l a p 设计,实现方法如下:首先对数据立方进 行分析、设计,接着进行o l a p 分析设计。在进行o l a p 分析时,本文采用最适 于分析多维数据仓库的m d x 语言对数据仓库中的数据进行了多维分析,从而实现 了从各个角度对数据进行汇总、透视、上卷、下钻、旋转、统计等分析操作,从 中提炼出决策时所需的各种知识。 本课题完成的主要任务有:研究数据仓库的基本理论、建立数据仓库的多维 数据模型、设计数据立方、实现o l a p 分析、建立数据模型、设计m d x 多维查 询、设计并实现a d o m d 数据接口、进行系统优化、设计系统维护方案等。 本文的创新之处较多地体现在多维模型设计、d t s 设计、m d x 多维查询的实 现、a d om d 接口的设计等处。 关键词:数据仓库、o l a p 、d t s 、m d x 表达式、a d om d 接口 山东大学硕士学位论文 a b s t r a c t t h ew a v eo fi n f o r m a t i o n a l i z a t i o nm a k e st h eq u a n t i t ya n dc a p a c i t y o f d a t a b a s ei ns c i e n c ea n dt e c h n o l o g ym a n a g e m e n tf i e l dm o r ea n dm o r ea m a z i n g , t h ed e c i s i o nm a k e r se n g a g e di ns c i e n c ea n dt e c h n o l o g y ,s u b m e r g e di nt h e d a t ao c e a no fs c i e n c ea n dt e c h n o l o g y i n f o r m a t i o n ,h a v ed i f f i c u l t yi n a t t a i n i n gt h ek n o w l e d g et h e yw a n t t h e r e f o r e ,p h e n o m e n o no fd a t e s u r p u s a n dk n o w l e d g e d e f i c i e n c ya r i s e sa n dp u z z l e sm o r ea n dm o r ed e c i s i o nm a k e r s , t h isp a p e ra n a ly z e st h ee n o r m o u sd a t aint h em a n a g e m e n tf ieldb yg l e a n so f d a t aw a r e h o u s ea n do l a p ,e x t r a c t st h ek n o w l e d g et h e yw a n tf r o mi t ,f o r m s t h ew i s d o mt os o l v et h ep r o b l e m st h e yf a c e ,a n dh e l pt h e mu n d e r t a k ep r o j e c t s s p r e a da c h i e v e m e n t s ,i n t r o d u c ea n dt r a i nt a l e n t s t h et a s k o ft h isp a p e rist oc r e a t ead a t aw a r e h o u s eb a s e do nt h e m a n a g e m e n td a t ag a t h e r e db yj i n i n gc i t ys c i e n c ea n dt e c h n o l o g ym a n a g e m e n t b u r e a uf o ra1 0 n gt i m e ,a n dm a d ead e s i g na c c o r d i n gt oo l a p t h ek e yt o c r e a t ead a t aw a r e h o u s ei st od e s i g ns t o r a g es c h e m e ,i e ,t od e c i d eo n t h es t o r a g ep a t t e r no fd a t a t h ea i mo fd a t aw a r e h o u s e ss t o r i n gd a t ai s t os u p p o r tc o m p l e xi n q u i r ya n dp r o v i d ed e c i s i o nm a k e r sw i t hh a s i s s t o r a g e p a t t e r no fd a t aw a r e h o u s es h o u l db em u l t i d i m e n s i o n a l b e c a u s ew em e e ta l l k i n d so fp r o b l e m se x i s t i n gi nc o m p l e xi n q u i r ya n dd e c i s i o nm a k i n g s o d e c i s i o nm a k e r sc a ni n q u i r ed a t aa n da n a l y z ed a t af r o mm a n ys i d e st of i n d ac h a n g i n g1 a wo ft h ed a t aa n dd r a wau s e f u lc o n c l u s i o n t h em e t h o d st o f o r mam u l t i - d i m e n s i o n a ld a t am o d e io fs c i e n c ea n dt e c h n o l o g yi n f o r m a t i o n d a t aw a r e h o u s ea r ea sf o l l o w s :f i r s t l y ,s t u d yt h eb a s i et h e o r yo f d a t a w a r e h o u s e t h e n ,i n q u i r ei n t oa l ld e p a r t m e n t so fs c i e n c ea n dt e c h n o l o g y m a n a g e m e n tb u r e a ua n da n a l y z et h ei n q u i r e dr e s u l t s ,p u tf o r w a r dt h ed e m a n d f o rd e c i s i o nm a k e ra n dr e v i s ei tw h i 】ed i s c u s s i n gw i t hr e l a t e dd e p a r t m e n t s 。 f o r mam u l t i d i m e n s i o n a ld a t am o d e lb a s e do nt h el a t e s tr e v i s e dd e m a n d p l a c et h ed a t ai nd a t aw a r e h o u s ea c c o r d i n gt ot h em o d e l t h es e c o n dt a s k i l 山东大学硕士学位论文 i i l i l l l h i f i i i i ! = = ! = = 竺! ! ! 竺! ! ! ! ! ! ! ! ! - o ft h i sp a p e ri st od e s i g nt h es y s t e mb ym e a n so fo l a p h e r ei st h e m e t h o d f i r s t l y ,a n a l y z ea n dd e s i g nt h ed a t ac u b ea c c o r d i n gt oo l a p i n t h i sp a p e r ,m d x l a n g u a g es u i t a b l et oa n a l y z em u l t i - d i m e n s i o n a ld a t a w a r e h o u s ei su s e dt oa n a l y z et h ed a t am u l t i d i m e n s i o n a l l y t h e r e f o r e ,s u c h d a t aa n a l y s i so p e r a t i o n sf r o ma 1 1s i d e sa st o t a l ,r o l lu p ,d r i l ld o w n ,p i v o t , s t a r i s t i ca r ea c h i e v e da n dt h ek n o w l e d g en e e d e di nd e o i s i o nm a k i n gi s a t t a i n e d t h em a i nt a s k st ob ec o m p l e t e di nt h i sp a p e ra r ea sf 0 1 i o w s :s t u d yb a s i c t h e o r yo fd a t aw a r e h o u s e f o r mt h em u l t i d i m e n s i o n a lm o d e l so fd a t a w a r e h o u s e d e s i g nd a t ac u b e a c h i e v eo l a pa n a l y s i s f a r mt h ed a t am o d e l s d e s ig nm d xm u l t i d i m e n s i o n a l i n q u i r y d e s i g na n dr e a li z ea d om d d a t a i n t e r f a c e o p t i m i z es y s t e m d e s i g ns y s t e mm a i n t a i n i n gp a t t e r na n ds oo n c r e a t i o no ft h i sp a p e r1 i e si nm u l t i d i m e n s i o n a lm o d e ld e s i g n ,d t s d e s i g n ,r e a l i z a t i o no fm d xm u l t i d i m e n s i o n a li n q u i r y ,d e s i g no fa d om d jn t e r f a c ea n ds oo n k e yw o r d s :d a t aw a r e h o u s e ,o l a p , d t s ,m d xf o r m u l a ,a d om d i n t e r f a c e i i i 山东大学硕士学位论文 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究所取锝的成果。除文中已经注明引用的内容外,本论文不包含 任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出 重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责 任由本人承担。 论文作者签名:童墨茧日期:翌噬! 口坐 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有 关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅:本人授权山东大! 学 可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:瑾墨萄导师签名:窆兰兰查兰肾期:逊坐旷 山东大学硕士学位论文 第一章系统概论 本文探讨了济宁市科技管理局的科技管理信息多维数据模型的建立与o l a p 设计。文中以目前流行的m i c r o s o f ts q ls e r v e r2 0 0 0 为数据仓库平台,多维数 掘模型采用了星型架构,数据仓库中的数据以多维视图( 数据立方) 的形式存储, 通过a n a l y s i ss e r v i c e s 组件提供的o l a p 分析功能,利用m d x 语言对多维数据集 进行了多维度及度量值的分析。数据接口采用了目前功能最强且极适于多维数据 结构的a d om d 接口,并采用v i s u a lb a s i c6 0 编程实现。 1 1 课题的提出及国内外发展现状 随着科学技术的飞速发展和科技信息的日盏膨胀,科技管理部门积累了大量 的数据,如:课题立项数据、课题检查数据、课题结题数据、成果管理数据、科 技人员数据等,这些数据中都蕴藏着许多知识,暗藏着许多规律,如能广泛发掘 并充分利用这些知识,将使立项审批更科学,所批准的课题成功率更高,所得到 的成果更容易转化为现实生产力,人才的培养与引进更具有针对性。但是,这些 数据时间跨度大,涉及方面广,数量庞大,头绪复杂,很难用传统手段进行分析。 使用数据仓库技术和o l a p 技术,可对这些数据进行多方面的综合分析,因为数据 仓库能从分布在各处的o l t p 数据库中提取数据,并对其进行预处理,为决策分析 提供所需数据;o l a p 则利用存储在数据仓库中的数据完成各种分析操作,从中发 现决策管理人员所需的知识,并以直观易懂的形式将分析结果展示给决策人员1 , 为他们的决策提供客观依据。 经过查阅资料,我发现国外部分企业己开始注重数据仓库的建设,我国的大 鹏证券、厦门电信也已比较成功地建立了数据仓库”。但尚未发现有从事科技管 理信息数据仓库建立的报道,因此在石教授的指导下,我选择了此课题进行研究, 以期对科技决策快速化、准确化、科学化、知识化做一点力所能及的事情,但愿 这一火花,能点燃数据仓库及o l a p 技术在科技管理领域中的应用。 山东大学硕士学位论文 1 2 本课题所做的工作 本课题以济宁市科技管理局多年积累的科技人刁管理数据、立项审批数据、课 题检查数据、成果转化数据等为数据源,建立了多维数据模型。本文重点考虑课 题申报人的个人情况以及所在单位对课题成功率的影响、不同成果转化为现实生 产力的概率、不同技术对社会的贡献,从而决定哪些课题可以批准立项,哪些课 题不能通过审批。从而将有限的资金进行科学的分配,将资金重点放在成功率高、 易转化为现实生产力的课题上。本论文重点研究以下内容: ( 1 ) 数据仓库基本理论在科技管理信息数据仓库中的运用 ( 2 ) o l a p 技术对建立数据模型的指导作用 ( 3 ) s q ls e r v e r2 0 0 0 相关性能研究 ( 4 ) a d om d 多维数据接口技术在本课题中的应用 ( 5 ) 科技管理信息多维数掘模型的建立 ( 6 ) 科技管理信息的o l a p 设计 ( 7 ) 科技管理信息m d x 多维查询 ( 8 ) 科技管理信息系统性能优化的实现 ( 9 ) 科技管理信息系统的维护 1 3 科技管理信息系统采用的开发平台 本系统采用m i c r o s o f t s q ls e r v e r2 0 0 0 作数据仓库服务器,o l a p 服务器采 用m i c r o s o f t o l a ps e r v e r ,用m d x 作分析语言,前台采用m i c r o s o f t v i s u m b a s i c6 0 作丌发语言。这可使数据仓库与o l a p 数据库进行无缝连接,提高数据 的一致性,便于数据转换与传输,提高科技管理信息系统的开发速度和可靠性, 避免了数据不兼容带来的麻烦。选用v i s u a lb a s i c6 0 作为本系统开发语言,是 因为它具有优良的性能、极强的系统开发能力、完美的视觉界面和简单易用的特 点,且可方便地访问数据库管理系统( d b m s ) 和非数据库管理系统中存储的数据。 山东大学硕士学位论文 第二章科技管理信息系统的技术基础 2 1 数据仓库基本理论 要想完成本课题,首先应将科技管理局长期积累的大量数据存入数据仓库, 这就需要先对数据仓库的基本理论进行研究,然后选择合适的存储模式和正确的 存储策略。 2 1 1 数据仓库的概念与特征 计算机技术的迅猛发展使绝大多数单位都积累了大量数据,这些数据背后隐 藏着丰富的知识,但往往不能被人们直观地发现。为了充分利用现有数据,为决 策提供依掘,既需要联机服务,又涉及大量用于决策的数据,传统数据库已无法 满足这种需求“”1 。随着客户n 务器( c s ) 技术的成熟和并行数据库的发展, 信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理转 换为新的存储模式,即为了决策目标把数据聚合在一种特殊的模式中。随着此过 程的发展和完善,1 9 9 6 年,美国著名信息工程学家w h i n m o n 博士提出了“数据 仓库”的概念:“数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的、集成的、稳定的、 包台历史数据的数据集合,它用于支持经营管理中的决策制定过程。”“ 由上述概念可见,数据仓库有四个基本特征:数据仓库的数据是面向主题的、 集成的、稳定的、时变的。 ( ) 数掘仓库的数据是面自主题的:主题是一个在较高层次上将数据综合归类并 进行分析利用的抽象,每一个主题基本上对应一个宏观的分析领域所涉及的分析 对象,适用于分析型应用。 ( 2 ) 数据仓库的数据是集成的:由于数掘源缺少统一的数据标准,导致不同数据 源的数掘结构、存储平台、系统平台均存在很大的异构性,数据在进入数掘仓库 之酊,必须经过加工与集成,将原始数据的结构做一个从面向应用到面向主题的 转变。 ( 3 ) 数据仓库的数据是稳定的:数据仓库的数据主要供决策分析之用,所涉及的 操作主要是数据查询与统计,一般不进行修改操作,其中的数据反映的是一段相 操作主要是数据查询与统计,一般不进行修改操作,其中的数据反映的是一段相 山东大学硕士学位论文 第二章科技管理信息系统的技术基础 2 1 数据仓库基本理论 要想完成本课题,首先应将科技管理局长期积累的大量数据存入数据仓库, 这就需要先对数据仓库的基本理论进行研究,然后选择合适的存储模式和正确的 存储策略。 2 1 1 数据仓库的概念与特征 计算机技术的迅猛发展使绝大多数单位都积累了大量数据,这些数据背后隐 减着丰富的知识,但往往不能被人们直观地发现。为了充分利用现有数据,为决 策提供依据,既需要联机服务又涉及大量用于决策的数据,传统数据库已无法 满足这种需求”“。随着客户n 务器( c s ) 技术的成熟和并行数据库的发展, 信息处理技术的发展趋势是:从大量的事务型数据库中抽取数据,并将其清理转 换为新的存储模式,即为了决策目标把数据聚合在一种特殊的模式中。随着此过 程的发展和完善,1 9 9 6 年,美国著名信息工程学家w h i n m o n 博士提出了“数据 仓库”的概念:“数据仓库( d a t a w a r e h o u s e ) 是一个面向主题的、集成的、稳定的、 包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。”“”“” 由上述概念可见,数据仓库有四个基本特征:数据仓库的数据是面向主题的、 集成的、稳定的、时变的吲m m 。 ( 1 ) 数掘仓库的数据是面向主题的:主题是一个在较高层次上将数据综合归类并 进行分析利用的抽象,每一个主题基本上对应一个宏观的分析领域所涉及的分析 对象,适用于分析型应用。 ( 2 ) 数据仓库的数据是集成的:由于数据源缺少统一的数据标准,导致不同数据 源的数据结构、存储平台、系统平台均存在很大的异构性,数据在进入数据仓库 之前,必须经过加工与集成,将原始数据的结构做一个从面向应用到面向主题的 转变。 ( 3 ) 数据仓库的数据是稳定的:数据仓库的数据主要供决策分析之用,所涉及的 操作主要是数据查询与统计,一般不进行修改操作,其中的数据反映的是一段相 山东大学硕士学位论文 当长时间内的历史数据,其保存时限要远远长于操作型环境中的数掘。 ( 4 ) 数据仓库的数据是随时间不断变化的:数据仓库的数据不是实时更新的,但 并不是永远不变的。为了满足决策支持系统( d s s ) 趋势分析的要求,数据仓库中 的数据要定时更新,从而使决策依赖的数据随着时间的改变而改变。数据仓库中 的数据码键都包含时间项,从而标明了该数据的历史时期。 根据数据仓库的基本特征,本文在第三章中对科技管理信息系统数据仓库的主 题进行了分析,然后进行了数据的装载设计( 即d t s 设计) ,并对数据的定时更新 进行了研究和设计。 2 1 2 数据仓库系统结构 要设计数据仓库,必需清楚数据仓库的体系结构,以便根掘其体系结构进行功 能的划分并进行具体的实现。数据仓库系统的体系结构通常分为三层:底层是仓 库数据库服务器,负责从操作数据库和外部数据源中提取数据,网问连接的接口 可以是o d b c 、o l ed b 、j d b c 、a d o 或a d om d 等,本系统选用了最适合进行多维数 据操作的a d om d 接口。中间层是o l a p 服务器,负责业务逻辑的实现,所有客户 机均可对它进行访问,由o l a p 系统实施管理。顶层是客户层,负责数据的表示, 包括查询和报表工具、分析工具和数据挖掘工具等。”“ 科技管理信息系统数据仓库采用三层结构,因为该结构使得数据都集中存储在 服务器上,所有用户都可以访问到相同的数据,提高了数据的一致性;业务逻辑 和安全规则在服务器上一次性定义后,可被所有终端用户使用,节省了客户的定 义时间;关系数据库服务器仅返回应用程序所需数据,减少了网络流量,避免了 网络拥塞;数据存储在服务器上,客户机硬件不需要具备存储和处理大量数据的 能力,节省了硬件开销;数据集中存储在服务器上,备份、恢复都很容易。 科技管理信息系统数据仓库的体系结构“”“”如图2 1 所示: 4 山东大学硕士学位论文 图2 1 科技管理信息系统数据仓库系统体系结构 2 1 3 数据仓库的数据装入与更新 科技管理信息系统数据仓库中的数据来自于各个科室、各个县区及各市直部 门,进入数据仓库之前需要经过提取、校验、清理、转换和传输等几个阶段,这 项工作的好坏将直接影响将来数据仓库系统数据的完整性、准确性和及时| 生”“。 本系统使用m i c r o s o f ts q ls e r v e r2 0 0 0 的d t s 工具实现上述功能,因为d t s 工具能自动或交互地从多个异构数据源向数据仓库装入数据,且在装入的过程中 实现数据的校验、清理和转换。d t s 还集成了微软通用数据访问( u n i v e r s a ld a t a 山东大学硕士学位论文 a c c e s s ) 技术,执行由其他语言编写的脚本程序完成必要的数据处理任务。本系统 选用v b 语言进行编程,实现d t s 数据装入任务,具体实现见4 3 节。为便于使用 d t s ,下面给出d t s 的组件模型。 图2 2s q ls e r v e r2 0 0 0 的d t s 组件模型 在科技管理信息系统运行过程中,随着事务处理系统中数据的变化,根据数据 仓库时变性的特征,数据仓库中的数据也要定时更新,更新的数据分为配置信息 和业务进展信息。配置信息存放在数据仓库的维表中,数据量不大,也不易发生 变化,选用完全更新方式。业务进展信息存储在数据仓库的事实表中,数据量很 大,且时时变化,选用增量更新方式,更新的内容是自上次更新后在o l t p 数据库 中变化了的数据。系统采用日志文件方法捕捉更新的数据,因为该方法在提取数 据时不扫描整个数据库,而只局限于日志文件,因而不影响o l t p 的性能。 2 1 4 多维数据仓库的设计 为了得到更好的数据查询响应性能,设计科技管理信息系统数据仓库时重点 考虑系统的主题和维的设计,同时考虑数据的装载策略、存取策略以及系统的长 期维护等问题。主要设计步骤如下“”: ( 1 ) 、科技管理信息系统主题的确定:通过与业务人员反复交流,详细了解他们 的业务需求、分析需求及报表需求,确定了科技管理信息系统的几个主要主题, 如:人才主题、课题立项审批主题、成果推广主题、获奖主题、经费主题、成果 山东大学硕士学位论文 的经济效益及社会效益等。 ( 2 ) 、科技管理信息系统数据仓库的逻辑设计:确定主题后,需要对主题包含 的信息进行详细定义。并对事实表和维表进行详细定义。具体实现见第三章。 ( 3 ) 、源数据抽取、转换和装载:科技管理信息系统数据仓库的数据都是来自 甜台作业系统、各科室、各部门的数据。这些数据都要经过抽取、清洗、转换后 才能装入数据仓库。数据的清洗、转换、装载操作在第四章中实现。 ( 4 ) 、数据的访问设计:科技管理信息系统中的数据按统一格式、不同主题存 放到数据仓库后,接着要进行数据的访问设计。为提高访问数据的灵活性,本课 题采用了自己编程的方式访问数据仓库中的数据,具体实现见5 3 。 ( 5 ) 、不间断的维护方案设计:科技局的领导决策时依据的是数据仓库中的数 据,如果其中的数据不进行及时更新,决策依赖的数据就会缺乏最新信息;数据 加载后,若不进行及时的预聚集,查询的速度就会下降;再则,数据仓库中的数 据量增长速度很快,若不及时进行优化,就会影响查询速度。所以,科技管理信 息系统数掘仓库需要定时维护,否则它的性能就会越来越差。上述内容将分别在 后续章节中实现。 2 2o l a p 技术 我在与科技管理局领导及各科室交流的过程中发现,要想对该局的数据进行 高效、快速、灵活、准确地查询与分析,并以直观易懂的形式将查询结果展现给 他们,必须采用o l a p 技术,o l a p 技术的具体要求由其系统准则进行了限定。 2 2 1o l a p 系统准则 联机分析处理( o l a p ) 的概念是1 9 9 3 年由e f c o d d 博士提出的,在提出该 概念的同时,c o d d 博士提出了o l a p 系统的1 2 条准则: 1 、o l a p 模型必须提供多维概念视图:用户决策分析的目的不同,分析问题的 角度也就跟着变化,而被分析的数据本身是多方面的,因此o l a p 的概念模型是多 维的。 2 、透明准则:对用户和最终分析员来说,o l a p 都是透明的。 3 、存取能力准则:o l a p 系统不仅能进行开放的存取,还能提供高效的存取。 4 、稳定的报表能力:当系统数据的维数和层次数增加时,提供给最终分析员 山东大学硕士学位论文 的报表能力和响应速度不应该有明显的减慢。 5 、客户月务器体系结构:o l a p 是建立在客户服务器体系结构之上的。 6 、维的等同性准则:系统的每一数据维在数据结构和操作能力上都是等同的。 7 、动态的稀疏矩阵处理准则:o l a p 工具必须提供最优的稀疏矩阵处理能力。 8 、多用户支持能力准则:多个用户分析员可以同时工作于同一分析模型上或 在同一数据上建立不同的分析模型。 9 、非受限的跨维操作:系统的多维数据之间存在着固有的层次关系,系统应 提供计算完备的语言来定义各类计算公式。 1 0 、直观的数据操纵:科技管理信息系统中的数据操纵都比较直观,其中的 向上综合、向下挖掘和其它操作都能通过直观、方便的操作来完成。 1 1 、灵活的报表生成:科技管理信息系统的报表应能从各个方面显示出从数 掘模型中综合出的数据和信息,充分反映数据分析模型的多维特征。 1 2 、不受限维与聚集层次:分析员可以在任意给定的综合路径上建立多个聚 集层次。 2 2 2o l a p 的特点及结构 本文之所以选用联机分析处理( o l a p ) 方式对科技管理信息系统进行分析,是 因为它具有以下几个突出特点”: 快速性( f a s t ) :o l a p 能在几秒钟内将分析结果呈现给用户。可分析性 ( a n a l y s i s ) :o l a p 系统能处理与应用有关的任何逻辑分析和统计分析,并可事先 编程实现所要求的分析。多维性( m u l t i d i m e n s i o n a l ) :系统能够提供对数据分析 的多维视图,使最终用户能从多角度、多侧面、多层次考察数据库中的数据。共享 性( s h a r e d ) :o l a p 使得出的数据能被共享。信息性( i n f o r m a t i o n ) :o l a p 应用 能访问所有与应用有关的数据,且数据量可以相当大。 上述特点正是科技管理信息系统所需要的,所以本文选择o l a p 方式对数据仓 库中的数据进行分析。那么,如何构建科技管理信息系统的o l a p 模型呢? 在构建 该系统时,本文采用了将o l a p 与o l t p 分开的三层体系结构,如图2 3 示”: 8 山东大学硕士学位论文 数据仓库细节数据 第三层:企业服务器 基享数据存储 与基层运作系统的连接 数据仓库综合数据 o l a p 服务器 第二层:应用服务器 共享局部数据 共享应用逻辑 i j i 端软件 第一层:客户 最终用户功能 数据显示 个人数据存储 个人应用逻辑 图2 _ 3科技管理信息系统o l a p 的三层体系结构 2 2 ,3o l a p 的性能 科技管理信息系统的o l a p 主要具有以下性能: l 、多维视图能力:科技管理信息系统的数据模型本身是多维的( 如科技人员 立方有时间维、专业维、学历维、职称维组成) ,使得分析人员可对数据库中的信 息进行灵活访问( 上卷、下探、切片、切块、旋转等) ,并能在任何维、任何级别 上聚集分析数据。 2 、强大的计算能力:科技管理信息系统的o l a p 通过m d x 语句支持复杂的计 算,如百分比计算、趋势分析、位移平均值和增长百分比等,正是o l a p 强大的执 行复杂计算的能力,使得管理决策人员从数据仓库的数据中发现信息、得到知识, 并将原始数据转化成他们需要的信息。 3 、o l a p 中均包含时间项:科技管理信息系统的o l a p 中都包含时间项,它是 决策人员进行趋势分析的基础。 2 2 4o l a p 按数据组织方式的分类 科技管理信息系统的数据组织方式非常重要,它直接影响数据分析的速度和 质量。根据o l a p 服务器端数据组织方式的不同,o l a p 分为多维o l a p ( m o l a p ) 、 关系型o l a p ( r o l a p ) 和混合型o l a p ( h o l a p ) 三种结构m 州咖。 m o l a p ( m u l t i d i m e n s i o n a lo l a p ) 利用专有的多维数据库存储数据,多维数据在 存储中形成立方( c u b e ) 结构,并以多维视图的方式显示。在这种结构中,分散的 数据经过提取、清理、转换等步骤后提交给多维数据库,但存入多维数据库前要 山东大学硕士学位论文 进行一系列的预处理,并将结果按一定的层次结构存入多维数据库中。该存储结 构能迅速响应决策人员的分析请求,并快速将分析结果返回给用户。但因进行了 较多的预处理,灵活程度差。 r o l a p ( r e l a t i o n a lo l a p ) 的底层数据库是关系型数据库,其中的数据预处理程 度比较低,响应速度比较慢。 h o l a p 存储方式中,它的底层是关系型的,高层是多维矩阵型的,事实表按 r o l a p 方式存储,预先计算的聚合按m o l a p 方式存储。 这三种存储方式在处理时间及附加空间的要求上均有较大的差别。根据e r i k t h o m s e n 等人的试验,当请示现有聚集的查询时它们之间的差异如表2 2 所示“”。“。 起始r d b m s 大小:1 0 6 9 0 9 m b 存储形式处理时间中的差别附加数据大小 m o l a p 0 3 1 8 0 m b h o l a p一1 0 0 3 4 5 m b r o l a p1 0 1 9 7 1 2 0 m b 表2 2 请示现有聚集查询时三种存储方式的处理时间及附加数据大小比较 由表中数据可见,当请示现有聚集的查询时,r o l a p 花费最多的处理时间,且 要求最大的额外磁盘存储空间。h o l a p 花费最少的处理时间,且要求最小的存储空 间。m o l a p 的处理时间比h o l a p 略长,但比r o l a p 要快1 0 倍以上。 但是,h o l a p 不存储源数据的复本,当需对源数据进行查询而该单元又没有对 应的聚合数据时,必须从关系数据库中检索数据( 称作请示叶子数据) ,这时需要 的时间同r o l a p 结构相当。具体见表2 3 ( 表中的数据为执行相应操作所需的时 间,单位为秒) 。 存储模式根据现有聚集请示现有聚集 请示叶子数据 进行查询的查询 聚集的查询 m o l a p 1 1 4 1 h o l a p 1 0 ) , m e a s u r e s y y j f 一 m e a s u r e s j f z e ,n u l l m e m b e r m e a s u r e s c z b l a s n o ti s e m p t y ( m e a s u r e s c z e ) m e a s u r e s j f z e s e l e c tf m e a s u r e s y y j f , m e a s u r e s j f z e , m e a s u r e s c z e , m e a s u r e s e z b l ) o nc o l u m n s ( q f s k t n a m e ,n o ti s e m p t y ( m e a s u r e s c z e ) ) ) o n r o w s f r o mp l a n c u b e w h e r e t i m e y e a r c u r r e n t m e m b e r 展示推广次数最多的前2 0 项成果: t o p c o u n t ( g a in m e m b e r s ,2 0 , m e a s u r e s c g x s ) 4 2 山东大学硕士学位论文 统计上年度各类专业成果的数量及推广后所创价值: w i t hm e m b e r m e a s u r e s n u m b e ro fh a r v e s t a s s u m ( e g x s a nc g x s ) m e m b e r m e a s u r e s p r i c eo fh a r v e s tc r e a t e d a s s u m ( s c j z a l ls c j z ) s e l e c t m e a s u r e s 【n u m b e ro fh a r v e s t , m e a s u r e s p r i c eo fh a r v e s t c r e a t e d ) o nc o l u m n s h a r v e s t z y l y o nr o w s f r o me x t e n d c u b e w h e r e ( t i m e y e a r c u r r e n t m e m b e r 一1 ) 将2 0 0 2 年各领域成果按推广次数按降序排列: o r d e r ( h a r v e s t f 【l e m b e r s ,( m e a s u r e s t g c s , t i m e 2 0 0 2 , h a r v e s t - y y l y ) ,b d e s c ) 查询拥有成果数量最多的三个单位: t o p c o u n t ( a l lh a r v e s t m e m b e r s ,3 ,( t a l e n t s z d w d w l b , m e a s u r e s c g j s ) ) 山东大学硕士学位论文 第五章科技管理信息系统的接口设计 由科技管理信息系统数据仓库的体系结构可见,本系统a n a l y s i ss e r v i c e s 的两个主要组成部分是a n a l y s i ss e r v i c e s 服务器和客户端“。前面已对科技管 理信息系统的a n a l y s i ss e r v i c e s 服务器进行了详细设计,为了进行科技管理信 息系统客户端的接口设计,下面首先研究o l a p 客户端的体系结构。 5 1 科技管理信息系统o l a p 客户端的体系结构 科技管理信息系统客户端体系结构的核心是数据透视表服务( p i v o t t a b e s e r v i c e s ) ,它是连接a n a l y s i s 服务器和用户的桥梁,用户通过接口访问数据透视 表,数掘透视表又可直接访问a n a l y s i s 服务器“”。本系统使用数据透视表服务在 线访问o l a p 数据和数掘挖掘模型、在线分析并进行数据预测。通过使用数据透视 表服务的缓存管理功能,本系统还能对缓存中的数据进行离线分析。图5 1 为科 技管理信息系统a n a l y s i ss e r v i c e s 客户端的体系结构8 1 。 4 4 山东大学硕士学位论文 牌磁瑞器l 岫如服务器lr 磊磊赢 带o l a p 扩展的o l e d b2 5 接口 带有用于o l a p 扩展的a d om d 州丁o l a p 的客户端应用 数据透视表服务 本地数据挖掘 模型的数据源 d b 数据源 本地挖掘模型 本地立方的 o l e d b 数据源 本地多维 数据集 带o l a p 扩展的o l e d b2 5 接口 带o l a p 扩展 的a d 0m d o l a p 客户端应用 图5 1 科技管理信息系统a n a l y s i ss e r v i c e s 客户端的体系结构 由图可见,科技管理信息系统的数据透视表服务是实现将o l a p 立方从o l a p 服务器传递到客户端应用程序的工具。它向开发者提供了两个查询o l a p 数据源的 接口:一个是直接为o l a p 服务的o l ed b 接口,另个是建立在o l ed b 之上的 a c t i v e x 多维数据对象( a d om d ) 接口”1 。o l ed b 接口直接与数据透视表服务相 连接,适于采用v c 语言编程访问,a d o 4 d 是对o l ed b 的封装,适于采用v b 语言 编程访问。由于采用v b 语言编程访问a d om d 接口可降低程序的复杂性,本系统 选用了v i s u a b a s i c6 0 对a d om d 接口进行访问,并配合m d x 语言对立方中的 数据进行查询或聚集。因为a d om d 是适于访问多维数据的接口,而m d x 是专门用 来查询多维数据源的语言,因而在分析数据时,科技管理信息系统中的各组件无 缝地工作在一起,兼容性极好。 因为要对接口进行编程,下面对接口进行探究。 5 2 科技管理信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论