(计算机软件与理论专业论文)基于lc模型的多维信息系统框架的设计与实现.pdf_第1页
(计算机软件与理论专业论文)基于lc模型的多维信息系统框架的设计与实现.pdf_第2页
(计算机软件与理论专业论文)基于lc模型的多维信息系统框架的设计与实现.pdf_第3页
(计算机软件与理论专业论文)基于lc模型的多维信息系统框架的设计与实现.pdf_第4页
(计算机软件与理论专业论文)基于lc模型的多维信息系统框架的设计与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)基于lc模型的多维信息系统框架的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海海事大学硕士学位论文 摘要 联机分析处理是创建多维信息系统的重要技术,它使得分析人员能够 从多角度对数据进行快速、一致、交互的存取,从而发现数据之间的内在 联系和其中包含的规律,并为决策者提供决策支持。自从o l a p 技术出现 之后,基于o l a p 技术的多维信息系统在国外得到了快速的发展,其应用 范围也在不断的扩大。但是,国内多维信息系统的建设大都处于报表和 o l a p 阶段,其应用水平还比较低。 本文介绍了多维信息系统的开发框架一一i s f x 。该框架以内容定位 ( l c ) 模型为基础,并对该模型作了进一步的细化和扩充。i s f x 框架分为 五个层:基础服务层、集成服务层、联机分析服务层、业务空间层以及方 法库。基础服务层为框架中其它各层提供最基本的服务;业务空间层建立 了用户的需求分析和分析服务数据库的映射关系,集成服务与数据源、数 据仓库的映射关系;集成服务层是一组通用的、可扩展的e t l 访问接口; 联机分析服务层是一组通用的可扩展的联机分析服务数据访问接口;方法 库是建立在对我国政府机关、企业单位的调查并根据它们的实际情况和对 数据分析的实际需求的基础上。它将用户常见的业务分析问题进行归类, 针对不同的业务问题进行不同的业务分析。利用这些统计分析方法得到的 统计分析结果不仅能够反映数据的计数、汇总等统计信息,更能发觉数据 的内在联系,以掌握事务的发展趋势,提高决策的科学性。 本文对内容定位模型作了迸一步的细化和扩充,对基于内容定位模型 的多维信息系统框架的体系结构进行了深入研究,完成了该框架的体系结 构的分析和设计。最后对全文作了总结,并给出了进一步的研究方向。 关键词:联机分析,内容定位模型,业务空间,方法库,集成服务 上海海事大学硕士学位论文 t h ea n a l y s i s d e s i g no ft h em u l t i d i m e n s i o n a l i n f o r m a t i o ns y s t e mb a s e do nl cm o d e l a b s l l r a c t o n l i n ea n a l y s i sp r o c e s si sa ni m p o r t a n tt e c h n i q u ei n b u i l d i n g m u l t i d i m e n s i o n a li n f o r m a t i o ns y s t e mb yw h i c hd a t aa n a l y s tc a nh a v e f a s t 。c o n s i s t e n ta n di n t e r a c t i v ea c c e s st ot h ed a t aa n dg e ta l ik i n d so f m u l t i d i m e n s i o n a lv i e wo fj n f o r m a t i o n h e n c e t h el n n e rr e l a t i o n s h i p b e t w e e nd a t aa n dt h er u l e sh i d d e nb e h i n dt h e mc a nb ef o u n do u ta n d t h e nd e c i s i o n - m a k e r sc a nb ep r o v i d e dw i t hm u c hs t r o n g e rd e c i s i o n s u p p o r t s s i n c et h ec o n c e p to fo l a ph a sb e e np u t f o r w a r d ,t h e m u l t i d i m e n s i o n a ii n f o r m a t i o n s y s t e mw h i c h i sb a s e do no l a p t e c h n o l o g yh a v ed e v e l o p e dr a p i d l yi nt h ep a s tf e wy e a r sa n dt h er a n g e o ft h em u l t i d i m e n s i o n a | n f o r m a t i o ns y s t e mh a v eb e e ne x p a n d i n g b u t t h es t a t u so ft h em u l t i d i m e n s i o n a i n f o r m a t i o ns y s t e mi no u rc o u n t r yi s o nt h er e p o r t i n ga n do l a pl e v e lw h i c hi saq u i t ei o wi e v e l t h ep a p e rr e p r e s e n t st h em u l t i d i m e n s i o n a ii n f o r m a t i o ns y s t e m f r a m e w o r k ( i s f x ) t h ei s f xf r a m e w o r ki sb a s e do nt h el o c a t e d c o n t e n t sm o d e ia n dm a k e st h em o d e ia se x t e n s i b l sa sp o s s i b l e t h e f r a m e w o r kc a nb ed i v i d e di n t o f i v e j a y e r s :b a s i cs e r vj c e sl a y e r 。 i n t e g r a t i o ns e r v i c e sl a y e r ,a n a l y s i ss e r v i c e sl a y e r 。b u s i n e s ss p a c e l a y e ra n da n a l y s i sl i b r a r yl a y e r t h eb a s i cs e r v i c e sp r o v i d e st h e c o m m o ns e r v i c e sf o ro t h e rp a r t s b u s i n e s ss p a c ee s t a b l i s h e st h e m a p p i n gb e t w e e nt h ec u s t o m e r sr e q u i r e m e n t sa n da n a l y s i ss e r v i c e s d a t a b a s e s ,t h er e l a t i o n s h i pb e t w e e nt h ei n t e g r a t i o ns e r v i c e sa n dd a t a s o u r c e i n t e g r a t i o ns e r v i c e si sac o m m o na n de x t e n s i b l ee t ld a t a a c c e s si n t e r f a c e a n a l y s i ss e r v i c e sl sac o m m o na n de x t e n s i b l eo n l i n e a n a l y s i ss e r v i c e sd a t aa c c e s sj n t e r f a c e a n a l y s i sl i b r a r yi sb a s e do nt h e l o c a t e dc o n t e n t sm o d e l m a n ys t a t i s t i c a im e t h o d sa r ei m p o r t e da n d a p p l i e dt od a t aa n a l y s i sp r o c e s s ,w h i c ha r es t o r e di nt h ea n a l y s i s l i b r a r y n o to n l ys i m p l ei n f o r m a t i o n s u c ha s d a t ac o u n t i n ga n d s u m m a r y 。b u ta l s ot h ei n n e rr e l a t i o n s h i pb e t w e e nd a t ac a nb eo b t a i n e d f r o m a n a l y s i s r e s u l t s g o tb yu s i n g t h e s em e t h o d s h e n c e t h e d e v e l o p m e n tt r e n dc a nb el e a r n t w h i c hi m p r o v et h es c i e n t i f i cd e c i s i o n t h ep a p e rn o to n l yi n t r o d u c e st h el cm o d e lb u ta l s om a k e sf u r t h e r s t u d yo ft h em u l t i d i m e n s i o n a li n f o r m a t i o ns y s t e mb a s eo nt h el cm o d e l a n di m p l e m e n t st h e a n a l y s i s a n d d e s i g n o ft h ea r c h i t e c t u r eo f m u l t i d i m e n s i o n a li n f o r m a t i o ns y s t e mf r a m e w o r k i i 圭塑塑! 盔堂堡主兰篁堡兰 f i n a l l y ,t h ed i s s e r t a t i o n m a k e ss u m m a r i z ea n dp r e s e n t sf u r t h e r r e s e a r c hd i r e c t i o n j i n gx i a o ( c o m p u t e rs c i e n c e ) d i r e c t e db yw a n gw e i y a n g k e y w o r d s :o l a p ,l o c a t e dc o n t e n t sm o d e l ,b u s i n e s ss p a c e a n a l y s i sl i b r a r y ,i n t e g r a t i o ns e r v i c e s i l l 论文独创性声明 本论文是我个人在导师指导下进行的研究工作及取得的研究成果。 论文中除了特别加以标注和致谢的地方外,不包含其他人或者其他机构 已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献 均已在论文中作了明确的声明并表示了感谢。 作者签名:丝赴日期:趁:z 论文使用授权声明 本人同意上海海事大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文复印件,允许论文被查阅和借阅;学校可以上网公布 论文的全部和部分内容,可以采用影印、缩印或者其它复制手段保存论 文。保密的论文在解密后遵守此规定。 作者签名:丝霞 导师签名:迎日期:丝芝z 上海海事大学硕士学位论文 1 1 论文的研究背景和意义 第一章引言 传统的数据库技术是单一的数据资源,即以数据库为中心,进行事务 处理、批处理到决策分析等各种类型的数据处理工作川。近年来,计算机 技术正在向两个不同的方向拓展:一是广度计算,二是深度计算。广度计 算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流。互 联网就是广度计算的典型应用。另一方面,人们对以往计算机的简单数据 操作提出了更高的要求,希望计算机能够更多地参与数据分析与决策制定 等领域。这种分离划清了数据处理操作型环境与分析性环境的界限。这种 分离的结果,导致了数据仓库的出现和迅速发展。 每一项新技术的出现都会有它的应用背景,对于数据仓库来说也不例 外,自从2 0 世纪8 0 年代以来,国内掀起了企业信息化建设的热潮,管理 信息系统逐渐盛行。经过2 0 多年的发展,管理信息系统能够较好地满足 企业日常经营管理的一般要求,同时也为企业积累了大量宝贵的原始数 据。但企业的经营决策者面对这些纷繁复杂的细节数据、面对着堆积如山 的报表和海量信息、面对形态各异的管理信息系统,总感到“不是我想要 的数据”1 2 。若从中获得有价值的企业决策和趋势分析信息犹如海底捞针 一般。而可以帮其拟定策略的信息,要么不知从何寻找,要么费尽心力找 到后却时过境迁。渐渐地,企业的管理层和决策者颇有一种被裹入到“数 据迷雾”中的感觉。长此以往,信息系统在他们的眼里失去了往日的魅力, 利用信息技术打造企业持久竞争优势的口号也就风光不再。现有的管理信 息系统所提供的单一、静态豹数据信息已经很难满足决策者所需要的分层 次、多维度、前瞻性的需求。数据仓库的出现和发展是数据库系统应用到 一定阶段的必然产物。网络技术的飞速发展,使每个人、每个企业可以在 充分利用全世界的信息资源的前提下做出自己的决策。人们不仅仅通过计 算机访问数据,更重要的是通过对信息的分析、归纳和再学习,做出科学 的决策。数据仓库为科学决策提供了一种科学的、智能的信息支持1 3 】。 近年来,以联机分析处理为核心的多维信息系统( m u l t i d i m e n s i o n a l i n f o r m a t i o ns y s t e m ) 逐渐成为企业信息化建设发展的方向。多维信息系统 以企业中的数据仓库为基础,加上联机分析处理工具、数据挖掘工具、报 表服务工具以及决策规划和决策分析人员的专业知识,从海量数据中获得 上海海事大学硕士学位论文 有用的信息和知识,帮助企业获取利润。由于以o l a p 为核心的多维信息 系统缺少像关系数据模型一样的理论基础,因此每一个开发商会按照自己 的标准去开发不同的多维信息系统。这种混乱的局面必然会制约多维信息 系统的应用与普及【4 】。本文对内容定位模型的理论基础进行研究,并提出 了一个基于l c 模型的多维信息系统开发框架。基于该框架开发的多维信 息系统能够提供一个统一的、可兼容的多维信息系统。故选择这方面的论 文有重要的理论意义和实际商业价值。 1 2 企业级多维信息系统的研究现状 对于一个大型企业而言,至少会存在若干个数据集市或者一个数据仓 库。这些数据集市类似于部门级的数据仓库【引。多维信息系统既可以直接 访问数据仓库来获取数据从而进行数据分析、生成报表或者进行数据挖 掘,也可以直接连接到不同的数据集市上获取数据。在企业内部,不同的 数据集市之间也需要做一些数据模型,这些模型依赖于不同的业务逻辑来 进行设计的。多维信息系统既可以通过获得这些单独的数据模型来获得所 需的数据并进行各种分析,也可以同时访问多个不同的数据模型从而进行 数据分析、生成报表或者进行数据挖掘。在一些企业中,可能还会有一些 多维数据集作为数据源。对于多维数据集,也会有相应的数据模型。0 l a p 客户端程序就可以通过访问多维数据模型从而得到对多维数据集的访问。 以上这些信息基本上就是企业级多维信息系统的现状。然而,现在的 企业级的多维信息系统的现状存在很多的问题,这些问题主要表现在以下 几个方面: 首先,在数据源方面,存在大量重复性的数据。在数据仓库,数据集 市,多维数据集中的很多数据都是重复的,它们只是以不同的数据形式进行 体现。 其次,对于不同数据集市或者多维数据集中的数据模型中,也可能存 在重复的或者相同的数据模型。这些数据模型除了数据源不同之外,其它 方面基本上都是相似的或者一样的。 最后,多维数据分析工具一般会包括两部分:0 l a p 工具和报表工具。 0 l a p 工具主要用于访问多维数据集,而报表则是用来访问数据仓库和数 据集市。这种现象就会产生很多问题:以数据源为例,由于管理人员需要 维护大量的数据源,因此,很容易引发所谓的数据孤岛问题。在数据模型 方面,维护的工作量也会变得很大。 2 上海海事大学硕士学位论文 为了解决上述存在的问题,需要一个统一的模型。该模型可以将数据 集市、数据仓库或者多维数据集中的多个数据模型统一到一起。所有的数 据访问都通过统一的数据模型进行的。同时,这个数据模型可以连接到后 台不同的数据源,包括多维数据集,数据仓库和数据集市1 3 j 。对于前台的 用户,不管它是o l a p 的用户还是报表的用户,他们看到的都只是一个统 一的数据模型。用户也不需要考虑数据源具体的存放位置。内容定位模型 ( l o c a t e dc o n t e n t s ) 模型正是解决上述问题的一个比较理想的模型。 1 3 论文的研究目标和研究内容 本论文的主要研究目的包括: n 建立以l c ( l o c a t e dc o n t e n t s ,内容定位) 模型为核心的多维信息 系统框架,研究它的体系结构。 2 1 在这个框架上开发出的多维信息系统可以允许开发人员或者最终 用户提出各种各样的分析要求,采用各种不同的分析方法,并生 成表达分析结构的多种视图的方法库的设计。 本论文的主要研究内容包括: 1 1 研究内容定位模型。 2 1 研究基于内容定位模型的方法库的分析和设计。研究在方法库中, 最终用户层面由用户提出“分析要求”的生成算法,以及按照分 析要求计算分析结果的算法。 3 1 研究基于内容定位模型的多维信息系统框架的设计和实现,并研 究其实现算法。 1 4 论文结构及章节安排 全文共分为六章,内容安排如下: 第一章:引言。本章介绍了多维信息系统的研究现状、论文的研究背 景以及研究意义,同时还给出了论文的研究目的和研究内容。 第二章:l c 模型及其方法库。本章对内容定位( l o c a t e dc o n t e n t s ) 模 型的概念和理论做了介绍,并阐述了基于l c 模型的方法库的理论基础。 第三章:m i c r o s o f tb i 体系结构。由于系统的实现部分是基于微软b i 开发工具,主要介绍了微软b i 开发工具的体系结构。 第四章:i s f x 体系结构的分析与设计。i s f x 框架是一个基于l c 模型 上海海事大学硕士学位论文 的多维信息系统开发框架。本章对i s f x 框架的各个层次之间的功能以及 层与层之间的接口进行了详细的分析和设计。 第五章:系统应用实例及功能设计。本章介绍了基于i s f x 框架设计开 发的材料分析系统。介绍了材料分析系统的数据仓库的设计、集成服务包 的设计、联机分析的设计以及方法库的定义等等。 第六章:工作总结与展望。对全文进行总结,并对进一步的工作进行 了展望。 其中,第一章、第二章侧重于阐述论文的理论基础;第三章介绍了系 统的开发工具;第四章、第五章侧重于描述系统的实现平台以及实现方法。 第六章对论文做了总结并给出了下一步的工作。 4 上海海事大学硕士学位论文 z 1l c 模型 2 1 1 设计目标 第二章l c 模型及其方法库 如果用户希望直接访问类似数据库之类的数据源,他们可能将面临很 大的挑战,这些挑战主要表现在以下几个方面【6 j : 数据源的内容通常很难理解。由于数据源是面向系统和开发人员而 设计的,因此它没有考虑到一般用户。一般用户无法理解数据源的 内容。 用户感兴趣的数据通常分布在多个数据源上。仅仅是处理多个不同 的关系数据库,也需要用户了解它们的不同之处( 例如,不同的 s o l 语法) 。更糟糕的是,这些数据源可能属于不同的类型。不仅 包括关系型数据库,甚至包括文件和w e bs e r v i c e 。 多数数据源包含大量的事务级细节数据,而许多情况下,那些为企 业服务的查询需要包含总结性的、聚合的信息。随着数据量的不断 增大,查询这些聚合信息所需要的时间越来越不能被交互式的用户 分析所承受。 数据源中通常不包含商业逻辑。用户只能自己来理解这些数据。 l c 模型是解决上述可能存在的问题的一个有效的数据模型。它的作用 就是在用户和数据源之间提供一个桥梁,它构建在一个或多个物理数据源 之上,用户可以通过e x c e l 或者其它客户端工具向其递交查询。 图2 - 1 显示了l c 与用户以及数据源之间的关系。 5 上海海事大学硕士学位论文 竺叭 分析服务 长lc _ 一、 薹寸7 m i e r o s o f t 一1 ,j 器( 例如, 曲握隹甫j 。 _ 。- 。_ _ 。_ _ 一 ,a n a l y s i s 二纠 s e t v c e s ) - 一v 竺窿j 。_ - _ _ _ 。- 一 图2 1l c 与用户和数据源之问的关系 从上图可知,l c 的作用是在用户和数据源之间搭建一座桥梁,它屏 蔽底层异构数据源中的数据,向用户展示了命名友好的,而不是来自于底 层的面向开发人员命名习惯的数据源信息。同时,它还提供给用户一种聚 合查询,为各业务领域的管理和决策人员提供完全面向业务的、灵活的和 易用的数据分析。 2 1 2l c 模型概述 内容定位( l o c a t e dc o n t e n t s ) 模型是一个功能性地以逻辑和数学为基 础的数据模型。它由一些类型、将类型组织成l c 模式的方法,以及通过 一个或多个模型将结构化类型联系到数据集的方法组成的。在l c 模塑中, 术语“内容”是指那些没有特定实例的类型,术语“定位器”是指那些有 特定实例的类型。利用该模型建立的各业务领域内的多维信恳系统,可以 解决该领域内的各种分析问题【3 1 。 内容定位模型的核心特征是对称性,这种对称性表现在维度和度量的 对称,数据和元数据的对称。 1 维度和度量的对称性 从个较高层来说,l c 模型是由一些类型、将类型组织成l c 模式的 方法,以及通过一个或多个模型将结构化类型联系到数据集的方法组成的 【3 l 。那些在其它o l a p 产品中称为维度或者度量的东西,在l c 模型中被 称作类型。因此,在一个典型豹环境中,经典的维度“时间”和“商店” 被作为类型来处理。而度量“销售额”和“成本”也被作为类型来处理。 类型定义了可以被定义、查询或者计算。由于一个类型作为维度和作为度 量的差别是基于其在表达式中是如何使用的,因此没有严格地限制分析人 6 上海海事大学硕士学位论文 员是否需要将类型声明为度量或者维度。其中地的差别可以从查询、定义 和计算中明显地区别出来。 输入字符串解析为类型名t 5 ( 读作“类型x ”) 和类型实例i 5 n ( 读作 类型x 的第n 个或某个实例) ,那些没有特定实例的类型称为内容, 因此,查询: s e l e c ts a l e sw h e r es t o r e = c a m b r i d g ea n dy e a r = 19 9 6 可以解析为:t 1 :s a l e s ,t 2 :s t o r e ,i 2 n :c a m b r i d g e ,t 3 :y e a r ,i a n :1 9 9 6 。 同时读做:s a l e s 是类型1 的名称;s t o r e 是类型2 的名称;c a m b r i d g e 是类型2 的第n 个实例;y e a r 是类型3 的名称:1 9 9 6 是类型3 的第n 个f 或 某个1 实例。 查询的结果集是s a l e s 类型中对应于c a m b r i d g e1 9 9 6 的一组实例的集 合。 对于这个查询来说,s a l e s 是内容,而s t o r e 和t i m e 则是定位器。 与之对应的是,在查询: s e l e c ts t o r ew h e r es a l e s 3 0 0 中,s t o r e 变成了内容,而s a l e s 是位置。 维度与度量的对称性适用于所有的操作,而不仅仅是查询【3 】。因此, 可以创建一个多维模型,其中使用销售的划分和商店作为维度,而使用销 售次数作为内容。 2 数据和元数据的对称性 除了提供维度和度量之间的对称性外,类型还提供了所谓的数据和元 数据之间的对称性1 引。它们之间的差别也仅仅是功能上的。因此类型( 通 常被认为是元数据) 的实例可以被作为输入条件,而输出则可以是另一种 类型的实例。例如,一个大型特约代销点公司希望分析商店数量随时问和国 家变化趋势。在这里,商店维度元数据就变成了数据。如果该销售商试图 分析在商店在某个时间段内的销售数据,则商店维度就变成了元数据。 2 1 2 类型的约束 l c 模型模糊了维度和度量的区别,它使用类型取代传统意义上的维度 或度量f 引。对于l c 模型的用户而言,无需了解该类型是维度或者度量, 它只需在表达式中给出类型或者类型的实例即可。类型具有维度和度量的 共性。类型也拥有约束条件。类型的约束条件主要表现在多样性和惟一性。 1 多样性 7 上海海事大学硕士学位论文 类型的多样性主要表现在一个类型至少需要两个可能的实例。 如果某个类型t “( 读作类型n ) 只有一个可能的实例,i “;( 读作类型n 中的实例x 1 ,那么就无法创建一个命题,其中t “可以作为一个包含断言 和否定为谓词。以下就是一个例子: i “v = ( t n ,t “i “x ) ! ( i “,) ( t r , t m i “;) 也就是说,当且仅当对于类型m 的同一个实例x ,类型n 的实例y 的 非为假时,存在某个类型m 的实例x 使得类型n 的实例y 为真。 例如,假设类型颜色有两个实例:绿色和红色,那么上面语句的含义可 以按照如下方式理解:存在某个类型比如“地球的一部分”中的实例“海 洋”使得类型“颜色”的实例“绿色”为真,当且仅当“海洋”的“颜色” 是“红色”为假。因此,如果类型中有且只有个实例一一“绿色”,那 么就无法说明某些实例具有不同于绿色的颜色,或者也无法说清楚如果绿 色为真,那么其它非绿色的颜色为假这个命题。因此,布尔或者二元的类 型是最简单的类型。 如果类型中的实例小于两个,不仅会导致无法使用真值和断言否定表 达式,而且会导致类型不能用于做任何比较。如果任何可以想象的事务对 所有情况都为真,所以就不能区别任何事务,任何其它事务也无法使用它 来区别。因此,单个实例的类型不仅违反了逻辑的基本要求,更违反了信 息承载能力。 2 惟一性 类型的惟一性类型的每一个实例都应该是惟一的和互斥的。 例如:类型t n 拥有实例i n l , i “2 ,i “3 ,i “4 ,这就意味着对于所有的i 都是彼此 不同的( 惟一性) ,而且如果某个i 在某个命题中为真,那么所有其它的实 例都应该为假。即:不会有两个实例同时为真。 为了说明为什么类型的实例都必须唯一和互斥,我们用反正法来证明。 假设在一个明确定义的维度中存在两个相同的实例, 即t o = i n l ( 1 ) i “2 ,i n 2 ,i 4 1 ( 2 ) , 那么,我们现在来考虑命题i “,( i n l ( 1 ) ) = ( t n , t ”i “x ) 为真。 我们不能说i “y ( i n l ( 1 ) ) 的否定为假,因为还存在另乡卜一个实例i ”, 即,i “y ( i 4 1 ( 2 ) ) 可能为真。这样与上文论述的多样性相矛盾,违背了逻辑 规则。 类型可以拥有任何形式地种或者多种层次。层次可以是水平的、非 8 上海海事大学硕士学位论文 水平的或者两者的混台。因此,类型提供了丰富的维结构。 类型可以通过笛卡儿积、插入、连接、1 一n 和1 1 等结构操作进行 联合。从这个意义上来说,类型具有像集合一样的行为,并且可以支持类 似关系代数中的集合操作。 类型还可以在等式中使用,我们可以将类型用作独立变量( 等式的右 边) 、依赖变量( 等式的左边) ,或者在等式的两边使用类型的一个实例。 也就是说,公式可以在类型的实例或者类型之间建立联系。在l c 模型中, 对于可以定义的计算没有严格的限制。 2 1 3 模式和模型 通过将类型按照l c 的方式进行合并或者结构化就可以形成一个模式。 组织成l c 的形式意味着在结构中至少有一个类型( 作为定位器或者经典 的维度) 已经被实例化,同时至少有一个类型( 作为内容或者经典的度量) 没有被实例化, 一个能增长的模式( 更多的时候我们将其称为模型) 可以通过将一个 模式与数据集联系起来定义。这个也就是立方体的真正含义。 例如在表2 1 中,假设拥有类型时间、商店、产品、销售额和一个拥 有同样字段的表格。 时间商店产品销售额 1 月 北京 鞋子¥1 00 0 0 1 月北京衬衣¥2 50 0 0 1 月上海鞋子 ¥3 00 0 0 1 月上海衬衣y 2 00 0 0 1 月天津鞋子 ¥1 2o o o 式 表2 - 1 模式与模型示例 将时间、商店和产品作为定位器,将销售额作为内容就会形成如下形 ( t i m e os t o r e op r o d u c t ) s a l e s 夺其中标点符号“”表示类型中的每个不同的实例,标点符号“o ” 表示类型之间的叉积所以等式左边表示了对问、商店和产品中所 有实例的叉积。 夺操作符“”表示等式左右两边的集合是一对一的关系。 夺不带有符号“”的类型名表示该实体中的某些实例 9 上海海事大学硕士学位论文 也就是说,时间、商店和产品维度中每个实例的组合都对应了销售额 的某个值。这个就是对销售额进行度量的含义。即,当对销售额进行度量 的时候,就事先已经知道了需要度量的商店、时间和产品名,这样才可以 进行度量。如果不知道这些信息,那么得到的销售额就没有实际意义。 如果需要度量的不是特定商店时间产品组合的销售额,而是需要考察 2 0 0 0 年销售额在不同商店的分布情况,那么会怎样呢? 可以使用如下的表达式: ( s a l e s b i n op r o d u c t a l l0t i m e 2 0 0 0 ) c o u n t ( s t o r e ) 等式左边每个销售额区间,所有的产品和2 0 0 0 年的叉积都会和等式右 边的商店数量相联系起来。 2 2 方法库 2 2 1 方法库概述 通过上节的介绍,我们知道l c 模型是就是将类型按照内容定位的方 式进行合并成若干个模式。然而,l c 模型并没有给我们提供任何具体的 方法。本文提出的方法库则是对l c 模型的一个扩充。它实现了将类型按 照内容定位的方式进行合并成若干个模式,然后将这些模式与数据立方体 中的多维数据集相关联【1 8 】。 建立在l c 模型基础上的多维信息系统方法库把统计学中大量的统计 分析方法应用到决策分析过程中1 2 2 1 ,它不仅可以使用户能够从多角度、以 更加合理的方式查看数据的多维视图,而且能够利用指定的分析方法对查 询到的数据进行分析,从而为决策提供更科学的支持。 方法库对实际统计决策分析过程中的统计分析方法进行了归纳总结, 提出了五类统计分析方法,用户也可以根据自己的实际需要对方法库中的 统计分析方法进行添加、删除或者修改。方法库中的每一类统计分析方法 都对应了一类模式,每一类模式下又可以细分成若干个子模式,模式和模 式之间也可以进行组合,从而形成更为复杂的统计分析功能。 虽然方法库有各种统计分析方法,但其分析结果可以用表2 - 2 所示的 二维表的形式展现出来【2 “。 分析对象 d 类型( s 或g ) r r 限制条件 c 1 0 上海海事大学硕士学位论文 s 类型 g【对比期】 c 附加类型, 。类型八 g 6 j ,g 6 2 【 g b l , g 6 西】 g 。1 ,g 8 2 , 【 】 c 附加类型项单元 格 妒j 如 e b 口 【e 6 i j 】口 , 矿2 扩6 u e a b i j 】 e 删l , 表2 2 分析结果的一般形式 其中,分析对象、类型、计算期、对比期、限制条件连同所选用的具 体的分析方法,表达了用户的分析需求;类型项、数据单元格、附加类型 项单元格表达了具体的分析结果,其值有系统根据具体的分析需求和选用 的分析方法生成的。 由表2 3 可见,用户的“分析要求”由以下几个部分组成: ( 分析方法a 。分析对象o ,类型 计算期1 r c , 对比期t 4 】,【限制条件c 】 ( 2 - 1 ) 表2 3 分析要求的组成部分 分析方法( 记为a ) :从方法库中选择的具体的分析方法,如基本情 况分析、可信度分析、支持度分析等【2 7 1 。 分析对象( 记为o ) :分析对象指明了分析结果的来源。通常情况下, 用户必须指定分析对象。例如,当用户希望分析销售数据时,它必须指定 从那个立方体中进行分析。 类型( 分别记为s 和g ) :可以指定业务空间中的不同的类型作为分 析的条件,般而言,可计算类型放在列上,其它类型放在行上。 计算期( 记为t 。) :计算期是指定的某个时间类型,它从时间上对所 分析问题进行限制。计算期可以为空。 对比期( 记为t “) :如果希望对业务问题同时在两个时期进行比较分 析,则需在已指定计算期的情况下指定对比期,对比期同样来源于一个时 上海海事大学硕士学位论文 问类型。 限制条件( 记为c = c l ,c 2 ,c 。) ) :限制条件可以为空,也可以指定 一个或多个业务空间中的类型作为限制条件。它是在计算期和对比期之 外,对所分析问题作的进一步限制。如,可以把对产品销售情况的分析限 定在某个地区之内,或限定某种特定产品销售情况的分析。 2 2 2 分析算法的设计 仔细研究分析要求的内容与业务空间的关系,可以发现,完成用户的 分析要求,实际上就是在多维数据集上进行切块,构造所需的数据立方体, 并通过限制条件、计算期、对比期在数据立方体的指定维上进行切片,然 后把用户最感兴趣的数据以表格或图形的形式把数据展现出来。 方法库中的分析方法进行的分析各不相同【2 9 1 ,但其分析过程均可以分 为两个基本步骤:获取单元格的值和附加单元格的计算。 ( 1 ) 获取数据单元格 如表2 2 1 所示,数据单元格的数目随类型的不同而不同。 每个单元格中的数据由以下多元组决定: e 6 口= ,( d ,o ,砖,g 0 ,r ,c ) ( 计算期数据单元格) 或 具体来说, ( 2 2 ) e 6 u = ,( )( 对比期数据单元格)( 2 3 ) 函数,的实现根据分析方法a 的不同而不同,但其中都包含一个共同 的基本计算过程,即根据o ,s 6 。,g 6 ,r ,c 在业务空间上进行切块、切 片从而计算出分析对象的值,将该过程记为: 五( ) 因此,以上两式可以进一步表示为: e 6 口= ,口,五( ) ) ( 计算期数据单元格) 或 ( 2 4 ) ( 2 - 5 ) 矿。= f ( a ,矗( ) ) ( 对比期数据单元格)( 2 6 ) 函数正在各个分析方法中的实现都是相同的,其计算过程可分为以下 几个主要步骤: 上海海事大学硕士学位论文 1 根据分析对象确定事实数据集 分析对象指明了分析结果来源于数据源中的哪个数据集,该数据集称 为事实数据集,记为岛。维值还中记录了计算维值的维值表达式和选择 表达式,把它们分别记为e x p ( c o l s ) 和c o 。将其类型对应的数据集、类型表 达式和选择表达式分别记为r d ,e x p ( c o t s ) ,c d 。 2 确定类型的选择条件 类型属于非计算类型或者时间类型,由它们确定的分类数据集记为凡 和r g ,它们确定的选择条件记为。和c g 。 3 确定计算期对比期决定的选择条件 计算期或对比期来源于时间类型上的成员,其时间分类数据集记为 r r 。时间类型的值是通过用户选择不同的概念分层确定的,系统自动把 它转化为时间属性上的选择条件,记为c r 。 4 确定限制条件决定的选择条件 限制条件可能为空,也可能为一个或多个。如果限制条件不为空,则 将它所对应的值确定的数据集和分类条件分别记为硒,风和c j , g 。 5 数据集连接与求值 由以上几步已经确定了查询数据单元格中数据所需的事实数据集、计 算表达式、分类数据集及选择表达式。其中事实数据集和分类数据集多数 情况下并不相同,此时,须首先根据数据源中记录的数据集连接信息把它 们连接起来,然后再作数据查询。 根据已经确定的事实数据集、计算表达式、分类数据集及选择表达式 构造如下的查询语句,称为查询主旬: s e l e c t e x p ( c o t s ) f r o m r o j o i n r s j o i n r c j o i n r r j o i n r l j o i n j o i n r 。 w h e r e c oa n d c sa n d c o a n d c ta n d c la n d a n d g 将该查询主句提交给业务数据库,返回的结果即为函数正的值。 以上几个步骤适用于计算指定的类型为基本的可计算类型的情况。如 果指定的类型需要经过计算得出的,那么应该先把它分解为若干基本的可 计算类型,通过重复以上五个步骤,再根据计算类型的计算表达式得到最 终的结果。 1 3 上海海事大学硕士学位论文 ( 2 ) 计算附加单元格 附加单元格的数目及其计算方法,视具体分析方法的不同而不同,但 其来源都是用户的分析要求,具体如下所示。 每个附加类型项单元格的值由以下多元组决定: c a b i j = f 。b ( ( a ,o ,s 4 i ,g 6 j ,r ,c ) ( 计算期) ( 2 - 7 ) 或 e a b n = f a b ( ) ( 对比期) ( 2 - 8 ) 每个附加类型项单元格的值由以下多元组决定: e h 站= f b 。( ) ( 2 9 ) 每个合计单元格的值由以下多元组决定: e a a i j = f b a ( ) f 2 1 0 ) 多维联机分析系统为每个分析方法提供界面一致的接口。系统通过该 接口将用户的分析要求传递给每个方法的实现过程,并由每个实现过程根 据以上各式及本身的实现逻辑计算附加单元格的值。 2 2 3 方法库中内嵌的分析方法 方法库中包含五类最基本的分析方法,这些基本分析方法分别是:基 本情况分析、计算分析、分组、比较以及高级分析。每一类分析方法下又 可以细分为个或者若干个具体的分析方法。 ( 1 ) 基本情况分析 基本情况分析是最基本的一种分析方法,它将用户在业务空间中所关 心的类型数据通过二维表格的形式显示给用户。它不涉及任何的计算”“。 表2 3 为基本情况分析表的一般形式。 类型g 类型s 类型项, 类型项z 类型项。 类型项指标值。指标值z 指标值。 上海海事大学硕士学位论文 表2 - 3 基本情况分析表的一般形式 表中: 指标值。= f ,0 、 ( 2 ) 计算分析 用于对可计算的类型进行简单或者复杂的数学计算并生成临时类型。 常用的计算有结构分析、总量分析、支持度分析等。 结构分析用于说明类型在总体分布中所占的比例及整体分布情况。例 如:计算平均价、利润和占有率百分比等等。总量分析用于计算类型的总 和。支持度分析用于计算所选类型占全部指标值合计的比例。 表2 4 为结构分析的一般形式。 誊型g 类型项类型比重( ) 类型s 、 类型项。指标值,比重指标值l 类型项。 指标值-比重指标值i 类型项。指标值。 比重指标值。 合计指标值合计 1 0 0 表2 4 结构分析的一般形式 表中: 指标值- - 鑫t o l t ,r ,c 曲 搿行存兮才= 芝指痴落 脚薪缸罴舢 表2 - 5 为总量分析的一般形式: 、誉型g 行合计 类型s 类型项l 类型项, 类型项 类型项,指标值1 1 指标值1 j 指标值1 行合计项1 类型项i指标值i 1 指标值d 指标值i 。行合计项r 类型项,指标值,1 指标值州 指标值。行合计项。 列合计 列合计项1 列合计项,列合计项 总计项 上海海事大学硕士学位论文 表2 5 总量分析的一般形式 表中: 搿标茁。= 五( ) 疗兮劳顷产芝拷荔每 砚合计项产l j 指标值l o 一崩才砑= 蒯噶 留舒 表2 - 6 为支持度分析的般形式。 、遴型g 类型s 类型项- 类型项j 类型项。 行合计 类型项。指标值1 1 指标值u 指标值1 。p , 类型项。指标值i 1 指标值指标值;。 p i 类型项。指标值。1 指标值州指标值,。 列合计q g g 1 0 0 表2 - 6 支持度分析的一般形式 表中: 黝蜘鼍播舞产 p l2 善黼缉 9 = 罗搿蔚氲 一, 。 盾劳页2 善只2 著q ,2 1 o o ( 3 ) 分组 分组可以从多角度、多层次灵活地定制数据聚集地范围。用户通过分 组查询将具有相同性质的数据进行聚集,查看聚集数据。分组的表现形式 与基本情况分析相似,然而,它通过对细节数据的聚合从而显示出更高层 上海海事大学硕士学位论文 次上的数据。例如,用户可以通过分组查询查看四个年度,三类产品的销 售数据。一般情况下,用户的需求分析很少单独使用分组查询,分组查询 通常与其它类别的查询一起使用。 ( 4 ) 比较 对于可计算的类型,可以灵活地定制可比系列。常用的比较有网期比 和环比。 环比是报告期水平与前一时期水平之比,表明现象逐期的发展速度。 如计算一年内各月与前一个月对比,即2 月比1 月,3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论