




已阅读5页,还剩70页未读, 继续免费阅读
(计算机软件与理论专业论文)文件的联机分析olap.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 i i i i i i ir lli ir l l ll lll l llllf y 17 4 6 6 2 5 摘要 数据仓库和o l a p 联机分析系统提供了一些方法和工具来分析企业信息系 统中的数据事务。但是,只有其中2 0 的信息是可以被o l a p 分析系统分析。 对于其他的8 0 的数据,大部分都是文件中的信息,则不能被分析。在决策支 持系统中,文件中内容数据的遗漏可能会导致分析的不准确,甚至会带来进行 错误决策的风险。这类文件主要是由文本数据组成,里面包含了知识的积累, 以及可在信息系统中分析的数据( 例如:销售,采购等) 。所以,本文需要在对 文件联机分析的过程中加入点新的技术。今天,决策者已经可以很好地掌握联 机分析的过程。但是,问题是:如何在决策者所能使用的方法范围内,提供一 个可以对可用数据进行1 0 0 分析的环境? 为了能够解决这个问题,本论文提出了一个新的多维数据模型。传统的多维 模型是基于事实维的二元组概念,与之相比较,本文提出的模型只基于维的概 念,可以同时对分析主题和分析轴进行建模。该模型提供给决策者一个多方面 的观察视角来进行分析。 多维分析主要是基于概括信息的能力,可以使用一个函数来把信息收集整 理。但是,在o l a p 的环境中不存在这类整合文本式数据的方法。因此,需要 提出一个可以实现这个功能的函数,该函数的目的是得到一个更小更普遍的关 键字集合。 为了能够规范对文件数据的分析,本论文引进了一些处理模型概念的运算。 首先,这些运算可以规范模型中元素的多维分析。其次,为了适应文本分析的 环境,重新定义了一些可以修改分析的基本运算,以便决策者能够对各方面进 行分析然后做出尽可能准确的决定。 最后,把本论文提出的新思想移植到一个i a v a 编写的原型中 ( g r a p h i c o l a p x m l ) 。把新的多维结构植入到数据库管理系统中。然后通过一 个接口返回分析数据给用户。 关键词:决策支持系统、数据仓库、文件仓库、数据集市、星系模型、聚合函 数、x m l a b s t r a c t a b s t r a c t d a t aw a r e h o u s e sa n do l a ps y s t e m s ( o n l i n ea n a l y t i c a lp r o c e s s i n g ) p r o v i d e m e t h o d sa n dt o o l sf o re n t e r p r i s ei n f o r m a t i o ns y s t e md a t aa n a l y s i s b u to n l y2 0 o f t h ed a t ao fac o r p o r a t ei n f o r m a t i o ns y s t e mm a yb ep r o c e s s e dw i t ha c t u a lo l a p s y s t e m s t h er e s to n e ,n a m e l y8 0 ,m a i n l yf r o md o c u m e n t s ,r e m a i n so u to f r e a c ho f o l a ps y s t e m sd u et ot h el a c ko fa d a p t e dt o o l sa n dp r o c e s s e s i nt h ed e c i s i o ns u p p o r t s y s t e m t h eo m i t t a n c eo fd a t a ,w h i c hc o n t a i n e di nf i l e s ,m a y l c a dt oi n a c c u r a t e a n a l y s i so re r r o n e o u sd e c i s i o n t h ed o c u m e n t se m b o d yac a p i t a l i z a t i o no fk n o w l e d g e , a sw e l la sa n a l y s a b l ed a t ai ni n f o r m a t i o ns y s t e m ( s a l e s ,p u r c h a s e s ) s os o m en e w t e c h n i q u e ss h o u l db ea d d e di n d e c i s i o ns u p p o r ts y s t e m t o d a y ,ad e c i s i o nm a k e r m a s t e r st h ep r o c e s so l a pv e r yw e l l b u t ,aq u e s t i o nh a sb e e nr a i s e n :h o wt op r o v i d e a ne n v i r o n m e n tf o ro n l i n ea n a l y s i so f10 0 o ft h ea v a i l a b l ed a t aw i t hm e t h o d sw h i c h t h ed e c i s i o nm a k e rm a s t e r s ? i no r d e rt oa d d r e s st h i sp r o b l e m w ep r o p o s ean e wc o n c e p t u a lm u l t i d i m e n s i o n a l m o d e l u n l i k et r a n d i t i o n a lm u l t i d i m e n s i o n a lm o d e l st h a tr e l y o nt h ed u a l i t yo f c o n c e p t s “f a c t d i m e n s i o n ”,p r o p o s e d m o d e li sb a s e do nau n i q u ec o n c e p t “d i m e n s i o n ”t om o d e lb o t ht h es u b j e c t sa n da x i so fa n a l y s i s t h em o d e lp r o v i d e st h e d e c i s i o nm a k e rw i t haa n g l eo fv i e wo fm u l t i d i m e n s i o n a le l e m e n t sf o ra n a l y s i s t h em u l t i d i m e n s i o n a la n a l y s i sb a s e so na na b i l i t yt os y n t h e s i z ei n f o r m a t i o n sb y a g g r e g a t i n g t h e mw i t hs o m ef u n c t i o n s h o w e v e r , t h e r ei sn o tt h em e t h o df o r a g g r e g a t i n g t e x t u a ld a t ai nt h ee n v i r o n m e n to l a et h u sw ep r o p o s eaf u n c t i o n c a p a b l eo fa g g r e g a t i n gt e x t u a ld a t a t h i sf u n c t i o n s e e k st os u m m a r i z eas e to f k e y w o r d sb yas m a l l e r a n dm o r eg e n e r a ls e t t os p e c i f ya n a l y s i so nd a t af r o md o c u m e n t s ,o p e r a t i o n sa r ei n t r o d u c e df o r m a n i p u l a t i o no fm o d e lc o n c e p t s i n i t i a l l y ,t h e s eo p e r a t i o n sa l l o wt h es p e c i f i c a t i o no f am u l t i v a r i a t ea n a l y s i sf r o mt h ee l e m e n t sr e p r e s e n t e db yt h em o d e l i nas e c o n ds t e p , w ed e f i n eac o r eo fb a s i co p e r a t i o n sf o rm o d i f y i n ga na n a l y s i s ,s ot h a tt h ed e c i s i o n m a k e rc a nr e f i n et h e i ro b s e r v a t i o n sa n dm a k et h eb e s td e c i s i o np o s s i b l e f i n a l l y ,t h ei d e ai se m b o d i e di nap r o t o t y p ew r i t t e ni n j a v at ov a l i d a t eo u r a b s t r a c t p r o p o s a l t h en e wm u l t i d i m e n s i o n a ls t r u c t u r e sa r ep l a n t e di nad b m s t h er e s u l t s a r es u m m a r i z e da n dr e t u r n e dt ot h eu s e r k e yw o r d s :d e c i s i o ns u p p o r t s y s t e mo ) s s ) ,d a t aw a r e h o u s e ,d o c u m e n t w a r e h o u s e ,d a t am a r t s ,g a l a x y s c h e m a , n s 2 ,x m l l i l 目录 第l 章引言1 1 1 决策支持系统的发展1 1 2o l a p 的发展2 1 3x m l 技术的发展2 1 4 课题来源及意义3 1 4 1 课题来源3 1 4 2 课题的研究意义3 1 5 本文的主要研究内容4 1 6 论文组织结构4 第2 章决策支持系统结构5 2 1 决策支持系统5 2 2 数据仓库5 2 2 1x m l 数据仓库6 2 2 2x m l 文件仓库6 2 3 数据集市7 2 3 1 多维建模7 2 3 2x m l 数据的整合8 2 3 3 多维x m l 存储8 2 3 4 虚拟多维存储9 2 4o l a p 操作9 2 4 】般多维操作9 2 4 2x m l 多维操作1 0 2 5o l a p 分析。l0 2 5 1 文件的o l a p 分析。1o 2 5 2 信息综合( 聚合函数) 11 2 6 本章小结1 3 i v 目录 第3 章星系多维概念模型14 3 1 多维概念模型1 4 3 1 1x m l 文件的特点1 4 3 1 2 目前存在的模型的一些限制。1 5 3 2 星系模型15 3 3 维和维分层17 3 3 1 维的定义17 3 - 3 2 维分层的定义19 3 4 联系2 1 3 5 对文本数据进行建模2 3 3 5 1 属性类型:2 3 3 5 2 文档维2 4 3 5 3 数值数据2 7 3 6 本章小结2 9 第4 章x m lo l a p :多维操作语言3 0 4 1 介绍3 0 4 2 聚合和文本数据3 0 4 2 1 聚合的概念3 0 4 2 2 聚合规则:弱本体论和运算:3 1 4 2 3 关键字类型属性的挖掘3 3 4 2 4 关键字聚合函数:么粥! k 矿3 3 4 2 5 例子3 5 4 2 6 相关总结3 7 4 3 多维操作3 7 4 3 1 规范运算符的范围- 3 8 4 3 2 规范分析3 9 4 3 3 分析操作运算4 5 4 4 本章小结4 9 第5 章移植和实现51 v 目录 5 1g r a p h i c o l a p x m l 的介绍5 l 5 2 数据仓库和文件仓库5 2 5 2 1 方法。5 2 5 2 2 数据仓库的移植5 2 5 3 数据集市5 3 5 3 1 元库5 3 5 3 2r o l a p 的星系模型一5 6 5 3 3 文本数据5 6 5 3 4 连续域维的例子。5 7 5 4 返回和分析5 8 5 4 1 星系模型的图形化表示5 8 5 4 2 二维表的表示5 8 5 5 本章小结5 9 第6 章结论与展望6 l 6 1 总结6 1 6 2 展望6 2 致谢6 3 参考文献6 4 攻读学位期间的研究成果。6 8 v i 第l 章引言 第1 章引言 1 1 决策支持系统的发展 决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,d s s ) 的概念在2 0 世纪7 0 年代最 早由斯科特莫顿( s c o t tm o r t o n ) 和基恩( k e e n ) 提出,它改变了传统的管理模 式,使计算机参与到人类的决策活动中,为管理工作提供了更多的计算机化的 支持。由于实践中,d s s 为复杂系统和问题提供了快速而行之有效的求解,因 而得到广泛关注。随着计算机科学的不断发展,人工智能、各种分布式技术、 数据仓库、数据挖掘以及联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 等 新兴技术不断地融入d s s 领域,形成了更具智能性、更准确的专家支持系统, 极大丰富了d s s 的数据访问和信息获取、处理手段。以此同时,互联网技术的 迅速发展为d s s 带来了巨大的信息集成和共享【l 】。 决策支持系统将个人的智能和计算机的能力相结合以提升决策质量,是一种 帮助管理者解决半结构化问题的计算机系统。决策支持系统可以分为四模块: 一 提取数据源模块:首先,数据源必须支持决策系统。而这些数据源的结 构可能都不一样,需要使用e t l 工具( 提取数据、变换数据、加载数据, 即e x t r a c t ,t r a n s f o r m ,l o a d ) 来对数据源中取来的数据进行处理。 一 数据仓库( 存储的第一级,可选) :是一个集中的、统一的存储空间。 数据在数据仓库中重新组合、重新结构化,然后提供一个统一的格式, 方便访问。它是决策支持系统和联机分析应用数据源的结构化数据环境, 是面向整个企业的。【2 】【3 】 - 数据集市( 存储的第二级) :目的是用来分析数据。根据分析的需求, 数据集市是针对某一特定领域的数据库,是数据仓库的一部分( 如果没 有数据仓库,就是数据源的一部分) 。数据集市是通过多维模型来结构 化的,由多维数据库管理。与数据仓库不同的是,数据集市是面向某个 部门的。 一 多维分析和返回用户:根据分析工具或者报表工具从数据集市中取出数 据返回给决策者。 第1 章引言 1 2o l a p 的发展 在过去的二十年中,大量的企业利用关系型数据库来存储和管理业务数据, 并建立相应的应用系统来支持日常业务运作。这种应用以支持业务处理为主要 目的,被称为联机事务处理( o l t p ,o n 1 i n et r a n s a c t i o np r o c e s s i n g ) 应用,它所存 储的数据被称为操作数据或者业务数据。 随着市场竞争的日趋激烈,近年来企业更加强调决策的及时性和准确性,这 使得以支持决策管理分析为主要目的的应用迅速崛起,这类应用被称为联机分 析处理,它所存储的数据被称为信息数据。 联机分析处理( o l a p ,o n 1 i n ea n a l y t i c a lp r o c e s s i n g ) 的概念最早是由关系数 据库之父e f c o d d 于1 9 9 3 年提出的。当时,c o d d 认为联机事务处理( o l t p ) 已 不能满足终端用户对数据库查询分析的需要,s q l 对大数据库进行的简单查询 也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算 才能得到结果,而查询的结果并不能满足决策者提出的需求。因此c o d d 提出了 多维数据库和多维分析的概念,即o l a p 【4 j 。 联机分析系统指终端用户于在线系统上执行的一系列活动,包括产生查询, 生成特别报表和图表,执行统计分析和建立d s s 、多媒体应用等。o l a p 在本质 上提供针对数据仓库中大型数据集的建模和可视化功能1 5 j 。 1 3x m l 技术的发展 o l a p 系统提供了一些可以对数据进行分析的方法和工具,但是这个分析是 基于数值分析的多维数据库,现今较容易掌握。这类多维数据库是由企业信息 系统中提取出来的数据而构成。但是,信息系统中只有2 0 的数据是可以被用 o l a p 来分析的事务数据,即关系数据。 决策支持系统只是窥见了信息冰山的一角。信息系统中8 0 的数据是企业的 电子文档,例如报表,笔记,文章等,而这些由文本数据组成的文件都超出了 决策支持系统的范围。这些文件都是知识资本,以及在数据库中的事务。然而 今天这类文件在不断的增加,但很难进行分析。因为这些文件的内容是非结构 化的,这表示很难把这类文本数据纳入到决策支持系统中。因此,现在面对着 一个问题:如何提供给决策者一个对1 0 0 的信息进行分析的环境? 本文给出一个解决办法:使用x m l 格式表示的文件。x m l ( e x t e n s i b l e 2 第1 章引言 m a r k u pl a n g u a g e ,可扩展标记语言) 是目前全球范围内用于描述数据和交换数 据的一种标准的方式,是w 3 c 认可的用于结构化数据和内容以及交换电子文档 的标准数据格式1 6 j 。 x m l 格式可以同时表示非结构化、部分结构化和高度结构化的文件。来自 文件的文本数据乍看来都是没有结构,但是实际上它们是有分级结构的。例如, 一般的文章都是以章、节、段为单位的。x m l 语言就是这样的结构【7 1 。 x m l 格式和与其相关的语言都适用于文本文件。x m l 语言有两个优势:不 需要预先定义( 可能有) 和在同一文件内同时表示结构和内容的机制。 首先必须区分以下两种x m l 文件【8 】: 面向数据的x m l 文件:表示高度结构化的数据,例如关系型数据库的内容。 在这种情况下,使用树状结构来描述数据的模式( 例如表格和属性的描述) 。 表格的内容在标识符之间。在这种文件类型中,有数据库,计算表,电子商务 应用的输出的内容。 面向文档的x m l 文件:主要由文本组成,例如纸张文件的电子版本( 例如, x m l 格式的论文) 。这些文件有一个更异构的结构,包含不同的类型,如图像, 表格等。标识符用来表示数据的逻辑结构,即文章的章、节、段等。在文件的 类型中,有科学文献,信息文献,电子邮件的文本内容,电子图书 本论文的研究主要是针对后者进行的分析。 1 4 课题来源及意义 1 4 1 课题来源 本课题是我在法国普瓦解大学计算机专业读研二上学期时,学校分配的课 题,与图卢兹大学合作研究的项目,属于理论研究课题。 1 4 2 课题的研究意义 2 0 世纪9 0 年代以来,随着i n t e r n e t 和w e b 技术的飞速发展和普及,信息获 取已经从手工获取发展到计算机获取,以及到现在的通过网络进行信息获取。 要在浩如烟海的网络世界里以及文本中找到所需信息,需要一种能够发现网页 或文本内部隐含信息的工具。而现在对文本数据的分析还不成熟,这方面的技 术还有待提高。 3 第1 章引言 为了能够联机分析来自信息系统的将近1 0 0 的数据,决策支持系统不仅需 要能够纳入来自面向文档的文件的数据,还需要能力去分析这些数据。本论文 希望能够让分析的环境和决策者的知识来适应文件特异性【8 】【9 】。 1 5 本文的主要研究内容 基于上述研究意义,本文的研究工作主要围绕对文本数据进行o l a p 分析 为主。具体的研究工作包括: ( 1 ) 在决策支持系统结构的各个层次中加入x m l 技术; ( 2 ) 研究一种适合文本分析的新的数据模型; ( 3 ) 研究适合对文本进行分析的聚合函数和分析函数; 1 6 论文组织结构 第l 章引言 介绍了各项技术的发展情况、课题来源、研究内容及意义,以及主要研究 内容。 第2 章决策支持系统结构 详细介绍了决策支持系统的架构,如何在每一层中引入x m l 技术。 第3 章星系模型 详细介绍了一种新的多维概念模型星系模型( g a l a x y ) ,可以对文本中 的数据进行建模,并可与传统数据模型互相转换。 第4 章x m l o l a p :多维操作语言 详细介绍了适用于以上提出的星系模型,并且可以对文本数据进行分析的 聚合函数和分析函数。 第5 章移植和实现 详细介绍了如何把x m l 技术和星系模型等移植到原型g r a p h i c o l a p x m l 中。 第6 章总结与展望 对所做研究工作进行总结,并提出了需要进一步研究的工作。 4 第2 章决策支持系统结构 第2 章决策支持系统结构 2 1 决策支持系统 在上一章,介绍了x m l 的格式,这种半结构化的语言已经变成一种标准, 用来在应用程序之间交换数据f l0 1 。由于x m l 技术发展迅速,现在x m l 格式的 数据已经广泛应用在w e b 服务中,因此对这类数据的分析也慢慢突显出来。决 策支持系统也已经开始设法去挖掘这类数据,但是这种新格式的处理还存在很 多问题。 图2 1 表示了决策支持系统的架构,一般由四个层次组成:数据源,数据仓 库,数据集市和返回分析模块。以下的每一节将介绍一个层次。在一些特定的 结构中,数据仓库不是必须的,数据源可以直接把数据送到数据集市中。 x 虹教据湃馥据奇瘁教据维市运嘲,分析 ”一 i, 7 、一r 嚣窄 i j t 研遵 ! 0藜誊 ;争 斋l 一l 一 象舭数据瘁 豁 ;萨k o ;u :7 獭葩文件 i 第j 节篼三节第网书第五节 图2 1 决策支持系统的结构 起初,x m l 格式只会出现在数据源中,但是现在,x m l 技术已经渐渐地纳 入到决策支持系统的核心中,可能在数据源,存储空间( 仓库或集市) ,分析 和返回( o l a px m l ) 中见到x m l 技术。 2 2 数据仓库 数据仓库( d a t aw a r e h o u s e ) 概念始于在上世纪8 0 年代中期,首次出现是在 被誉为“数据仓库之父”b i l li n m o n 的建立数据仓库一书中。在9 0 年代他 又提出了数据仓库概念的一个表述。他认为“一个数据仓库通常是一个面向主 5 第2 章决策支持系统结构 题的、集成的、随时间变化的、不可修改的,它用于对管理决策过程的支持。 【副具体如下: 所谓主题,是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、 客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织 的,而不是像业务支撑系统那样是按照业务功能进行组织的。 所谓集成,是指数据仓库中的信息不是从各个行业系统中简单抽取出来的, 而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个 企业的一致的全局信息。 所谓随时间变化,是指数据仓库内的信息并不只是反映企业当前的状态,而 是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业 的发展历程和未来趋势做出定量分析和预测。 所谓不可修改,是指一旦某个数据进入数据仓库以后,一般很少进行修改, 更多的是对信息进行查询操作。 本节重点介绍的是“x m l 仓库 ,它是一种数据仓库,但是其存储结构使用 的是x m l 格式。按x m l 数据的结构化把x m l 仓库分为两类: x m l 数据仓库( 见2 2 1 节) ; x m l 文件仓库( 见2 2 2 节) 7 1 1 1 】。 2 2 1x m l 数据仓库 在这类数据仓库中,信息主要来源于面向数据的x m l 文件,该仓库内的数 据结构是x m l 格式,这种环境类似于传统的数据仓库。由于该仓库中的数据格 式是x m l 格式,所以避免了在x m l 源文件和数据仓库之间进行格式转换,但 是这类仓库还不成熟,这个优点也只是相对而言。另外,如果决策系统中的数 据集市不支持x m l ,还必须在数据仓库和数据集市之间进行格式转换。 为了解决面向文档的x m l 文件存储问题,即主要由非结构化的文本数据组 成的x m l 文件的存储,诞生了一个新的仓库类型:x m l 文件仓库。 2 2 2x m l 文件仓库 该仓库的目的是为了提供给非结构化数据存储的环境。数据的存储格式是 x m l 格式,一个文件相当于一个数据段。仓库中的数据主要是由非结构化的文 本段组成的文件。该文件仓库解决了有关信息检索的问题,但不可以解决多维 6 第2 章决策支持系统结构 分析的问题,文件的多维分析需要在o l a p 中加入一些新的x m l 技术。在现有 的几个系统中,有两个文件仓库比较突出:x y l e m e 和w h o w e d a 。 图2 2 显示了x m l 数据仓库和x m l 文件仓库在决策支持系统之中的比较。 硇也数据漂数据仓库 缈 一蠹瑚,数据仓库l 一 龈的 硭 掘 :置 蓬转麓 2 3 数据集市 图2 2 决策支持系统的结构 数据集市( d a t am a r t s ) 是一种更小、更集中的数据仓库。简单地说,原始 数据从数据仓库流入不同的部门以支持这些部门的定制化使用。这些部门级的 数据库就称为数据集市。一个数据集市是一个部门的数据集合 1 2 】。 尽管数据集市与数据仓库方面有类似之处,但它们之间却存在着区别。主要 体现在【1 2 】: ( 1 ) 面向的对象不同。数据仓库面向的是整个企业,为整个企业提供所需 的数据;数据集市则面向各个部门。 ( 2 ) 数据粒度不一样。数据仓库中的数据粒度非常小;数据集市中的数据 主要是概括级的数据。 数据集市的数据源主要来自数据仓库,它从数据仓库中提取部门所需要的数 据以满足部门级的需要。 本节主要是研究加入l 技术的数据集市。现从以下四部分来介绍: 多维概念建模, 在数据集市中x m l 数据的整合, x m l 多维存储的整合, 虚拟数据的整合。 2 3 1 多维建模 7 第2 罩决策支持系统结构 对于那些来自于文件,主要由文本组成的数据有以下几个特点: 层次结构, 主要由文本组成的数据, 文件外部或者内部的联系( 参考,引文,超链接) 最理想的情况是,有一个多维模型不仅能够对这些特点进行建模,同时不能 丢掉1 0 多年的多维数据模型研究中已经获得的成功。但是,现在还不存在一个 这样的模型。 最初提出的几个模型主要是基于立方体或者超立方体的【1 3 】。因为它不能表示 维的层次结构,没有把结构和内容分离,后来又构建了基于事实维的多维模型 【1 4 】。事实是数据分析所对应的数据项,即分析主题;维是分析问题的角度,即 分析轴。常用的多维模型有星型模型和雪花型模型,这里不予详细介绍。 但是请注意,这些模型都不能处理由文本组成的文件,也不能表示外部或内 部文件之间的联系。下一章将介绍一个新的模型,可以实现以上功能。 2 3 2x m l 数据的整合 x m l 数据整合的原理:根据多维结构来转换x m l 数据,生成一个中间文件。 再根据多维模型( 星型,雪花型等) 重新格式化x m l 数据,把中间数据转换成 数据集市中的格式。 这种数据整合分成两种【l5 j : 物理整合:x m l 数据直接整合到数据集市中,以数据集市中的格式保存。 逻辑整合:当不能把x m l 数据插入到数据集市内的时候,就需要使用逻辑 整合。在这种情况下,解决方法是保存x m l 数据和数据集市结构,然后利用一 个中间系统来逻辑融合这两个系统。 2 3 3 多维x m l 存储 数据集市中x m l 存储的目的是在数据源、数据仓库和数据集市之间提供一 个统一的环境。首先决定使用哪个多维模型:星型、雪花型掣2 1 ,然后根据d t d 或者x s c h e m a 来定义该模型。x m l 数据的树型结构可以很轻松地表示出层次形 式的维。 x m l 多维模型的存储和多维实例的管理有两种方式: 分离存储实例:在这种情况下,事实的实例和维的实例以分离的方式存储。 8 第2 章决策支持系统结构 它包含两个文件,一个保存事实实例的集合的事实文件:另一个保存维实例的 集合的维文件。然后需要一个索引中间件来把事实的实例和维的实例联系在一 起。 统一存储实例:事实的每个实例都跟它相联系的维实例存储在一起。这种情 况下,它只包含一个文件,这个文件里面保存了事实实例的集合和维实例的集 合。每个事实实例跟与它相关的维实例保存在一起,这样就会形成在维实例存 储上的一个高冗余。 对于x m l 数据源的整合,x m l 格式的数据集市提供了非常大的便利。由于 x m l 格式的灵活性,这样的一个数据集市可以去管理很多复杂的数据。而x m l 的树型结构,也方便在维内部根据层次对数据进行建模【1 6 】。 但是x m l 存储的物理格式是体积庞大的( u t f 8 ) ,尤其是在使用了有大 量冗余的统一存储实例的方法,而另一种方法则非常类似于关系多维结构。现 在,x m l 数据集市远未成熟,且面临一些性能,实现和存储上的问题。但是它 可以对x m l 文本文件进行管理。 2 3 4 虚拟多维存储 多维数据虚拟存储的目的主要是为了避免数据的冗余。虚拟存储利用在虚拟 多维模式和一些数据( 可能来自于数据源或者数据仓库) 上的一一对应,称为 “映射”。它并不把x m l 数据存储到数据集市中,而是把数据源的x m l 数据 转换成多维模式,然后使用一个o l a p 引擎来负责翻译多维请求给数据源。 对于需要整合x m l 数据到传统的数据仓库中的时候,这个方法可以避免格 式的转换。另外,因为数据集市中没有实质性的存储,那么就可以解决数据量 大的问题。但是,由于数据源不存在多维结构,这样会导致处理数据缓慢,并 且在数据源上的查询表达很复杂也很难理解。 2 4o l a p 操作 在决策系统中,x m l 数据的出现开辟了新的前景。本节分为两部分:第一, 介绍一般的多维操作。第二,阐述x m l 格式的多维操作的可能性。 2 4 1 一般多维操作 尽管缺少与模型相关的标准和o l a p 操作的运算符的核心协议,但是大部分 9 第2 章决策支持系统结构 模型都支持以下几类操作: 钻取操作。钻取是改变维的层次,变换分析的粒度。它包括向上钻取( r o l l u p ) 和向下钻取( d r i l ld o w n ) 。上钻是在某一维上降低层次的细节数据概 括到高层次的汇总数据,或者减少维数;而下钻则相反,它从汇总数据 深入到细节数据进行观察或增加新维。 选择操作。这些操作允许用户限制分析数据集。切片( s l i c e ) 和切块( d i c e ) 是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余 的维只有两个,则是切片;如果有三个,则是切块。 旋转操作。该操作( r o t a t i o n ) 允许对分析重定向。它可以在使用中改变 其中一个分析轴( 维蘑转) ,改变分析的主题( 事实旋转或者蒯手卷) 和改变分析的角度( 层次旋滞) 。 在面向文档的x m l 文件的分析背景下,必须重新定义这些运算符,以便满 足文件的特殊性。 2 4 2x m l 多维操作 面向x m l 的o l a p 操作需要摆脱传统的多维结构。因此必须利用x m l 特 殊的树型结构,甚至可以管理半结构化的数据。在x m l 存储空间上执行o l a p 操作的目的是让x m l 仓库具有传统数据仓库那样的灵活性。 在这样的环境下,这些数据都是x m l 格式的,并且是结构化的层次结构, 那么需要使用一个合适的语言表达多维查询,例如x q u e r y 。然而,x q u e r y 语言 还远没有s q l 语言成熟,并且缺乏合适的多维模型,因此这让对x m l 的多维 分析变得非常困难1 1 7 o 2 5o l a p 分析 本节介绍来自于文件的数据分析的研究工作。然而,这些分析都是基于文件 计数的简单的度量。本节接着介绍使用聚合函数来综合信息的原理、适用于x m l 和文本数据的高级函数。 2 5 1 文件的o l a p 分析 在一些书中建议使用文本挖掘( t e x t m i n i n g ) 来分析文件仓库的内容。但是, 本论文中需要的不仅仅是面向分析的文件仓库,还需要适合o l a p 分析的工具 1 0 第2 章决策支持系统结构 【9 】 o 先来看看图2 3 ,对文件的o l a p 多维分析。下图根据维( 时间、作者) 提 出的要求来计算文件使用的次数,为了增加对文件内容的分析,使用了对文件 的主要关键字进行计数,跟文件计数的效果是一样的【1 8 1 。 鲫孤蜀 威曩。g 也霍盈 ,曩 t 一 卜互 图2 3 决策支持系统的结构 有了这些工作,文件分析的可能性就存在了。但是,基于文件和关键字的计 数的分析还是有限的。另外,现在还不能更详细地分析文件内容,大部分分析 都只限于文件的元数据,而且对信息的综合都是数值化的( 比如求和,求平均 等) 。因此,需要一些适合x m l 和文字类型数据的聚合函数。 2 5 2 信息综合( 聚合函数) 聚合函数是非常重要的一个元素,它在数据库上自动生成报告。它对一组值 执行计算并返回单一的值。聚合函数忽略空值,经常与s e l e c t 语句的g r o u p b y 子句一同使用。 所有聚合函数都具有确定性。任何时候用一组给定的输入值调用它们时,都 返回相同的值。 2 5 2 1 传统聚合函数 关系数据库管理系统的出现,伴随着一系列的传统聚合函数。它们是把一组 数据集合通过计算得到一个值的简单函数。通常使用的有以下5 个函数: 求和( s u m ) :这个函数返回集合的数值和; 计数( c o u n t ) :这个函数计算集合中的实例的个数; 最小值( m 烈) :这个函数返回集合的最小值; 最大值( m a x ) :这个函数返回集合的最大值; 平均值( a v e ) :这个函数返回集合的平均值。 第2 章决策支持系统结构 这些都是数值统计函数,另外,现在的数据库管理系统( 例如o r a c l e ) 已经 提供一个程序接口,允许程序员自己来指定合适的聚合函数。 2 5 2 2 高级聚合函数 近来聚合函数正在一天天的发展,现在这些函数应用在以下几个领域: 地理信息系统( s i g ) , 数据挖掘。 在地理信息系统中,出现了s o l a p ( 空间o l a p ) 的决策支持系统【聊。针 对适合地理数据的特殊函数也已经问世- y t 2 0 1 。以点,段,面积的形式保存的地 理数据,这些函数负责重组数据类型( 例如,几个点的质心,平均面积,) 。 最近来自于数据挖掘的聚合函数开始在o l a p 环境下发展起来了。其中一个 聚合函数s k y l i n e 2 1 1 ,是一个试图解决矢量最大化问题的函数,对于至少两个 变量的问题找寻一个最大化或者最小化的解决方法。例如,函数可以根据到附 近海滩的距离来搜索最便宜的酒店。在这种情况下,查找最低的价格和最短距 离的酒店。 2 523x m l 数据聚合 当数据集市实现了x m l 环境的时候,传统的聚合函数可以在高度结构化的 数据上操作。但是,这绝不适合所有x m l 类型。因此x m l 数据聚合函数正在 不断的发展。大致可以分为两类: x m l 结构挖掘的聚合( 高度结构化的文件) , 文本数据的聚合。 第一种方法需要重新定义运算符,来聚合从x m l 树型结构中挖掘出来的数 据。这些运算符借鉴了o l a p 环境的聚合运算符,例如a g g r e g a t e ,r o l l 或者c u b e 等f 2 2 】【2 3 1 。 以上所说的无论是传统聚合函数还是x m l 结构的聚合函数都是用来分析数 值的集合,所以它不支持非数值数据( 例如文本文件) 的聚合。在第二种方法 中,一些作者提出了使用文本挖掘技术来分析文件的内容。例如这几个函数: s u m m a r y ,得到聚合文本的摘要;t o pk e y w o r d s ,选择文本i l 个主要的 关键字;t o p i c ,从文本块中得到一个主题;c l u s t e r i n g ,根据内容来划分 文本刚。 1 2 第2 章决策支持系统结构 2 6 本章小结 本章主要介绍了决策支持系统和x m l 格式的匹配问题。首先介绍了决策支 持系统的架构,然后对这个架构的不同等级( 仓库,集市,管理,分析和恢复) 进行介绍:x m l 仓库分为x m l 数据仓库和x m l 文件仓库;数据集市,以多维 概念模型的概述开始,随后介绍在集市中增加x m l 格式;接着是不同的多维操 作运算;最后介绍了聚合函数。 从本章的介绍,可以了解到对于文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《小学教师招聘》通关检测卷及完整答案详解【夺冠】
- 教师招聘之《幼儿教师招聘》能力提升打印大全及答案详解【真题汇编】
- 押题宝典教师招聘之《幼儿教师招聘》考试题库附参考答案详解【能力提升】
- 2025年内蒙古呼伦贝尔农垦集团有限公司招聘考试笔试试卷含答案及完整答案详解1套
- 2025年教师招聘之《幼儿教师招聘》模拟考试题库B卷及参考答案详解一套
- 2025年教师招聘之《小学教师招聘》试题及答案详解一套
- 教师招聘之《小学教师招聘》考试押题卷附参考答案详解(基础题)
- 2025年教师招聘之《幼儿教师招聘》综合提升测试卷附参考答案详解(研优卷)
- 教师招聘之《幼儿教师招聘》通关检测卷附答案详解【基础题】
- 教师招聘之《小学教师招聘》能力提升打印大全审定版附答案详解
- 场景速写课件讲解
- 2025广东惠州惠城区招聘社区工作站工作人员66人笔试备考题库及答案解析
- 第15课 红红火火中国年(教学课件)小学二年级上册 统编版《道德与法治》新教材
- (2025秋新版)教科版三年级上册科学全册教案
- 2025年新西师大版数学三年级上册全册课件
- 食品安全总监、食品安全员考核考试测试题及答案
- 第8课 西溪湿地教学设计-2025-2026学年小学地方、校本课程浙教版(2021)人·自然·社会
- 江淮十校2026届高三第一次联考物理试卷(含答案解析)
- 网络货运行业知识培训课件
- 人体十二经络系统解析
- 1.8《天气的影响》教学设计-教科版三上科学(新教材)
评论
0/150
提交评论