




已阅读5页,还剩23页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京大学学士学位论文多维数据模型在中科院资源规划系统的应用和分析姓名:张海燕 学号:00317226 系别:软件与微电子学院年级:二零零三级专业:软件工程导师:陈钟教授 二零零五年四月十五日版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 摘要随着市场竞争的加剧以及信息社会需求的发展,从大量数据中提取信息并用之于决策分析的要求显得越来越迫切。近年来,数据仓库、OLAP和数据挖掘等面向决策支持的技术飞速发展。本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。中国科学院资源规划项目(Academia Resource Planning, 简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析关键字:多维数据模型 联机分析处理 ARP 数据展示 目录摘要.2目录.4第一章 引言.5 1.1研究背景 .51.2本论文工作.51.3 本论文组织结构.5第二章 数据仓库及多维数据模型基本概念 .62.1数据仓库技术 .62.1.1定义 .62.1.2 体系结构 .62.2多维数据模型 .72.2.1维 .72.2.2维的概念分层.72.2.3度量 .72.2.4 数据立方体 .7第三章 ARP中IRC需求分析 83.1 IRC总体需求 .83.2多维分析需求 .83.2.1 用户需求 .93.2.2需求分析 .数据立方 . 维度描述 .事实分析 .14第四章基于多维数据模型的IRC设计 174.1 IRC总体设计 .174.2多维数据模型存储 .174.3 多维数据模型前台实现 .18第五章多种多维数据模型的比较与分析 205.1多种OLAP比较分析.205.2多种多维数据模型比较分析.215.3 IRC基于OLAP和多维数据模型满足需求所做的设计.225.4 IRC应用发现目前多维数据模型仍然存在的问题 .22第六章 本文工作总结.246.1工作总结 .246.1工作展望 .24参考文献.25致谢.26第一章引言1.1研究背景自从20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理演化到复杂的、功能强大的数据库系统。E.F.Codd于1970年提出了关系数据库理论。在此基础上发展的关系数据库技术逐渐成为市场主流,有力地推动了社会信息化进程。信息和知识是企业最宝贵的资产和资源。企业信息系统的长期运行为企业积累了大量的业务数据。但是,这些数据并没有得到充分的利用,人们迫切的需要将这些数据转化为有用的信息和知识。上个世纪九十年代以来,随着计算机硬件技术的飞速发展,在各类分析型应用的推动下,学术界和工业界对支持管理决策的相关技术进行了广泛和深入的研究和开发。数据仓库(DataWarehouse)概念的形成是以Prism Solutions公司副总裁W.H.Inmon在1992年出版的建立数据仓库(Building the Data Warehouse)为标志的。数据仓库的提出是以关系数据库、并行处理技术和分布式技术的飞速发展为基础的,它是解决信息技术(IT)在发展过程中虽然拥有大量数据却缺乏有用信息(Data rich_Information poor)的综合方案。一年以后,关系数据库理论的创始人E.F.Codd在数据仓库概念的基础上又提出了与联机事务处理(OnlineTransaction Processing,简称OLTP)相对应的联机分析处理概念。联机分析处理是针对特定问题的联机数据访问和分析。它侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员,以便他们能准确掌握企业的经营状况,了解市场需求,制定正确方案,增加效益。 数据挖掘是上世纪90年代以来迅速发展的一项新技术。它指的是从大量的实际应用数据中,自动发现提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘作为数据分析和决策支持的强有力的手段,涉及的应用领域非常广泛。针对不同行业的不同问题,数据挖掘有不同的概念和方法,包括关联分析(Associationgs)、分裂分析(Classifiers)、聚类分析(Clustering)和序列模型分析(Sequential Patterns)等等。关联分析是一种非常重要的数据分析方法,其目的是为了挖掘在隐藏在大量数据间的有趣的相互联系,从而帮助制定商务决策。多维关联分析与传统关联分析的最大不同之处就是其多维多层的特性。用户可以发现不同角度、不同抽象层之间的相关关系。如何能够从海量数据中高效地挖掘出那些用户真正感兴趣的多维模式1.1 本论文工作本文主要针对多维数据模型在ARP项目信息资源中心数据中的应用进行研究和分析。中国科学院资源规划项目(Academia Resource Planning, 简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。本论文针对中科院数据信息量大、稀疏度高、维度高、要求增量更新等特点,结合多维数据模型的应用,对目前的OLAP技术及多维数据模型进行比较分析1.3本论文组织结构针对本文研究的主要内容,本论文的组织如下:第二章介绍了数据仓库技术及多维数据模个性相关概念。第三章需求分析。第四章基于多维数据模型阐述了IRC为了满足需求所做的设计。第五章在前几章的基础上对各种多维数据模型进行比较分析。第六章对本人的工作进行了总结,并对下一步工作进行展望。第二章 数据仓库及多维数据模型基本概念多维数据模型是本文工作基础,是数据仓库和OLAP的核心,本章首先介绍数据仓库技术和多维数据模型的基本概念2.1数据仓库技术2.1.1定义1992年W.H.Inmon博士在Building the Data Warehouse一书中给出了一个描述性的定义:数据仓库(DataWarehouse)是一个面向主题的、集成的、相对稳定和反映历史变化的数据集合,用于支持管理决策。2.1.2体系结构一个典型的数据仓库系统通常包含数据源、数据仓储、OLAP服务器和前端工具和应用四个部分。数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息以及各类外部统计数据及各类文档等;数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的数据的基础上,进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(集体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart).数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP.ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要面向OLAP服务器,报表工具、数据挖掘工具既可以面向数据仓库或数据集市,同时也可以面向OLAP服务器。2.2多维数据模型多维数据模型是数据仓库和OLAP的核心。多维模型的核心概念是数据立方体,数据立方体是由大量事实和若干个维组成的。2.2.1维在多维数据模型中,数据按多个纬度进行组织。维是人们观察客观世界的特定角度。每个角度称之一个维。通常,一个分析模型中包含若干个维。例如,在ARP科研项目产出物中,涉及到机构维、时间维、产出物类别维、产出物应用维等等。这些维能够从不同角度记录产出物情况。每个维都与数据仓库中的一张表相关联。该表称为维表。它进一步描述该维的详细信息。2.2.2维的概念分层一个概念分层定义一个由低层概念集到高层概念集的映射序列,将低层概念映射到更一般的高层概念。它使得原始数据可以在较高的、一般化的抽象层上进行处理。通过上卷、下钻等操作,用户可以在不同的概念层之间切换,使用不同视图来观察数据,从而洞察隐藏的数据联系。概念分层是一种背景知识形式,可以由系统用户、领域专家或者系统工程师提供。一个概念分层指定了一个维的层次结构,可以用全序、偏序或树状结构来表示。以时间维为例,该维共分为三个层次:ALL、年、月。2.2.3度量度量是多维数据模型所围绕的主题,即具有实际意义的数据,度量是一个聚集函数和一个可计算的属性的二元组,该属性一般是数值型的。例如,在ARP科研项目产出物中,分析所关心的是每年论文发表的变化情况和被引用的情况,那么模型中就包含两个度量-年度变化和引用率情况。2.2.4数据立方体数据立方体就是纬度和度量集的二元组,即DS,MS,其中,DS表示维的集合,MS表示度量的集合。数据立方体实际上描述了维与度量之间的对应关系第三章ARP中IRC需求分析中国科学院资源规划项目(Academia Resource Planning, 简称ARP项目),是实现中国科学院科学的资源规划的信息系统工程。ARP项目从中国科学院院所两级治理结构出发,以科技计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、资金、科研基础条件等资源配置及相关管理流程进行整合与优化,构建有效的管理服务信息技术平台。通过ARP项目的实施,进一步推进中国科学院管理创新,不断提升管理工作水平和效率,促进科技创新和人才培养效益的最大化。ARP项目涉及中科院院所两级法人机构及全院主要业务,系统的数据规划尤显重要,信息资源中心(Information Resource Center,简称IRC)是全院ARP数据的存储与交换中心。3.1 IRC 总体需求信息资源中心需求包括功能需求、其它系统接口需求、性能需求、安全需求,我们重点阐述其功能需求。信息资源中心系统建设的总体目标为:面向针对全院性的综合性数据,实现对各研究所的数据汇总,以及在此基础之上的数据展示,建立构架灵活的主题数据库,提供决策分析支持,提供Web服务接口,为研究所使用资源中的信息提供支持。根据IRC总体目标,用户总体功能需求包括:1、 在全院范围内建立起数据传输平台,实现对各研究所的数据汇总功能;所级ARP与院级ARP之间分布式的基础数据或中间结果数据的交换;2、 将相关数据集成到信息资源中心,对数据重新组织,并进行存储组织,并进行相应的数据管理;3、 建立报表展示平台,实现对中科院管理需要的数据展示;面向中科院院部各业务领域的综合统计与查询需求,建立可靠的、易用的、界面友好的智能业务查询平台,满足院部综合管理的需求信息资源中心定位为:数据交换中心、数据存储中心、数据管理中心、数据服务中心数据服务既是IRC的核心,也是IRC的亮点,客户主要包括三方面的需求:1、统计报表,根据实际的业务需求,在日常管理中、不同部门会有多种统计报表的需求;这些面向业务管理的管理统计报表,通过这个功能进行实现。2、 多维分析,根据实际的管理需求,对关系较强、较复杂的一个数据集合,从多个视角、不同层次、不同组合模式来观察数据的一种数据分析方法,满足这个需求的功能就是多维数据分析功能。3、 统计台帐,主要是针对院部(包括国家的、地方的)要求的、相对变化频度不高的、比较稳定的报表,预先定义好,系统固化起来的报表;这些统计报表,按照期间段集中起来存档,就成为统计台帐;4、基础数据调用,主要是ARP的其他系统,主要是指院级ARP系统,在需要访问IRC的系统数据时,在具体实现上的接口模式。3.2多维分析需求多维分析后台数据建立在数据仓库基础上,采用多维数据模型,对OLAP和多维数据模型进行了充分的利用,因此对决策分析需求详加阐述。3.2.1 用户需求用户所需主体部分参数如下:1、项目基本参数(1)获得973项目情况,申报数,第一轮通过数,第二轮通过数,最终入选数(包括作为主持和参与者的情况),各轮次通过单位数据,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学的数据)的比较,年度比较(973总经费、973全国学科分布情况)(2)获得863项目情况,申报数,第一轮通过数,第二轮通过数,最终入选数(包括作为主持和参与者的情况),各轮次通过单位数据,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(863总经费、973全国学科分布情况)(3)获得自然基金项目情况,申报数,第一轮入选数,最终入选数(包括作为主持和参与者的情况),获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(基金项目总体情况)(4)获得战略高技术项目情况(包括主持和参与者的情况),获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(横向)(5)获得发改委高技术产业化示范项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(6)获得其他部委项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(7)获得地方项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(8)获得企业项目情况,获得资金情况,学科分布,与其他院外机构(包括我国排名前十名的大学)的比较,年度比较(9)获得国外项目情况,获得资金情况,学科分布,年度比较2、资金基本参数1)资金支出参数项目资金支出情况,月度变化,年度变化,支出领域基建资金支出情况,月度变化,年度变化人员资金支出情况,月度变化,年度变化机构资金支出情况,月度变化,年度变化2)资金比重参数(1)我院所得经费在国家R&D投入中的比重及其年度变化,以及与其他研究机构的比较,与全国前十所大学研发经费的比较(2)我院所得经费在中央财政R&D支出中的比重及其年度变化,以及与其他研究机构的比较,与全国前十所大学研发经费的比较3、论文基本参数(1)我院发表SCI论文状况,月度变化,年度变化,领域分布,机构分布,引用率情况,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较(2)我院发表EI论文状况,月度变化,年度变化,领域分布,机构分布,引用率情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较(3)我院发表在Nature和Science文章情况,年度变化,领域分布,引用率情况,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较(4)我院提交国际会议论文情况,年度变化,领域分布,与其他院外机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较4、专利基本参数(1)我院申请专利状况,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较(2)我院申请发明专利的情况,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较(3)我院申请海外专利情况,月度变化,年度变化,领域分布,机构分布,专利使用情况,与院外其他机构(包括我国排名前十名的大学)的比较,与MPG、CNRS和日本理化所的比较5、获奖基本参数(1)我院获得国家自然科学奖、技术发明奖、科技进步奖等情况及其年度变化,与院外其他机构(包括我国排名前十名的大学)的比较(2)我院海外获奖情况及其年度变化,与院外其他机构(包括我国排名前十名的大学)的比较6、队伍参数(1)我院队伍结构状况,包括从事研发人员的年龄结构及其年度变化,拥有硕士学位和博士学位比例及其年度变化,研究人员、管理人员与支撑人员比例情况及其年度变化(2)我院吸引海外人才状况,领域分布,年龄分布,资质状况,与院外其他机构(包括我国排名前十名的大学)比较,年度比较(3)我院博士后情况,领域分布,年龄分布,与院外其他机构(包括我国排名前十名的大学)比较,年度比较(4)我院杰出科学家情况,包括重大项目(973,863,自然基金重大项目、院内重大项目)主持人的年龄、领域情况,及其年度变化(5)我院所级领导情况,年龄情况,学历情况,群众满意度情况,及其年度变化(6)教育情况,我院招收硕士、博士研究生情况,质量情况,与院外其他机构(包括我国排名前十名的大学)比较,年度比较7、企业参数(1)我院企业营业收入、上缴税金、净利润情况,及其年度变化(2)我院社会效益情况,包括我院转移技术给地方带来的营业收入、上缴税金、净利润情况,及其年度变化3.2.2 需求分析对于使用决策分析的高层领导,根据以上各个信息,希望可以根据关注的焦点组合相关的参数获得所需信息,从而进行决策分析,根据以上需求,我们可以知道:数据源是相对稳定的,大致趋势也是稳定的,但是决策所需是灵活的。根据需求我们做出以下分析:1、 需求是多层次的:譬如对某个研究所的时间趋势分析,有年度变化、有月度变化;各个主题在横向比较上可以得到不同层次的分析处理,譬如希望看到院内机构与院外机构的各个参数的比较、院内机构不但需要各个研究所内部纵向分析、还希望得到所与所之间、分院的决策分析2、 需求是多角度的:决策层希望看到各个角度的数据分析资料,机构分布、领域分布等3、 需求是多组合模式的我们以论文、奖项、专利为例进行详细的需求分析数据立方论文、奖项、专利都属于课题的产出物,建立一个产出物的主题,可以看到用户需求对于产出物设计的内容包括时间、机构、技术领域和产出物自身的类别及被利用情况,因此我们建立一个包含四个维的数据立方。时间技术领域产出物指标机构产出物维度描述维度名字维度描述机构包含所有与机构相关的信息和属性,机构分布、与院外其他机构等度量均与此关联时间包含所有与时间相关的信息和属性,月度变化、年度变化等度量均与此关联技术领域包含所有与技术领域相关的信息和属性,领域分布等度量均与此关联产出物指标包含所有与产出物(论文、专利、奖项)相关的信息和属性,产出物的分类等度量与此关联1、 机构维三层|二层:机构实体(eg:化学所)三层:二级机构(eg:北京分院)三层:一级机构(eg:中科院)二层:一级机构(eg:院外机构) 属性名字属性描绘举例三层:一级机构中科院到具体研究所分三个级别,此为第一级机构-中科院中科院三层:二级机构中科院到具体研究所分三个级别,此为第二级机构-各个分院 北京分院二层:一级机构院外机构到具体的单位分两个级别,此为第一级机构-院外机构大学机构实体各个层的具体单位清华大学,化学所2 、时间维三层|二层|一层:日期三层:月三层:年二层:年 属性名字属性描绘举例三层:年三层包括:年-月-日,此为第一级年;此层次设置用于月度比较2004年三层:月 三层包括:年-月-日,此为第一级月;此层次设置用于月度比较4月二层:年 二层包括:年-日,此为第一级年;此层次设置用于年度比较2004年日期各个层的具体日期;一层设置用于具体的时间引用2004-04-123、 技术领域维二层|一层:领域实体(eg:激光技术)二层:领域一级分类(eg:课题按技术领域分类) 属性名字属性描绘举例二层:领域一级分类二层包括:领域一级分类-领域实体,此层次设置用于领域分布、学科比较等课题按技术领域分类领域实体各个层的具体领域实体;一层设置用于具体的领域引用新材料技术、激光技术等4、 产出物指标维四层|三层:产出物实体(eg:具体的论文)三层:产出物二级分类 (eg:SCI论文)三层:产出物一级分类(eg:论文)四层:产出物一级分类 (eg:奖项)四层:产出物二级分类(eg:科技进步奖)四层:产出物三级分类(eg:国际奖)论文引用率专利应用情况 属性名字属性描绘举例四层:产出物一级分类产出物奖项到具体奖项分四个级别,此为第一级分类-奖项奖项四层:产出物二级分类 产出物奖项到具体奖项分四个级别,此为奖项第二级分类-获奖类型国家自然科学奖、技术发明奖、科技进步奖等四层:产出物三级分类产出物奖项到具体奖项分四个级别,此为奖项第三级分类-获奖类型具体的分类国际奖三层:产出物一级分类产出物论文、专利到具体论文、专利分三个级别,此为第一级分类-论文、专利 论文、专利三层:产出物二级分类产出物论文、专利到具体论文、专利分三个级别,此为第二级分类-发表刊物类别、申请专利类别 EI、SCI、发明专利等产出物实体具体的产出物“一个新型电子直线加速器的预制研究”论文引用率论文的被引用次数专利应用情况专利在现实中被应用得情况事实分析根据对维建立的分析,我们与用户实际需求相结合,对事实值作出如下分析1、 时间变化时间产出物指标机构时间变化产出物实体日期机构实体年度变化|月度变化如高能所如论文-SCI论文2 、领域分布如激光技术技术领域产出物指标机构领域分布产出物实体领域实体机构实体如高能所如论文-SCI论文3、 机构分布时间产出物指标机构机构实体产出物实体日期机构实体院内可以分院之间比较,也可以各个所之间比较分析如高能所如论文-SCI论文4、利用情况|时间产出物指标机构机构实体产出物实体|日期机构实体院内可以分院之间比较,也可以各个所之间比较分析如高能所如论文-SCI论文论文引用率|专利引用情况属性为必选项第四章 基于多维数据模型的IRC设计为了满足领导决策支持、综合统计分析,公共信息查询的需求,我们需要从数据源到数据存储、数据展现各个方面才能实现需求的需要4.1 IRC总体设计信息资源中心的数据来源于院级业务系统数据、所级业务系统数据及外部数据。通过数据的加载工具,自动抽取、筛选、导入,把院级业务系统数据、所级业务系统数据、外部数据加载到信息资源中心数据库;通过数据查询和报表工具、在线分析工具、数据挖掘工具来满足领导决策支持、综合统计分析,公共信息查询的需求;通过基于Web的信息发布系统将公共信息发送给不同的地点或用户 如图所示:所一至所n(有可能是112)构成科学院数据中心数据源,每个所目前所知为97张接口表;院数据缓冲区、院业务存储区、院指标数据仓库构成科学院数据中心;业务数据报表展示、指标数据多维分析以及灵活报表构成数据展现平台;贯穿于每个节点都有完善的管理、容灾、日志功能,集中于院IRC,统一管理。4.2 多维数据模型存储 由上文需求分析我们知道,为了满足决策分析的需求,我们需要建立大量的维表和事实表,而中科院原有存储为关系型实体,因此我们选择以ROLAP来存储,以星型模式来组织数据。基于以上原则,对于数据整合建立以下标准。通过数据整合完成由关系型实体到维度级别的转换,满足多维分析对数据层面的要求:(1)采用自上而下设计,自下而上对位再修改的设计实现过程;(2)数据仓库数据组织为星型模式,通过ROLAP存储,以适应业务系统数据的日益增长;(3)父子之间必须是1:N的关系:一个父可以有一个或多个孩子,但一个孩子只能有一个父;(4)层次中的级别和依赖于级别的维表属性之间是1:1的关系;(5)如果父子级别在不同的关系中,他们之间的连接也必须是1:N的关系;(6)要确保层次中的级别是非空的;(7)维中的层次可以交迭或分离;(8)在维中不能有闭环出现;4.3多维数据模型前台实现数据服务既是IRC的核心,也是IRC的亮点,也是满足领导决策支持、综合统计分析,公共信息查询需求的最直接体现数据展示平台是ARP 信息资源中心系统,面向中科院的综合管理的需要,通过数据交换平台,从各个所级业务系统获得相关的数据源,存储于信息资源中心数据库,在此基础上,建立可靠的、易用的数据展示平台,通过对这些数据的分析、组织,结合对展示界面的分析、设计,实现对综合性数据的可视化利用,进而实现院部综合管理的需求。第五章 多种多维数据模型的比较与分析5.1多种OLAP比较分析多维数据模型是联机分析处理(OLAP)的核心,OLAP使分析人员、管理人员能够从多个角度多个层次对信息进行快速、一致、交互的访问,从而获得对数据更为深入了解的技术,目标就是满足支持或满足在多维环境下特定的查询和报表需求,它的数据存储方式直接影响到多维分析,我们先对此比较分析OLAP Server的实现中按照数据存储方式的不同可以分为三种:ROLAP、MOLAP和HOLAP.ROLAP表示基于关系数据库的OLAP实现(Relational OLAP).以关系数据库为核心,以关系型结构进行多维数据的表示和存储,并将面向多维数据的操作转化成关系查询。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。为了直观地表达其多维数据结构的本质,以及有效的支持OLAP查询,通常采用星型模式或雪花模式组织。星型模式包括一个大型的事实表和一组在逻辑上围绕着这个事实表的维表。事实表包含汇总了的业务事实(即度量)和与之相关的多个维码,而维表就象星星的角一样,分布在事实表的外围,描述了观察业务的各个角度。雪花模式是星型模式的一种扩展,它对部分维表进行了规范化,将其进一步分解成更多的表。由于雪花模式对维进行了一定程度的规范化处理,因此,在设计中采用雪花模式能够有效节省数据存储空间。MOLAP表示基于多维数组结构的OLAP实现(Multidimensional OLAP),也就是说,MOLAP采用特殊的数据结构-多维数组来组织、存储数据,由设计人员定义所有可能的聚集,在一定存储结构的支持下,对可能的聚集进行预计算,并加以物化存储,以支持Roll-Up和Drill-Down的操作。在MOLAP中对“立方体”的“旋转”、“切块”、“切片”是产生多位数据报表的主要技术。HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP).其基础数据是按照关系模型组织存储,而聚集(综合)数据按照多维数组来组织存储。这种方式是ROLAP与MOLAP的结合,具有更好的灵活性。由于ROLAP与MOLAP在数据存储方式上的不同,两者在物化方法,数据的聚集计算以及分析方法上也存在着极大的差异。ROLAP采用关系表作为数据结构,对于多维概念模型中的一个单元,使用关系表中的一个元组进行表示。元组中的一些属性相当于单元的数据值,而另一些属性可以确定这个单元在多维空间中的位置。由于它使用关系数据库来实现多位数据模型,因此需要将用户提交的分析查询转换成相应的SQL查询语句。从内部看,它是一个高级查询生成器,提供高效率的SQL算法、数据综合、嵌套报表、旋转函数以及决策支持查询的扩展。由于ROLAP Server建立在技术已经相当成熟的关系数据库管理系统上,因此具有可靠性、可扩展性、灵活性以及处理大规模数据的能力。ROLAP技术与关系数据库有着千丝万缕的联系,并且由于RDBMS多年来获得广泛应用,所以ROLAP技术在数据仓库技术的发展之初就受到极大的关注,并日趋成熟。但是,因为OLTP类型的操作与OLAP类型的操作毕竟有很大的不同,因此在提供多维数据视图的能力、多维分析的能力、纬度变换的能力以及在性能上具有一定的局限性。尤其是处理大数据量的情况,当维数增加时,需要做多表的连接操作,将大大降低系统的性能。MOLAP以多维数组方式组织数据,也就是说,MOLAP将要分析的数据以多维结构组织管理,按照多维数组结构存储数据,高效、方便地装载、查询数据,并且提供高效地的多维计算分析功能。它具有以下特点:a) 概念表达清晰:能直观表达现实世界中的复杂关系。b) 数据存储量小:数据聚集存储在一个多维数组中,维的值不需要重复存储。c) 数据索引率高:多维数组中的索引通常与数据存储的具体位置有关,而与具体值无关。d) 优良的查询性能:可以根据维的值计算得出度量数据的地址(偏移量),通过偏移量直接获取数据,数据的检索速度快,聚集(综合)效率高。但是,MOLAP当数据量急剧增加,尤其是纬度增加时,整个多维数组将会变得相当稀疏,严重影响多维数组存储和查询的效率,因此需要对多维数组根据其数据状况进行有效压缩。5.2 多种多维数据模型比较分析多维数据模型作为一种应用,已在有些领域得到广泛的应用(如:GIS、统计数据库等)。从直观上来讲,多维数据模型与统计数据模型有着千丝万缕的联系,Sho97对统计数据库与OLAP应用进行了详细的比较,认为它俩之间存在着一定的相似性,但是两种模型所要解决的问题却是大相径庭。LMW96提出了针对多维数组的数据模型和查询语言,该模型与科学计算有着紧密的联系,将多维数组看作位置索引和值之间的映射,作者并未将模型列入OLAP领域中,不支持结构化的维。近年来,学术界根据OLAP的特性,先后提出了几种多维数据模型AGS97,BSH+98,CT98,DT97,GiLa98,LMW96,LeH98,LRT96,LW96,Vas98,LG00,这些数据模型大体上可以分为四类LG00:1、 简单Cube模型DT97,GiLa98:将数据集合看成是n维空间中的点集,通常将数据分成度量(Measure)和维(Dimensions)两类,其中维是观察度量的角度,是多维空间中的维度,而度量值表示多维空间的点,是分析处理关注的焦点,维属性和度量属性之间存在着函数的依赖关系。简单Cube模型的致命弱点在于其不支持层次结构的概念,不能有效表达维层次之间的语义关系。2、 结构化Cube模型AGS97,LW96,Leh98:在简单Cube模型的基础上,将维信息进行抽取,提取具有代数格特征的维层次结构,并显示的提供给用户,以便更加直观地指导用户的分析行为。在AGS97,LW96中提出的多维数据模型只是部分地间接支持维层次结构的表示,而不能直接地表示多维数据集合中完整的维层次结构,他们的数据模型通过组合多个维关系或合并函数来表示维层次结构。Leh98可以显示给出维层次结构,但是它仅支持简单维层次结构,即只允许每一个维具有单条层次路径。3、 统计对象模型LMW96:支持结构化的分类层次,但是每个结构化的分类层次必须与一个特定的聚集函数相关,而且每个结构化的分类层次只能定义在一个度量属性上,用来回答特定的统计分析查询。该类模型与上两类模型相比具有查询速度快、信息语义强的特点,灵活性较差。4、 复杂多维数据模型LG00:针对现实应用中的实际问题,许多专家纷纷提出了一些复杂多维数据模型,但是这些多维模型通常仅仅针对某一方面的复杂情况而提出。主要是支持复杂的维成员和复杂结构的度量。5.3 IRC基于OLAP和多维数据模型满足需求所做的设计由上文需求分析我们知道,为了满足决策分析的需求,我们需要建立大量的维表和事实表,而中科院原有存储为关系型实体,因此我们选择以ROLAP来存储,以星型模式来组织数据。通过需求分析我们知道:为了满足决策分析的需要,每一个维都需要多条层次路径,即需要结构化的分类层次结构,又需要维的多条层次路径,所以我们按照需要建立了复杂多维数据模型:简单Cube模型的基础上,将维信息进行抽取,提取具有代数格特征的维层次结构,根据需求要求为每个维建立多条层次路径。如机构维的建立:三层|二层:机构实体(eg:化学所)三层:二级机构(eg:北京分院)三层:一级机构(eg:中科院)二层:一级机构(eg:院外机构)5.4 IRC应用发现目前多维数据模型仍然存在的问题前文所分析的多维数据模型虽然具有多维的特点,但是他们都是从实际的应用需求出发,为解决某些特定问题而提出的,大都存在以下一些缺陷:1、 有些多维数据模型不能显示地表示维层次结构GBLP96,DT97,GiLa982、 有些能显示表示维层次结构,但是仅能表示简单的维层次结构(即仅包含一条路径的维层次结构,所有的维成员构成一颗高度平衡树)AGS97,LW963、 有些模型虽然能够支持复杂的维层次结构,但是维层次属性仅包含维层次分类属性,多维数据模型不能支持复杂的维层次描述属性的定义,难以有效的表达复杂维层次属性的结构和语义Leh98,LG004、 大多数的多维数据模型仅支持简单数值类型的度量,不能有效地表达复杂结构的度量,如记录结构的度量和复杂数据类型的度量5、 无法支持用户自定义聚集函数6、 所有的多维数据模型均未给出多维数据模型的完整性约束条件在IRC应用中维结构变得非常复杂。1、 有些维层次结构可以拥有同一底层数据的多条层次路径,提供给用户从多种角度来观察数据,也就是说一个层次结构并不需要包括维中的所有维中的所有维层次属性。在时间维的维层次结构中存在两条维层次结构,分别为:T年份季度月份日期和T年份周次日期2、 维成员树可能是一棵高度不平衡树。除根节点外,存在某些维成员节点与其前驱结点的层次距离1。维成员院外机构和清华大学之间的层次距离=33、 在许多维层次结构中,某一维层次属性不仅包含用以定义与其它维层次之间分类关系的分类属性,如产品名称、产品小类、产品大类等,同时还拥有用以描述该维层次特征的描述属性,如产品名称中的产品颜色、包装大小等,用户希望在分析过程中,可以方便获得维层次分类属性相对应的维层次描述属性,有些情况下还可以将维层次描述属性变成维层次分类属性,构成另一条维层次路径4、 在某些维层次结构中还包含复杂数据类型的维成员。如在生态观测点维的层次机构中,可以包含维层次路径:观测点-县-省-地区,其中观测点为空间点类型,县、省和地区为空间面类型第六章 本文工作总结6.1工作总结随着市场竞争的加剧以及信息社会需求的发展,从大量数据中提取信息并用之于决策分析的要求显得越来越迫切。数据仓库这一概念的提出,为上述问题提供了良好的解答。作为数据仓库三层体系结构中一层的联机分析处理服务器层,迫切要求能够支持复杂、高维、稀疏、海量数据的存储,能够进行数据的增量加载、能够对查询要求作出快速响应等等。OLAP作为支持分析决策的核心技术之一,近来在许多领域得到广泛的应用。多维数据模型是OLAP分析的核心。神州数码承担了中国科学院资源规划项目,本文作者作为项目的参与者,承担了信息资源中心部分工作,尤其是基于多维数据模型的数据展示平台的设计及实现方面做了大量工作具体内容如下:1、 信息资源中心数据展示平台需求分析2、 状态监控指标多维分析3、 多维数据模型实现6.2工作展望数据仓库以及联机分析处理技术作为一门新兴的技术领域,目前还存在着大量需要研究的问题。本文基于ARP项目对多维数据模型做了一些分析比较,然而还存在很多需要进一步探讨和研究的地方:1、 在实际应用中维结构变得非常复杂2、 在实际应用中度量的结构也变得非常复杂3、 聚集函数相当复杂4、 要求提供更加复杂的OLAP操作参考文献AGS97 R.Agrawal, A.Gupta,S.sarawagi. Modelling Multidimensional Databases.Proc.of the ICDE97.BSH+98 M.Blaschka,C.Sapia,G.Hofling,B.Dinter. Finding Your Way Through Multidimensional Data Models DEX
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专业服务网络优化协议
- 企业用水用电安全协议
- 销售合同评审与执行标准化工具包
- 公益生态组织活动承诺函(3篇)
- 罕见病患者服务保障承诺书5篇
- 企业财务管理常用计算工具包
- 分数布朗运动视角下回望期权定价模型构建与实证研究
- 冻融与水分协同下风化煤改良露天煤矿复垦土壤及植被恢复的机制与效应研究
- 从睦洞村看农村社区村民自治的协商民主路径探索
- 职业教育课程标准与考核指南
- 2025年有机生态肥行业深度研究报告
- 2025年生物性污染对人体健康的危害与生物安全防控措施
- GB 20071-2025汽车侧面碰撞的乘员保护
- (2025)营养指导员考试真题库(含答案)
- 2025年注安道路运输安全实务真题卷(附解析)
- GB/T 45542-2025工业锅炉综合能效评价技术规范
- DB11 396-2006 地理标志产品 平谷大桃
- 2025胃癌诊疗规范
- 小学英语北京版二年级上册名校期末测试题(一)
- 荨麻疹的护理查房课件
- 多黏菌素临床应用关注的几个问题
评论
0/150
提交评论