（计算机应用技术专业论文）基于web的olap可视化方法研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：55 大小：2.22MB 积分：0 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要硕士论文 abs tract 0 l a pi s as o ft w ar e t e c h n o 1 o gy w h i c hl etana 】y s i s e r 、 m ana g e r o r e x e cute rc an d e p o si t and e x t r a c t th e l n fo n 力 a t ion c ons i stent l y，inte ract i v e l y fromd i ffere ntpoi nt ， th usc an g od e e pi n toth e d a 1ainth e d a ta w a r e app l i anc e ，o l a p 即p l i anc ei s a fo n ” e r 1 0 0 l o f d a t a w a r e app l i anc e . .n e ti smi c ros o ft ， sx ml认乞 bs e rv i c ep l at fo rm x ml叭 /c bse rvi c ec an l et a p p l i c atio n p ro gr 别叮廿邵 1 s fe rsand sh are d ata 1 e a p ove r o p e r a i i n g s y s t e n 1 a ndp ro g r 田 n l ang uag e onthe l ntem e t . o l a ptechno l o gy c o m b i ned俪t 】1 .n e ttec】u 1 0 l o gy c an con s t n l ctaon一 l i n e 声币 a 】 yt i c alp “ 祀 e s sing s c r v i c e b as e d l nt e m et . t h i s th e s i s d ocs a re s e a r c h on h o wtore al i ze v i s ua1 1 z a i i on o f 0 l a p，w h i c hi s a frontdi 印 1 叮s y stemb as e d o n 从 /e b .the 往侣 k o f th i s su bj ect i s tod e s i ，anan al y s i s 胡d frontd i spi 叮sys t e mw h i c h c ans l i c e ， d i c e ， dril l ， a n d p i v o t m uti戒i m e s i ondat a se t . f i ist1 y，面sth e si se x poundthec u n n tdsvel o p m e n ts i t u a t i o n明dk e y te c hno l ogie s a bout如t a w a r e h o u s e ando l a p t b e nitdi s c u s se s th e ove r a 】 i pl an of 朗目 ysispl a l fo rm， d e v el opin g env i r 0 n n 1 ent andkey te c h n o 1 o gi es丘 o mt h e asp e c tsof g e n e r a 1 ityand p r a c t i c alityofthe sy s t e m ，胡 d fo c 以s onthe desi gnofdstafo rms. f i n a l坛the reali 乙欲 i o n ofthe s y s t e m胡d itse ffect暇朋a ly zed ai p r e se n l ，而ssys t e mh a s即hi eve dg o od te stre sultsandd e n 1 o n st r at e sth e correc t n e s s and te as i b i l i tyoft h e s y st e m . k . y 钾 o r d s : 场范 b 0 l a p vis 朋l i z e mut i 一 imens i o n g ri d 声明本学位论文是我在导师的指导下取得的研究成果，尽我所知，在本学位论文中，除了加以标注和致谢的部分外，不包含其他人己经发表或公布过的研究成果，也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名 : 如难撼、补， ;年1 1 月子，日学位论文使用授权声明南京理工大学有权保存本学位论文的电子和纸质文档，可以借阅或上网公布本学位论文的全部或部分内容，可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对于保密论文，按保密的有关规定和程序处理。研究生签名 : 物吃恋铆吞年 1) 月夕日南京理工大学硕士论文基于认几 b 的o l 冉 p可视化方法研究 1 绪论， . 1 课题背景随着计算机技术的广泛使用以及数据库技术的迅速发展，特别近30年内关系数据库技术的兴起和成熟，人们积累的数据越来越多，激增的数据背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段，导致了“ 数据爆炸但知识贫乏” 的现象。数据量的不断扩张，传统的简单统计加上大部分的人工分析方法已经变得力不从心。因此，在商业领域和科学研究领域都迫切要求发展一种新的技术，该技术能够从海量的数据中抽取出模式，找出数据变化的规律和数据之间的相互依存关系，使人们能够从宏观的高层次的角度来审视数据，充分发掘数据的潜力，指导人们的行为，为决策和科学发现提供有力的支持。数据仓库是一种新型的数据存储和组织技术，将大量用于事务处理的传统数据库数据进行清理、抽取和转换，并按决策主题的需要进行重新组织，为数据分析提供高质量的数据源，从而更好地支持管理决策。数据仓库中存储和管理着经过处理的、面向主题的数据集合，这些数据为各种不同决策需求提供了分析基础，必须有强有力的工具进行分析和决策。联机分析处理 ( o l a p )技术就是其中之一。 olap 是基于数据仓库最重要的多维分析工具。它的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是多维分析。 o l a p具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点，从而使用户对大量复杂数据的分析变得轻松而高效，以利于迅速做出正确的判断，辅助决策。 o l a p分析结果的可视化也就成为一个需要解决的问题。数据可视化应用致力于将信息以尽可能多的形式展现出来，目的是使决策者通过图形这种直观的表现方式迅速获得信息中蕴藏的知识，如趋势、分布、密度等要素。随着w eb应用的普及，商业智能的解决方案能够提供基于份 eb的应用服务，这样就扩展了商业智能的信息发布范围，享有访问权限的用户只要能够登陆互连网，就可以及时访问自己所关心的内容。一些研究机构和公司也开始着手研制和开发o l a p可视化工具。1 服公司提供了一套基于可视数据仓库的商业智能 ( b l) 解决方案。它的前端数据展现工具可以是 b u s i n e s sobj e c t s 的b()、l o t u s 的a p p r o a c h 、 c o g n o s 的1 二 p r 姻p t u 或1 明的que r y m a n a g e m e n t 凡c i l i t y 。 ora c l e e x p r e s s 贾 e b a g e n t 通过cgi 或w e b 插件支持基于w e b 的动态多维数据展现;oracle e xpress obj ect s前端数据分析工具，提供了图形化建模和假设分析功能，支持可视化开发和事件驱动编程技术，提供了兼容 visual 绪论硕十论文 b a s i c 语法的语言，支持戊x 和o l e ;ora c l ee x p r e s sa n a l y z e r 是通用的、面向最终用户的报告和分析工具。 s y b ase 提供的数据仓库解决方案称为w arehouses t u d io， s y b a s e i q 支持各种流行的前端展现1具 ( 如c o g n o s l m p r o o p t u 、 b u s i n e s s o b j e c t s 、 b r i o q u e r y 等) 。ca于1 9 9 9 年收购了p l a t i n u m t e c h n o l o g y 公司后，得到了完整的数据仓库解决方案，其中f o r e s t 当数据超过数据仓库的存储期限，或对分析不在有用时，这些数据将从数据仓库中删去。关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中，数数据仓库技术硕一十论文据仓库维护工作由系统根据元数据中的定义自动进行，或由系统管理员定期维护，用户不必关心数据仓库如何被更新的细节。 2. 2数据仓库的休系结构整个数据仓库体系结构如图2. 2 ， 1 所示，由数据仓库、数据仓库管理系统和工具集三部分组成 11 。数据仓库居于核心地位，它是数据的物理载体，有关系型数据，也有多维数据，有细节数据也有综合数据。数据仓库管理系统保证整个系统的良好运行，前端工具集是对数据仓库的应用 13 。数据仓库管理部件工具集运亘互红图2. 2. 1 数据仓库体系结构图数据源可以是分布的、异构的，也可能是独立的关系型数据库系统，例如二 c 坛 a c l e， s ybase，也可以是某些格式化文档，如: e xcel 。各数据源面向特定的应用，在地理位置上可以是分布的。数据仓库管理系统是负责数据定义、数据获取、数据管理。数据定义是指定义和建立数据仓库; 数据获取是指数据的集成; 数据管理是指数据维护、安全、归档、备份、回复等。数据获取部件是从各个不同的数据源中经过检验、抽取、净化、转换映射成单一的数据源。它包括数据过滤器、数据格式转换器、数据复制工具、代码发生器等。工具集包括查询工具，分析工具和挖掘工具。因为数据仓库的数据量巨大，需要一套功能强大的工具集实现对数据仓库的应用，提供辅助决策的要求。查询工具不是简单的数据记录查询，是对分析结果的查询。分析工具是主要的工具，是对数据的多种观察形式进行的快速、一致和交互性存取，便于用户对数据深入了解以及数据比较，这是验证性工具，需要用户指导数据分析的全过程，是基于信息的决策。挖掘工具是负责从大量数据中发现数据模式，预测趋势和行为，挖掘工具是一种主动型工具，是基于知识的决策。 6 南京理工大学硕士论文基于w e b 的o l a f 可视化方法研究 2. 3 数据仓库的数据组织数据仓库中数据的组织问题是建立数据仓库的关键，所以理解数据的组织从而能更好的去对数据仓库有深入的理解和运用。数据仓库中的数据分为四个级别: 早期细节级、当前细节级、轻度综合级、高度综合级。源数据经过综合后，首先进入当前细节级，并根据具体需要进行进一步的综合，从而进入轻度综合级乃至高度综合级，老化的数据将进入早期细节级。由此可见，数据仓库中存在着不同的综合级别，一般称之为 “ 粒度” 。粒度越大，表示细节程度越低，综合程度越高。一个典型的数据仓库的数据组织结构如图2. 3 1 所示队合合节综于综细度度前高轻当元数据早期细节图2. 3 . i d w数据组织结构 z j .1粒度与分割 1 .粒度粒度是数据仓库的重要概念 151 16 。粒度可以分为两种形式，第一种粒度是对数据仓库中的数据的综合程度高低的一个度量，它既影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的种类。在数据仓库中，多维粒度是必不可少的。由于数据仓库的主要作用是 dss分析，因而绝大多数查询都基于一定程度的综合数据之上的，只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘土，小粒度数据存于低速设备如磁带上。还有一种粒度形式，即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的，而是有采样率的高低来划分，采样粒度不同的样本数据库可以具有相同的数据的综合程度。 2 .分割分割是数据仓库中的另一个重要概念，它的目的同样在于提高效率。它是将数据分散到各自的物理单元中去，以便能分别独立处理。有许多数据分割的标 7 数据仓库技术硕士论文准可供参考: 如日期、地域、业务领域等等，也可以是其组合。一般而言，分割标准应包括日期项，它十分自然而且分割均匀。 2. 3. 2 数据组织方式数据仓库的数据组织方式分为虚拟存储方式、基于关系表的存储方式和多维数据库存储三种方式【刀 . 1 .虚拟存储方式: 虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库数据存储，数据仓库中的数据仍然在源数据库中，只是根据用户的多维需求及形成的多维视图，临时在源数据库中找出所需要的数据，完成多维分析。这种形式要求源数据库的数据组织比较规范、没有数据不完备及冗余，同时又比较接近多维数据模型。因而，它虽然简单但在实际中这种方式很难建立起有效的决策服务数据支持。 2 .基于关系表的存储方式: 这种方式是将数据仓库的数据存储在关系数据库的表结构中，在元数据的管理下完成数据仓库的功能。这种存储方式在建库时，首先要提供一种图形化的操作界面，使分析员能对源数据库的内容进行选择，定义多维数据模型，然后再编制程序把数据库中的数据抽取到数据仓库的数据库中。这种方式的主要问题是在多维数据模型定义好后，从数据库中抽取数据往往需要编制独立、复杂的程序，因此通用性差、很难维护。 3 .多维数据库存储方式: 多维数据库的组织是直接面向o l a p分析操作的数据存储形式。这种存储方式的数据组织采用多维数据组结构文件进行数据存储，并有维索引及相应的元数据管理文件与数据相对应。 2 3 3 数据仓库的元数据元数据在数据仓库的设计、运行中有着重要的作用，它描述了数据仓库中的各对象，是数据仓库的核心。它是关于数据仓库中有什么、他们来自何处、他们通过何种方式转换而来等的描述信息，其主要目标是提供数据资源的全面指南。换句话说，元数据就是 “ 关于数据的数据” 。如果没有一个好的元数据支持运作的化，d ss 分析员的工作就很难进行。典型的元数据包括: 数据仓库的表结构、数据仓库的表属性、数据仓库的源数据、从操作型数据系统到数据仓库的映射、数据模型的说明、抽取日志、访问数据的公用程序、数据的定义/ 描述、数据单元之间的关系。元数据的主要目的是为了计算机系统的结构、开发过程和使用方法提供一致的文档，从而为数据仓库开发人员和d ss分析员提供更加有效的支持。其主要作用如下 15: 1 、改善与系统的交互。元数据文档中包含系统的使用方法、现有业务概念、术南京理工大学硕士论文基于节几 b的o l a 尸可视化方法研究语、预定义的查询和报表等内容的详细说明，使得信息检索和查询等系统的交互更加高效快捷。 2 、提高数据质量。元数据可以解释数据的来源、操作、意义等问题，有利于保持数据的一致性、精确性和完整性等，从而保证数据的质量。 3 、支持系统集成。在异构数据库和信息系统的集成，以及简单的多数据源之间的协同工作中都需要关于每个数据源的结构和意义的元数据。 4 、支持系统的分析、设计和维护。通过提供数据的结构、来源、意义等信息以形成应用程序和软件的文档，元数据增加了应用程序开发过程的可控性和可靠性。 5 、改善系统的灵活性和现有软件模块的可重用性。把一些具有明确语义的数据存储在元数据中而不是在应用程序中，当系统出现新的需求时可以灵活的扩展软件，使软件具有较好的适应性。 2. 4数据仓库的关键技术与关系数据库不同，数据仓库并没有严格的数学理论基础，它更偏向于工程。由于数据仓库的这种工程性，因而在技术上可以根据它的工作过程分为: 数据的抽取、存储和管理、数据的表现三个方面 191 1101. 2. 4. 1 数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境，它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步，因此数据抽取可以定时进行，但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。在技术发展上，数据抽取所涉及的单个技术环节都己相对成熟，其中有一些是躲不开编程的，但整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具。这些工具通过用户选定源数据和目标数据的对应关系，会自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的，同时数据抽取过程涉及数据的转换，它是一个与实际应用密切相关的部分，其复杂性使得不可嵌入用户编程的抽取工具往往不能满足要求. 因此，实际的数据仓库实施过程中往往不一定使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维护则更为重要。从市场发展来看，以数据抽取、异构互连产品为主项的数据仓库厂商一般都很有可能被其它拥有数据库数据仓库技术硕十论文产品的公司吞并。在数据仓库的世界里，它们只能成为辅助的角色。 2. 4. 2 数据的存储和管理数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性，同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心，则需要从数据仓库的技术特点着手分析。数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多，且随时间的推移而累积。从现有技术和产品来看，只有关系数据库系统能够担当此任。关系数据库经过近30年的发展，在数据存储和管理方面己经非常成熟，非其它数据管理系统可比。目前不少关系数据库系统己支持数据分割技术，能够将一个大的数据库表分散在多个物理存储设备中，进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个g b 甚至到t b 的数据己是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问题，好在数据仓库对联机备份的要求并不高 191 。数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中，用户访问系统的特点是短小而密集。对于一个多处理机系统来说，能够将用户的请求进行均衡分担是关键，这便是并发操作。而在数据仓库系统中，用户访问系统的特点是庞大而稀疏，每一个查询和统计都很复杂，但访问的频率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务，将该请求并行处理。因此，并行处理技术在数据仓库中比以往更加重要。在针对数据仓库的t 代基准测试中，比以往增加了一个单用户环境的测试“ 系统功力”( q p pd) 1111。系统的并行处理能力对qppd的值有重要影响。目前，关系数据库系统在并行处理方面己能做到对查询语句的分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境，能够支持多达上百个处理机的硬件系统并保持性能的扩展能力。数据仓库的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库而言，因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上，针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。普通关系数据库采用b 树 12b i 类的索引，对于性别、年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了位图索引的机制，以二进制位表示字段的状态，将查询过程变为筛选过程，单个计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极不均匀，普通查询优化器所得出得最佳查询路径可能不是最优的。因此，面向决策支持的关系数据库在查询优化器上也作了改进，同时根据索引的使用特性增加了多重索引扫描的能力。 1 0 南京理工大学硕士论文基于w e b 的o l a p 可视化方法研究以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作，而连接操作对于关系数据库来说是一件耗时的操作【门。扩充的关系数据库中对连接操作可以做预先的定义，我们称之为连接索引，使得数据库在执行查询时可直接获取数据而不必实施具体的连接操作。数据仓库的查询常常只需要数据库中的部分记录，如最大的前 5 0家客户，等等。普通关系数据库没有提供这样的查询能力，只好将整个表的记录进行排序，从而耗费了大量的时间。决策支持的关系数据库在此做了改进，提供了这一功能。此外，数据仓库的查询并不需要像事务处理系统那样精确，但在大容量数据环境中需要有足够短的系统响应时间。因此，一些数据库系统增加了采样数据的查询能力，在精确度允许的范围内，大幅度提高系统查询效率。总之，将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可以做，它己成为关系数据库技术的一个重要研究课题和发展方向. 可见，对于决策支持的扩充是传统关系数据库进入数据仓库市场的重要技术措施。数据仓库的第四个问题是支持多维分析的查询模式，这也是关系数据库在数据仓库领域遇到的最严峻的挑战之一11 21 113 1 . 用户在使用数据仓库时的访问方式与传统的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查询，而是基于用户业务的分析模式，即联机分析。如2 . 4 . 2 . 1 所示，它的特点是将数据想象成多维的立方体，用户的查询便相当于在其中的部分维( 棱) 上施加条件，对立方体进行切片、分割，得到的结果则是数值的矩阵或向量，并将其制成图表或输入数理统计的算法。选择图2 . 4 . 2 . 1联机分析数据处理示意图关系数据库本身没有提供这种多维分析的查询功能，而且在数据仓库发展的早期，人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的过程也难以自动化阎。为此，人们提出了多维数据库的概念。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统，它不是关系型数据库，在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。采用多维数据库实现的联机分析应用我们称之为m o l a 夕、多维数据库在针对小型的多维分析应用有较好的效果，但它缺少关系数据库所拥有的并行处理及大规模数据管理扩展性，因此难以承担大型数据仓库应用。这样的状态直接在“ 星型模式” 关系数据库设计中得到广泛的应用才彻底改变。几年前，数据仓库专家们发现，关系数据库若采用“ 星型模式” 来组织数据就能很好地解决多维分析的问题。 “ 星型模式”只不过是数据库设计中数据表之间的一种关联数据仓库技术硕一上论文形式，它的巧妙之处在于能够找到一个固定的算法，将用户的多维查询请求转换成针对该数据模式的标准s q l 语句，而且该语句是最优化的。 “ 星型模式” 的应用为关系数据库在数据仓库领域打开绿灯。采用关系数据库实现的联机分析应用称为r o l a po 目前，大多数厂商提供的数据仓库解决方案都采用r o l a p ll4 ) 。 2. 4. 3数据的表现数据表现是数据仓库的门面。这是一个工具厂商的天下。它们主要集中在多维分析、数理统计和数据挖掘方面四。多维分析是数据仓库的重要表现形式，由于mo l ap 系统是专用的，因此，关于多维分析领域的工具和产品大多是r o l ap 工具。这些产品近两年来更加注重提供基于w 七 b 的前端联机分析界面，而不仅仅是网上数据的发布。数理统计原本与数据仓库没有直接的联系，但在实际的应用中，客户需要通过对数据的统计来验证他们对某些事物的假设，以进行决策。与数理统计相似，数据挖掘与数据仓库也没有直接的联系。而且这个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设，而且它更要主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然很吸引人，但在实现上却有很大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找出数据的规律，而是验证尽可能多的假设，其中包括许多毫无意义的组合，最后由人来判断其合理性。因此，在当前的数据仓库应用中，有效地利用数理统计就已经能够获得可观的效益。 2. 5数据挖掘和数据仓库 2. 5. 1数据挖掘和数据仓库的关系数据仓库是一个环境，而不是一件产品，提供用户用于决策支持的当前和历史数据，这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息，提供决策支持 151 。大部分清况下，数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。从数据仓库中直接得到进行数据挖掘的数据有许多好处。如果数据在导入数据仓库时己经清理过，那很可能在做数据挖掘时就没必要在清理一次了，而且所有的数据不一致的问题都己经被你解决了。南京理工大学硕士论文基于节阳 b的o l a 尸可视化方法研究 2. 5 .2数据挖掘常用技术12.1 1 .人工神经网络仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。粗略的说，神经网络是一组连接的神经单元，其中每个连接都与一个权相联。在学习阶段，通过调整神经网络的权，使得能够预测输人样本的正确类标号来学习。由于单元之间的连接，神经网络学习又称连接者学习。它的优点包括对噪声数据的高承受力，以及它对未经训练的数据分类模型的能力。 2 .决策树决策树( d ecisi on t ree)是一个类似于流程图的树结构。它的算法与数据结构中的二叉判定树的概念很类似。其中每个内部节点表示在一个属性上的测试，每个分枝代表一个测试输出，而每个树叶节点代表类或类分布。树的最顶层界定就是根节点. 常用算法有以rt、 c h a i d 、i d3、 c4. 5 、 cs. 0 等. 3 .遗传算法基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。根据适者生存的原则，形成由当前群体中最合适的规则组成新的群体，以及这些规则的后代。典型情况下，规则的适合度用它对训练样本集的分类准确率评估。后代通过使用诸如交叉和变异等遗传操作来创建。 4 .最近邻算法将数据集合中每一个记录进行分类的方法。最临近分类是基于要求的或徽散的学习法，即它存放所有的训练样本，并且直到新的( 未标记的) 样本需要分类时才建立分类。它也可用于预测，即返回给定的位置样本的实数值预测。 5 .加r i o r i 算法它是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法的名字基于这样的事实: 算法使用频繁项集性质的先验知识。它用一种称作逐层搜索的迭代方法， k 一项集用于探索( k +l) 一项集。首先找出频繁1 一项集的集合。然后利用前者找出2 一项集的集合，如此迭代，直到不能找出频繁k 一项集。最后由频繁项集产生关联规则。 6 .频繁模式增长( pp一增长) 和上面的方法相比，它是一种不产生候选的挖掘频繁项集的方法。它构造一个高度压缩的数据结构(f p 一增长) ，压缩原来的事物数据库。它聚焦于频繁模式增长，避免了高代价的候选产生，获得更好的效率。除了上述的常用方法外，还有粗集方法，模糊集合方法， b ayesi anb eli ef n e t o r d s ，最邻近算法( k 一 n e are s tn e i 只 h b o r sm e t h o d ( k n n ) ) 等。数据仓库技术硕一 l 论文 2. 6数据清理系统 2. 6. 1 数据清理的重要性数据仓库的正确性及有用性由它的数据所决定 12 叼。一个带有残缺或错误信息的数据仓库将挫伤数据仓库的真正意图为重要的事务决策提供快速和准确的数据。对于一个公司而言，有一个拥有错误信息的数据仓库比没有数据仓库更糟。数据的来源不同使数据仓库很容易包含“ 脏” 的和 “ 不稳定” 的数据。因此，数据清理是创建数据仓库的关键步骤 123 o 一些数据致污物是导致 “ 脏”数据的原因: 1 、错误: 如印刷错误 2 、歧义: 同名异义词。 3 、缺少标准: 相同的对象有许多不同的表达方式，如: pc， pe rson a1 c 。即uter 和l a p t 叩指的是相同的事物。 4 、幻象数据: 如标志一个记录的假数据。 5 、丢失/ 不可见数据: 有不同含义的数据没有进一步的说明，如: l esl ie 是男还是女。 2. 6. 2 数据清理的实现数据清理是由创建数据仓库产生的确保数据完整性的过程130。在我们的数据清理的实现中数据清理不是一个一次性的过程。我们把数据清理看成一个当来自不同来源的数据要构成一个数据仓库时多次发生的一个多步的过程。下图2 . 62 . 1 说明了数据清理的不同步骤: 巨据返习巨玲滋口 1 握司 t_ 今口集成前处理气 -立_厂 l 丝丝多礴口全厄叶气玉制交日卜添理为处内后框成虚集，鑫刻奥成后提炼、据仓司图2 ， 6 . 2 ， 1 数据清理步骤南京理工大学硕士论文基于认触 b 的o l 冉尸可视化方法研究集成前清理: 一个数据仓库有来自不同数据源的数据。在将数据加入到数据仓库前，集成前清理要清理每一个数据源的数据。在这个阶段，每个数据源的清理机制应该知道其他数据源的元数据和最终数据仓库的元数据。一个集成前清理应该明确一个将由不同数据源合成的特殊字段应该映射到相同的域。 1 .集成后清理:集成前清理之后，数据被集成为一个单一的数据仓库。尽管每个数据源是完整的，被组合的数据可能不具备数据完整性。一个主要的原因就是我们处理的是全新的元数据，这是该项目中数据清理中处理细节的阶段。由集成数据库表造成的不同类型的分歧有: ( 1 ) 集成的数据中有2个或更多的记录是相同的，因此不满足主码唯一性。这是由于单个数据源的记录可能是不同的，但多个数据源的组合可能造成相同的记录。在这种情况下删除所有重复数据只留下一个。 (2) 由于以上相同的理由，你可能得到2 个或更多的不同记录有相同的主码。在这种情况下，如果两个记录的字段是互斥的，他们可以合并。如果不是互斥的，则这些记录是不明确的。 ( 3 ) 单个数据源的约束范围可能不同于集成数据的。这个约束范围的不同必须小心。 ( 4 ) 集成数据中的约束条件 n o t n u l u 可能不同于单个数据源的。 (5)集成数据中的记录可能是相似而不同的。 ( 相似将在下一部分定义)o 这可能是由于记录的印刷错误造成的。像这样的记录必须被标识并且他们的纠正被留给用户判断。 ( 6 ) 另一种歧义由于人名可以有不同的拼写但发音相同。不同的数据源对于相同的名字可以有相同的拼法。在数据清理中必须捕获这种歧义。 2 .集成后提炼:这并非数据清理的清空阶段。这一步可以被看作第二步的一部分。正是在这一步中解决了前面步骤中发现的矛盾并且数据被反馈到集成前清理算法直到达到满意的清理程度。 2. 7数据仓库的应用前景随着各种计算机技术，数据仓库技术也不断发展，如数据模型、数据库技术和应用开发技术的不断进步，并在实际应用中发挥了巨大的作用。据i oc分析，从1 9 97 年到 2 0 0 2年，整个数据仓库市场( 软件、服务、服务器和存储) 将以平均每年 20. 5 % 的速度增长，到2 0 02年将超过2 90亿美元。中国的数据仓库市场前景广阔，更是充满无限商机。在未来大规模定制经济环境下，数据仓库将成为企业获得竞争优势的关 l 5 数据仓库技术硕士论文键武器。总之，数据仓库是一项基于数据管理和利用的综合性技术和解决方案，它将成为数据库市场的新一轮增长点，同时也成为下一代应用系统的重要组成部分132 1 。 2. 8本章小结数据仓库是面向主题的、集成的、时变的、非易失性的数据集合，用于支持管理层的决策过程。数据仓库的数据组织方式可分为虚拟存储方式、基于关系表的存储方式和多维数据存储方式三种。数据集市是部门级数据仓库，是数据仓库有效的和自然的补充。数据仓库系统是由数据仓库、仓库管理和分析工具三部分组成，其中数据仓库是基础。数据仓库的模型主要包括概念模型、逻辑模型和物理模型，数据仓库的设计也就是在这三种模型的依次转换过程中实现的。数据仓库往往涉及大量查询，提高数据仓库性能的典型方法有粒度划分、数据存储策略以及存储分配优化等。数据仓库是一种新型的数据存储地，是数据分析的基础。主要有信息的使用者和知识的挖掘者两大类型的最终用户使用数据仓库。南京理工大学硕士论文基于叭七七的o l 八 p可视化方法研究 3 联机分析处理技术 o l a p是基于数据仓库的一种数据分析技术，也可以看成是数据仓库的一种软件工具. o l a p侧重对决策人员和高层管理人员的决策支持，可以应分析人员的要求，快速、灵活地进行大量数据的复杂查询处理，并以一种简单、直观的形式提供查询结果。基于企业数据仓库进行 o lap ，可以帮助企业管理者掌握企业经营状况，了解市场需求，制定正确策略，提高效益。作为一种数据分析技术， o lap的主要功能包括:给出数据的多维逻辑视图，而且这种视图独立于数据的物理存储结构; 允许用户对数据进行交互式查询和数据分析 ( 交互式操作有多种方法，包括切片、切块、钻取等) ，并具有较快的查询响应速度。 3.i o l a p的基本概念。 l a p是针对特定主题的联机数据访问和分析 13 2 。通过以多种可能的形式对数据进行交互性的存取，允许企业管理人员对数据进行深入的观察。下面说明olap 的一些基本概念。 1 .维维是人们观察数据的特定角度。例如，企业常常关心产品销售数据随着时间推移而发生变化情况，这时是从时间的角度来观察产品的销售，所以时间就是一个维( 时间维) 。企业也经常关心同一种产品在不同地区的销售情况，这时是从地理位置的角度来观察产品的销售，所以地理位置也是一个维 ( 地理位置维) 。一个维还可以存在细节不同的多个描述方面，称为维的层次。这样的维也叫层次结构维。例如，时间维就是一个典型的层次结构维，因为时间可以从年、季度、月、日等不同层次来描述。维的一个取值叫维的一个维成员。如果一个维是多层次的，这个维的成员可以是在维的不同层次上取值的组合。 2 .度量简单地讲，度量就是数据仓库的主题，是企业运营好坏的主要指标。比如:销售量、销售所得利润常被用作度量。 3 .多维数据库多维数据库( mdd b)主要包括维和度量的定义、在此基础上定义的多维数据集( 立方或立方体) 。 mdd b并没有公认的多维模型，也没有像关系模型那样的标准语言( 如联机分析处理技术硕十论文 s q l)。基于m d db的o l a p 产品，其决策支持的内容和使用范围会有很大的不同。通过o l a p 可以对用多维形式组织起来的数据进行切片、切块、旋转等各种分析，以便剖析数据，以便最终用户从多角度、多侧面对数据进行观察，从而深入了解包含在数据中的信息。 4 .切片( s l i c e ) 在多维数据集的一个轴线上移动通常称为切片。在多维数据集中，选定除一个维以外的其它维的成员，就形成沿未选定成员的维的一组 “ 切片” 。切片允许观察度量值随某一特定维变化的情况。 5 .钻取( dri l l ) 钻取操作最常见的形式就是在一个层次结构中上下移动来观察数据。钻取实际上是在你的视图中另外增加一列。 6 .切块( d i c e ) 选择多维数据集的一个子集的动作叫切块。切块的例子是三维数据集 ( 立方体) 的一个子立方体。 7 .旋转旋转即是改变o l a p 结果显示中的维方向。图3 . 1 . 1 左半部分是把一个纵向为时间和产品、横向为地区的报表，右半部分是经过旋转的一个纵向为产品、横向为地区和时间的报表。时间地区- - 卜南京南通一季度二季度地区时间- 叫卜杏杏一季度二季度南京南通图3 ， 1 . 1 旋转例子 3. 2 o l a p系统准则联机分析处理( o l a p ) 的概念是1 993 年由e . f . c odd 博士提出的，在提出该概念的同时， c odd 博士提出了olap系统的12条准则 133 10 1 、o lap模型必须提供多维概念视图: 用户决策分析的目的不同，分析问题的角度也就跟着变化，而被分析的数据本身是多方面的，因此o l ap的概念模型是多维的。南京理工大学硕士论文基于w 七 b 的o l a p 可视化方法研究透明准则: 对用户和最终分析员来说，o lap 都是透明的。存取能力准则: ola p 系统不仅能进行开放的存取，还能提供高效的存取。稳定的报表能力: 当系统数据的维数和层次数增加时，提供给最终分析员的报表能力和响应速度不应该有明显的减慢。客户/ 服务器体系结构: o l ap是建立在客户/ 服务器体系结构之上的。维的等同性准则: 系统的每一数据维在数据结构和操作能力上都是等同的。动态的稀疏矩阵处理准则: o lap工具必须提供最优的稀疏矩阵处理能力。多用户支持能力准则: 多个用户分析员可以同时工作于同一分析模型上或在同一数据上建立不同的分析模型。非受限的跨维操作: 系统的多维数据之间存在着固有的层次关系，系统应提供计算完备的语言来定义各类计算公式。直观的数据操纵: 系统中的数据操纵都比较直观，其中的向上综合、向下挖掘和其它操作都能通过直观、方便的操作来完成。灵活的报表生成: 报表应能从各个方面显示出从数据模型中综合出的数据和信息，充分反映数据分析模型的多维特征. 不受限维与聚集层次: 分析员可以在任意给定的综合路径上建立多个聚集层次。、 q八04 5 、 6 、、、n 9，1 1 1 、 2 、 3.3 ol a p的特征 o l a p的特征可以概括为多维性( m ult i d i lnensi o nal)、快速响应性( fas t) ，分析性(a nal y s i s ) 、信息性( i n fo t i o n a l ) 和共享性( s h are d ) 。 1 .o l a p 的显著特征是它能提供数据的多维视图。数据仓库中数据的多维组织方式使得 ola p的多维视图成为可能。在现实世界中人们观察分析问题时是从多个不同的角度出发，而o l a p 就是模仿人们的这种观察方式，对数据仓库中的数据建立多维视图的查询方式。多维视图使用户可以从多角度、多侧面、多层次考察数据库中的数据，从而深入理解包含在

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于web的olap可视化方法研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于web的olap可视化方法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档