(计算机应用技术专业论文)基于web的olap可视化方法研究.pdf_第1页
(计算机应用技术专业论文)基于web的olap可视化方法研究.pdf_第2页
(计算机应用技术专业论文)基于web的olap可视化方法研究.pdf_第3页
(计算机应用技术专业论文)基于web的olap可视化方法研究.pdf_第4页
(计算机应用技术专业论文)基于web的olap可视化方法研究.pdf_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 硕士论文 abs tract 0 l a pi s as o ft w ar e t e c h n o 1 o gy w h i c hl etana 】y s i s e r 、 m ana g e r o r e x e cute rc an d e p o si t and e x t r a c t th e l n fo n 力 a t ion c ons i stent l y,inte ract i v e l y fromd i ffere ntpoi nt , th usc an g od e e pi n toth e d a 1ainth e d a ta w a r e app l i anc e ,o l a p 即p l i anc ei s a fo n ” e r 1 0 0 l o f d a t a w a r e app l i anc e . .n e ti smi c ros o ft , sx ml认 乞 bs e rv i c ep l at fo rm x ml叭 /c bse rvi c ec an l et a p p l i c atio n p ro gr 别 叮廿 邵 1 s fe rsand sh are d ata 1 e a p ove r o p e r a i i n g s y s t e n 1 a ndp ro g r 田 n l ang uag e onthe l ntem e t . o l a ptechno l o gy c o m b i ned俪t 】1 .n e ttec】u 1 0 l o gy c an con s t n l ctaon一 l i n e 声 币 a 】 yt i c alp “ 祀 e s sing s c r v i c e b as e d l nt e m et . t h i s th e s i s d ocs a re s e a r c h on h o wtore al i ze v i s ua1 1 z a i i on o f 0 l a p,w h i c hi s a frontdi 印 1 叮s y stemb as e d o n 从 /e b .the 往 侣 k o f th i s su bj ect i s tod e s i ,anan al y s i s 胡d frontd i spi 叮sys t e mw h i c h c ans l i c e , d i c e , dril l , a n d p i v o t m uti戒i m e s i ondat a se t . f i ist1 y, 面sth e si se x poundthec u n n tdsvel o p m e n ts i t u a t i o n明dk e y te c hno l ogie s a bout如t a w a r e h o u s e ando l a p t b e nitdi s c u s se s th e ove r a 】 i pl an of 朗目 ysispl a l fo rm, d e v el opin g env i r 0 n n 1 ent andkey te c h n o 1 o gi es丘 o mt h e asp e c tsof g e n e r a 1 ityand p r a c t i c alityofthe sy s t e m , 胡 d fo c 以s onthe desi gnofdstafo rms. f i n a l坛the reali 乙 欲 i o n ofthe s y s t e m胡d itse ffect暇 朋a ly zed ai p r e se n l , 而ssys t e mh a s即hi eve dg o od te stre sultsandd e n 1 o n st r at e sth e correc t n e s s and te as i b i l i tyoft h e s y st e m . k . y 钾 o r d s : 场 范 b 0 l a p vis 朋l i z e mut i 一 imens i o n g ri d 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学 位论文中,除了 加以 标注和致谢的部分外,不包含其他人己经发表或 公布过的 研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同事对本学位论文做出的贡献均已 在论文 中作了明确的说明。 研 究 生 签 名 : 如难 撼 、补, ;年1 1 月子 , 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网公 布本学位论文的全部或部分内容,可以向有关部门或机构送交并 授权其保存、借阅或上网公布本学位论文的全部或部分内容。对于保密 论文,按保密的有关规定和程序处理 。 研 究 生 签 名 : 物吃恋铆 吞年 1) 月夕日 南京理工大学硕士论文基于认 几 b 的o l 冉 p可视化方法研究 1 绪论 , . 1 课题背景 随着计算机技术的广泛使用以及数据库技术的 迅速发展, 特别近30年内关系数据 库技术的兴起和成熟, 人们积累的数据越来越多, 激增的数据背后隐藏着许多重要的 信息, 人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数 据库系统可以高效地实现数据的录入、 查询、 统计等功能, 但无法发现数据中存在的 关系和规则, 无法根据现有的数据预测未来的发展趋势。 缺乏挖掘数据背后隐藏的知 识的手段,导致了“ 数据爆炸但知识贫乏” 的现象。 数据量的不断扩张, 传统的简单 统计加上大部分的人工分析方法已经变得力不从心。 因此, 在商业领域和科学研究领 域都迫切要求发展一种新的技术, 该技术能够从海量的数据中抽取出模式, 找出数据 变化的规律和数据之间的相互依存关系, 使人们能够从宏观的高层次的角度来审视数 据,充分发掘数据的潜力,指导人们的行为,为决策和科学发现提供有力的支持。 数据仓库是一种新型的数据存储和组织技术, 将大量用于事务处理的传统数据库 数据进行清理、 抽取和转换, 并按决策主题的需要进行重新组织, 为数据分析提供高 质量的数据源, 从而更好地支持管理决策。 数据仓库中存储和管理着经过处理的、 面 向主题的数据集合, 这些数据为各种不同决策需求提供了分析基础, 必须有强有力的 工具进行分析和决策。联机分析处理 ( o l a p )技术就是其中之一。 olap 是基于数据仓库最重要的多维分析工具。 它的目 标是满足决策支持或多维 环境特定的查询和报表需求, 它的技术核心是多维分析。 o l a p具有灵活的分析功能、 直观的数据操作和分析结果可视化表示等突出优点, 从而使用户对大量复杂数据的分 析变得轻松而高效,以利于迅速做出正确的判断,辅助决策。 o l a p分析结果的可视化也就成为一个需要解决的问 题。数据可视化应用致力于 将信息以尽可能多的形式展现出来, 目的是使决策者通过图形这种直观的表现方式迅 速获得信息中蕴藏的知识,如趋势、 分布、 密度等要素。 随着w eb应用的普及, 商业 智能的解决方案能够提供基于份 eb的应用服务, 这样就扩展了商业智能的信息发布范 围,享有访问权限的用户只要能够登陆互连网,就可以及时访问自己所关心的内容。 一些研究机构和公司也开始着手研制和开发o l a p可视化工具。1 服 公司提供了 一套基于可视数据仓库的商业智能 ( b l) 解决方案。它的前端数据展现工具可以是 b u s i n e s sobj e c t s 的b()、l o t u s 的a p p r o a c h 、 c o g n o s 的1 二 p r 姻p t u 或1 明的que r y m a n a g e m e n t 凡c i l i t y 。 ora c l e e x p r e s s 贾 e b a g e n t 通过cgi 或w e b 插件支持基于w e b 的动态多维数据展现;oracle e xpress obj ect s前端数据分析工具,提供了图形化 建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容 visual 绪论硕十论文 b a s i c 语法的语言 ,支持戊x 和o l e ;ora c l ee x p r e s sa n a l y z e r 是通用的、面向 最 终用户的报告和分析工具。 s y b ase 提供的数据仓库解决方案称为w arehouses t u d io, s y b a s e i q 支持各种流行的 前端展现1具 ( 如c o g n o s l m p r o o p t u 、 b u s i n e s s o b j e c t s 、 b r i o q u e r y 等) 。ca于1 9 9 9 年收购了p l a t i n u m t e c h n o l o g y 公司后,得到了 完整的 数据仓库解决方案,其中f o r e s t 当数据超过数据仓库的存储期限,或对分析不在有用时,这些数据 将从数据仓库中删去。 关于数据仓库的结构信息、维护信息被保存在数据仓库的元数据中,数 数据仓库技术硕一 十 论文 据仓库维护工作由系统根据元数据中的定义自 动进行,或由系统管理员定期 维护,用户不必关心数据仓库如何被更新的细节。 2. 2数据仓库的休系结构 整个数据仓库体系结构如图2. 2 , 1 所示,由数据仓库、数据仓库管理系统和工具 集 三 部分 组 成 11 。 数 据 仓 库 居于 核 心 地 位, 它是 数 据的 物 理 载 体, 有 关 系型 数 据, 也 有多 维数据, 有细节数据也有综合数据。 数据仓库管理系统保证整 个系 统的良 好运行, 前 端 工 具 集 是 对 数 据 仓 库的 应 用 13 。 数据仓库管理部件 工具集 运 亘 互 红 图2. 2. 1 数据仓库体系结构图 数据源可以是分布的、 异构的, 也可能是独立的关系型数据库系统, 例如二 c 坛 a c l e, s ybase, 也可以 是某些格式化文档, 如: e xcel 。 各数据源面向 特定的 应用, 在地理位 置上可以是分布的。 数据仓库管理系统是负责数据定义、 数据获取、 数据管理。 数据定义是指定义和 建立数据仓库; 数据获取是指数据的集成; 数据管理是指数据维护、 安全、 归档、 备 份、 回复等。 数据获取部件是从各个不同的数据源中经过检验、 抽取、 净化、 转换映 射成单一的数据源。 它包括数据过滤器、数据格式转换器、 数据复制工具、代码发生 器等。 工具集包括查询工具, 分析工具和挖掘工具。 因为数据仓库的数据量巨大, 需要 一套功能强大的工具集实现对数据仓库的应用, 提供辅助决策的要求。 查询工具不是 简单的数据记录查询, 是对分析结果的查询。 分析工具是主要的工具, 是对数据的多 种观察形式进行的快速、 一致和交互性存取, 便于用户对数据深入了 解以 及数据比较, 这是验证性工具, 需要用户指导数据分析的全过程, 是基于 信息的决策。 挖掘工具是 负责从大量数据中发现数据模式, 预测趋势和行为, 挖掘工具是一种主动型工具, 是 基于知识的决策。 6 南京理工大学硕士论文基于w e b 的o l a f 可视化方法研究 2. 3 数据仓库的数据组织 数据仓库中数据的组织问题是建立数据仓库的关键,所以理解数据的组织从而 能更好的去对数据仓库有深入的理解和运用。 数据仓库中的数据分为四个级别: 早期 细节级、当前细节级、轻度综合级、高度综合级。 源数据经过综合后,首先进入当前 细节级,并根据具体需要进行进一步的综合, 从而进入轻度综合级乃至高度综合级, 老化的数据将进入早期细节级。由 此可见, 数据仓库中存在着不同的综合级别, 一般 称之为 “ 粒度” 。粒度越大,表示细节程度越低,综合程度越高。 一个典型的数据仓 库的 数据组 织结构 如图2. 3 1 所示队 合合节 综于综细 度度前 高轻当 元数据 早期细节 图2. 3 . i d w数据组织结构 z j .1粒度与分割 1 .粒度 粒 度 是 数 据 仓 库的 重 要 概 念 151 16 。 粒 度 可以 分为 两 种形 式, 第 一 种 粒 度 是 对 数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量 的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必 不可少的。由于数据仓库的主要作用是 dss分析,因而绝大多数查询都基于一 定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数 据存储于快速设备如磁盘土,小粒度数据存于低速设备如磁带上。 还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中 抽取出一个子集。 这样样本数据库中的粒度就不是根据综合程度的不同来划分 的,而是有采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的 数据的综合程度。 2 .分割 分割是数据仓库中的另一个重要概念, 它的目的同样在于提高效率。 它是将 数据分散到各自 的物理单元中去,以便能分别独立处理。有许多数据分割的标 7 数据仓库技术硕士论文 准可供参 考: 如日 期、 地域、 业务领域等等, 也可以 是其组合。 一般而言 ,分割 标准应包括日期项,它十分自然而且分割均匀。 2. 3. 2 数据组织方式 数据仓库的数据组织方式分为虚拟存储方式、 基于关系表的存储方式和多维数据 库存储三种方式【刀 . 1 .虚拟存储方式: 虚拟存储方式是虚拟数据仓库的数据组织形式。 它没有专门的 数据仓库数据存储,数据仓库中的数据仍然在源数据库中,只是根据用户的 多维需求及形成的多维视图,临时在源数据库中找出所需要的数据,完成多 维分析。这种形式要求源数据库的数据组织比较规范、没有数据不完备及冗 余,同时又比较接近多维数据模型。因而,它虽然简单但在实际中这种方式 很难建立起有效的决策服务数据支持。 2 .基于关系表的存储方式: 这种方式是将数据仓库的数据存储在关系数据库的 表结构中, 在元数据的管理下完成数据仓库的功能。 这种存储方式在建库时, 首先要提供一种图形化的操作界面, 使分析员能对源数据库的内容进行选择, 定义多维数据模型,然后再编制程序把数据库中的数据抽取到数据仓库的数 据库中。这种方式的主要问题是在多维数据模型定义好后,从数据库中抽取 数据往往需要编制独立、复杂的程序,因此通用性差、 很难维护。 3 .多 维数据库存储方式: 多维数据库的组织是直接面向o l a p分析操作的数据存 储形式。这种存储方式的数据组织采用多维数据组结构文件进行数据存储, 并有维索引及相应的元数据管理文件与数据相对应。 2 3 3 数据仓库的元数据 元数据在数据仓库的 设计、 运行中 有着重要的 作用, 它描述了数据仓库中的各对 象, 是数据仓库的核心。 它是关于数据仓库中有什么、 他们来自 何处、 他们通过何种 方式转换而来等的描述信息, 其主要目 标是提供数据资源的全面指南。 换句话说, 元 数据就是 “ 关于数据的数据” 。如果没有一个好的元数据支持运作的化,d ss 分析员 的 工作就很难进行。典型的 元数据包括: 数据仓库的 表结 构、数据仓库的 表属性、数 据仓库的源数据、 从操作型数据系统到数据仓库的映射、 数据模型的说明、 抽取日 志、 访问数据的公用程序、数据的定义/ 描述、数据单元之间的关系。 元数据的主要目 的是为了计算机系统的结构、 开发过程和使用方法提供一致的文 档, 从而为数据仓库开发人员 和d ss分析员 提供更加有效的 支持。 其主要作用如下 15: 1 、改善与系统的交互。元数据文档中包含系统的使用方法、现有业务概念、术 南京理工大学硕士论文基于节 几 b的o l a 尸可视化方法研究 语、预定义的查询和报表等内容的详细说明,使得信息检索和查询等系统的 交互更加高效快捷。 2 、提高数据质量。元数据可以解释数据的来源、操作、意义等问题,有利于保 持数据的一致性、精确性和完整性等, 从而保证数据的质量。 3 、支持系统集成。在异构数据库和信息系统的集成,以及简单的多数据源之间 的协同工作中都需要关于每个数据源的结构和意义的元数据。 4 、支持系统的分析、设计和维护。通过提供数据的结构、来源、意义等信息以 形成应用程序和软件的文档,元数据增加了应用程序开发过程的可控性和可 靠性。 5 、改善系统的灵活性和现有软 件模块的可重用性。 把一些具有明确语义的数据 存储在元数据中而不是在应用程序中,当系统出现新的需求时可以灵活的扩 展软件,使软件具有较好的适应性。 2. 4数据仓库的关键技术 与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。 由 于数据仓库的这种工程性, 因而在技术上可以根据它的工作过程分为: 数据的抽取、 存 储 和 管 理、 数 据的 表现 三 个方 面 191 1101. 2. 4. 1 数据的抽取 数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它 需要通过抽取过程将数据从联机事务处理系统、 外部数据源、 脱机的数据存储介质中 导入到数据仓库。 数据抽取在技术上主要涉及互连、 复制、 增量、转换、调度和监控 等几个方面。 数据仓库的数据并不要求与联机事务处理系统保持实时的同步, 因此数 据抽取可以定时进行, 但多个抽取操作执行的时间、 相互的顺序、 成败对数据仓库中 信息的有效性则至关重要。 在技术发展上, 数据抽取所涉及的单个技术环节都己 相对成熟, 其中有一些是躲 不开编程的,但整体的集成度还很不够。目 前市场上所提供的大多是数据抽取工具。 这些工具通过用户选定源数据和目 标数据的对应关系, 会自 动生成数据抽取的代码。 但数据抽取工具支持的数据种类是有限的, 同时数据抽取过程涉及数据的转换, 它是 一个与实际应用密切相关的部分, 其复杂性使得不可嵌入用户编程的抽取工具往往不 能满足要求. 因 此, 实际的数据仓库实 施过程中往往不一定使用抽取工具。 整个抽取 过程能否因工具的使用而纳入有效的管理、 调度和维护则更为重要。 从市场发展来看, 以数据抽取、 异构互连产品为主项的数据仓库厂商一般都很有可能被其它拥有数据库 数据仓库技术硕十论文 产品的公司吞并。在数据仓库的世界里,它们只能成为辅助的角色。 2. 4. 2 数据的存储和管理 数据仓库的真正关键是数据的存储和管理。 数据仓库的组织管理方式决定了 它有 别于 传统数据库的 特性, 同时也决定了其对外部数据表现形式。 要决定采用什么产品 和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。 数据仓库遇到的第一个问 题是对大量数据的存储和管理。 这里所涉及的数据量比 传统事务处理大得多, 且随时间的推移而累积。 从现有技术和产品来看, 只有关系数 据库系统能够担当此任。关系数据库经过近30年的发展,在数据存储和管理方面己 经非常成熟, 非其它数据管理系统可比。目前不少关系数据库系统己支持数据分割技 术, 能够将一个大的数据库表分散在多个物理存储设备中, 进一步增强了系统管理大 数据量的扩展能力。 采用关系数据库管理数百个g b 甚至到t b 的数据己是一件平常的 事情。 一些厂商还专门 考虑大数据量的系统备份问题, 好在数据仓库对联机备份的要 求 并 不 高 191 。 数据仓库要解决的第二个问题是并行处理。 在传统联机事务处理应用中, 用户访 问系统的特点是短小而密集。 对于一个多处理机系统来说, 能够将用户的请求进行均 衡分担是关键, 这便是并发操作。 而在数据仓库系统中, 用户访问系统的特点是庞大 而稀疏, 每一个查询和统计都很复杂, 但访问的频率并不是很高。 此时系统需要有能 力将所有的处理机调动起来为这一个复杂的查询请求服务, 将该请求并行处理。 因此, 并行处理技术在数据仓库中比以 往更加重要。 在针对数据仓库的t 代基准测试中, 比以 往增加了一个单用户环境的测试“ 系统 功力”( q p pd) 1111。 系 统的并 行处 理能力 对qppd的 值有重 要影响。目 前 , 关系 数据库 系统在并行处理方面己 能做到对查询语句的分解并行、 基于数据分割的并行、 以及支 持跨平台多处理机的 群集环境, 能够支持多达上百 个处理机的硬件系统并 保持性能的 扩展能力。 数据仓库的第三个问题是针对决策支持查询的优化。 这个问题主要针对关系数据 库而言, 因为其它数据管理环境连基本的通用查询能力都还不完善。 在技术上, 针对 决策支持的 优化涉及数据库系统的索引机制、 查询优化器、 连接策略、 数据排序和采 样 等诸多部分。 普 通 关系 数 据库采 用b 树 12b i 类的 索引, 对于 性别、 年龄、 地区等具 有 大量重复值的字段几乎 没有效果。 而 扩充的关系数据库则引 入了 位图 索引的 机制, 以 二进制位表示字段的 状态, 将查询过程变为筛选过程, 单个计算机的基本操作便可筛 选多条记录。 由于数据仓库中各数据表的数据量往往极不均匀, 普通查询优化器所得 出得最佳查询路径可能不是最优的。 因此, 面向决策支持的关系数据库在查询优化器 上也作了改进,同时根据索引的使用特性增加了多重索引扫描的能力。 1 0 南京理工大学硕士论文基于w e b 的o l a p 可视化方法研究 以关系数据库建立的数据仓库在应用时会遇到大量的表间连接操作, 而连接操作 对 于 关 系 数 据 库来说 是 一 件耗 时的 操 作 【 门 。 扩 充 的 关 系 数 据库 中 对 连 接 操 作可以 做预 先的定义, 我们称之为连接索引, 使得数据库在执行查询时可直接获取数据而不必实 施具体的连接操作。数据仓库的查询常常只需要数据库中的部分记录,如最大的前 5 0家客户,等等。普通关系数据库没有提供这样的查询能力,只好将整个表的记录 进行排序, 从而耗费了大量的时间。 决策支持的关系数据库在此做了改进, 提供了这 一功能。 此外, 数据仓库的查询并不需要像事务处理系统那样精确, 但在大容量数据 环境中需要有足够短的系统响应时间。 因此, 一些数据库系统增加了 采样数据的查询 能力,在精确度允许的范围内,大幅度提高系统查询效率。 总之, 将普通关系数据库改造成适合担当数据仓库的服务器有许多工作可以做, 它己成为关系数据库技术的一个重要研究课题和发展方向. 可见, 对于决策支持的扩 充是传统关系数据库进入数据仓库市场的重要技术措施。 数据仓库的第四个问题是支持多维分析的查询模式,这也是关系数据库在数据仓 库领域 遇到的 最严峻的 挑战 之一11 21 113 1 . 用 户 在使 用数据仓库时的 访问 方式与 传统的 关系数据库有很大的不同。 对于数据仓库的访问 往往不是简单的表和记录的查询, 而 是基于用户业务的分析模式,即联机分析。 如2 . 4 . 2 . 1 所示, 它的特点是将数据想象 成多维的立方体, 用户的查询便相当于在其中的部分维( 棱) 上施加条件, 对立方体进 行切片、 分割, 得到的结果则是数值的矩阵或向量, 并将其制成图表或输入数理统计 的算法。 选择 图2 . 4 . 2 . 1联机分析数据处理示意图 关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的早 期, 人们发现采用关系数据库去实现这种多维查询模式非常低效、 查询处理的过程也 难以自 动化阎 。 为此, 人们提出了多维数据库的 概念。多 维数据库是一种以 多维数据 存储形式来组织数据的数据管理系统, 它不是关系型数据库, 在使用时需要将数据从 关系数据库中转载到多维数据库中方可访问。 采用多维数据库实现的联机分析应用我 们称之为m o l a 夕 、 多维数据库在针对小型的多维分析应用有较好的效果, 但它缺少 关系数据库所拥有的并行处理及大规模数据管理扩展性, 因此难以承担大型数据仓库 应用。 这样的 状态直接在“ 星型模式” 关系数据库设计中 得到广泛的 应用才彻底改变。 几年前, 数据仓库专家们发现, 关系数据库若采用“ 星型模式” 来组织数据就能 很好 地解决多维分析的问题。 “ 星型模式”只不过是数据库设计中数据表之间的一种关联 数据仓库技术硕一 上 论文 形式, 它的巧妙之处在于能 够找到一个固定的算法, 将用户的多维查 询请求转换成针 对该 数据 模式的 标准s q l 语 句, 而 且该 语句是最 优化的。 “ 星型 模式” 的 应用为关 系 数据库在数据仓库领域打开绿灯。 采用关系数据库实现的联机分析应用称为r o l a po 目 前, 大多 数厂 商 提供的 数 据 仓库 解决方案都 采用r o l a p ll4 ) 。 2. 4. 3数据的表现 数据表现是数据仓库的门 面。 这是一个工具厂商的天下。 它们主要集中 在多维分 析、数理统计和数据挖掘方面四。 多维分析是数据仓库的重要表现形式,由于mo l ap 系统是专用的, 因此, 关于 多 维分析领域的 工具和产品大多 是r o l ap 工具。 这些产品近两年来更加注重提供基 于w 七 b 的前端联机分析界面,而不仅仅是网上数据的发布。 数理统计原本与数据仓库没有直接的联系, 但在实际的应用中, 客户需要通过对 数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似, 数据挖掘 与 数据仓库也没有直接的 联系。 而 且这个概念在现实中 有些含混。 数据挖掘强调的不 仅仅是验证人们对数据特性的假设, 而且它更要主动地寻找并发现蕴藏在数据之中的 规律。 这听起来虽然很吸引人, 但在实现上却有很大的出入。市场上许多数据挖掘工 具其实不过是数理统计的应用。 它们并不是真正寻找出数据的规律, 而是验证尽可能 多的假设, 其中包括许多毫无意义的组合, 最后由 人来判断其合理性。 因此, 在当 前 的数据仓库应用中,有效地利用数理统计就已经能够获得可观的效益。 2. 5数据挖掘和数据仓库 2. 5. 1数据挖掘和数据仓库的关系 数据仓库是一个环境, 而不是一件产品, 提供用户用于决策支持的当前和历史数 据, 这些数据在传统的操作型数据库中很难或不能得到。 数据仓库技术是为了有效的 把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。 所做的 一 切都是 为了 让 用户更 快更 方 便查 询所需 要的 信息, 提供决 策支持 151 。 大部分清况下, 数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市 中。 从数据仓库中直接得到进行数据挖掘的数据有许多好处。 如果数据在导入数据仓 库时己 经清理过, 那很可能在做数据挖掘时就没必要在清理一次了, 而且所有的数据 不一致的问题都己经被你解决了。 南京理工大学硕士论文基于节 阳 b的o l a 尸可视化方法研究 2. 5 .2数据挖掘常用技术12.1 1 .人工神经网络 仿照生理神经网络结构的非线形预测模型, 通过学习进行模式识别。 粗略 的说,神经网络是一组连接的神经单元,其中每个连接都与一个权相联。 在学 习阶段, 通过调整神经网络的权, 使得能够预测输人样本的正确类标号来学习。 由于单元之间的连接, 神经网络学习又称连接者学习。 它的优点包括对噪声数 据的高承受力,以及它对未经训练的数据分类模型的能力。 2 .决策树 决策树( d ecisi on t ree)是一个类似于流程图的树结构。它的算法与数据 结构中的二叉判定树的概念很类似。 其中每个内部节点表示在一个属性上的测 试,每个分枝代表一个测试输出,而每个树叶节点代表类或类分布。 树的最顶 层界定就是根节点. 常用算法有以rt、 c h a i d 、i d3、 c4. 5 、 cs. 0 等. 3 .遗传算法 基于进化理论,并采用遗传结合、 遗传变异、以及自 然选择等设计方法的 优化技术。 根据适者生存的原则, 形成由当前群体中最合适的规则组成新的群 体,以及这些规则的后代。典型情况下, 规则的适合度用它对训练样本集的分 类准确率评估。后代通过使用诸如交叉和变异等遗传操作来创建。 4 .最近邻算法 将数据集合中每一个记录进行分类的方法。 最临近分类是基于要求的或徽 散的学习法,即它存放所有的训练样本, 并且直到新的( 未标记的) 样本需要分 类时才建立分类。它也可用于预测,即返回给定的位置样本的实数值预测。 5 .加r i o r i 算法 它是一种最有影响的挖掘布尔关联规则频繁项集的算法。 算法的名字基于 这样的事实: 算法使用频繁项集性质的先验知识。它用一种称作逐层搜索的迭 代方法, k 一项集用于探索( k +l) 一项集。 首先找出频繁1 一项集的集合。 然后 利用前者找出2 一项集的集合,如此迭代,直到不能找出频繁k 一项集。 最后 由频繁项集产生关联规则。 6 .频繁模式增长( pp一增长) 和上面的方法相比, 它是一种不产生候选的挖掘频繁项集的方法。 它构造 一个高度压缩的数据结构(f p 一增长) , 压缩原来的事物数据库。 它聚焦于频繁 模式增长,避免了高代价的候选产生,获得更好的效率。 除了上述的 常用方法外, 还有粗集方法, 模糊集合方法, b ayesi anb eli ef n e t o r d s ,最邻近算法( k 一 n e are s tn e i 只 h b o r sm e t h o d ( k n n ) ) 等。 数据仓库技术硕一 l 论 文 2. 6数据清理系统 2. 6. 1 数据清理的 重要性 数据仓 库的 正 确 性及有 用性由 它的 数据所决定 12 叼 。 一 个带 有残缺或 错误信 息的 数 据仓库将挫伤数 据仓库的真正意图 为重要的事务决策提供快速和准确的数据。 对 于一个公司而言 , 有一个拥有错误信息的数据仓库比没有数据仓库更糟。 数据的 来源 不同 使数据仓库很容易包含“ 脏” 的和 “ 不稳定” 的数据。因 此, 数据清理是创建数 据 仓 库的 关 键 步 骤 123 o 一些数据致污物是导致 “ 脏”数据的原因: 1 、错误: 如印刷错误 2 、歧义: 同 名异义词。 3 、 缺少 标准: 相同 的 对象有 许多 不同的 表达方 式,如: pc, pe rson a1 c 。 即uter 和l a p t 叩指的是相同的事物。 4 、幻象数据: 如标志一个记录的假数据。 5 、丢失/ 不可见数据: 有不同含义的数据没有进一步的说明,如: l esl ie 是男还 是女。 2. 6. 2 数据清理的实现 数据清理是由 创建数据仓库产生的确保数据完整性的 过程130。在我们的 数据清 理的实现中数据清理不是一个一次性的过程。 我们把数据清理看成一个当来自 不同来 源的数据要构成一个数据仓库时多次发生的一个多步的 过程。 下图2 . 62 . 1 说明了数 据清理的不同步骤: 巨据 返 习巨 玲 滋 口 1 握 司 t_ 今 口 集 成 前 处 理 气 -立_厂 l 丝 丝 多礴 口 全 厄叶气 玉制 交 日 卜添 理 为处 内后 框成 虚集 , 鑫 刻 奥成后提炼 、 据 仓司 图2 , 6 . 2 , 1 数据清理步骤 南京理工大学硕士论文基于认 触 b 的o l 冉 尸可视化方法研究 集成前清理: 一个数据仓库有来自 不同数据源的数据。 在将数据加入到数据仓库 前, 集成前清理要清理每一个数据源的数据。 在这个阶段, 每个数据源的清理机制应 该知道其他数据源的元数据和最终数据仓库的元数据。 一个集成前清理应该明确一个 将由不同数据源合成的特殊字段应该映射到相同的域。 1 .集成后清理:集成前清理之后,数据被集成为一个单一的数据仓库。 尽 管每个数据源是完整的,被组合的数据可能不具备数据完整性。一个主 要的原因就是我们处理的是全新的元数据,这是该项目中数据清理中处 理细节的阶段。由集成数据库表造成的不同类型的分歧有: ( 1 ) 集成的数据中有2个或更多的记录是相同的,因此不满足主码唯一 性。这是由于单个数据源的记录可能是不同的,但多个数据源的组 合可能造成相同的记录。在这种情况下删除所有重复数据只留下一 个。 (2) 由于以上相同的理由,你可能得到2 个或更多的不同记录有相同的 主码。在这种情况下,如果两个记录的字段是互斥的,他们可以 合 并。如果不是互斥的,则这些记录是不明确的。 ( 3 ) 单个数据源的约束范围可能不同于集成数据的。这个约束范围的不 同必须小心。 ( 4 ) 集成数据中的约束条件 n o t n u l u 可能不同于单个数据源的。 (5)集成数据中的记录可能是相似而不同的。 ( 相似将在下一部分定义)o 这可能是由于记录的印刷错误造成的。像这样的记录必须被标识并 且他们的纠正被留给用户判断。 ( 6 ) 另一种歧义由于人名可以有不同的拼写但发音相同。不同的数据源 对于相同的名字可以有相同的拼法。在数据清理中必须捕获这种歧 义。 2 .集成后提炼:这并非数据清理的清空阶段。这一步可以被看作第二步的 一部分。正是在这一步中解决了前面步骤中发现的矛盾并且数据被反馈 到集成前清理算法直到达到满意的清理程度。 2. 7数据仓库的应用前景 随着各种计算机技术,数据仓库技术也不断发展,如数据模型、数据库技术和 应用开发技术的不断进步, 并在实际应用中发挥了巨大的作用。 据i oc分析, 从1 9 97 年到 2 0 0 2年,整个数据仓库市场( 软件、服务、服务器和存储) 将以平均每年 20. 5 % 的速度增长, 到2 0 02年将超过2 90亿美元。中国的 数据仓库市场前景广阔, 更是充 满无限商机。 在未来大规模定制经济环境下, 数据仓库将成为企业获得竞争优势的关 l 5 数 据仓库技术硕士论文 键武器。 总之, 数据仓库是一项基于数据管理和利用的综合性技术和解决方案, 它将 成为数据库市 场的 新一轮增长点,同时也成为下一代应用系统的重要组成部分132 1 。 2. 8本章小结 数据仓库是面向主题的、集成的、时变的、非易失性的数据集合,用于支持管 理层的决策过程。 数据仓库的数据组织方式可分为虚拟存储方式、基于关系表的存储方式和多维 数据存储方式三种。数据集市是部门级数据仓库,是数据仓库有效的和自 然的补充。 数据仓库系统是由数据仓库、仓库管理和分析工具三部分组成,其中数据仓库 是基础。 数据仓库的模型主要包括概念模型、 逻辑模型和物理模型, 数据仓库的设计 也就是在这三种模型的依次转换过程中实现的。 数据仓库往往涉及大量查询,提高数据仓库性能的典型方法有粒度划分、数据 存储策略以及存储分配优化等。 数据仓库是一种新型的数据存储地,是数据分析的基础。主要有信息的使用者 和知识的挖掘者两大类型的最终用户使用数据仓库。 南京理工大学硕士论文基于叭 七 七 的o l 八 p可 视化方法研究 3 联机分析处理技术 o l a p是基于数据仓库的 一种数据分析技术,也可以看成是数据仓库的一种软件 工具. o l a p侧重对决策人员和高层管理人员的决策支持,可以 应分析人员的要求, 快速、 灵活地进行大量数据的复杂查询处理, 并以一种简单、 直观的形式提供查询结 果。基于企业数据仓库进行 o lap ,可以帮助企业管理者掌握企业经营状况,了解市 场需求,制定正确策略,提高效益。 作为一种数据分析技术, o lap的主要功能包括:给出数据的多维逻辑视图,而 且这种视图独立于数据的物理存储结构; 允许用户对数据进行交互式查询和数据分析 ( 交互式操作有多种方法, 包括切片、 切块、 钻取等) ,并具有较快的查询响应速度。 3.i o l a p的基本概念 。 l a p是针 对特定主题的 联 机数据访问 和分 析 13 2 。 通过以 多种可能的 形式对数据 进行交互性的 存取, 允许企业管理人员对数据进行深入的观察。 下面说明olap 的一 些基本概念。 1 .维 维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着 时间推移而发生变化情况,这时是从时间的角度来观察产品的销售,所以时 间就是一个维( 时间维) 。 企业也经常关心同一种产品在不同地区的销售情况, 这时是从地理位置的角度来观察产品的销售,所以地理位置也是一个维 ( 地 理位置维) 。 一个维还可以 存在细节不同的多个描述方面,称为维的层次。这样的维 也叫层次结构维。 例如,时间维就是一个典型的层次结构维,因为时间可以 从年、季度、月、日 等不同层次来描述。 维的一个取值叫维的一个维成员。 如果一个维是多层次的, 这个维的成员可以是在维的不同层次上取值的组合。 2 .度量 简单地讲,度量就是数据仓库的主题,是企业运营好坏的主要指标。比 如:销售量、销售所得利润常被用作度量。 3 .多维数据库 多维数据库( mdd b)主要包括维和度量的定义、在此基础上定义的多维数 据集( 立方或立方体) 。 mdd b并没有公认的多维模型,也没有像关系模型那样的标准语言( 如 联机分析处理技术硕十论文 s q l)。 基于m d db的o l a p 产品,其决策支持的内容和使用范围会有很大的不 同。 通过o l a p 可以 对用多维形式组织起来的数据进行切片、切块、 旋转等各 种分析,以 便剖析数据,以 便最终用户从多角度、多侧面对数据进行观察, 从而深入了解包含在数据中的信息。 4 .切片( s l i c e ) 在多维数据集的一个轴线上移动通常称为 切片。在多维数据集中, 选定 除一个维以外的其它维的成员,就形成沿未选定成员的维的一组 “ 切片” 。切 片允许观察度量值随某一 特定维变化的情况。 5 .钻取( dri l l ) 钻取操作最常见的形式就是在一个层次结构中上下移动来观察数据。钻 取实际上是在你的视图中另外增加一列。 6 .切块( d i c e ) 选择多维数据集的一个子集的动作叫切块。切块的例子是三维数据集 ( 立方体) 的一个子立方体。 7 .旋转 旋转即是改变o l a p 结果显示中的维方向。 图3 . 1 . 1 左半部分是把一个纵向为时间和产品、横向为地区的报表,右 半部分是经过旋转的一个纵向为产品、横向为地区和时间的报表。 时 间 地区- - 卜 南京南通 一季度 二季度 地 区 时 间- 叫 卜 杏杏 一季度 二季度 南京 南通 图3 , 1 . 1 旋转例子 3. 2 o l a p系统准则 联机分析处理( o l a p ) 的概念是1 993 年由e . f . c odd 博士提出的,在提出该概念 的同时, c odd 博士提出了olap系 统的12条 准则 133 10 1 、o lap模型必须提供多维概念视图: 用户决策分析的目 的不同, 分析问 题 的角度也就跟着变化, 而被分析的 数据本身是多方面的, 因此o l ap的 概 念模型是多维的。 南京理工大 学硕士论文基于w 七 b 的o l a p 可视化方法研究 透明准则: 对用户和最终分析员来说,o lap 都是透明的。 存取能力准则: ola p 系统不仅能进行开放的存取, 还能提供高效的存取。 稳定的报表能力: 当系统数据的维数和层次数增加时, 提供给最终分析员 的报表能力和响应速度不应该有明显的减慢。 客户/ 服务器体系结构: o l ap是建立在客户/ 服务器体系结构之上的。 维的等同性准则: 系统的每一数据维在数据结构和操作能力上都是等同 的。 动态的稀疏矩阵处理准则: o lap工具必须提供最优的稀疏矩阵处理能 力。 多用户支持能力准则: 多个用户分析员可以同时工作于同一分析模型上 或在同一数据上建立不同的分析模型。 非受限的跨维操作: 系统的多维数据之间存在着固有的层次关系, 系统应 提供计算完备的语言来定义各类计算公式。 直观的数据操纵: 系统中的数据操纵都比较直观, 其中的向上综合、 向下 挖掘和其它操作都能通过直观、方便的操作来完成。 灵活的报表生成: 报表应能从各个方面显示出从数据模型中综合出的数 据和信息,充分反映数据分析模型的多维特征. 不受限维与聚集层次: 分析员可以在任意给定的综合路径上建立多个聚 集层次。 、 q八04 5 、 6 、 、 、n 9,1 1 1 、 2 、 3.3 ol a p的特征 o l a p的特征可以 概括为多维性( m ult i d i lnensi o nal)、 快速响应性( fas t) , 分析 性(a nal y s i s ) 、信息性( i n fo t i o n a l ) 和共享性( s h are d ) 。 1 .o l a p 的显著特征是它能提供数据的多维视图。 数据仓库中数据的多维组 织方式使得 ola p的多维视图成为可能。在现实世界中人们观察分析问 题时是从多个不同的角度出发,而o l a p 就是模仿人们的这种观察方式, 对数据仓库中的数据建立多维视图的查询方式。 多维视图使用户可以从 多角度、多侧面、多层次考察数据库中的数据, 从而深入理解包含在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论