(计算机应用技术专业论文)基于数据仓库、olap和数据挖掘技术的数据分析、展现与预测.pdf_第1页
(计算机应用技术专业论文)基于数据仓库、olap和数据挖掘技术的数据分析、展现与预测.pdf_第2页
(计算机应用技术专业论文)基于数据仓库、olap和数据挖掘技术的数据分析、展现与预测.pdf_第3页
(计算机应用技术专业论文)基于数据仓库、olap和数据挖掘技术的数据分析、展现与预测.pdf_第4页
(计算机应用技术专业论文)基于数据仓库、olap和数据挖掘技术的数据分析、展现与预测.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着数据库技术的发展与广泛应用,各行各业的内部历史数据量越来越庞大, 而由于这些数据往往呈现分散存储、数据结构不统一、数据冗余、数据不完整等 特征,使得数据难以集成为统一的数据平台。面对大量繁杂的数据,传统系统的 访问性能下降,大量的数据没有得到有效利用,难以变成有用的信息指导行业决 策。整合数据、分析数据进而转化为行业决策所需的信息,成为一个普遍关注的 热点课题。数据仓库技术、o 】l a p 技术和数据挖掘技术的发展与成熟,为该课题的 研究奠定理论技术基础。 本论文致力于对课题中相关核心技术进行应用、研究与实现,主要工作包括: ( 1 ) 应用数据仓库相关理论,以a c o 哪气象历史观测数据作为数据源,建立s q l s e r v e 汽象数据仓库,作为后续工作的测试平台。( 2 ) 重点研究了构建数据仓库的核 心技术翻限。初步探索了e 1 舡具开发中的各环节,编写s q l 存储过程脚本,实现了 一个简单的e 1 1 过程;研究并实现了一种数据清洗算法一“相似重复记录检测”。c 3 ) 应用o l 心( 联机分析处理) 技术,实现了对气象数据仓库降水量主题数据的多维 分析展现。重点研究了时间序列分析算法,作为数据挖掘外挂算法对一组测试 数据实现分析与预测。 关键词:数据仓库o l 世数据挖掘e t l 时间序列 a b s t f a c t2 a b s t r a c t w i 也t h ed c v e l o p m e n t 柚dw i d ca p p l i c a t i o 璐o fd a l ab a t e c h n o l o g y ,m o 糟粕d m o r ci m l e rh i s t o r yd a t at a k i n g 跏ec h a r 托钯稻鲫c h 弱p 甜a t i g _ s t o r a g c ,d i s u n “y i nd a t as 蜘j c t i l r c ,d a l ar e d u n d a n c y ,d a t a 咖- i n t e g r a d o n 粕d ,w l l i c hm a l 【鹤血扭 i n t e 伊a t i o nm o 陀d i f f i c l l l t t h el a r g c 肌m b c r s0 fm u n i f a r i o l i sd a t ar c d u c c st h ea o c 髓s i l l g p e r f o 珊姐c co ft i 谢i t i o n a ls y s t c m ,a n dl a r g co fd a t ad o e 姐tb c 璐e ds u f ! i c i e n l l y 柚d t h e n 啪tt l l mi n t ou 辩f u li n f o r m a t i o nt od i r c c td e d s i 仰s t h e r c f o r c ,d a t ai n t e g r a t i 柚d 粕a i y s i sb c 。锄龉aw i d e a n t i o n c dh o ts p o t 1 h ed “e l o p m e n t 趾dm 删t yo f d a bw a r c h o u 妣h n o i o g y ,0 l a pt e c h n 0 1 0 韶趾dd a t am i n i n gt e c h n 0 1 0 9 yh 笛 c s t a b l i s h e dt h et h e o r e t i c a lf o u n d a t i o n e sf o rt h i s 乜噶l i nt h i sp a p e r t h ea u t h o r 如l c i 塔髂o nt h cs t l l d y ,r l i z a t i o n 孤da p p l i c a l i 咖o f m e c o r ct 饯舡0 1 0 百髓r e l a t i n gt ot h i ss l i _ b j c c i ,t h c 曲a r yw o r ki n d u d 嚣:( 1 ) a p p l y i n g t l l 训鹋r e l a t i n gt od a t aw 缸c h o u ,瓢t h o r t su paw e a t h 盯血衄w a 糟h o u b 鹞c do n t h e w e a t h 盯h i s l o r j ,d a 诅t 0t e 吼t h ep e 矗b 曲锄o ft h cb a c kw o i k ( 2 ) a u t h o r 锄p h a t i c a u ys t u d i 龉n 地k c y 掀妇l o l o g y 勘儿f 研b l l n d i n gd a t aw a 北h o u a u t h o r c o m p d s e ss 咖cs q ls c 哑t sa n dn x i l = i z e sas i m p l c 董? r lp “x :e s s ,a n dai 讹d e a n i n g 响h m c t i a p p x i m a t e l yd u p l i c a t e d f e 咧也 c x 锄i n i n g ” ( 3 ) a p p l y i n g o l 心 t e c h o l o g y ,挑t h a l i z 器t h em u l 吐d i m c 璐i 咖i a la n a i y s i s 卸d 洲b “i o nt 0 t h e p t e c i p i t a t i t h 础出t ao ft h ew e a l h c rd a 【诅w a r c h o u s e ( 4 ) a u t h 叫锄p h a t i c a n ys t i l d i e s 也e 缸s c r i e s a n a i y s i sa r i t h m e t i c ,w h i c h i su s c d f o r ad a t a m i n i n g o u t s i d ca r i 耋h i 豇c t i c t o m a l i z ed a t aa n a l y s i sa n df o n c 嬲t k 盯删柑:d a 协w a 他h o u 辩 o l ” d a 纽m i n i g e 】阻t i m es e 一船 声明 创新性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容外,论文中不包 含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其 它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 等 日期:塑z :! :z 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在- 年解密后适用本授权书。 本人签名; 玺丝亟 日期: 塑z :墨2 j 导师签名:王垂( 江日期:翌童i 业 第一章绪论 第一章绪论 1 1 研究背景及意义 在搜索引擎中输入“数据仓库”、“o u ”、“数据挖掘”、“e 1 1 凡“数据整合”、 “数据清洗”、“数据分析”等关键词,会返回大量的查询结果集,其中包括相关技术 研究、项目开发及用人单位招聘掌握这些技术的人才信息。由此可见随着数据库 技术的发展与广泛应用,各行各业的内部历史数据量越来越庞大,而由于这些数 据往往分散存储、数据结构不统一、数据冗余、数据不完整等原因,使得数据难 以集成为统一的数据平台。面对大量繁杂的数据,传统系统的访问性能下降,大 量的数据没有得到有效利用,难以发挥出其应有的辅助决策作用指导行业决策。 整合数据、分析数据进而转化为行业决策所需的信息,成为一个普遍关注的热点 课题。 数据仓库技术是近年来数据库领域研究的热点,它的出现使得操作型环境和 分析型环境进行了分离,从而由以单一数据库为中心的数据环境发展为以数据仓 库为中心的一种新的体系化环境,侧重于决策支持。数据仓库以改进后的数据库 技术作为整合数据和管理资源的基本手段,以统计分析技术作为分析数据和提取 信息的有效方法,通过o l 墟技术及数据挖掘技术来多维度多层次地展现数据以及 发现数据背后隐藏的规律,有效地利用了数据,实现了从“数据到信息再到知识” 的过程,为行业提供不同层次的决策支持。 目前,国内外有许多专门从事研究与开发数据整合及分析平台的软件公司, 凭借数据仓库、数据挖掘等方面雄厚的技术实力和丰富的实施经验为各行业客户 比如电信、金融、政府机关及企业等,提供基于各种平台的数据整合及分析解决 方案。本论文致力于对“采用以数据仓库作为构建汇总数据的基础,进而支持数据 挖掘、联机分析处理等先进功能以及传统的查询及报表功能”的这一系统架构中的 相关核心技术进行应用,研究与实现,从理论应用到创新研究为数据整合及分析 平台的开发提供技术借鉴。 1 2 核心技术应用及研究现状 1 2 1 数据仓库技术应用及研究现状 近年来,随着数据库技术及网络技术的快速发展及广泛应用,数据仓库技术 2 基于数据仓库、o l 谨和数据挖掘技术的数据分析、展现与预测 紧跟而上,辅助信息社会中各行业获得竞争优势。据美国m e t ag r o u p 市场调查机构 的资料表明,全球2 0 0 0 家大公司中己有9 0 将互联髓和数据仓库这两项技术歹i j 入其 企业发展规划中或己经率先采用。在我国,数据仓库在c r m 、银行、保险业及证 券业等领域也有成功案例,例如,中国银行省、市两级金融管理信息系统是中国 银行广东省分行承担开发的国家“八五”科技攻关项目。该系统在工程组织和总体方 案设计上采用数据仓库及o u 螺理论,成为中国银行省、市分行实行科学管理的有 力工具;2 0 0 0 年6 月菲奈特公司与深圳华安保险公司合作联合开发财产险业务系统 和保险决策支持系统,成为金融业决策支持系统在华南地区的首例商业应用,也 是数据仓库在保险业的成功应用;1 9 9 9 年,深圳国信证券的数据仓库系统一期工 程完成,是国内开放平台数据仓库系统建设的一个成功案例。 目前数据仓库领域研究的热点课题包括构建数据仓库的e 1 1 工具开发、数据仓 库数据清洗算法、数据仓库模型设计( 管理和存储数据) 、数据仓库前端数据展 现工具开发、点击流数据仓库、r f m ( 无线射频识别技术) 数据仓库等。 1 2 20 l a p 技术应用及研究现状 , 近年来。国外许多公司开发出了多种o l a p 产品,推动了o l a p 技术的应用及 研究。一些公司制定了关于o “姐的标准,并对0 l a j p 产品进行了广泛的研究测试, 发布了o l a pr e f t 。一些大型关系数据库厂商纷纷推出了自己的蚴产品,例 如:m m0 i a ps e r v c r 、o 忸d ee 砰孵璐s e n ,e r 、m i c r o f ia n a l y s i ss e i c c s 、s y b 雒e w a r e h o u s ea n d y z c r s a sm d d b 、s a g e n td e s i 铲a n a l y s i s 等。如今0 乙谨技术自身 的发展已经比较成熟,其关键技术如多维数据模型及查询优化算法等研究也取得 较好成果,它正朝着与其他技术相融合的方向发展。o l a p 技术和w e b 技术及数据 挖掘技术相结合致力于辅助决策支持、多维分析查询和报表需求,从而产生出两 个0 l 廿研究新方向,如下: n ) 将w e b 技术与o l 谨技术相结合 用户通过浏览器提交分析请求给w 曲s e r v e r w c bs e c r 将用户的分析请求转 化为s q l 语句提交给应用服务器,应用服务器完成分析操作并将结果提交w e b s c f v c r ,w e bs e r v c r 再将结果返回给用户。将w e b 技术与o u 冲技术相结合会带来节 省开发资金、降低用户培训费用、跨平台及易于构建分布式开放环境等优点。 ( 2 ) 将数据挖掘技术与o l 址技术相结合 d m 和0 l 世都是数据分析工具,但是它们处理的问题不同,数据分析的深 度不同。d m 是一种挖掘性质的数据分析,它能够自动地发现事物间潜在的关系 和特征模式,并且可以利用这些特征模式进行有效的预测分析。o l 廿是一种验 证性质的数据分析,用户提出问题或者某种假设,0 l 廿负责多维度多层次地展 第一章绪论3 现数据及问题相关的详细信息,供用户判断提出假设是否合理。 o u 圩处于数据分析较初步的阶段,d m 属于比较深入的层次。d m 和o b 犍 相辅相成,d m 能够发现o l a p 不能发现的更为复杂和细致的问题,而0 l 妤能 够迅速地告诉我们系统过去和现在是怎样的,从而能够帮我们更好的理解数据, 加快知识发现的过程,并能迅速验证d m 发现的模式是否合理。 1 2 3 数据挖掘技术应用及研究现状 数据挖掘技术出现于加世纪8 0 年代后期,9 0 年代有了突飞猛进的发展。数据 挖掘界于1 9 9 5 年召开了它的第一届知识发现与数据挖掘国际学术会议。该会议是 由1 9 8 9 至1 9 9 4 年举行的四次数据库中知识发现国际研讨会发展起来的。数据挖掘 研究界于1 9 9 8 年建立起一个新的学术组织a c m s l g k d d ,即a c m 下的数据库中的 知识发现专业组( s p e c i a lh t e r 船t c dg 砌l p k n o w l c d g cd i s c o v c f y i nd a t a b a s ) 。国 内外对数据挖掘技术的研究主要关注于算法研究、数据挖掘工具开发( 专用通用) 及实践应用。算法研究重点主要集中在关联规则算法、聚类算法、分类算法和预 测算法等几个方面。 j i a w e ih 粕( 韩家炜) 教授是数据库领域国际知名学者,他在演绎数据库、数 据挖掘、数据库系统等方面的研究一直居领先地位,先后在国际著名学术刊物和 重要国际学术会议上发表论文1 0 0 余篇,主持开发了通用数据挖掘系统d bm i n 盱 在2 0 0 6 年第二届先进数据挖掘及应用国际会议f 1 1 1 es 咖di n t c m a t i o n a lc b n f e 啪 彻a d v a n c c dd a t am i n i n g 袖da p p l i c a t i 。) 上,作为会议特邀学者韩家炜教授做了 精彩的学术报告,其中总结了近年来活跃于数据挖掘界的研究及应用热点课题, 对从事数据挖掘技术研究的人员提供宝贵借鉴,内容如下: w c b m i n i n g 细d t c x t m i n i n g b i o m c d i c a l 删d a l am i i n g o n i i n e ,卵a l 血n c ,s t r e 锄d a 妇m i n i n g c u b ee x p l o r a t i o n :i c c b e r g ,c u b e - 孕a d i e n t ,n n d s ,e t c m i n j h gm 缸c l o s e dl o n g 蛆d 锄“0 l e f 觚t 舶q u c n t 卸d q u e n t i a lp a n c 珊 胁s i d e t e d i 柚d 柚o m a i ym i n j n g h v i s i b l ed a t am i n i n g s p a t i a id a t am i n i i l g 1 2 4e 1 m 技术应用及研究现状 e 1 i 在构建数据仓库中的重要地位越来越得到人们的关注。早期及现在的一些 研究工作覆盖了阴技术的很多方面,如:文献数据仓库生命周期工具箱设计, 4 基于数据仓库、o l 蛆和数据挖掘技术的数据分析、展现与预测 开发和部署数据仓库的专家方法中为e 1 1 活动的管理给出一种非正式的但是比较 详细的方法,分1 0 个步骤去完成e 1 r i 计划和实施过程:基于元数据的e 1 1 l i 生程管理 研究:基于x m l 的e 1 叫壬务描述研究;e 1 啦程中数据清洗算法的研究以及e 1 1 工 具开发( 专用通用) 等。 1 2 5 时间序列分析方法应用及研究现状 时间序列分析是数理统计中的一个重要分支,用随机过程理论和数理统计方 法研究随机数据序列的规律。时间序列分析在经济领域中的研究和应用一直很活 跃,并扩展到社会、气象、水利、交通、信息、农业和工业等领域。g e o f g ee p b o x 和g w i l v mm j e n k i n s 合著的时间序列分析:预测和控制一书曾经引起广泛的重 视,其后国内外的许多学者在多个领域进行了大量研究,包括理论和应用。2 0 0 3 年诺贝尔经济学奖授予美国经济学家r o b e nf e n 酉e 和英国经济学家c l i v cw j g 住- n 孵,表彰他们在分析经济时间序列方法方面所做出的贡献,特别是他们提出的根 据“时间变化交易率”m m e v a r y i n gv o l a t m t y 肚c h 模型) 和根据“阿趋势伽衄o n t - r c n d s ,血t e l 即t i o n ) 的分析方法,说明了时间序列的研究和应用仍在发展中。 现代时间序列分析中出现了许多新的理论和方法,继维纳滤波和卡尔曼滤波 理论和方法后,现代时间序列分析已经成为从事经济、社会和工程等重要领域的 科技工作者的重要工具。现代时间序列分析也包含以前的和现在的许多研究成果, 例如卡尔曼滤波、小波分析等。时间序列与其他学科交叉、融合的创新方法研究 也是热点课题,例如,时间序列与小波分析、时间序列与混沌理论、时间序列与 分形理论、时间序列与数据挖掘等。 近年来,随着计算技术和信号处理技术的迅速发展,一方面,时间序列分析 的理论和方法更趋完善,特别是在参数估计算法、模型结构识别与定阶方法以及 与智能计算技术的融合等方面都取得了丰硕的成果。另一方面,时间序列分析的 应用范围日益广泛,并且应用成果都处在一个较高水平层面上。时闻序列分析不 但在经济和社会等领域有应用价值,而且在工程领域也得到了十分广泛的应用。 例如,生物工程中的d n a 序列分析和生物医学信号序列分析、电子随机信号时序 建模、机械故障诊断中的振动和噪声信号时序分析、工业自动控制过程时序建模 与预报、精细化工过程的时序分析等。 1 3 本文主要研究内容及组织结构 1 3 1 本文主要研究内容 本文作者在深入学习及研究数据仓库、o 乙廿、数据挖掘等相关核心技术的基 第一章绪论 5 础上,为进一步研究数据整合、数据清洗及数据分析技术,主要做了如下工作; 1 应用数据仓库相关理论,以a o c c s s 气象历史观测数据作为数据源建立s q l s e r v c r 气象数据仓库,作为后续工作的测试平台。 2 重点研究了构建数据仓库的核心技术勘儿: 初步探索了e 1 l 工具开发中的各环节,编写s q l 存储过程脚本,实现了一个简 单的e 过程; 研究并实现了一种数据清洗算法“相似重复记录检测”。 3 应用0 l a p ( 联机分析处理) 技术,实现了对气象数据仓库降水量主题数 据的多维分析展现。 4 重点研究了时间序列分析算法,作为数据挖掘外挂算法对一组测试数据实 现分析与预测。 1 3 2 全文组织结构 全文的组织结构安排如下: 第一章绪论:主要阐述了论文研究背景及意义,引出相关核心技术;介绍了 核心技术的应用及研究现状;最后,阐述了全文主要研究工作及组织结构。 第二章系统架构概述:提出了系统架构作为全文的主线,围绕它展开相关核 心技术的应用、研究与实现。 第三章核心技术概述:主要概述了数据仓库技术、o l a j p 技术、数据挖掘技 术、e t l 技术及时问序列分析方法,作为后续研究工作的理论基础。 第四章核心技术应用、研究与实现:阐述了全文核心工作,如1 3 1 节所述。 第五章核心技术测试:主要对数据清洗“相似重复记录检测”算法及“时间序列 分析”算法进行了性能测试。 第六章结束语:对全文工作及存在的问题进行了总结,并对后续的研究工作 做了展望。 第二章系统架构概述 7 2 1 1 系统架构 第二章系统架构概述 2 1 系统架构 采用以数据仓库作为构建汇总数据的基础,进而支持数据挖掘、联机分析处 理等先进功能以及传统的查询及报表功能的系统架构来解决数据整合、数据展现 及数据分析需求。 2 1 2 系统架构图【1 】 基于数据仓库、o u 圩和数据挖掘技术的数据分析、展现与预测系统架构如图 2 1 所示。 2 1 3 功能特点【1 j 圈2 1 系统架构 数据源、数据整合:功能强大的数据整合平台,核心技术肌,抽取不同 系统中不同平台、不同结构的数据,进行清洗和转换,最后装载。通过定制可以 连接现有各种传统应用系统。支持o m d e 、s y b 勰e 、d b 2 、m i c r o f ts q ls e r v c r 8基于数据仓库,0 l a p 和数据挖掘技术的数据分析、展现与预测 h f 0 珊i x 等各种常见的数据库平台及格式化文件、电子表格、x m l 等外部数据源。 数据仓库:建立数据仓库,数据面向主题存储,使得具备企业级的功能和 扩充能力,能处理庞大的数据,以应付数以千计操作人员的工作环境;可整合不 同来源的数据资料进行分析。 展现分析工具:提供基于w e b 的图像化前台工具,帮助企业深入分析各项 数据。先进的o l a p ( 联机分析处理) 技术,建立多维数据集,从不同维度及维度 的不同层次( d r i l 卜u p d r i l 卜d o w n ) 对数据进行交叉分析( s 1 i c ea n dd i c e ) 的功能 有助辅助决策。o l a p 强大的数据分析及展现功能,帮助行业更深入了解和改良其 业务的不同环节。先进的数据挖掘技术,可以挖掘隐含在数据资料背后的知识, 将相关数据资料转化为有助决策的知识。 本论文围绕上述系统架构,对其中相关核心技术进行了应用、研究与实现。 第三章核心技术概述9 第三章核心技术概述 3 1 1 数据仓库技术背景1 2 ,3 ,4 】 3 1 数据仓库 随着数据库技术的广泛应用,各单位尤其企业的信息操作环境逐渐转化为以 数据库为中心。企业对数据的需求是多方面的,除了在企业中建立企业级的数据 库外,常常还要建立部门级数据库,以及在部门级数据的基础上有针对性的建立 个人级的数据库,这样可以提高数据的访问效率。但随着数据的逐层抽取,很可 能会形成如图3 1 所示的“蜘蛛网”现象,使数据的抽取和访问显得错综复杂。一 个大型公司每天进行上万次的数据抽取很普通,这种演变不是人为制造的,而是 自然演变的结果。错综复杂的抽取与访问会产生很多的问题,诸如数据分析的结 果缺乏可靠性、数据处理的效率很低、难于将数据转化成信息等。所以,必需从 体系结构上进行调整进而解决“蜘蛛网”问题及其带来的负面影响。 图3 1 “蜘蛛网”问题 数据处理分为操作型处理和分析型处理两大类。操作型处理系统的使用人员 通常是企业的具体操作人员,处理的数据通常是企业业务的细节信息,以传统的 数据库为中心进行企业的日常业务处理。分析型处理系统的使用人员通常是企业 中的高层管理者,或者是从事数据分析的工程师,处理的数据通常是企业的宏观 信息而非具体信息,目的是为企业的决策者提供支持信息。 随着对操作型处理和分析型处理各自特点认识的加深,人们意识到要提高分 析和决策的效率和有效性,分析型处理及其数据必须与操作型处理及其数据相分 )t 爵黏 k 口j b b 已k b b 1 0 基于数据仓库、o l 蟑和数据挖掘技术的数据分析、展现与预测 离。必须把分析型数据从o l l t ( 联机事务处理) 环境中提取出来,按照d s s ( 决 策支持系统) 处理的需要进行重新组织,建立单独的o ia p ( 联机分析处理) 环境。 数据仓库正是在这种背景下应运而生,企业的生产环境,也由以单一数据库为中 心的数据环境发展为以数据库为中心的业务处理系统和以数据仓库为基础的分析 系统。 数据仓库不仅仅是数据的储存仓库,作为d s s 的平台更重要的是它提供了丰富 的工具来清洗、转换从各地提取的数据,保证数据仓库中的数据是一致和可靠的, 进面保证决策的可靠性。 3 1 2 数据仓库基本原理【3 ,5 l 1 数据仓库体系结构 数据仓库的体系结构如图3 2 所示。 l 皤棚量自e ,t 量_ e i i 蕞筑 圈 图3 2 数据仓库体系结构 数据仓库环境中一个重要方面是元数据【删。元数据是关于数据的数据。只要 有程序和数据,元数据就是信息处理环境的一部分。但是在数据仓库中,元数据 扮演一个新的重要角色。也正因为有了元数据,可以最有效地利用数据仓库。元 数据使得最终用户d s s 分析员能够探索各种可能性。 元数据在数据仓库的上层,并且记录数据仓库中对象的位置。典型地,元数 据记录: 第三章核心技术概述 1 1 程序员所知的数据结构。 d s s 分析员所知的数据结构。 数据仓库的源数据。 数据加入数据仓库时的转换, 数据模型。 数据模型和数据仓库的关系。 抽取数据的历史记录。 2 数据仓库特点 2 0 世纪9 0 年代,公认的数据仓库之父w 1 lh 瑚在b u l i d i n gt h cd a 协 w a h o u s e 一书中首次提出了数据仓库的概念。他明确指出:数据仓库是为决策 支持服务并具有“面向主题”、“数据集成性”、“与时间相关”和“相对稳定”这四个 重要特征的特殊数据库应用系统。 面向主题 以数据库为中心的业务系统是以优化事务处理的方式来构造数据结构的,对 于某个主题的数据常常分布在不同的业务数据库中。这对于决策支持是极为不利 的,因为这意味着访问某个主题的数据实际上需要访问多个分布在不同数据库中 的数据集合。例如:一个电信企业,客户主题的相关数据分布在计费数据库、客 户服务数据库、帐务数据库等业务数据库中,如果想要获得客户各个方面的信息, 则需要访问以上若干个业务数据库,将极大浪费系统处理的时问和效率,并且数 据之间的不一致性问题,将极大影响决策的可靠性。 基于以上原因,数据仓库在较高层次上将企业信息系统中的数据综合归类即 主题,并进行分析利用。在逻辑意义上,主题是对应企业中某一宏观分析领域所 涉及的分析对象。而面向主题的数据组织方式则从宏观分析的角度对某一主题有 了一个完整一致的描述,这样决策者可以非常方便地在数据仓库中的一个位置检 索包含某个主题的所有数据,极大的方便了数据分析过程,提高了数据分析效率。 面向主题使得数据仓库的数据组织方式和建模方法已经同数据库系统有了较 大的改变。 数据的集成性 数据仓库是决策支持的平台,决策支持系统需要集成的数据,全面而正确的 数据是有效地分析和决策的首要前提,相关数据收集得越完整,得到的结果就越 可靠。 数据仓库中的数据是面向主题的,因此也是综合的、总结性的结构化数据。 这样的数据不可能直接从原有的操作型数据库中得到。因为操作型数据库中,数 据的结构是各式各样的,它们可能在追求局部最优时采用了不同的编码、不同的 命名规则等。数据库中原有的分散数据必须经过统一和综合才能装载入数据仓库, 基于数据仓库、o l a p 和数据挖掘技术的数据分析、展现与预测 这也是数据仓库建设中最复杂、最关键的一步,称为咖过程。 数据的稳定性 数据仓库中的数据是提供给企业或组织进行决策分析之用的,所涉及的操作 主要是数据查询,一般情况下不进行修改操作,因此在其生存期间是不可更新的。 正是由于数据仓库这个显著的特点,使得数据仓库不需要在并发读写控制上投入 过多的精力,数据仓库管理系统( d w m s ) 相比数据库管理系统( d b m s ) 而言 要简单的多,d b m s 中许多技术难点,如完整性保护、并发控制等技术都可省去。 但由于数据仓库的查询数据量很大,所以对数据查询提出了更高的要求,它要求 采用各种复杂的索引技术。同时,数据仓库是面向企业的高层管理者。因此对数 据查询的界面友好和数据表示也提出了更高要求。 数据随时间变化 数据仓库中的数据不可更改是针对应用而言,数据仓库的用户进行分析处理 时不进行更新操作。但并不是说,在从数据集成载入到数据仓库开始,到最终被 删除的整个数据生存周期中。数据仓库的所有数据都是永不改变的数据仓库的 数据随时何变化而不断交化,主要表现在以下三个方面: ( 1 ) 数据仓库系统必须不断捕捉o l l 甲数据库中变化的数据,并追加到数据仓库 中去,数据仓库中的数据具有时间维度,使数据仓库随时间变化不断增加新的数 据内容来反映最新状态,即动态集成。 ( 2 ) 数据仓库必须随时问变化不断删去旧的数据内容。数据仓库的数据有存储 期限,一旦超出这个期限,过期的数据必须删除。 ( 3 ) 数据仓库中包含大量综合数据,这些综合数据中很多跟时问有关,必须随 时间变化不断进行重新抽取。 综合以上数据仓库的四个特征,构建数据仓库是在收集企业原始数据和各种 外部信息的基础之上,对数据进行抽取、清洗、转换和合成,最后将数据装载到 数据仓库鳃全过程。数据仓库改变了数据库只提供数据交持的形式,它通过合理、 全面的信息管理,为决策者提供综合级别的信息知识、趋势分析、情况描述等更 直观的内容,帮助决策者探索业务活动规律,为制定全局范围的战略决策和长期 趋势分析提供有效的支持。因此数据仓库的概念一经提出,它的应用和研究立刻 引起了广泛的关注。 3 数据仓库数据组织 一个典型的数据仓库的数据组织结构图如图3 3 所示。在数据仓库中,数据 被分为4 种级别,分别是商度综合级、轻度综合级、当前细节级、早期细节级。 数组仓库的这种组织方式的核心思想是在系统中保留最有可能被用户使用的数 据,而用户很少使用的数据则各份出系统。 第三章核心技术概述 图3 3 数据仓库的数据组织结构 数据粒度 数据粒度是数据仓库中极其重要的概念,是数据综合程度的度量。数据粒度 越小,信息越细节,数据量越大。数据粒度越大,忽略了众多的细节,数据量越 小。数据粒度还会影响数据的用途,粒度越小,越能回答细致的问题,但回答综 合程度较高的问题时则需要访问大量的记录,进行大量计算,效率低。粒度越大, 回答综合程度较高的问题时只需访问很少的记录,效率高,但不能回答细致的阎 题。由此,在数据仓库中多重的数据粒度设计是必不可少的,粒度设计是数据仓 库设计的一个关键。 数据的分割 数据的分割是数据仓库中的又一重要概念。由于数据仓库中的数据量极大, 数据量大使用起来会遇到检索效率低等问题。所谓数据分割是指将数据分散到各 自的物理单元中以便能够独立处理,提高数据处理的效率。数据分割后的数据单 元称为分片。 数据分割没有固定的标准,分割的方法和粒度应当根据实际情况来确定。分 割方法常常可以选择时间、地点、业务领域来划分。其中,按照时间进行分割符 合数据仓库数据随时间变化的特点,并且分割后数据分布比较均匀,所以是最常 用的分割方法。 4 数据仓库建设路线 ( 1 ) 数据仓库的层次性 数据仓库层次和企业管理结构层次的对比如图3 4 所示。 基于数据仓库、o u 廿和数据挖掘技末的数据分析、展现与预测 匿受塑圜 e 至口日 圃日 二j 图3 4 数据仓库层次和企业管理结构层次 ( 2 ) 数据仓库的两条建设路线 。自顼向下” “自顶向下”是一种直观的建设方法。首先建立全局级的数据仓库,然后从全 局的数据仓库中为各个部门抽取必要的数据建立部门级数据仓库,最后建立个人 级数据仓库。这种方法对于维护全局数据的一致性非常有利,所有的数据在进入 全局数据仓库后都进行了清洗和整理,而后才分发到各个局部数据仓库中,数据 的一致性只需在全局数据仓库的入口处做工作。 但是,在实际的工程中,企业现有的业务系统很多,并且在建设数据仓库之 初,企业人员本身很难提出比较清晰的需求,而负责建立数据仓库的技术人员对 于企业决策方面的知识了解不足,这使得数据仓库的需求难于确定。即使需求确 定,对于大型企业来说,要一步建立一个全局级的大规模数据仓库。项目实旌的 周期和难度将很长,并且投资大,风险高。实践证明,“自顶向下”的建设方法对 于大型数据仓库系统并不合适。 “自底向上” 首先建立一个或少数几个数据集市( 局部数据仓库) ,随着项目的发展再逐步 推进,最后从各个数据集市中再次进行数据抽取建立全局级数据仓库,如图3 5 所示。实践证明,“自底向上”这种迭代式的建设方法对于大型数据仓库系统建设 较为合适。参考文献【9 ,1 0 】对于建设数据仓库提供实际经验参考。 第三章核心技术概述 3 1 3 数据仓库工具 图3 s 。自底向上”数据仓库建设路线 目前,数据仓库业内拥有1 0 0 多家厂商,其中比较著名的厂商有m m 、o 功c l e 、 s y b a s e 、枷c r o f t 、s a s 、h f o n 仅、c a 、n 僳、b 0 、b 南、s a g e n t 等。常用的 数据仓库工具如下:m m 蛐a lw 戤h o u s e 、0 l 砌ee n t e r p r i 辩m 黝g e r 、s y b 部c w a r c h o u s t l l d i o 、m i c f o s o f ts q ls c c r 、s a sw h 北h o u a d m i n j 蛐眦o r 、s a g c n t a d m i n 、n c rd a t a b a m 柚a g c r 等。 3 2o u 嫂( 联机分析处理) 3 2 1o l 婶技术背景及0 u ”定义f 3 ,1 2 】 0 l 廿( 联机分析处理) 的概念是在1 9 9 3 年由关系数据库之父e f c 0 d d 提出 的,c ( d d 认为o u 甲已不能满足终端用户对数据库查询分析的需要,s o l 对大数 据库进行的简单查询也不能满足用户分析决策的需求。目前最权威的0 l 定义 是:“o l ( 联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角 度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特 性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软 件技术”。 基于数据仓库、o l a p 和数据挖掘技术韵数据分析、展现与预测 0 u 心技术往往以数据仓库为平台,针对某个特定的主题进行联机数据访问、 处理和分析,通过直观的展现方式从多个维度、多种数据综合程度将系统的运营 情况展现给使用者,如图3 6 所示。 厂 f 可备作基据i i一圈一一口 3 2 2o 乙廿基本原理【3 ,1 1 】 图3 6 0 l a p 与数据仓库 圈 1 o l a p 基本概念 ( 1 ) 变量 变量是从现实系统中抽象出来的,用于描述数据的实际含义,即描述数据“是 什么”。一般情况下,变量总是一个数值度量指标,例如:“人数”、“单价”、“销 售量”等都是变量,而“1 0 0 0 ,则是变量的一个值,如表示人数为1 0 0 0 。变量都有一 定的取值范围。 ( 2 1 维 维是人们观察数据的特定角度。例如,企业常常关心产品销售数据随着时间 推移而产生的变化情况,这是从时间的角度来观察产品的销售,所以时问就是一 个维度( 时间维) 。企业也时常关心自己的产品在不同地区的销售分布情况,这是从 地理分布的角度来观察产品的销售,所以地理分布也是一个维( 地理维) 。定义维时, 要同分析问题相关。 ( 3 ) 维的层次 维还可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的 层次。一个维往往具有多个层次,如描述时间维时,可以从日期、月份、季度、 年等不同层次来描述,那么日期、月份、季度、年就是时间维的层次。同样,城 市、地区、国家等构成了地理维的多个层次。 ( 4 ) 维成员( 维的取值) 维的一个取值称为该维的一个维成员。如果一个维是多层次的,那么该维的 维成员是在不同维层次的取值组合。例如,我们考虑时间维具有日期、月份、年 这三个层次,分别在三个层次上各取一个值,就得到了时间维的一个维成员,即“某 年某月某日”。 ( 5 ) 多维数据立方体 第三章核心技术概述1 7 一个多维数据立方体可以表示为:( 维1 ,维2 ,、维n ,度量变量) 。例如,如图 3 7 所示的某品牌手机销售数据是按型号、时间和地区组织起来的三维立方体,加 上度量变量“销售额”,就组成了一个多维数据立方体( 型号,时间,地区,销售额) 。 图3 7 按型号、时间和地区组织的销售数据多维立方体 ( 6 ) 事实( 数据单元格) 当多维数据立方体的各个维都选中一个维成员,这些维成员的组合就唯一确 定了度量变量的一个值,称为“事实”。例如,如图2 7 所示,在型号,时间和地区 上各取成员“型号3 ”、“2 0 0 3 年”和“上海”,就唯一确定了度量变量“销售额”的一个 值( 假设为1 0 0 0 0 万元) ,该事实可以表示为:( 型号3 ,2 0 0 3 年,上海,1 0 0 0 0 ) ,即: 某手机品牌型号3 手机2 0 0 3 年在上海的销售额是1 0 0 0 0 万元。 2 o l a p 的基本分析动作 ( 1 ) 数据切片和切块( s l i c e 蛐dd i c e ) 选定多维数据立方体的一个二维子集的操作叫做切片,即选定多维数据立方 体( 维1 ,维2 、维n ,变量) 中的两个维:维i 、绸,在这两个维上取某一区间或任 意维成员,而将其余的维都取一个维成员,则得到的就是多维数据立方体在维i 和 维i 上的一个二维子集,称这个二维子集为多维数据立方体在维i 和维i 上的一个切 片,表示为:( 维i ,维j ,变量) 。例如,选定多维数据立方体( 型号,时间,地区,销 售额) 中型号维和时间维,在另一个维( 地区维) 中选取个成员( 如“北京”或“上 海,) ,就得到了多维数据立方体( 型号,时间,地区,销售额) 在型号维和时间维上 的切片( 型号,时间,销售额) 。 选定多维数据立方体的一个三维子集的动作称为切块。即选定多维数据立方 体( 维1 ,维2 ,、维n ,交量) 中的三个维:维i ,维j 和维r ,在这三个维上选取某一 区间或任意维成员,而将其余的维取定一个维成员,则得到的就是多维数据立方 体在维i ,绸和维f 上的一个三维子集,我们称这个三维子集为多维数据立方体在维 i ,维j 和维r 上的一个切块,表示为:( 维i ,维j ,维r ,变量) 。 ( 2 ) 数据钻取( d r i u d o w n ) 基于数据仓库、o l a p 和数据挖掘技术的数据分析、展现与预测 维度的层次反映了数据的综合程度。维度层次越高,代表的数据综合度越高, 细节越少,数据量越少;维度层次越低,则代表的数据综合程度越低,细节越多, 数据量越大。数据钻取就是从较高的维度层次下降到较低的维度层次上来观察多 维数据。如图3 8 所示,在表l 中存放的是2 0 0 3 年各型号手机的销售额数据。如果从 时问维的季度层察看时,得到2 0 0 3 年各个季度中三个型号的销售数据,如表2 所示, 则执行的操作称为数据钻取。 图3 8 钻取示意图 ( 3 ) 数据聚合 数据聚合实际上钻取的逆向操作,是对数据进行高维度层次综合的操作。如 图3 8 所示。 ( 4 ) 数据旋转( 勋t a t c ) 旋转是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据。 例如,旋转可能包含了交换行和列;或是把某一个行维移到列维中去,或是把页 面中显示的一个维和页面外的维进行交换( 令其成为新的行或列中的一个) 。如图3 9 所示,( a ) 的例子是把一个横向维为时间,纵向维为产品的报表旋转为横向为产品, 纵向为时间的报表。( b ) 的例子是把一个横向为时间,纵向为产品的报表,变成一 个横向仍为时间和纵向旋转为地区的报表。( d 的例子是把一个纵向为时间和产品, 横向为地区的报表变成一个纵向为产品横向为地区和时间的报表。 ( c ) 图3 9 旋转示意图 第三章核心技术概述 1 9 3 o l a p 的展现方式 常用的0 l a p 的展现方式主要有多维报表、饼图和柱状图、三维柱状图、等 高线图、立体曲线图等,如图3 1 0 所示。 图3 。1 0 0 弘p 的展现方式 4 0 l a p 的简洁准则 e e c 0 d d 提出了0 u 蛆的1 2 条准则,随着0 l 婶的发展,人们又提出了比 较简洁的5 条准则,就是所谓的f a s m i ( 跏t 衄l y s i so f s h 缸c d m l l l t i d i 姗s i 伽i a l i n f l m 卫尬n o n ) 。 ( 1 ) 快速性( f 雒t ) 快速性是指0 l ”系统应当使用各种技术,尽量提高对最终用户的响应速度。 ( 2 ) 可分析性( a n a l y s i s ) 可分析性是指0 u 址系统必须能够对数据模型进行逻辑分析。 ( 3 ) 共享性( s h 缸e d ) 共享性是指可以多个用户共享同一份0 l 艚数据。 ( 4 ) 多维性( m u l t i d i i l l c n s i 衄锄 多维性是o u 最本质的特征,必须向用户呈现一致的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论