




已阅读5页,还剩82页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库与联机分析技术在高速公路收费系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着高速公路收费业务的飞速发展,运营过程中积累了大量的历史数据。如 何对这些历史数据进行有效的分析,发现知识,用以指导经营决策,已成为企业 在竞争中制胜的关键。数据仓库( d w ) 技术和联机分析处理( o l a p ) 技术已成为决策 支持系统领域研究的热点。 本文综合分析了数据仓库和联机分析处理技术的相关知识点,对将数据源系 统向数据仓库加载的e t l ( 提取、转换和加载) 过程进行了比较深入地研究。利 用s q ls e r v e r2 0 0 5 中提供的a n a l y s i ss e r v i c e s 工具建立数据仓库模型,实 现了从星型模型向多维数据立方体的转换,形成了多维分析模型,并采取切片、 切块、旋转、钻取等各种分析动作剖析数据,实现了联机分析,使用户能从多个 ?, o , 角度、多侧面地观察数据库中的数据,从而深入地了解包含在数据中的信息内涵。 前台开发工具选择了c # n e t 对系统进行更直观的展示。 目前国内将数据仓库技术应用于高速公路收费数据分析领域并未取得系统 性的研究成果和成功的实施案例。本文在调查研究高速公路收费业务运营情况的 j。 基础上,将数据食库秘联枫分糯处理逮两种技术相互结合,设计并实现了高速公 路收费数据管理分析系统,为决策支持系统开辟了新途径,具有一定的理论和实 际意义。 关键词:高速公路收费数据,数据仓库,o l a p ,a n a l y s i ss e r v 玉c e s a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h eh i g h w a yt o l lo p e r a t i o n s ,al a r g ea m o u n to f h i s t o r i c a ld a t ah a sb e e na c c u m u l a t e d f o re n t e r p r i s e s ,h o wt o g i v e a ne f f e c t i v e a n a l y s i st ot h e s ed a t a ,a n df i n dk n o w l e d g et og u i d et h eb u s i n e s sd e c i s i o n m a k i n g ,h a s a l r e a d yb e c o m et h ek e yt ow i nt h ec o m p e t i t i o n d wt e c h n o l o g ya n do l a p t e c h n o l o g yh a sb e c o m eh o t s p o t si nt h ef i e l do fd e c i s i o ns u p p o r ts y s t e m 。 i nt h i sp a p e r ,r e l a t e dk n o w l e d g eo fd wa n do l a pa r ea n a l y z e d e t l ( d a t a e x t r a c t i o n ,t r a n s f o r m a t i o na n dl o a d i n g ) ,t h em a i np r o c e s so fl o a d i n gd a t af r o md a t a s o u r c et od w ,i sm o r ei n - d e p t hs t u d i e d d a t aw a r e h o u s em o d e li ss e tu pb yt o o l s p r o v i d e ds q ls e r v e r2 0 0 5i na n a l y s i ss e r v i c e s s t a r -n 硷蹦i se p n v e r t e d 。t o i :一、:i 。一。 二* 一,、 = 1 m u l t i d i m e n s i o n a ld a t ac u b e ,a n dm u l t i d i m e n s i o n a la n a l y s i sm o d e li sc o m p l e t e d t h e d a t ac a nb ea n a l y z e db ys l i c i n g ,c u t t i n g ,r o t a t i n ga n dd r i l l d o w n t h e nt h ed a t ai n d a t aw a r e h o u s ec a nb eo b s e 辩e d l b y m l l a l t i a n g l ea n dm u l t i - s i d e s ot h eu s e rc a nd e e p l y u n d e r s t a n di n f o r m a t i o ni n c l u d e di nt h ed a t a t h ei n t e r f a c eo fs y s t e mi sd e s i g n e di n c 群n e t a tp r e s e n t ,d a t aw a r e h o u s et e c h n o l o g yi sr a r e l yu s e di nt h ef i e l do fh i g h w a yt o l l o p e r a t i o n sa n a l y s i s ,a n ds y s t e m a t i cr e s e a r c hr e s u l t sa n di m p l e m e n t a t i o nc a s ea r en o t s u c c e s s f u l o nt h eb a s i so fs t u d y i n gt h es i t u a t i o no fh i g h w a yt o l lo p e r a t i o n s ,h i g h w a y 一 譬+ 二。o ? 务z 。套 。, t o l ld a t am a n a g e m e n ta n a l y s i s 匆t 毫蘸b a s e d d wa n do l a pi s :a e s i 鲫a n dr e a l i z e d a f t e i “d wt e c h n o l o g ya n do l a p t e c h n o l o g ya r em u t u a lc o m b i n e d an e ww a yi s d e s i g n e df o r d e c i s i o ns u p p o r ts y s t e m i th a sac e r t a i nt h e o r e t i c a la n dp r a c t i c a l s i g n i f i c a n c e k e y w o r d s :h i g h w a yt o l ld a t a ,d w :o l a p , a n a l y s i ss e r v i c e s 1 i 论文独创性声明 本人声明:本人所呈交的学位论文是在导师的指导下,独立进行 研究工作所取得的成果。除论文中已经注明引用的内容外,对论文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论 文中不包含任何未加明确注明的其他个人或集体已经公开发表的成 果。 本声明的法律责任由本人承担。 论文作者签名: 辛博伽口7 年厂月7 日 论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归 属学校。学校享有以任何方式发表、复制、公开阅览、借阅以及申请 专利等权利。本人离校后发表或使用学位论文或与该论文直接相关的 学术论文或成果时,署名单位仍然为长安大学。 ( 保密的论文在解密后应遵守此规定) 论文作者签名: 咩俘 导师签名:棉锶华 呷哆 月 月 s s 袄 钲 o f f 砷叫 长安大学硕士学位论文 第一章绪论弟一早瑁了匕 1 1 研究背景及现状 1 1 1 背景介绍 中国是长期面临公路拥挤问题的许多国家之一,机动车辆数目以每年1 5 的 速度增长。据估计,中国已有1 8 0 0 万辆机动车,这使许多本已十分拥堵的公路更 加负重不堪。如何管理好现有的交通设施,包括2 7 0 0 个收费站,如何迅速回笼建 设和维护公路的投资,刺激投资商投资新的高速公路是摆在我们面前的问题。 高速公路联网收费管理中心( 以下简称管理中心) 为非盈利性的办事机构,负 责联网收费系统日常运行中出现的问题;负责监管联网收费系统,确保联网收费 系统安全畅通;负责组织有关专业单位编制收费计费表,并组织实施;负责实施 。f 联网收费的拆账、校核、调整、划拨、协调,对联网数据进行校核i 统计和分析; 1 负责制订联网系统的发展规划,组织研究和实施重大技术项目,提高通行效率。 可以这样理解,高速公路收费管理中心的工作就是以各个收费站上传的大量收费 数据为基础而开展工作的。 然而,在现行工作的开展中,存在以下问题: ( 1 ) 高速公路收费管理中心内部存在很多冗余的、重复建设的事务处理系统 _十 - o - :。i ( 通常是报表系统辩这些系统被不同的用户使用,数据的提取层次非常复杂; “ ( 2 ) 由于没有公共的数据源,并且数据不具备时间点的特征,因此导致产生 的报表可信度下降,数据不一致的问题特别显著; ( 3 ) 目前联网收费系统的数据信息只是简单地存储在不同数据库中,隐藏在 这些数据中的潜在信息被闲置,并不能被充分地利用。普遍存在数据分散,数据 存储不连续,信息资源浪费,查询、分析手段落后,存储容量有限等问题亟待解 决; 为了保持在市场竞争中的优势,加强对外合作,更好地服务各公司和客户, 不断满足社会需求,提高联网收费系统维护与分析能力,高速公路联网收费管理 中心迫切需要对其自身的经营管理情况进行分析,并且根据这些信息做出有效的 决策。这种决策需要通过对大量收费数据( 包括历史数据) 进行分析才能得到。在 传统的数据库技术中,数据库技术的应用主要表现在联机事务处理( o n l i n e t r a n s a c t i o np r o c e s s i n g :o l t p ) 方面。联机事务处理注重数据处理的响应时间、 第一章绪论 数据的安全性和完整性,通过对数据库的联机操作( 增加、删除、修改、查询) 来实现某些特定的应用。然而非常遗憾,当联机事务处理系统应用到一定阶段后, 用户慢慢发现单靠联机事务处理已经难以满足经济全球化条件下的激烈的市场 竞争,用户很难在原有的数据库中找到能够为他们的决策提供详实和可靠依据的 综合信息。现在普遍认为在事务系统上不宜进行o l a p 。因为繁忙的事务系统上 进行大量的统计分析会严重影响事务系统的业务处理,数据仓库的概念就在这种 背景下产生了。由于数据仓库的使用方式和事务型数据库的使用方式大有不同, 所以数据仓库的数据模型也不能使用传统的数据库数据模型,因此,事务型数据 库的数据建模方法并不适合数据仓库。 因为传统的数据库技术是面向应用的,企业往往针对不同的应用建立不同的 数据库,甚至选用不同的数据库管理系统( d a t eb a s em a n a g e m e n ts y s t e m ,d b m s ) , 所以企业的业务数据分散地存储在不同的数据库中,这些数据库可能是同构的, 也可能是异构的,不易于统一查询访问,而且大量的历史数据脱机存放,无法进 行联机查询。在这种情况下,对数据进行综合分析时,其结果缺乏可靠性,而且 数据处理的效率很低。 随着信息化的深入,先进的管理手段、管理方法的应用已经逐步拓展,作为 政府监管的主要部门、重点行业,面临巨大的压力和挑战。目前随着高速公路收 _二。一麓薹。 费行业业务的不断增加,收费数据爵溢庞炎收费数据可供工作人员进行各类统 计报表和信息查询,但这些海量数据分散,所隐含的价值并没有被深层利用。在 j 童j 现有的数据资源的基础上如何充分利用数据资源、如何建立合理的分析模型鼍。建 立什么样的模型? 怎样从数据资源中发现规律? 这些正是本论文研究的目的。 1 1 2 决策支持系统的发展 随着数据库技术的广泛应用,企业信息系统产生了大量的数据,如何从这些 海量数据中提取对企业决策分析有用的信息成为企业决策管理人员所面临的重 要课题。传统的企业数据库系统,即联机事务处理系统( o l t p ) 。作为数据管理手 段,主要用于事务处理,但它对分析处理的支持一直不能令人满意。因此,人们逐 渐尝试对o l t p 数据库中的数据进行再加工,形成一个综合的、面向分析的、更好 的支持决策制定的决策支持系统( d e c i s i o ns u p p o r ts y s t e m ,简称d s s ) 。 自从2 0 世纪7 0 年代决策支持系统概念被提出以来,决策支持系统已经得到 2 长安大学硕士学位论文 很大的发展。 1 9 8 0 年s p r a g u e 提出了决策支持系统三部件结构( 对话部件、数据部件、 模型部件) ,明确了决策支持系统的基本组成。 2 0 世纪8 0 年代末,决策支持系统开始与专家系统( e x p e r ts y s t e m ,e s ) 相结合,形成智能决策支持系统( i n t e l l i g e n td e c i s i o ns u p p o r ts y s t e m ,i d s s ) 。 智能决策支持系统充分发挥了专家系统以知识推理形式解决定性分析问题的特 点,又发挥了决策支持系统以模型计算为核心的解决定量分析问题的特点,充分 做到了定性分析和定量分析的有机结合,使得解决问题的能力和范围得到了一个 大的发展。2 0 世纪9 0 年代中期出现了数据仓库( d a t aw a r e h o u s e ,d w ) 、联机 分析处理( 0 n l i n ea n a l y s i sp r o c e s s i n g ,o l a p ) 和数据挖掘( d a t am i n i n g , d m ) 新技术,d w + o l a p + d m 逐渐形成新决策支持系统的概念,为此,将智能决策 支持系统称为传统决策支持系统。新决策支持系统的特点是从数据中获取辅助决 策信息和知识,完全不同于传统决策支持系统用模型和知识辅助决策。把数据仓 库、联机分析处理、数据挖掘、模型库、数据库、知识库结合起来形成的决策支 持系统,即将传统决策支持系统和新决策支持系统结合起来的决策支持系统是更 高级形式的决策支持系统,成为综合决策支持系统( s y n t h e t i cd e c i s i o ns u p p o r t s y s t e m ,s d s s ) 。综合决策支持系统发挥了传统决策支持系统和新决策支持系统 的辅助决策优势,实现更有效的辅助决策。 现代企业在进行决策支持过程中依据的信息更加充分,决策者必须对海量的 决策信息进行有效识别与区分,在最短期间内从众多的决策信息中提炼出所需要 的决策支持信息,如何在原有决策支持系统中引入以数据仓库、o l a p 、数据挖掘 为代表的新一代决策支持技术和方法模型是综合决策支持系统的发展方向,也是 本论文探讨的焦点。 1 1 3 数据仓库研究现状 数据仓库技术是数据库与人工智能两项计算机技术相结合的产物,是当今信 息管理技术的主流,它利用人工智能中的机器学习、知识处理和神经网络等方法, 从数据库中挖掘有用信息、发现知识、搞清数据库中大量数据之间的相互关联及 众多数据之间存在的规律,可供使用者有效分析和利用数据库中的已存储的各种 有用信息,以帮助决策者迅速做出决策,从而使企业产生巨大的经济效益。 第一章绪论 数据仓库概念的创始人w h i n m o n 于1 9 9 3 年在建立数据仓库一书中, 首次明确提出了数据仓库的概念:“数据仓库是面向主题的、集成的、稳定的、 随时间变化的数据集合,用以支持经营管理中的决策制定过程口h 。数据仓库的 价值在于帮助人们制定能够改进商业过程的决策,而不仅仅是实现商业过程自动 化。应用d w 技术,改善企业决策的支持模式,取得最大的投资回报率,是当今 大多数成功企业的共同经验。数据仓库是市场竞争的产物,它通过对大量的、不 同来源的数据进行集成,能够把统一的、丰富的、综合的信息提供给决策者,从 而实现有效的辅助决策。根据调查,财富( f o r t u n e ) 5 0 0 中有8 5 的企业己经建立 或正在建立数据仓库,d w 与i n t e r n e t 一样正在成为当前技术热点。目前,各个 大型数据库厂商针对市场需求,纷纷推出自己的数据仓库产品;已经建立和使用 数据仓库的企业,也都取得了明显的经济效益,在市场竞争中显示了强劲的活力 2 】 0 随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断发展, 数据仓库技术也在不断完善,并在实际应用中发挥了越来越大的作用。据美国国 际数据公司( i d c ) 调查,使用数据仓库技术的投资回报率( r o i ) 平均超过4 0 0 , 平均回报时间为2 3 年;若从部门级数据仓库( 也称“数据集市”) 开始实施,则 投资回报率平均超过5 0 0 1 | 。 在美国,3 0 到4 0 的公司已经或正在建造数据仓库【4 】。在经济发达国家, 大型企业几乎都建立了自己的数据仓库。数据仓库的应用已遍及银行、证券、保 险、税务、电信、医疗保健、商业零售业等各个行业和部门。这几年,我国越来 越多的企业也逐步认识到利用数据仓库技术获得决策支持的重要性,许多大型企 业开始建立数据仓库系统。例如,中国银行广州分行“八五”期间就开始建设数 据仓库,包括从数据采集、数据处理到数据存储的全过程;1 9 9 9 年4 月,深圳 国信证券的数据仓库系统一期工程完成;上海集装箱码头项目、深圳华为、上海 强生、上海日立、广东省长话计费系统、新飞集团、浙江省移动通讯计费系统等 都已成功地采用了数据仓库技术;上海宝钢、深圳招商银行目前也在创建自己的 数据仓库,开展数据分析工作【5 j 。 目前,数据仓库技术在交通行业的应用还不广泛,在高速公路收费管理中还 未应用,大量的收费数据不能被充分地用于分析与决策,只是简单的进行统计, 4 长安大学硕士学位论文 所以引入数据仓库与联机分析将是非常有实际意义的。我们可以预测,数据仓库 和联机分析系统的建立,可以有效地支持高速公路交通的决策。 1 2 研究意义 因为高速公路收费管理中心存在从收费信息系统中收集的大量信息。因此, 为了企业的运转就需要一个信息数据仓库。在过去的业务数据库中很难得到深层 次的有用信息。大多数情况下,企业会将历史数据从业务数据库转移到备份系统, 这使得用户无法深入分析数据,难于做出有竞争性的决策。联机分析处理( o l a p ) 为企业提供联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据 综合程度将系统的运营情况展现给使用者。 高速公路管理企业采用数据仓库的优势: 1 ) 能够把高速公路企业内部乃至各交通企业闻的数据和各种信息资源作为 一项稀缺资产集中起来; 2 ) 提供一种便捷工具,从而使用户能够有效地将数据一致化、形成有效的 信息保证数据结构的稳定,提供给任何个需要数据的用户; 3 ) 具有一致且可重复的用来加载操作数据的过程; 4 ) 在一个开放的、可更改的结构上建立数据系统,以便将来能够处理数据 的不断膨胀; 5 ) 保证各收费部门的运行处在一个管理良好且稳定的环境中; 6 ) 能较好地利用从当前操作中得到的信息,更有效地管理整个运营活动; 7 ) 提供更好的分析智能。提高决策人员的决策效率,有助于运营利润的增 加。 本论文所研究的数据仓库与联机分析技术应用于交通信息化系统的意义就 是通过高新技术的有效应用,使得对各种决策( 包括人员评估战略决策、收费站 管理决策、交通方式决策、路面养护决策及交通路线选择决策等) 起到支持作用 的信息和知识在交通信息化系统中能够有效流通,提高决策的科学性,引导合理 的交通行为,达到最大限度地发挥已有交通设施潜力的目的。 1 3 研究内容 首先,了解数据库的定义、特点以及数据库仓库的概念、特点、逻辑设计和 第一章绪论 物理设计,分析高速公路收费数据的特点,研究数据仓库的关键技术,以及在多 维建模关键技术的基础上实现了高速公路收费数据仓库模型建立,为多种分析技 术提供了基础。其次,以联机分析技术( o l a p ) 为技术铺垫,提出高速公路收 费数据立方体的构造方法,将收费数据移入多维视图来进行组织,然后对数据进 行聚集和合并;最后,用统计技术实现高速公路收费管理中复杂的、特定的查询。 1 数据仓库 1 ) 针对高速公路收费网络的现状和运营特点,提出基于数据仓库分析系统 的多个实用主题分析子系统的总体技术方案。现在已经拟定的主题有:收费站流 量主题、流量车类型主题、流量车种类主题、通行费收入主题、人员服务水平评 估、计重货车流量主题、计重货车通行费主题等。 2 ) 将数据仓库技术引入高速公路收费信息化中,基于业务特点和数据特征, 并结合数据仓库的基本原理,设计高速公路收费系统数据仓库数据模型( 包括概 念模型、逻辑模型、物理模型) 。根据高速公路收费业务的特点,采用星型模型 的改进形式一事实星座模型;事实星座模型以星型模型为基础,以每一个分析主 题作为一个事实表,这些事实表共享一些维度表( 如日期维、地区维等等) 。这样 可以在不同的事实表之间,通过共享维度来穿透钻取。 3 ) 对高速公路收费数据仓库多维模型的关键技术进行深入研究,制定适合 高速公路收费数据仓库系统特殊需求下的数据抽取、转换和加载策略。设计并实 现数据e t l 的方案。 4 ) 通过对象编程实现数据仓库结构的构建,完成数据仓库模型的物理模型 设计。 5 ) 完成数据仓库多维数据集的显示。 6 ) 所要建立的数据仓库应该满足对单个收费站中所有收费记录进行横向分 析,并且对全省所有收费站进行纵向分析,不但要进行月统计,还要根据需要进 行季度、年统计,要求收费信息的粒度可以达到细节程度。因此数据仓库主要对 收费信息进行分析,同时还要从流量、金额、载重、时间等多方面进行分析并实 现报表输出功能。 2 联机分析处理( o l a p ) 1 ) 在数据仓库技术的基础上掌握联机分析技术,采用联机分析的基本分析 6 长安大学硕士学位论文 动作实现查询的目的。根据各个主题建立o l a p 立方体,采用钻取、切片、旋转 等功能对数据仓库中的数据进行合理、高效的分析。o l a p 立方体包括:收费站 流量立方体,通行费收入立方体,人员服务水平评估立方体,计重货车通行费 立方体,计重货车通行流量立方体。 2 ) 根据数据仓库主题,对信息进行o l a p 技术基于维度的概念层次建模, 并对事务型数据逐级归纳形成不同层次的聚合,通过预先计算并存储这些聚合, 从而提高对海量信息查询与分析的效率,支持决策者围绕决策主题对数据进行多 角度、多层次的分析。 3 ) 通过o l a p 查询方式实现动态查询和静态查询,分析产生的一系列的图 表和报表,各级决策人员可以根据产生的结果进行分析。 联机分析子系统包括以下模块: 特定主题联机分析 在此模块中可以进行基于特定主题的联机分析,在具体的某一个分析过程 中,用户可以使用下钻操作和上钻操作进行数据的细化浏览和统计浏览。 自定义联机分析 在此模块中用户可以根据显示的数据仓库结构信息,在多维数据集浏览器中 进行各种操作。 联机分析日志浏览 在此模块中对原来所进行的联机分析记录进行浏览,浏览时所能看到的内容 包括查询时间、用户、连接信息、查询语句、备注等等j 1 4 章节安排 本论文主要研究了高速公路收费数据仓库和联机分析模型的建立和应用,本 论文共分五章,各章的内容安排如下: 第一章绪论:阐述高速公路收费中心收费数据的特点以及研究的背景、数 据仓库在国内外的研究现状以及引入数据仓库与联机分析技术对高速公路收费 数据分析带来的益处,给出本论文的主要研究内容和思路,同时提出本论文的主 要创新点。 第二章数据仓库与联机分析技术:主要介绍数据仓库的关键技术,包括数 据仓库结构、数据预处理、e t l 过程、粒度和聚合数据的关键技术,以及联机分 7 第一章绪论 析技术的主要内容一一多维立方体、准则和分析动作,同时对数据仓库的模型设 计进行详细说明。 第三章高速公路收费数据仓库与o l a p 总体分析:首先,分析高速公路收费 系统的特点;其次,介绍建设高速公路收费数据仓库与联机分析的总体设计方案、 需求分析、建设原则、设计目标。 第四章高速公路收费数据仓库与联机分析设计:首先明确高速公路数据仓 库模型的主题,并在此基础上,研究设计数据仓库模型的关键技术,给出模型设 计策略以及e t l 的解决方案;最后,采用联机分析技术实现数据仓库中数据的分 析技术一一多维分析和基本分析动作。 第五章系统的实现与展示:介绍数据仓库的开发工具- - s o ls e r v e r2 0 0 5 和前台的开发工具- - c # n e t ,以及如何实现系统的功能结构,对于不同的功能分 别进行详细的说明。 总结与展望对高速公路数据仓库与联机分析技术的应用研究进行总结,分析 不足之处,展望相关后续研究内容。 长安大学硕士学位论文 第二章数据仓库与联机分析技术 2 1 数据仓库概述 2 1 1 数据仓库概念及特点 概念上而言,一个数据仓库包含了一系列的关键性信息,它们可以用管理并 引导企业走向最可能的获利之路。这些信息似乎包含了所有与一个企业相关的数 据,现以一个超级市场为例,上架的产品、产品的价格、摆放的位置、折扣等信 息都可以包含在数据仓库内。 数据仓库不仅包含了分析所需的数据,而且包含了处理数据所需的应用程 序、这些程序包括了将数据由外部媒体转入数据仓库的应用程序,也包括了将数 据加以分析并呈现给用户的应用程序。 数据仓库( d a t aw a r e h o u s e ) 是一个面向主题的( s u b j e c to r i e n t e d ) 、集 成的( i n t e g r a t e d ) 、相对稳定的( n o n v o l a t i l e ) 、反映历史变化( t i m ev a r i a n t ) 的数据集合,用于支持管理决策( d e c i s i o nm a k i n gs u p p o r t ) 【2 j 。 面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统 之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的 基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保 证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据 操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保 留,数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定 期的加载、刷新。 反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业 从过去某时点( 如开始应用数据仓库的时点) 到目前的各个阶段的信息,通过这 些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 简单的说,数据仓库是一个过程而不是一个项目。数据仓库系统是一个信息 提供平台,它从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组 织,并为用户提供各种手段从数据中获取信息和知识。按功能结构划分,数据仓 9 第二章数据仓库与联机分析技术 库系统至少应该包含数据获取( d a t aa c q u i s i t i o n ) 、数据存储( d a t as t o r a g e ) 、 数据访问( d a t aa c c e s s ) 三个关键部分【7 1 。 2 1 2 数据仓库与数据库的区别 数据仓库是在数据库的基础上发展起来的,因此数据仓库与数据库有着本 质的区别,主要体现在以下几个方面: ( 1 ) 数据库中存储的都是当前使用的值,而数据仓库的建立是一个企业日 积月累的建立过程因而其存储的数据都是一些历史的、存档的数据,另外由于要 提供分析决策,还需要存储一些归纳的、计算的数据; ( 2 ) 数据库的数据主要是面向业务操作程序的,可以重复处理,主要是用 来进行事务处理的。而数据仓库却是面向主题,主要是用来分析与应用的; ( 3 ) 数据库的数据结构是高度结构化的,比较复杂,适合于操作计算。而数 据仓库的数据却比较简单,适合于分析处理; j ( 4 ) 数据库中的数据的使用频率是很高韵。数据仓库中的数据的使用则不是 | i :。_ 。- 。 很高; _ 一 i ( 5 ) 通常对数据库中的事务的访问,只需要访问少量的记录数据。而对数据 仓库的事务的访问就可能需要访问大量的记录; ( 6 ) 对数据库的响应时间一般要求比较高,通常是以秒为单位。而对数据仓 库的响应时间要求则较低,通常比较长【8 1 。 数据仓库的主要功能是提供企业决策支持系统( d e c i s i o ns u p p o r ts y s t e m , d s s ) 或行政信息系统( e n t e r p r i s ei n f o r m a t i o ns y s t e m ,e i s ) 所需要的信息,它 把企业日常营运中分散不一致的数据归纳整理之后转换为集中统一的、可随时取 用的深层信息,这种信息虽然也是按关系数据库的存储结构存储起来的,但与面 向逐条记录的联机事物处理( o l t p ) 不同,在数据仓库中的一条记录,有可能是基 础数据中若干个表、若干条记录的归纳和汇总。 数据仓库有4 个基本特点: ( 1 ) 数据仓库存储的信息是面向主题组织的。也就是说数据是按其自然属性 来进行组织的。主题通常是在一个较高层次上将数据归类的标准,每个主题对应 一个宏观分析领域。比如,在学生的学籍管理成绩系统中,数据常被组织成“学 生”、“课程”、“学生成绩”等关系模式,描述了各个学生、各门课程以及 1 0 长安大学硕士学位论文 学生学习各门课程的详细信息。而在数据仓库中,我们则要对学生、课程、学生 成绩进行综合分析,以便进行决策,因而应重新组织数据,完成业务数据向主题 数据的转换。主题的抽取则应根据分析的要求进行确定【9 1 。如针对学生成绩分 析数据仓库就可以设置以下主体:学生、课程、教师等。它根据所需要的信息, 分不同类别、不同角度等主题把数据整理之后存储起来( 按横向对数据进行分类 存储) 。 ( 2 ) 数据仓库中要有一处专门用来存储5 1 0 年或更久的历史数据的空间, 以满足比较、预测之用的数据需求( 按纵向数据进行分类存储) 。 ( 3 ) 不论数据来源于何处,进入数据仓库之后都具有统一的数据结构和编码 规则,数据仓库中的数据具有一致性的特点。 ( 4 ) 数据仓库是一个信息源,它只是为在其上开发的d s s 或e i s 等提供数据 服务,因此它是只读数据库,一般不轻易做改动,只能定期刷新。 数据仓库中的信息存储,是根据对数据的不同深度处理而形成不同层次。其 结构一般划分为5 个方面: ( 1 ) 历史性详细数据层它存储历史数据,供分析、建模、预测用。 ( 2 ) 当前详细数据层存储最新详细数据,是进行分析数据的基础。 ( 3 ) 不同程序的归纳总结信息层可包含多个层次,根据所需分类和归纳 的不同程度而定。如按周、月、年统计的数据。 ( 4 ) 专业分析信息层进一步的专业分析结果,如统计分析、运筹分析、 时间序列分析以及表面数据的内在规律分析等。 ( 5 ) 结构信息数据仓库的内部结构信息,反应各种信息在数据仓库中的 位置分布和处理方式等,以便检索查询之用。 2 1 3 数据仓库架构 一个数据仓库的大小一般都是在i o o g b 以上,因为传统的关系数据库技术是 针对o l t p ( 联机事务处理) 而发展的,所以并不适用于数据量大而且复杂度高 的数据仓库系统,我们需要用不同的方式来设计和开发一个数据仓库系统。 就架构面而言,一个数据仓库系统必须能够支持下列事项: 扩充一个数据仓库的数据 每天对数据仓库系统的管理和维护 第二章数据仓库与联机分析技术 克服用户添加需求的能力 扩充数据仓库数据是一个重要的程序,它的重点是在抽取数据、整理并转换 数据以及用适当的方式呈现给用户分析使用。一个数据仓库并不是一个只读系 统,虽然说事实数据转入数据仓库之后就不会加以更新,但是如果用户的需求改 变的话,譬如说他希望能够以不同的方式来浏览相同的分析结果,则仍然会修订 索引数据。 在一个数据仓库之中,每日对数据仓库系统的管理与维护工作与传统的 o l t p 系统完全不同,因为数据仓库的数据量远比o l t p 系统大得多,所以需要更 积极的管理方式,例如:添加或是删除集合数据、将数据仓库数据存入备存媒体、 由备存媒体加载数据等,因此,一个数据仓库是一个持续更新的系统,以迎合用 户新的管理决策需求。 : _ 。 克服用户添加需求的能力似乎是设计一个数据仓库系统最困难的工作,因为 每一个用户都有不同的需求。数据仓库系统除了能够允许更新现有的需求之外, 还应该可以增加新的分析主题。 。 _ 2 2 数据预处理技术 数据仓库的建设按照数据的不同性质,把它分为三个不同的部分,分别是: 源数据、数据准备以及数据呈现。现在讲的最多的o l a p 分析和决策支持等,都 , 是属于数据呈现的部分。但在数据仓库的软件结构设计中。;数据准备阶段需要对 多个异构数据源进行数据预处理后,才能得到最完整、最准确、最及时“鳝掬最 适合于数据仓库的数据,这是做出正确战略决策的根基。 由于数据库极易受噪声数据、空缺数据和不一致数据的侵扰。为了得到高质 量的数据,需要针对不同的情况,对数据进行各种转换后,采用一系列数据整理 技术,对现实中的脏数据进行整理即数据预处理。 数据预处理的内容与方法如下: 数据预处理主要包括数据清洗、数据集成与转换以及数据约简等。需要指出 的是,数据预处理是一项繁杂的工程,它所涉及的数据集成、转换、清洗、约简等 步骤是相互关联的,例如消除数据冗余既可以看作是数据清洗,也可以认为是数 据约简。 1 数据清洗 1 2 长安大学硕士学位论文 是指处理数据中的遗漏数据和脏数据,主要包括填补遗漏的数据、消除数据 中的噪声、剔除异常值以及纠正不一致数据等。 ( 1 ) 遗漏数据处理 1 ) 删除该记录:除非无法填补遗漏数据,一般不要轻易删除属性值缺失的记 录。 2 ) 手工填补:工作量大,可操作性差。 3 ) 采用默认值、平均值或者同类别平均值填补:这种方法有可能对数据挖 掘产生误导。 4 ) 通过回归分析、贝叶斯方法或决策树推断该记录特定属性的最可能取值: 这类方法最大程度地利用现有的数据信息来推测遗漏数据值,因而效果最好。 ( 2 ) 噪声数据处理 噪声是指被测变量的随机错误或偏差,包括错误的值或偏离期望的孤立点。 可以用以下技术来平滑噪声数据,识别和删除孤立点。 1 ) 分箱方法:将存储的值分布到一些箱中,通过考察“邻居”来局部平滑存 储数据的值。以采用按箱的平均值、中值或箱边界值进行平滑。 2 ) 聚类:类似的值组织成群或“聚类,落在聚类集合之外的值被视为异常 数据。对于异常数据,如果是垃圾数据,则予以清除,否则保留作为重要数据进行 孤立点分析。 3 ) 回归方法:用拟合函数来平滑数据,帮助除去噪声。例如:线性回归、多 元回归等。 4 ) 人机结合检查方法:首先由计算机识别并输出那些差异程度大于某个阈值 的数据,然后人工审核这些数据,确定孤立点。这种方法比单纯的人工检查要快。 ( 3 ) 不一致数据处理 通过数据与外部的关联手工处理,比如与原稿校对,或者采用软件工具来发 现违反约束条件的数据。 1 数据集成与转换 数据集成就是将来白多个数据源的异构数据整合到一个完整的数据集。数据 集成需要解决的问题包括: ( 1 ) 模式集成。主要是实体识别,即如何将不同信息源中的实体相互匹配。通 第二章数据仓库与联机分析技术 常借助于数据库或数据仓库的元数据定义来帮助模式集成。在集成时应尽量选择 占物理空间较小的数据,以节省系统存储开销。 ( 2 ) 冗余问题。若一个属性可以从其它属性推演出来,那么它就是冗余属性。 数据集成往往导致数据冗余,如同一属性多次出现、同一属性命名不一致等。利 用数理统计中的相关性分析方法可以检测数值属性是否相关( 正关联、负关联或 者相互独立) 。检查属性冗余之外,还要检测元组( 记录) 是否冗余。 ( 3 ) 数据冲突检测以及语义整合。现实世界中的同一实体,由于表示方式、度 量单位以及编码的不同,导致不同数据源的属性值可能有差异。数据语义上的模 糊性、歧义性是数据集成的难点,比如同名异义、异名同义等,目前还没有很好的 自动解决办法。 数据转换就是将数据转换成适合数据挖掘的形式。通过寻找数据的特征表示, 用维变换方式减少有效变量的数目或找到数据的不变式。数据转换主要是数据规 格化。规格化是属性值量纲的归一化处理,目的是消除数值型属性因大小不一而 造成挖掘结果的偏差,比如将工资值映射到一1 0 到1 0 范围内。对于神经网络、 基于距离的挖掘算法,只有进行数据规格化处理,才能确保挖掘的正确性,并且有 助于提高学习速度。常用的规格化方法有:最大最小规格化法、零均值规格化法 以及十基数变换规格化法等。另外,数据仓库中的切换、旋转和投影等操作也可 用于数据转换,生成不同抽象级别上的知识基。 3 数据约简 它是指通过聚类或删除冗余特征来消除多余数据从原有大数据集中获得一 个精简且完整的数据子集,节省挖掘时间和空间。数据约简的原则是:基本不影 响最终挖掘结果和所耗费的时间少于由此节省下来的数据挖掘时间。常用的数据 约简方法有: ( 1 ) 属性约简。它是指通过删除跟挖掘任务无关的或冗余的属性或维来减少 数据规模。 ( 2 ) 数据块约简。它是指通过选择较小的数据表示形式来替代原数据以减少 数据量。 ( 3 ) 离散化与概念分层。通过用较高层的概念替换原始数据或较低层的概念, 将属性域值分成若干区间,以此进行连续属性的离散化,大大地浓缩数据库记录。 1 4 长安大学硕士学位论文 此外,数据约简的其它方法还有:数据聚合( 如数z 据立方合计) 、数据压 缩( 如小波变换、主成分分析) 等6 1 。 2 3 数据仓库的e t l 过程 e t l 即数据提取、转换和加载,是数据仓库实现过程中,将数据由数据源系 统向数据仓库加载的主要过程。e t l 过程关系到数据的质量,是数据仓库应用的 基石。根据目前建设数据仓库的经验,这一过程一般占到整个过程时间的5 0 以上,因此,必须对e t l 给予充分的重视。 ( 1 ) 影响数据抽取、转换与装载的因素 数据格式 坏数据 系统的兼容性 数据源的变化 数据抽取的时间 ( 2 ) 数据抽取、转换与加载对策 全库比较 利用程序日志 利用数据库日志 利用时间戳或利用位图索引 ( 3 ) 数据仓库的数据清理转换方法 类型转换 串操作 数学函数 参照完整性 关键字翻译 聚集运算 基本数据:数据在数据仓库内被组织成一定的结构和形式,如星型结构或雪 花型结构,以利于快速连接、访问,它以事实表为核心,并由一系列与其( 主从 键) 相连的维表组成的。这是数据仓库的基本结构与存储内容,也是进一步产生 对于联机分析所需要的结构和数据的基础。 第二章数据仓库与联机分析技术 综合管理联机分析处理:在数据仓库的数据基础上采用联机分析的方法, 按照用户的需求输出分析结果。 2 3 1 数据提取 数据提取( 也称数据析取) 是指用手动、半自动或自动的方法从相关信息源 中抽取有关的数据并集成到数据仓库中。数据提取在数据仓库中起着重要的作 用。为了有效控制数据仓库的规模,数据仓库只装载对分析处理有用的数据,在 完成数据初始装载后,数据提取只关心与数据仓库应用有关的数据的变化,其它 数据则不予考虑。 根据数据源的不同,数据提取方式的具体实现可以分为相同数据库数据源的 数据提取、不同数据库数据源的数据提取和非数据库数据源的数据提取,下面分 别介绍这三种不同的方法: ( 1 ) 相同数据库数据源的数据提取:这种方法只需对数据库进行简单的导入 即可,后者采用批量加载的方式进行,也可以采用s o l 语句和存储过程来实现。 ( 2 ) 不同数据库数据源的数据提取:很多数据库管理系统和数据提取工具都 支持对其它种类数据库进行访问韵功能。以s q ls e r v e r 为例,分布式查询可以 访问来自多种异类数据源的数据,而且这些数据可以存储在相同或不同的计算机 上;数据转换服务在s o ls e r v e r2 0 0 0 中提供的服务是d t s ,而在s o ls e r v e r2 0 0 5 中提供数据转换服务的是i l :i t e g r a t i o ns e r v i c e s ,可以从不同源的数据提取、转 换、加载到到目的数据库。 ( 3 ) 非数据库数据源的数据提取:仍以s o ls e r v e r 为例,用于从文本文件 装载的b u l ki n s e r t 语句可以利用t r a n s a c t - - s o l 语句而不是命令行来实现b c p 实用工具的功能,将数据大量复制到s o ls e r v e r 数据库中。 当我们开始抽取数据的时候,所有的数据源都应该到达时间点的一致性,该 数据集合应该是一个能够反映当前所有状态的一个快照,它是一组单一的、一致 的事实数据的一个版本。 2 3 2 数据转换 数据仓库实现过程中,数据变换是不可缺少的。当数据从业务系统或其它数 据源取出后,应该经过变换或“清洗”,才能将它加载到数据仓库中。数据变换 目的有两个:改进数据仓库中数据的质量和提高数据的可用性。数据变换包括简 长安大学硕士学位论文 单变换、清洁、集成和聚集等。 ( 1 ) 简单变换:简单变换包括数据类型转换、日期时间格式的转换和字段解 码等。具体来说就是在原有的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工程咨询人才培训方案
- 织布机操作工职业考核试卷及答案
- 柔性版材生产工入职考核试卷及答案
- 汽车发动机机油的检测和添加教学设计-2025-2026学年中职专业课-汽车保养与维护-汽车运用与维修-交通运输大类
- 机器人视觉跟踪效率研究报告
- 有机废物回收利用研究分析报告
- 档案电子文件格式标准研究报告
- 医院联谊义诊活动方案策划
- 金融咨询义诊活动方案
- 园林绿化施工技术标准与实务指导
- 抛锚式教学模式课件
- 农产品营销课件
- 锚喷工入场安全教育试卷(含答案)
- DeepSeek+AI智能体医疗健康领域应用方案
- 2025至2030年中国玄武岩行业市场行情动态及发展前景展望报告
- 运输承运商管理制度
- 光伏支架系统培训
- CJ/T 233-2006建筑小区排水用塑料检查井
- 安全二级培训试题及答案
- (高清版)DB36∕T 2070-2024 疼痛综合评估规范
- 常见精神科药物的副作用及其处理
评论
0/150
提交评论