




已阅读5页,还剩95页未读, 继续免费阅读
(交通信息工程及控制专业论文)联网收费系统数据分析与挖掘的理论和实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着我国高速公路的快速发展,越来越多的联网收费系统已经建立起来。通 过联网收费系统可以获取大量的交通数据,然而用传统方法处理这些数据既费时 又费力,在这些大量的未分析或待分析的数据中有可能隐藏着许多有用的信息, 数据挖掘旨在从大量数据中发现这些有价值的信息。数据挖掘技术在商业领域中 己广泛使用,然而在交通领域的应用却极少。 本文针对莞深高速公司的具体情况,在n e t 框架下结合使用了数据预处理、 0 l a p 、数据仓库、数据挖掘等技术,实现收费数据分析系统。 本文通过对数据挖掘系统中数据预处理技术的学习,并参考国内外数据挖掘 系统在数据预处理方面的处理过程,设计了一个能在一定程度上满足需要的数据 预处理系统。本文所阐述的过滤异常值、去掉重复记录方法比较通用,能把数据 挖掘前需要准备的数据进行一定程度的和必要的清洗、转换,在一定程度上提高 了数据挖掘的质量和效率。 本文以数据仓库及其相关技术为出发点,主要致力于研究联网收费系统中的 决策支持,制定适合于收费数据分析方案。数据仓库是实现数据分析支持的基础, 在数据分析的实现上,作者通过两种途径来实现,即统计分析和数据挖掘,这两 者是数据分析的逐步深入。作者利用先进的技术实现了统计分析功能,即数据转 换、数据集市的建立和o l a p ( 联机分析处理) 展示。在对系统中数据挖掘技术的 研究上,作者综合考虑了分析工作的需求,选用了几种分类算法。 系统能够多角度分析展示大量的离线历史数据和在线实时数据,还可以对采 集到的数据进行挖掘和分析,并在企业局域网上实现信息共享,供企业各层管理 人员监控、查询和进行综合分析,以便有效地进行决策。该系统能够有效地帮助 企业高层管理人员对各种相关数据进行分析和预测。本文以实际工程为主线,以 实际收费数据为研究对象,对上述各项技术进行探讨。 经过实际生产的检验,证明该系统是提高管理信息化的有益尝试。论文结束 时还对该技术的发展趋势和前景进行了讨论。 关键词:数据挖掘;数据仓库;决策树分析;关联规则;时序分析;联网收费 系统 a b s t r a c t w i t hh i g h w a yr a p i d l yd e v e l o p c di nc h i n a ,m o r ea n dm o r ch i g h w a yn e t w o r k t o l l i n gs y s t e m sa r eb u 订d i n g i ti sv e r ye a s yt og c tam o u n to f 打a f f i cd a t a ; h 0 w e v c r , i tt a k e sb o t ht i m ca n de f f o n st od e a lw i t ht h e s cd a t ai nt h et r a d i t i o n a lw a y m a y b c , u s e f u ik n o w l e d g ei sc o n c c a l e dj nt h e s ed a t a d a t a + m i n i n gj s t of i n dy a l u a b l e i n f o 姗a t i o nf f o mt h cv a s t 锄o u n to fd a t a a tp r e s e n t ,d a t am i n i n gh a sb c c nw i d c l y u s c di nt h eb u s i n e s ss p h e r c ,b u th a r d l yu s c dd u r i n gt h ct r a f f i cc o n t f o ls y s t e m t h i st h c s i sd i s c u s s c st h eh i g h w a yn c t w o r kt o l l i n gs y s t e ma c c o r d i n gt ot h c c n v i f o n m c n t s0 ft h cg u a ns h e nc o r pa n dc a r r i e d0 u ta ni n t e g r a t c da n a l y t i c a ls y s t c m , o l a p d a t aw a r c h o u s ca n dd a t am i n i n gf o rt o u i n gs y s t c mu n d e rt h e n e tf r a m e w o r k t h i sp a p e rp a s s e sc o r r c c t l yt h cd a t ac x c a v a t ct h es “l d yo ft l 弓a n n e n tt e c h n o l o g y i na d v a n c eo fd a t ai nt h cs y s t e m ,a n dc o n s u l tt h cd o m c s t i ca n di n t c m a t i o n a id a t aa n d e x c a v a t et h cs y s t e m a t i cs t u d yo np r e t r e a t m e n tr e s p e c to ft h ed a t a ,h a v cs u m m a r i z e d d a t at h cp r o b l e mf a c c di np r o c c s ss y s t e md e v e l o p m e n ta n dd e v c l o p m e n tt f e n di n a d v a n c e ,h a v ed e s i g n c dap r o c e s ss y s t e mi na d v a n c co fd a n l mt h a tc a nm e e tt h cn c e d t oac c r t a i ne x t e n t i ti su n u s u a l l yw o n h ,r c m o v et h cr e p e a t c dr e c o r da l g o r i t h l nt o c o m p a r ei n t e r c h a n g e a b l y c h a tw h a tt h j st c x t c x p l a i n s l i 皿k st h e s t j p u l a t j o s , a s s c m b i e s ,f i l t c i s ,t h cd a t at h a tc a n e e dp l a n n i n gb c f o r ce x c a v a t i n gt h cd a t ac a r r y o nac e r t a i nd e g r c ea n de s s c n t i a lw a s h i n g ,c o n v c r s i o n ,h a v ci m p r o v c dq u a l i t ya n d c f f i c i c n c yt h a tt h ed a t ae x c a v a t et oac c r t a i ne x t e n t r e g a r d st h ed a t aw a r c h o u s ea n dr c l e v a n tt e c h n o l o g ya st h es t a r t i n gp o i n t ,t h i s p a p e ri sd e v o t e dt of e s e a r c h i n gt h eo l a pf u n c t i o nf o rt h e ”t h eh i g h w a yn e t w o r k t 0 1 1 i n gs y s t c ma c c o r d i n gt ot h ee n v j r o n m e n t so ft h eg u a ns h e nc o f p ”,a n dt r yt o m a k et h co l a pw h i c hi ss u i t a b l cf o rt h i ss y s t e m d a t aw a f e h o u s ci st h eb a s eo f r e a l i z i n gd c c i s i o ns u p p o f t t h ea u t h o rr c a l i z e dt h eo l a pt h r o u g ht w ok i n d so f w a y s ,n a m e l ys t a t i s t i c a la n a l y s i sa n dd a t am i n i n g t h e s ct w 0c a nb er c g a r d c da st h c s t e p w i s ed c c p c n i n gi nd c c i s i o ns u p p o r t t h ca u t h o ru s e ds o m ea d v a n c c dt c c h n o l o g y t or c a l i z es t a t i s t i c a ia n a l y s i s ,n a m e l yd a t af r a c t i o n ,b u i l d i n gt h ed a t am a f ka n d o l a ps h o w :l nt h e1 c s e a f c ho fd a f aa u t h o rc o n s j d c r e dt h en e e do fr o a dc l e r i c a lw o r k s y n t h c t i c a i ly s e i e c t ss o m ec l a s s i f i c a t i o na 1 9 0 f i t h m s i n t c g r a t e da p p l i c a t i o no fd a t ap r e p r o c e s s i n g 、0 l a p 、d a t aw a r eh o u s ea n dd m t e c h n i q u ce n a b l e dt h es y s t c mt oa n a l y z em a s so f f l i n eh i s t o r yd a t ab ym u l t ip o i n to f v i c w ,a sw c i la so n l i n er e a lt i m ed a t a s y s t e ma l s oa n a l y s e st h cc o l l e c t c dd a t aa n d n s h a r e st h ei n f o r m a t i o nb yl a nf o ra nl c v e lo fm a n a g e r st oc o n t r o l ,i n q u i r ea n dm a k e m o r cc f f i c i c n c yd e c i s i o n s t h es y s t e mc a nh e l pt h cm a n a g e rl a y c ro fc o r p o r a t i o nt 0 c o n t r o la n da n a l y z ea n dp r e d i c t i o nr c l a t e dd a t am o f ce f f i c i e n c y t h i st h e s i si sb a s e d o nar e a lp r o j c c ta n dt h et o l l i n gd a t ai sr e g a r d e da sr e s e a r c ho b j e c t ni sp r o v e dt h a tt h i ss y s t e mi sab c n e f i c i a la t t e m p tt oe n h 蛆c et h ci n f o f m a t i o n o fm a n a g c m c n lt h r o u g ht h ee x a m i n a t i o n0 fp r a c t i c a lp r o d u c t a n dt h ep r o s p c c ta n d t r e n do ft h e s ct e c h n i q u e si sd i s c u s s e da tt h ec n do ft h i sp a p c l k e yw o r d s :d a t am l n i n g ;d a t a ,a r e h o u s e ;d e c i s i o n 1 r e ea n a l y s b ;a s s o c i a t l o n r u l e s ;t i m es e r i e s ;n e t w o r kt o n i n gs y s t e m m 长沙理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名:计之螬日期:1 年r 月一寸日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权长沙理工大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于 1 、保密口,在年解密后适用本授权书。 2 、不保密囹。 ( 请在以上相应方框内打“”) 作者签名:研己q 导师签名:乩5 摹旄 日期:o ,一年j 1 月。口日 日期:凸刁年,月矽日 1 1 课题研究的背景 第一章绪论 随着我国高速公路事业的高速发展,许多省市都已形成了覆盖全省的高速公 路网。原来“一路一公司”,相邻路段连接处都设主线收费站的管理模式带来了 收费站过多过密、停车次数多的问题,严重制约了高速公路的通行能力,且增加 了高速公路营运部门的建设和营运成本。为减少高速公路路网中众多不合理的主 线收费站问题,以提高高速公路使用效率、服务质量和减少环境污染,国家的相 关政策法规要求各省市根据实际情况逐步实现区域、省或跨省市联网收费。联网 收费是智能运输系统( i t s ) 解决因收费带来许多负面影响的重要手段。目前,国 内许多省份已经在不同程度上开展了高速公路联网收费的系统规划、设计和实 施,联网收费的范围在不断扩大。 莞深高速公路公司是连通东莞到深圳的重要运输干线,由于其联网收费的范 围很大,车流量很多,而所有的车流量数据都要实时汇集到联网收费中心的数据 库中,因此联网收费中心汇集了大量数据。这些数据以记录的形式存在,每一条 记录都对应了一辆车的出入口信息,显然,这些出入口数据中隐藏着大量的交通 流信息、收费信息和其它相关信息,这些信息具有及时、准确的特点,有巨大的 使用价值。因此,以联网收费中心汇集的收费数据为基础,研究如何从大量的收 费历史数据中挖掘某些规律和信息,并利用这些规律和信息为高速公路的营运 者、管理者、使用者以及非交通部门提供信息和决策支持,是很有价值的工作。 数据挖掘( d a t am i n i n g ) 是从大量的、不完全的、有噪声的、模糊的、随机的 实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信 息和知识的过程。信息爆炸带来的问题促使数据库技术进一步发展,从而产生了 数据挖掘技术。数据挖掘运用多种现代的技术方法( 决策树、神经网络、覆盖正 例排斥反例、遗传算法、公式发现、统计分析、模糊集和可视化技术等) ,实现 了对数据的有效的深层次分析。运用统计、数据挖掘、最优控制理论和交通分配 等理论和方法,对联网收费中心收集的数据进行处理,可提取大量的收费道路运 营与管理者服务方面、“公众”服务方面和“政府、科学研究”服务方面所需要 的规律信息,并用这些规律信息为高速公路的营运者、管理者、使用者以及非交 通部门提供信息和决策支持,从而可更有效的提高收费道路的运营管理及服务管 理水平。 1 2 课题研究的任务和意义 本课题来源于“莞深高速收费数据分析系统”项目。 本项目研究的任务: ( 1 ) 分析如何在业务系统基础上建立基于数据仓库、联机分析处理和数据挖 掘的收费道路数据分析系统,及对其理论和方法进行深入的探讨; ( 2 ) 通过本研究建立的收费道路数据分析系统,说明在我国收费道路数据系 统中建立数据仓库的基本步骤; ( 3 ) 将o l a p 技术引入到收费道路数据分析领域,利用0 l a p 工具使用户能 够从不同的角度观察、比较车流量数据以及利用各种数据挖掘分析法预测车流量 走向和行驶时间; ( 4 ) 通过数据挖掘来挖掘车型与收费站之间、收费站与收费站之问的关联规 则有,以便管理者了解各种车形流量的走势及与出入口站之间的关系,从而做出 正确的运营决策。 本项目研究的意义:随着我国加入w t o ,以及世界经济呈现化的特点,我 国企业所面对的环境将更加复杂,企业面对的竞争也更加激烈。这要求我国的企 业使用更为先进的决策技术、管理方法应对复杂的环境。收费道路管理受多方面 因素影响,收费道路公司的经营对数据的正确性、实时性和安全性的要求极高。 对收费道路公司来说,无论是内部自营业务还是外部行驶司机都需要非常及时地 取得各种信息,由此,建立基于数据仓库、联机分析处理和数据挖掘的收费道路 数据分析系统具有现实的意义。 1 3 国内外研究现状 1 3 1 数据挖掘技术国内外研究现状综述 1 ) 国外数据挖掘现状 随着k d d ( 知识发现) 在学术界和工业界的影响越来越大,国际k d d 组委会 于1 9 9 5 年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届 k d d 国际学术会议,以后每年召开一次。近年来,k d d 在研究和应用方面发展 迅速,尤其是在商业和银行领域的应用比研究的发展速度还要快。目前,数据挖 掘在理论研究和实践应用上都取得了很大的成绩【1 t 2 j 。 1 、算法方面:数据挖掘在理论研究方面的热点阿题是数据挖掘算法的设计 和针对大规模数据集存取的优化方法。算法研究的重点主要集中在如下几个方 面:关联规则发现算法、聚类方法、分类方法、偏差监测和预测等。 2 、原型系统:在对数据挖掘实用算法研究的同时,研究人员对于数据挖掘 系统体系结构的研究也越来越多1 3 t 4 t 5 t6 1 。 2 3 、应用软件:数据挖掘工具按应用范围的不同可以分为专用数据挖掘工具 和通用数据挖掘工具两类。其中,专用数据挖掘工具针对某个特定应用领域的数 据特征和具体需求,在算法设计和系统结构等方面进行优化。如针对军事领域的 a d v a n c e ds c o u t 系统、针对天文学的s k l c a t 系统、针对网管的t a s a 系统、针 对健康保健的k e f i r 系统等。通用数据挖掘工具则通过分析提取常规应用的共 性,面对常见的数据类型和任务要求开发具有较广适用范围的应用软件。如l b m 公司i m a d e n 研究所开发的q u e s t 系统、s g l 公司开发的m i n es e t 系统、 s i m o n f r a s t e :大学开发的d b m i n c r 系统l 7j 等。 ( 2 ) 国内数据挖掘现状 与国外相比,国内对数据挖掘的研究起步稍晚,且没有形成整体力量。1 9 9 3 年国家自然科学基金首次支持对该领域的研究项目。目前,国内从事数据挖掘研 究的人员主要在大学,也有部分在研究所或公司。国内许多科研单位和高等院校 竞相开展数据挖掘的基础理论及其应用研究,这些单位包括清华大学、中科院计 算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研 究所对模糊方法在知识发现中的应用进行了较深入的研究:北京大学也在开展对 数据立方体代数的研究;华中理上大学、复旦大学、浙江大学、中国科技大学、 中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造; 南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知 识发现以及w c b 数据挖掘。所涉及的研究领域很多,一般集中于学习算法的研 究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数 研究项目是由政府资助进行的,如国家自然科学基金、8 6 3 计划、“九八五”计 划等,至今只有很少的国内数据挖掘产品报道。 1 3 2 信息化技术在高速公路的研究现状综述 1 3 2 1 国外研究现状 ( 1 ) 美国注重i t s 安个设施的建设 目前,美国在i t s 领域独树一帜,根据本国的交通基础设施特点和实际需要, 已建立起相对完善的车队管理、公交出行信息、电子收费和交通需求管理等四大 系统及多个子系统和技术规范标准。其中建设和发展较快的分别是:车辆安全系 统占( 5 1 ) 、电子收费占( 3 7 ) 、公路及车辆管理系统占( 2 8 ) 、实时自动定位系 统占( 2 0 ) 、商业车辆管理系统占( 1 4 ) 。“9 1 1 ”恐怖事件引发了美国政府和交 通界人士的反思,认为t t s 应该而且能够有效预防恐怖袭击,加强基础设施和 出行者的安全,并可以用于评价灾难的程度和加快交通的恢复,实现快速疏散和 隔离。因此,美国l t s 今后的建设趋势之一就是研究i t s 在美国安全体系中维护 地面交通安全的作用,重点将集中在安全防御、用户服务、系统性能和交通安个 3 管理方面。 ( 2 ) 日本注重i t s 诱导设施的建设 在日本,建设省组织了以车田公司为首的2 5 家公司联合研究开发自动公路 系统( a h s ) 。近几年,日本还投入1 5 亿日元开发了全国公路电子地图系统,打 开了车辆电子导航市场,已经有近4 0 0 万套车内导航系统在市场上应用。比如, 针对人多地少、城市道路狭窄、两侧高楼林立形成的城市峡谷对g p s 号的遮挡, 日本采用了信标作为信息发布的重要手段,并开发双向信标设备,这在世界上独 树一帜,处于先进水平。目前,日本的i t s 建设主要集中在交通信息提供、电子 收费、公共交通、商业车辆管理以及紧急车辆优先等方面。 ( 3 ) 欧洲注重i t s 基础平台的构建 欧洲在l t s 建设方面的进展,介于日本和美国之间。日前正在进行t c l e m a t i c 的全面应用开发工作,计划在全欧洲范围内建立专门的交通( 以道路交通为主) , 无线数据通信网,i t s 的主要功能如交通管理、导航和电了收费等都围绕 t e l e m a t i c 和全欧洲无线数据通信网来实现。目前,重点开发先进的旅行信息系 统( a t i s ) 、车辆控制系统( a v c s ) 、商业车辆运行系统( a c v o ) 、电了收费系统等 方面。 1 3 2 2 国内研究现状 ( 1 ) 电子地理信息系统( g i s ) 地理信息系统( g i s ) 是集现代计算机科学、地理学、信息科学、管理科学和 测绘科学为一体的一门新兴学科。它采用数据库、计算机图形学、多媒体等最新 技术,对地理信息进行数据处理,能够实时准确地采集、修改和更新地理空间数 据和属性信息,为决策者提供可视化的支持。地理信息系统突破了常规关系式数 据库管理的概念,集图形管理与数据管理于一身,具有很强的空间表现力,它将 空间数据处理、属性数据处理、空间分析与模型分析与计算机技术紧密结合,通 过数据准备、系统建立、空间分析与模型分析,产生对资源环境、区域规划、管 理决策、灾害防治等有用的言息。目前g i s 技术在很多领域中已被广泛应用, 尤其是在公路管理中,g i s 与传统的交通信息分析和处理技术紧密结合,延伸出 了公路地理信息系统。在公路的规划与设计、养护管理等方面具有较强的应用价 值f 引。 ( 2 ) 图像处理技术 图像处理在i t s 领域中扮演着极其重要的角色,具有广泛的应用价值。驾驶 员通过视觉可以获得9 0 以上的环境信息,例如交通标志、交通信号、车道线、 道路形状、车辆、道路标记、障碍物等。目前在道路交通自动控制中普遍使用的 “电子眼”设备就是一种图像处理应用的典型例子l9 1 。图像处理在i t s 领域的 4 应用可追溯到6 0 年代末7 0 年代初的基于视觉的移动机器人的研究。但图像处理 ( 尤其是实时图像处理) 的计算量非常大,而当时的计算能力十分有限,最初的热 情在几年后就消退了,只有少数几个研究小组在继续这方面的研究。随着技术的 不断发展,目前的计算机硬件水平为图像处理在i t s 领域中的广泛应用提供了可 能。一方面,处理器和存储器的价格不断下降的同时。商用计算机的体积不断变 小,而性能有了显著的提高。例如,目前的商用笔记本就足以满足实时图像处理 的要求;另一方面,c c d 摄像头费用低廉,体积小。例如,德国b e n :公司的 v i t ai i 系统使用了1 8 个c c d 摄像头。此外,图像处理具有算法柔性大和适应 能力强等特点,几乎可以用于所有的l t s 相关应用。因此,图像处理在i t s 领域 中的应用前景广阔。 ( 3 ) 数据挖掘技术 随着国内高速公路信息化的进程,国内高速公路积聚了很多的交通信息,对 这些信息进行处理分析和挖掘很有显著意义,也有一些相关的研究,包括:收费 系统营运数据仓库的研究;客户关系管理的研究等。但都没有形成实际效果,开 发出成型产品,且没有深入下去,处于探讨和理论研究阶段。即还处于只把数据 集合起来建成数据仓库,而如何对这些数据进行深入挖掘,发现其中的潜在规律 等探讨很少。 1 4 论文结构 本文共八章,介绍了课题的相关背景资料、数据仓库和数据挖掘的基础概 念,分析了收费道路数据分析系统的设计和实现过程。各章主要内容如下: ( 1 ) 绪论 对课题研究背景、课题研究任务以及论文的内容组织作了一整体性介绍。 ( 2 ) 理论基础 简单地介绍了数据仓库技术和数据挖掘等方面的概念和理论,为全文的理论 基础。 ( 3 ) 需求分析和总体设计 在项目的建设背景、需求调研分析的基础上、研究了系统的结构设计、设计 原则、工具的选择、系统的开发环境等问题。 ( 4 ) 数据预处理 研究了如何对原始数据进行处理生成数据仓库,其中包括数据抽取、数据清 理、数据集成等方面内容,重点数据预处理。 ( 5 ) 多维数据分析 研究了对出口数据、入口数据、收费员考核数据进行多维分析方法,包括数 据钻取、切片、旋转等操作,以及图形化界面。 5 ( 6 ) 收费数据挖掘 研究了对收费数据进行挖掘的方法,主要运用了时序算法、决策树算法、关 联规则算法对车流量预测,0 d 站旅行时间预测,以及出入口站、车型、时间段 等属性之间的潜在关联规则。 ( 7 ) 系统实现 研究了在w e b 上架构本系统,对系统的后台管理、电子地图、以及数据分 析挖掘等实现情况进行了展示。 ( 8 ) 结论和展望 对基于联网收费数据上的分析系统开发进行了总结,包括研究的收获、创新 点,系统存在的不足以及前景展望等。 6 第二章理论基础 在联网收费系统中如何有效地管理和利用在运营中产生的大量数据和信息 一直是信息系统工程人员面临的重要课题。本章将介绍一些基本概念和理论,包 括:关于数据仓库、数据挖掘和s q l s e e r2 0 0 5 工具的介绍。为全文提供了理 论基础。 2 1 数据仓库技术 2 1 1 数据仓库技术的定义 数据仓库技术是近年来计算机学科的技术热点之一,它在生产实践中的应用 取得了明显的经济效益,体现了强大的竞争活力。随着数据库技术的应用和发展, 人们尝试对数据库中的数据进行再加工,形成一个综合的,面向分析的环境,以 更好支持决策分析,从而形成了数据仓库技术( d a t aw a r e h o u s i n g ,简称d w ) 1 们。 1 9 9 3 年w h i n m 彻在其论著b u i l d i n gt h cd a t aw a r e h o u s c 首先系统地阐 述了数据仓库的思想、理论,为数据仓库的发展奠定了历史的基石。他将数据仓 库定义为:“一个面向主题的、集成的、随时间变化的、非易失数据的集合,用 于支持管理层的决策过程”【1 1 ,1 舶。 数据仓库技术到9 0 年代中期已经形成潮流,在美国,已成为仅次于i n t e l l l e t 之后的又一技术热点。数据仓库是市场激烈竞争的产物,它的目标是达到有效的 决策支持。大型企业几乎都建立或计划建立自己的数据仓库,数据库厂商也纷纷 推出自己的数据仓库软件。目前,己建立和使用的数据仓库应用系统都取得了明 显的经济效益,在市场竞争中显示了强劲的活力。 2 1 2 数据仓库的特点 数据仓库将大量用于事务处理的传统数据库数据进行清理、抽取和转换,并 按决策主题的需要进行重新组织,然后形成统一的存储格式,最终为用户特别是 决策支持者提供对公用数据的访问支持。 数据仓库虽然还没有正式形成统一的定义,但以上观点都或多或少地指出了 数据仓库有以下几个特点:数据仓库中的数据是面向主题的、集成的、不可更新 的( 稳定的) 、随时间不断变化的,建立数据仓库的目的是为了更好的支持决策的 制定。 ( 1 ) 面向主题 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归 7 类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所 涉及的分析对象,是针对某一个决策问题而设置的。面向主题的数据组织方式, 就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述,能完 整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系 1 1 3 l 。 目前,数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或逻 辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上是一 致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可能会增 加一些数据冗余。 ( 2 ) 集成的数据 数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,但并不是 原有数据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能直接从 原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水账,这 些数据不适于分析处理,在进入数据仓库之前必须经过综合、计算,抛弃分析处 理不需要的数据项,增加一些可能涉及的外部数据。其二,数据仓库每一个主题 所对应的源数据在原分散数据库中有许多重复或不一致的地方,必须将这些数据 转换成全局统一的定义,消除不一致和错误的地方,以保证数据的质量。否则, 对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决 策。 , 对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。 ( 3 ) 数据不可更新 从数据的使用方式上看,数据仓库的数据不可更新,这是指当数据被存放到 数据仓库中以后,最终用户只能通过分析工具进行查询、分析,而不能修改其中 存贮的数据,也就是说,数据仓库的数据对最终用户而言是只读的1 1 5 】。由于数 据仓库的查询数据量往往很大,所以对数据查询、查询界面的友好和数据的表示 提出了更高的要求,因为对数据仓库进行查询分析的用户多是企业的高层领导, 他们是所在领域的专家,但对计算机却不一定熟悉。 从数据的内容上看,数据仓库存贮的是企业当前的和历史的数据,在一定的 时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、查 询率低数据的需要从数据仓库脱离到廉价慢速设备( 如磁带) 上,对分析处理不再 有用的数据需要从数据仓库中删除。但这些工作是由系统管理员来做,或由系统 自动完成。因此,也可以说数据仓库在一定时间间隔内是稳定的。 ( 4 ) 数据随时间不断变化 w m o r o n 曾经指出:“数据仓库中每个数据单位都与时问相关”【1 6 j 。数据仓库 数据的不可更新是针对应用而言,即用户进行分析处理时不对数据进行更新操 8 作,但不是说,数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间 变化而定期地被更新,每隔一段固定的时间间隔后,运行数据库系统中产生的数 据被抽取、转换以后集成到数据仓库中,而数据的过去版本仍被保留在数据仓库 中,如同“定期摄影术”,每隔一周、一月或适当的间隔就照一张像;随着时间 的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求;当数据超 过数据仓库的存储期限,或对分析不在有用时,这些数据将从数据仓库中删去。 数据仓库的结构信息、维护信息保存在数据仓库的元数据中,数据仓库维护 工作由系统根据元数据中的定义自动进行,或由系统管理员定期维护,用户不必 关心数据仓库如何被更新的细节。 2 1 3 数据仓库的组织结构 一个典型的数据仓库的数据组织结构如图2 1 所示。 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 高度综合级。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进 一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节 级。由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。粒度 越大,表示细节程度越低,综合程度越高1 1 1 7 l 引。 数据仓库中还有一种重要的数据一一元数据( m e t a d a t a ) 。元数据是“关于数 据的数据”,如在传统数据库中的数据字典就是一种元数据1 1 9 】。在数据仓库环境 下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元 数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在 数据仓库中是用来和终端用户的多维商业模型前端工具之间建立映射,此种元 数据称之为d s s 元数据,常用来开发更先进的决策支持工具【2 0 ,2 。 国 图2 1d w 数据组织结构图 数据仓库中常见的数据组织形式有: 9 囤囤 圈 圈 1 简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存储起 来。 2 轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一个 星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记 录在周数据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同 理,周数据集达到五个后,数据再一次被综合并一记入月数据集。以此类推。轮 转综合结构十分简捷,数据量较简单堆积结构大大减少。当然,它是以损失数据 细节为代价的,越久远的数据,细节损失越多。 3 简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库快 照,比如每隔一星期或一个月作一次。 4 连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件,它 是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接 文件也可生成新的连续文件。 对于各种文件结构的最终实现,在关系数据库中仍然要依靠“表”这种最基 本的结构。 2 1 4 数据仓库的关键技术 ,数据仓库的实现与应用是一项复杂的任务,每个环节都需要相应的技术支 持,在创建数据仓库系统时需要数据清理与转换技术,在对数据仓库中的数据进 行管理时需要多维数据存储组织、索引优化等技术的支持;在利用前端工具进行 分析处理时需要视图维护、视图选择等技术的支持。 1 数据的清理与转换 在构建数据仓库中,需要从各种数据源中导入大量数据。这些数据的来源渠 道各不相同,存在字段的同名异义、异名同义、量纲不统一、字段长度不一致、 同一对象在不同数据源中的表示各异等数据质量问题。使得应用于数据仓库前端 的决策支持系统产生错误的分析结果而误导决策,影响信急服务的质量。因此构 造数据仓库的一个重要任务就是通过数据清理与转换,保证数据的一致性与正确 性。 所谓数据转换,就是数据组织形式的转换。即有关模式的命名冲突、结构冲 突、模式的唯一性、完整性约束等问题的处理,它从模式级上解决数据质量问题。 而数据清理就是对数据源中值的不同表示或对值的不同解释等问题的处理,它从 实例级上解决数据质量问题。模式上存在的问题通过实例体现出来,这些问题通 过模式转换和集成得以解决。实例上的问题涉及到实际数据内容的错误和矛盾, 这些问题在模式级是不可见的,但这些问题的解决对于高效地使用数据仓库又是 必不可少的。因此在建造数据仓库的过程中一个基本任务就是对加载到仓库中的 1 0 数据进行数据清理。 数据清理的基木思想就是利用数理统计、数据挖掘或用户预定义的清理规则 将“脏”数据转换成一致、正确的满足要求的数据,数据清理活动包括数据的映 射( m a p p i n g ) 、匹配( m a t c h i n g ) 和合并( m c r g i n p u f g i n g ) ,通过映射将数据格式标 准化。通过匹配发现近似重复的对象,通过合并生成一个完整的描述对象的记录。 数据清理的关键是近似重复对象的识别,近似重复对象是指表现形式不同但语义 上相同的对象。从狭义的角度来看,如果两条记录在某些字段上的值相等或足够 相似,则认为这两条记录互为近似重复。 2 数据仓库的设计 数据仓库多采用雪片模式。其优点是可以方便地组织层次结构数据,体现维 的不同粒度的划分,通过最大限度地减少数据存储量以及把较小的标准化表联合 在一起来改善查询功能。 3 数据仓库存贮与管理 数据仓库不同于数据库,它存储的主要是历史数据,这些数据必须通过数据 抽取、集成后存放到数据仓库,形成明细数据,不同级别综合数据按照不同汇总 粒度计算获得,并且加上时间戳,如何对其进行有效的管理是数据仓库要解决的 重要问题之一。 4 并行处理技术 为提高查询速度和响应时间,需要采用并行处理技术,它包括数据的并行加 载、查询的并行执行、查询与数据加载的并行等。 5 索引优化技术 索引建立的好坏直接影响访问效率,索引查找是优化查询响应时间的重要方 法,因而它在数据仓库中得以系统地应用,以提高数据仓库的处理能力,在数据 仓库环境下,位图索引优于b 树索引,但随着基数的增加,位圈索引存在不可 克服的缺点,如何高效地建立数据仓库的索引,提高查询性能,从整体上使系统 得到优化是需要进一步研究和探讨的问题。 2 1 5o l u 技术 数据仓库是一种管理决策分析的基础,若要有效地利用数据仓库的信息资 源,须有强大的工具对数据仓库中的信息进行分析决策。o l a p 就是一个得到广 泛应用的数据仓库使用技术。 o l a p 专门用于支持复杂的决策分析,支持信息管理和业务管理人员决策活 动的一种决策分析工具。它可以根据分析人员的要求,迅速、灵活地对大量数据 进行复杂的查询处理,并且以直观的、容易理解的形式将查询结果提供给各种决 策人员,使他们迅速、准确地掌握企业的运营情况,了解市场的需求。 o l p 技术主要有两个特点:一是在线性( o n 1 i n e ) ,表现为对用户请求的快 速响应和交互式操作,它的实现是由客户机服务器体系结构完成的:二是多维 分析( m u l t i _ a n a l y s i s ) ,这也是o l a p 技术的核心所在【2 扎。 o l p 的多维分析是指对多维数据集中的数据用切片切块( s l i c c d i c e ) 、钻取 ( d r i l l ) 、旋转( r o t a t e ) 等方式分析数据,使用户从多个角度、多个侧面去观察数据 仓库中的数据【2 3 1 。这样才能深入地了解数据仓库中数据所蕴涵在后面的信息, 才能使用户深入地挖掘隐藏在数据背后的商业模式。 一 1 、切片切块 切片是在多维数据集的某一维上选定一维成员的操作。维是观察数据的角 度,切片的作用就是舍弃一些观察角度,使人们能在两个维上集中观察数据。切 块是在多维数据集的某一维上选定某一区间的维成员的操作。切块可以看成是由 多个切片叠加起来,他们的作用相似。 2 、钻取 钻取是改变维的层次,变换分析的粒度。包括上卷( r o t l j p ) 、下钻( d r i l l d o w n ) 、 钻过( d r i n a c r o s s ) 和钻透( d f i l l r o u g h ) 四种操作。其中上卷有两种方式,一种是沿 着一个维层次向上归约,如把本来以月为单位统计的车流量清况上卷为以年为单 位统计的车流量情况,另一种是在多维展现中去掉一维或几维,使数据在剩下的 维上聚集;下钻是上卷的逆操作,也有对应的两种情况:钻过是指对多个事实表 进行查询;钻透是指对立方体进行操作时,利用数据库关系,钻透立方体的底层, 进入后端的关系表。 3 、旋转 旋转就是改变维的方向,把某一行维移到列维或是把页面中的维和页面外的 维进行交换。 o l a p 不同于传统0 l t p 软件的两层结构,而是三层结构,第一层解决数据 的多维数据存储问题,第二层是0 l a p 服务器,它接受查询并提取数据,第三 层是前端软件。这种结构的优点在于将数据逻辑、分析逻辑和表示逻辑严格分开, o l a p 服务器综合数据仓库的细节数据,满足前端用户的多维数据分析的需要 【2 4 l 。 2 2 数据挖掘技术 2 2 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) ,也叫数据开采,数据采掘等,就是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事 先不知道的、但又是潜在有用的信息和知识的过程1 2 5 1 。 企业里的数据量非常大,而其中真正有价值的信息却很少,因此从大量的数 据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘 金一样,数据挖掘也因此而得名。这种新式的商业信息处理技术,可以按商业既 定业务目标,对大量的商业数据进行探索和分析,揭
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年茶盘行业研究报告及未来行业发展趋势预测
- 2025年鹅的饲养行业研究报告及未来行业发展趋势预测
- 2025年切削电动工具行业研究报告及未来行业发展趋势预测
- 2025年化学原料和化学制品制造行业研究报告及未来行业发展趋势预测
- 2025年苏绣行业研究报告及未来行业发展趋势预测
- 2025年雪套套脚行业研究报告及未来行业发展趋势预测
- 2025年保健辅助治疗器材零售行业研究报告及未来行业发展趋势预测
- 合租商铺协议合同书范本
- 同城转让养生馆合同范本
- 农业新纪元:安全与可持续
- 2025四川成都农商银行招聘综合柜员岗4人模拟试卷带答案详解
- 年产8万吨DN900-DN1600mm球墨铸管项目可行性研究报告
- 幼儿园手工介绍课件
- 2025年湖南省中考地理试题(解析版)
- 弱电工程维保合同
- 产后康复师培训课件
- 新加坡数学教学课件
- 宫颈癌术后的护理
- 数据中心设备进场计划及保证措施
- 儿童心理健康:焦虑症与抑郁症
- 肿瘤内科教学课件
评论
0/150
提交评论