已阅读5页,还剩52页未读, 继续免费阅读
(计算机软件与理论专业论文)空间数据挖掘在交通量调查管理系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在飞速发展的现代社会中,人们对发展智能交通的需求日益强烈。随着g i s ( g c o g r a p h i c i n f o r m a t i o ns y s t e m ) 技术和数据采集技术的发展,数据量越来越大,已拥有了庞大的空间交通数据, 其中大量的原始数据可能隐藏着一些未知的知识,它们的价值亟需挖掘。如何充分利用这些空间 数据,如何从这些数据中获得有效的知识正是数据挖掘所要解决的问题。因此,数据挖掘成为本 课题研究的一个重要内容。 本课题利用数据仓库e t l 技术转化和分析从多种采集平台得到的各种空间数据,建立了一套 综合的多功能省级交通量调查管理系统的空间数据仓库,研究了交通量调查管理系统的空间数据 仓库的模型设计和多维数据集的建立,并提出了利用o l a p 技术对多维数据集进行分析,利用空 间数据挖掘k - m e a n s 聚类算法技术对道路数据进行分析,从而建立了交通量信息中隐含的道路空 间分布模式。根据系统实际情况,继续研究预测模型的建立,并且分析和应用这些预测结果。本 研究在智能交通系统的区域交通信号控制、动态交通分配以及路径诱导等方面具有重要的应用价 值。 本课题对交通量调查管理系统的关键技术进行了详细研究与设计,主要研究内容如下: ( 1 ) 研究了空间数据仓库的概念、结构及其实现流程,多维数据模型和联机分析处理( o l a f ) 的技术特点,以及聚类数据挖掘方法的基本原理。 ( 2 ) 研究建立多维数据集并对数据仓库进行联机分析处理( o l a f ) ,重点分析了月交通数据多 维数据集。最后对数据仓库进行数据挖掘操作,以月交通数据事实表为基础,用聚类的方法,挖 掘出了某段时间内月交通流数据的一些交通特征,为道路管理施工、公众出行等提供了依据,并 基于此构建交通量预测模型,对其预测结果进行分析和应用。 ( 3 ) 研究了交通量调查管理系统的方案、系统结构框图、并提出了实现系统的技术思路以及系 统设计的依据。 关键词:空间数据仓库,e t l ,联机分析处理( o l a p ) ,数据挖掘,聚类分析 a b s t r a c t i nm o d e m s o c i e t yw h i c hi sr a p i d l yd e v e l o p e de v e r yd a y ,t h e r ei si n c r e a s i n g l ys t r o n gd e m a n df o r d e v e l o p i n gi n t e l l i g e n tt r a n s p o r t a t i o n a l o n gw i t ht h ep r o g r e s so fg i st e c h n i q u ea n dd a t ac o l l e c t i n g t e c h n i q u e , d a t av o l u m ei sb e c o m i n gb i g g e ra n db i g g e r a sar e s u l t ,t h e r eh a sb e e nah u g ea m o u n to f s p a t i a lt r a f f i cd a t a ,o fw h i c hs o m eu n k n o w ni n f o r m a t i o ni sh i d d e ni nt h el a r g en u m b e r so fp r i m a r yd a a n dv a l u eo fw h i c hi su r g e n t l yr e q u i r e de x p l o i t i n g h o wt om a k ef u l lu s eo ft h o s es p a t i a ld a t aa n dh o w t og e tv a l u a b l ei n f o r m a t i o nf r o mt h o s ed a t ai se x a c t l yw h a td a t am i n i n gi sd o i n g t h e r e f o r e , r e s e a r c h a n da p p l i c a t i o no f d a t am i n i n gh a sb e e nd o n ei nt h i sp a p e r b a s e du p o nv a r i o u ss p a t i a ld a t aw h i c ha 托a c q u i r e df r o mav a r i e t yo fc o l l e c t i o np l a t f o r m sv i a t r a n s f o r m a t i o na n da n a l y s i so fe t lt e c h n i q u eo fd a t aw a r e h o u s e , s p a t i a ld a t aw a r e h o u s eo fi n t e g r a t e d m u l t i - f u n c t i o n a lp r o v i n c i a lt r a f f i ci n v e s t i g a t i o n & m a n a g e m e n ts y s t e m ( t i m s ) h a sb e e ns e tu p m o d e l d e s i g no fs p a t i a ld a t aw a r e h o u s ea n db u i l d i n go fm u l t i - d i m e n s i o n a ld a t a s e t so ft i m sh a sb e e ns t u d i e d i th a sp r e s e n t e dt h a tm u l t i - d i m e n s i o n a ld a t a s e t sb ea n a l y z e db yu s eo fo l a p ( o n l i n ea n a l y t i c a l p r o c e s s i n g ) a n dr o a dd a t ab ea n a l y z e dv i ak - m e a n sc l u s t e r i n ga l g o d t h r n st e c h n i q u eo fs p a t i a ld a t a i n t h ee n d , s p a t i a ld i s t r i b u t i o nm o d e lo fr o a dw h i c hi sh i d d e ni nt h et r a f f i cd a t ah a sb e e nb u i l t b u i l d i n go f p r e d i c t i o nm o d e li s a l s os t u d i e da c c o r d i n gt op r a c t i c a ls i t u a t i o no ft h es y s t e m ,a n dt h o s ep r e d i c t i o n r e s u l t sa r ea n a l y z e da n da p p l i e d t i l i ss t u d yi so fg r e a ti m p o r t a n c ea n dv a l u ei nd i s t r i c tt r a f f i cs i g n a l c o n t r o l ,d y n a m i ct r a f f i cd i s t r i b u t i o na n dr o u t eg u i d a n c eo f i n t e l l i g e n tt r a n s p o r t a t i o ns y s t e m 。 1 1 l i sp a p e rh a sc a r r i e do u td e t a i l e dr e s e a r c ha n dd e s i g n i n go nk e yt e c h n o l o g i e so ft r a f f i cd e n s i t y i n v e s t i g a t i o n & m a n a g e m e n ts y s t e m w h i c hi s : ( 1 ) r e s e a r c ho nc o n c e p t ,s t r u c t u r ea n di t si m p l e m e n t a t i o nf l o wo fs p a t i a ld a t aw a r e h o u s e ,t e c h n i c a l c h a r a c t e r i s t i c so fm u l t i - d i m e n s i o n a ld a t am o d e la n do n l i n ea n a l y f i c a lp r o c e s s i n g ( o l a p ) ,b a s i c p r i n c i p l e so fc l u s t e r i n gd a t am i n i n gm e t h o d ; ( 2 ) m u l t i - d i m e n s i o n a ld a t a s e t sa r es e t 叩a n da n a l y z e dv i ao l a pt e c h n i q u e ;m u l t i - d i m e n s i o n a l d a t a s e t so fm o n t h l yt r a f f i cd a t ai sm a i n l ya n a l y z e d ;d a t am i n i n go p e r a t i o ni sd o n e0 nt h ed a t aw a r e h o u s e ; l a s t l y ,b a s e du p o nr e a lt i m et a b l eo fm o n t h l yt r a f f i cd a t a ,t r a f f i cc h a r a c t e r i s t i c so fm o n t h l y t r a f f i cf l o w d a t ai nc e r t a i np 耐0 d ,w h i c hc a nb eu s e df o rr o a dm a n a g e m e n t & c o n s t r u c t i o na n dp u b l i ct r a v e l ,h a s b e e nd i go u tb yc l u s t e r i n gm e t h o d p r e d i c t i o nm o d e lo ft r a f f i cd e n s i t yh a sb e e nb u i l tu p o nt h er e s u l to f d a t am i n i n g ,a n dt h o s ep r e d i c t i o nr e s u l t sa r ea n a l y z e da n da p p l i e d ( 3 ) s c h e m ea n ds y s t e ms t r u c t u r ed i a g r a mo ft r a f f i cd e n s i t yi n v e s t i g a t i o n & m a n a g e m e n ts y s t e mi s s t u d i e d ,a n dt e c h n i c a ls o l u t i o no fs y s t e mi m p l e m e n t a t i o na n db a s i so fs y s t e md e s i g n i n gi sp u tf o r w a r d i nt h ep a p e r k e yw o r d s :s p a t i a ld a t aw a r e h o u s e ,e t l ,o n l i n ea n a l y t i c a lp r o c e s s i n g ,d a t am i n i n g ,c l u s t e ra n a l y s i s i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发 表或撰写过的研究成果,也不包含为获得宁夏大学或其它教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示了谢意。 研究生签名:豫丽 时问:加知年岁月阿口 关于论文使用授权的说明 本人完全了解宁夏大学有关保留、使用学位论文的规定,即:学校有权保留送交 论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印或扫描等复制手 段保存、汇编学位论文。同意宁夏大学可以用不同方式在不同媒体上发表、传播学位 论文的全部或部分内容。 ( 保密的学位论文在解密后应遵守此协议) 研究生签名:砾i 菊 时间:2 0 l o 年岁月留日 剔稚轹施r 帅一加叶月,汨 宁夏人学顾i j 学化论炙第一节绪论 1 1 课题研究背景及意义 1 1 1 课题研究背景 第一章绪论弟一早三百了匕 随着社会经济的发展和高等级公路的迅猛发展,道路交通拥堵严重、交通效率不高、损坏的道 路得不到及时合理的修护等,从而导致的资源浪费成为世界各国在发展中面临的共同问题。交通 是国民经济的动脉,交通量调查是道路交通规划的基础和重要依据,是进行多项交通相关工作的 基础。交通量调查主要研究交通源流的产生,交通出行在地理空间上的流量流向,以及以一定的 交通方式在交通网络上的分布形态,从而不仅为交通建设项目可行性研究提供有力的分析,而且 更为公众出行提供有力的决策依据。 1 9 7 2 年,交通部颁布的公路工程技术标准中明确指出,交通量是制定公路技术等级的基 础依据,其调查所得的数据资料是公路规划、设计、大中修和养护管理的不可替代的第一手资料, 是评估、决策公路交通发展战略和总体布局的科学依据,这使得交通量调查工作逐步得到重视, 并被提上议程。为了掌握路网交通流的分布状况,交通部在1 9 7 9 年公路交通量调查试点的基础 上,于1 9 8 0 年在全国系统规范地开展了公路交通量调查。从1 9 8 3 年开始,交通量调查工作逐渐 走上正规化之路,并有了相关的规范标准。 近年来,随着各种公路交通量调查设备的迅速推广与普及,公路交通情况的调查工作正逐步 向自动化、网络化、实时化方向发展。但是由于在选择和使用调查设备时,缺乏统一的技术要求, 调查数据的质量参差不齐,调查数据在格式、传输、存储等方面也没有科学的、统一的规范,严 重影响了交通量调查工作后期的统计与分析。随着g i s 技术在交通领域的广泛应用,将逐渐为我 们带来一个拥有极其庞大空间数据的数字化地球。用户依靠传统的数据组织和存储工具只能存储 和查询数据,而不能够从这些海量的,具有非线性、多源性、高维和模糊性等复杂特点的空间数 据中提取隐含于其中的信息,进而为决策者提供决策依据。因而“数据爆炸,但知识贫乏”的现象 变得尤为严重。空间数据挖掘( s p a t i a ld a t am i n i n g ) 技术也因此应运而生,它是在数据挖掘的基础 之上,结合地理信息系统( g i s ) 、遥感图像处理、全球定位系统( g p s ) 、模式识别、可视化等相关 的研究领域知识,从空间数据库中挖掘出用户感兴趣的空间模式与特征、空间与非空间数据的普 遍关系及其它一些隐含在数据库中的普遍的数据特征,发现潜在的有价值的知识,从而进一步提 高g i s 在提供数据分析和决策支持上的智能化水平,使交通的信息化构建更为完善,功能上更为 强大【。因此,将空间数据挖掘技术应用在交通量调查领域有很人的迫切性和必要性。 2 0 0 8 年,河北省交通厅公路管理局信息科有关人员根据当前公路交通调查的现状,提出了研 究公路网调查通用的信息化管理的设想,由河北省公路局信息科牵头,联合中交远洲信息技术( 北 京) 有限公司、中交远洲智能交通公司以及中交远洲勘察设计院等单位有关人员成立了“河北省交 通调查量调查管理系统”课题研究组。经公路局审定后,正式向省交通厅申报了“河北省交通调查 量调查管理系统”项目,并得到河北省交通厅科技处批复。本人在项目中主要参与了数据仓库的 搭建和数据挖掘模型的建立。 宁夏人学硕l j 学f t 论文第一章绪论 1 1 2 课题的意义 交通量的大小不仅与当代经济发展、居民生活水平有关系,而且与地理位置和气候等复杂因 素紧密相关,随着空间的不同和时间的差异而变化,交通量这种随时间和空间的变化而变化的特 性称为交通量的分布特性。我们利用空间数据挖掘技术,挖掘出潜在的道路网交通特征预测道路 网的交通分布形态以及交通量的变化规律,对于进行交通规划、交通管理、交通设施的规划、设 计方案比选和经济分析以及交通控制与安全,均具有重要的意义: ( 1 ) 交通量调杏为交通建设项目可行性研究提供有力的分析,在交通规划中占有重要的地位。 为公路交通的发展战略、公路建设的总布局与规划、中长期建设规划与计划等宏观决策提供依据。 ( 2 ) 为拟定具体公路建设项目以可行性研究为中心的项目建议书、计划任务书及初步设计等文 件提供基础数据。 ( 3 ) 为评价公路对现有交通车辆的适应程度提供依据。 ( 4 ) 预测未来年度交通量,如远景交通量等,均需有基础年度的交通量,远景交通量是拟定公 路标准的重要依据。 ( 5 ) 为编制公路养护和大中修计划提供依据,为进行交通工程学基础理论研究和其它公路科学 研究提供基础资料等。 同时交通量调查更为公路出行提供有力的决策依据。如何辅助公众迅速获取有效交通信息, 提高出行效率,提升服务水平,是交通部门面临的一个现实问题。通过对交通调查的空间数据挖 掘,建设统一的公路出行综合服务平台,对现有交通信息资源进行整合、加工和发布。以求打造 符合实际的i t s ,满足公路出行交通需求。 经过一年的研究和实践,“河北省交通量调查管理系统”课题已完成。课题组从交调信息管理 的实际出发,本着务实、高效、深入的原则,立足于河北省交通调查的基础上,放眼未来公路网 交通信息管理的发展方向,对河北省交调管理进行了统一的整理研究, 力争在保证现有各类公 路交通调查设备和网络不必大量再投资的前提下,通过小规模修改或定制接口就能共享高级应用 信息系统,从而可以节约设备投资并提高信息系统利用率。系统在全省范围内规范数据传输、接 收方式、统一数据传输格式和内容、集中存储、分析交调数据,并根据报表统计信息,分析道路 网交通量分布模式,进而针对不同分布类型的道路实施不同的养护和修建。 道路交通这个领域研究虽然活跃,但缺少实质性的进展。虽然很多研究者都利用各种理论来 进行了多方面尝试,但是本课题从另一个侧面空间数据挖掘角度对该课题进行探索和研究, 具有一定的理论意义和现实意义。 1 2 相关领域的国内外研究现状 i 2 i 数据挖掘现状 2 0 世纪6 0 年诞生代数据库系统,随后数据库技术得到迅猛发展,并且已经渗透到社会生活 的各个领域。但是,随着科学技术的进一步发展,新的数据采集和获取技术也随之不断更新发展, 导致数据库中所存储的数据量急剧增长。与此同时,数据处理技术的发展却相对落后,仍然停留 2 j 。夏人学硕f 。1 p 论文第一章绪论 在相对简单的录入、查询、统计、检索等阶段,缺少有效的技术手段把数据库中的数据之间存在 的内在关系和规则、数据的群体特征、数据集内部蕴涵的规律和趋势等提取出来,因此出现了所 谓的“被数据淹没,却饥渴于知识”( j o h nn a i s b e t t ,1 9 9 7 ) 的现象【l 】。 随着科学技术的飞速发展,空间信息数据的生成和采集不再局限于线圈技术,已经扩展为雷 达、红外线、光电、卫星、电视摄像、电子显微成像等手段,从而导致了空间信息数据呈爆炸性 增长趋势。与此同时,从这些海量信息中挖掘有用的、隐含的信息的技术和手段却相对贫乏。从 而出现了我们拥有庞大的空间信息数据,却苦丁饱受空间知识匮乏的现象。为了解决这种被称为 “被数据淹没,却饥渴于知识”的现象,在2 0 世纪8 0 年代末期提出了一个新的研究领域,即数据 挖掘( d a t am i n i n g ) 技术。数据挖掘技术是一个新兴的交叉性学科,是以数据库技术、机器学习、 人工智能、统计分析等为基础从海量数据中发现隐含的、潜在的有用的信息,便于人们利用的知 识或信息,并为决策者提供决策依据。 空间数据挖掘和知识发现这一学科起源于国际g i s 会议【2 】。1 9 9 4 年,我国学者李德仁院士参 加了在加拿大渥太华举行的g i s 国际学术会议,在会议上不仅首次提出了从g i s 数据库中发现知 识的概念,而且更进一步地系统分析了空间知识发现的特点和方法。目前空间数据挖掘技术己成 为国际研究的一个热点,众多著名国际学术会议多次对其进行重要探讨研究。 在国外,数据挖掘早已被应用于金融、保险、电信等行业,而银行则是数据挖掘技术应用的 重要领域。当初应用的业务范围以客户档案( p o r t f o l i o ) 分析为主在欧美银行当中,m b n a 和 f i r s t u s a 为代表的信贷银行将数据挖掘真正应用到主营业务中去。到二十世纪九十年代末,随着 客户关系管理( c r m ) 的兴起,数据挖掘逐步成为欧美银行业的宠儿。 在国内,数据挖掘技术起步相对比较晚。1 9 9 3 年数据挖掘领域的研究项目首次得到国家自然 科学基金的支持。清华大学、中科院计算技术研究所、空军第二研究所、等科研单位已经竟相开 展研究。复旦大学、浙江大学、吉林大学、中国科技大学、中科院数学研究所等单位开展了优化 和改造关联规则算法。数据挖掘在银行业、金融市场、电信领域、医药领域都得到广泛的应用。 1 2 2 交通量调查的研究现状 在国外,交通量调查的研究工作起步比较早。早在2 0 世纪六十年代,美国已提出了智能交 通系统的构想。目前,美、日、欧是世界上的三大智能交通系统研究开发基地。随着信息技术的 快速发展,国外大范闱的路网调查工作日益呈现出自动化、信息化等趋势,交通量调查的方法、 技术和手段也灵活多样。 在实时交通信息估计与预测研究领域,美国的动态交通分配( d t a ) 项目在联邦公路局( f h w a ) 资助下,研发出一套可实际应用的实时交通信息估计与预测系统( t r a f f i ce s t i m a t i o na n dp r e d i c t i o n s y s t e m ) t r e p s p j 。1 9 9 8 年1 0 月,麻省理工学院( m i t ) 德州人学奥斯汀分校c o t s ) 分别负责独立 开发出了一套t r e p s ,即d y n a m i t ( m i t ) d y n a s m a r t x ( u t x ) 3 1 。日本的c a c s ( c o m p r e h e n s i v e a u t o m o b i l et r a f f i cc o n t r o ls y s t e m ) 计划最早致力丁最优化路径诱导的开发试验,并得到了可以减 少1 3 的行程时间的结论1 4 】。德国的a l i s c o u t 通过实时交通流预测生成诱导策略,并由公众交 通信息发布系统公布于众,实现“主动式”交通控制。2 0 0 7 年8 月,m m 和新加坡陆路交通管理局 完成交通预测试点项目。 3 宁砭人 硕 j 学化论艾第一帚绪论 曼曼曼曼曼皇曼量曼曼曼曼皇曼曼蔓皇量曼量曼尝曼曼曼曼曼曼曼曼曼曼量曼曼曼曼曼舅曼曼量曼曼鼍曼皇曼曼皇曼量曼曼曼寡曼曼曼曼曼曼曼曼曼曼i i i i , 曼舅 在国内,我国开展交通流理论的研究工作起步较晚,科研人员相对也比较少。9 0 年代初,国 内才有少数关于交通信息估计与预测研究领域的研究成果公开发表。中国的第一个动态路径诱导 系统研究项目是根据我国交通的实际特点,以城市交通系统资源为背景,研究实时动态交通信息 和分布式动态路径诱导系统,即城市交通流诱导系统u t f g s ( u r b a nt r a f f i cf l o wg u i d a n c e s y s t e m ) 。截止目前,该领域的研究工作主要是采用时间序列分析的方式对交通量进行预测,相对 而言对交通量空间数据挖掘的研究比较少。 虽然国外已有相对比较成熟的交通量模型可供借鉴和参考,但是对于交通流量这种复杂的、 非线性过程来说,预测对象的不确定性和实时性要求非常高。由于中国的交通情况比较复杂,道 路不规则,干扰大,因此我们必须依据我国国情,找出一套适合我们的预测和控制交通流量的方 法,才能有效解决交通拥挤、道路维护和管理等问题,并且为出行用户和相关部门提供相应的交 通信息支持。因此研究现有交通量空间分布模式对实时交通信息估计与预测具有重要意义。 “河北省交通量调查管理系统”根据需要建立了不同的数据挖掘模型并对道路网交通量进行 空间挖掘和分析,挖掘出了道路的一些交通特征,并且建立了预测模型,找出了交通量空间分布 形态,从而可针对不同分布类型的道路实施不同的养护和修建。 1 3 论文的研究内容和成果 本论文主要利用空间数据挖掘对交通量相关数据和数据库进行提取和分析,建立一套综合多 种功能的省级交通量调查管理系统的空间数据仓库,研究了交通量调查管理系统的空间数据仓库 的模型设计和多维数据集的建立,并提出了利用o l a p 技术对多维数据集进行分析,利用空间 数据挖掘k - m e a n s 聚类算法技术对道路数据进行分析,从而建立了交通量信息中隐含的道路空间 分布模式,进一步研究了交通量预测模型,为决策者进行交通规划、交通管理、交通设施的规划、 设计方案比选和经济分析以及交通控制与安全均具有重要的意义。本课题的研究内容和成果主要 包括:分析设计了“河北省交通量调查管理系统”的功能和架构,以及系统的实现过程。深入研究 了数据仓库、o l a p 、多维数据集和数据挖掘技术的相关理论与模型设计。通过分析o l t p 数据 库中交通数据表的特点,采用数据仓库技术,结合交通数据表的实际情况,设计了数据仓库概念、 逻辑、物理模型,然后通过e t l 生成数据仓库;在所建立的系统数据仓库的基础上,使用o l a p 技术对数据仓库的多维数据集进行分析和处理,通过数据挖掘技术对数据仓库中的数据进行处 理,建立数据挖掘模型,挖掘出道路的交通量分布特征,并构建预测挖掘模型,预测车流量密度 空间分布模式,并对这些挖掘模型进行研究和分析,为道路养护部门提供决策依据。 1 4 本文的组织结构 本论文共分为五章: 第一章是绪论。概述了课题的研究背景及意义,介绍了交通量调查和空间数据挖掘技术的研 究现状,以及课题研究的内容和成果。 4 宁夏人学硕i 学 t 论艾 第帚绪论 _m_ _ i i 第二章是空间数据挖掘技术综述。首先介绍了数据仓库的定义、系统结构、基本数据模型以 及e 1 1 过程,然后介绍了空间数据挖掘研究的理论,包括了数据挖掘主要功能、方法和技术,为 后续章节的研究工作奠定理论基础。 第三章是构建河北省交通量调查管理系统空间数据仓库。这部分主要研究了系统的空间数据 仓库的概念、逻辑、物理模型的构建以及使用e t l 生成数据仓库,还进一步研究了多维数据集的 生成,并对数据仓库进行o l a p 操作。 第四章是河北省交通量调杏管理系统的实现框架,主要设计了系统平台、系统总体结构示意 图、系统框架图、设计总体思想以及功能模块等。 第五章是主要研究了空间数据挖掘模型在系统中的应用。基于在第三章中已建立的数据仓 库、月多维数据集和第四章的对河北省交通量调查管理系统框架的设计,进一步研究了数据挖掘 的聚类算法并对道路网交通量进行了空间聚类挖掘,挖掘出了河北省邢台市黄寺观测站的月交通 量特征,并对挖掘结果进行研究和分析。最后利用m i c r o s o i ! i 决策树算法对交通量的车型、地区( 经 度、纬度) 、车流量、道路类型、地形等相关信息建立了预测模型并对其结果进行分析。 第六章是对全文做了简要的总结与展望。总结了本文的研究成果,并展望了下一步的工作计 划。 5 宁夏人学硕i j 学f 谚论艾第:审守问数嬲挖掘技术 m l lo o m oo i 曼 第二章空间数据挖掘技术 基于数据仓库的决策支持系统( d s s ) 由- - 个部件组成:数据仓库技术( d a t aw a r e h o u s i n g ) ,联 机分析处理技术( o l a p ,o n - l i n ea n a l y t i c a lp r o c e s s i n g ) ,数据挖掘技术( d a t am i n i n g ) 。数据仓库 是o l a p 和数据挖掘的基础,联机分析处理和数据挖掘是数据仓库之上的增值技术。本章将从这 三个技术进行介绍。 2 1 空间数据仓库概述 数据仓库( d a t aw a r e h o u s e 简称d w ) 技术是信息处理技术特别是数据库发展的必然产物,运 用数据仓库技术可从大量异构环境数据源中提出所需的、相对准确的信息。空间数据挖掘与空间 数据仓库密不可分,建立空间数据仓库不仅有助于提高空间数据挖掘的效率,同时可更好地展现 挖掘结果。空间数据仓库与一般数据仓库相比,增加了一些诸如了方位、距离等的空间信息,因 而它的建立更为复杂,但它能有效地管理空间信息,在空间知识的发现及信息数据挖掘中起到了 重要作用5 1 。 2 1 1 空间数据仓库概述 早在上世纪9 0 年代初,数据仓库的创始人w h 1 l l m o n 博士提出了数据仓库( d a t aw a r e h o u s e , d w ) 的概念数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持决策 过程。【6 1 ” 在今天信息爆炸的时代,信息技术和不断提出新需求的企业界的飞速发展,传统的以面向事 务处理为主的空间数据库系统已不能满足需要,信息系统开始从管理转向决策处理,空间数据仓 库就是为满足这种新的需求而提出的空间信息集成方案,它有四个特点r n : ( 1 ) 面向主题的。与传统空间数据库面向应用进行数据组织的特点相对应,空间数据仓库中的 数据是面向主题进行数据组织的。它在较高层次上将企业信息系统中的数据进行综合和归类,并加 以抽象地分析利用。 ( 2 ) 集成的。空间数据仓库的数据是从原有的空间数据库数据中抽取来的。冈此在数据进入空 间数据仓库之前,必然要经过统一与综合,这一步是空间数据仓库建设中最关键、最复杂的一步, 所要完成的工作包括消除源数据中的不一致性和进行数据综合计算。 ( 3 ) t 1 :易失的。空间数据仓库中的数据主要供决策分析之用,所涉及的数据操作主要是数据查 询,一般情况下并不进行修改操作。空间数据仓库的数据反映的是一段相当长的时间内的数据内 容,是不同时间的空间数据库快照的集合和基于这些快照进行统计、综合和重组导出的数据,而 不是联机处理的数据。空间数据库中进行联机处理的数据经过集成输入到空间数据仓库中,一旦 空间数据仓库存放的数据已经超过空间数据仓库的数据存储期限,这些数据将从空间数据仓库中 删去。 6 宁夏人学硕t 学 :_ = 论之第二帝审问数槲挖掘找术 ! i i i : ii :- - 曼皇曼皇曼曼曼皇皇曼曼曼曼曼! 皇曼曼曼璺 ( 4 ) 时变的。空间数据仓库的数据是随时间的变化不断变化的,它会不断增加新的数据内容, 不断删去旧的数据内容,不断对数据按时间段进行综合。 2 1 2 数据仓库的系统构成 在信息爆炸的时代,现有业务系统和大量业务数据的积累使得数据仓库迅速发展。数据仓库 不是静态的概念,是随着时间的变化不断变化的,把信息加以整理归纳和重组,并及时提供给相 应的管理决策人员,是数据仓库的根本任务。数据仓库系统的体系结构包含四个层次,即数据选 取、数据仓库管理、应用( 查询) 以及数据挖掘四个部分【8 j f 9 1 。 ( 1 ) 数据选取:数据源包括各个o l t p 应用系统中的数据,这是d s s ( 决策支持系统) 的主要数 据来源,为d s s 分析提供了丰富的、可靠的、历史性的数据,是建立数据仓库的物质基础,是整 个系统的数据源泉。 ( 2 ) 数据的存储与管理:是整个数据仓库系统的核心。负责实现数据共享、安全保密、数据仓 库维护和数据管理。 ( 3 ) 应用( 查询) :是数据仓库与应用系统的数据接口,使应用系统和数据相对独立。它不管数 据仓库内部的操作和变化,只为应用系统提供数据,从而满足不同应用的数据需求。 ( 4 ) 数据挖掘:是对数据仓库的一种深层应用,使用一系列方法进行开采、分析大量数据,从 中识别和抽取隐含的、潜在的有用知识。 数据仓库是从数据库发展而来的,但两者在许多方面存在较大差异。其区别见表2 1f 姗。 表2 1 数据库与数据仓库区别 操作型数据( 传统数据库)决策支持数据( 数据仓库) 面向应用:数据服务于某个特定的商业 面向主题:数据服务于某个特定的商业主题,例如客户信息等。它 过程或功能是非规范化数据 细节数据,例如包含了每笔交易的数据对源数据进行摘要,或经过复杂的统计计算。例如一个月中交易收 入和支出的总和 结构通常不变结构是动态的,可根据需要增减 易变性( 数据可改变)非易变( 数据一j e l 插入就不能改变) 事务驱动分析驱动 一般按记录存取,所以每个特定过程只 一般以记录集存取,所以个过程能处理火批数据,例如从过去几 操作少量数据年数据中发现趋势 反应当前情况反映历史情况 通常只作为一个整体管理可以分区管理 系统性能至关重要,因为可能有大量用 对性能要求较低,同时访问的用户较少 户同时访问 7 与。夏久学硕i 学位论文第一:_ 带窄问数据挖掘挫术 2 1 3e t l ( 数据抽取、转化、加载) 数据仓库的数据是由传统数据库中的数据组成,因此研究如何从现有数据库中有效地将数据 引导至数据仓库的方法和策略就显得很有必要1 1 】。这个过程就是数据仓库的生成过程,主要是进 行数据的e t l ( d a t ae x t r a c t i o n ,t r a n s f o r m a t i o na n dl o a d i n g ) 。数据e t l 是用来实现异构多数据源 的数据集成,其概念模型见图2 1 t 1 2 1 。 图2 l 概念模型图 e t l 即:数据抽取、数据转换、转化数据,是将应用程序数据库中的数据装载到数据仓库的 过程。整个e t l 包括三个部分1o 】【1 3 】: ( 1 ) 数据抽取 从不同的网络、不同的操作平台、不同的数据库及数据格式、不同的应用中的数据源系统抽 取数据仓库系统需要的数据。在本文中,把各站点的检测数据中用于交通量调查管理系统分析的 数据抽取出来。 ( 2 ) 数据清洗 对从数据源获取的数据进行清洗,转换成数据仓库要求。在本文中对各站点检测到的存在的 不规范数据进行规范和清洗后加载进入数据仓库。 ( 3 ) 数据加载 将转换后的数据装入数据仓库,加载的方式包括增量加载和更新加载。 e t l 研究领域主要涉及以下几个方面:研究高效的数据异常检测算法以避免扫描整个庞大的 数据集;在自动化异常检测和清洗处理期间增加人工判断处理以提高处理精度:数据清洗时对海 量数据集进行并行处理;如何消除合并后数据集中的重复数据;建立一个通用的与领域无关的数 据清洗框架【1 4 j 。 2 1 4 数据仓库的基本数据模型 数据仓库模型设计一般需要经过三个过程,分别是概念模型( c d m ) 设计、逻辑模型( l d m ) 设 计和物理模型( p d m ) 设计1 0 1 1 5 l 【1 6 】【1 7 1 。 8 ,j 夏人# 彤! i 学f t 论文第一:帝窄问数据挖掘技术 暑曼曼量曼曼曼曼曼舅曼鼍曼! 曼曼曼曼笪曼皇曼皇曼鼍曼鼍曼曼蔓曼1i 鼍曼曼曼曼曼曼曼曼曼舅舅蔓曼曼曼曼曼曼曼皇曼曼曼鼍曼曼鼍曼曼曼皇曼皇曼皇曼罡皇曼皇曼舅曼曼皇 1 概念模型 在原有的数据库的基础上建立了一个较为稳固的概念模型是概念模型设计的成果f 1 8 】。数据仓 库是通过集成和重组原有数据库系统中的数据而形成的数据集合,所以对原有数据库系统加以分 析理解是数据仓库的概念模型设计的首要任务。概念模型的设计是在较高的抽象层次上的设计, 所要完成的任务【1 0 】是: ( 1 ) 确定系统边界:深入了解目前拥有的操作型数据;了解方向性需求,如:决策类型;决策 者感兴趣的问题;确定信息需求,确定数据覆盖范围;了解源数据( d b 系统) 的状况,例如“涉及 的信息”包含d b 中的哪些部分。 ( 2 ) 确定主要的主题域及内容:确定系统所包含的主题域;确定主题域的内容:公共码键,代 表主题的属性组。主题域之间的联系。 2 逻辑模型 逻辑模型设计的任务是对数据仓库的主题的逻辑实现进行定义,所要完成的任务【1o 】是: ( 1 ) 分析主题域:在概念模型设计中已经确定了基本的主题域,但是在逻辑模型设计中必须分 析概念模型设计中确定的几个基本的主题域。 ( 2 ) 粒度层次划分:粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。粒度 层次划分直接影响到数据仓库中的数据量和所适合的查询类型,是逻辑设计中要解决的重点【1 9 1 。 ( 3 ) 确定数据分割策略:逻辑设计的另一个重要的问题是分割( 又称分区) ,是指把数据分散到 各自的物理单元中去,独立地进行处理。进行适当的数据分割可以大大减少数据检索范围,从而 达到提高系统性能的目的。 ( 4 ) 关系模式定义:数据仓库的每个主题都是由多个表来实现的,一个完整的主题是由公共码 键将这些表联系在一起。在概念模型设计中,确定了数据仓库的基本主题,并描述了每个主题的 公共码键、基本内容等。在逻辑模型设计中,需要对选定的当前实施的主题模式进行模式划分, 形成多个表,并定义各个表的关系模式。 维度建模是属于数据仓库逻辑建模的主要技术。目前常用的数据仓库模型有星形模型和雪花 模型。 星形模型 尾型模式( s t ;a r s c h c m a ) 是最常见的用表示多维数据模型种模型,其中数据仓库包括一个大的、 包含人批数据、不含冗余的事实表,一组小的维表,每维一个【2 0 】。 9 j :夏人学硕f 。学f 芝论文第:帝卒问数槲挖拇技术 曼曼曼曼曼量曼曼曼曼曼皇曼曼曼曼曼曼曼曼曼曼曼皇皇曼曼皇曼量曼曼量皇舅寰mm ;m ;m 一 一m一一曼曼曼曼曼曼曼曼曼曼曼鼍曼皇曼! 曼曼皇 其星型模式见图2 _ 2 1 2 1 】。 图2 2 星型模型图 雪花模型 雪花模_ 型 2 0 ( s n o w f l a k es c h 锄a ) 是星型模型的扩展,其中某些维表是规范化的,因而把数据进 一步分解到维表中,模式图形成类似雪花形状。其雪花模型见图2 3 【2 。 图2 3 雪花模型图 雪花模型和星形模型的主要不同在于: ( 1 ) 雪花模型中的维表可能是规范式形式,减少了冗余,方便维护,节省存储空间。 ( 2 ) 雪花模型中执行查询需要更多的连接操作,降低了性能。 3 物理模型 物理模型设计主要任务是确定数据的存储结构,确定索引策略,确定数据存放位置,确定 存储分配。 1 0 习,爿丑萤:一;吣 显警一 |_11i匕 目 叫 宁理,j 硕t 。学f t 论文第:节窄问数据挖掘技术 i i ii l i i i 一一一_ 一i i _ i h i i 曼曼皇曼曼曼曼 2 2o l a p 联机分析处理 联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,简称o l a p ) 的概念最早由关系数据库之父 e f c o d d t 捌于1 9 9 3 年提出的,e f c o d d 认为联机事务处理( o l t p ) 已不能满足终端用户对数据库查 询分析的要求,s q l 对大数据库的简单查询也不能满足用户分析的需求,因此,c o d d 提出了多维 数据库和多维分析的概念,即o l a p 2 2 】。o l a p 是针对特定问题的联机数据访问和分析技术,使 分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所 理解的、并真实反映企业情况的信息进行快速、一致、交互地存取,从而获得对数据的更深入了 解的一类软件技术。 2 1 1 联机分析处理的特点 在过去的二十年中,关系型数据库一直占据了主导地位,被用来存储和管理业务数据,并建 立相应的应用系统来支持日常业务运作。这便是联机事务处理( o l 限,o n - l i n et r a n s a c t i o n p r o c e s s i n g ) 应用,用于支持业务处理为主要目的,而它所存储的数据被称为操作数据或者业务数 据。 近些年,随着市场竞争的日趋激烈,决策的及时性和准确性越来越被企业所重视,因而以支 持决策管理分析为主要目的的应用迅速崛起,即联机分析处理,它所存储的数据被称为信息数据。 直接仿照用户的多角度思考模式是联机分析处理的主要特点,预先为用户组建多维的数据模 型。例如对销售数据的分析,时间周期是一个维度,产品类别、地理分布也分别是一个维度。通 过建立多维数据模型,用户不仅可以快速地从各个分析角度获取数据,而且还能动态的在各个角 度之间切换或者进行多角度综合分析,具有极大的分析灵活性。联机分析处理是数据仓库系统的 核心,但数据仓库包括更为广泛的内容。 2 1 2o l a p 逻辑概念和典型操作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026天津东丽经开区国有公司基层岗位招聘10人考试备考试题及答案解析
- 2026重庆九洲智造科技有限公司招聘工艺技术员等测试成绩公示考试参考题库及答案解析
- 2026集团融媒体中心招聘编导、剪辑实习生3人(广东)考试参考题库及答案解析
- 2026福建厦门市集美区双塔小学产假顶岗教师招聘2人考试参考题库及答案解析
- 2026中国农业科学院农产品加工研究所食物营养与功能性食品创新团队招聘合同制科研助理考试参考题库及答案解析
- 2026海康威视创新业务招聘考试参考题库及答案解析
- 2026年安徽煤矿矿用安全产品检验中心有限公司招聘劳务派遣驾驶员1名考试备考试题及答案解析
- 2026徽商银行总行金融科技岗社会招聘笔试参考题库及答案解析
- 2026河北秦皇岛市抚宁区农业发展有限公司招聘9人考试备考题库及答案解析
- 2026年海南软件职业技术学院高职单招职业适应性考试备考题库有答案解析
- 《创新创业基础》课件-项目1:创新创业基础认知
- 2026北京市通州区事业单位公开招聘工作人员189人笔试重点基础提升(共500题)附带答案详解
- 2025~2026学年山东省菏泽市牡丹区第二十一初级中学八年级上学期期中历史试卷
- 2026国家统计局仪征调查队招聘辅助调查员1人(江苏)考试参考试题及答案解析
- 2025至2030中国细胞存储行业调研及市场前景预测评估报告
- 《中华人民共和国危险化学品安全法》解读
- 水暖施工员考试及答案
- 2025年省级行业企业职业技能竞赛(老人能力评估师)历年参考题库含答案
- 水利工程施工质量检测方案
- 2025年北京高中合格考政治(第一次)试题和答案
- 卵巢类癌诊治中国专家共识(2025年版)
评论
0/150
提交评论