(计算机应用技术专业论文)时空数据挖掘及其在铁路客流预测中的应用研究.pdf_第1页
(计算机应用技术专业论文)时空数据挖掘及其在铁路客流预测中的应用研究.pdf_第2页
(计算机应用技术专业论文)时空数据挖掘及其在铁路客流预测中的应用研究.pdf_第3页
(计算机应用技术专业论文)时空数据挖掘及其在铁路客流预测中的应用研究.pdf_第4页
(计算机应用技术专业论文)时空数据挖掘及其在铁路客流预测中的应用研究.pdf_第5页
已阅读5页,还剩117页未读 继续免费阅读

(计算机应用技术专业论文)时空数据挖掘及其在铁路客流预测中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘轻穗鎏摩藿篓| 耄雾蒌篓 霹| l i 艇| i 目! j i 霸孽i j i l l i ? ? ! l i l ;冀i ! l 亏f 羹螨:妻爹;i ;? 。i 曾目 ;耋毫;i 霍l 羹丐刚? 羔荽:i f i i j ;i i e ;喜;蕾自;薹二蓦j i i 7 i 盖i l i ;| 譬l l ;j i i 毒j :i h 薹薹1 ! 兰j 囊? 主 孚 i i | 蓬 ; ;:i i ! ig g 譬;董毒 g ! 篆i 妻;g l ; ;? i i 簟童雾:苫= 三i ! 蕈誊三鑫耋! 豢i 耋i 囊i ;j i ;毒 ;:i 菱i 二目 ;! i i 瞿 墓圣妻i ;i 毒;蚕姜髫l ; i t 鎏a ;i 蔓呈窖譬耋;量i 妻蓬| i ? ? j ? ;毒型;k 建薹目萎:; 自 i i :i 掌寻导;主l 薹i i 笋曼一薹妻羹 篷篓篓毒耋l 霉萝;i 薹睾;:囊 桶i j r 繇器,i j i g :罢 享? i 耋! ;i o ;l 薹! 至自l s l 萋兰量蒌冀j 喜i ! 籼 纂i 鞫器荆毫i 绥? ;! ;| :至二l 妄:;爹; ;| i ! | 蓑囊i 笔! 。i ;i e 毛,莓i 每薹i 键;攀霎j 蕈; :塑 l j :jl i il 誊童氧 i 蕈薹- 弱! 毒 f :,;薹j i 馨;i i f 雹耄# l 差¥墓鼙日;,妻萋g * j 至i i 主女i i i 辇;蓁掣;i i :;| 舞耋薹! i ! 荔| i ;! i l l ;囊| j 二 : ! 。l 釜图善5 至; 。莲g a 霾! & 仆事j 毒萋i 魏 ;。;i ¥| ;l 裂茎薹; 童手一垂争 a b s t r a c tu s e them e t h o di nr a i l w a yp a s s e n g e rt r a f f i c g i s ( 2 )as y s t e m i c加m e w o r ko fs p a t i 0 t e m p o r a l datam i l l i n ga n dg e n e r a l s p a t i o - t e m p o r a l datam i n i n gm e t l l o d s i sp r e s e n t e d a f t e rs u m m a r i z i n gf h e correlativet h e o r y a11d t e c h n i q u e so fs p a t i o t e m p o r a ld a t am i n i n g ,w e presenfas y s t e m i cf r a m e w o r ko f s p a t i o t e m p o r a ld a t a m i n i n g a n dg e n e r a l 8patiotemporald a t am i n i n g m e t h o d s ,a i m i n g a tt h er e s e a r c h s t a t u s o fm o r ea p p l i c a t i o ns t u d yb u ti e s s b a s i ct h e o r y s t u d y w e a l s os t u d y s p a t i 0 一t e m p o r a l d a t am i n i n g b a s e d o n o n t o l o g ya n d d o m a i n o r i e n t e da p p l i c a t i o n s ,i np a n i c u l a rt h e r a i l w a y application( 3 ) ag e n e r a ls p a t j o - t e m p o m lf o r e c a s t i n g m o d e la n d as p a t i o t e m p o r a l f o r e c a s t i n gm o d e l b a s e d o n0 n t o l o g ya r ep r e s e n t e d w e e x t e n ds e v e r a ls p a t i a l autore伊essive m e t h o d st 0s p a t i o t e m p o r a la u t o r e g r e s s i v em o d e l s ,a n da n a l y z et h e i r relationshipwe a l s 0s t u d y s p a t i o - t e m p o r a lf o r e c a s t i n g m o d e l b a s e do n ontology,pmposing t w o m e a s u r e so f s p a t i o - t e m p o r a i a u t o c o r r e l a t i o n :s p a t i o t e m p o r a l contiguity m a t r i xa n d s p a t i o t e m p o r a lc o n t i g u i ym e a s u r e d e t a i l e d e x p e r i m e n t a l r e s u l t sa n d a n a l y s i sa r e a i s og i v e n ,a i m i n ga tm e d i u ma n dl o n gt e r mf o r e c 船t i n gw i t hc o a r s eg ranularity i n t h er a i l w a y p a s s e n g e r n o w ( 4 ) a s p a t i o - t e m p o r a li n t e f a t e df o r e c a s t i n g a p p r o a c hb a s e don dataf u s i o na n d m e t h o d f u s i o n i sp r e s e n t e d i no r d e rt oo v e r c o m et h el i m i t a t i o n so f cufrentr a i l w a y p a s s e n g e r f l o wf o r c c a s t i n gm e t h o d s ,w e p r o p o s ea spajotemporal i 玎i e 掣a t e df o r e c a s t i n ga p p r o a c hb a s e do nd a t af u s i o na n dm e t h o df i l s i o na n du se t os h o n - t e 册p a s s e n g e rn o w f o r e c a s t w i t hf i n eg r a n u l a r i t y i h ea p p m a c hw a s successfullyu s e di nt h ef o r e c a s t i n go fr a i l w a yp a s s c n g e rf l o wo f t h m u g l l s c g m c n t s e x p e r i m e n t a l r e s u l t s s h o w t h a t t h en e w i n t e g r a t e da p p r o a c h h a s m o r ea d v a i l t a g e st h a n separate s p a t i a lf o r e c a s t ,t e i i l p o r a lf o r e c a s t ,s p a t i o - t e m p o r a l f o r c c a s t ,a l l dt h o s e traditional f o r e c a s tm e t h o d s k e yw o r d s :s p a t i o - t e m p o r a id a t a m i n i n g ,s p a t i o t e m p o r a l f o r e c a s t i n 舀o m o l o g y ,s p a t i o t e m p o r a lo n t o l o g y s p a t i o t e m p o r a li n t c 争a t i o n ,s p a t i o - t e m p o r a l a u t o r c f e s s i v e ,s p a t i 0 一l e m p o r a lm o d e l i n g ,r a j l w a yp a s s e n g c fn o wf o r c c a s t i n g 第一章绪论 第一章绪论 本论文研究时空数据挖掘及其在铁路客流预测中的应用。本章是论文的综述 部分。首先介绍论文的研究背景,概述时空数据挖掘的研究现状,指出目前时空 数据挖掘研究中存在的问题;然后针对铁路客流预测问题的研究现状进行分析, 说明将时空数据挖掘方法应用在铁路客流预测上的现实意义;最后给出本文研究 的主要内容、论文的组织结构和论文各章的安排。 1 1 研究背景 随着各个领域数据数量的急剧增长,对从海量数据中发现有用的信息和知识 的需求越来越迫切,而这一需求导致了数据挖掘技术的出现和发展。目前大部分 数据挖掘的研究工作是基于关系型和事务型数据库的。随着空间数据采集和处理 能力的增强,空间数据库在遥感、地理信息系统、医疗影像、交通控制和环境监 测等方面得到广泛的应用,从空间数据库中提取有用的空间和非空间知识的空间 数据挖掘( s p a t i a ld a t am i n i n g ,s d m ) 成为新的研究方向。空间数据库与普通 数据库在数据存储机制上的不同和空间数据的相互依赖性等特点决定了在空间 数据库上无法直接采用传统的数据挖掘方法。在空间数据库上进行知识发现,需 要克服使用单一技术的缺陷,即需要融合多种不同技术。所以研究人员提出了空 间数据挖掘技术来解决从空间数据库发现隐含知识的难题。空间数据挖掘是多学 科和多种技术交叉综合的新领域,它综合了机器学习、空间数据库系统、可移动 计算、统计、遥感、基于知识的系统、可视化等领域的有关技术。空间数据挖掘 利用空间数据结构、空间推理、计算几何学等技术,把传统的数据挖掘技术扩充 到空间数据库,并提出很多新的有效的空间数据挖掘方法。与传统空间分析方法 相比,它在实现效率、与数据库系统的结合、与用户的交互、发现新类型的知识 等方面的能力大大增强。空间数据挖掘与地理信息系统( g e o 留a p h i ci n f 0 唧a t i 彻 s y s t e m ,g i s ) 的结合,使g 1 s 系统具有自动学习的功能,能自动获取知识,从 而成为真正的智能空间信息系统f 邸9 9 】。 大部分空间数据挖掘研究还只是针对空间对象的空间特征,而不考虑时间特 性。但是很多应用领域在问题求解过程中越来越需要考虑时间因素,例如交通管 理、环境监测、地震救援等。很多空间现象是随时间动态变化的,只有将时间纳 入到空间系统中,研究空间数据随时间变化的规律,才能重现历史,跟踪变化和 预测未来【陈0 2 】。因此将空间对象的时间和空间信息一体化处理,同时考虑空间 和时间因素的时空数据挖掘( s p a t i o i t e m p o 豫ld a t am i n i n g ,s t d m ) 是一项重要 第一章绪论 1 9 0 9 年,很多牙医发现科罗拉多s p r i n g s 地区的居民通常有健康的牙齿, 这要归功于当地饮用水中含挣橹鸡匪翘拍驰慧。受茧赳辫蚓蔼髯苫孽间上垂何 番堪型殖建签然疆; 烈榉擎誊溺引捌烈誊毒剥赢划引刽菩剥丽甜硎尚m 甜:补秀瞬辨m 硼拜硅翮。 蘑耨轴西税硒。疆蛩羽蛭脚罂。强璀粥计殂孙+ 尾皤澎挑m 篇糍曜:蒌”2 翰 一地嵋粥j 恒是掣赞撕越娶酣v 鞠朝;常高。 基态修正模型是将数据库中某时刻的时空信息存储在表格中,当数据发生变 化时将当前状态表存储起来,并给定一个时间戳,然后复制出来更新为新状态。 这种方法尽管减少了数据冗余,但数据查询效率不高。基态修正根据时间戳的记 录位置可分为表格级、记录级和属性级。表格级指将时间戳记录在发生变化的关 系表上,其特点是简单易理解,但数据冗余仍然很大,且单个目标对象的历史状 况表达不清。记录级指将时间戳记录在发生变化的记录,而非整个关系上,记录 级会使关系表变得非常长,不利于快速查询,同时由于对象的时间和空间彼此分 离,使空间数据和属性数据之间的联系困难。属性级指将时间戳记录在发生变化 的记录的属性上,属性级要求该属性是变长字段,因此需要以链式保存历史记录 【w o r 9 2 】,这样虽然减少了数据冗余,但技术上的难度增加。 基态修正模型还可分为基于矢量的修正模型和基于栅格的修正模型。基于 矢量的修正模型以矢量数据模型为基础,各种面状或者线状地理对象的变更都用 “修正矢量”和变更时间加以标记:基于栅格的修正模型将空间分割成一组网格, 每个网格对应一定的空间区域和一个时间列表。 2 时空统一模型 时空统一模型是将时间看成空间的新的一维,即时间维,从而将现实的三维 世界看成是四维的世界。能够将时空迸行融合的基础是时空在一定意义上是同质 的。或者说,时间是空间的一种特殊的形式,是有限定的一维空间。 这一类时空数据模型主要以时空立方体为代表。时空立方体( 图2 1 ) 用图形 表示了二维空间沿着时间维发展的过程。在这里把时间当成是空间的一维,因此 二维空间在时间上的变化就映射成一个三维空间。 由于时间作为新的一维,从而使时空特性转化为高维空间特性。由于高维的 拓扑矢量允许时空联结操作和拓扑查询使得这种模型克服了空间关系模型的限 制,减少了数据冗余。 但这种方法也存在缺点: 1 ) 要获得高维 第一章 绪论 模 d r 8 6 】、渔业时空模型的建立【s t 0 8 6 】、旅馆的选择问题【p p s 9 0 】、对家畜垃圾 的追踪【c m 9 7 】、相邻房价对住宅价格的影响【k b c 9 8 】、生物模式的形成【s c m 9 9 】、 降雨的时空分布模型的测试【j s v 0 0 】、精细农业的估计【p 0 0 1 、用神经网络预测 城市路网节点的短时段交通量【裴0 3 】、用支持向量机进行时空热区分析和预测,以及进行犯罪区分析和传染病爆发预测【d c h 0 4 】、用贝叶斯网络( b a y e s i a n n e 时o r k ) 算法预测短时交通流【z s 鹜驺 蠡非蛆醵黯霏”霉垃鍪薹雾鹊掣型藕錾羹餐囊贸盯。扎墨荔耷碉涟阎多环湛迢 檬芯潦罐冻i 篡萌蒜崭箍耧掇壅嚣嚣礴美琵囊瑟瑟羹萋蓄巍熏蒂;塑雾塑羲基蠹 墨蠢薹抖烈疆;鼍叠呈始烈掣复;! ;:鞭酗蚕筹赢舅虹型熏凝嗥; 澎萎剥堑蠢争猜蛋却甜m 酬宵矧砖裂婴掣铲型酉型潮霹嚣摧戮爵嚣j l ; “揣黼懿躺囊i 季萎i 驾。瀚强g 嚣嗡i 蓉 | 重! i l l 薹馨数据:md l r s 模型提供使数据库表示与真实世界相联 系的时间数据,提供时间参照中时间变化的范围。 3 ) 时间拓扑滞后:m d u ts 模型支持对象和事件的时间关系和事件的滞后 ( 即在一个具体位置上发生的预计事件和真实事件之间时间上的不同) 。 4 ) 历史数据库:m d l r s 模型支持对象和网络状态的重现,并且保持网络 事件历史。 5 ) 动态性:m d lr s 模型支持对象的导航,支持对象沿运输网络往返移动。 6 ) 数据集的变换:m d l r s 模型支持线性、非线性和时间参照之间的转换。 7 ) 多层地图空间拓扑表示:m d u t s 模型支持运输对象多层地图和拓扑表 示。 8 ) 多分辨率:m d l r s 模型支持对象和事件的多尺度显示。 9 ) 元数据:md u t s 模型存储元数据来指导一般数据使用。 在m d u t s 数据模型中运输现象的非空间部分( 即“属性”,回答“什么” 的问题) 存储在t r a l l s p o n a t i o nf e a t u r c 对象中,空间部分( 回答“在哪”的问题) 存储在s p a t i a lo b j e c t 中,时间部分( 回答“何时”的问题) 存储在豇m eo b j e c t 中。m d l r s uts数据模型中运输现象的非空间部分(即“属性”,回答“什么”的问题) 存储在t r a l l s p o n a t i o n f e a t u r c 对象中,空间部分( 回答“在哪”的问题)存储在s p a t i a lo b j e c t 中,时间部分( 回答“何时”的问题) 存储在豇m e object中。mdlrs概念数据模型用面向对象的uml语言描述。mduts数据模型解决 x 北京交通大学博士学位论文 空间数据库中使用的聚类技术是基于数据的空间特征的相似性来聚合数据, 不需要任何先验知识,主要使用基于相似性度量的距离。时间聚类可获得不同时 间段的某些空间规律。时空聚类则是将空间聚类、属性概化和时间聚类相结合, 类似于追踪图像中移动对象的轨迹,比如采用马尔可夫随机场和卡尔曼滤波的结 合来求解,即首先对图像中的对象进行分类,然后追踪对象。lj等还使用了小 波变换和自组织映射( s o m ) 神经网络研究时空数据的聚类算法。时空分类和聚类的研究大部分集中于图像处理领域。 5 时空元规则挖掘( s p a t i o 1 b m p o r a lm e t a - r u l e s ) 通过比较同一空间区域不同时间产生的规则集而获得的规则称为时空元规 则。时空元规则是从时空系统中挖掘的一类新的规则形式,描述了从时空信息系 统中数据的连续空间快照中获得的规则集的变化。因此元规则能表现现有模式的 晶料器寤栉;科孽笳笼牛商新嗣镒带乎耘赫等蓓梅l 面希巍馘菊篙始鞴銎磊筹譬 篇腻崔售并罢! ;i 鬟囊l 。 辑姬理【i j l 蕊翟霸犁鳇廷强驷羹鹋; 鼙囊i 薹蜇荤套焉琴县缮型熙。箝謦誊裂要澎增滔唐建灌! 罄塑娶星 : 瓤卿| 器矬稀纠爿借崭硝冀;蔼葡捌希埙寝碡孺罐磋诵瓣;毫辔啸圆浠 蕊;潜壤伸性阿历罐,攀号灯、刹车等对交通流的影响的研究及单行线、双行 线、 高速路、十字路口等交通线上汽车车辆流模拟研究等【靳0 1 ,l u m 0 1 】取得了不同程 度的进展。 2 1 2 2 交通运输时空系统建模 文【王0 2 】中针对铁路运输系统这个具有时间和空间属性的混杂系统,结合细 胞自动机的时空思想,提出了实体自动机( e a ) 模型。 实体自动机由实体( e n t it y ) 、有限的状态( s t a t e s ) 、邻域 e i g h b o r s ) 、规则 ( r u l e s ) 和移动实体空间属性( l d c a t i o n ) 构成,可定义为如下形式: e a = ( e s ,n ,s ,lm 倒e ,dq 式中,e a 为实体自动机;e s 是实体空间:n 为实体邻域环境;s 是实体可 处于的状态集;l m o ve 是可移动实体的空间位置函数,f 是局域转换函数和转换 规则。系统内可移动实体的空间属性是时间的函数,t 时刻可移动实体的空问属 表示为: 工肘b v p i 厂f砂( 2 4 ) 实体自动机是细胞自动机在交通系统应用研究的专题模型,它是在细胞自动 机的时空框架下 北京交通大学博j :学位论文 掘,并分析了面向铁路应用的时空数据挖掘。 ( 4 )论文对空间自回归预测方法进行了时空扩展。提出了一阶时空白回 归模型、回归时空自回归混合模型、时空误鹾拜辐笃拾哭磊盟弛酬鸡。拔群裂 军寿丽理空蘸年进行聚集堤蓝;吲爨晷引捌矧睁争觏酾氤再踊;积刁叫郦蝼谢舀 轴掌蓟鬓疆;藩憾峪转悸毙始勰醒雾矧艘努羹絮弼笼执世提: :l 靼醛辖提高集级别进行数据分析,也是非常重要的。空间数据挖掘算法的核心是扩展经典的数据挖掘算法来对空间自相关这一 性质进行建模 。 2 2 2 2 空间数据挖掘的研究对象 1 空间数据库 空间数据模型主要有矢量数据模型和栅格数据模型两种。 矢量数据结构是通过坐标值来精确表示平面上的点( p o i n t ) 、线( l i n e ) 、面 ( p o l y g on ) 等地理实体, 点由一对x 、y 坐标表示; 线由一串有序的x 、y 坐标对表示; 面由一串或几串有序的首尾坐标相同的x 、y 坐标表示。 栅格数据模型中,点就是一个像元,线由一串彼此相连的像元构成,面由一 堆彼此相连的像元组成。每一个栅格像元记录着不同的属性,这些像元大小是一 致的。像元通常是正方形,有时也用到矩形、六边形和等边三角形。像元的位置 由纵横坐标决定,每个像元的空间坐标并不一定要直接记录,因为像元记录的顺 序已经隐含了空间坐标。 空间数据存储主要解决的问题是空间特征和非空间特征两部分的关联,空间 数据存储的方式主要有: 1 ) 文件格式存储 空间数据包含空间特征和非空间特征,其中空间特征信息描述空间实体的地 理位置及其形状,非空间特征信息描述空间实体有关的应用信息。文件管理将空 间数据存放在自行定义的空间数据结构及其操纵工具的一个或多个文件中。空间 信息和非空间特征信息通过标识码建立联系。采用文件管理的优点是结构灵活、 操作简便、地图显示速度快,可以任意定义文件格式及其操纵工具。这种方式的 缺点在于难于适应大批量数据处理,非空间特征信息数据管理功能较弱,而且不 利于数据的共享。 2 ) 基于关系型数据库系统存储 关系模型能够以简单、灵活的方式表达各种实体及其相互关系,其数据描述 第一章绪论 客流时空综合预测方法,在铁路假日客运g i s 系统中用该方法对春运期间旅客 发送量进行预测,并与其它方法进行了对比和分析。实验结果表明,预测精度有 了明显改善。 第七章对全文做了总结,并对下一步研究工作进行了展望。 1 7 北京交通人学悼 ? 学位沦史 了不同参照系的属性数据的综合问题,其数据综合通过线性方法之间、非线性方 法之间、以及线性方法和非线性方法之间的变换实现。同时由于使用ti加eo b i e c t 描述现象的时间成分,记录其进入数据库的时间,使得mduts与其它没有考虑 时间的运输定位参照系数据模型相比已经前进了一大步。不过mdlrs数据模型 只是一个概念模型,虽然能指导运输企业的多维时空数据建模,但还需要真正实 现和接受检验。 2 1 1 3 时空模型的特点与始面翔 唑善型剖掣幽冒鬟黛掣烈封弹剿驰蘑愆娶群酵舅鞠挑鞠酗州麓蛆鲫百。 霸翌零尘;咯璎摧但褥倦鞑弼的概化浏滩墨佯讳情徕缅僻壤汹球忮捆灞奄塌秭弱 强堤= 箨绘璧割蝥照豇警崮鞘掣戮堡两种方法菰醅甬手= 藏争勘霞m 酬削誊酬削 睁蟊疣, 叫瓤和新蝌稻盼# 挈矾韵俐f 陡述概念来“消除”不同快照间的偏差。例 如, 如果温度随时间变化不大,则在开始和新的描述中都能被分类到“温和的”一类 中。以非空间数据为主导的情况下,元规则能用来描述空间区域的变化。比如, 将果园中的果树按空间分组,如果一棵果树生病状态随时间定期被记录下来,就 能发现果园中每个受影响的空间区,然后通过元规则考察那些区的变化。 此外,b i t t n e r 还研究了时空对象的近似特征描述理论,首先定义时空区域 (s p a t i o - t e m p o m lr e g i o n ) 是由时间和空间成分组成,然后基于时间和空间成分 的拓扑关系定义了时空区域之间的拓扑关系,并使用粗糙集的概念定义了时空区 域之间近似( a p p r o x i m a t i o n s ) 关系,因此可用于信息不完全的时空对象的特征 描述问题【b 】。 4 时空分类和聚类( s p a t i o 1 b m p o r a lc i a s s i f ! i c a t i o na 1 1 dc l u s t e 血g ) 空间分类是找出与空间特征有关的分类模式。e s t e r 等提出一种空间对象分 类的方法【e k s 9 7 】。该算法基于m 3 算法,并且采用邻近图的概念。算法不仅考 虑到本分类对象的非空间属性,也考察邻近对象的非空间属性。k o 口e r s k i 等 fk h s 9 8 】给出了空间数据分类的两步方法,研究了构建空间决策树的有效算法。 该分类算法基于两点:( 1 ) 被分类对象的非空间属性;( 2 ) 描述被分类对象之间 的空间关系和与被分类对象空间相邻的其它对象特征的属性、谓词和函数,并探 讨了两步空间计算技术和空间连接索引技术等。算法首先完成一些粗糙计算,然 后只对有希望的模式进行精确计算。 b r y a n 建立了用于时空信号动态分类的神经网络【s g 9 5 】,l ( a m i j o 研究了基于 时空m r f 模型和贝叶斯网络的交通事件的分类【k s 0 2 】。在时空图像序列处理领 第一章时卒数据挖掘的基础理论 统这一特殊的、具有明确空间特性的时空混杂系统建模和分析等的框架模型。2 1 2 3 时空系统建模存在的问题 采用细胞自动机和实体自动机描述时空系统的主要问题是:首先,细胞自动 机只是一个建模框架,没有明确的计算公式,这就使它只能从宏观上模拟系统的 动态演化过程:其次,细胞自动机中的每个细胞单元的作用规则是相同的,无法描述不同条件下的不同状态变化过程。而实体自动机模型虽然克服了细胞自动机 模型中对移动对象以及空间属性处葡鬯例氮;壤攀了州至两渤j 的每綦隳薯莺鬈; 阿篇篇瑞骚震疆燃哩圳 。 型毫濞璐灌璎攫池嗽哩怠崾麴”酣”翼翳醐射耐射朔烈哟韭寸臻拍酆非,列 蔫謇葺意气蕴致和长期酾看并奔萎二 ”鹭蛙鲫巍耐踺鹅豫美臼d 锊; 薹。i ,囊委囊誉薹篓塑 船确猷l :i ;i j ;明预测技术研究现状 预测技术的发展源于社会的需求和实践,自2 0 世纪3 0 年代凯恩斯提出经济 模型开始,经济预测理论得到全面发展,到8 0 年代随着社会经济系统的日趋复 杂,非线性预测研究取得重大进展。目前为止,科学家们提出的用于解决各类实 际问题的预测方法不下2 0 0 种。这些方法按预测结果的属性不同可分为定性预测 和定量预测两大类 孙9 8 】。定性预测是根据以往经验及影响预测量的各个条件的 当前状态,人为给出预测量的估计值,其优点是简单易行,缺点是具有一定的主 观片面性,常用于历史资料不完备情况下的预测。定量预测是依据充足的统计资 料,用数学方法通过计算给出预测量的较精确的预测值。本文中的客流预测方法 主要是定量预测法。 1 3 1 客流预测方法综述 目前有关客流 预测的研究主要采用两种解决路线。一种是采用市场预测通用模型的短时客 流预测;另一种是采用交通运输专用模型的中长期客流预测。1 市场预测 通用方法1 ) 时间序列模型 一般来说,传 统预测问题采用的主要数学方法是各种时间序列预测( t i m es e r i e s forecastiilg)模型,时间序列模型是统计模型中最常用的方法之一【顾97】。早期的客流短期预测方法的研究大部分是基于时间序列分析的建模,比如,采 用简单的外推预测、平滑预测、移动平均模型、马尔可夫预测以及回归分析法。 研究人员提出了各种改进的时间序列预测模型,以使其更适合于交通运输领 北京交通人学博卜芦垃论史 论等几个领域的交叉学科。单独的空间数据挖掘【k a h 9 6 ,k h a 9 8 ,m h 0 1 ,s h w 0 1 】 和时间数据挖掘【r s 0 2 】的研究在数据库中知识发现( 1 ( d d ) 和数据挖掘( d m ) 研究领域已经引起极大关注,同时研究时间关系和空间关系使数据挖掘任务变得 更加复杂。时空数掘挖掘所面临的重要挑战是研究针对海量时空数据、时空数据 类型、时空数据表示和复杂空间数据结构的高效算法。 当前在有限的关于时空数据挖掘技术的研究中主要采用两种策略,即对空间 数据挖掘进行时问扩展和对时间数据挖掘进行空间扩展。 2 2 1 时间数据挖掘 时间数据挖掘是统计学( 即时间序列分析) 、时间模式识别、时间数据库、 最优化、可视化、高性能计算机和并行处理等学科的交叉领域。 时间数据挖掘是时间数据库知识发现过程中的一个步骤,是关于时间数据的 分析,以发现时间数据库中隐含的时间数据模式和规律。时间数据挖掘技术还能 用于时间数据的自动探测,并导致与时间数据库结合的新方法【w m g 0 1 】。 2 2 1 1 时间数据挖掘的独特性 在时间知识发现的一篇研究文献中数据按时间属性被分为4 种【r s 0 2 】: 1 ) 静态( 时间被外部信息如数据库结构等跟踪) : 2 ) 序列( 时间的排序列表,表达关系如“之前”和“之后”,或被“相邻”、 “重叠”所描述的更复杂的关系) ; 3 ) 周期( 一定间隔的静态数据的时间序列) ; 4 ) 完全时间( 通过事件、过程等综合起来的时间数据) 。 时间数据有两个独特的性质:即相似性和周期性。因此时间数据挖掘领域 主要被研究的两个问题,一个是寻找一个时间序列( 或t d b ) 与另一个指定时间 序列( 或查询) 的相似性问题,或寻找全部相似序列对,另一个是周期问题,即 寻找t d b 中的周期模式。 1 ) 相似问题 搜索时间数据库以找出那些与给定查询序列相似的序列,这类问题称为相似 性搜索问题。时间数据挖掘技术能用来求解相似性搜索问题。求解相似性问题的 主要步骤是:( 1 ) 定义相似度,即具有不同尺度和基线值的序列之间的相似;( 2 ) 选择查询序列,即明确想从大序列( t d b ) 中找出特征还是分类等模式:( 3 ) 预 处理,即在) b 上应用某些统计方法( 如小波变换) 进行数据预处理( 如消除 噪音数据、丢失数据插值) ;( 4 ) 执行近似算法,即依据相似性定义使用数据挖 第一章 时卒数据挖抓的批础理论 掘技术薹鬓喜事薹蘩蒸嚣羹,。 妻嚣摹奏龚问囊馨豁磐接鳃蜊拶丽御擎奎县垂签臻童爨辩h 韭曼; 蛰辩明亚 醮由于客孺黼甏疏岗纂蹇写时间摹商及政治褒济和社i 会环境均有二基群 量舞;群荆f 蠹稽蒯鞘萄一丽载手i 而;平 分能刊淫餐确咒爨鞫霉黔影氢钢毪翩 韵剥剥刷手整强鞯摘采用,犁击摹型一磐田笮j 昙鬻莲:朋稗m 鞴兰删翳薜 髓懿茁甜领 域的专用方法,通 过调查居民出行、城市人口、地理情况、经济能力、不同运输工具分配、出行人 员分类和出行目的以及风俗习惯等因素,进行客流需求预测。这类预测方法基于 事件的因果关系,其主要问题是收集数据困难,主观判断占优,影响因素复杂, 突发事件影响大和模型相对复杂,容易造成由于无法全部细致考虑所有影响因素 而影响预测的精度。 2 短期预测。对于现有路网上的短期预测,主要采用时间序列分析方法, 这种方法通过历史数据对未来做出预测。由于数据本身的规律不同,使用的方法 不同使预测的结果差异很大,特别是对于铁路运输这一因素众多、关系复杂的大 系统,单纯的时间序列分析很难揭示系统内在的本质关系。 3 定性预测。从对一些客运站、分局、路局和铁道部运输局的调研结果看, 迫切需要对春运和节假日期间的客流做出精确的预测,但目前采用的方法主要还 是定性预测法,即根据上年或前几年的客流数据及当时的调度处理结果,并考 虑影响客流的因素变化情况来做出本年度的客流预测和相应决策。 从上面的分析可以看出,当前铁路客流预测研究主要存在以下几个问题: 1 预测方法单一。由于不同模型的适用范围、对数据的要求不同,对于复 杂的经济现象只构建一个预测模型不能满足决策的需要,现有的方法一般考虑对 客流量、客流分布、方式分担等不同阶段采用不同的预测模型,没有考虑就客流 量本身,预测春运、黄金周和运输淡季也需要不同的预测模型,不但要预测全路 的客流,还要预测重点方向、重点地区、特殊人群的客流,为此,应根据具体要 求建立不同时间、不同对象的客流预测模型群才能真正满足需求。 2 忽视实时客流预测研究。虽然目前我国铁路运输的实际情况与城市道路 交通系统相比对实时客流预测的要求还不明显,但随着铁路信息化管理和n 忑技 术的发展,实时客流预测的实际运用会越来越广泛,实时客流预测不仅能反映铁 路运输管理水平,而且有助于运力的合理安排组织和突发事件的预警及处理,是 鹅一章时宅数据挖掘的基础理论 的演绎功能。关系型数据库系统技术中有如下两种空间数据存储方式:( 1 ) 双重 结构。把数据分为两部分:非空间特征部分存放于关系型数据库系统中;空间特 征部分存放于文件中,两者通过标识码关联。( 2 ) 分层结构。在这种结构中,利 用关系型数据库系统所支持的数据类型,在关系型数据库系统上增加一层,以实 现空间数据类型及其操作。 空间数据描述的是复杂对象( 包括空间位置和空间关系) ,而采用关系模型 的数据库系统的数据通常是针对简单数据,用关系型数据库管理空间数据有以下 几个方面的局限性: ( 1 ) 关系型数据库系统管理的是不连续的、相关性较小的数字和字符:而 空间数据是连续的,并且有很强的空间相关性; ( 2 ) 关系型数据库系统管理的实体类型较少,实体间通常只有简单、固定 的空间关系:而空间数据中的实体类型种类繁多,实体间存在复杂的空间关系, 并且会产生新的空间关系; ( 3 ) 关系型数据库系统存储的数据通常是等长记录的原子数据:而空间数 据通常是结构化的,数据项很大,复杂并且有变长记录; ( 4 ) 关系型数据库系统只能操纵和查询文字和数据信息;而空间数据中需 要大量的空间数据操作和查询,如特征提取、拓扑和相似性查询。 3 ) 面向对象数据库系统管理 随着面向对象思想的出现和面向对象方法学的应用,面向对象的思想也应用 到空间数据模型的设计中。按照面向对象思想,每种地理对象都可以被抽象为某 一类具有公共属性的对象,如点、线、面等。具体的地理对象则是该对象的一个 实例,它还具有自己的属性和方法。各种对象分层管理,这样就解决了空间特征 数据与非空间特征数据的一体化管理。空间信息相对于传统数据库处理的一维信 息更为复杂、琐碎,而面向对象的方法为描述复杂的空间信息提供了一条直观、 结构清晰、组织有序的方法。面向对象的数据库管理有下列优点: ( 1 ) 地理对象以对象形式封装,使系统组织结构良好、清晰; ( 2 ) 面向对象的分类结构和组装结构使可以直接定义和处理复杂的地理对 象类型; ( 3 ) 根据面向对象的思想,用户可以在现有抽象数据类型和空间操作箱上 定义自己所需的数据类型和空间操作方法,增强系统的开发性和可扩充性; ( 4 ) 基于图标的面向对象的用户界面,便于用户操作和使用。 面向对象的数据管理技术也有很多不完善之处: ( 1 ) 大对象的操作仍受硬件条件的限制: 北京交通人学阱i 学位论文 ( 2 ) 对象的独立性与粒度问题; ( 3 ) 矢量和栅格数据统一的、支持动念拓扑结构和复合对象表示的面向对 象的数据结构问题。 2 空间数据仓库 像关系数据一样,可以把空间数据集成起来构成一个数据仓库,以便空间数 据挖掘的处理。空间数据仓库是面向主题的、集成的、随时间变化的并且是非易 失的空间和非空间数据的集合,用于支持空间数据挖掘和空间数据有关的决策过 程。 空间数据仓库是对空间数据进行管理的数据仓库,因此,许多学者直接在数 据仓库的基础上对此进行映射定义,它们认为空间数据仓库与数据仓库在体系结 构、主要特征、关键技术上是基本一致的。而m i s 业界的人士则认为空间数据 仓库是将各种空间数据集成在一起,提供给用户,即给用户提供共享的空间数据。 事实上,由于空间数据本身具有的特点给空间数据仓库带来了许多更加复杂的特 性与关键技术。 构造和使用空间数据仓库面临两个问题。首先需要从异构数据源和系统中把 空间数据集成起来。空间数据格式不仅与特定的结构有关( 例如基于光栅向量 的空间数据,面向对象模型关系模型,各式各样的空间存储和索引结构等) ,而 且与特定厂家有关( 例如e r s i ,m a p i n f o 等) 。第二个问题是如何在空间数据仓 库中实现快速而灵活的联机分析处理。星形模式很适合空间数据仓库。 在空间数据立方体中有三种类型的维: ( 1 ) 非空间维,包含非空间数据。 ( 2 ) 空间非空间维,初始数据是空间数据,但其概化值在一定的抽象级别 则变成非空间的。 ( 3 ) 空间空间维,无论初始数据还是所有高一级别的概化数据都是空间维 的。 在空问数据立方体中有两类不同的度量: ( 1 ) 数字度量,仅包含数字数据。 ( 2 ) 空间度量,包含一组指向空间对象的指针。 若一个空间立方体包含空间维但不含空间度量,其0 l 奸操作可以用非空间 立方体的方式实现,若包含空间度量,需要在联机计算代价和存储计算度量所需 额外空间上做出选择,通常有三种方案: ( 1 ) 在空间数据立方体中收集与存储有关的空间对象指针,但不执行空间 度量的预计算。 第二章时守数捌挖掘的肇础理论 ( 2 ) 在空间数据立方体中预先计算并存储一个粗略近似的空间度量结果。 ( 3 ) 在空间数据立方体中有选择地预先计算一些空间度量。 有了空间数据立方体和空间o l 廿的有效支持,基于概化的描述性空间挖 掘,如空间特征化和空间判别可以有效地实现。 3 地理信息系统 地理信息系统是处理地理信息的系统,地理信息是直接或间接与地球上的空 间位置有关的信息,也称为空间信息。地理信息系统还可定义为是“关于空间数 据管理和空间信息分析的计算机系统。”或定义为“用于采集、存储、管理、处 理、检索、分析和表达地理空间数据的计算机系统,是分析和处理海量地理数据 的通用技术。” 与一般的管理信息系统相比,地理信息系统具有以下特征: ( 1 )地理信息系统在分析处理问题中使用空间数据与属性数据,并通过 数据库管理系统将两者联系在一起共同管理、分析和应用,从而提供认识地理现 象的一种新的思维方法;而管理信息系统则只有属性数据库的管理,即使存储了 图形,也往往以文件形式等机械形式存储,不能进行有关空间数据的操作,如空 间查询、检索、相邻分析等,更无法进行复杂的空间分析。 ( 2 ) 地理信息系统强调空间分析,通过利用空间解析式模型来分析空间数 据,地理信息系统的成功应用依赖于空间分析模型的研究与设计。 一个g i s 软件系统应具备虬下基本功能: ( 1 ) 数据输入。数据输入是建立地理数据库必须的过程。数据输入功能指 将地图数据、遥感数据、统计数据和文字报告等输入,转换成计算机可处理的数 字形式的各种功能。 ( 2 ) 数据编辑主要包括图形编辑和属性编辑。属性编辑主要与数据库管理 结合在一起完成,图形编辑主要包括拓扑关系建立、图形编辑、图幅拼接、图形 变换、投影变换、误差校正等功能。 ( 3 ) 数据存储与管理。数据的有效组织与管理是g i s 系统应用成功与否的 关键。主要提供空间与非空间数据的存储、查询检索、修改和更新的能力。矢量 数据结构、栅格数据结构、矢栅一体化数据结构是存储g i s 的主要数据结构。数 据结构确定后,在空间数据的存储与管理中,关键是确定应用系统空间与属性数 据库的结构以及空间与属性数据的连接。目前广泛使用的g i s 软件大多数采用空 间分区、专题分层的数据组织方法,用g i s 管理空间数据,用关系数据库管理属 性数据。 ( 4 ) 空间查询与空间分析。空间查询与空间分析是g i s 的核心,是g i s 最 第三章时中关系烛时守本体研究 3 1 2 空间关系及表示 1 空间关系 空间对象主要有点、线、面三种,空间关系同样分为原子关系和集合关系。 前者表现的是空间对象个体之间的关系,后者表现的是集合中元素组成的一个系 统内部的关系,后者的存在以前者为基础。 对象的空间原子关系大致可以分为以下几种:空间距离关系、空间方位关系、 空间拓扑关系和空间相似关系。空问集合关系主要有空问分布和空间聚类。 1 ) 空间拓扑关系 对空间数据关系的研究最多的是对空间对象的拓扑关系的判定。m “ j e g e n h o f e r 和j o h nr h e 玎i g 的9 一i n t e r s e c i i o n 模型提出了经典的二维空间中任 意两类空间类型之间的拓扑谓词。该模型用空间对象间边界b o u n d a r y ( a ) 、内 部抽t e i i o r ( o ) 和外部e x t e r i o r ( 一) 的九种相交集合的空与非空的组合产生的矩 阵来表示可能的拓扑关系。这种组合共有2 9 = 5 1 2 种,但是一般应用中只会涉及 其中的一个小部分【e g e 8 9 】。假设两个空问特性为a ,b ,通过以下矩阵的比较便 可以得出可能的各种拓扑关系: 广a a nd b 口 aa i lb o oda i l b 一o l a 。da b aa o n b 。aa on b 一a i la n8 b oa n bo da n b 一口j 第三章时,产关东搜时窄奉体研究 2 ) 其次,细胞自动机模型中的网格空间是规则的,即所有的网格大小相同; 而时空本体的最小单元的大小是不同的,它可以是用距离加权矩阵表达的拓扑 关系结构,体现了空间的非均匀性。 3 ) 最后,细胞自动机模型中每一细胞都遵循同样的作用规则做同步更新; 而时空本体中的每一单元所遵循的规则是不同的,例如铁路上的列车在半自动 闭塞区间、全自动闭塞分区及车站内的运行规则是不同的。 因此,我们所定义的时空本体是基于细胞自动机的时空思想框架,继承了细 胞自动机的时空局部性、并行性、空间离散性等特点,但克服了细胞自动机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论