数据挖掘子系统.docx_第1页
数据挖掘子系统.docx_第2页
数据挖掘子系统.docx_第3页
数据挖掘子系统.docx_第4页
数据挖掘子系统.docx_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘子系统概述 数据挖掘子系统对交通管理系统中大量各种静态和动态的数据采用关联、分类和预测等数据挖掘方法,定义拥堵模型,判定和预测交通拥堵,分析道路交通状况和违法、事故原因、增强指挥中心作战反应能力。1.1 交通数据的特点智能交通系统的交通数据来源广泛、形式多样,包括动态的交通流数据和智能交通子系统的管理控制数据,以及静态的道路环境数据等。智能交通系统管理和控制的对象是交通流,交通流数据是按时间顺序采样得到的一系列数值型数据序列,是交通系统中最重要的数据。智能交通系统记录了大量交通信息,如电子警察系统将交通违法车辆的违法行为过程用图像和数据记录下来,提供交通违法信息,包括车辆违法地点、违法日期、违法时间、违法类型、违法参数、违法车辆全景图像序列、违法车辆牌照图像;交通事故接处警系统提供报警时间、报警地点、报警电话号码以及相关的交通事故信息;交通信号控制系统提供与路口有关的运行状态、色步递进信息等。道路环境信息有路网拓扑、道路路面信息、通行能力、主线限速标志,异常事件(如施工等)、天气环境、公交信息、车辆信息、驾驶员信息等,某些道路环境信息无法从现有系统中得到,需通过人工方式收集或从其他系统中集成。智能交通系统的交通数据分布于不同的交通信息系统,完成不同的交通管理和控制功能,具有异构、层次性的特点。图1显示了交通信息的层次结构,交通信息由低级到高级可划分为四个层次,包括现场级信息、区域级信息、功能管理系统信息和综合指挥信息。1.2 交通流根据不同的信息采集技术,ITS中交通流数据分为地点交通流数据和路段交通流数据。地点交通流是用安装在固定地点的交通检测器设备监视移动的车辆,获得的是检测器设备设置点的交通信息,一般得到交通流量、速度及占有率等交通数据。基于磁频技术的感应线圈检测器具有测量精度高、适应性较强、故障率低及较低的价格的优点,是当前主流的固定型交通流采集技术。路段交通流是运用安装有特定设备的移动车辆的移动定位获取交通信息,移动检测设备记录车辆的移动信息,通过车辆的移动信息可计算路段内的交通信息。如基于GPS的移动定位技术可获得车辆的经纬度坐标和速度方向,通过计算可提供车辆的瞬时速度、行程时间、行程速度等交通信息。交通流是一类时间序列数据,时间序列数据的挖掘,通常关注时间序列的演变模式,即在时间序列数据中寻找数据随时间变化的规律或趋势并对其建模,包括时间序列趋势分析、周期模式匹配等。演变模式用于时间序列中的数值型数据的预测。交通流数据还具有时空相关性,交通流量等数据只有与一定的时刻及道路相联系时才有意义,智能交通信息时空规则的挖掘对智能交通系统的预测具有重要的应用价值。2 交通数据挖掘系统结构2.1 系统模型数据挖掘过程分为数据准备、模式发现、结果表达和解释三个主要阶段,图2给出了交通数据挖掘的系统模型。ETL及数据预处理为交通信息的模式发现提供一个干净、一致、集成、归约(reduction)的数据集交通信息数据仓库。数据挖掘任务管理在数据挖掘算法集中选择完成挖掘任务的算法,在交通数据仓库中选择挖掘算法应用的数据,执行相应的挖掘操作,将挖掘得到的模式保存到交通信息模式库。模型分析管理是交通数据挖掘系统与其他智能交通系统的应用接口,并接收应用系统的反馈信息对交通信息模型库的模式进行解释与评价。2.2 交通数据集成交通数据种类繁多,分布在各种智能交通应用系统中,具有异构、层次的特点,交通数据挖掘需要将各种交通数据从操作数据库中抽取出来,经过清洗、转换、装载等一系列处理,集成到一个统一的本地交通信息数据仓库。数据仓库为数据挖掘提供有效的数据处理平台,许多数据挖掘功能,如分类、关联、聚类等,都可以与各种粒度的多维数据分析OLAP操作集成,在多个抽象层上交互数据挖掘。2.3 多层体系结构交通数据挖掘系统的系统模型提供了一个多层的应用体系结构,将数据挖掘功能的实现分为应用层、分析逻辑层、算法工具层和数据层。应用层是用户调用分析逻辑所设立的分析功能的入口,分析逻辑则表现了应用系统的分析能力。多层体系结构能够在跨平台、网络环境下应用,应用系统可以根据需要采用灵活的方式,如B/S、C/S等。 在交通数据挖掘中,分析功能的抽取及响应、数据挖掘算法的选取、设计是一个难题,需要交通系统的利用知识和数据挖掘技术的紧密结合。分析逻辑层将分析模型从实际分析需求中提取出来,完成一定的独立分析功能,由一个或多个数据挖掘算法具体实现,每个分析模型都是独立的功能单位。算法工具层集中了交通流分析需要的算法及相关计算工具,如挖掘各种模型的数据挖掘算法、统计方法、相似性度量方法等,是各个独立的算法工具的集合。在算法工具层,除了数据挖掘算法外,还应当由数据挖掘算法所需要的辅助工具,如对于聚类算法,相似性度量或距离函数是关系到聚类质量的核心问题,不同的相似性独立或距离函数针对不同的数据或分析目标,在算法中可以根据需要来选择配置。3 挖掘模型3.1 预测模型交通预测包含多个层次:基础数据层的交通流数据的预测;基于特征属性层的交通流性质预测、交通事件及事件类型预测、道路拥堵情况预测;基于状态描述层的路网服务水平、事态发展预测和事件影响评估等。在智能交通系统中,识别和预测交通流的状态可以对交通流进行有效的监控和管理,对于智能交通系统的实时交通信号控制,交通分配、路径诱导、自动导航,事故检测等具有非常重要的意义。目前,基础数据层的交通流量预测已取得了很多研究成果,如ARIMA、神经网络、非参数回归模型9,10,11。在特征属性层和状态描述层反映交通系统发展变化的阶段、层次、水平或趋势等的预测模型还需要更进一步的研究。3.2 分类模型分类模型是数据挖掘中应用领域非常广泛的数据模型。分类是根据数据集的特点构造一个分类器,利用分类器对未知类别的对象赋予类别的一种技术。假设交通流数据集R,交通流分类特征集P=p1, p2, pk,,建立R到P的映射f: RP使R中的每一个交通流对象与P中唯一一个pi对应,则f称为交通流数据的分类模型,或简称分类器。分类模型的建立一般有训练(或学习)和测试两个步骤。在训练阶段,通过分析或学习训练数据集的特点创建一个分类模型;在测试阶段,利用测试数据集对创建的分类模型进行测试,判断模型的分类准确度。若准确度达到要求,则模型建立成功,分类模型用来对类标号未知的数据元组或对象进行分类。分类是一种重要的数据挖掘技术,分类算法的研究也取得了很多成果。如决策树分类算法ID3、C4.5,基于概率统计的Bayes分类方法NB、TAN,BP神经网络方法、基于关联规则的分类方法CBA,基于模糊逻辑的分类方法等。分类模型通常用规则、判定树或数学公式的形式表示。决策树分类模型是一个类似于流程图的树结构,是分类分析中最受欢迎的模型,可以方便地用图形化的方式表现挖掘的结果。决策树的每个分枝都对应一个分类规则,因此决策树分类算法最终可以输出一个容易理解的规则集。利用决策树对未知的数据对象分类,将数据对象的属性值在决策树上从根部开始测试,每个分枝代表一个测试输出,每个内部节点表示在一个属性上的测试,根据各个分枝逐级下降,直到叶节点,决策树的叶节点代表类标号。交通流可以有不同的分类特征P,因此交通流分类模型的建立也需选择不同的相关属性,删除训练过程中与分类任务不相关的属性。不同的分类算法也会建立不同的交通流数据分类模型,已有研究利用神经网络的方法和模糊逻辑的方法建立了数据流数据的分类模型。模糊逻辑的方法可以得到一组容易理解的如ifthen的分类规则;而采用神经网络方法进行训练,得到的是一个优化的神经网络模型,这个优化的神经网络模型可以对新的数据进行分类,但其分类规则是不可理解的。3.3 关联模型关联规则是形如的模式,一般用支持度和置信度两个指标来描述一个关联规则。关联规则可以发现数据项之间的相关联系。交通流信息是时间相关和空间相关的,具有时空特性,例如,流量数据只有在与一定的时刻及路口相联系时才有意义。空间数据是主要指数字地图、遥感数据、医学图象、交通控制、环境等领域大量出现的与空间有关的数据,包含的空间信息有距离、拓扑结构等。对空间数据的关联分析可能会得到“88%的医院门口30米范围内有一家鲜花店”的规律。时空数据的数据挖掘模型包括时空元规则、时空范化、时空聚类和关联、演化规则等,空间关联规则是根据空间谓词而不是根据项来定义的。智能交通信息时空规则的挖掘对智能交通系统的预测具有重要的应用价值,例如,时空关联规则:“在T1到T2时间段内高速路X的A站点的交通事故在T2+2到T2+3时间段内高速路Y的B站点有不寻常的高交通流量。”4 实现方式视频数据挖掘技术的实现方式可分为前端设备实现方式和后端设备实现方式两种。前端设备实现方式是指在各种前端监控设备中集成智能视频分析技术,以实现视频信息的实时挖掘;后端设备实现方式是指利用后端服务器集群,对前端监控设备采集的视频信息进行数据挖掘。一般而言,前端设备实现方式的优点是可以对视频数据进行实时分析,并具有根据视频分析算法的需要对前端设备进行成像控制的能力,对于信息实时性或者视频成像特性有特定要求的数据挖掘技术更适合用前端设备实现方式。视频数据挖掘技术可以根据需要在DVS、DVR、IP摄像机及网络球机等多种前端设备中集成。视频数据挖掘技术的后端实现方式的优点在于可以利用服务器集群提供更强大的处理能力,并可同时对多路视频数据进行处理实现多路视频数据之间的信息融合,视频数据挖掘技术在后端服务器集群中实现。云计算平台由于具有高度的灵活性及扩展性,是视频数据挖掘技术后端实现方式优秀的承载平台,随着云计算技术的发展及成熟,或许在不远的将来,云计算平台将在视频数据挖掘技术中有大量应用。不同的视频数据挖掘技术根据其应用及技术特点需要采用不同的实现方式。有的信息对于实时性及处理能力的要求不高,用两种方式都可以实现数据挖掘,例如视频质量信息及统计类的信息。而有些信息的应用对于实时性有较高的要求,或者在数据挖掘的过程中需要对成像设备进行控制,这类数据挖掘技术就适用于前端设备实现方式,例如,事件语义信息的提取,这类信息一般以报警的方式呈现给用户,用户需要及时的获取这类信息以做出应对,这类信息的挖掘技术就适合用前端设备实现。又例如,车牌信息的提取及人脸图像的检测,一般需要对成像设备进行实时的控制,例如摄像机的曝光时间、摄像机增益值等,以获取高清晰度的图像并保证所获取信息的精确度,因此这类数据挖掘技术在前端摄像机中实现具有较大的优势。有一些数据的挖掘过程中需要系统提供很强的计算能力支撑,或者需要对多路视频数据进行信息融合,这类数据挖掘技术就适用于后端实现方式。例如公安部门在刑侦工作中需要用到的目标特征信息在刑侦过程中,需要在较短的时间内完成对海量视频数据中具有一定特征的目标进行检索。在这类应用中,需要系统在短时间内完成对海量视频数据中的目标特征进行提取及检索,因此利用服务器集群的后端实现方式就可以提供高密度计算能力的支撑。又例如,对人员身份信息的检索,用户需要输入目标人员的人脸图片在海量视频数据中对该目标人员进行检索。在这类应用中需要对海量视频数据进行人脸检测并建立人脸特征库,并在人脸特征库中检索出特征相似的目标,由于涉及多路视频数据的信息融合建立人脸特征库,因此需要应用后端实现方式。此次项目中根据项目需求建议使用后端数据挖掘方式实现数据挖掘技术。数据挖掘流程视频数据挖掘的目的是建立底层视频数据到高层语义信息之间的映射关系,由于这种映射关系比较复杂,一般采用多层次的信息提取及映射技术来最终实现数据挖掘过程,其信息提取的层次模型可以由图3表示。在视频数据挖掘过程中,从底层的视频数据中首先提取低层图像特征信息,包括图像纹理、图像色块、运动矢量、图像边缘、灰度直方图等信息,这类信息无法为我们所直接理解,它们是提取元语义信息的基础。然后利用目标检测、目标跟踪、特征比对等手段从图像特征中提取元语义信息,包括运动目标、运动目标轨迹、车牌图片、人脸图片等,这类信息已经可以为我们所理解,但是离最终应用还有距离。最后将元语义信息融合为高层的语义级描述信息,例如融合运动目标轨迹信息及用户设计的禁区信息所生成的描述内容为“发现有人闯入禁区”的语义级报警信息,再例如融合目标行人目标检测信息及运动轨迹信息可以生成客流量统计报表随着提取信息的层次越高,其包含的信息量逐步减少,其信息的抽象程度越高,也更接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论