智能交通系统交通流数据质量检测.doc_第1页
智能交通系统交通流数据质量检测.doc_第2页
智能交通系统交通流数据质量检测.doc_第3页
智能交通系统交通流数据质量检测.doc_第4页
智能交通系统交通流数据质量检测.doc_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能交通系统交通流数据质量检测 目录 摘 要 I ABSTRACT II 1 绪 论 1 1 1 本课题研究背景 1 1 2 本课题研究意义 1 1 3 国内外研究现状 2 1 4 本课题研究内容 3 2 交通流特性的相关研究 5 2 1 交通流的概念 5 2 2 交通流的基本参数 5 2 2 1 交通流量 5 2 2 2 平均速度 6 2 2 3 密集度 6 2 3 交通流特性 7 2 3 1 速度 密度 u k 模型 8 2 3 2 速度 流量 u q 模型 10 2 3 3 流量 密度 q k 模型 11 2 4 数据模型概述 13 2 4 1 数据流研究背景 13 2 4 2 不确定数据研究背景 14 3 交通流数据质量检测算法研究 16 3 1 交通流数据质量检测理论 16 3 1 1 交通流数据常见问题 16 智能交通系统交通流数据质量检测 3 1 2 交通数据故障识别方法 17 3 1 3 数据问题的处理方法 18 3 2 故障数据检测算法 22 3 2 1 故障数据检测步骤 24 3 2 2 故障数据检测 26 3 3 特长高速公路隧道交通流故障数据检测 27 3 4 本章小结 30 4 全文总结与展望 31 致 谢 32 参考文献 33 智能交通系统交通流数据质量检测 I 摘摘 要要 随着特长高速公路隧道交通安全研究的深入 特长高速公路隧道实时交通 流数据质量逐渐受到重视和关注 对特长高速公路隧道交通流数据进行故障数 据检测是提高数据质量的关键 在智能交通系统 ITS intelligent transportation system 的大背景下 如何利用丰富的交通检测数据 对现在 的交通流状态 特别是在城市中处于重要地位的快速路的交通状态进行检测 对于提高交通运输效率 特别是物流企业的效率具有重要的理论意义和实用价 值 智能交通系统 ITS intelligent transportation system 运行的基础 是 ITS 数据 当路上采集到的 ITS 数据源源不断地传输到交通指挥中心后 中 心会对数据进行相应的处理和应用 如集成 抽样 压缩 存储 发布等 由 于传输设备故障 路面交通状况和环境因素的异常以及 ITS 设备的连续性工作 特点所引发的间歇性工作故障 都会使所采集的数据出现错误 丢失及不精确 的情况 若直接采用包含有质量问题的数据提供给道路交通应用 必将给应用 带来不稳定和不安全隐患的后果 因此 有必要对 ITS 数据进行质量检测 降 低问题数据对整体数据精确度的影响 保证对 ITS 数据的成功处理和安全应用 就 ITS 数据而言 质量检测意味着用一定的方法产生高质量的数据信息来满足 数据用户的需求 ITS 数据质量检测技术旨在对错误 丢失和不精确等问题数 据进行判别并且给予修正 最终得到更为准确的数据 本文在综合学习相关学者关于交通流故障数据研究成果基础上 针对特长 高速公路隧道交通特点 综合考虑特长高速公路隧道交通流特性 对特长高速 公路隧道历史交通流数据质量进行检测 关关 键键 字字 智能交通系统 数据错误 交通流数据质量 故障数据检测 智能交通系统交通流数据质量检测 II Abstract With the deepening of specialty highway tunnel traffic safety research real time traffic flow data quality expertise highway tunnel gradually more attention and concern the specialty highway tunnel traffic flow data for fault data detection is the key to improving data quality Context of intelligent transportation system the ITS intelligent transportation system how to use the wealth of data on traffic detection traffic flow state especially in an important position in the highway traffic in the city state for testing for improving the transportation efficiency especially the efficiency of logistics enterprises has important theoretical significance and practical value Intelligent transportation system the ITS intelligent transportation system running on the basis of ITS data Way acquisition to the ITS data are continuously transmitted to the traffic control center the center will data processing and applications such as integrated sampling compression storage release Intermittent failures caused due to the continuity of the work characteristics of the transmission equipment failure road traffic conditions and environmental factors abnormal and ITS equipment will make the data collected by an error missing and inaccurate if used directly contains the quality of the data available to road traffic applications bound to the application of the consequences of the hidden dangers of instability and insecurity Therefore it is necessary for the ITS data quality testing to reduce the impact of the problem data on the overall data accuracy and to ensure the success of the ITS data processing and security applications ITS data quality testing means that a certain way to produce high quality data to meet the needs of data users the ITS data quality detection technology is designed to distinguish and give the correct error missing and inaccurate data and ultimately get more accurate data Integrated learning and scholars on the basis of the results of the fault data traffic flow on specialty highway tunnel traffic characteristics considering the expertise highway tunnel traffic flow characteristics the historical traffic flow data quality expertise highway tunnel detection Keywords Intelligent transportation systems data errors the quality of traffic flow data fault data detection 智能交通系统交通流数据质量检测 1 1 绪 论 1 1 本课题研究背景 解决交通问题的传统方法是修建道路 但无论是哪个国家 对于越来越复 杂的交通大系统 单独从车辆或道路方面考虑 都很难完美地解决交通问题 另一方面 信息技术的飞速进步为综合解决交通问题带来了机遇 在此背景下 把车辆 道路及环境综合起来 系统地解决交通问题的思想便产生了 这就是 智能交通系统 ITS 智能交通系统中采集的交通流数据中承载着众多交通信 息 通过对交通流数据进行分析 发掘数据中存在的有用信息 面对智能交通 系统海量的交通流数据 在数据采集或数据传输中由于技术原因或设备原因造 成数据故障 使得数据质量下降 可信度降低 因此需要对智能交通系统交通 流数据质量展开研究 通过数据检测和修正 提高智能交通系统交通流数据质 量 随着特长高速公路隧道交通安全研究的深入 特长高速公路隧道实时交通 流数据质量逐渐受到重视和关注 对特长高速公路隧道交通流数据进行故障数 据检测是提高数据质量的关键 并且随着数据采集技术的提高 目前交通流数 据采集设备采样周期越来越短 并且智能交通安全管理系统对交通流数据更新 时间也越来越精确 在实际交通管理过程中 采集到的原始交通流数据利用率欠佳 美国得克 萨斯州的每 5 分钟时间间隔交通流采样数据样本中将近约 20 的实时交通数据 不能得到有效归档利用 实时的交通流数据信息为交通安全管理与控制提供正 确的交通信息 并为下一个采样周期内交通安全控制策略提供可靠依据 正确 的高效的智能交通安全控制策略又为实时交通提供准确及时的诱导方案 1 2 本课题研究意义 智能交通系统在欧洲也称道路交通信息通讯系统 是基于系统工程 电子 通信 信息等多种高新技术 并已渗透到航空 水运 铁路交通领域的新型交 智能交通系统交通流数据质量检测 2 通系统 ITS 的建立可以提高路网通行能力和服务水平 改善环保质量 提高能 源利用率 国家中长期科学与技术发展规划纲要 2006 2020 中明确提出 发展一个系统 解决三个热点问题 其中 一个系统就是综合运输系统 三个热点问题就是交通能源和环境 交通安全和大城市交通拥堵问题 随着智 能交通系统交通流数据应用研究的深入 采集的交通流数据的质量逐渐受到重 视和关注 对智能交通系统交通流数据进行质量检测是提高交通流数据质量和 数据可信度的关键 因此针对智能交通系统交通流数据质量检测算法展开相应 研究有利于提高智能交通系统的服务效率和服务水平 智能交通系统 ITS 是交通发展的必然趋势 利用交通检测器获取海量信 息 经过有效处理进行信息发布 但在智能交通系统 ITS 交通流数据采集或 数据传输中 由于技术原因或设备原因造成的丢失数据 故障数据或时间点不 规则等数据质量问题 若直接采用具有质量问题的交通流数据进行交通研究 将会为应用带来不稳定或不安全的隐患 通过研究智能交通系统交通流数据质量检测算法 促使交通流数据质量得 到有效控制 可以为智能公共信息平台所提供的交通数据查询子系统提供高质 量的数据支持服务 可以提高智能交通系统交通信息服务平台发布数据的精度 可以为用户提供高质量的实时交通流数据从而提供快速高效的交通决策等 因 此关于智能交通系统交通流数据质量检测算法研究预期成果的应用前景良好 交通流数据质量控制可以给智能交通系统提供有力的数据质量保障和较高的数 据运行效率 预期成果所带来的效益表现为提高道路通行能力和道路服务水平 有利于缓解城市交通拥堵和促进道路交通安全 1 3 国内外研究现状 对动态交通系统所采集到的数据进行研究之前 首先要对数据进行记录检 查 找出负值或缺损数据 然后除去这些记录 宏观交通数据的筛选主要分为 两类 阈值检查和基于交通流理论的检查 以保证数据的有效性完备性等质量 指标 目前应用最普遍的检查就是通过阈值确定数据的有效性 另外 通过应 用交通流理论中交通流参数之间的关系 可以进行进一步更复杂 更深入的数 据筛选 智能交通系统交通流数据质量检测 3 国外自从 Hawkins D 给异常数据本质定义之后 数据检测算法研究慢慢受 到关注 先后由 Rousseeuw 和 Ruts 提出了基于深度算法 Clifford 和 Berndt 提出了基于统计算法 Ng 和 Knorr 进行了基于距离算法研究 Kriegel 和 Breuning 基于密度算法研究还有 Aggarwal 和 Yu 提出对于高维数据进行降低维 数异常检测思路等 Clifford J 和 Berndt J D 将统计学运用到数据异常数据 检测 Ruts 和 Rousseeuw 将空间映射运用到层次划分从而提出了基于深度的数 据检测算法 Breuning 和 Kriegel 将数据聚类算法与数据检测算法相结合 对基于距离检测算法进行改进 赋予了每个数据相应局部异常因子来反映数据 异常程度 提出了基于密度检测算法 Knorr 和 Ng 应用聚类划分提出了基于距 离的数据检测算法 采用设定阈值对数据进行检测 通过各个数据点对应相应 聚类中心距离来实现数据检测功能 Aggarwal 和 Yu 提出了针对高维数据进行 降低维数处理 通过降低维数来实现数据检测算法 将高维数据映射到低维子 空间 并根据子空间的映射数据稀疏程序来判断是否存在异常数据 我国在 ITS 领域的研究起步较晚 但随着全球范围智能交通系统研究的兴 起 进入 20 世纪 90 年代 我国明显加快了对智能交通技术研究的步伐 70 年 代中期至 80 年代初 理论研究重点围绕交通流理论 交通工程学 城市路口自 动控制数学模型等工作展开 技术开发包括点 线 面控计算机软件 北京前 三门交通控制试验系统 天津线控 面控试验系统 信号机 检测器的开发等 80 年代中期至 90 年代初 公路系统的 ITS 理论研究主要有高速公路监控系统 数据模型 交通堵塞自动判断模型 标志和标线视认性研究 驾驶心理研究等 开发应用包括天津疏港公路交通工程技术研究 通信 监控 安全设施 可变 情报板 可变限速标志 通信适配器 通信控制器 紧急电话的研制 广佛高 速公路监控系统 交通和气象数据采集设备的研制 电子收费系统和不停车收 费的试验 以及交通工程 CAD 等 1 4 本课题研究内容 随着智能交通系统交通流数据应用研究的深入 交通流数据质量逐渐受到 重视和关注 对交通流数据进行故障数据检测是提高数据质量的关键 尤其是 交通流各指标值违背交通流指标特性关系而造成的不合理的错误数据 得不到 智能交通系统交通流数据质量检测 4 充分检测 本课题在综合学习相关学者关于交通流数据质量检测研究成果基础 上 针对智能交通系统交通流特性 综合考虑交通流特性 对历史交通流数据 进行聚类 并根据聚类结果进行运算 通过交通流量 速度 时间占有率曲线拟 合 实现智能交通系统交通流数据检测 对于实时交通流数据进行质量检测 包括不规则时间点 丢失数据和故障 数据 针对不规则时间点检测 采用原始交通流数据样本中的时间值与正常情况 下的采集时间点相对比 通过比较容许时间偏差范围进行不规则时间点检测 针对丢失数据检测 采用交通流数据指标进行判断 通过比较交通流数据各指 标参数阈值范围 进行交通流丢失数据检测 故障数据检测 指针对各项指标 均在阈值范围内 但不符合交通流数据特性的故障数据 综合考虑交通流特性 对历史交通流数据按照聚类结果进行交通流量 速度 时间占有率曲线拟合 确 定不规则时间点检测算法和丢失数据检测算法 提出故障数据检测算法 提高 智能交通系统实时交通流数据质量 智能交通系统交通流数据质量检测 5 2 交通流特性的相关研究 2 1 交通流的概念 交通流是指道路上的人 车 货从甲地到乙地的流动形态 其分类如图 2 一 1 所示 没有特指的交通流一般指机动车流 2 2 交通流的基本参数 交通流运行状态的定性 定量特征称为交通流特性 用以描述交通流特性 的一些物理量称为交通流参数 参数的变化反映了交通流的基本性质 表征交 通流特性的三个基本参数分别是 交通流量 速度和密集度 2 2 1 交通流量 交通流量是指在单位时间内 通过道路某一点 某一断面或某一条车道的 交通实体数 对于机动车而言就是车辆数 流量可以通过调查车头时距获得 车头时距 H 指同一地点车辆经过的时间间距 如图 2 2 所示 交通量 q 可 以表示为平均车头时距万的倒数 智能交通系统交通流数据质量检测 6 q q 2 1 H 1 图图 2 22 2 车辆行驶轨迹的时空图车辆行驶轨迹的时空图 2 2 2 平均速度 一般分为地点速度和平均速度 地点速度就是平常所说的瞬时速度 即速 度仪表上某时刻的显示速度 在交通分析中 一般采用的平均速度 v 即观测 t 时间内通过道路某断面的所有车辆速度的算术平均值 v 2 2 t N i i v N 1 1 2 2 3 密集度 密集度 包括占有率和密度两种含义 密度是表示交通流拥挤状态的恰当 指标 它是指一定长度的车道内拥有的车辆数 因此观测困难 在交通控制与 管理中 多采用时间占有率作为参数 智能交通系统交通流数据质量检测 7 2 3 交通流特性 通过特长高速公路隧道各段的数据采集设备获得通过该检测点某个采集时 间间隔内的交通流量 交通速度 交通密度 车头时距 以及时间占有率等特 征指标 在进行交通流特性分析时 采用交通流量 交通速度以及交通密度三 项指标进行分析 由于交通系统中的主要元素车辆和人到达的随机性 这些变 量组成的交通流必然也是随机的 也就是说交通量 速度 占有率三大参数也 是随机变量 当道路通畅 交通流平稳均匀时 由交通流量 交通密度 交q 通速度三项指标得到交通流基本模型 如式 2 3 所示 s v 2 3 s q v 取某特长高速公路隧道交通流实测数据样本 共816组 密度采用实测时 间占有率代替 速度 时间占有率 交通流量实际交通流数据分布如图2 ovoq 3所示 0 100 200 300 400 500 600 700 0 50 100 150 0 2 4 6 8 10 Traffic volume veh h Traffic speed km h Time occupancy 图图 2 32 3 实测交通流实测交通流 v o qv o q 分布分布 智能交通系统交通流数据质量检测 8 2 3 1 速度 密度 u k 模型 在 u k 模型中 每个密度值都对应唯一的速度值 多用于理论研究 q k 模型和 q u 模型则不是 由于流量与密度 速度之间存在密切的相互影响关系 一旦知道了密度和速度 就可以计算出流量 1934 年 Greenshields 从航拍照片中获得了速度和密度的数据 据此提 出了第一个线性模型 而后 Greenberg 认为非线性模型更适合描述交通流的 关系 于 1959 年提出了对数模型 Underwood 关注畅通状态的交通流 提出了 指数模型 分别描述了大密度和小密度状态下的速度 密度关系 后来 有关 研究者提出了 u k 关系的 S 型曲线模型 用一组单段式曲线族来描述 u k 关系 Drew 在 Greenshields 模型的基础上引入了另外一个参数 得到了一个通用模 型 Pipes Munjal 提出了与 Drew 类似但是更加一般化的通用模型 Edie 和 Dick 则考虑在不同流量下各模型的适用性的基础上 提出多段式组合模型 具 体模型见图 2 4 所示 图图 2 42 4 速度速度 密度关系图密度关系图 由于密度数据很难直接采集 而本文主要数据来源于快速路路面铺设环形 线圈 可以直接得到占有率的数据 占有率直接反映了交通密度的高低 更能 表明道路被实际占用的情况 因此多通过占有率来反映密度特征 同时本文研 究 u o 模型来替代 u k 模型 智能交通系统交通流数据质量检测 9 根据对 NX03 检测断面的检测数据进行统计分析 并尽量用一个函数来描 述其关系 u o 散点关系图和拟合曲线见图 2 5 图图 2 52 5 速度 占有率散点关系图及拟合曲线速度 占有率散点关系图及拟合曲线 曲线拟合的具体结果见表 2 1 从图 2 5 和表 2 1 中的具体拟合判决系数 2R 来看 曲线的拟合程度还是比较高的 而且 2R 除了对数拟合模型之外 都 达到了 0 95 左右 而对数模型也达到了 0 85 以上 表表 2 2 1 1 速度 占有率关系的模型回归速度 占有率关系的模型回归 智能交通系统交通流数据质量检测 10 2 3 2 速度 流量 u q 模型 速度和流量数据容易直接采集 因此国内外对速度 流量关系的研究也比 较多 速度 流量模型通常用于评价交通运行状况 估算服务水平 最早且经 典的速度 流量模型是 Greenshields 的抛物线模型 其表达式为 它是在 u k 线性模型的基础上得到的 基本反映了速度和 流量的变化趋势 多年来一直被广泛采用 然而 H B James F L Ha 和 H C Chin 的研究结果表明 根据实际数据来研究 u q 关系 u q 曲线应该分为 三段 第一段表示畅通状况 第二段表示排队后消散过程 第三段表示拥堵 伴随有排队 状况 交通流在畅通状态和拥挤状态之间过渡时并不一定要经 过通行能力 交通状态可以从畅通直接跳到拥挤的状态 给出的 u q 关系如图 2 6 所示 这种曲线并不是某一种函数式 而是从大量的实测数据中分析出的 结果 图图 2 62 6 速度 流量曲线模速度 流量曲线模 考察研究对象 NX03 断面的实际数据 与速度 密度关系的分析方法类似的 对速度 流量散点图进行拟合 由于速度 流量关系种没有密度参数 本文采 取小密度状态 即自由流中的最大流量来划分速度 流量数据群 自由流的速 度为 89 42km h 如图 2 7 所示 智能交通系统交通流数据质量检测 11 图图 2 72 7 速度 流量散点图及其二次多项式回归速度 流量散点图及其二次多项式回归 从图 2 7 中 可以看到速度 流量关系的曲线拟合程度还是相当高的 判 决系数 2R 达到了 0 8854 从散点图来看 可以对交通流状态进行一个初步判 断 速度 流量数据大多主要集中在等待部分 即阻塞状态 在自由流状态的 数据相对较少 主要集中在小密度状态下 而阻塞与自由流之间的过渡过程 即等待队列消散的过程的数据最少 2 3 3 流量 密度 q k 模型 早期的通行能力研究 主要遵循两个途径 一是探讨交通密度小时的速度 流量关系式 二是探讨交通密度大时的车头时距规律 而流量 密度模型把 这两种途径同一起来 并且流量 密度模型在交通控制中也有重要的作用 常 把密度作为控制参数 流量作为目标函数对快速路进行控制 所以经常把 q k 曲线称为 交通基本图表 Greenshields Greenburg Underwood 根据基本 的 u k 模型推导了各自的 q k 模型 此外 Koshi 提出了反 模型 Hall 提 出了倒 V 模型 此外 与多段式 u k 模型对应 一些学者还提出了不连续的 q k 曲线模型如图 2 8 所示 智能交通系统交通流数据质量检测 12 图图 2 82 8 流量 密度关系模流量 密度关系模 由于密度数据难以获得 Aothl 1965 建议使用 q o 关系确定拥挤的发生 根据实地采集的数据所作的 q o 散点图以及拟合曲线如图 2 9 可以看到 流 量 占有率的二次多项式拟合曲线的判决系数 2R 高达 0 9864 拟合程度相当 高 图图 2 92 9 流量 占有率散点图及二次多项式回归拟流量 占有率散点图及二次多项式回归拟 智能交通系统交通流数据质量检测 13 2 4 数据模型概述 近些年来 随着科学技术的不断进步 人们收集处理数据的方式发生了巨 大的变化 一方面 在很多应用中出现了数据流 其广泛存在于网络监控 日 志分析 传感器网络 金融预测等领域中 数据流数据规模庞大 到达速率极 快 且每个数据只能够被访问一次 这些与传统数据模型截然不同的特征给数 据的查询和管理工作提出了新的要求 另一方面 随着数据采集技术的进步 人 们对数据不确定性的认识也逐步深入 在诸如经济 军事 物流 金融 电信 等领域的具体应用中 数据的不确定性普遍存在 不确定性数据的表现形式多 种多样 它们以关系型数据 半结构化数据 流数据或移动对象数据等形式出 现 这同样给数据的进一步处理工作带来了新的挑战 2 4 1 数据流研究背景 有关数据流 data Stream 的聚类分析与异常检测是目前国际数据库领域 的一个研究热点 自上个世纪末以来 随着计算机技术在诸如网络流量监控 金融信息处理 Web访问和传感器网络等领域应用的普及和深入 传统数据库技 术面临新的挑战 数据流应用场景中所处理的数据通常具有如下特点 1 数据都是实时到达的 2 数据到达的次序往往是独立的 不受系统所控制 3 数据流的速度和规模大小不是预知的 也就是说往往不能够对其速度和规模 进行预定义 4 数据一经处理 除非特意保存 否则不能够被再次取出处理 或者再次提取 数据代价昂贵 尽管主要的数据流处理模型与传统数据库技术息息相关 但是两者仍然存 在诸多差异 例如 如果利用传统技术进行数据处理 必须将数据全部存储到 介质 如关系数据库 中 然后通过相应的算法来寻求挖掘结果 但是 当数据 规模宏大且到达速度很快时 因执行查询操作需要大量的I O交换 效率低下 往往难以满足实时性要求 此时 数据流处理技术的解决策略是 不保存整个数 据集 仅维护一个远小于其规模的概要数据结构 该概要数据结构能够常驻内 智能交通系统交通流数据质量检测 14 存 此时数据流挖掘算法将包含两部分 一部分监控流中的数据 实时更新概要 数据结构 另一部分响应用户查询或挖掘处理请求 返回近似查询结果 一般来说 想直接应用传统的OLAP或数据挖掘算法到高速 大流量的数据 流场景中往往是行不通的 其主要原因表现在如下几个方面 1 数据流中的数据是海量的 无法通过内存 甚至硬盘来存储整个流数据 2 由于数据量巨大 无法全部存储的特点使传统的多遍扫描数据的挖掘方法 变得不可行 因此对数据流的挖掘算法应该是一个单遍扫描过程 one passsean 3 数据流是时序的 对流中的数据元素只能按其流入顺序依次读取 如关系 数据库那种的随机访问是不现实的 4 数据流应用要求较快的响应时间 挖掘过程应该是一个连续的过程 而不 是偶然进行一次 5 数据流往往天生就是高维的 High Dimensional 有时会带来严重的 维 度灾难 2 4 2 不确定数据研究背景 在数据流技术研究方兴未艾之时 一种更加广泛存在于数据本身中的问 题一不确定性 uncertainty 近些年来也逐步引起学术界的关注 在此之 前 确定性数据 deterministic data 管理与挖掘技术得到了充分的发展 在确定性数据应用中 数据的存在性和精确性均确凿无疑 然而 近几年来 不确定性数据 uncertain data 在越来越多的应用中扮演关键角色 例如经 济 军事 物流 金融 电信等 而传统数据管理技术无法有效处理这类新 问题 堕需开发新型数据管理技术 不确定性数据的产生原因复杂 例如原 始数据不准确 使用粗粒度数据集合 满足特殊应用目的 处理缺失值 数 据集成等 1 原始数据不准确 这是产生不确定性数据最直接的原因 首先 物理仪 器所采集数据的准确度受仪器的精度制约 其次 在网络传输过程 特别 是无线网络传输 中 数据的准确性受到带宽 传输延时 能量等因素影 响 最后 在传感器网络应用睁s 与RFID应用中 周围环境也将影响原 智能交通系统交通流数据质量检测 15 始数据的准确度 2 使用粗粒度数据集合 从粗粒度数据集合转换到细粒度数据集合的过程 会引入不确定性 例如 假设某人口分布数据库记录了全国各乡的总人 口数 而某应用要求查询以村为基础单位的人口数量 查询结果就存在 不确定性 3 满足特殊应用目的 出于隐私保护等特殊目的 某些应用无法获取原始 的精确数据 而仅能够得到变换之后的不精确数据 4 处理缺失值 缺失值的产生原因很多 例如装备故障 无法获取 与其 他字段不一致 历史原因等 一种典型的处理方法是插值 插值之后的 数据可看作服从特定概率分布 另外 也可以删除所有含缺失值的记录 但是这个操作也从侧面变动了原始数据的分布特性 与以上的单一不确定性产生原因相比 某些应用中的不确定性数据往 往是多种因素共同作用产生的 例如 基于位置的服务 Location一 BasedService LBS 是移动计算领域的核心问题 在军事 通信 交通 服 务业等中有着广泛的应用 LBS应用获取各移动对象的位置 为用户提供定 制服务 该过程存在若干不确定性 首先 受技术手段 例如GPS技术 限制 移动对象的位置信息存在一定误差 其次 某些查询要求保护用户的隐私信 息 必须采用 位置隐私 等方式处理查询 实际上 针对不确定数据的研 究工作已经有几十年历史了 从二十世纪八十年代末开始 针对概率数据库 Probabilisti database 的研究工作就从未间断 这类研究工作将不确定 性引入到关系数据模型中去 取得较大成果 近年来 针对不确定性数据的 研究工作则在更广的范围内取得了更大的进展 即在更丰富的数据类型上处 理更多种类的查询任务 智能交通系统交通流数据质量检测 16 3 交通流数据质量检测算法研究 3 1 交通流数据质量检测理论 3 1 1 交通流数据常见问题 交通流数据常见问题分为数据缺失 数据失真和数据时间点3类问题 针 对这些问题 提出了一种交通流数据质量检验方法 1 数据缺失 由于设备老化 线路故障等原因 交通流数据中偶尔会发生数据点缺失的 现象 属于比较常见的问题 通常是丢失一个时间点的一组数据 虽然丢失的 数据不多 但如果没有及时发现此问题 对于间隔固定行数循环提取数据的交 通流分析方法 有着严重的影响 2 数据无效 数据无效指的是获得的交通流数据有数据突变点或不符合交通流三要素相 互关系 主要依据阈值理论和交通流理论判定数据的有效性 由于无效的概念 比较模糊 相对不易判别 另一个比较常见的问题是 在车流量比较少的时候 常测得不符合实际情况的较高速度 显然是错误数据 需要有针对性地予以处 理 3 数据时间点问题 比如理论上一些交通流数据获取频率应为120s 秒 一次 但实际上间隔通 常小于120s 如1 19s 1 18s等 而且因为网络传输问题 没有明显的规律 可循 经过时间的积累 会带来比较大的误差 如6车道一周的数据理论上应为 6 车 道 30 次 每小时 24 小时 7 天 30240条 而实际获得30462条 多了 222条 即37组 74分钟的数据 此外 还发现交通流数据记录顺序有时会改变 如本来各道路记录顺序 为 1 2 3 11 12 13 会突然改变为 2 3 1 12 13 11 这对于不 识别路段编号 直接间隔固定的行数 循环提取数据的方法也有很严重的影响 智能交通系统交通流数据质量检测 17 如果各个监测点记录顺序的差异较大 没有统一的顺序 就造成了对于不 同的检测点数据需使用不同的分析程序代码 也会给科研人员带来了不必要的 工作量 3 1 2 交通数据故障识别方法 在城市道路交通数据采集过程中 由于存在各种干扰 使采集到的数据信 息常出现丢失和偏离真值等情况 因此要进行交通流数据的质量检测 首先需 要对其中的丢失数据 不精确数据 和错误数据进行判别 1 丢失数据故障识别 无论是固定检测器 还是移动检测器都是按照一定的时间间隔来采集数据 但是在实际情况中 检测器扫描频率不固定 传输线路出现故障 车辆过度密 集造成检测器无法检测车辆等多种原因都会使采集到的交通数据无法严格按照 一定的时间间隔上传 甚至会有部分数据丢失 给以后的数据处理和交通预测 工作带来不利的影响 本文设计了一种丢失数据的识别方法 把在一定时间段 内得到的数据定义成某一时段的数据 例如 将采集数据的时间间隔规定为 5min 则在8 00到8 05这个时间段内得到的数据均视为8 00的数据 然后对数 据的时间段进行扫描 如果在某一时间段内没有得到数据 则认为该时段的数 据产生了丢失 按照第一类数据故障的修复方法对其进行处理 2 失真数据故障识别 当交通检测器或传输线路出现故障时 采集到的数据通常都是错误的 不 能反应真实的交通状况 错误的数据通常表现为0 或是数值超过路段允许的最 大流量 将数值等于0和超过流量允许最大值的数据定义为第二类异常数据 定 义允许的流量最大值为 Q fCT 60 3 1 式中 f为修正系数 C为道路通行能力 veh h T为检测时间间隔 min 由于车辆的计数是在一个相当短的时间内完成的 数十秒或数分钟 所以 测得的随机流量值可能会大于道路的通行能力 因此 用道路的通行能力 C与 修正系数f的乘积来确定流量的最大值 智能交通系统交通流数据质量检测 18 3 异常数据故障识别 在正常交通状态下 网络交通流的变化是一个平稳的随机过程 流量数据 的幅值应该在某一区间内变化 但是当道路中出现交通事件时 流量数据与正 常情况下的数据之间会出现很大的偏差 本文采用t时段之前n个数据的平均值 和方差来识别此类数据故障 当时 认为数据 是正常的 否则认为此时的交通数据为第三类故障数据 3 1 3 数据问题的处理方法 针对以上问题 我们提出了一种交通流数据检验与修复方法 为了方便的 检测数据点的缺失情况 先把数据的时间点标准化 使所有数据具有相同的记 录顺序 然后修复丢失数据和无效数据 本检验程序已使用Matlab 7实现 总 体流程如图3 l所示 图图3 13 1 交通流数据检验与修复方法总体流程交通流数据检验与修复方法总体流程 1 数据时间点顺序标准化 统一记录顺序标准为 由外环到内环 路编号由小到大 标准化后 不但有利 于下一步准确发现缺失的数据 而且也为编写后期分析程序提供了较大便利 算 法的详细流程如下 1 相关变量初始化 2 导入交通流数据 3 初始化交通流数据车道数 编号等特征信息 4 由特征信息确定一个标准车道编号排序 如1 2 3 11 12 13 5 从第1条数据开始 将每2 m in内的数据分为1组 6 将每组内以道路编号为准将数据顺序标准化 7 如组内的数据值小于应有车道数 将相应的数据缺失情况记录到日志文件 智能交通系统交通流数据质量检测 19 8 依次处理每组数据 直至结束 9 输出标准化后的数据至文件 现以北京市环路数据为例 详细介绍本文所提算法的数据处理效果 表3 1 所示为未经处理的2006203204北京市环路交通流原数据的2组 每2min为1组 数 据 来自二环路上编号为02023的检测点 地点为左安门桥西800 m处 表表3 13 1 交通流原数据交通流原数据 检测点检测点02023 02023 由表3 1可以看出 数据库中的数据是按照记录到来的时间先后排序的 并不 是按照道路编号的顺序排序 以表3 1所示数据为例 所示数据道路顺序为 1 12 13 11 2 3 而且此顺序还可能会因为线路传输等问题产生变化 这 就给数据的使用带来了很多不便 我们通过1 2所述的方法将其标准化为 1 2 3 11 12 13的顺序 效果如表3 2所列 智能交通系统交通流数据质量检测 20 表表3 23 2 顺序标准化后的交通流数据顺序标准化后的交通流数据 检测点检测点02023 02023 虽然修正了时间点顺序 但因未检测缺失的数据 这会导致数据读取时造成 了 串行 的现象 需要在下一步进行解决 2 缺失 无效数据的判别与补充 将数据时间点标准化后 再判别缺失或无效的数据 并予以补充 通过线性 插值法对错误数据和丢失数据进行修正和补齐 若tj对应的数据组是错误数据 ti和tk分别是与tj最为接近的左邻和右邻正确数据组对应的时间点 则 3 2 式中 xtj为tj所对应的交通量 速度和占有率修正后的数据值 算法的详细流 智能交通系统交通流数据质量检测 21 程如下 相关变量初始化 导入标准化后的交通流数据 初始化交通流 数据车道数 编号等特征信息 依据标准数据判断数据是否缺失 如缺失 则依据线性插值法补充数据 判断数据的有效性并修正 依次处理每组数 据 直至结束 输出标准化后的数据至文件 此交通流数据检验与修复方法的 整体流程如图3 2所示 图图3 23 2 交通流数据检验与修复方法整体流程交通流数据检验与修复方法整体流程 经过上一节的数据时间点标准化后 再对标准化后的数据进行缺失 无效数 据的判别与补充 如在表1 表3 2中第2组缺失的11车道数据使用线性插值法得 到了补充 如表3 3所列 表表3 33 3 修复缺失的交通流数据修复缺失的交通流数据 检测点检测点02023 02023 分别打开原始数据与完成修正的数据 可以发现修正数据的时间点已被标 准化 实现了统一的记录顺序 并且之前缺失或无效的数据也得到了补充和修正 智能交通系统交通流数据质量检测 22 处理后的数据即为最终完成修正的数据 将原始数据与最终完成修正的数据进行 比较 效果分别如图3 3 图3 4所示 图图3 33 3 05 05 0000 09 09 0000原始数据与修正数据对比原始数据与修正数据对比 图图3 43 4 15 15 0000 19 19 0000原始数据与修正数据对比原始数据与修正数据对比 3 2 故障数据检测算法 利用最小二乘法对历史交通流数据进行离线曲线拟合 对实时交通流数据 进行在线故障数据检测 对交通流密度 速度和流量三项指标进行综合检测 智能交通系统交通流数据质量检测 23 即基于交通流量 速度 时间占有率的交通流故障数据检测算法VSO ADDM Abnormal Data Detection Method based on the Traffic Volume Traffic Speed and Time Occupancy VSO ADDM 首先 根据原始交通流数据进行统计 分析 确定相应指标变化均值 其次 得到不同速度均值对应的平均流量值 按照速度值进行变换 得到一致的平均密度 平均速度和平均流量值 并对其 进行曲线拟合 然后根据均方差进行阈值估算 得到一定确信度的安全区域和 待定安全区域 在安全区域范围内数据为正常数据 待定安全区域数据再次进 行二次检测 超出待定安全区域数据认定为交通流指标间不合理异常数据 即 故障数据 MATLAB 作为一种应用广泛的科学计算软件 不仅可以通过直接交互的指 令和操作方式进行强大的数值计算 绘图等 还可以像 C C 等高级程序语 言一样 根据自己的语法规则来进行程序设计 编写的程序文件以 m 作为扩 展名 称之为 M 文件 通过编写 M 文件 用户可以像编写批处理命令一样 将 多个 MATLAB 命令集中在一个文件中 既能方便地进行调用 又便于修改 还可 以根据用户自身的情况 编写用于解决特定问题的 M 文件 这样就实现了结构 化程序设计 并降低代码重用率 实际上 MATLAB 自带的许多函数就是 M 函数 文件 MATLAB 提供的编辑器可以使用户方便地进行 M 文件的编写 本课题采用 MATLAB M 文件编程实现故障数据检测算法 具体操作步骤如 下 先打开 MATLAB 如图 3 5 所示 智能交通系统交通流数据质量检测 24 图图 3 53 5 MATLABMATLAB 原始界面原始界面 然后新建 M 文件编程 File New M File M 文件如图 3 6 所示 图图 3 63 6 M M 文件编程文件编程 智能交通系统交通流数据质量检测 25 3 2 1 故障数据检测步骤 故障检测部分分为历史交通流数据离线曲线拟合 得到相应阈值 在线获 得实时交通流数据 对其进行在线检测 历史交通流数据样本 首先对其进行 聚类分析 确定其高速交通流聚类中心和低速交通流聚类中心 然后确定不同 速度安全区域范围 通过判断交通流数据所处的区域进行检测 最后对检测结 果进行按误差比纠正偏差 Step1将原始数据样本按照高速交通流速度和低速交通流速度进行更新数 据 将原数据更新为对应高速交通流速度的高速交通流和低速交通流速度的低 速交通流 按照时间占有率对平面进行区域划分得到 L 个区域 按照平均速度 和分别进行流量调整 获得不同速度条件下不同占有率的平均流量值 Step2按照平均时间占有率 平均交通流量进行曲线拟合 得到相应平均 速度对应的拟合曲线 拟合曲线将 L 个区域又划分为高区域和低区域共 2Lqo 个 高速交通流子区域 按照平均时间占有率 平均交通流量进行曲线拟合 得到相 应平均速度对应的拟合曲线 拟合曲线将 L 个区域又划分为高区域和低区域共 2L 个低速交通流子区域 Step3高速交通流子区域上半平面交通流均值以及高速交通流子区域下半 平面交通流均值 低速交通流子区域的上半平面交通流均值以及低速交通流子 区域的下半平面交通流均值 Step4对高低区域上下半平面各点均方差运算确定安全区域边界值 得到 针对原始历史交通流数据的高速安全区域最高边界值 最低边界值和低速安全 区域最高边界值 最低边界值 Step5对高速安全区域和低速安全区域各自最高边界值和最低边界值分别 进行曲线拟合 得到交通流量的高速安全区域上下限曲线以及低速安全区qo 域上下限曲线 Step6当时安全区域范围为 h o i vvl v 当时安全区域 downooupoo iiii Lsfvofvo o i vvl 智能交通系统交通流数据质量检测 26 当时安全区域 downdownooupoo iiii Ldflvoflvo o i vvh updownooupoo iiii Ldfhvofhvo Step7若 该数据归为正常数据 转 ooodownup iii qvoLsLdLd 到 step9 若 则暂时将该数据归为待定故 ooodownup iii qvoLsLdLd 障数据 转到 step8 Step8当为待定故障数据时 需要进一步进行误差比计算 ooo iii qvo 若误差比 则将该数据纠正为正常数据 否则确定为故障数据 5 Step9数据为正常数据 保存更新交通流数据 本次检测结束 由于交通 流数据样本越多 对数据检测算法越有效 因此可根据实际需要选择每天或每 周进行一次样本数据更新 从而不断更新完善安全区域边界值 3 2 2 故障数据检测 待检测数据为 原始数据交通流量 则该数据为正常 iiii xq v o o i qLs 数据 当 则

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论