




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深圳市交通小区的划分 北京邮电大学世纪学院 摘 要 本文选题来源于 2011 年全国大学生数学建模夏令营的 D 题,借助于 D 题给出的大量出租车 端记录数据,对深圳市的交通小区的划分做了详细的研究。 首先对于给出的海量数据进行筛选,利用数据库( 005)剔除不合理的数据,分析筛选后 得到 的 数据 , 确定 深圳市的经度在区间 1 1 1 4 5, ,纬度在 2 5, 。 在第一问 题中 , 把 车辆状态从 “0”变为 “1”的点,记为出租车载客的起讫点。同时将深圳市 出租车活跃区域, 按照经纬度 以 小方格。 根据出租车的起讫点,统计每个小方格中的出租车的数量。利用 其进行曲面拟合,从而得到 深圳市出租车数量统计分布图。 在第二个问题 中 , 把第一问中所得到的原始数据 按照 不同差异点 进行分类 :孤立差异点 、 大量聚集差异点 、 大量分散差异点。然后利用 法的基本思想,对数据进行穷举和迭代 优化。经过不断地提高数据的筛选条件,生成完整聚类数据表,剔除弱关联度的聚类数据, 结合深圳市实际地理情况, 最终 得到符合上述差异点分类的交通小区和小区代表点的经纬度。 关键字: 数据筛选,曲面拟合,聚类分析, 法 目录 一、 问题重述 . 1 景资料: . 1 要解决的问题: . 1 二、 问题分析 . 1 采集的出租车 端数据 的分析: . 1 题一的分析: . 2 题二的分析: . 2 三、 模型假设 . 2 四、 符号说明 . 2 五、 模型的建立与求解 . 3 题一的数据筛选: . 3 题二的解决方案及模型 . 4 六、 模型的评价 . 12 型的优点 . 12 型的缺点 . 12 七、 参考文献 . 13 1 一、 问题重述 背景资料: 各大城市出租车越来越多的安装了 端,这些终端能够每隔 1 分钟向出租车管理中心发送本车的位置、速度和方向等信息,是车辆 时数据。原始数据主要保存出租车上装配的 端所采集的数据,这些数据包括序号,车牌号码, 间,经度, 纬度,车辆状态 (空车、重车 ),车辆速度,车辆方向 (8 个方向 )等信息。 以深圳市为例,利用采集出租车 端数据 1,对深圳市交通问题进行分析。 需要解决的问题: 1) 问题一: 根据出租车载客的起讫点,画出深圳市出租车数量统计分布图。 2) 问题二: 根据出租车载客的起讫点,结合深圳市的交通地图,恰当的划分交通小区,并选择小区中的某一点,用其经纬数值作为该小区的坐标。 二、 问题分析 对采集的出租车 端数据的分析: 1. 数据采集时间段为 2011/04/18 2011/04/26,出租车车辆总数为 13798 台。 2. 数 据概况: 数据总大小约 符格式下); 每辆车的数据记录条数约为 5000不等,且波动很大; 因行车环境的影响, 据采集间隔时间周期不恒定。 3. 每个车辆轨迹数据文件均以车牌号命名,数据文件采用 式存储,数据文件由 7 个字段构成,分别如下: 牌号 集时间点 (格式: M/DD hh:mm:度 度 辆状态( 0非打表,即:空载; 1已打表,即:重载) v 车速(单位为: km/h) 车方向 ( 0东; 1东南; 2南; 3西南; 4西; 5西北; 6北; 7东北) 4. 记录范例: 粤 20110:07:53, 0, 0, 0; 粤 20118:13:58, 1, 36, 6; 5. 数据之中含有不合理数据,包括: 1) 错误的打表信息,例如:车辆状态既不是 0,也不是 1; 2) 错误的采集时间信息。例如:在终端数据中出现: 1970/1/1 00:00:00。对于这种现 象,将 记录的打车时间判定为 始化时间。 2 3) 错误的经纬度信息。例如:在实际数据测量数据中,出现了经度纬度都为零,以及一些偏离绝大多数车辆所测得经纬度信息。 问题一的分析: 由于记录的数据具有相似的特点, 对于这种类型的数据,可以 直接 运用005 软件 进行处理 。在确定出租车起讫点之前,首先要剔出采集数据中的错误数据。其次对剩余的数据进行分析,对数据的分布进行总体预估。 按照车辆牌照进行聚类抽样,得到了深圳市内出租车的活跃矩形区域的经纬度为:东经 北纬 而从深圳政府在线上 2得到的深圳市经纬度信息:东经 11346至 11437,北纬 2227至 2252。 由于在采集的数据中,实际测量结果和官方结果的差距不大,对问题的分析没有影响,所以把实际出租车的 量的经纬度的最大范围,认为是深圳市的实际经纬度区间。 因为把 出租车载客的起讫点作为深圳市出租车数量统计分布图的建立依据,于是对上面得到的数据进行第二次筛选。又 车辆状态 ,表示空载; 车辆状态 ,表示重载。于是对每辆出租车,筛选出车辆状态由 0 变为 1 的出租车的经纬度,将这一点作为出租车的起讫点。 根据深圳市实际面积,将其经纬度和纬度结合实际情况进行细化,会得到一些连续的小方格,统计每个方格中出租车的数量。把不同经纬度下出租车的数量作为参考标准,从而做出 深圳市出租车数量统计分布图。 问题二的分析: 问题一中,求得的出租车数量分布统计图。在分布统计图中,设定两个直接相邻的方格和间接相邻的方格中出租车车辆数目之间的关系。利用穷举法和迭代算法,从低经度和高纬度所对应的出租车车辆数 量开始,与周围的方格中的车辆数据相比较,筛选出符合条件的数据,同时记录下相关的经纬度信息。通过比较不同的设定标准,比较出租车的数量分布差异,从而划分出深圳市的交通小区。提高数据的筛选标准,确定代表该小区的点及该点的相关信息。 三、 模型假设 1 假设所有测量的出租车均是在深圳市里行驶; 2 出租车的 样数据是一个可靠的样本; 3 在数据处理过程中不考虑地理因素对结果造成的影响; 4 据中纬度的系统误差在计算时可以忽略; 四、 符号说明 1K:两个相 邻方格数据之间的关系; 2K:两个间接方格数据之间的关系; M :车辆下限; 3 五、 模型的建立与求解 题一的数据筛选: 备工作 前期准备工作,主要围绕着数据的预处理而展开。 由于数据量庞大, 针对该题目的数据,挖掘的总思路是批量型数据用数据库处理,逻辑型数据使用其它软件处理。 本次数据挖掘建模使用到的软件: 1) 005 2) 003 相关组件 3) ) + 中, 要用于处理海量数据的容纳和简单的逻辑筛选; 要用来处理中间数据和生成平面文件,以供其他算法和程序的实现; 要用于算法逻辑和相关程序的实现, 要负责聚类算法的实现。 据的录入方法 在原始数据录入主数据表前,我们需要在主数据表上建立数据索引,包括聚集索引和非聚集 索引,以便之后的数据筛选能更加高效的进行。 原始数据是由若干文本文档组成的,且每个文档中数据很规整,除了第一行是说明信息外,其它行的属性和字段划分清晰。在开始导入前,需要一个包含所有文件名的数据表。这个表可以 在 令行下直接用命令(见附录 )得到。 在使用 入时,以游标捕捉文件名数据表中的文件名 +式导入即可以实现全部统计数据的数据库录入。 据的筛选 数据的第一层筛选: 筛选标准: 1) 删除车辆状态错误的数据; 2) 删除记录时间错误的数据; 3) 删除经纬度信息错误的数据; 4) 删除不正常的打车时间(打车时间大于 5 小时的); 经过以上的 数据筛选 过程 , 可以 得到数据库表 据库操作过程见附录 )。 数据的第二层筛选: 首先,将第一层删选得到的信息导入到新表 中。对预处理后的数据进行打车情况筛选。从 息来看, “车辆状态 0 变化到 1”和 “车辆状态 0 变化到 1”是乘客打车过程的客观反映。因此通过对主数据表中 “0”变 “1”和 “1”变 “0”的数据进行筛选,就能得出乘客上下车的信息表。 然后,根据出租车活跃区域的统计信息,对经度范围 和纬度范围进行划分,将经度由 (a,b)划分为等长度的 140 份,将纬度由 (c,d)划分为等长的 60 份,从而得出 由 140 60 小方格组成的深圳市地图 。其中每一个小方格中是边长约 500 米。 4 最终,以 为源表,基于乘客上下车的信息表,利用数据库,统计每个小方格中出租车的 端数据,从而得出深圳市 出租车数量统计分布图。 筛选结果的呈现通过对原始数据的筛选和归类,将处理完的数据表中的数据导入平面文件,并用 序见附录 二)画出三维图: 0102030405060020406080100120140- 5 0 0 005000100001500020000图一 通过上图不难看出 ,深圳市的出租车活动区域分布极不均匀大多数的出租车只在东南部活动。 题二的解决方案及模型 于上下车表的聚类分析 通过问题一的统计分析,得到了深圳市在一周内的打车量的空间分布表(见附录三)。其中打车量最高区域位于东经 纬 半径 250 米的范围;在一周内的打车数量为 16171 次。统计信息空间分布很大程度上可以和深圳市地图相匹配。 对于得到的样本网格划分,我们可以把 车点的分布信息归结为 3 个聚类特征: (一 ) 孤立 的差异点 (二 ) 大量聚集的差异点 5 (三 ) 大量分散分布的差异点 分别对上述三种类型差异点进行讨论: 1. 对孤立的差异性点: 结合一周内的打车量的空间分布表和实际深圳市地图,以经度范围在1 1 1 1 ( , ),纬度范围在 (2 , 2 )的打车数量为例进行讨论。提取在上述范围内的打车数量信息,得到表一: 表一 经度 纬度 8 68 8 97 289 481 5 12 2 0 37 120 65 34 129 0 0 0 0 0 33 37 57 104 3 0 0 0 0 0 130 103 142 9 1 0 0 0 1 1218 754 81 300 255 1 0 0 2 2693 7716 926 900 510 12 0 0 2 29 674 205 121 209 52 0 0 0 0 1 77 54 63 147 52 0 0 0 0 0 30 48 47 236 0 0 0 0 0 6 68 5 200 根据上表所反映的情况,可以得到在经度为 纬度为 ,该点处所对应的打车数量( 7716)比周围的方格中的打车数量多很多。该样本区间在按照 划分标准下,相当于只有一个孤立的峰值点。对于大范围只有数量极少的差异点的情况,可以采用寻找局部极值的方法找出小区中心,即将该点作为交通 小区的中点。与深圳市实际地图比较,已得到该点为深圳市保安国际机场。 2. 大量聚集的差异点: 参照附录三中打车量的空间分布图可以发现,在经度为 1 1 4 . 0 9 5 , 1 1 4 . 1 4 5,纬度为 2 2 5 , 2 2 5的范围内,每个小方格中的打车数量之间的差异较小,选取这些提取相关信息,得到下表二所示打车信息: 表二 经度 纬度 67 2588 295 1824 3496 1501 381 2636 11 3 781 703 447 1809 2774 2112 3128 870 287 4 986 1575 1708 2672 6380 3577 872 1800 1471 587 6 871 3670 2272 5543 3816 7558 2615 1776 2105 439 419 9362 13204 10911 9971 11473 4777 2668 1097 50 091 10649 14155 13528 10401 2379 588 154 221 107 449 4193 14027 14242 3556 21 3 0 1 0 35 16171 6175 9 0 0 1 0 0 3 8 2 1 1 0 0 2 0 2 6 1 4 0 0 0 1 0 如表中的阴影部分所示,表格中的打车数量大量集中、而且基础数量较大的情 况,可以采用临近点的迭代算法找出范围内聚集点的集合区间,然后通过计算权重得到小区中心。 3. 大量分散分布的差异点: 同样根据附录三中打车量的空间分布图可以发现,在经度区间为 1 1 4 1 1 4 ,纬度区间为 2 , 2 的范围内,打车数量较多的点的分布较前两种类型的点,分布很里离散,提取这些点的相关信息,得到下表三所示打车信息: 表三 经度 纬度 9 226 50 466 1767 167 220 339 311 35 457 1188 780 733 257 90 59 96 138 06 1118 1341 633 1326 614 154 0 25 139 09 901 1544 1069 1792 904 604 308 12 130 57 297 739 666 676 105 876 440 15 168 99 340 471 737 430 691 832 808 302 87 120 260 1055 803 864 546 423 477 37 41 331 1502 685 514 40 306 819 327 71 97 38 330 1075 158 216 114 161 4 46 8 0 336 988 16 20 41 299 由表三,这些点的分布分散,对于大量分散差异点的情况,在定义交 通小区和选取交通小区的中心点的时候,可以采用距离算法找出各个极值点的关联程度,从而确定是否划分到一个小区。 择聚类算法 目前的聚类分析计算方法主要有如下几种 3: 分裂法 ( 层次法 ( 基于密度的方法 ( 基于网格的方法 ( 7 基于模型的方法 ( 这些算法各有优势,像基于分裂法的 法就是一种处理固定聚集数量的基本聚类算法。 由于出租车 据经过网格筛选后,形成的分布表格相对来说可以用网格 +密度分析的算法进行处理,因此选择 法进行数据聚类处理。 法 ( 此算法通过不断生长足够高密度区域来进行聚类;将一个聚类定义为一组“密度连接 ”的点集 3。 该算法的核心思想是,一个给定的数据空间和一组限定条件(阀值),对所有的数据单位,进行穷 举判别,如果数据点和周围的密度 文献 满足限定条件,则像周围的点进行迭代判断,如果当前迭代的单位也符合密度条件,则把它划归到上一次迭代前的聚集。直到所有的点都完成了搜索。 由于采用了迭代的算法,对于某一个初始判断的数据单位,他的迭代深度是和数据本身的分布有关的;因此在输入一个未知的统计数据的情况下,无法确定特定的一个固定条件将会产生多少的聚类。综上,在使用这种算法思想处理数据时,得到的数据结果还需要一层判别处理,对于各个聚类结果在进行一次归并和筛选。 法的化简和简化算法的编程实现 类算法的核心在于找密度阀值的选取。由于该算法是基于迭代搜索,因此可以使用递归的方法进行程序实现。 算法设计思想: 将纬度为 经度为 对应的小方格开始遍历周围所有的的小方格,由于这个方格位于左上角,是数据筛选中的特殊点。因此从该方格下面的那个方格开始进行穷举。从纬度为 纬度为 点开始与周围方格中的数据之间进行密度比较: 如果这个数据比周围的数据大,保留这个数据,遍及周围的数据; 如果周围的数据和这个数据相比,如果两个数据直接相邻,定义它 们之间的关系系数为1 ,两个数据间接相邻,定义它们之间的关系系数为2 。记录下符合要求的点。 将保留的这些点继续向周围遍历,重复步骤 中方法,将这些数据记录下来,最终得到一张优化后的深圳市出租车数量统计图。 算法流程图的具体思想如下: 8 图 2 法程序流程图 程序实现见附录 五 。 9 法处理结果和交通小区的划分 对附录三表中的打车数据进行程序处理,我们得到了 附录四 文件 。 其中,工作表的命名规则为参数 “ 1K ; 2K ; M ”。其中包括了 00、 00、00 和 00 这样 4 组数据表。 通过对上述 4 组不同聚类条件的数据表进行比对,不难发现: 当 1K 2K 两个相邻比例系数取值增大时,数据的聚类条件变高,能划归到一个聚集的片 区总数减少,小区的分布变得更加明朗化,但是由于总数据量的减少,小区边界和中心点的误差将会增大。 同时当车辆下限 M 的筛选条件变高时,由于小型数据的增多,最终数据的极值干扰项的数量将会增加。这是不利于小区划分的。但是 车辆下限 M 的筛选条件若是定的过高同样也会影响小区边界和中心点的确定。 综合考虑,决定以 00 为指标进行小区划分 。 深圳市原始地图 来源于 图 : 图 3 深圳市地图 10 通过 对原始数据进行程序处理,得到的打车密度分布示意图: 图 4 将 上图 4 和实际深圳地图的比较可以得到: 1. 由于 各种地理原因,分布很不均匀; 2. 深圳市的出租车交通分布主要集中在 福田区、罗湖区; 3. 出租车活动交通最繁忙地段位于罗湖区南部。 11 通过对 00 为参数的数据进行程序处理,得到的打车密度分布示意图: 图 5 比
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- XX学校情绪管理主题班会你可以生气但别越想越气
- 白酒行业市场前景及投资研究报告:深度调整期白酒底部机会
- 高一细胞核课件
- 高一物理必修课件
- 高一化学全套讲解课件
- 离婚后财产清算及债务承担补充合同
- 石家庄租车合同车辆使用过程中责任归属界定
- 《婚姻裂痕小说章节:情感纠纷离婚协议》
- 离婚协议书范例:财产分割与子女监护权协议样板
- 离婚协议书样本:车辆分割与子女抚养赡养费支付
- 以气体制备为主体的实验-2025年高考化学专项复习(解析版)
- 护理工作中的冲突与管理
- 北京地区建筑地基基础勘察设计准则
- 《社区调查报告》课件
- 2025-2025学年外研版七年级英语上册教学计划
- 《胸腔穿刺术》课件
- 《人才选用育留》课件
- 农村土地使用权转让协议书
- 任务1 混合动力汽车动力系统基本组成与原理
- 富血小板血浆(PRP)临床实践与病例分享课件
- 华为HCSA-Presales-IT售前认证备考试题及答案
评论
0/150
提交评论