交通数据挖掘研究_第1页
交通数据挖掘研究_第2页
交通数据挖掘研究_第3页
交通数据挖掘研究_第4页
交通数据挖掘研究_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

交通事故因素分析与预防[摘要]城市的不断发展已经导致城市交通事故的频繁发生, 能否对已发生事故做出正确的分析将直接影响到能否对未来类似事故的成功避免。 本文提出一种使用数据挖掘领域中的多维关联规则技术和概率统计学中的多元线性回归模型分析大量交通事故记录的方法, 通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,并得出直观的参数函数 ,使得交通管理人员或城市规划者能在交通管理中方便地运用这些函数, 不但可以对交通事故的产生做定量性的分析,还可以采取相应的有效措施。[关键字]数据挖掘、多维关联规则、多元线性回归、交通事故TheAnalysisandPreventInTrafficAccidents[Abstract]Thedevelopmentofthecityhasledtothefrequentoccurreneeoftrafficaccidents.Whetherwecananalyzethoseaccidentscorrectlyinthepastwilldirectlydeterminetheavoidaneeoffutureonesofthesimilarkind.Inthispaper,weintroduceamethod,includingmultidimensional associationruleinthefieldofdataminingandmultipleregression,helpsanalyzethelargeamountsoftrafficaccidentrecords.Withthismethod,weareabletofindouttheunderlyingrulesintrafficaccidentsthroughsearchingthecombinationoffrequentfactorsthatprobablyleadtotrafficaccidentsandgetafunctionaboutthem.Inaddition,armedwiththefunction,peoplewillbeabletotakeeffectiveactionstoprohibittheanticipatedaccidentsinrealworld.[KeyWords] DataMining;MultidimensionalAssociationRule;MultipleRegression;TrafficAccident[引言]城市的不断发展已经导致城市交通问题日益突出, 交通事故频繁发生,而能否对已发生事故做出正确的分析将直接影响到能否对未来类似事故的成功避免。 目前的分析方法大多是使用数据挖掘领域中的关联规则技术分析大量交通事故的记录, 通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,所得到的结果都是一组规则集合 {Ai=>Bi(support,confidence),i=1,2,3,, },通过这组规则我们能得知什么样的条件对交通事故的发生起多大的影响, 但这并不足以起到预防的作用。 一些既成的条件只能让我们对一些事故多发地带提高警惕, 而无法从根源上降低事故发生率, 避免经济损失。只有消除对事故发生起影响的条件,既在城市规划和道路交通设计时就避免产生那些条件, 这样才能真正起到预防作用。而前面的那些规则在这方面运用并不方便,难以运用于实际工作中, 无法提供有效的建议,从而降低交通事故的发生率。 而本文在借助数据挖掘领域中的多维关联规则技术对交通事故记录进行分析的同时,又对分析结果使用多元线性回归模型进行处理,从而得到较为直观的参数函数,其使用方便,能有效广泛地运用在实际工作中, 为城市规划和道路交通设计提供合理的建议,从根源上消除交通隐患,减少交通事故,挽回经济损失。[基本思路]交通事故原始数据理清据标准数据模型算o21-D方体和频繁21-谓词集支关、维度多则信生规多维关联规则以属性为参数的函数理清据标准数据模型算o21-D方体和频繁21-谓词集支关、维度多则信生规多维关联规则以属性为参数的函数[建立模型]除去方法中的数据模型是根据公安部目前使用的道路交通事故信息采集项目表建立的,一些多余信息,总结出了下述关键属性进行分析:除去A事故类型:轻微刮擦(Aoi)、人员受伤(A02)、人员死亡(Ao3)A天气:雨、雪、雾、晴、大风、阴、沙尘、冰雹、其他A2照明条件:白天、夜间有路灯照明、夜间无路灯照明A3能见度:50米以内、50-100米、100-200米、200米以上A4地形:平原、丘陵、山区A5在道路横断面位置:机动车道、非机动车道、机非混合道、人行道、人行横道、紧急停车带、其他A6路表情况:干燥、潮湿、积水、漫水、冰雪、泥泞、其他A7路面情况:路面完好、施工、凹凸、塌陷、路障、其他A8道路类型:高速公路、一级公路、二级公路、三级公路、四级公路、等外公路、城市快速路、一般城市道路、单位小区自建路、公共停车场、公共广场、其他路A9公路行政等级:国道、省道、县道、乡道、其他A10路口路段类型:三枝分岔口、四枝分岔口、多枝分岔口、环形交叉口、匝道口、普通路段、高架路段、变窄路段、窄路、桥梁、隧道、路段进出处、路侧险要路段、其他特殊路段A11道路线形:平直、一般弯、一般坡、急弯、陡坡、连续下坡、一般弯坡、急弯陡坡、

般坡急弯、一般弯陡坡、A2道路物理隔离:无隔离、中心隔离、机非隔离、中心隔离加机非隔离A3路面结构:沥青、水泥、沙石、土路、其他A14路侧防护设施类型:波形防撞护栏、防撞墙、防撞墩、其他防护设施A5交通信号方式:无信号、民警指挥、信号灯、标志、标线、其他安全设施A6交通方式:大客车、小客车、(外籍客车)、大型货车、小型货车、(外籍货车)、汽车列车、三轮汽车、低速货车、其他汽车、摩托车、拖拉机、其他机动车、自行车、三轮车、残疾人专用车、畜力车、助力自行车、电动自行车、其他非机动车、手推车、步行、(乘汽车、乘摩托车、乘其他机动车、乘非机动车、)其他A17车辆合法状况:正常、未按期检验、非法改拼装、非法生产、报废A8车辆安全状况:正常、制动失效、制动不良、转向失效、照明与信号装置失效、爆胎、其他机械故障A9车辆行驶状态:直行、倒车、掉头、起步、停车、左转弯、右转弯、变更车道、躲避障碍、静止、超车、其他A20车辆使用性质:公路客运、公交客运、出租客运、旅游客运、一般货运、危险品货运、租赁、其他营运、警用、消防、救护、工程救险车、党政机关用车、企事业单位用车、施工作业车、校车、私用、其他非营运[多维关联规则]Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。它使用一种称作逐层搜索的迭代方法,使用频繁k-项集(集合中含有k项,并且这k项的组合出现的频率高于预先给定概率值)去寻找频繁(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L,Li用于找出频繁2-项集的集合L2,而L2用于找出L3,如此下去,直到不能找到Lk,即频繁k-项集。由于模型中的属性有多个,所以我们不能简单地使用 Apriori算法进行分析,而要对其进行修改,从而能在多维数据中找到所有的频繁 k-谓词集,而不是频繁k-项集。这在里我们要用到数据立方体这个数据结构, 它是由方体的格组成,方体是多维数据结构,它用于存放对应n-谓词集的计数。0-D(顶点)方体1-D方体2-D0-D(顶点)方体1-D方体2-D方体n-D方体首先,构造0-D方体:它只有一个格,记录着记录总数;然后,构造1-D方体:它只有一个维度,每个格记录的为当前属性取相应值的记录数。构造完全部1-D方体后,我们要对除1-D方体(A。)外的其它1-D方体进行处理,既根据其记录数的多少对相应属性所取的值进行从小到大排序,分别记为 Ai,A2,” ,Aik。例如:取值1L1取值取值1L1取值2L2取值3L3取值kLk属性A记录数取值3L3Ai1取值kLkAi2取值2L2Ai3取值1L1Aik属性A记录数记号因为我们所要找的规则是A=>A0,而1-D方体中,除1-D方体(Ao)外,均不包含谓词A。,故将其均视为频繁1-谓词集,不进行过滤。接着,构造2-D方体:我们的目的是找到类似为 A=>A0,的规则,所以构造出来的方休必须包含属性Ao,否则通过它得出的规则也是我们不感兴趣的。故此在构造 2-D方体时,我们可以做一些特殊的处理,既只将 1-D方体(Ao)与其它1-D方体连接处理,而不将其它方体两两连接处理,这样既减少了工作量, 又不置于丢失有用的信息。 对1-D方体(Ao)和1-D方体(A1)的具体方法如下:因为有两个属性,连接后生成的将是一个二维表格,如下:A11A12A1kAo1Lo1,11Lo1,12Lo1,1kAo2Lo2,11Lo2,12Lo2,1kAo3Lo3,11Lo3,12Lo3,1k属性Ao属性A1可以采用多维数组的形式表现:[Ao1,A11】=:Lo1,11[Ao2,A11】=:Lo2,11[Ao3,A11]=:Lo3,11[Ao1,A12]=:Lo1,12[Ao2,A12F=Lo2,12[Ao3,A12]=:Lo3,12[Ao1,A1k]=:Lo1,1k5[Ao2,A1k]=:Lo2,1k55[Ao3,A1k]=:Lo3,1k根据给定的“支持度L”和1-D方体找出1频繁2-谓词集。若[Aoi,Ajm]<L,则置[Aoi,Ajm]为o,既Loi,jm=O。若[Aoi,Ajm]=o,j=1,2,3,则将属性Aj中的取值Ajm删除,这样做可以去除一些无用的取值,减少计算量。接下去则根据k-1-D方体连接生成k-D方体:两个k-1-D方体可以连接当且仅当它们只有一个不相同的属性,既k-1-D方体(Ao,Ai1,”,Aik-3,Aik-2)与k-1-D方体(Ao,Aj1,”,Ajk-3,Ajk-2)可连接当且仅当Ai1=Aj1,,,, Aik-3=Ajk-3,Aik-2丰Ajk-2。然后根据所生成的k-D方体找出频繁k-谓词集。最后可以得到21-D方体和频繁21-谓词集。形式如下:[Ao1,A1i,,, A2o,j]=Lo1,1i,,,2o,j” [Ao3,A1i,,,A2o,j]=Lo3,1i,”,2o,j[Ao1,A1i',, A2o,j'=Lo1,1i',,2o”j' ”[Ao3,A1i',,A2o,j']=Lo3,1i',,,,2o,j'根据频繁21-谓词集可得下列一组规则:A1(A1,i1)A,,A A21(A21,i21)=>Ao(Ao,io)=

L0,io,ii,;21,i2i LO,io,1,»,,;21」2iL')}(support= ―r -, confidence=L')}' Lj,io,1,ii,,21,i2i其中:L'为总记录数L°,i0,1,i1,,L°,i0,1,i1,,21,i21我们记一一为So,io,1,i1,,,21,i21L'Ti0,1,i1,,21,i21 为Co,io,1,i,,21,i21,则上式可化为:为Lj,io,,i1,,1,i21j4A1(A1,i1)A,,AA21(A21,i21)=>Ao(Ao,io)=(support=So,io,1,i1,\21,i21,confidence=Co,i(),,iir^21,^J且So,io,j,…,1,i21>L[多元线性回归]我们先分析条件属性{A1,,,A21}与轻微刮擦(A01)的关系,构造它的参数方程。把前面所得到的一组规则视为一组样本集合,但这里要做一个特殊的处理,既将属性的取值量化。我们前面在构造1-D方体时,做了一项工作,就是根据其记录数的多少对相应属性所取的值进行从小到大排序,现在我们就要用这个结果来量化属性取值。 较直接的想法就是,出现地越频繁,说明它对结果产生的作用越大, 则其值相应也需设置地高些, 所以我们作如下定义:属性A记录数记号值取值3L3Ai1L3/L取值kLkAi2Lk/L取值2L2Ai3L2/L取值1L1AikL仃L我们这里考虑的只是其取值对事故发生的影响,而不考虑其对应的事故类型,所以用的是1-D方体而不是2-D方体。提取出如下形式的规则:A1(A1,i1)A,,AA21(A21,i21)=>Ao(Ao1)=(support=S01,1丄,…21,i21,confidence=C01,“,;21,^1)且So1,1,i1"\21,i21>L作为样本集合,进行分析。其中:变量 A01的取值公式为nS+0C,变量Aoi的取值则按前面定义的方式取得。A20存在着线性回归关系,于是多元线性回归的数学模型可设变量Ao1与变量A,A20存在着线性回归关系,于是多元线性回归的数学模型可以写为A01,1A01,2■11A'11 A;1A'A01,1A01,2■11A'11 A;1A'12 A'22A'20,1A'20,2「县olP1A'mA'20,n_采用最小二乘法对上式中的待估回归系数0,¥203m进行估计,求得3值。则IL.;20,A20)可得函数Ao1=:0+ A+'2A2+,+'20A20=f1,A20)为了将它用于解决实际预测问题,还必须进行数学检验。多元线性回归分析的数学检验,包括回归方程和回归系数的显著性检验。回归方程的显著性检验,采用统计量:U/20Q/(n_21)式中:U»(A012式中:U»(A012-A01),为回归平方和,其自由度为20;nu八(A°i,j

j42-A0i,j),为剩余平方和,其自由度为(n-21)。利用上式计算出F值后,再利用F分布表进行检验。给定显著性水平a,在F分布表中查出自由度为20和(n—21)的值Fa,如果FAFa,则说明A°i与Ai,A2,,,A20的线性相关密切;反之,则说明两者线性关系不密切。回归系数的显著性检验,采用统计量:(b一])2/CiiQ/(n-21)式中,Cii为相关矩阵C=A-1的对角线上的元素。对于给定的置信水平a,查F分布表得Fa(n—21),若计算值FiAFa,则拒绝原假设,即认为Ai是重要变量,反之,则认为 Ai变量可以剔除。多元线性回归模型的精度,可以利用剩余标准差 S=JQ/(n-21)来衡量。S越小,则用回归方程预测Y越精确;反之亦然。同理可用相同方法得出变量A02和变量A03所对应的函数。[评价]通过多维关联规则对大数据进行分析能将得到一组关联规则集合。 在该集合中,每一个元素都代表了一个关联模式,其后面附加的支持度 support和置信度confidenee—定是分别大于二者的预设值的数字,以此来表征该模式在总事故数中出现的频繁程度和由推导符号“=>'前面的客观因素组合推导出后面的事故严重程度的可能性有多大。 然而在实际运用中,这些关联规则无法发挥有效的作用,既无法对一个高危路段提出一个有效的改建意见。通过多元线性回归可以找到多变量中的线性关系, 并通过参数函数直观地表现出来, 而在大样本的条件下则能得到更为理想的结果, 但也增加了工作量,提出了挑战。然而样本的质量对结果有很大的影响,大量的噪音数据将使结果产生不可接受的误差。而本文将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论