




已阅读5页,还剩74页未读, 继续免费阅读
(机械制造及其自动化专业论文)基于数据挖掘技术的交通事故研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着我国汽车工业的不断发展,截至2 0 0 8 年3 月我国的汽车保有量达到 5 9 0 4 4 6 万辆。虽然人们的生活质量得到改善,但随之而来的交通事故成了一 大社会公害,2 0 0 7 年我国因交通事故死亡8 1 6 4 9 人,直接经济损失1 2 亿元。 对交通事故进行分析研究,可以获得交通事故的诱因和造成人员伤害的原因, 进而采取措施减少交通事故的发生或事故造成的人员伤害。 我国的交通事故研究起步比较晚,缺少详实的事故数据和先进的研究方法。 本课题设计和实现了交通事故研究信息系统来保存和共享事故案例,以期形成 一个事故数据库平台,为科研机构、交警部门、道路规划、医疗保险机构等提 供交通事故研究数据。本课题的另一个研究重点是利用数据挖掘技术来研究交 通事故,以提高系统的数据研究能力。 本文首先分析了研究交通事故所需要收集的有关人、车、道路和环境的数 据项并设计了系统数据结构,然后实现了交通事故研究信息系统。通过向系统 输入大量的案例数据,目前此系统已初具一个数据平台的功能。在最后,设计 了一个交通事故数据挖掘子系统。以信息系统中的事故数据为研究对象,实现 了基于多维关联规则的行人保护研究和基于贝叶斯网络的摩托车交通事故预测 研究这两个功能模块。 交通事故研究信息系统的实现解决了目前我国交通事故研究中缺少详细事 故数据的问题,具有很强的实用性。事故数据挖掘子系统是数据挖掘技术在交 通事故研究中的一个新的尝试,不仅取得了预期的研究目标,而且为交通事故 的深入研究提供了一种新的方法。 关键字:交通事故,数据挖掘,行人保护,事故预测,多维关联规则, 贝叶斯网络 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fa u t o m o b i l ei n d u s t r yi nc h i n a ,t h e n u m b e ro fa u t o m o b i l eh a sg r o w nu pt o5 9 0 4m i l l i o nt i l lm a r c h2 0 0 8 a l t h o u g ht h ep e o p l e sq u a l i t yo fl i f eh a sb e e ni m p r o v e d ,t h ea t t e n d a n t t r a f f i ca c c i d e n t sb e c o m eam a j o rs o c i a lh a z a r d i n2 0 0 7t h en u m b e ro f d e a t h s o ft r a f f i ca c c i d e n t sr e a c h e d8 1 ,6 4 9 b ys t u d y i n go nt r a f f i c a c c i d e n t s ,t h ei n c e n t i v e so ft r a f f i ca c c i d e n t s ,a n dt h er e a s o n sf o rt h e i n j u r e dc a nb ef o u n d f o rr e l a t i v e l yl a t es t a r t i n gi nc h i n a ,t h er e s e a r c ho nt r a f f i ca c c i d e n t s l a c k sd e t a i l e da c c i d e n td a t aa n da d v a n c e dr e s e a r c hm e t h o d s i nt h i s p a p e rt h et r a f f i ca c c i d e n tr e s e a r c hs y s t e mi sd e s i g n e da n dd e v e l o p e d t os a v ea n ds h a r et h ed a t a t h es y s t e mc a nb e c o m eap l a t f o r mo f a c c i d e n td a t a a n o t h e rs t u d y i n gi st h eu s eo fd a t am i n i n gt e c h n i q u e st o a n a l y z et h ed a t a t h i sm e t h o dc a ne n r i c ht h ef u n c t i o n so fd a t ar e s e a r c h i ns y s t e m f i r s t l y t h i sp a p e ra n a l y z e sf o u re f f e c tf a c t o r so ft r a f f i ca c c i d e n t , p e r s o n s ,v e h i c l e s ,r o a d sa n de n v i r o n m e n t s e c o n d l yt h i sp a p e rd e s i g n e d t h ed a t as t r u c t u r eo fs y s t e ma n dr e a l i z e di t a f t e rt h ei n p u to fd a t a ,t h i s s y s t e mh a sb e g u nt oh a v et h ef u n c t i o n so fad a t ap l a t f o r m i nt h ee n d ,a t r a f f i ca c c i d e n td a t am i n i n gs u b s y s t e mi s d e s i g n e d t w om o d u l e s ,t h e r e s e a r c ho fp e d e s t r i a np r o t e c t i o nb a s e do nm u l t i d i m e n s i o n a la s s o c i a t i o n r u l e sa n dm o t o r c y c l ea c c i d e n tp r e d i c t i o nb a s e do nb a y e s i a nn e t w o r k ,a r e i m p l e m e n t e d t r a f f i ca c c i d e n ti n f o r m a t i o ns y s t e m s e t t l i n gt h el a c ko fd e t a i l e d a c c i d e n td a t ao fc u r r e n tt r a f f i ca c c i d e n t sr e s e a r c h ,i sh i g h l yp r a c t i c a l a c c i d e n t sd a t am i n i n gs u b s y s t e mi san e wa t t e m p to fd a t am i n i n gi nt h e a c c i d e n t ss t u d y f o rt h i s ,n o to n l yt h ee x p e c t e dr e s e a r c hg o a li sa c h i e v e d , b u ta l s oan e w a p p r o a c hf o rt r a f f i ca c c i d e n t si n - d e p t hs t u d yi sp r o v i d e d 1 1 a b s t r a c t k e yw o r d :t r a f f i ca c c i d e n t ,d a t am i n i n g ,p e d e s t r i a np r o t e c t i o n , m u l t i d i m e n s i o n a la s s o c i a t i o nr u l e ,b a y e s i a nn e t w o r k i i i 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提 供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国 家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:备、 h d 器年f 月l 6 日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进 行研究工作所取得的成果。除文中已经注明引用的内容外,本学位 论文的研究成果不包含任何他人创作的、已公开发表或者没有公开 发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个 人和集体,均已在文中以明确方式标明。本学位论文原创性声明的 法律责任由本人承担。 学位论文作者签名: 协q 蚤年台月j 莎日 第一章绪论 1 1 课题背景 第1 章绪论 自1 8 8 6 年卡尔本茨发明了世界上第一辆汽车以来,1 0 0 多年间,汽车工 业发展很快,汽车的保有量也在迅速地增长,2 0 0 7 年世界汽车的保有量达到了 9 2 亿辆,预计到2 0 1 5 年世界汽车的保有量将达到1 1 2 亿辆。汽车作为随时 都能利用的、高度自由的交通运输工具,在人类社会上已占据相当重要的地位。 但随之而来的交通事故也成了一大社会公害。美国是世界上汽车最为普及的国 家,因道路交通事故造成的经济损失相当惊人,2 0 0 6 年达到3 1 8 6 1 1 亿美元, 是火灾经济损失7 7 倍。在日本,道路交通事故造成的经济损失也相当于当年 道路建设总投资的一半。随着近几年我国汽车工业和汽车消费井喷式的发展, 截至2 0 0 8 年3 月我国的机动车保有量达到1 6 3 亿辆,其中汽车5 9 0 4 4 6 万辆, 摩托车8 7 7 5 4 9 万辆【2 j 。我国的交通事故形势也变得越来越严峻,2 0 0 5 年我国 发生道路交通事故4 5 0 2 5 4 起,造成9 8 7 3 8 人死亡,4 6 9 9 11 人受伤,直接经济 损失达1 8 8 亿元【l j 。2 0 0 7 年,全国共发生道路交通事故3 2 7 2 0 9 起,造成8 1 6 4 9 人死亡、3 8 0 4 4 2 人受伤,直接财产损失1 2 亿元。其中,发生一次死亡1 0 人以 上特大交通事故2 6 起,造成3 8 9 人死亡【3 1 。道路交通事故万车死亡率高达5 1 。 严峻的交通事故形势是我国道路交通和汽车工业所面临的一大难题。 为了减少交通事故或交通事故造成的人员伤害和经济损失,各国的交通管理 部门都开展了广泛的交通事故研究。然而,交通事故本身是随机事件,其发生 具有偶然性和模糊性,事故的具体发生时间,发生场合都无规律可循,所造成 伤害无法事先预计1 4 1 。这些性质使得对交通事故本身的研究成为困难。人们只能 转向交通事故的各项记录数据,通过分析大量交通事故数据来研究交通事故。 数据挖掘( d a t am i n i n g ) 是当前数据库、人工智能、统计学等研究领域的热点课 题之一【5 j 。它可以在大型的数据库中发现尚不为人知,但对用户有价值的知识或 模式,主要研究课题包括关联规则挖掘、聚类、分类、预测等。数据挖掘作为一 个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重 要的角色,并已有一些成功的应用。 目前已经有把数据挖掘技术应用于交通事故研究的尝试,并取得到了一定的 1 第一章绪论 成果。该数据挖掘技术在交通事故研究领域的应用也越来越来受到科研入员的 重视。 1 2 交通事故研究的现状与发展 1 2 1 交通事故研究的现状 交通事故研究的任务是借助于已有的数据进一步回答事故的原因,探讨降低 事故后果的措施,从中可获得进一步的理论和经验( 诸如工程技术、医学、心 理学) ,从而为改善道路交通安全提供决策依据。交通事故研究的内容包括事故 调查与统计、事故再现和事故分析三个方面。 ( 1 ) 事故调查与统计 事故调查与统计的目的是总结事故,用统计方法对事故数据进行整理加工。 道路交通事故的统计评价可以揭示事故的重点,从而使得分析有的放矢。对于 不同的机构和不同研究目的,事故调查的项目也不同。其统计领域有:政府道 路交通事故统计、统计局事故数据统计、车辆保险机构的追溯性研究、交通事 故的跨学科研究i l 。 美国、欧洲、日本等发达国家或地区在交通事故统计研究和道路交通信息化 建设方面走在了世界的前例。2 0 世纪9 0 年代初期美国国家交通统计局就建立了 死亡事故分析报告系统( f a r s :f a t a l i t ya n a l y s i sr e p o r t i n gs y s t e m ) 【酬。它是一个包括 1 9 7 5 年以后美国全国各种严重交通事故信息的数据库。通过该系统可以得到全 美各地区和城市的交通事故分布情况。1 9 9 3 年1 2 月欧洲议会决定成立欧洲共同 交通事故数据库,简称( c a r e :c o m m u n i t yd a t a b a s eo na c c i d e n t so nt h er o a d si n e u r o p e ) 7 1 。它的数据来自2 5 个欧洲主要的成员国。这个交通事故数据库包含了 由各个成员国收集的每起事故的详细数据。在分析数据的信息方面,这个数据 库具有很大的灵活性。c a r e 不仅是一个提高欧洲道路交通安全的强有力的工 具,也可以由这个数据库来评价目前道路交通安全改善措施的效果。欧洲的各 国可以互相借鉴学习别的国家的道路安全的措施。在日本,由交通、建设和警 察部门联合建立了交通事故研究分析中心。其主要目标是从微观和宏观分析评 价日本交通安全状况,制定相应的安全措施,实现数据和信息共享。 ( 2 ) 事故再现1 8 】1 9 】 2 第一章绪论 交通事故再现是指根据交通调查取证的歌正证据材料,通过痕迹学,法医学, 运动学,力学等的综合分析,判断得出事故演变的过程,交通事故再现是确定 交通事故事实,认定交通事故但诗人责任的基础, 事故再现的基本目的在于研究一个事故的特殊性,从空间和时间上确定事故 每个阶段的过程,并对它进行评价和责任的认定,一般的形式是警察的事故调 查。警察调查事故的目的主要是依据交通法规追究事故当事人的责任,另外, 警察的事故调查结果也适用于判断事故重点的一般安全问题和某些事故原因的 因果关系。对于特殊事故的调查,大多数事故鉴定专家以事故的专门调查结果 为根据,然后进一步进行医学、心理学、工程技术以及法律问题的分析。 ( 3 ) 事故分析 事故分析的任务是对导致相似伤害和损失的事故原因进行研究。事故分析必 须包含所分析的事故总体中的每起事故的再现结果。因此,事故分析是对事故 样本进行研究,而事故再现是对具体事故个体进行研究,以解释一起事故的原 因和澄清事故责任f 1 1 l 。将事故分析的综合结果用一定的统计方法进行计算就是 事故分析。事故再现和事故分析的区别是特殊与一般的关系,也就是说,事故 分析包括事故再现,而事故再现是事故分析工作的基础。事故分析结果可以反 映一个国家或地区交通安全的概貌,主要供相应的主管领导决策使用,也可供 交通警察提高执法水平使用。 1 2 2 交通事故研究在我国的发展 在2 0 世纪,我国汽车工业和道路交通事业发展缓慢,道路交通事故的状况并 不如汽车发达国家那样的严峻。虽然也有一些机构开始关注交通事故,并开展 了一些研究,但研究水平远落后于发达国家。1 9 8 8 年吉林工业大学和西安公路 交通大学分别开展了道路交通事故的计算机模拟研究,由于当时实验条件和计 算条件的限制,仅进行了较为简单的模拟计算和小比例模型碰撞试验【1 2 1 【1 3 】。1 9 9 2 年湖南大学首先引进了汽车碰撞有限元软件d y n a 3 d ,利用该软件进行汽车方 向盘、假人碰撞模拟计算以及汽车耐撞性有限元分析。1 9 9 5 年长安大学研制成 功汽车牵引式车追尾碰撞试验台,开展了货车尾部护拦模拟碰撞试验侧1 1 4 1 。虽 然这些探索性的研究取得了一些成果,但总体研究水平低,缺少详细的交通事 故研究样本,也没有相对成熟的独立开发的计算机模拟软件系统。 随着中国汽车工业的发展,汽车走入了人们的日常生活,交通事故的形势也 3 第一章绪论 变得越来越严峻,许多国内的科研机构展开了交通事故研究。主要集中在两大 领域,一方面就是事故再现研究对事故责任进行鉴定,如采用交通事故再现软 件p c c r a s h 进行交通事故再现【l 引。另一方面就是计算机模拟分析,通常的方法 就是引进欧美的成熟的交通事故分析研究软件,女i m a d y m o 来进行模拟研究, 主要用于汽车安全性的研究,改善新车的主动和被动安全性。 我国从2 0 0 0 年开始构建全国交通事故信息系统,通过采集全国的交通事故数 据,来统计全国交通事故的发生状况和分布情况。由于采集的数据项有限,除 了进行宏观的统计和交通事故区域分布研究之外,并不能作为交通事故深入分 析的数据来源。由于缺少大量的详细的交通事故数据,我国的交通事故研究始 终只能停留在计算机模拟的地步,而所采用的软件一般有发达国家依据当地的 交通事故状况和行车习惯进行设计的。直接使用这些软件,由于交通环境,行 车习惯等因素的差异而产生无法接受的误差,使得中国的交通事故研究的水平 始终落后于发达国家,构建详细地交通事故数据库,结合先进的研究手段,开 发适合中国国情的交通事故研究软件,这样才能大力的促进我国交通事故研究 水平的发展。 1 3 问题的提出 由于我国目前没有一个统一的完善的交通数据库研究数据库,在进行事故数 据挖掘时往往由于缺少数据项,而只能采用过于简化的研究模型,使得研究结 果误差较大。如何构建符合实际研究需求的交通事故信息系统,如何建立符合 实际的研究模型,如何选择研究方法,是目前交通事故数据挖掘研究所面临的 难题。为了解决这些难题,课题引出并研究以下两个问题: ( 1 ) 如何构建一个交通事故研究信息系统? 这个系统需要包含哪些事故信 息? 如何分析和采集事故中的人、车、道路和环境因素中的数据项? ( 2 ) 怎样进行分析才能从原始数据中挖掘出更多有用信息,如车辆被动安全 性的设计,事故的发生规律等? 1 4 课题的主要研究内容 针对上- - d , 节所提出的问题,本课题将重点研究和实现以下内容有: ( 1 ) 对交通事故的类型和成因进行研究,分析交通事故人、车、道路和环境 4 第一章绪论 这四大因素所涉及的事故数据项。确定事故研究信息系统数据结构。 ( 2 ) 对数据挖掘理论、方法、过程及功能进行研究,以选择合适的数据挖掘 方法来研究交通事故。 ( 3 ) 设计和实现交通事故研究信息系统,采用b s 结构。向系统输入大量的 事故案例,形成一个事故数据平台。 ( 4 ) 开展事故数据挖掘研究技。选择特定的研究方向对系统中的数据进行挖 掘,已发现有价值的知识和规则。本课题主要开展两个应用研究实例,基于多 为关联规则挖掘的行人保护研究和基于贝叶斯网络的摩托车事故预测研究。 5 第2 章交通事故与交通事故数据概述 第2 章交通事故与事故数据概述 对交通事故数据进行挖掘研究,首先要全面的认识交通事故,了解交通事 故的成因。然后才能够全面地规划交通事故研究所需要的数据项,才能够确定 事故研究的具体方向。 2 1 道路交通事故概述 2 1 1 道路交通事故的定义 交通事故一般是指在人和物的运输过程中所发生的人员伤亡和财物损毁事 件1 1 6 1 。 根据个华人民共和国道路交通安全法第一百一十九条( 五) 的规定:交 通事故是指车辆在道路上,因过错或意外造成的人身伤亡或者财产损失的事件。 世界各国由于国情不同,道路交通状况不同,交通规则和交通管理规定不 同,对交通事故的定义也不尽相同。如美国国家安全委员会给交通事故所下的 定义:交通事故是在道路上所发生的意料不到的有害的或危险的事件。这些有 害的或危险的事件妨碍着交通行为的完成,其原因常常是由于不安全的行动或 不安全的因素,或者是两者的结合所造成的【1 7 1 。 从交通事故的定义中可看出,构成交通事故应具备以下六个要素【5 l : ( 1 ) 车辆 交通事故各方当事人中,必须至少有一方使用车辆。车辆是造成交通事故的 重要条件,如果造成损害的各方当事人中任何一方都未使用车辆,比如行人和 行人相撞就不能叫做交通事故。 ( 2 ) 在道路上 道路是构成交通事故的空间条件,没有道路就谈不上交通事故。中华人民 共和国道路交通安全法规定“道路,是指公路、城市街道和虽在单位管辖范 围但允许社会机动车通行的地方,包括广场、公共停车场等用于公众通行的场 所。只供本单位车辆和行人通行的,交管部门没有义务对其进行管理的,不 能算作道路。此外,还应以事故发生时车辆所在的位置,而不是事故发生后车 辆所在的位置,来判断是否在道路上。 6 第2 章交通事故与交通事故数据概述 ( 3 ) 在运动中 根据交通事故的定义,车辆必须是在运行过程中互撞或与行人、固体物发生 碰撞,才能成为交通事故。如果行人碰撞处于停止状态的车辆,乘车人从静止 的车上跳下造成的伤害都不能称之为交通事故。 ( 4 ) 发生事态 即发生有碰撞、碾压、刮擦、翻车、坠车、爆炸、失火等其中的一种现象。 如果未发生上述事态,而是由于行人或旅客因其他原因造成的伤亡,则不属于 交通事故。 ( 5 ) 有违章行为 当事人有违反中华人民共和国道路交通安全法和其它道路交通管理法规、 规章的行为,这是依法追究其肇事责任、予以处罚的必要条件,即造成事态的 原因是人为的,而不是因为人力无法抗拒的自然原因。 ( 6 ) 有损害结果 即要有人、畜伤亡或车物损坏的后果,没有损害结果不能称之为交通事故, 但又不是所有的有损害结果的事件都是交通事故。故意用车撞人而制造车祸的 就不能作为交通事故处理,而属于故意犯罪行为。 以上六个要素可作为鉴别是否属于交通事故的依据。 2 1 2 道路交通事故的分类 对交通事故进行分类,目的在于分析、研究、处理和预防交通事故;同时, 也便于通过分析,从各个角度寻找对策来解决目前道路交通所面临的问题。分 析的角度和方法不同,对交通事故的分类也不同。通常,交通事故分类方法主 要有以下五种【4 1 。 ( 1 ) 按事故责任分类 根据交通事故主要责任方涉及的车辆种类和人员,交通事故可分为四类, 即:机动车事故、非机动车事故、行人事故和其它事故 ( 2 ) 按事故后果分类 根据人身伤亡或者财产权失的程度或数额,交通事故可分为:轻微事故、 一般事故、重大事故和特大事故。 ( 3 ) 技事故原因分类 任何交通事故的发生都有其原因。从原因角度上可以把交通事故分为主观 7 第2 章交通事故与交通事故数据概述 原因造成的事故和客观原因造成的事故两类。 ( 4 ) 按事故的对象分类 按事故的对象对交通事故进行分类,可分为:车辆间的交通事故、车辆与 行人的交通事故、机动车辆对非机动车的交通事故、车辆自身事故、车辆对固 定物的事故。 ( 5 ) 按事故发生地点分类 按事故发生地点分类,可以把交通事故分为哪一级道路、城市或郊区以及 城市或乡村3 种。在我国,道路分为高速公路、一、二、三、四级公路5 个等 级;也可分为公路与衔道。前者是指郊区和乡村道路,后者是指城市道路。另 外,还可按在道路交叉口和路段所发生的交通事故来分类。 除了以上五种分类方法外,还有其他分类方法,如:按伤亡人员职业类型分 类;按肇事者所属行业分类;按发生事故时的气候分类;按发生事故的道路类 型、线型、路面类型、路面状况等分类;按肇事驾驶员所持驾驶证种类、驾龄 分类。 2 2 道路交通事故成因 交通事故成因是从大量的典型交通事故中概括出来的对交通事故诱发原因 的规律性的抽象描述。交通事故成因从交通事故的表面原因深入追踪到更深层 次的、本质的原因。 致使交通事故发生的原因是多方面的,归结起来就是交通事故中的人和物 的因素,即交通事故是由与交通有关的人、车、道路和环境等诸多因素中某一 或几个因素失调或失控所引起。 2 2 1 交通事故中人的因素 人是交通活动的主体,是道路交通事故的制造者和受害者。统计表明8 0 - - 9 0 的事故是由于人的原因造成的,其中机动车驾驶员引起的交通事故最多【1 8 1 。 这是因为随着交通工具速度的提高,人对运动中的周边环境变化的适应能力不 能随之提高,这种差异导致人在现代交通活动中容易出现各种失误,包括行车 过程中观察失误,判断失误和操做失误。 观察失误是驾驶员对危险情况发现太迟或根本没有发现。当车辆速度太快 8 第2 章交通事故与交通事故数据概述 又遇到紧急情况时由于存在一定的反应时问,而造成无法及时的采取应急措施 而引起交通事故。另一种情况是视觉盲区造成观察失误。由于车辆驾驶室的设 计不合理,造成驾驶员很大的视觉盲区,使得驾驶员无法全面的观察车外的情 况,在大型客车上这类缺点尤其明显。在驾驶员责任事故中,观察失误约占5 5 - - - 6 0 。 判断失误是驾驶员对道路车辆及行人等的形状,距离,运动速度和方向的 错误估计因判断失误引起的责任事故。判断失误往往与驾驶员饮酒,紧张或驾 驶疲劳有关。引起这类事故约占3 5 - - - , 4 0 。 操作失误是驾驶员没有对观察和判断结果做出正确的操纵车辆的动作,致 使车辆的行驶失常。因操作失误而引发的责任事故占5 左右。 由于人的复杂性,人在行车过程中的心理和生理状况还有许多尚为被人类 所理解的地方尤其是在紧急情况下。由于人的因素是影响交通事故的重要因素, 研究交通事故中的人,尤其是驾驶员在行车前和行车中以及事故时的状况,有 助于分析交通事故的内在原因。通过改善驾驶员的行驶状况,有助于减少交通 事故的发生。 2 2 - 2 交通事故中车辆因素 根据传统的观点,交通事故中的车辆因素就是因车辆维修保养不善或不及 时,使车辆在行驶过程中因机械故障发生事故。主要原因有制动失效、转向系 统失控、轮胎爆裂、机械磨损,固定装置松动,断裂等。据统计,此类交通事 故的比例较少,约占事故总数的6 4 。随着中国制造水平的提高,以及汽车4 s 模式的普及,机车保养维护意识的普及,这样的交通事故有减少的趋势。对交 通事故中车辆进行研究,不仅仅可以减少此类交通事故的发生,并且可以发现 事故车辆的缺陷,促使汽车厂商开展汽车召回服务,改善新车型的安全性设计 在盘 号手0 由于车辆是交通事故中的主体,许多人员受伤情况也是由于人员与车辆的 某一个部位发生碰撞而造成。例如行人和轿车发生正面碰撞时,行人的头部会 与车辆的发动机罩或者前挡风玻璃发生激烈的碰撞,当发动机罩比较软时,人 的受伤情况会好于发动机罩很硬的情况。虽然这不是造成交通事故的因素,但 它直接造成了人员的伤害。改善车辆在交通事故中的被动安全性也是研究交通 事故的一个重要课题。 1 s l 9 第2 章交通事故与交通事故数据概述 在行驶过程中,驾驶员与车存在紧密联系。驾驶室的环境,驾驶员的视角 盲区,以及各个操作装置的位置都会对行车造成一定的影响。从人机工程的角 度去提高驾驶环境的舒适度,有助于改善驾驶员的行车心理,减少驾驶员的疲 劳。可以在一定的程度上提高行车安全。通过交通事故对车辆进行人机工程学 领域的研究,有助于减少交通事故的隐患,提高行车安全。 2 2 3 交通事故中道路因素 道路因素包括道路线形、路口类型、坡度、路面状况、横断面等,对交通 事故均有影响。 道路线形对交通事故的影响在于在坡陡,弯急,傍山险路等处最容易发生 交通事故。在条件许可的情况下,道路建设总是选择直线。虽然直线在设计, 施工,行车等方面都有其优点,但过长或过短的直线都不好,如果直线段过长 因道路景观是单调的,易使驾驶员麻痹松懈,注意力分散,反映迟缓,难于目 测车距,于是产生尽快驶出直线段的急躁情绪,容易引发交通事故。 路口类型也是影响交通事故的一个重要因素,根据调查有7 4 3 的交通事故 发生在十字路口或者丁字路口。改善道路路口的状况,如拆除路口建筑,安装 交通信号灯系统,修建隔离等,可以有效的改善路口的行车状况。 道路坡度对交通事故的形成有直接的影响。上坡时,由于坡度的阻力使车 速减低,为了维持汽车的爬坡能力,要不断增加牵引力,如果牵引力不足时制 动不及时,就会造成车辆向下滑溜,引起交通事故下坡。时由于重力加速度的 作用,车辆越来越快,一旦遇到意外的交通形态,驾驶员来不及采取应急措施, 车辆失去控制,就会造成交通事故。 路面状况对交通安全的影响来自两个方面:一是干湿情况对车辆附着系数 的影响,二是路面平整度对行车安全性和舒适性的影响。研究路面状况可以减 少在恶劣天气条件下交通事故发生的几率。 2 2 4 交通事故的环境因素 交通环境因素包括风,雨,雾,冰雪等恶劣气候对行车安全的影响。恶劣 气候会影响驾驶员的视线,容易产生错误判断而发生交通事故,在雨天,冰雪 天,路面抗滑能力,减低因附着力小,容易使轮胎打滑而发生交通事故。 尽管不良天气在一年中所占比例不大,但在此期间的事故率明显高于正常 1 0 第2 章交通事故与交通事故数据概述 天气,在山区道路上尤为明显。根据全国道路交通事故统计,资料每年不良天 气的交通事故次数占事故总数的2 5 左右。研究交通事故中的环境因素,其意 义尤为重要。 2 3 交通事故的数据特点 交通事故数据就是事后通过测量,询问及计算所得到的关于交通事故发生过 程以及伤害程度的数据记录。如:事故发生时间,事故发生地点,交通方式,车 辆的碰撞速度,损失程度等。 每起交通事故都有自身的特点,因此对交通事故的记录数据应包括所有的情 况和所有可能的数据。目的只有一个,就是以文字信息的方式尽可能的回顾事 故发生时的现场状况,以便于交管人员事后的处理工和研究的需要。本节将讨 论交通事故数据的主要特点。 2 3 1 涉及面广 从上一节可知影响交通事故的数据有四大类:人,车辆,道路和环境。任何 交通事故都是在这四个因素综合作用下发生的。收集这四类数据是进行事故研 究的基础,除了这四类信息外交通事故还涉及伤员救治,责任保险等【1 9 l 。对交 通事故做深入的研究就必须全面的收集所有相关的数据。在本研究中收集的数 据项多达2 1 0 0 余项,基本涵盖了所有情况下发生交通事故时所应收集的数据。 涉及面广,数据量大是交通事故数据的一个特点。 2 3 2 离散 任何交通事故都发生在一定的时间,空间及人为作用环境中,因此在交通事 故发生时,各事故因素彼此独立,从典型的交通事故数据中可看出,其值显示 出离散特性。事故因素中,即便是一些有可能量化的因素,如司机年龄等,也 可以事先将其分成年龄组加以离散。离散特性符合交通事故数据特点,现实中 也的确如此。 2 3 3 数据的准确性低 因为交通事故是个瞬间发生,瞬间完成的事件,除了汽车中的黑匣子记录 了一些的事故中的数据之外,其他的事故数据都在瞬间消失。目前所收集的数 1 1 第2 章交通事故与交通事故数据概述 据都是在事后通过一定的测量,计算,甚至询问的方式获得。如事故时的车辆 行驶速度,必须通过测量事故的滑行痕迹,根据经验公式进行推算,客观上存 在一定的误差。再如研究交通事故的关键数据项第一碰撞点,由于无法完全再 现碰撞过程,第一碰撞点只能根据车辆的所损情况,事故参与者的叙述来推定。 由于伤员救治,恢复交通等因素,事故现场往往在短时间内就被破坏,使得许 多事故数据无法测量。面对这样的问题,只有采集更多的交通事故案例,对大 量的交通事故进行统计分析,才能消除因为记录不准确所造成的影响。 2 4 本章小结 本章主要介绍了交通事故和交通事故数据的特定。首先回答了什么是交通 事故以及交通事故的分类。重点分析了人员、车辆、道路和环境因素对道路交 通事故的影响。最后介绍了交通事故数据涉及面广、离散、准确性低的特定。 为交通事故数据的挖掘分析打下基础。 第3 章数据挖掘技术综述 第3 章数据挖掘技术综述 随着数据库技术的迅速发展以及数据库管理系统得广泛应用,人们积累了越 来越多的数据。这些数据背后隐藏着许多重要的信息,人们希望能够对其进行 高层次的深入的分析,以便能更好地利用这些数据。数据挖掘正是在这种情形 下应运而生,显示出强大的生命力。 1 9 8 9 年,数据挖掘这一概念首次在国际人工智能会议i j c a i ( i n t e r n a t i o n a l j o i n tc o n f e r e n c e so na r t i f i c i a li n t e l l i g e n c e ) 上被提出。在接下来的近二十年中见证 了其丰富的应用领域和广阔的发展前景。如今,数据挖掘技术已经广泛应用在 银行、金融、保险、购物、生物、制药、通讯、流媒体等多个领域,并被世界 巨头公司m i c r o s o f t 、i b m 、y a h o o 、g o o g l e 等竞相追逐使用。一些传统领域,如 客户关系管理( c r m ) ,供应链管理- ( s c m ) 等更是在数据挖掘技术的辅助下凸现出 旺盛的市场需求和生命力。 3 1 数据挖掘的概念 3 1 1 数据挖掘的定义 数据挖掘( d m ,d a t am i n i n g ) 也称为数据库中的知识发现( k d d ,k n o w l e d g e d i s c o v e r yi nd a t a b a s e ) 是从数据库的大量数据中提取隐含的、先前未知的并有潜 在价值的信息和知识的过程【2 l 】。从技术角度看,数据挖掘就是从大量的、不完 整的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、但又是有价 值的信息和知识的过程。 数据挖掘的对象可以是结构化的,即关系数据库中的数据;也可以是半结构 化的,如文本、图形和图像数据;甚至可以是分布在网络上的异构型数据。发 现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归 纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等, 还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,包括数据库技 术、人工智能技术、数理统计、可视化技术、并行计算等方面【2 4 1 。多学科的相 互交融与相互促进,使得数据挖掘这门学科得到了蓬勃的发展,并且很快有了 许多成功的应用。 】3 第3 章数据挖掘技术综述 3 1 2 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析( 如查询、报表、联机分析) 本质的区别是数据挖 掘是在没有明确假设的前提下去挖掘信息,而这样得到的信息是应该具有先前 未知、有效和实用的特征。也就是说,数据挖掘是要发现那些不能靠直觉发现 的信息或知识,挖掘出来的信息越是出乎意料,就越有价值。而在商业应用中 最典型的例子就是连锁店通过数据挖掘发现了小孩尿布和啤酒之间竟然有着惊 人的联系。 3 2 数据挖掘的功能 数据挖掘功能用于指定数据挖掘任务中要找的模型类型。一般情况下,数据 挖掘通过预测未来趋势,做出前摄的、基于知识的决策。数据挖掘的目的是从 数据库中发现隐含的、有意义的知识l 删。主要功能表现在以下几个方面: ( 1 ) 概念描述( c o n c e p td e s c r i p t i o n ) 3 0 】 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概 念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描 述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对 象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 ( 2 ) 关联分析( a s s o c i a t i o na n a l y s i s ) t ”1 数据关联是数据库中存在的一类重要的、可被发现的知识。若两个或多个变 量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、 因果关联。关联规则从本质上讲是条件概率:事件a 发生时,事件b 同时也出现 的概率是多大? 关联分析的目的是找出数据库中隐藏的关联网,有时并不知道数据库中数据 的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 该方法常用于超市购物篮的分析,利用销售点事务数据来识别商品之间的关系。 ( 3 ) 分类和预测( c l a s s i f i c a t i o na n dp r e d i c t i o n ) 3 1 1 分类就是在己知的训练信息的特征和分类结果的基础上,为每一种类别找到 一个合理的描述或模型,然后再用这些分类的描述或模型来对未知的新数据进 行分类。模型可以用贝叶斯网络、分类规则、决策树、人工神经网络等来建立。 当分类的工作偏向于插入漏掉的数据、预测数据分类或发展的趋势时,此时的 】4 第3 章数据挖掘技术综述 工作即为预测分析。 ( 4 ) 聚类分析( c l u s t e r i n g ) 数据库中的记录可被划分为一系列有意义的子集,即聚类,是最为常见的挖 掘技术之一,是多元统计分析的三大方法之一( 其它两种是回归分析和判别分 析) ,它和分类分析是一个互逆的过程。与分类不同,聚类分析就是通过分析数 据库中的记录数据,根据一定的分类原则,合理地划分记录集合,确定每个记 录所在的类别。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的 先决条件。 ( 5 ) 偏差检狈1 ( d e v i a t i o nd e t e c t i o n ) 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例。偏差检测 的基本方法是,寻找观测结果与参照值之间有意义。 ( 6 ) 演变分析( e v o l u t i o na n a l y s i s ) 演变分析可以描述行为随时间变化的规律或趋势,并对其建模。尽管这可能 包括时间相关数据的特征化、区分、关联、分类或聚类,这些分析的不同特色 包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。 3 3 数据挖掘的体系结构 数据挖掘系统可以大致分为三层结构,如图3 1 所示: 第3 章数据挖掘技术综述 图3 1 数据挖掘系统的体系结构 第三层 第二层 第一层 第一层是数据源,包括数据库、数据仓库及其他数据。数据挖掘不一定要建 立在数据仓库的基础上,但如果数据挖掘与数据仓库共同工作,将大大地提高 数据挖掘的效率。 第二层是数据挖掘工具,利用数据挖掘方法分析数据库中的数据,包括关联 分析、分类分析、聚类分析等。 第三层是用户界面,使获取到的信息或知识以便于用户理解和观察的方式反 映给用户,在这里可以使用可视化工具。知识库存储专业领域知识,用于指导 数据准备或数据挖掘结果的评估。 3 4 数据挖掘的过程 数据挖掘的过程为三个主要阶段:数据准备,数据挖掘和结果表达【2 3 1 ,如图 3 2 所示。 ( 1 ) 数据准备 数据准备过程包括两个阶段,数据预处理和数据转换。 数据预处理:将多文件或者多数据库运行环境中的数据进行合并处理,解决 语义模糊性,处理数据中的遗漏和清洗脏数据,在检查数据的完整性和一致性, 1 6 第3 章数据挖掘技术综述 对其中的噪音数据进行处理,对丢失的数据利用统计方法进行填补,为进一步 的分析做准备,并确定将要进行挖掘操作的类型。 数据转换:根据应用要求及领域知识,从数据库中检索与分析任务相关的数 据,然后做数据变换处理,将数据转换成适合挖掘的形式,如进行离散值数据 与连续值数据之间的相互转换,数据值的分组分类,数据项之间的计算组合等 操作。 图3 2 数据挖掘的系统过程 ( 2 ) 数据挖掘 这是数据挖掘过程中的核心部分,也是数据挖掘的关键技术。这部分的主要 任务是确定发现知识的种类,研究数据挖掘的模型和算法,从数据库中发现有 用的模式或知识。 ( 3 ) 结果表达 根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出 来,并通过决策支持工具交给决策者,如表格,统计图,图形,可视化模型等。 数据挖掘是一个反复的过程。当工程进行时,产生新知识,新假设,以适应 数据的质量和内容。这意味着研究数据的质量决定着任何数据挖掘算法的时间 和精确度。如果算法有足够伸缩性,即使关键问题不能完全回答,也能发现问 题的重要信息。 3 5 数据挖掘的常用技术 1 7 第3 章数据挖掘技术综述 数据挖掘的方法有很多种,如关联规则、决策树、遗传算法、人工神经网络、 统计分析等多种方法【2 2 1 。它们可以应用到以客户为中心的企业决策分析和管理 的各个不同领域和阶段。 ( 1 ) 关联规则 目前大多数的关联规则分析基于“支持度一置信度”构架。其目标是抽取形 如“i f at h e nb ( 即客户购买a 时也会购买b ) 的关联规则。支持度定义为数据库 中同时包含产品a 和b 的事务占总事务的最小百分比。置信度定义为同时包含产 品a 和产品b 的事务占包含a 的事务的百分比。关联规则可用于销售配货、商品陈 列设计、产品目录设计、产品定价和促销等。在本文中,关联规则将被用于行 人保护研究,已发现诱导行人交通事故的因素之间的关系,以及行人伤害的原 因及各种原因之间的规则。 ( 2 ) 决策树【3 l j 决策树方法是一种通过构造决策树来发现训练集中分类知识的数据挖掘方 法。决策树类似于流程图中的树结构,决策树的基本组成部分是决策节点、分 支和叶子。在决策树中最上面的节点称为根节点,是整个决策树的开始。决策 树中每个节点子节点的个数与决策树在用的算法有关,女 1 c a r t 算法得到的决策 树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的 树则称为多叉树。每个分支如果不是一个新的决策节点,就是树的结尾,称为 叶子。在沿着决策树从上到下遍历的过程中,在每个节点上都会遇到一个问题, 对每个节点上问题的不同回答导致不同
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025大气合同封面图片专业摄影及后期处理服务合同
- 2025厕所改造项目环保工程设计合同样本
- 2025年度高原人参果直销采购合同
- 2025版砌墙施工与材料运输合同规范范本
- 2025版玩具类产品保修与售后服务合同
- 2025年度智能宠物担保合同风险解析
- 2025年度企业法律咨询法律顾问服务协议
- 2025版保障性住房商品房预售合同示范协议
- 2025年度事业单位电子商务岗位设置与运营管理合同
- 2025版婚恋行业市场拓展与合作推广合同
- 医院实验室生物安全手册
- 重晶石项目可行性研究报告
- 施工现场民工工资保障措施
- 2025-2026(一)秋季第一学期德育活动安排表
- 工会户外驿站管理办法
- JJF(辽) 565-2025 企业温室气体排放计量器具配备和管理规范 石油化工行业
- 2025国开《茶文化概论》形考作业123456答案
- 检验员培训课件
- 2025年孝感公安局警务辅助人员招聘考试试卷
- 1688运营培训课件
- 森林防火安全培训课件
评论
0/150
提交评论