(计算机应用技术专业论文)高速公路交通事故成因分析与关联因素研究.pdf_第1页
(计算机应用技术专业论文)高速公路交通事故成因分析与关联因素研究.pdf_第2页
(计算机应用技术专业论文)高速公路交通事故成因分析与关联因素研究.pdf_第3页
(计算机应用技术专业论文)高速公路交通事故成因分析与关联因素研究.pdf_第4页
(计算机应用技术专业论文)高速公路交通事故成因分析与关联因素研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)高速公路交通事故成因分析与关联因素研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s tr a c t ab s t r a c t i n r e c e n t y e a r s , c h i n a s g r o w in g n u m b e r o f r o a d t r a ff i c a c c i d e n t s , e s p e c i a l l y f r e e w a y t r a ff i c a c c i d e n t s , i s g e t t i n g w o r s e . i t h a s b e c o m e u r g e n t t o r e d u c e a n d p r e v e n t t r a f f i c a c c i d e n t s , re d u c e l o s s e s , im p r o v e s a f e ty c o n d i t i o n s o f r o a d t r a n s p o r t i t i s n o t e n o u g h t o o n l y re l y o n r o a d b a s i c e s t a b l i s h m e n t s f o r a c h i e v i n g t h i s g o a l ; t h e o r d e r l in e s s o f t h e a c c i d e n t m u s t b e a n a l y z e d . t h i s d i s s e r ta t i o n p r e s e n t s t h e a n a l y s i s o f t h e c a u s e s o f fr e e w a y t r a ff i c a c c i d e n t s a n d a s s o c i a t e d f a c t o r s b a s e d o n t h e s a f e ty s t a t u s , t r e n d s a n d k e y s t o n e o f c h in a a n d t h e a c t u a l s i t u a t i o n o f s o m e fr e e w a y . i t m a i n l y e x p r e s s e s t h e f e a t u r e s o f a c c i d e n ts a ft e r a n a l y z i n g t h e t r a ff i c a c c i d e n t s o f s o m e fr e e w a y . t h e m e t h o d o f p r in c i p a l c o m p o n e n ts a n a l y s i s i s i n t r o d u c e d a c c o r d i n g t o t h e d e f e c ts o f t h e c u r r e n t m e t h o d s t o e v a l u a t e t h e s e v e r i ty o f t r a ffic a c c i d e n t s . t h e in d i c a t o r s a n d t h e i r o r d e r , w h i c h a i m a t tr a f f i c a c c i d e n t s , a re f o u n d w i t h t h i s m e th o d . t h i s d i s s e r ta t io n u s e s t h e m e s h mo d a l d u e t o t h e m u lt ip l e l a y e r s a n d d i m e n s i o n s o f t h e d a t a ; i t ta k e s f p - g ro w th a l g o r it h m , w h i c h i s re a l i z e d b y c + + , t o s e a r c h t h e f r e q u e n t s e t a n d t h e s t r o n g a s s o c i a t i o n r u l e s . r e s u l t s h a v e b e e n c a r e f u l l y a n a l y z e d a n d i m p r o v e m e n t s h a v e b e e n d r a w . w e m a i n l y t a k e t h e f p - g r o w t h al g o r i t h m , w h i c h i s a k i n d o f m e t h o d s o f m i n in g o f a s s o c i a t i o n r u l e s , t o f i n d t h e e s s e n c e d i s c i p l i n e s fr o m a l a r g e n u m b e r o f in c i d e n t s s ta t i s t i c s . t h u s p o l i c y m a k e r s c a n e v al u a t e t h e s i t u a t i o n a n d t a k e e ff e c t i v e m e a s u r e s t o p r e v e n t , c o n t r o l t r a ff i c a c c i d e n t s f ro m d i ff e r e n t a s p e c t s . k e y wo r 山: t r a ffi c a c c i d e n t s , c a u s e a n a l y s i s , a s s o c i a t e d a n a l y s i s m o d e l , p re d i c t , c 朋 廿 。 】 1 1 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电 子版,并采用影印、缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版; 在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学 位 论 文 作 者 签 名 : 坷秘粕 2 0 0 1 年 占月2 1日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名: 解密时间: 学位论文作者签名: 年月 各密级的最长保密年限及书写格式规定如下: 内部5 年 ( 最长 5 年,可少于5 年) 秘密1 0 年 ( 最长 1 0 年,可少于 1 0 年) 机密2 0 年 ( 最长2 0 年,可少于2 0 年) 南开大学学位论文原创性声明 本人郑重声明: 所呈交的学位论文, 是本人在导师指导下, 进行 研究工作所取得的成果。 除文中已经注明引用的内容外, 本学位论文 的研究成果不包含任何他人创作的、 己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体, 均己在文中以明确方式标明。 本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名: 2 o u l l)可 松柏 年 占 月2 l 日 第一章绪论 第一章绪论 第一节课题研究背景 1 . 1 . 1 中国道路交通安全形势 随着改革开放快速发展,我国 道路建设规模空前。到2 0 0 4 年底全国公路通 车总里程达到 1 8 8 万公里,高速公路里程达到3 . 3 万公里,高速公路里程跃居 世界第二,比 世界第三的加拿大多出近一倍。 根据交通部规划,到2 0 1 0 年,公 路总里程要达到2 1 0万至2 3 0 万公里, 全面建成 “ 五纵七横”国道主千线,目 前人口 在 2 0 万以上的城市高速公路连接率将达到 9 0 % ,高速公路总里程达到 5 万公里。 在这过程中, 我国汽车拥有量也保持了 快速增长。截至2 0 0 6 年,中国目 前 汽车保有量达到3 4 0 0 万辆。预计到2 0 1 0 年,我国汽车保有量将会达到7 0 0 0 万 辆,到2 0 2 0 年,将会超过1 亿辆。 然而,随着道路交通运输业的蓬勃发展,也产生一个严重的负面效应, 那 就是道路交通安全问题,特别是交通事故的快速增长。 2 0 0 1 年, 全国公安交通管理部门 共受理道路交通事故案件7 5 . 5 万起, 事故 共造成1 0 . 6 万人死亡,平均每天因交通事故死亡的人数已达3 0 0 人,直接经济 损失3 0 . 9 亿元。 2 0 0 2 年, 全国共发生道路交通事故7 7 . 3 万起, 造成1 0 . 9 万人 死亡、5 6 . 2 万人受伤,直接经济损失3 3 . 2 亿元。2 0 0 3 年,全国共受理一般以 上道路交通事故6 6 . 7 5 万起, 这些事故造成1 0 . 4 万人死亡, 直接经济损失3 3 . 7 亿元. 2 0 0 3 年死伤人数出现了1 0 年以来的首次下降, 其中“ 非典”期间事故下 降明显。2 0 0 4 年,中国道路交通事故死亡人数达 9 . 4 万人,居世界第一。因驾 驶员因素导致的交通事故占 总数的8 9 . 8 % , 造成的死亡人数、 受伤人数分别占到 了总数的8 7 . 4 % 和9 0 . 6 % e 2 0 0 5 年, 全国共发生道路交通事故4 . 5 万多起, 造成 9 . 9 万人死亡,这些事故造成4 . 7 万人受伤,直接财产损失1 8 . 8 亿元。据亚洲 开发银行对我国交通安全形势作出的评估: 2 0 0 0 至2 0 0 4 年的五年间, 中国因道 路交通事故造成5 0 多万人死亡,约2 6 0 万人受伤,相当于每5 分钟就有一人因 交通事故死亡,死亡率为世界第一。 第一章绪论 1 . 1 .2 高速公路交通事故现状分析 道路交通事故是世界性的一大社会公害,人们致力于修高速公路,一方面 是为了实现更经济快速的直达运输,另一方面也是想通过高水平的管理降低道 路交通事故的灾害水平。然而普遍被认为安全系数较一般公路要高的高速公路, 显然没有给人们一个满意的答案。例如,在 2 0 0 4年全国公路交通事故造成的 8 3 0 8 5 人死亡中,高速公路上死亡就有6 2 3 5 人,比上年上升1 8 . 3 %,平均每万 公里死亡1 8 2 3 人, 远远高于二、 三级公路每万公里死亡水平, 呈较大上升幅度。 疲劳驾驶共造成9 2 5 人死亡,占 高速公路死亡总数的1 4 . 8 %,也高于一般事故 中这一违法行为导致2 . 9 %死亡人数的比例。 据公安部交通管理局统计,高速公路每 1 0 0公里的事故发生率是普通公路 的4 倍多,而且,高速公路一旦发生交通事故,其严重程度往往高于普通公路, 尤其是死亡率, 每1 0 0 公里为1 7 . 4 人, 是普通公路的两倍。 这与世界主要发达 国 家高 速公 路交 通事故 死亡的事 故 率 仅为一 般公 路的1/ 1 0 - 1 / 2 的 结果 相差 悬 殊. 例 如 英国 高 速公 路的 死 伤 事 故 率 只 有 一 般 公 路的1/ 3 , 城市 道 路的v 9 。 综上所述,可以 对我国高速公路的安全状况作如下评价: 1 、我国高速公路交通事故频频,事故率高于西方发达国家,并不能体现其 “ 安全”的优点: 2 、事故严重程度高,致死率大大高于国外发达国家; 3 、随着我国高速公路里程的迅速增长,而使用及管理水平相对落后,其事 故有可能逐年恶化。 高速公路事故多发,严重影响了其优越性的发挥,威胁着人民生命财产的 安全。据统计,在发达国家,道路交通事故经济损失相当于国民经济生产总值 的 1 . 9 % ;另外,交通安全专家的研究表明,我国道路交通事故每死亡二人,一 般要直接、 间接涉及5 - 1 0 个家庭川 12 。因 此, 有必要对高 速公路交通事故的原因 进行分析, 研究其特征与规律,找出相应对策,以最大限度地减少交通事故所 造成的人员伤亡和财产损失. 1 . 1 . 3 在交通事故领域应用数据挖掘的意义 随着我国国民 经济的飞速发展, 不论是高等级公路,还是城市交通道路上, 交通事故经常发生,这在一定程度上影响到国民的生活及经济的发展。要减少 交通事故除了要大力完善公路以外,就是要利用交通事故的成因规律控制交通 第一童绪论 事故的发生。但目 前的情况是道路交通事故研究主要建立在采集分析统计大量 交通事故数据资料的基础上, 着重于对事故发生后的经济损失和死伤人数的简 单统计,未能反映出事故发生的条件因素,难以为基层交通事故预防、处理、 决策工作服务。 在交通事故领域使用数据挖掘技术能够实现:一是从交通事故数据库中找 出 各类事故发生的内 在规律, 采取相应的预防措施.比如分析某个高发交通事 故地段,找出其中道路线型状况,及其驾驶员的驾驶策略。通过理解基本模式, 就可以从源头进行管理。二是构造一个模型,这个模型可以根据输入的数据而 做出预测。比如构造一个模型,根据驾驶员的操作行为、道路线型特征和其他 外部环境情况的统计数据预测事故发生的倾向。这里可以把事故发生的影响因 素( 如天气状况、路面条件、驾驶员的技术水平等) 作为关键输入量,而事故的 一些重要指标( 如死亡人数, 经济损失等) 作为关键输出量。 第二节国内 外研究现状 国内外关于道路交通事故影响因素的理论研究主要经历了三个阶段:第一 阶段是单因素理论,它最早出现也是最简单的致因理论,这种理论把事故简单 地归结为由一种原因引起,它较偏重于对人的分析,尤其是对驾驶员的研究. 第二阶段是多因素理论,在1 9 7 1 年,日 本交通安全研究机构,将所有的交通事 故数据收集起来,建立了计算机数据库,同时从人、车、路、环境等方面全方 位、多角度的进行纵横分析。通过全面的、 系统的调查、分析和研究,提出了 一系列有效的交通事故预防措施。随后该理论广泛地用于各种事故的分析。第 三阶段是系统致因理论,国外在 2 0世纪 8 0年代提出了系统致因理论,用于揭 示事故的成因、过程与结果,所以有时又叫事故机理或事故模型。它暂时避开 了危险源的具体特点和事故的具体内容与形式,而只是抽象概括地考虑构成系 统的人、车、路、环境,因此它更本质、更具普遍意义。当 它和具体的危险源、 具体的事故结合时,就可以 更科学、更实际、更生动地把可能的 事故成因、过 程、结果展现在人们面前。 该理论以系统的观点对引发事故的多种因素及其关 系( 主要是逻辑关系) 进行研究。 单因素理论不能全面系统地揭示事故发生的规律,但当要寻找事故的主要 原因时,单因素理论的简单直观性非常有用;多因素理论的贡献主要在于使人 第一章绪论 们改变了对交通事故成因的单向 性、局部性思维,开始从社会整体的角度来考 虑交通安全问 题,然而多因素理论的 不足在于对因素之间的关系及互相影响考 虑不够,没有对因素之间的逻辑关系进行深入分析。系统致因理论的重大贡献 在于它首次把数学引 进事故研究 之中,从而将致因理论建立在定量研究的基础 上。但就我国实际情况而言,事故数据往往只记录一种原因( 有时该原因甚至不 是主要原因) ,因此系统致因理论及多因素理论目 前在全国范围内 还不能进行实 际应用.部分省份己 经开始改进道路交通事故数据的记录方式,以其为单因素 理论以外的理论提供基础数据,取得更准确的统计分析结果。 第三节主要研究工作和内容安排 目前国内对高速公路的致因危害程度还没有一个确切的排序。因为目 前国 内判定一次交通事故的因素主要看三个方面,即直接经济损失、死亡人数、受 伤人数,没有一个综合评价指标。这样很难对两起情况相近的交通事故危害程 度进行比 较。 本文将交通事故发生的次数、 死亡人数、 受伤人数和直接经济损失四项统计 数字看作是一个四维的统计总体,每项统计数字是总体的一个数量指标。根据 交通事故分析研究的需要,将交通事故四项统计数字按照事故发生的直接原因 ( 措施不当、违章超车、疲劳驾驶、转向失效、超速行车、疏忽大意、制动失 效、纵向间距不够、违章变更车道、违章装载、判断错误、违章调头、其他部 件故障、 违章转弯、 酒后驾车、 违章停车、 违章倒车、 违章占 道行驶等) 7 , 因素 进行划分, 从而得到n 个观测数据. 交通事故四项统计数字的每种划分所得到的 n 个观测数据, 就构成了一个样本, 这个样本可以看作是一个四维向 量。 运用主 成分分析方法,对这个向量进行简化,并最终用一个主成分来概括原来的四项 统计数字。这样按照该综合评价指标就可对事故的直接原因进行排序。 同时本论文使用数据挖掘中 关联规则的f p - g r o w th 算法, 按照己 经得到的事 故原因危害程度排序,挖掘出影响交通事故原因的条件因素,从而采取相应的 对策。 本论文的组织结构如下: 第一章 介绍了交通事故的现状及国内外对交通事故的研究现状; 以及在交 通事故领域应用数据挖掘的意义。 第一章绪论 第二章 介绍主成分分析的概念、 原则、 数学模型及提取步骤, 以 及如何利 用主成分分析对交通事故数据进行预处理和如何实现交通事故直接原因的先后 排序。 第 三章 在对关联 规则等 相关 概念及f p - g r o w t h 算 法介绍的 基 础上, 提出了 交通事故属性的数据模型及如何利用关联规则对其进行提取. 第四章 依据关联规则挖掘原 理开发了f p - g r o w t h 挖掘算法, 并根据交通事 故数据的具体特征和分析任务,实现了 对交通事故数据集的频繁集搜索与强关 联规则的生成。 第五章根据关联规则挖掘的结果分析,提出了事故预测方法及相应的对 策措施。 第六章总结全文,提出了下一步研究的方向。 第二章 交通事故数据预处理一一主成分分析 第二章交通事故数据预处理一一主成分分析 众所周知,现实中的数据是错综复杂的。其中,不可避免的存在噪音数据、 冗余数据、 缺失数据、 不确定数 据和不一致数据等诸多情况fu 。 这些数据成为数 据挖掘的一大障碍,它们造成了数据库中存在着大量不精确、不确定、不一致 和不完整的数据信息。因此, 试图从数据库中发现有现实用途的 和容易被理解 的知识之前必须进行一系列的预处理。 第一节数据预处理 2 . 1 . 1 交通事故数据采集的内 容 目 前我国使用的交通事故数据采集的主要内容归纳( 主要参照 2 0 0 3版交通 事故信息采集表) 如下: 1 、事故基本信息 ( 1 ) 行政区代码、顺序号; ( 2 ) 时间:年、月、日、时、分、星期等: ( 3 ) 地点。 2 .事故概况 ( 1 ) 伤亡情况:死亡人数、重伤人数、轻伤人数、失踪人数; ( 2 ) 物损情况:损坏机动车数量、非机动车数量、直接损失折款; ( 3 ) 事故分类:一级事故、二级事故、三级事故、四级事故; ( 4 ) 事故现场:原始、变动、逃逸; ( 5 ) 事故形态:碰撞、刮擦、 碾压、 翻车、坠车、失火、撞固定物、其它等。 3 、环境条件 ( 1 ) 天气:雨、雪、雾、晴、大风、阴、其它: ( 2 ) 地形:平原、山区、丘陵; ( 3 ) 照明条件:白天、夜间有路灯照明、夜间无路灯照明。 4 、道路条件: ( 1 ) 路面状况:淋湿、积水、 浸水、冰雪、 泥泞、翻浆、 泛油、坑槽、 平坦、 路障、其它; 第二 章 交通事故数据预处理一一 主成分分析 ( 2 ) 路面类型: 沥青路、水泥路、沙石路、土路、 其它; ( 3 ) 路口类型:三枝分叉口、四枝分叉口、多枝分叉口、环形分叉口、立体 交叉、铁路道口; ( 4 ) 路段类型:隧道、桥梁、窄路、高架路段、 变窄路段、其它; ( 5 ) 事故多发点:是、否: ( 6 ) 道路线形:一般弯、一般坡、急弯、陡坡、一般弯坡、急弯陡坡、一般 坡急弯、一般弯陡坡、平直路: ( 7 ) 道路类型( 公路) :高速路、一级、二级、三级、四级、等外; ( 8 ) 道路类型( 城市道路) :快速路、主干路、次千路、支路、其它: ( 9 ) 道路横断面( 形式) :混合式、分向式、分开式、分车分向式; ( 1 0 ) 道路横断面( 宽度) : 双向、单向; ( 1 1 ) 交通控制方式: 民 警指 挥、 信号灯、 标志标线、 民 等及信号 灯、 信号灯 及标志标线、其它安全设施( 如隔离墩、护拦等) 、无控制. 5 、当事人 ( 1 ) 基本情况:姓名、性别、年龄、身份证号、驾驶证号及种类、驾龄、单 位、所属区( 局) ; ( 2 ) 驾驶机动车人类型:职业驾驶员、非职业驾驶员、非驾驶员; ( 3 ) 驾驶证种类:正式驾驶证、实习驾驶证、临时驾驶证、农机驾驶证、军 队驾驶证、武警驾驶证: ( 4 ) 安全带系否:是、否。 ( 5 ) 出行目的:分为工作出行和生活出行两大类: ( 6 ) 伤害情况( 程度) : 死亡、重伤、轻伤、无伤; ( 7 ) 伤害情况( 操作部位) :头部、上肢、下肢、胸、背部、腰、腹部、多部 位、其它; ( 8 ) 责任类型:全部责任、主要责任、次要责任、无责任。 6 、交通工具 ( 1 ) 基本情况:机动车号牌、有无保险; ( 2 ) 交通方式( 汽车) :大型客车、大型货车、小型客车、小型货车、专用汽 车、特种汽车、其它汽车; ( 3 ) 交通方式( 摩托车) : 轻便、两轮、三轮: ( 4 ) 交通方式( 电车) :无轨、有轨、电瓶: 第二章交通事故数据预处理一一主成分分析 ( 5 ) 交通方式( 拖拉机) :大型方向 盘式、小型方向 盘式、手扶式; ( s ) 交通方式( 汽车列车) : 全挂、半挂; ( 7 ) 交通方式( 专用机械车) ; ( 8 ) 交通方式( 农用运输车) ; ( 9 ) 交通方式( 非机动车) :自 行车、三轮车、手推车、残疾人专用车、畜力 车、其它非机动车; ( 1 0 ) 交通方式( 其它) : 步行、 乘车; ( 1 1 ) 机动车损坏程度:报废、严重损坏、一般损坏、轻微损坏、无: ( 1 2 ) 行驶状态: 主要分为直行、 倒车、 掉头、 左转弯、 变更车道、 躲避障碍、 驶离路面。 7 、事故原因 ( 1 ) 机动车:制动失效、制动不良、转向失效、灯光失效、其它机件故障; ( 2 ) 机动车驾驶员: 措施不当、 违章超车、 疲劳驾驶、 转向失效、 超速行车、 疏忽大意、制动失效、纵向间距不够、违章变更车道、违章装载、判断错误、 违章调头、其他部件故障、违章转弯、酒后驾车、违章停车、违章倒车、违章 占道行驶等; ( 3 ) 非机动车驾驶员:酒后驾车、违章装载、突然猛拐、攀扶行驶、逆向行 驶、抢道行驶、追逐曲折竞驶、违章占用机动车车道、畜力车其它违章、其它; ( 4 ) 行人、乘车人:违章穿行车行道、违章拦车扒车、违章跳车、其它; ( 5 ) 道路: 非法占用挖掘道路、 视距不够、路拱不符、 超高不符、 路面光滑; ( 6 ) 其它:指使或强迫管理人员、其它。 2 . 1 .2 交通事故数据的特点 从交通事故采集的数据内容来看, 交通事故数据与其它数据挖掘系统中的数 据有着较大的差别。一是其数据维数较多,且每维中又包含很多方面内 容;二 是属性字段之间的强关联性,各属性之间有很强的依赖性.也就是说,在某些 属性出现时,其它的某些属性值一定会出现或一定不会出现。例如:发生交通 事故时,一定会有经济损失、有汽车涉及等。 2 . 1 . 3针对交通事故数据进行预处理的方法 明确挖掘粒度 第二章交通事故数据预处理一一主成分分析 建立数据立方体对数据进行不同维度和层次的挖掘时, 要求数据是以多种粒 度呈现的。仅对固定粒度的数据进行分析很难从纵向角度分析挖掘结果,在多 维数据立方体上进行上卷和下钻等操作就是为了得到不同粒度的挖掘结果,以 便从中选择最佳的挖掘结果。 2 、降低挖掘维数 如果用于数据分析的数据集太大了, 它肯定会降低挖掘过程的速度。 数据归 约( d a t a re d u c t i o n ) 得到数据集的压缩表示, 它比以前小得多, 但能够产生同样的 ( 或几乎同样的 ) 分析结果。有许多数据归约策略,包括数据立方体( 用于数据立 方体中的数据) 、维归约( 可以检测并删除不相关、弱相关或冗余的属性或维) 、 数值压缩( 用替代的、较小的数据表示替换或估计数据) 、离散化和概念分层产 生( 属性的原始值用区间值或较高层的概念替换) 和数据压缩( 使用编码机制压 缩数据集) .本文就采用了数据压缩中的主成分分析实现降维效果. 第二节 主 成分分析( p r i n c i p a l c o m p o n e n t a n a l y s i s ) 在各个领域的科学研究中,往往需要对反映事物的多个变量进行大量的观 测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提 供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大 多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时 对分析带来不便。如果分别分析每个指标,分析又可能是孤立的,而不是综合 的。盲目 减少指标会损失很多信息,容易产生错误的结论。因此需要找到一个 合理的方法,减少分析指标的同时,尽量减少原指标包含信息的损失,对所收 集的资料作全面的分析。由 于各变量间存在一定的相关关系,因此有可能用较 少的 综合 指 标分 别 综 合 存 在于 各 变量中 的 各 类 信 息 。 1 9 3 3 年, h o t e l l in g 提出 的 主成分分析( p r i n c i p a l c o m p o n e n t a n a l y s i s ) 正是实现这一目 的的有效降维方法。 主成分分析就是通过对一组变量的几个线性组合来解释这组变量的方差和 协方差结构,以 达到数据的压缩和数据的解释的目 的。主成分分析实际就是将 指标数尽可能压缩的降维 ( 即空间压缩)技术。 2 .2 . 1 采用主成分分析的原因 第一, 主成分分析的降维处理技术能较好地解决多指标评价的要求。 我们在 进行评价时是通过一定数量的指标进行的,多个指标构成一个多维空间,被评 第二章交通事故数据预处理一一主成分分析 对象成为多维空间中的样本点。两个样本在某项指标上变差越大,说明样本在 这一指标维度上的距离越大。由多项指标进行综合评价时,则要以各项指标的 总变差来说明样本在多维空间的相对地位。然而在将单项变差综合为总变差时 产生了以下问题: ( 1 ) 评价指标量纲往往不同,变差不能直接综合; ( 2 ) 指标间往往存在一定相关关系,由 此即使消除量纲影响后再综合,也会 有信息重复; ( 3 ) 在综合时如何确定各指标的权重。此外, 如果评价指标较多,应该在变 差信息损失较少的前提下减少工作量,也就是降维的问题:用较少的新变量, 代替较多的 原 变量. 主 成分 法正 是 在这些方面 显 示了 其 特点 6 第二, 主成分分析进行多指标综合评价时的 权数处理与其他方法相比有很大 的区别。主成分分析在进行多指标综合评价时,权数是从信息量和系统效应角 度来确定的。在数理统计中,信息量通常是用离差平方和或方差来表示的。主 成分分析计算综合评价时用的是信息量权数。信息量权数与平均数和指数中通 常使用的权数不同,也与功效系数法等常规多指标综合评价方法中使用的估价 权数不同。信息量权数是从指标所含区分样本的信息量多少来确定重要程度的。 而指标估价权数是根据评价者对指标自身重要程度的估价而确定的,可以 人为 调整。信息量权数是伴随数学变换过程生成的,不能人为调整。 2 .2 .2 主成分分析的基本思路 对道路安全状况进行评价, 往往需要大量的数据及众多的指标,这些指标之 间存在着一定的相关性。主成分分析就是设法将原来的指标重新组合成一组新 的相互无关的综合指标,同时根据实际需要从中可选取较少的几个综合指标, 尽可能反映原来指标的信息。主成分分析利用降维的思想,以较少的主成分来 综合代替原来较多的评价指标。主成分分析在高速公路交通事故综合评价中的 应用,实际上作了两个层次的线性合成,第一层次将原始指标通过恰当的线性 组合而成主成分,按累计方差贡献率不低于某个值( 比如 0 . 8 5 ) 的原则确定前几 个主成分,这反映了原始指标的信息;第二层次是各主成分以各自的方差贡献 率为权重,通过线性加权求和得到综合评价指标来分析交通事故原因的危害程 度,这反映了各主成分的信息6 第二章交通事故数据预处理一一主成分分析 2 . 2 .3 主成分分析的数学模型 假 定 有p 个 随 机 变 量( 指 标) xi , x 2 . . . . . . . . . x p . n 个 个 体, 对 每 一 个个 体 都观测记录了 其p 项指标的 值.组成一 个p 维随机变量为: zr,lesesesl.、 一- x 一 (x ,, x 2,.,x p ) 气 n 气 2 . . . . 石 p x x 2 , . . . x ro 当 然, 希望 通 过 这p 项 可 观 测指 标i , x 2 . . . . . . . x p 提 取出m( 远小 于p ) 项 综 合 性指 标y l y 2 . . . . . . . . . y - 。由 于 这些 综 合 性 指 标 信息 蕴 藏在 那些 可 观测 指 标 之中,或者说每一项可观测指标都或多或少携带有某些综合性指标的信息,因 而提取各综合性指标的过程,就是将散布在各个可观测指标中的综合性指标信 息分门别类地汇总出来。 从数学角度将上述思想加以 体现可抽象为,将每一综合性指标分别看成是 各可观测指标的某种线性组合,于是建立如下数学模型: 4 = 1 x , + 1 ,2 x 2 +. y = 1 2 , x , + 1 2 2 x 2 +.二 十 i li x , =i , x 十 12 p 弋= 1 2 x y = i . ,x , + 1 2 x 2 +. 二 + i, x p i , x 简 写 为 : y , = 戈+ 七 戈+. 二 + 侣 凡( i = 1 , . . . , m ) 其 中 1i = ( 1,p 4 2 , . . .标 ) 是 常 向 量 ; x = ( xx 2 . . .凡) 是 随 机 向 量 。 在 此 模 型 下, 各项 综 合指 标y 1 . y 2 . . . . . . . . . y rn 的 提取问 题就 具 体 化 为 依次 确 定m 个 常 数向 量1 式 , 砚 的问 题。 2 .2 .4 主成分提取 下面讨论各 项综 合性指标y , , y . . . 一 y的 提取( 即 确定m个常数向 量 式 风 , 孔 的 问 题 ) 问 题。 首 先 讨 论第 一 项综 合 性 指 标y , 的 确 定。 当 然 希 望y , 能 尽 可 能 多 地 反 映 原 来 p 项 指 标 所 反 映 的 信 息 因 为 x = ( x , , x 2 . . . 弋) 是 p 维 随 机 变 量 , y , = / ,x , 因 此y , 也 是 一 随 机 变 量 。 一 个 随 机 变 量 所 包 含 的 信 息 量 可以 简 单 地用它取值的分散程度( 即方差的大小) 来度量。 试想一门课程的考试成绩y 就是 一随机变量, 每个学生的考试分数是该随机变量的一个取值,y 的方差越大, 意 味着分数散布得越开,因而越能反映出学生们在学习上的差异,反映的信息就 越多。 第二章交通事故数据预处理一一主成分分析 在主成分分析中,就是采用方差来度量一个随机变量所包含的信息量。设 随 机向 量x的 协 方 差 矩阵 为艺 , 则y , 的 方 差 v a r ( y ,) = v a r ( 1,x ) 二 i,d ( x ) i, = l; y 1, 大, 限制 因 此 , 用 于 决 定 不 抓x 的 向 量 1, , 使 石 艺 1, 越 大 就 意 味 着 v a r ( y , ) = 1, 艺 1, 越 若 所 含 的 信 息 越 多 。 但 随 之 而 来 的 问 题 是 : 若 不 对 1, 的 模 v 卜 1,i, 施 加 一 定 , 随 着 肛 卜00 将 有 v a r ( y , ) - + oo , 而 无 法 进 行 比 较 。 合理的限 制 应该 是 将1 , 限 定为 单 位长 度向 量, 在此前提下, 选 择人 的 适当 方 向 , 使 石 艺 几 达 到 最 大 , 即 人 应 是 如 下 约 束 优 化 问 题 的 解 : m a x 石 艺 4 s 1 1 ,1 , 司 为 了 在 约 束 众 = i 下 求 1, , 使 v a r ( y , ) = 1,艺 几 达 到 最 大 , 由 l a g ra n g e 乘 子 法 , 只需求几 , 使 8 ( ! a ) = i, y- 1, 一 a ( l,l, 一 , )( 公 式 ) 达到最大。 先 求 驻 点 , 由 于 瞥= 2 了 式 一 2 从, 并 令 它 等 于 零 , 得 o r ,一 “ - a i 卜= 0 ( 公 式2 ) ( 公 式2 ) 有 非 零 解 的 充 要 条 件 是 件 一 叫 = 0 , 而 i# - a 1 1= 0 共 有 p 个 根 , 且 正好是协方差阵# 的p 个特征根, 又 协方差# 对称、 非负, 所以2 的p 个 特征根 皆 为 实 数 且 为 非 负 , 按 大 小 顺 序 依 次 记 为a _ 凡 乡 二 之 礼- 0 。 将 # 的 任 一 特 征 根a 代 入( 公 式2 ) , 有 戮= 从( 公式3 ) 由 线 性 代 数 可 知, 满足 上 式的 单 位向 量1, 应 该 是 的 特征 根.t, 所 对 应的 单 位 特征向 量。 显 然, 对 应 于不同 的 特 征 根凡 , 其单 位 特 征向 量 也是 不同 的 。 为 了 确 定 哪 个 特 征 根 所 对 应 的 单 位 特 征 向 量 几 能 使 v a r ( y . ) = 1,艺 1, 达 到 最 大, 将( 公 式3 ) 式 两 边 同 乘 石 , 并 注 意 到弘= i 得 l, 1,= x ;1 ,1, = 凡 可 见 , 为 使 v a r ( y , ) = 1 ,艺 1, 达 到 最 大 , 需 要 取 凡 = 入 , 即 取 最 大 特 征 根 , 相 应 得 到v a r ( y , ) 的 最 大 值: v a r ( y , ) = 1, e 1,= a 1;1, = .i, 此时, l , 就是艺 最大 特征根a 所对应的 单 位特 征向 量, 于是第一 项综 合 性指 第二章交通事故数据预处理一一主成分分析 标y , 二 i,x被 确定 , 称 之为 第 一 主 成 分。 以此类推,还可以依次提取第二、第三 主成分。通过类似的分析可知, 决 定 第i 主 成 分艺 = 石 x的 常 数向 量乙 , 正 好 就 是e 的 第i 大 特征 根凡 所 对应的 单 位 特 征 向 量 ; 第i 主 成 分 丫 = 石 x 的 方 差v a r ( 劝= e 其 中 、 / 全 、 为 第 , 个 主 成 分 : ( 1 , 2 , , ) 的 贡 献 率 , 它 的 大 小 反 映 了 信 息量的 多 少。 用主 成 分分析的目 的是为了 减 少 评估 指标的 个数, 故 一 般不用p 个 主成分, 而根据需要, 用m ( m 8 5 % 以 上 。 , 一j 一 1 2 .2 . 5 主成分分析的计算步骤 、 输 入 样 本 观 测 值 : x - x v ,d 2 、计算各指标的样本均值和样本标准差 s , =击1 ( x , 一 1 i ) j = 1,2 , ., , 进行标准化处理,计算样本相关阵: i = 1 , 2 , . . . n , j = 1 , 2 , - . . p 得 标 准 化 数 据 阵 y = ( y )- d , 再 计 算 样 本 协 方 差 阵 : s , 一 ( s 4 /d d 其 中 个六郭一(s ,., = - 1 i (y, - y ,)ln - 1 -,、 - 7 k 卜 三 二。 = j s i 艺 x , 一 xk r r - 1 = s k = r .; s j s k ( 不难看出 s , 因 y ., 实 际 上 是 以 原 数 据 x = ( x )- , s ; = 、 = 1 , s i =1,r, = r , ) 计 算 出 样 本 相 关 系 数 矩 阵 , = ( r,k )d d 代替前面的样本协方差阵s 作主成分分析。 ; 二 ( r k / d d 由 于r , - 1 , r ik = ry 第二章交通事故数据预处理一一主成分分析 即r 为对称阵,对角线上元素全为 1 ,只需计算 r , ,_ , 4 、计算相关矩阵r的特征值及特征向量: 若能 通过正交换q 使 、,.,产 0凡 凡n 2于.leseses.、 一一 q r q 则 人 凡 , , 凡即 为 r 的 p 个 特 征 值 不 妨 设 a , _ ,2 , . . . , 人 0 , 则q 的 各 即 为凡 所 对 应 的 正 则 化 特 征向 量 。 5 、建立主成分 按 累 计 方 差 贡 献 率 全 、 / 全 , 8 5 % 的 准 则 , 确 定 二 , 从而建立前m个主成 , 二井 . 1 分 : z , = v= 1, y , +.二 + i y l = 1 , 一 , m.其中y , . . , y o 为 标 准 化 指 标 变 量 。 6 、计算前m个主成分的样本值: z , = 全 : ,i = 1,2 ,. .,n , = 1,2 ,.二 ,,m 从而可得新指标 ( 主成分) 样本值以 之代替原样本值作统计分析, 使得问 题 简 化 v1 e1 第三节 利用主成分分析降低交通事故数据维数 2 . 3 . 1 s p s s 软件介绍 s p s s ( s ta t i s t i c a l p a c k a g e fo r t h e s o c ia l s c i e n c e s ) 即“ 社 会 科 学 统 计 软 件 包”,由美国斯坦福大学的三位研究生于2 0 世纪6 0 年代末研制,同时成立了 s p s s 公司,并于1 9 7 5 年在芝加哥组建t s p s s 总部。1 9 8 4 年s p s s 总部首先推 出了世界上第一个统计分析软件微机版本s p s s / p c + ,开创了s p s s 微机系列产 品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自 然科学、 技术科学、 社会科学的各个领域, 世界上许多有影响的报刊杂志纷纷就s p s s 的 自 动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评 第二章 交通事故数据预处理一一主成分分析 价与称赞。1 9 9 4 至 1 9 9 8 年间,s p s s 公司陆续并购7 s y s t a t公司、b md p软 件公司、 q u a n t i m e 公司 及i s l 公司等, 成为 走在了最新流行的“ 数据仓库” 和 “ 数据挖掘”领域前沿的一家综合统计软件公司。 和s a s 相同,s p s s 也由多个模块构成, 在最新的1 1 版中, s p s s 一共由十 个模块组成, 其中s p s s b a s e 为基本模块, 其余九个模块为a d v a n c e d m o d e l s . r e g r e s s i o n m o d e l s . t a b l e s . t re n d s , c a t e g o ri e s , c o n j o i n t , e x a c t t e s t s , m i s s i n g v a l u e a n a l y s i s 和m a p s , 分别用于完成某一 方面的统计分析功能, 他们均需要挂 接在b a s e 上运行。 除此之外, s p s s 1 1 完全版还包括s p s s s m a rt v i e w e r 和s p s s r e p o r t w ri t e, 两个软 件, 他 们并 未整合 进 来, 但功能上完全是s p s s 的 辅助软 件。 s p s s 采用类似e x c e l 表格的方式输入与管理数据, 数据接口 较为通用, 能方 便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过 程,完全可以满足非统计专业人士的工作需要。对于熟悉老版本编程运行方式 的用户,s p s s 还特别设计了语法生成窗口,用户只需在菜单中选好各个选项, 然后按 “ 粘贴” 按钮就可以自 动生成标准的s p s s 程序. 极大的 方便了中、 高级 用户。 2 .3 .2 利用主成分分析降低交通事故数据维数步骤 2 . 3 . 2 . 1 指标选取原则 本文所选取的数据是某高 速公路2 0 0 4 年9 月2 0 0 5 年7 月3 0 0 多 起交通事 故数据,该数据有1 2 个属性:车型、驾龄、 地区、年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论