基于XGBoost-SHAP的公路货车事故严重程度关键因素识别研究

上传人：领*** IP属地：天津上传时间：2025-11-16 格式：DOCX 页数：51 大小：141.54KB 积分：12 举报 版权申诉

已阅读5页，还剩46页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

绪论研究背景当前，在数字经济和实体经济深度融合的背景下，全球供应链体系对运输服务的需求持续攀升。我国构建的五维立体运输格局中，道路货运凭借其无可替代的灵活性、通达性和适应性，牢牢占据着区域物流配送领域的主导权。根据2023年交通运输行业发展统计公报相关统计数据REF_Ref10508\r\h[1]，截至2023年末全国拥有公路营运汽车1226.20万辆，其中载货汽车1170.97万辆，全国货物运输总量共达557.06亿吨，其中公路货车运输量达403.37亿吨，占全国货运总量的72.41%，货运周转量占比接近30%。2018—2023年6年期间全国货物运输量、公路货物运输量以及公路货物运输量占比REF_Ref22126图STYLEREF1\s1-1所示然而，全国范围内公路运输量的持续增长，也让货车事故在交通事故中的占比呈现持续攀升的严峻态势，已成为我国道路交通安全治理的重点难点问题。由于货车自身重量较大、夜间行驶比例较高以及存在视野盲区等原因，涉及货车的交通事故往往会导致更为严重的人员伤亡和财产损失。根据国家统计局《中国统计年鉴》REF_Ref10580\r\h[2]，我国2023年共发生254738起交通事故，事故导致60028人死亡，253895人受伤，造成直接财产损失11.79亿元。其中，货车涉案量占比近30%，远高于我国货车占全国汽车保有量总量比例，严重危害了人民生命财产安全。以南昌“1·8”重大交通事故为例，一辆严重超载的牵引货车因超速行驶撞击送葬人群，造成19人死，20人受伤，充分暴露出货车事故的特殊危害性。因此，深入研究公路货车事故的严重性及其关键影响因素，对于提升交通安全水平、降低人员伤亡和经济损失具有重要的现实意义。研究目的与意义研究目的本文以英国STATS事故数据库中2020年至2023年涉及货车的双车碰撞事故数据为依据，借助构建多种机器学习模型，剖析并评估驾驶员行为特征、车辆状况以及道路交通环境等关键危险因素对公路货车严重程度的影响机制。在此基础上，运用SHAP可解释性技术，针对各影响因素的边际效应展开量化分析，构建起基于机器学习和解释性分析的公路货车事故严重程度预测模型，为制定更具针对性且有效的安全措施提供了坚实的理论基础与数据支持。研究意义（1）理论意义近年来智能交通系统持续快速发展，机器学习技术在交通事故严重程度预测领域呈现出强大的应用潜力，本研究依据当前研究状况，采用集成学习方法作为核心预测框架，引入深度神经网络等非线性模型以及逻辑回归等传统线性模型作为对比基准，构建多层次模型评估体系，研究得出，相较于传统线性建模方法，本研究融合机器学习算法与SHAP可解释性技术，构建的非线性预测模型突破了线性关系的限制，可更精准地描绘事故风险因素的相互作用，有效提升预测精度。SHAP技术的运用使模型结果更具可视化与透明化，可直观地量化各个风险因素对事故严重性的贡献程度，为剖析和评估各因素对事故严重程度的影响提供依据，这种构建不同机器学习模型对比框架并与可解释性分析技术深度融合的研究方式，不仅拓宽了交通安全管理领域的理论视野，也为复杂系统分析研究提供了理论参考架构。（2）现实意义本研究为提高公路货运安全水平提供了科学依据以及实践指导，有关键的现实意义与应用价值，借助建立可解释的事故严重程度预测模型，研究结果可协助交通管理部门辨别高风险路段和时段，优化警力部署以及道路安全配置，预计可有效降低严重及死亡型事故发生率。对于驾驶员培训机构来讲，本研究成果指出致使事故的关键驾驶行为特征，为开发针对性培训课程、强化防御性驾驶技能训练给予了数据支持，从源头上减少因驾驶员因素引发的事故，在车辆安全设计方面，本研究明确了各类车辆控制方式与事故后果的关联性，为制造商改进车辆安全系统、优化车辆结构设计提供了关键参考依据。对车辆制造商而言，本研究可为其提供改进车辆安全性能的参考，依靠优化车辆设计或者增加安全配置，可提高车辆在道路行驶过程中的安全性，货运企业可依据本研究成果制定更为科学的车辆运输调度方案以及驾驶员管理制度，在保证安全的前提下提升运营效率。国内外研究现状目前国内外相关学者已经运用了多种模型和算法针对道路交通事故严重程度分析方面做了大量有价值的研究。本文主要研究涉及货车的两车碰撞事故严重程度影响因素，以下将从货车事故成因及其影响因素、事故严重程度预测模型构建及模型可解释性三个方面梳理国内外研究现状。货车事故成因及影响因素研究现状学术界专家学者针对货车事故严重程度影响因素展开研究的起步较早，并已取得了丰富的研究成果，近年来，随着数据分析技术的不断发展，越来越多的研究开始关注多因素联合作用对事故严重程度产生的影响，以及各因素间的交互关系。（1）国外研究现状早期国外研究者主要探讨了驾驶员疲劳、车辆状况、道路条件等单一因素对货车事故的影响。Häkkänen和SummalaREF_Ref13904\r\h[3]对1991年至1997年期间发生的致命两车事故中涉及拖挂卡车司机的因果因素、驾驶员责任以及疲劳相关因素进行了研究，研究表明，在长途驾驶过程中，驾驶员疲劳是导致货车事故的重要原因之一，并且年龄和是否夜间驾驶是事故是否发生的重要影响因素。Kharrazi和ThomsonREF_Ref18003\r[4]基于大型卡车事故原因研究数据库，分析了事故类型、失控类型、关键操作、车辆组合类型及不同道路特征对重型卡车事故的影响，确定了三种最常见的导致失控的关键操作，包括超速、刹车不当和车辆故障。随着研究的不断推进，国外学者针对货车事故影响因素的研究，逐渐从定性分析转为定量研究，开始运用多元回归、结构方程模型、贝叶斯网络等统计方法，深入剖析驾驶员特征、车辆因素、道路环境因素以及交通管理因素之间存在的复杂交互关系，以及这些因素对货车事故严重程度所产生的具体影响。MouyidREF_Ref18212\r[5]采用均值和方差异质性混合logit模型，针对驾驶员伤害严重程度展开建模分析工作，以此来量化影响货车事故伤害严重程度的因素。研究结果显示，如驾驶员的身体状况、行为模式、道路交通所有的特征以及环境条件等各类因素，都切实会对事故伤害程度产生一定的影响。WaskitoREF_Ref18323\r[6]运用贝叶斯网络方法对HFACS（HumanFactorsAnalysisandClassificationSystem）框架下驾驶员的不安全行为及其引发的后果进行因果因素识别，并通过贝叶斯网络进行逆向推理，研究认为，驾驶员违规行为对致命事故和多车事故的影响最大，且机械系统故障对驾驶员操作错误具有显著的促进作用。ChampahomREF_Ref18454\r[7]采用决策树（DecisionTree,DT）和基于均值及方差异质性的混合二元逻辑回归模型（RandomParameterBinaryLogitModelwithHeterogeneityinMeansandVariances,RPBLHMV）对影响汽车与货车单车碰撞的因素进行了实证分析。研究结果显示，事故严重程度与驾驶员性别、是否使用安全带、安装岛、缺陷设备以及安全设备等因素有关。（2）国内研究现状当前，在我国道路货物运输量持续增长的形势下，货运车辆安全事故频发已成为不容忽视的社会问题。学界通过整合多源事故数据，运用系统工程的思维方法，从人因失误、设备潜在故障、道路环境约束及恶劣气象条件等多维度交互作用机制出发，系统阐释了事故致因的深层机理与演化规律，为安全管理提供了坚实的理论基础。木拉迪里江·拜克居力REF_Ref18532\r[8]等基于文献调研和实际事故数据分析，通过构建交通流仿真模型，系统性地量化评估了不同类型不当驾驶行为对道路交通安全与运行效率的独立及协同效应，结果表明，在各类驾驶行为中，货车驾驶员的违规操作与过失行为对交通事故发生概率的贡献度最为显著。张向东REF_Ref18594\r[9]利用数据包络分析和机器学习等方法,重点进行货车驾驶员安全风险评估和风险因素挖掘研究，分析了年龄、驾驶经验等个体属性和驾驶风格特征对驾驶安全的影响，构建了基于多源异构数据的货车驾驶员安全风险评估模型，有效识别高风险驾驶员群体。王健宇等REF_Ref18738\r[10]围绕建成环境要素与交通事故的关联性开展研究，得出的结果显示，季节变化以及交通模式选择对于致死性交通事故有着正向影响，而像主干道路网密度、快速路覆盖程度、工业用地占比以及道路物理隔离设施等空间要素，呈现出风险抑制作用。吕庆志等REF_Ref18800\r[11]运用多元统计技术针对重型货车事故做专项分析，研究发现山区复杂线形路段是货车事故高发区域，其中制动系统故障是主要风险因素，同时道路反光标识不足、车辆防护装置失效以及灯光信号系统异常等隐患因素会共同提升事故风险水平。赵晨等REF_Ref18878\r[12]构建多维度分析模型对货车追尾事故特征进行系统研究，发现高速公路环境下重特大事故发生率呈现峰值特征，0时至6时时段风险等级最高，研究还指出在各类车型组合事故中，涉及重型货车的车际碰撞事故发生频率最为突出。事故严重程度预测模型构建研究现状事故严重程度预测模型构建是指通过建立一系列数学统计模型，针对交通事故数据展开分析研究，以预测货车事故可能造成的严重程度，在模型构建过程中，研究者一般会运用多种算法和技术，以提高预测的准确性和可靠性。近些年来，随着机器学习技术的迅速发展，国内外学者广泛将其运用于事故严重程度预测领域，使得预测精度和效率得到较大提升。国外研究现状针对货运事故严重性预测这一课题，国外研究者测试了多种计算智能技术的适用性。其中包括：擅长解决小样本问题的支持向量机、抗过拟合能力突出的随机森林算法、具有强大特征提取能力的深度神经网络，以及易于理解和实现的决策树模型。Shashiprabha等REF_Ref19015\r[13]分析了导致事故的五个因素：路面状况、道路走向、位置、天气条件和照明效果，并采用随机森林（RF）、决策树（DT）、极限梯度提升（XGB）和K近邻算法（K-NN）四种算法预测公路事故严重程度，并与逻辑回归（LR）进行比较，研究结果表明，相较于逻辑回归模型，机器学习算法在预测准确性方面展现出显著优势。Sunkpho等REF_Ref19094\r[14]提出了三种卷积神经网络（CNN）模型的变体，用于对泰国高速公路交叉口碰撞事故的严重程度进行分类。研究发现，具有dropout和L2正则化的CNN-DR模型在性能上表现最优。该研究揭示了事故机制，例如与相邻车道车辆的碰撞以及追尾事故，是导致严重事故可能性增加的关键影响因素。Khattak等REF_Ref19228\r[15]以巴基斯坦N-5国道交通事故为研究案例，提出了三种最先进的动态集成学习（DynamicEnsembleSelection,DES）算法，分别是动态集成选择元学习（META-DES）、K近邻消除法（KNORAE）和动态集成选择性能（DES-P），并运用SHAP技术对风险因素进行深入的解释性分析。研究表明，驾驶员年龄、月份、星期几和车辆类型是影响SHAP估计的关键因素。具体而言，年轻驾驶员面临较高的致命事故风险，而周末和夏季月份的交通事故导致的致命伤害更为频繁。AldhariREF_Ref19303\r[16]针对沙特阿拉伯（KSA）高速公路事故数据，运用了三种基于机器学习模型的事故严重性预测模型，即随机森林、XGBoost和逻辑回归，用于碰撞伤害严重性的分类，并运用SHAP分析解释并排名了导致碰撞伤害的因素。研究结果表明，驾驶员分心是导致KSA严重交通事故增加的主要原因，道路类型和照明条件是影响事故严重程度的其他重要因素。国内研究现状为推动我国道路运输安全发展，学界针对货运车辆事故开展了系统性研究，逐步引入智能算法来预测事故损害等级并识别核心风险因子。在事故预测建模方面，研究人员整合支持向量机、集成学习算法和深度学习网络等先进技术，基于真实事故数据建立了多种预测体系。丰染群REF_Ref19385\r[17]采用多源数据融合策略，基于XGBoost算法开发了事故预测模型，并运用SHAP可解释性框架解析特征重要性。研究发现：高速公路拥堵指数上升、上游车速波动增大时事故风险显著提升；驾驶行为中的急加减速现象，特别是加速度幅值较大时，会明显增加事故发生率。张腾REF_Ref19447\r[18]结合随机森林、XGBoost算法和逻辑回归算法，分析研究高速公路交通事故严重程度的影响因素和各个特征与事故严重程度的相关性。结果表明，时间、经纬度、天气、能见度等对于事故所造成的严重程度均产生了一定的影响作用。阚丁萍REF_Ref19646\r[19]选取了15个事故影响因素作为自变量，以事故严重程度作为因变量，分别构建随机森林、GBDT以及XGBoost模型，结果显示，在农村公路事故严重程度的模型预测方面，XGBoost模型在各个方面的指标中均表现最为出色。徐扬REF_Ref19737\r[20]通过构建随机森林和XGBoost的对比实验架构，开发了面向高速公路场景的驾驶员压力评估模型。研究发现，XGBoost算法在预测准确性方面明显优于随机森林，借助SHAP可解释人工智能技术，研究进一步指出了各输入特征与预测结果之间的非线性关系及其潜在作用机制。模型可解释性研究现状货车发生事故后相较于其他类型的事故往往会造成更严重的人员伤亡和财产损失，在针对货车事故严重性预测研究领域中，精准地对事故严重程度加以预测并且深入了解其产生影响的各类因素，对于预防严重事故的发生具有重要意义。传统的统计方法在面对高维、非线性的事故数据时存在着一定程度的局限性，机器学习模型尽管可在一定程度上有效提升预测的精准度，但其“黑箱”特性却限制了模型在实际应用中的解释性和可接受性。针对此问题，国内外专家学者开展了广泛的探索与实践工作，提出了多种方法和工具，运用可视化技术辅助直观地理解模型的预测结果及每个特征的边际贡献。（1）国外研究现状国外学者广泛采用了诸如部分依赖图（PartialDependencePlot,PDP）、局部可解释模型-无关解释（LocalInterpretableModel-agnosticExplanations,LIME）、梯度敏感性分析（GradientSensitivityAnalysis,GSA）以及SHAP等方法，以深入探究变量之间的因果关系与相关性。经系统比较不同算法的评估结果发现，和全局敏感性分析相比，基于博弈论的SHAP解释器可清楚呈现预测结果与风险因子之间的关联图谱，还可以有效识别变量间潜在的非线性交互作用，这种有多维度的解释能力提升了模型的可解释性。在机器学习领域，特征关键性评估作为关键研究议题面临不少挑战，虽说主流模型普遍采用特征关键性属性来量化各特征对输出的影响，然而该方法在解释具体特征作用机制方面有明显局限性。为解决此问题，SHAP解释框架凭借构建特征贡献值的分配机制，从局部预测和全局模型两个层面系统阐释黑箱模型的决策逻辑，具体而言，该算法运用数学推导把预测值分解成基线值与各特征贡献值的线性组合，其中每个变量的贡献度有正向促进效应又有负向抑制效应，这种可加性解释结构为理解复杂模型的决策机制提供了理论依据。鉴于SHAP方法在决策树模型中实现简便且计算精确，它在树集成学习模型解释中的应用越来越广泛。Ren等REF_Ref19816\r[21]运用XGBoost模型结合SHAP方法对美国未分隔公铁平交道口的安全评估，研究显示，该方法能有效建立伤害严重程度与风险因素之间的定量关系，其中死亡预测模型的准确率最高能达到93.36%，为交通安全管理提供了可靠的决策依据。Ismail等REF_Ref19966\r[22]在初始阶段结合CatBoost模型和SHAP方法，以识别和分析风险因素对伤害严重程度的影响及其依赖关系；再开发了多个预测模型，并应用了与模型无关的解释技术以区分模型的解释性；在最终阶段，对跨特征类别的系统级分类进行了深入分析和总结，利用汇总的SHAP分数将碰撞数据分类为高层次的因果因素，阐释了每个风险因素如何导致不同的伤害严重程度。Li等REF_Ref20041\r[23]利用CatBoost和XGBoost模型构建高速公路交通安全模型，并引入SHAP值分析了几何设计特征、交通运行特征、时间特征和土地利用等安全影响因素。研究发现，匝道类型是影响高速公路事故频率的最主要因素，曲线对事故的影响较大，而货车比例对事故的影响较小，交通量与货车比例有高度的相关性。这些发现为高速公路的安全运行管理和有针对性地改进措施提供了理论依据。（2）国内研究现状在模型可解释性方面，为克服机器学习模型“黑箱”操作的局限性，许多国内学者致力于提升模型的透明度，使其输出结果更具可解释性，为模型的进一步优化和调整提供依据。陈凯亮等REF_Ref20168\r[24]在构建了包含准确率、查准率、召回率、F-1分数等多项指标的综合评估体系，系统比较了XGBoost、LightGBM、随机森林与CatBoost四种模型的性能差异，并利用SHAP方法对XGBoost模型进行可视化分析，揭示了碰撞类型和人员类别等因素对事故严重程度的决定性影响。胡嫣然等REF_Ref20247\r[25]运用XGboost算法创建了实时事故风险预测模型，借助SHAP解释器量化了交通流变量、道路条件、天气状况以及时间特征等要素对事故风险的影响权重，还探讨了特征间的二维交互效应，为高速公路实时事故风险建模研究提供了依据。王誉翔等REF_Ref20302\r[26]采用CatBoost算法构建国省道交通事故预测模型，借助SHAP算法解析发现，驾驶分心行为及人车碰撞等六类特征与死亡事故存在显著关联，该研究成果为国省道交通安全治理提供了理论支持。国内外研究综述综合分析国内外学者在货车事故成因及其影响因素、事故严重程度预测模型构建及模型可解释性三个方面的研究现状后，研究发现，尽管国内外在货车事故预测领域均取得了显著进展，但都面临着一些挑战与不足。（1）在货车事故成因及影响因素分析方面，国内外专门针对货车事故的研究相对较少，大多数研究工作主要集中在对所有类型车辆交通事故的普遍性问题上。国外学者更注重从微观层面探究驾驶员生心理因素对事故的影响，对于从宏观层面分析道路条件、交通环境等因素对货车事故的作用机制尚显不足。国内研究在货车事故分析领域起步较晚，但近年来发展迅速，尤其是在结合我国道路交通实际情况，从人、车、路、环境四个维度综合探究货车事故成因及其影响机制方面取得了显著成果，但是在事故数据的深度挖掘和细致分析方面仍有待加强，对于货车事故的特殊性及其影响因素的深入探究尚显不足。（2）在事故严重程度预测模型构建领域，国内外众多学者广泛运用了各类先进的机器学习算法，如XGBoost、深度森林以及卷积神经网络等，最终得到了较高的预测精度，国外的研究在算法选择上更为多样，在模型性能评估和优化方面也做得更为精细，国内研究则更注重模型的实用性和可操作性，致力于开发出可在实际道路交通管理中发挥作用的预测模型，然而在模型的泛化能力方面仍然存在着挑战，在面对复杂多变的道路交通环境以及货车事故特性时，模型的预测性能有可能会受到影响。（3）在模型可解释性研究方面，国内外学者都采用了如SHAP、LIME等方法来提高机器学习模型的透明度，取得了一定的成果，与国外研究相比，国内研究在模型可解释性方面有所欠缺，对于如何利用SHAP等方法深入挖掘模型决策机制、提升模型透明度方面仍有较大提升空间。国内研究在货车事故成因及影响因素分析方面，虽然涉及了道路条件、交通环境、驾驶员行为等多个方面，但对于各因素之间的相互作用机制以及它们对事故严重程度的综合影响仍需进一步深入研究。本文将重点研究涉及货车的双车碰撞事故，深入剖析此类事故的成因及影响因素，构建更为精准的事故严重程度预测模型，并运用SHAP等方法提升模型的可解释性，期望能为我国道路交通安全水平的提升提供理论支持与科学依据。研究内容与技术路线研究内容基于对公路货运车辆运行安全状态的调查研究与数据采集，本研究系统梳理了国内外学者在货车事故致因领域的研究进展，着重剖析了货车与乘用车、货车与货车两类典型碰撞事故的形态特征。通过构建多维分析框架，研究从驾驶行为个体差异、车辆特性、道路基础设施及环境变量四个层面，深入探究了上述因素对公路货运相关两车碰撞事故损害程度的交互影响机制，采用随机森林和XGBoost算法，精确量化各危险因素对事故严重程度的边际贡献，并据此建立定量评估模型，最终构建出以机器学习和解释性分析为基础的公路货车事故风险预测模型，提出了相应的干预策略，为公路安全管理提供科学依据。文章主体内容共分为六个章节，各章节的组织架构和主要研究内容如下：第一章绪论。介绍研究背景和目的，总结关于基于机器学习和SHAP的关键危险因素对公路货车事故严重程度影响国内外相关研究成果，在此基础上提出研究公路货车事故严重程度影响的重要性及具体内容，并阐述研究方法和技术路线。第二章事故数据预处理。阐述事故的来源，详细剖析了事故数据特征筛选、缺失值处置、异常值处置、数据标准化等数据清洗和预处理技术的关键环节，以保障数据的质量与一致性，预处理后事故数据将作为后续统计分析、特征选择、模型构建以及影响因素机制剖析的基础。第三章事故统计分析及特征选择。本章节在前文的基础上，阐释道路交通事故与货车等定义，再从时空、人、车辆、道路、环境等维度着手，针对预处理后的数据展开初步统计分析工作，以确定它们对事故影响的初步评估结果，然后，通过包装法、过滤法等一系列特征选择流程来确定最终用于事故预测的特征集，以提升模型的预测能力。第四章事故严重程度预测模型构建。本章首先介绍集成学习、深度学习和传统线性模型三类模型的核心原理与评价指标，同时阐述不平衡数据集的采样方法，针对样本数据分布不均衡的问题，采用数据平衡化处理方法，以提升各类机器学习模型在分类任务中的适用性和性能表现。在此基础上，运用集成学习、深度学习以及传统线性模型三类不同的算法构建来公路货车事故严重程度预测模型，统一借助贝叶斯超参数优化方法对模型进行优化，通过对各模型的预测结果进行比较和分析，选出最优的事故严重程度预测模型。第五章基于SHAP的模型可解释性分析。基于SHAP可解释性框架，本章采用由全局至个体再到特征交互作用的多层次分析方法，系统量化评估各危险因素对事故严重程度的影响机制，通过不同维度的解释性分析，不仅揭示了单一因素的重要性，更深入探讨了多因素间的交互作用，从而全面阐释货车事故影响因素与事故严重程度之间存在的复杂关联关系。结果表明，在造成死亡类型事故的因素中，道路因素对事故严重性具有显著影响，事故发生时间、车速限制、道路等级、交叉口位置等特征对于死亡类型事故的影响最为明显。第六章总结与展望。归纳与概述全文所开展的研究工作，阐明本研究的创新点，对后续研究工作进行展望，并针对本文存在的不足之处，探讨后续有可能的优化方向。事故数据预处理本章节主要介绍了事故的具体来源详细剖析了事故数据特征筛选、缺失值处置、异常值处置、数据标准化等数据清洗和预处理技术的关键环节，以保障数据的质量与一致性，经过预处理的事故数据将作为后续统计分析、特征选择、模型构建以及影响因素机制剖析的基础。事故来源及适用性分析现有文献检索结果显示，针对我国交通事故严重程度影响因素的研究成果较少，这主要是因为国内交通事故数据很难获取且数据质量较低。因此，本实验选择数据精度更高的英国STATS事故数据库中的2020—2023年的事故数据，以期深入了解货车事故严重程度的致因理论。作为标准化的结构化数据存储系统，STATS数据库在年度数据采集过程中采用模块化架构设计，具体由三大核心数据模块构成：事故特征数据模块、车辆属性信息模块以及人员伤亡特征模块，每个模块由“accident-index”和“accident-reference”字段链接。由于中英两国在社会制度与发展阶段上存在明显不同，本研究在数据预处理阶段采取差异化处理策略，优先排除国情相关性过强的指标，重点聚焦事故机理中的共性要素与车辆基础参数展开分析。初步选取的事故特征数据、车辆数据的具体分类及变量解释分别见REF_Ref14695\h表STYLEREF1\s2-1和REF_Ref14711\h表STYLEREF1\s2-2。数据预处理分析数据集成数据集成步骤涉及使用python编程。在完成数据适用性分析并筛选出相关数据特征后，这些特征被保存在每年的事故特征数据库和车辆信息数据库中。由于本次实验研究的数据覆盖了202年至2023年四年的时间范围，本实验选择通过“accident-index”字段来匹配每年的事故特征数据库和车辆信息数据库，并将生成的大文件中重复的字段，如accident-index、accident-year等删去，从而得到每年的事故数据。随后，将这四年的数据文件进行整合，初步构建出2020—2023年所有事故的完整信息数据库。数据筛选STATS事故数据库对涉及事故的车辆类型进行了分类和编码，部分车辆分类和标签说明如下REF_Ref3780\h表STYLEREF1\s2-3所示。由上表可知，数据库所收录的交通事故涉及多种车辆类型，包括但不限于自行车、摩托车、乘用车、货运车辆、公共汽车以及有轨电车等，本研究重点关注货运车辆参与的两车碰撞事故类型，即汽车-货车、货车-货车事故，货车分类为最大总重在3.5吨及以下、3.5吨—7.5吨、7.5吨及以上和吨数未知四种类型，汽车类型编码为“9”，所以需要筛选出编码为“9、19、20、21、98”的车辆。由于本研究聚焦于涉及货车的两车碰撞事故数据类型，本文数据筛选流程如下：首先，在筛选出车辆编码的数据库中，进一步筛选出标记为“vehicle-numbers=2”的事故记录，即两车碰撞事故；其次，根据“accident-index”字段将碰撞涉及的两车数据进行重新匹配，筛选并保留涉及货车-货车、汽车-货车车辆类型的事故数据。最后，通过“accident-index”字段对数据进行核查，排除存在重复值及单个值的无效数据，并确保每个“accident-index”字段均对应两行不重复的事故信息。数据清洗（1）缺失值处理由于统计问题或数据记录过程中的疏忽，数据集中可能会存在一些缺失值。这些缺失值如果未经处理，可能会在分析过程中引入偏差，影响结果的准确性。分析初始得到的货车-货车、汽车-货车数据集，发现有较多因素变量中存在些许缺失值，STATS数据库中，将数值为“-1”的数据标记为“datamissingoroutofrange”，即数据缺失，同时部分变量因素中存在编码为“unknown”的缺失值，例如“weather_conditions”中数值为“9”的数据和数值为“-1”的数据均代表数据缺失，需要对这些缺失值进行统计分析及相应的处理。为了方便统计缺失值，本研究选择将编码为“unknown”的数值全部转化为“-1”的形式，故而在数据集中所有标记为“-1”的数据均代表缺失值。在此基础上，对整个数据集的缺失值进行统计，如REF_Ref3878\h表STYLEREF1\s2-4。在有关交通事故数据对于缺失值处理的工作中，直接删除法是目前最常规的处理方式，但该方法存在一定的局限性，当数据集存在较多缺失值时，采用直接删除策略不仅会造成样本量的急剧缩减，更可能导致关键信息的严重流失，进而对分析结果的稳健性与可靠性产生负面影响。因此，本实验在处理缺失值时，综合考虑缺失值的数量及缺失值比例，选择合适的处理方法：对于缺失率在0.1%以下的数据，如“urban_or_rural_area”“second_road_class”等缺失率极低的数据，其缺失数值远低于样本量，可直接删除；对于缺失率较低，且属于分类属性的数据，如“road_type”“trunk_road_flag”等，选择采用众数填充法作为数据插补处理方法；对于缺失率较低，且属于数值属性的数据，如“age_of_driver”“age_of_vehicle”等，选择采用均值填充法；对于缺失率超过40%的数据，如“journey_purpose_of_driver”“enhanced_casualty_severity”等，缺失情况过于严重，进行填充可能会对数据分析结果产生较大影响，考虑删除这些变量。（2）异常值处理异常值指数据集中存在的不合理的值，虽然出现概率较低，但此种偏离正常范围的值会影响事故影响分析，在数据预处理过程中应予以重视。其中，3σ原则建立在正态分布假设之上，当某一测量值的残差绝对值超过3倍标准差时，就可以判定其为异常数据并将其剔除，箱线图法基于数据集的四分位数构造箱体结构，加上延伸的触须线以此来直观地呈现数据分布特征，这种较为简洁的可视化方法能有效地识别数据集中的潜在异常点，一般会把上下触须边界定义为数据分布的合理范围，只要是超出这个范围的观测值，不管是位于上限外侧还是下限外侧，都可判定为是需要重点关注的离群值。本实验选择结合3σ原则和箱线图的方法对数据属性为数值型的数据进行异常值检测，如下REF_Ref4091\h图STYLEREF1\s2-1和REF_Ref4117\h图STYLEREF1\s2-2所示。从REF_Ref4091\h图STYLEREF1\s2-1可以看出，“age-of-vehicle”和“age-of-driver”两个属性中存在一些明显偏离大多数数据点的值，车龄超过22.58以及驾驶员年龄超过86.12的数据即为3原则检测出的异常值。REF_Ref4117\h图STYLEREF1\s2-2（a）展示了“age-of-vehicle”根据箱线图方法绘制检测异常值的结果。从图中可以看出，箱线图与3原则检测结果相似，存在一些明显偏离正常分布范围的数据点。图2-2（b）则展示了“age-of-driver”属性的异常值检测结果，驾驶员年龄超过82岁的数值即为异常值，共451个。结合以上两种方法及英国实际情况，本研究选择删去车龄大于40、驾驶员年龄小于16或大于82岁的数据所在的索引标签行。数据转换（1）数据转换对于数值类型的数据，如“age_of_driver”“age_of_vehicle”等，分布不符合分析要求，需要进行适当的数据转换。在英国STATS数据库中，对“age_of_driver”按每五年进行分段，例如将16-20岁、21-25岁等分别编码为4、5等，以便更好地分析驾驶员年龄对事故的影响。对于“age_of_vehicle”，本研究选择参考以上方法并结合箱线图异常值检测结果，对车龄在20以下的车辆按每4年进行分段，车龄在20以上的车辆统一编码为“6”，并将此类编码保存于age_bandof_vehicle中，以便更细致地分析车龄对事故的影响。对于分类属性的数据，如“speed-limit”，其在数据集中的代码为20、30、40、50、60、70，分别代表不同的速度限制，为了更直观地分析速度对事故的影响，本研究选择将这些代码转化为对应的速度区间，如20-30的数据视为低速编码为1，并将此类描述保存于“speed”中。其中，编码1代表低速，编码2代表中速，编码3代表高速。（2）时间格式转换在交通事故数据分析工作中，时间因素往往是一个关键的考量维度。为了能较好地分析不同时间段以及季节对货车碰撞事故所产生的影响，本研究选择将时间格式的数据，如“date”“time”等，分解为一天之中的不同时段和一年中的不同月份。为了获取季节性变化对事故的影响情况，选择将月份字段进一步转换为季节信息。根据英国的地理位置和气候特点，将一年划分为四个季节：春季（4月至6月）、夏季（7月至9月）、秋季（10月至12月）和冬季（1月至3月），部分转换结果如下REF_Ref13874\h表STYLEREF1\s2-5所示：处理后的数据集共25255条事故信息，涉及50510辆碰撞车辆及对应数量的驾驶员。由于驾驶员及车辆特征包含多个变量，为降低数据维度的复杂性，本研究考虑对每条事故涉事车辆相关信息进行处理，按照“一行记录对应一个车辆和一个驾驶员的原则”将每条事故分为两行记录，有效简化了数据结构，为后续分析建立了规范化的数据基础。本章小结本章聚焦于事故数据的预处理工作，对数据清洗等关键步骤展开了较为细致的探讨，为后续的分析工作构筑了可靠的数据根基。首先，阐述了事故数据的来源及其适用性，然后，严格按照数据清洗的核心环节进行数据处理，包括事故数据特征的筛选、缺失值与异常值的处理以及数据标准化等步骤，以此来保障数据的完整性与准确性。经过上述预处理操作后的事故数据，将为后续的统计分析、特征选择、模型构建以及影响因素机制分析提供支持。事故统计分析及特征选择为探索货车对于公路的交通影响，提升模型预测能力，本章节在前文的基础上，从时空、人、车、路、环境这五个维度出发，结合货车的固有风险特性，对预处理完毕的数据进行初步统计分析，以确定它们对事故影响的初步评估。然后，通过包装法、过滤法等特征选择过程确定用于事故预测的最终特征集。相关概念界定道路交通事故，是指在公共通行区域参与交通活动的各类主体，包括机动车驾驶人、行人、乘客及其他相关人员，由于未能遵守《中华人民共和国道路交通安全法》及相关道路交通管理法规、规章的规定，因过失行为导致人员伤亡或财产损失的意外事件REF_Ref20410\r[27]。道路交通事故依据我国现行道路交通安全法，现行法律框架下对道路交通事故的等级划分主要依据事故严重程度，将其系统性地划分为四个等级，具体分类情况如下REF_Ref14127表STYLEREF1\s3-1道路交通事故分类：货车定义与分类货车，又称载货汽车或者卡车，是主要功能用于运送货物的汽车，有时也可指代可牵引其他车辆的汽车，属于商用车辆这一类别，一般货车有较大的载重能力以及货车或挂车的结构，这与载客车辆，例如轿车、客车，存在明显区别，国内对于货车分类的问题，多数标准是依据车辆的长度、重量、载重等因素来划分，不过这些标准并不统一。美国公路货车按照车辆总重等级分类，将货车分成了8个等级，其中1到3级属于轻型货车，4到6级是中型货车，7到8级为重型货车REF_Ref20524\r[28]，具体分类结果见REF_Ref6262\h表STYLEREF1\s3-2：在我国，根据《收费公路车辆通行费车型分类》（JT/T489-2019）的规定，我国货运车辆的分类体系主要基于车辆轴数、整车长度以及核定最大载质量三项核心指标，将货车划分为六个具体类别，具体分类结果见下REF_Ref14983表STYLEREF1\s3-3收费公路车辆通行费货车车型分类。货车的风险固有特性基于海因里希事故因果连锁理论REF_Ref27982\r\h[29]，公路货车事故的发生机制可视为由多重风险因素依序作用而形成的因果链式反应，这一理论表明，货运车辆的事故往往是由多种风险因素共同作用所导致的。因此，研究分析公路货车事故特征必须立足于货车本身固有的风险特性，可将影响公路货车运行安全的风险因素归纳为以下四个维度：驾驶行为风险因素作为公路货运交通系统的直接货车驾驶员既是货运车辆交通运行的参与者，更是公路货车事故的承担者。通过对以往涉及货车的交通事故的数据统计分析发现，货车在公路交通运行中发生交通事故多与驾驶员的不良操作习惯有关。例如，长时间驾驶导致的疲劳、跟车距离过近、开车时注意力分散（如使用手机、聊天）、不规范操作（如急刹、强行变道）等，都是常见诱因。车辆工程风险特性从车辆工程学的角度分析，货车由于其特有的质量-结构特性，存在显著的安全风险。具体表现为：荷重越大，制动越困难；质心高、视线高，易倾侧失稳；右侧盲区范围达3.8—5.5m，转弯时扩大至7.2m，在高速转向时更容易失控、侧翻或相撞。其中，未装ABS的货车在μ＜0.4的低附着路面，方向失控风险增加3.2倍，更容易发生交通事故。载货管理风险特性货运车辆在运输期间，因受经济利益的影响，货车司机普遍存在超重情况，依据牛顿第一运动定律，当货运车辆载重超过一定限定数值，货车的运动惯性会呈现非线性增长，更易致使制动失效以及车架机构过载损伤等运行风险，另外货物固定不妥、装运特殊货物也会使事故风险性增加。当货物固定不恰当，驾驶员急刹车时货物很容易向前移动撞击驾驶室，或者因堆积不均匀致使转弯时发生侧翻。道路环境风险特性货车的安全行驶高度依赖路况，具体而言，雨天路面湿滑产生的低附着路面系数容易导致制动失效货车侧翻等风险。夜间照明不足的条件下，驾驶员的视认距离远不及白天，反应时间也会相应延长0.5—1.2秒，更容易因突发状况措手不及。长下坡、急拐弯等高风险路段对货车司机的挑战极大，操作稍有不慎就很可能导致车辆失控。在混合交通流环境中，小车随意变道、行人突然横穿等行为都会增加货车司机的驾驶难度，稍有不慎就可能酿成事故。公路货车事故致因统计分析基于前述内容，交通事故的发生往往由多种风险因素共同作用所导致，货车作为道路交通的主要参与者，其事故致因同样复杂多样，本节拟从时空、驾驶员特征、车辆特征、道路特征、环境特征等五个维度展开分析，以确定各特征对事故影响的初步评估。时空维度分析本节将从事故发生年份、事故发生区域、事故发生时间、事故发生时段等内容对处理后的数据进行统计分析，以揭示事故在不同时间和空间上的分布规律驾驶员主导因素根据现有研究数据显示REF_Ref20704\r[30]，在道路交通事故成因分析中，人为因素占据主导地位，尤其以机动车驾驶员的违规操作对交通安全构成最为显著的威胁。国际驾驶员行为研究学会（IDBRA）开展的跨国实证研究表明，如REF_Ref29853\h表STYLEREF1\s3-8所示，不同地域的交通事故中约65%由驾驶员直接过失引发，另有25%源于驾驶员与道路环境的交互作用，值得注意的是，超过九成的事故案例均与驾驶员的操作失误存在不同程度的关联性REF_Ref20890\r[31]。货车作为机动车中体积最大、质量最重的车型，其驾驶员的操作失误往往会造成更为严重的后果。有学者通过对国内某货运平台560辆货车的行车数据研究，得到了在驾驶员驾驶期间存在的危险驾驶行为REF_Ref18594\r[9]。其中，容易导致道路交通事故的驾驶员因素包括激进驾驶、车道偏离、临近碰撞等风险驾驶行为与疲劳驾驶、分心驾驶等异常行为状态。在复杂的道路环境中，货车驾驶员需要在短时间内完成“感知-判断-决策-执行”的完整认知过程，这既考验着驾驶员的生理机能，也检验着其心理素质，任何一个环节偏差都可能导致严重的后果。数据集中涉及驾驶员特征的数据主要包括驾驶员性别、驾驶员年龄段等，这些数据对于分析和理解事故风险具有重要意义，下面将从这两个方面分别进行统计分析：车辆影响因素车辆作为交通事故的主体，是引发交通事故的关键因素之一，在数据统计中，因纯粹车辆故障直接引发的交通事故，其所占比例仅为15%至20%，但这类事故往往会造成最为严重的生命财产损失，而这一特性在货车事故当中呈现得非常明显。数据集中有关车辆特性的数据有车辆行驶年限和车辆控制方式两种特征。其中，车辆行驶年限已根据车龄进行了分段编码，而车辆控制方式则包括掉头、停车、转弯、变道等不同形式。道路条件因素道路条件对货车行驶安全的影响主要体现在道路线形特征和路面状况两个关键方面。道路线形属于影响货车行驶安全的关键要素范畴，主要包含平面线形、纵断面线形以及线形组合这三个方面，平曲线半径越大，驾驶员的视野会变得更加开阔，交通事故的发生几率会相应降低。纵断面线形设计主要涉及坡长、最大纵坡、竖曲线半径，相关研究表明，纵坡绝对值处于3%至4%之间时事故率最低，当坡度绝对值超过4%，坡度越大，交通事故率越高。良好的路面状况需要同时满足平整度与抗滑性这两项核心指标，这对于保障货车行驶安全十分关键，路面不平整会让货车行驶时产生颠簸，这增加了驾驶员的驾驶难度，又可能致使货车部件出现额外磨损，特别是轮胎和悬挂系统。长时间在不平整路面行驶，会加快这些关键部件的老化，增加货车发生故障的风险。路面的抗滑性直接关乎货车在湿滑条件下的制动性能和行驶稳定性，当路面抗滑能力不足时，货车制动时可能出现滑移，制动距离延长，甚至导致制动失效。整理所得的数据集则包括了道路行政等级、道路类型、车速限制、是否为主干道以及路面环境等特征类型，下面将分别对这几部分因素造成不同严重程度事故进行统计分析。道路行政等级英国道路行政等级一般分为高速公路（motorway）、干线公路（A级）、地方公路（B级）、低等级道路（C级）等类别，分析不同道路行政等级事故严重程度可知，干线公路发生事故率远高于其他等级公路，共发生12525起，占比近半，且干线公路发生死亡性事故比例远高于其他等级公路，具体数据见下REF_Ref29071表STYLEREF1\s3-13：车速限制为了便于统计，前文已将不同限速值（mph）进行了分类，其中低速为20-30mph限速值，中速为40-50mph限速值，高速为60-70mph限速值，不同限速值发生事故严重程度统计见下REF_Ref29410表STYLEREF1\s3-15，分析可得低限速值公路发生事故数最高，共发生11802起，占比约46.73%，但发生死亡类型事故仅50起，占低速事故的0.42%，而高限速值公路发生事故次多，并且其死亡和严重受伤占比远超其他限速值公路。分析道路是否为主干道所发生的事故严重程度可知，道路为非主干道时发生的事故数占比远多于主干道上发生的事故数，其中非主干道涉及汽货碰撞事故数共20503起，占比81.18%，但主干道上发生死亡的事故占比多于非主干道，具体统计数据见下REF_Ref29629表STYLEREF1\s3-16：路面环境从不同路面环境来看，干燥的路面环境发生交通事故数最多，共18115次，占比71.73%。有积雪或霜冻的路面环境发生事故率虽然占比较少，但是一旦发生，其事故严重程度往往较高，尤其是死亡和严重受伤事故的频率显著高于其他路面环境。这可能是因为在积雪或霜冻的路面上，车辆的操控性能会大幅下降，驾驶员的视线也会受到影响，导致事故风险增加。具体统计情况见下REF_Ref29727表STYLEREF1\s3-17：外部环境因素外部环境对货车行驶安全的影响不容忽视，主要包括道路照明条件、天气条件、季节气候条件等。这些因素相互作用，显著增加了货运过程中的风险系数。道路照明条件从事故发生时的道路照明条件来看，白天发生事故数较多，共发生事故19934起，占比78.93%。夜间无光照条件下发生事故占比虽较小，但一旦发生，其严重程度往往较高，尤其是死亡和严重受伤事故的频率显著高于有光照条件。这可能与夜间无光照时，驾驶员视线受限、反应时间延长、车辆操控性能下降等因素有关。具体数据见下REF_Ref29949表STYLEREF1\s3-18：天气条件从事故发生时的天气条件来看，晴天时发生事故数最多，共21025起，占比83.25%，雨天发生事故数次多，共3238起，占比12.82。雪天和雾天发生事故总数占比虽小，但是往往事故严重程度最高，具体数据统计见下REF_Ref30093表STYLEREF1\s3-19：季节气候条件对比事故发生时所处的不同季节发现，四个季节发生事故数大致相当，且各严重程度占比也大致相当，可考虑删去此特征值。具体统计数据见下REF_Ref30240表STYLEREF1\s3-20：特征选择数据预处理及事故致因初步分析后，为进一步筛选出对交通事故严重程度有显著影响的特征，还需采用特征选择，以选出最终特征变量进行模型预测。特征选择属于机器学习中关键的数据处理环节，其目的在于从原始特征集合当中挑选出最具判别能力的特征，主要囊括过滤法、包装法以及嵌入法这三种方式。过滤法作为基于统计量化的特征选择办法，其核心手段是依据统计指标去评估每个特征和目标变量之间的相关性，并且独立于模型，可迅速筛选特征，减轻后续计算的负担。包装法把特征选择当作搜索优化问题，主要借助训练模型来评估不同特征间的性能，适用于有复杂非线性关系的数据集，嵌入法是把特征选择融入模型的训练进程，借助模型自身的优化机制来自动选取关键的特征，不过存在一定的模型依赖性，还需要额外进行调参，增加了计算成本，本文选择将过滤法与包装法这两种特征选择方法相结合，对特征给予筛选和优化。过滤法过滤法在分类任务中常采用卡方过滤、互信息和方差阈值等方法，在回归任务中则采用Pearson相关系数、Spearman相关系数等方法，兼具高效性和可解释性，本文选择结合方差阈值、卡方过滤等分类方法和Pearson相关系数的回归方法来初步选择有意义的特征变量。（1）方差阈值如下REF_Ref30475表STYLEREF1\s3-21所示，为数据集中不同特征变量的方差，该值反映了单个特征变量的离散程度。分析不同特征变量的方差发现，大部分特征方差较大，为强方差特征，对于模型训练具有较高价值。对于方差低于0.5的特征，如trunk_road_flag、sex_of_driver等，波动较小，对于目标变量accident_severity的预测能力较弱，可以考虑删去。（2）卡方过滤卡方过滤，即Chi-SquareFilter，是一种依靠统计检验的特征选择办法，适用于分类任务，它会计算每个特征跟目标变量之间的卡方值（Chi2-Score）以及P值（P-value），以此评估特征对目标类别的区分能力，筛选出较大性高的特征，若卡方值越大，同时P值越小，则说明特征跟目标的关联性越强，对目标变量的预测能力同样越强。部分特征的卡方值和P值数据见下REF_Ref30677表STYLEREF1\s3-22：本研究中，选择P值为0.5，超过这一阈值，则视为该特征变量与目标特征相关性很小，可考虑将其从特征集中排除。从上表可以看出，“urban_or_rural_area”“second_road_class”“special_conditions_at_site”等特征的P值均远小于0.05，表现出与目标变量“accident_severity”有极强的关联性，“sex_of_driver”“hit_object_in_carriageway”等特征的P值也小于0.5，表现出与目标变量有较强的相关性，而“carriageway_hazards”和“day_of_week”这两个特征变量卡方值偏高，可以考虑删除这两个特征变量，以减少数据噪声。（3）Pearson相关系数Pearson相关系数γ在统计学里用于衡量两个连续变量之间线性相关性的强度以及方向，取值范围一般是在-1至1之间。若两个特征变量的相关系数很高，则证明两者之间存在冗余情况，有可能引发模型训练时的多重共线性问题，影响模型的预测精度与稳定性。本文借助绘制Pearson热力相关图来将各变量之间的线性相关性进行可视化呈现，下REF_Ref31481图STYLEREF1\s3-3，在本研究中，选取0.7作为相关系数的阈值来对特征加以筛选，以此去除高度相关的冗余特性。从图中可以看出，变量之间基本上不具备强相关性，但“junction_detail”和“second_road_class”两个特征变量之间的相关系数为0.74，具有较强的相关性，可以考虑删去其中之一。包装法通过上述过滤法对特征变量的初步筛选后，本研究选择采用包装法进一步筛选有意义的变量。不同于过滤法和嵌入法，包装法可以直接依赖于模型的预测能力来筛选特征，能获得更好的模型表现。常用方法有前向选择、后向消除、递归特征消除等。为精确选择有意义的特征变量，本研究结合Boruta和RFECV两种算法，经过交叉验证+统计验证的双重过滤，可以弥补单一方法的局限性，从而得到特征重要性评估和模型性能优化的双重保证。（1）Boruta算法Boruta算法是一种基于统计显著性检验的特征选择方法，由KursaBM等REF_Ref19653\r\h[32]在2010年提出。得益于随机森林算法，Boruta算法对非线性关系和交互作用具有高度敏感，并且能够自动确定特征的重要性阈值，避免了人为设定阈值的主观性，适用于高维数据集的特征选择。该算法的基本方法是通过构建“影子特征”作为对照，来识别真正重要的特征，核心思想是“如果一个特征的重要性显著高于随机噪声，则认为它是重要的”。若该特征变量的重要性高于影子特征，则返回“True”，反之，则返回“False”。在本研究中，将采用Boruta算法对特征进行进一步筛选，以得到对交通事故严重程度有显著影响的特征变量，该算法对部分特征变量的选择如下REF_Ref19728\h表STYLEREF1\s3-23：从上表可知，最终有9个特征被剔除，分别为“season”“weather_conditions”“special_conditions_at_site”“road_surface_conditions”“carriageway_hazards”“age_band_of_vehicle”“driver_imd_decile”“driver_home_area_type”和“age_band_of_driver”，具体特征筛选结果将结合RFECV算法选择的特征。（2）RFECV算法RFECV算法是一种结合了递归特征消除（RFE）和交叉验证（CV）的特征选择方法。核心思想是通过递归地消除不重要的特征，并在每一步使用交叉验证来评估特征子集的性能，从而找到使模型性能最优的特征组合，其交叉验证过程如下REF_Ref20088\h图STYLEREF1\s3-2所示。观察上图发现，模型在包含22个特征时表现最佳，最终RFECV算法淘汰的特征共7个，分别为“road_surface_conditions”“special_conditions_at_site”“carriageway_hazards”“trunk_road_flag”“vehicle_location_restricted_lane”“skidding_and_overturning”“hit_object_in_carriageway”。对比整合以上所有方法选择的特征变量，为了避免删除一些可能对模型预测有重要影响的特征，本文将在上述实验结果的基础上结合人工复核的方法，对特征进行最终筛选，选择删除“season”“road_surface_conditions”“special_conditions_at_site”“carriageway_hazards”“trunk_road_flag”“hit_object_in_carriageway”“driver_imd_decile”“driver_home_area_type”八个特征。综合数据预处理、统计分析与特征选择的结果，本文后续将选择剩余的21个特征进行后续的事故严重程度预本章小结本章对预处理后的数据进行了充分的探索，首先基于“人-车-路-环境”系统理论框架，运用统计分析方法以事故严重程度为分类准则，对最初数据集进行分析。在此基础上，综合运用过滤法、包装法等多种特征选择方法，对特征进行筛选，得到了最终的事故预测模型数据集，为后续的事故严重程度预测模型构建奠定了坚实的数据基础。事故严重程度预测模型构建本章将应用前文进行数据预处理及特征选择后得到的最终事故预测特征数据集，进行事故严重程度预测模型的构建。本章首先介绍集成学习、深度学习和传统线性模型三类模型的核心原理及评价指标，并阐述不平衡数据集的采样方法，对不平衡样本数据进行平衡化处理，使之适用于各模型的分类算法。在此基础上，运用集成学习、深度学习和传统线性模型三类不同的算法构建公路货车事故严重程度预测模型，统一采用贝叶斯超参数优化方法对模型进行优化，以提高模型的精度和泛化能力。最后，通过对各模型的预测结果进行比较和分析，选出最优的事故严重程度预测模型。预测模型及评价指标介绍近年来，机器学习技术在交通事故严重程度预测领域的研究不断深入，各类研究方法在事故风险评估中展现了不同的特性。为系统地评估交通事故严重程度预测中不同机器学习方法的性能差异，并选出最优的模型进行可视化分析，本研究以集成学习作为核心预测模型，并选取典型深度学习模型与传统线性模型，进行多维度的综合比较，以期获得更具稳健性的研究结论。集成学习模型集成学习算法的理论基础源于19世纪迪杰朗(Darwin)学派的早期构想，其核心机制在于通过整合多个学习器的预测结果，充分发挥各学习器的差异化优势，从而提升整体预测的准确性和鲁棒性。20世纪60年代，随着随机森林概念的提出和booststrap方法的发展，该算法的理论框架得到了显著完善。从技术实现层面来看，该算法主要依赖于对不同学习器预测结果的协同融合，这种融合机制能够有效平衡各学习器的特性差异，进而实现预测性能的系统性优化。20世纪90年代初期，随着多数投票(MajorityVoting)和Bagging(BootstrapAggregating)等关键技术的相继问世，集成学习算法在方法论层面获得了进一步的发展和完善REF_Ref21217\r\h[33]。根据协同方式的不同，这些方法主要分为三大类：套袋法（Bagging）、提升法（Boosting）和堆叠法（Stacking）。套袋法采用并行独立的训练策略，其核心思想是通过有放回的随机抽样，从原始训练数据集中生成多个相互独立的数据子集，在每个数据子集上并行训练基学习器，最后通过投票或平均等方式聚合所有基学习器的结果，以获得最终的预测结果。与套袋法类似，提升法也是基于“群体智慧”的核心思想，但在具体实现机制上有所不同，采用的是串行迭代的训练方式，其核心在于通过多轮次的训练逐步提升模型性能——在每一轮训练中，算法会着重关注前一轮预测错误的样本，并调整样本权重，使得后续的弱学习器能够持续修正前序模型的预测偏差，最终将这些弱学习器集成为一个强预测模型。堆叠法主要方法是将多个不同的基学习器的预测结果作为新的特征，再使用一个元学习器对这些特征进行学习，从而得到最终的预测模型。由于堆叠法需要并行运算多个异构机器学习模型，在训练过程中会产生显著的时间成本，且在实时应用场景中难以实现模型的快速迭代与动态优化。因此，本研究将研究范围聚焦于单分类器，选择基于提升法和套袋法的AdaBoost、XGBoost、CatBoost、LightGBM和随机森林等五种集成学习模型。AdaBoost模型由Schapire和Freund在1995年提出，是一种基于提升法的集成学习模型，其核心思想是通过串行训练多个弱学习器，并在每次训练过程中，根据上一个弱学习器的预测结果调整样本权重，使得下一个弱学习器能够更加关注被上一个弱学习器错误分类的样本。AdaBoost模型算法过程如下REF_Ref1038表STYLEREF1\s4-1所示：XGBoost模型最初是陈天奇在分布式（深度）机器学习社区的一个研究项目，是一种典型的基于提升法的集成方法，基于梯度提升决策树（GBDT），XGBoost模型引入二阶泰勒展开来优化目标函数，能通过不断地添加树来拟合目标函数的负梯度，即前一轮模型的残差REF_Ref8659\r\h[34]。并且，XGBoost在目标函数中加入了正则化项，用于控制模型的复杂程度，一定程度上避免了模型过拟合问题的出现。其算法过程如下REF_Ref1191表STYLEREF1\s4-2所示：CatBoost模型于2017年由俄罗斯最大的搜索引擎YandexREF_Ref22008\r\h[35]开发而成，旨在处理具有大量类别特征的数据，主要原理也是基于梯度提升框架，采用对称二叉树作为基学习器。在处理类别特征时，该模型使用的独特编码的改进方式，能够自动处理类别特征，减少特征工程的工作量。在此基础上，CatBoost模型还通过引入排序提升技术，解决了梯度估计的偏差问题，提高了模型的准确性和泛化能力REF_Ref8975\r\h[36]。模型的算法过程如下REF_Ref1443表STYLEREF1\s4-3所示：LightGBM模型也是针对GBDT的一种改进方法，是一种基于树的算法。与传统的决策树算法不同，LightGBM算法先将连续特征离散化为直方图，然后在直方图上进行计算和决策，大大减少了计算量。同时，该算法引入了叶生长策略和大规模数据并行学习算法，能够处理大规模数据集。其算法过程如下REF_Ref1596表STYLEREF1\s4-4所示：随机森林是一种基于Bagging思想的集成学习算法，由LeoBreiman和AdeleCutler在2001年提出。其主要原理是从原始训练数据集有放回地随机抽样生成多个子数据集，在每个子数据集上独立训练一棵决策树，最后将这些决策树的预测结果进行组合来得到最终的预测结果。其算法过程如下REF_Ref1959表STYLEREF1\s4-5所示：深度学习模型深度学习是机器学习的一个子领域，核心思想是通过多层神经网络（DeepNeuralNetworks,DNN）来自动学习数据的多层次特征表示，从而实现对复杂模式（如图像、语音、文本）的高效建模。该算法最初的理念起始于1943年，是由WarrenMcCulloch和WalterPitts所提出的MCP模型，这一模型的出现标志着神经网络以及数学模型的诞生。在学术领域，国内外学者普遍觉得1986年由FrankRosenblatt等科学家提出的反向传播算法是现代深度神经网络的原型根基。历经了数十年时间的发展，深度学习经历了从单层感知机朝着深度神经网络的演变过程，在2012年AlexNet取得突破性成果之后迎来了快速增长的态势，当下深度学习已经形成了包含前馈神经网络、卷积神经网络、循环神经网络等多种典型结构。前馈神经网络（FeedforwardNeuralNetwork,FNN），属于深度学习中较为基础的网络架构类型REF_Ref9371\r\h[37]，该网络的核心特征是信息的单方向流动，数据从输入层出发，经过数量不等的隐藏层，最终抵达输出层，整个过程不存在任何循环或反馈连接。在FNN家族中，多层感知机（MultilayerPerceptron,MLP）是最为典型和最具代表性的实现形式，它完美体现了FNN的基本原理和特点。如REF_Ref2602图STYLEREF1\s4-1所示的MLP模型结构流程图，其网络结构是由输入层、若干隐藏层以及输出层共同构成。每一个空心圆都代表着一个神经元，箭头则表示信息的传输方向，依据神经元之间的相互连接状况，形成了图中所示的层级结构，这种层级式设计可让数据能够从输入层起步，借助逐层的非线性变换，最终于输出层得出预测结果，在信息传递期间，前一层的所有神经元输出都会与后一层的每个神经元相互连接，这种全连接的特性是MLP最为突出的结构特征。随着网络深度的不断增加，高层隐藏层可逐步提取更为抽象的特征表示。卷积神经网络（ConvolutionalNeuralNetwork，CNN）是深度学习领域当中颇具影响力的架构之一，其核心思想是通过局部连接、权重共享以及层次化特征提取等机制，有效捕捉数据里的空间或时序模式。如REF_Ref2661图STYLEREF1\s4-2，是CNN的基本结构图，它总共涉及了三大关键组件：卷积层、池化层以及全连接层，卷积层运用可进行学习的滤波器，在输入的数据之上滑动着去计算局部感受所产生的特征，凭借多个这样的滤波器来提取不同的特征映射，池化层（如最大池化）会针对特征图开展下采样的操作，以此来提高特征的空间不变性，同时降低计算方面的复杂程度。网络的末端一般会连接全连接层，实现分类或者回归输出，在这种局部连接以及权重共享的机制作用下，模型的参数数量大幅减少，计算效率也随之较大提升。多层感知机（MLP）依靠其强大的非线性拟合能力，可从输入特征里学习复杂的映射关系，适合用于处理特征之间非线性关系较为强烈的情形。卷积神经网络（CNN）则凭借其独特的局部连接和权重共享机制，在捕捉数据中的局部特征以及相关性方面呈现出优势，基于此，本研究在深度学习框架下挑选上述两种有代表性的神经网络架构来开展交通事故预测建模工作，并且与集成学习模型进行对比，来评估不同模型在事故数据上的预测性能。传统线性模型在交通事故预测领域中，尽管机器学习目前较为热门，传统线性模型始终因其可解释性和计算效率而保持着重要的应用价值。作为经典的统计建模方法，其发展历程可追溯到18-19世纪最小二乘法的提出。这类模型假设因变量与自变量之间存在线性关系，通过最小化损失函数（如均方误差、交叉熵等）来估计模型参数。其基本形式可表示为：Y（4.1）式中，Y表示事故发生的概率或严重程度，X1至Xn为预测变量（如车速、能见度、路面条件、车辆使用年限等），β为待估参数，在交通事故预测任务中，逻辑回归是一种合理且广泛使用的基线模型，相比于深度学习，逻辑回归的训练速度快，尤其是在数据量较少时，逻辑回归比一些复杂模型更具有稳定性，避免过拟合问题的产生。但是，当特征维度较高时，容易出现多重共线性问题，这使其在复杂的交通场景预测中存在明显的局限性。本研究选取传统线性模型作为基线对照，重点比较集成学习模型和深度学习模型在非线性关系建模能力、特征交互作用捕捉和计算效率等方面的差异。模型评价指标本章主要对事故的严重程度预测模型进行研究，是典型的分类问题，对于此类模型常用的评价指标有混淆矩阵、准确率、精确率、召回率、F1-srore、ROC等，下面将依次介绍各评价指标。（1）混淆矩阵混淆矩阵是一种特定的表格布局，用于可视化算法性能，以矩阵的形式展示分类模型的预测结果与真实标签之间的对应关系，其结构如REF_Ref4457图STYLEREF1\s4-3所示。其中，TP（TruePositive）为真正例，即真正预测的正样本，模型预测为正，实际也为正；FP（FalsePositive）为假正例，即误报的样本，模型预测为正，但实际预测为负；TN（TrueNegative）为真负例，即正确预测的负样本，模型预测为负，实际也为负；FN（FalseNegative）为假负例，即漏报的样本，模型预测为负，但实际为正。对于多分类问题，矩阵的维度会根据类别数增加，每个单元格表示真实类别为某一类，而被预测为另一类的样本数量。它能直观地呈现出模型在各个类别上的分类情况，方便分析模型的错误模式。（2）准确率准确率（Accuracy）表示模型正确预测的样本数占总样本数的比例，在二分类问题中，样本被分为正类和负类两种类别；多分类问题中则有多个类别，其通用计算公式为：Accuracy（4.2）在样本分布均衡时，该指标能有效评估模型性能，可用于初步衡量模型效果。但在正负样本比例极度失衡时，准确率会失去参考价值，需要选用更合适的评价指标。（3）精确率精确率（Precision），又称查准率，在分类模型评估里是一项关键指标，主要用来衡量模型预测为正类的样本中，真正属于正类的比例，此指标仅仅关注模型预测为正类的样本集合，对于预测为负类的样本情况并不涉及，精确率的值越高，意味着模型预测为正类时的可靠性也就越强。其计算公式如下：Precision（4.3）（4）召回率召回率（Recall），又称查全率，用于衡量模型正确预测出的正例样本占实际正例样本总数的比例，召回率越高，说明模型遗漏的正例越少，对正例的识别能力越强，但也存在单指标片面性的问题。其计算公式为：Recall（4.4）（5）F1-sroreF1-srore是分类模型中常用的评价指标，是精确率和召回率的调和平均数，能更全面地评估模型性能，其公式为：F1（4.5）（6）Cohen'sKappaCohen'sKappa是一个统计指标，用于衡量分类模型在一致性和准确性方面的表现，特别适用于评估两个评估者之间分类结果的一致性，或者同一评估者在不同时间点上的分类一致性。不平衡数据处理数据分布分析数据类别不平衡是指在分类任务中，不同类别的样本数量存在显著差异的现象，通常表现为多数类样本数量远多于少数类样本数量，在进行机

人人文库> 全部分类> 教育资料 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于XGBoost-SHAP的公路货车事故严重程度关键因素识别研究

文档简介

温馨提示

最新文档

评论

基于XGBoost-SHAP的公路货车事故严重程度关键因素识别研究

文档简介

温馨提示

最新文档

评论

相关文档