2025交通行业高质量数据集建设指南_第1页
2025交通行业高质量数据集建设指南_第2页
2025交通行业高质量数据集建设指南_第3页
2025交通行业高质量数据集建设指南_第4页
2025交通行业高质量数据集建设指南_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

CCSATC601大数据技术标准推进委员会I本报告版权属于CCSATC601大数据技术标准推进委员会,并应注明“来源:CCSATC601大数据技术标准推进委员编制说明):合信息科技有限公司、深圳数据交易所有限公于厘清数据集建设目标、适用对象、建设现状,以及高质量数据集建设原则与实施路径,解析典型案例与实践,展望未来发展新趋势,旨在为交通行业企业建设高质量数据集提供有实操价值的指导和参考。限于编写时间、编写组知识积累水平有限等因素,报告中存在不足之 2 5 7 7 —V4.1交科院:交科智汇-交通政策法规与 42 随着城市化进程的加速,城市人口急剧增长,交通流量大幅攀升,交通拥堵、事故频发、能源消耗过高、运营效率低下等问题日益凸显。数智化转型成为解决交通行业诸多难题的关键路径。全球范围内,智能网联汽车、自动驾驶技术及智慧交通系统的快速发展,倒逼行业向数智化转型。数智化不仅是技术迭代,更是交通系统从被动响应向主化数据接口与工具组件,通过高质量数据集持续提升AI模型、智能等应用场景能力与技术要求所遵循的标准型数据和运行所产生的业运营等应用场景能力与技术要求所遵循的标准型数据和运行所产生系统“数字孪生”的核心载体。它基于真实路网结构和动态需求参数据,构建覆盖“感知-分析-决策-控制”全链条的高质量数据集,条件、海关通关记录及成本波动等,构建覆盖“运输-仓储-中转-交付”写技术交底书/专利检索式、一键生成技术预研报告/调研报告等模型行政许可和处罚、从业单位/人员/项目等信息构建高质量数据集,开123注释组成,包括图像级别标记、对象边界框、可行驶区域、车道标记和全帧实4学虚拟场景合成图像数据集,由来自虚拟城市的9400个多视点照片级真实帧组5德国交通标志基准测试数据集,涵盖了不同天气、光照和视角下的标志图像,6车辆检测数据集,包括21250辆车的等类别信息,可被用作于图像检测分类78道路交通图像数据集,包含市区、乡村和高速公路等场景采集的真实图像数地方层面,湖北省供应链物流公共信息服务股份有限公司提供的“公路运费贷数据集”入选湖北省首批行业高质量数据集;佳都科技集团有限公司提供的“交通行业视频图像智能分析数据集”、广东中建普联科技股份有限公司提供的“全国公路工程建材市场价数据集”等入选广州首批行业高质量数据集;泉州交发集团权属数据集团报送的“公交车辆时空轨迹与刷码乘车数据集”和福州豆讯科技有限公司报送的“智能交通多模态综合数据集”入选福建首批人工智能行业高质量数据集;常熟市交通运输产业发展有限公司提供的“常熟行智能交通数据集”入选苏州首批行业高质量数据集;“路侧信息数据集”、“路“车路协同智慧交通数据集”等入选天津第一、二批行业高质量数据集;武汉市交通运输局智能交通中心的“公共交通多网融合数据集”以及武汉车网智能测试运营管理有限公司的“智能网联自动驾驶车辆轨迹数据集”入选武汉市首批高质量数据集。中国交通建设集团有限公司建设的交通基础设施多模态三维构件数据集入选国务院国资委首批央企人工智能行业高质量数据集优秀建清华大学苏州汽车研究院和江苏智能网联汽车创新中心联合发布含多种车辆类型和行人信息等。东南大学联合国家电网在《ScientificData》期刊正式发布了一套中国高分辨率电动车充电交易数据集,共需求分析方面,一是明确数据应用场景,以确保数据的采集、处智能化业务分析等。二是规范数据规格,根据使用场景确定数据类型数据集所需的质量模型,包括明确所需数据的质量要求(如时效性、准确性、完整性、一致性等定义质量标准以及初步评估数据集应达到的质量水平。四是检询数据集建设中数据的可获得性,确定数据获取的方式,包括盘点内部数据资源、外部数据来源,进行数据合规存储格式(如关系型数据库、非关系型数据库、数据仓库等规划数据采集阶段主要是收集用于交通行业特定人工智能应用的数性的关键核心环节,涉及数据去噪、异常值/缺失值/重复值处理、数数据异常值检测与处理:可采用孤立森林(IsolationForest)或例如:基于箱线图法或3σ原则剔除离群点,来加强交通数据异常值LightGBM模型预测缺失的激光雷达点云数据,或者通过历史轨迹预数据库元交通监控数据(如车辆度(唯一主键记录数+非空主键记录数据库约车辆登记信息、交通设施唯一标识管理;例如匹配外键记录数/总外键记录数数据库关交通路网拓扑数据、路网联通率、交叉口信号率业务规则率/抽询总记录数人工标注多模态交通事件数据例如物体类别/行为标签例符合格式记录数正则表达时空数据格式符合率例统一性、地理坐标格式数据集成同系统中同一实体数据理论最晚更新时数据流水实时交通流量数据(延据数据去重车辆出行记录重复(如率符合范围记录数业务规则车速合理性、交通信号异常值记录数/不在范围内等,用于检符合规范的元数元数据管交通数据集字段描述要义为“每小时通过某路率合规访问记录数/总访问记录数权限管理敏感交通数据(如车牌率数据脱敏例如交通监控视频中车牌信息、驾驶员面部信高高中高),高中中高MP4格式,照片采用JPEG格式,并进行适当的压缩处理,以减少提升数据预处理效率。针对交通数据中的噪声数据、异常数据,引入机器学习模型进行智能识别与修正。优化数据标注流程,通过半自动化标注工具和多轮交叉审核机制,提高标注准确性和一致性。定期评估数据质量指标,根据评估结果调整数据处理策略,不断提升数据集质量。例如,若发现交通流量数据缺失率较高,可优化传感器布局或详细记录更新内容、更新时间、更新人员等信息。通过数据快照进行版本追溯和回滚,方便追溯数据历史变化,确保数据的可追溯性和稳定性。完善元数据管理,在数据更新过程中,同步更新元数据信息,交通运输政策法规和标准规范是行业政务信息和科技信息的重效/废止法律法规数据,并且通过人工标注梳理了数据状态和替代历本数据集来源于中交数字化构件资源库系统(以下简称“构件该数据集已支撑算法模型3个,包括三维结构深度学习分类算习分类算法与BLIP2双模态对齐算法已成功应用于BIM构件资源的较人工审核准确率提升14个百分点至90%;极致效率审核:结合文b.施工与运营场景生成智能机器人提供了交通基础设施领域高精度的环境感知和语义理解铁路计算机视觉大模型作为支撑铁路智能化转型的关键技术,对高质量、大规模的视频图像数据集有着迫切的需求。传统铁路监控系统产生的数据分散、实时性差、标注不足等问题,制约了计算机视觉技术在铁路领域的应用效果。为提升铁路运输安全、移动装备检测、站场设施管理及作业施工监控等能力,亟需整合并积累覆盖广泛铁路应用视频系统及货车故障轨边图像检测系统(TFDS)等多渠道,实时采域的数据集,包含正常与异常样本共计超270万张(其中正常样本北京市高级别自动驾驶示范区基于自动驾驶车辆测试运营过程数据集,已经有9项研究成果发表于人工智能领域的顶级会议(如车辆安全数据集依托中国汽研在车辆安全性研究方面的资源积境参数、交通流量等多维数据。依托“端侧智能算法预处但现有4D标注主要依赖人工,效率低下。为解决此问题,如祺出行引入AI模型进行预标注,通过不断优化目标检测模型,利用自有数数据集采用AI预标注与人工标注相结合的标注模式。先由AI

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论