任务3.5视频数据清洗

上传人：q*** IP属地：山东上传时间：2026-06-05 格式：PPTX 页数：25 大小：14MB 积分：15 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

项目三主讲教师:段晓亮Videodatacleaning视频数据清洗环境感知作为自动驾驶的核心技术，是自动驾驶体现智能的主要方面，环境感知是汽车与周边环境交互的关键，是让汽车更好的模拟甚至超越人类的感知能力，准确检测与识别车内和车外环境的技术。如道路上的障碍物检测、车辆检测、行人检测以及可行驶区域检测等。任务导入任务知识目标01了解常见的视频理解任务与视频的不同模态02了解视频码率的概念，掌握修改码率的不同方法03了解视频码率的概念，掌握修改码率的不同方法04掌握视频裁剪的方法，能根据要求完成裁剪任务05掌握视频格式转换的方法，根据要求完成视频格式转换06理解视频关键帧的概念，掌握抽取关键帧的操作07理解视频的分辨率与帧率，掌握多种查看视频分辨率与帧率的方法任务能力目标能根据任务场景制定数据处理要求，设计数据处理方法理解数据清洗、处理的流程，分析不同工作流程下所设置的岗位差异与岗位职责能根据需求文档总结自己的工作内容与可能遇到的问题020103目标

0102培养服务意识以及尊重劳动、热爱劳动的优良品质培养诚信、认真、严谨和坚持的综合素质，树立科技报国的家国情怀和使命担当目标任务思政目标CONTENTS目录视频数据基础知识01Basicknowledgeofvideodata视频数据操作处理方法02Videodataoperationandprocessingmethods视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.视频抽帧视频抽帧就是在一段视频中，通过间隔一定帧抽取若干帧的方式，模拟每隔一段时间拍摄一张照片并接合起来形成视频的过程（即低速摄像）。视频抽帧效果经常会和我们常说的延时摄影、低速摄像被混为一谈。二者的区别是：延时摄影是一种拍照方法，低速摄像是一种拍视频方法，而抽帧是一种视频的后期手段。视频文件：最常用的视频格式有五种，它们分别是FLV、AVI、MOV、MP4、WMV，不同操作系统的默认播放器对视频格式有一定的要求，我们主要使用基于MPEG封装格式的mp4视频文件。帧、帧数和帧率：视频其实就是由一张张连贯起来的图像连续播放组成的，当一秒钟有24张图像快速播放，人眼就会认为这是一幅连续的画面。帧率越高，视频里包含的信息就越丰富。感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.视频抽帧思考：什么是关键帧？处理需求要求抽取视频中的关键帧（关键图像），后续标注和模型训练都是对图像进行操作视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.视频抽帧关键帧：是指在构成一段视频或动画的若干帧中，起到决定性作用的2-3帧。在视频中很多画面都是有连续性，前后画面并没有太大差异，如果逐帧提取视频中的图像进行标注与模型训练，会造成数据冗余。因此可选取视频中“有代表性”的图像帧。视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.视频抽帧第1帧和第10帧的图像中的场景以及可行驶区域并没有很大差异。视频第1帧视频第10帧视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.视频抽帧抽取关键帧的常用方法：1.抽取视频关键帧（IPB）2.抽取视频场景转换帧3.自定义抽取帧（如按照时间进行均匀抽帧；抽取特定时间的帧等）视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.视频抽帧抽取视频关键帧（IPB帧）在视频压缩时，会采取各种方法来减少数据的容量，视频关键帧是包含了完整信息的帧，其他的非关键帧将会使用与关键帧的差值进行压缩。其中IPB就是最常用的方法：I帧：关键帧，是最完整的帧画面，解码时只需要本帧数据就可以完成；P帧：单向预测帧，没有完整画面，表示的是这一帧跟之前的一个I帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面；B帧：双向预测帧，B帧记录的是本帧与前后帧的差别，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。I帧所含信息最多。视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。2.ffmpeg视频抽帧多媒体视频处理工具ffmpeg：有非常强大的功能，包括视频采集功能、视频格式转换、视频抓图、给视频加水印等功能。常用方法功能说明!ffmpeg-ivideo.mov获取视频信息video.mov为视频名!ffmpeg-ivideo.movimage%d.jpg将视频分解为图片序列该命令会生成image1.jpg.image2.jpg....!ffmpeg-fimage2-iimage%d.jpgvideo.mov将图片合成视频把当前目录下的图片（image1.jpg.image2.jpg…）合并成video.mov!ffmpeg-iinput.mov-r20output.mov转换视频帧率将input.mov的帧率转换为帧率为20的新视频output.movffmpeg的常用方法（其他复杂操作可根据需求进行搜索）视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。2.ffmpeg视频抽帧抽取视频场景转换帧视频右侧展示了两种算法对场景切换的检测情况除了提取关键帧，我们还可以根据视频场景转换来获取帧在视频中可以按照视频的镜头切换将视频分为不同的场景（sceneboundaries）抽取场景转换帧：视频场景抽取算法一般是使用帧间的相似差异程度来衡量，如果视频帧大于某一个阈值则认为是一个新的场景，否则不是一个新的场景。视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。2.ffmpeg视频抽帧从视频day_suburb_smooth-00a820ef-d655700e.mov中抽取的场景帧抽取到的2个场景帧：主要是光线变化，场景没有太大变化，可能是因为：（1）光照原因导致的算法错误；（2）整个视频场景单一，并不存在场景变化。视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。3.视频自定义抽取帧自定义抽取帧BDD100K视频数据均是在真实道路上行驶的视频，时长较短（40秒），视频中车辆道路场景变化不大，没有很复杂的场景变化，绝大多数的路况或者行驶情况都是重复的。自定义抽帧：在考虑抽帧时，可以考虑将提取的两帧之间保持足够大的时间跨度（如每隔5秒抽取1帧），以保证数据的有效性的同时也能够保证前后两帧之间的连续性。数据处理需求文档：采用“自定义抽帧”视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。4.视频格式转换视频格式转换的方法-使用ffmpeg：该转换方法不转码，直接复制视频流，因此转换更快。!ffmpeg-itest.mp4-ccopyoutput1.avi视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。4.视频格式转换视频格式转换的方法-使用ffmpeg：该转换方法会进行编码转换，需要一些转换时间。!ffmpeg-itest.mp4

output2.avi两种方法均可，都能实现视频格式转换，数据处理需求中并没有要求视频编码格式。h264,mpeg4为不同的视频编码格式感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。5.视频裁剪为什么要进行视频裁剪？如何进行视频裁剪？视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy，德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器：雷达传感器已经在汽车上得到了广泛使用，应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。5.视频的裁剪视频裁剪：将视频变短，降低模型训练时视频处理的难度（如将一个10秒的视频裁剪为5秒视频）。裁剪掉视频中行为无关的准备动作，可以避免后期行为分类出现模糊不清的情况该“蹲下”视频中主要动作为“蹲下”，但在这个过程中包括准备动作（站立、行走），如果不裁剪，后期将在标注阶段出现分类不明确的情况。该视频中可裁剪出2个蹲下和行走的视频手机拍摄的“蹲下”行为视觉传感器：即摄像头，摄像头分为单目视觉和双目（立体）视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye，加拿大的PointGrey，德国的Pike等。激光传感器：分为单线和多线。每多一线，成本相应上涨，当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Vel

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

任务3.5视频数据清洗

文档简介

温馨提示

最新文档

评论

任务3.5视频数据清洗

文档简介

温馨提示

最新文档

评论

相关文档