版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目三数据处理与清洗主讲教师:段晓亮Dataprocessingandcleaning前面的项目通过多种渠道采集到的数据,得到大规模的人工智能所需要的数据。这种复杂的数据环境给海量大数据的处理带来极大的挑战。想要处理大数据,首先必须对所需数据源的数据进行抽取和集成,并在数据集成和抽取的过程中对数据进行清洗,以保证数据质量及可用性。那么,如何进行高效、精准的数据抽取和集成显得至关重要。这些数据在组织、存储与标注前需要进行数据审核、去重、去噪、标准化、规范化、审查、校验等系列数据整理、转换、清洗操作,目的在于删除重复信息,纠正错误,统一数据规格,实现数据一致性,这些步骤统称为数据处理。项目导入1.项目背景及需求1.项目背景及需求前面的项目通过多种渠道采集到的数据,得到大规模的人工智能所需要的数据。这种复杂的数据环境给海量大数据的处理带来极大的挑战。想要处理大数据,首先必须对所需数据源的数据进行抽取和集成,并在数据集成和抽取的过程中对数据进行清洗,以保证数据质量及可用性。那么,如何进行高效、精准的数据抽取和集成显得至关重要。这些数据在组织、存储与标注前需要进行数据审核、去重、去噪、标准化、规范化、审查、校验等系列数据整理、转换、清洗操作,目的在于删除重复信息,纠正错误,统一数据规格,实现数据一致性,这些步骤统称为数据处理。项目导入数据处理基础图像数据集的处理智能客服语音数据处理文本数据处理视频数据处理2.项目分解1.项目背景及需求前面的项目通过多种渠道采集到的数据,得到大规模的人工智能所需要的数据。这种复杂的数据环境给海量大数据的处理带来极大的挑战。想要处理大数据,首先必须对所需数据源的数据进行抽取和集成,并在数据集成和抽取的过程中对数据进行清洗,以保证数据质量及可用性。那么,如何进行高效、精准的数据抽取和集成显得至关重要。这些数据在组织、存储与标注前需要进行数据审核、去重、去噪、标准化、规范化、审查、校验等系列数据整理、转换、清洗操作,目的在于删除重复信息,纠正错误,统一数据规格,实现数据一致性,这些步骤统称为数据处理。项目导入3.
职业岗位介绍掌握人工智能应用任务的数据集预处理操作方法掌握数据处理的工作流程0201数据处理工程师通常需要具备如下的能力:1.项目背景及需求前面的项目通过多种渠道采集到的数据,得到大规模的人工智能所需要的数据。这种复杂的数据环境给海量大数据的处理带来极大的挑战。想要处理大数据,首先必须对所需数据源的数据进行抽取和集成,并在数据集成和抽取的过程中对数据进行清洗,以保证数据质量及可用性。那么,如何进行高效、精准的数据抽取和集成显得至关重要。这些数据在组织、存储与标注前需要进行数据审核、去重、去噪、标准化、规范化、审查、校验等系列数据整理、转换、清洗操作,目的在于删除重复信息,纠正错误,统一数据规格,实现数据一致性,这些步骤统称为数据处理。了解人工智能数据集的分类了解数据处理的概念、常用方法掌握不同类型数据的清洗方法020103目标项目知识目标掌握数据处理的工作流程掌握人工智能应用任务的数据集预处理操作方法项目技能目标
0102培养爱岗敬业、细心踏实、勇于创新的职业精神培养科技强国的爱国主义思想,树立服务社会的服务意识目标项目思政目标数据处理基础任务3.1FundamentalsofDataProcessing数据处理与清洗是数据服务内容中的重要一环,主要任务是将采集到的数据样本,经过一系列的处理和清洗工作,送给下一步做标注处理,标注好的数据直接交给模型进行训练。所以一个高质量的数据集离不开数据处理,而数据处理的一种方法就是对数据做清洗,让数据更规范,数据的清洗也是数据处理工作中最耗时、工作量最大的环节。任务导入任务知识目标01了解数据清洗的基本概念02掌握数据清洗的基本方法03熟悉常见的数据清洗与分析工具04能够通过pandas、numpy、正则化工具进行数据清洗任务能力目标掌握数据处理的工作流程掌握人工智能应用任务的数据集预处理操作方法任务思政目标01通过解决实际问题,培养分析问题、解决问题的科学探索精神培养严谨细致的职业素养及遵守行业、专业法规的意识020102CONTENTS目录常见的数据问题01Commondataissues数据处理的概念与方法02ConceptsandMethodsofDataProcessing人工智能数据集03ArtificialIntelligenceDataset数据清洗与分析工具04Datacleaningandanalysistools感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.常见的数据问题原始数据就像这个杂乱的房间,往往存在各种各样的问题,这时候就需要数据处理与清洗来帮忙,让数据变得有序、可用。在实际的数据世界中,常见的数据问题有很多,包括以下几种情形:1.缺失值2.重复值3.异常值4.数据格式不一致视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.数据处理的概念与方法处理与清洗需求分析在人工智能行业任务中,一般的数据处理需求主要包括处理与清洗两个部分:数据处理数据清洗感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。任务思考题为什么要在需求中区分“处理”和“清洗”两个部分?视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.数据处理的概念与方法处理与清洗需求分析在视觉感知任务的数据集中,数据处理需要我们对数据集做如下操作:图像去重可以使用程序“自动处理”删除尺寸过小样本重新定义样本尺寸修改图像样本格式样本重新编号这些处理都有什么共同特点?视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.数据处理的概念与方法处理与清洗需求分析在数据清洗部分,我们观察需要清洗的图片内容:这些“内容清洗”样本,我们无法用程序来检测图像中的细节,所以只能通过“手动清洗”解决问题。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.数据处理的工作流程数据预处理数据手动清洗标注数据预处理图像去重删除尺寸过小样本重新定义样本尺寸修改图像样本格式样本重新编号需要在清洗后、标注前对数据做预处理视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.人工智能数据集的划分人工智能数据集可以理解,人工智能是机器产生的智能。要实现人工智能,需要把人类理解和判断事物的能力教给计算机,让计算机拥有类似人类的识别能力。计算机正是通过从带标签的数据中不断的学习才能够实现自主识别。具体操作的过程中,我们需要先根据具体的应用场景获取可用的数据,并通过标注的方法把计算机需要识别的数据对象赋予人类认知的标签。这一类带有标签的数据集就被称为人工智能数据集。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.人工智能数据集的划分人工智能任务的分类自2010-2017年,ImangeNet项目的成功改变了人工智能领域大众的认知,从业者普遍认为数据是人工智能研究的核心,数据比算法重要得多。因此,按照数据对象分类,人工智能的任务划分为图像与计算机视觉感知任务、语音识别与合成任务、自然语言处理任务。视觉传感器:即摄像头,摄像头分为单目视觉和双目(立体)视觉两类。比较知名的视觉传感器提供商有以色列的Mobileye,加拿大的PointGrey,德国的Pike等。激光传感器:分为单线和多线。每多一线,成本相应上涨,当然检测效果也相对更为出色。比较知名的激光传感器提供商有美国的Velodyne和Quanergy,德国的Ibeo等。国内有速腾聚创和禾赛科技。雷达传感器:雷达传感器已经在汽车上得到了广泛使用,应该是车厂Tier1的强项。知名的供应商当然是博世、德尔福、电装等。1.人工智能数据集的预处理自2010-2017年,ImangeNet项目的成功改变了人工智能领域大众的认知,从业者普遍认为数据是人工智能研究的核心,数据比算法重要得多。因此,按照数据对象分类,人工智能的任务划分为图像与计算机视觉感知任务、语音识别与合成任务、自然语言处理任务。数据清洗数据标注数据格式转换数据集划分样本去重样本标准化手动清洗训练集验证集测试集需要在清洗后、标注前对数据做预处理任务实施Taskimplementation感知传感器包括视觉传感器、激光传感器、雷达传感器等类型。视觉传感器:即摄像
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 分级护理的护理伦理与法律
- 骨科护理课程总结与展望
- 应急护理中的重症监护技术
- 高血压肾病的心理护理与支持
- 美术学考中职试题及答案
- 船舶帆缆工诚信道德模拟考核试卷含答案
- 合成气装置操作工班组管理强化考核试卷含答案
- 人教版语文五年级下册教案+反思 第六单元
- 混凝土机械装配调试工安全素养评优考核试卷含答案
- 电工合金电触头制造工复测评优考核试卷含答案
- 井冈山大学《经济地理学》2025-2026学年期末试卷
- 2026江苏苏州市健康养老产业发展集团有限公司下属子公司招聘15人(第二批)笔试参考试题及答案解析
- 2026贵州黔西南技师学院公开招聘事业单位工作人员14人考试备考试题及答案解析
- 心脏介入护理新进展与分享
- 人物杨振宁介绍
- 历史(四川卷)(考试版)-2026年高考考前预测卷
- 北京保障房中心有限公司法律管理岗笔试参考题库及答案解析
- 大学生创新创业基础(广西师范大学)知到知识点掌握度满分答案题库
- 瑞幸咖啡2025品牌年终报告
- 继电保护试验室规章制度
- 突发事件创伤伤员医疗救治规范2025年版
评论
0/150
提交评论