任务1.2 数据服务流程_第1页
任务1.2 数据服务流程_第2页
任务1.2 数据服务流程_第3页
任务1.2 数据服务流程_第4页
任务1.2 数据服务流程_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目一数据服务流程主讲教师:段晓亮Dataserviceprocess1.项目背景及需求数据服务的核心在于其能够从海量数据中提取有价值的信息。通过先进的算法和模型,数据服务能够识别趋势、预测未来,并为决策提供科学依据。例如,在金融领域,数据服务可以帮助银行识别潜在的欺诈行为,保护客户资产;在医疗领域,数据服务可以分析患者的健康数据,提供个性化的治疗方案。项目导入任务知识目标了解数据服务的基本概念01了解数据服务的基本流程02了解人工智能行业数据服务的特点03知识目标项目技能目标具备开展数据预处理的能力01具备开展数据服务的基本能力02技能目标项目思政目标通过任务实施,使学生具有基本的数据服务职业素养,使学生具有数字经济时代的数据服务能力和素养。思政目标CONTENTS目录数据预处理01Datapreprocessing人工智能数据服务流程02Artificialintelligencedataserviceprocess实际生产生活中,采集到的数据杂乱无章,无法直接对数据进行分析或分析的结果差强人意。我们将杂乱无章的数据统称为“脏数据”数据预处理有多种方法:包括数据清洗、数据集成、数据变换、数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。数据预处理数据预处理

数据清洗01数据清洗是指发现并纠正数据文件中可识别的错误,包括填补数据记录中(各属性)的遗漏数据,识别异常数据,以及纠正数据中的不一致问题。数据预处理

数据集成02数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,将多个数据源的数据合并到一起,构成一个完整的数据集。异构性数据预处理数据集成的难点分布性自治性被集成的数据源通常是独立开发的,数据模型异构,给集成带来很大困难。数据源是异地分布的,依赖网络传输数据,这就存在网络传输性能和安全性等问题。各个数据源有很强的自治性,它们可以在不通知集成系统的前提下改变自身的结构和数据,给数据集成系统的鲁棒性提出挑战。数据预处理数据集成方法综合性集成方法数据复制方法模式集成方法数据集成的方法有一般有模式集成方法、数据复制方法、综合性集成方法等。在构建集成系统时将各数据源的数据视图集成为全局模式,使用户能够按照全局模式透明地访问各数据源的数据。将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体上的数据一致性、提高信息共享利用的效率。综合方法通常是想办法提高基于中间件系统的性能,该方法仍有虚拟的数据模式视图供用户使用,同时能够对数据源间常用的数据进行复制。

数据预处理

数据变换03数据变换是将数据转换为另一种格式的数据;主要是对数据进行规格化操作,用于将数据转换成适合数据挖掘的形式。(1)数据变换方法数据变换的处理方法有:平滑处理、合计处理、数据泛化处理、规格化、属性构造等。数据预处理

数据规约04数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容)。数据预处理

除了上述所讲到的数据预处理方法之外,数据预处理还包括:(1)数据导入/预处理(2)数据统计/分析(3)数据挖掘人工智能数据服务流程PART02Artificialintelligencedataserviceprocess数据服务的流程01020304数据服务的流程数据采集数据清洗数据标注数据质检数据采集数据来源数据采集与获取是整个数据服务流程的首要环节。数据无处不在,如互联网数据、自动化生产线产生的数据、监控视频数据以及各种传感器采集的数据,都需要相应的采集设备或软件进行采集。数据采集

线上采集01开放数据开放数据指的是互联网中面向所有人公开的数据,其中包括面向特定行业公开的数据,各级政府公开的数据以及网页中相关的内容数据,例如右图所示为北京市公共数据开放平台。数据采集

线上采集01第三方平台数据我们可以通过某第三方平台提供的API接口来调取相关数据,如百度地图开放API平台等,通过平台提供的API接口,完成数据的采集。物联网设备采集数据物联网采集的数据指的是用户在物理世界产生的数据,例如用户使用手机时手机的各类传感器(指纹传感器:记录用户指纹用于解锁手机或支付等行为,陀螺仪:通过角动量守恒原理记录角速度用于手机导航等行为),还有在工业领域,各类传感器采集到的数据等。数据采集

线下采集02线下采集数据的方式有很多种,例如:问卷调查,用户访谈,用户反馈等方式,比较侧重于主观数据的采集。数据清洗1、分箱2、回归3、聚类平滑有噪声的数据021、人工填写空缺值2、自动填充填补遗漏的数据01识别或除去异常值03数据清洗方法在获取数据后,并不是每一条数据都能够直接使用,有些数据是不完整、不一致、有噪声的脏数据,需要通过数据预处理,才能真正投入问题的分析研究中。在预处理的过程中,旨在与把脏数据“洗掉”的数据清洗是重要的一环。数据标注数据作为AI算法的“原料”,是实现人工智能的必要条件。人工智能相关数据服务指为AI算法训练提供的数据采集、清洗、标注等服务,其中以采集和标注为主。在图像识别,语音识别以及自然语言处理等任务中,基于深度学习的模型预测需要大量的标注数据,所以数据标注在人工智能领域具有非常重要的意义。以标注对象作为分类基础,将人工智能领域数据标注细化为图像标注、语音标注以及文本标注。图像标注图像标注是一个将标签添加到图像上的过程。其目标范围既可以是在整个图像上仅使用一个标签,也可以是在某个图像内的各组像素中配上多个标签。最常见的图像标注方法为拉框标注,即用2D、3D、多边形框等标注出图像中的目标对象,如上图所示为标注图片中的汽车。数据标注语音标注语音标注的就是把语音中包含的文字信息、各种声音先“提取”出来,再进行转写,标注后的数据主要被用于人工智能机器学习,这相当于给计算机系统装上了“耳朵”,使其具备了“能听”的功能,使计算机可以实现精准的语音识别能力。数据标注文本标注文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签,通过标注好的训练数据,我们就可以教会机器如何来识别文本中所隐含的意图或者情感,使机器可以更加人性化的理解语言。数据标注数据标注的应用场景数据标注出行行业家居行业安防行业医疗行业公共服务金融行业数据标注的应用场景电子商务数据质检无论是数据采集、数据清洗,还是数据标注,通过人工处

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论