人工智能基础 课件 8.2 利用AI清洗数据_第1页
人工智能基础 课件 8.2 利用AI清洗数据_第2页
人工智能基础 课件 8.2 利用AI清洗数据_第3页
人工智能基础 课件 8.2 利用AI清洗数据_第4页
人工智能基础 课件 8.2 利用AI清洗数据_第5页
已阅读5页,还剩19页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第8章大模型操作表格任务1:借助AI获取外部数据任务2:利用AI清洗数据任务3:AI助力WPS表格函数运用从网络上获取数据从文件中提取数据WPS表格格式设置处理缺失值去除重复值处理错误格式数据排序、筛选公式与函数AI助力函数运用2任务2:利用AI清洗数据处理缺失值去除重复值处理错误格式数据排序、筛选利用AI清洗数据将外部数据导入表格后,通常需要对数据进行清洗,以确保数据的准确性和一致性。数据清洗涉及多个方面,包括处理缺失值、去除重复值、调整数据格式等。通过清洗数据,可以消除错误、填补缺失、修正不一致的数据,从而确保数据集的质量。处理缺失值缺失值是指导入的数据集中有空白单元格或者以特殊符号表示的缺失数据。在数据处理中,缺失值是一个常见的问题。缺失值可能会导致数据分析结果的偏差,因此需要进行妥善处理。处理缺失值了解缺失值产生的原因对于选择合适的处理方法非常重要。缺失值可能是由于数据采集过程中的遗漏、数据损坏或其他原因导致的。1分析缺失原因2处理缺失值的方法(1)删除法如果缺失值的数量较少,且对数据分析的影响不大,可以考虑直接删除包含缺失值的行或列。(2)填充法均值填充:对于数值型数据,可以使用该列的均值来填充缺失值。中位数填充:对于存在异常值的数据,中位数填充可能更合适。众数填充:适用于分类数据。插值法:根据数据的分布情况,使用插值算法来估算缺失值。(3)模型预测法利用机器学习模型,根据其他相关变量来预测缺失值。在使用AI辅助处理缺失值时,可以借助相关的数据处理工具和算法,自动识别和处理缺失值,提高数据清洗的效率和准确性。处理缺失值【例】某家庭记录日常支出的表格中缺失部分数据,请选择合适的方式处理缺失值。对于日常支出表来说,缺失的值要么是没有花销,要么是忘记了记录花销,且根据观察每一项前后数值都不大,因此选择将缺失的数据全部填充为0。输入提示词:将有缺失值的部分用数字0填充。处理缺失值【例】某气象观测站的观测数据因为某些原因有所缺失(使用NaN表示),需要处理这些缺失值。气候数据不能像前一个例子一样简单的填补为0,需要综合温度、湿度、降水量、风速、气压进行估算。输入提示词:综合考虑温度、湿度、降水量、风速、气压的关系,对缺失值数据进行填补填补的新数据小数点位数与同列其他值保持一致给我填充了缺失值后的新表格。去除重复值在处理表格数据时,经常会遇到重复值的情况,即数据中存在重复的记录或数值。重复值可能会干扰数据分析的准确性,一般需要对重复值进行删除。去除重复值【例】图书馆借阅记录表中有部分借阅记录重复了,借助AI快速去除重复数据。在当前例子中很明显的看到有3条借阅记录是重复的,真实的借阅记录数据量会非常大,人工不容易发现和剔除,使用AI工具则可以快速完成重复值的删除。输入提示词:去除图书馆借阅记录中的重复记录并显示去除重复后的新表。处理错误格式在数据表中,错误格式可能会导致数据分析和处理的不准确。常见的错误包括日期格式不一致、数字格式错误、文本格式混乱等。例如,有的日期采用“2024/10/01”的格式,有的日期采用“2024年10月1日”的格式。例如有的数字被设为文本格式、或使用了不统一的小数点位数。例如,同一列中包含了多种不同的文本格式。传统的手动调整不仅费时,而且容易出错、有遗漏,利用AI可以更高效地处理这些错误格式。处理错误格式【例】某社交媒体的用户数据中存在多处数据格式多样且不一致的情况,需要将各列数据调整统一。可以看出发布时间的日期格式不统一,点赞数、评论数、分享数的数字格式也不统一,地理位置也用了多种表达方式。借助AI工具,将其快速更正。处理错误格式输入提示词:处理该表中错误数据格式,将每一列的格式调整统一,遵循以下格式要求:发布时间:年-月-日小时:分钟,例如2024-01-0112:30点赞数、评论数、分享数:使用整数,例如100地理位置:显示城市名,例如北京处理完错误数据格式后,显示新表数据排序、筛选WPS表格的排序功能,可以对单元格进行升序、降序和自定义排序。1排序【例】将图书信息表,按照出版日期降序排列。数据排序、筛选【例】将图书信息表,按照出版日期降序排列。选中E列,单击在“数据”菜单栏下的“排序”图标,可以对单元格进行降序。弹出的对话框中,“扩展选定区域”表示与其同行的单元格也随之移动。“以当前选定区域排序”指的是仅仅对E列进行降序排列,其他的单元格不移动。数据排序、筛选WPS表格的筛选功能,可以快速筛选出符合条件的单元格。2筛选【例】对上例中的图书信息表进行筛选,筛选出历史类的图书。选中表格第一行任意单元格,单击“数据”菜单栏中的“筛选”旁的下拉箭头,选择“筛选”。数据排序、筛选WPS表格的筛选功能,可以快速筛选出符合条件的单元格。2筛选【例】对上例中的图书信息表进行筛选,筛选出历史类的图书。在表格的第一行的每个标题右下角都出现了筛选图标(绿色小箭头)。选中“类别”右下角的下拉图标,在展开的面板中选择“历史”。筛选出“历史”类图书任务实施任务目的:使用AI大模型清洗数据并通过WPS表格对数据进行排序和筛选。任务描述:某电商平台的数据保存在3张表中,分别为用户表、商品表和订单表。其中订单表中存在缺失值、重复值、错误格式等情况,选择一款大模型工具对错误数据进行处理。针对清洗后的数据,使用WPS表格设置排序和筛选。任务实施步骤1:观察当前数据表根据观察,订单表中部分联系电话、单价、总价存在缺失值,下单日期格式不统一,O008号订单出现了重复值。订单表商品表用户表任务实施步骤2:数据清洗(1)针对缺失值:用户的联系电话,可以在用户表中找到对应的值;商品的单价,可以在商品表中找到对应的值;总价等于单价乘以购买数量;(2)针对错误格式:将下单日期统一设置成年/月/日的格式;(3)针对重复值:删除重复订单;按照以上处理方式,使用AI大模型完成数据清理。任务实施步骤3:在WPS表格中更新数据将数据复制到WPS表格的订单表中并保存。任务实施步骤4:设置表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论