




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
授课教师:赵
宇项目一智慧校园消费数据分析任务二
校园消费数据预处理任务目标:提取18级学生校园消费数据data1:18级学生基本信息data2:消费数据任务拆解:18级学生的校园消费数据读:数据读取,查看基本内容合并:data1(18级学生基本信息)和data2(消费数据刷卡记录)查:缺失值;清洗:缺失值存:合并后的数据模块1:校园消费数据的读取与查看任务二
校园消费数据预处理校园消费数据是什么格式?CSV(Comma-SeparatedValues,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。校园消费数据的读取?绝对路径:从盘符(c盘、d盘)开始一直到文件所在的具体位置。相对路径:针对“当前文件夹”这一参考对象,来描述文件路径的形式。相对路径使用..\\或.\\表示。一个点.\表示文件或文件夹所在的当前目录。两个点..\表示当前目录的上一级目录。上n级就用n个..\\表示。一个点.\表示文件或文件夹所在的当前目录,可省略。两个点..\表示当前目录的上一级目录。Pandas查看数据print(data1.head(3))shape_of_data1=data1.shapeprint(data1.shape)print(f"TheDataFramehas{shape_of_data1[0]}rowsand{shape_of_data1[1]}columns.")在数据分析过程中,df.head()经常用于初步检查数据,包括数据的结构、数据类型以及是否存在明显的异常值。通过查看前几行数据,分析人员可以大致了解数据的分布和特性,为后续的数据处理和分析打下基础。Pandas的数据结构--DataFrameindex:索引值,或者可以称为行标签。columns:列标签,默认为RangeIndex(0,1,2,…,n)模块2:校园消费刷卡数据合并任务二
校园消费数据预处理1.使用concat()函数concat()函数用于沿一个轴将多个对象堆叠到一起。2.使用merge()函数merge()函数用于根据一个或多个键将行连接起来data1_merge_data2数据合并data1_merge_data2=pd.merge(data1,data2,how='left',left_on='校园卡号',right_on='校园卡号')print(data1_merge_data2)print(data1_merge_data2.shape)merge()函数,用于合并两个或多个数据集。类似于MYSQL中的JOIN操作,按照一个或多个键将数据集中的行连接起来。基本格式:pd.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True)left:第一个数据集。right:第二个数据集。how:指定合并方式。①'inner'(默认):只保留两个数据集中都有的键的行。②'outer':保留两个数据集中的所有行,如果某一边没有匹配的键,则该边的结果为NaN。③'left':保留左侧数据集的所有行,右侧没有匹配的键则为NaN。④'right':保留右侧数据集的所有行,左侧没有匹配的键则为NaN。on:指定用于连接的列名。必须在左右数据集中都存在。left_on:左侧数据集中用作连接键的列。right_on:右侧数据集中用作连接键的列。left_index:如果为True,则使用左侧数据集的索引(行标签)作为其连接键。right_index:如果为True,则使用右侧数据集的索引作为其连接键。sort:根据连接键对合并后的数据进行排序,默认为True。模块3:校园消费数据缺失值处理任务二
校园消费数据预处理apply方法能够将函数应用于每一列。使用分组聚合进行组内计算使用apply方法聚合数据DataFrame.apply(func,axis=0,broadcast=False,raw=False,reduce=None,args=(),**kwds)参数名称说明func接收functions。表示应用于每行/列的函数。无默认。axis接收0或1。代表操作的轴向。默认为0。broadcast接收boolearn。表示是否进行广播。默认为False。raw接收boolearn。表示是否直接将ndarray对象传递给函数。默认为False。reduce接收boolearn或者None。表示返回值的格式。默认None。data1_merge_data2
数据缺失值处理missing_value_ratios=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)data1_merge_data2.apply:合并两个数据集data1和data2,对合并后DataFrame的行或列进行处理。lambdax:sum(x.isnull())/len(x):传入参数x(代表DataFrame中的一列),计算该列中缺失值的数量(x.isnull()),然后除以列的长度(len(x)),得到缺失值的比例。axis=0:对每一列应用lambda函数。print(missing_value_ratios)打印,该变量包含了data1_merge_data2中每一列的缺失值比例。data1_merge_data2
数据缺失值处理print('删除缺失值前:',data1_merge_data2.shape)data1_merge_data2=data1_merge_data2.dropna(subset=['消费地点'],how='any')print('删除缺失值后:',data1_merge_data2.shape)data1_merge_data2.dropna():删除含有缺失值的行。subset=[‘消费地点’]:在‘消费地点’列中查找缺失值。也就是说,当‘消费地点’列中存在缺失值时,则删除对应行。how='any',指定列中,只要含有缺失值,则删除该行。how='all',指定列中,所在行皆为缺失值时,则删除该行。data1_merge_data2数据缺失值处理
missing_value_ratios2=data1_merge_data2.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios2)通过dropna()函数,删除含有缺失值的行。再次计算每一列的缺失值比例。可以发现全部列的缺失值比例都为零,也就是不再包含缺失值。data1_merge_data2.to_csv('task1_2_1.csv',index=False,encoding='gbk')举一反三:校园教学场所门禁刷卡数据预处理任务二
校园消费数据预处理data1_merge_data2
导出为csv文件先将data1和data2根据校园卡号列进行左连接合并,得到data1_merge_data2。使用apply函数和lambda表达式计算data1_merge_data2中每列的缺失值比例。使用dropna函数删除含有缺失值的行。重新计算data1_merge_data2中每列的缺失值比例。最后,将进行一系列数据处理后的data1_merge_data2数据集导出到名为task1_2_1.csv的文件中,不包含索引,使用GBK编码。data1_merge_data3数据读取合并和缺失值处理并导出data1=pd.read_csv("task1_1_1.csv",encoding="gbk")data3=pd.read_csv("task1_1_3.csv",encoding="gbk")data1_merge_data3=pd.merge(data1,data3,how='left',left_on='门禁卡号',right_on='门禁卡号')print(data1_merge_data3)print(data1_merge_data3.tail())missing_value_ratios=data1_merge_data3.apply(lambdax:sum(x.isnull())/len(x),axis=0)print(missing_value_ratios)print('删除缺失值前:',data1_merge_data3.shape)data1_merge_data3=data1_merge_data3.dropna(subset=['进出地点'],how='any')print('删除缺失值后:',data1_merge_data3.shape)missing_value_rati
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园教育资源共享合作合同(2篇)
- 2025商业地产租赁合同怎样写
- 数字经济模式对企业资源优化及效率影响之研究
- 浙江省台州市十校2024-2025学年高一下学期4月期中考试语文试题(含答案)
- 胶质母细胞瘤的临床护理
- 幼小衔接班英语教学设计
- 青岛版五年级数学下册第二单元“分数的基本性质”教学设计教学设计
- 2025液压旋挖钻机钻孔施工合同范本
- 2025年心理咨询师之心理咨询师基础知识考试题库
- 2025年教师资格之幼儿保教知识与能力考试题库
- Q∕GDW 12165-2021 高海拔地区运维检修装备配置规范
- 现代风险导向审计在天衡会计师事务所的应用研究
- JGJ107-2016钢筋机械连接技术规程
- 妇科医生进修汇报课件
- 动态分析与设计实验报告总结
- 2024年江苏省泰州市海陵区中考一模数学试卷
- 从汽车检测看低空飞行器检测发展趋势
- DB32T 4740-2024 耕地和林地损害程度鉴定规范
- 五一节假日安全生产培训
- 中考英语二轮复习课件:中考解题技巧-读写综合
- 《铁路基本安全知识》课程标准
评论
0/150
提交评论