




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
授课教师:赵
宇项目一智慧校园消费数据分析任务二
提取18级校园消费数据模块目标:提取18级学生校园消费数据data1:18级学生基本信息data2:消费数据任务拆解:18级学生的校园消费数据读:数据读取,查看基本内容合并:data1(18级学生基本信息)和data2(消费数据刷卡记录)查:缺失值;清洗:缺失值存:合并后的数据模块2:校园消费刷卡数据合并任务二
提取18级校园
消费数据Pandas中DataFrame索引、选取数据print(data2['消费时间'])#数据名[列名]Pandas中DataFrame索引、选取数据print(data2[['消费时间','消费金额']])#数据名[[列名1,列名2,...,列名n]]Pandas中DataFrame索引、选取数据loc:通过行、列的名称或标签来索引iloc:通过行、列的索引位置来寻找数据print(data2.loc[:,'消费时间'])print(data2.iloc[:,3])##所有行,第三列Pandas中DataFrame索引、选取数据loc:通过行、列的名称或标签来索引iloc:通过行、列的索引位置来寻找数据print(data2.iloc[:3,3])##前3行,第三列print(data2.iloc[:3,:3])##前3行,前3列
##前3行,第三列##前3行,前3列
1.使用concat()函数concat()函数用于沿一个轴将多个对象堆叠到一起。2.使用merge()函数merge()函数用于根据一个或多个键将行连接起来选择合并方法的决策流程1.是否需要简单堆叠?是→pd.concat()2.是否需要基于列的值关联?是→df.merge()3.是否需要基于索引合并?是→df.join()4.是否需要填充缺失值?是→bine_first()5.是否需要覆盖旧值?是→df.update()pd.concat():沿轴拼接数据功能:将多个DataFrame或Series沿行(纵向)或列(横向)拼接。适用场景:结构相同的数据简单堆叠。语法:pd.concat()pd.concat(objs,#要拼接的对象列表(如[df1,df2])axis=0,#0沿行拼接(纵向),1沿列拼接(横向)join='outer',#合并方式:'outer'(并集)或'inner'(交集)ignore_index=False#是否忽略原索引,重建新索引)importpandasaspddf1=pd.DataFrame({'A':[1,2],'B':[3,4]})df2=pd.DataFrame({'A':[5,6],'B':[7,8]})#纵向拼接(默认axis=0)result=pd.concat([df1,df2],ignore_index=True)AB013124257368df.join():基于索引的合并功能:将另一个DataFrame的列合并到当前DataFrame的索引上。适用场景:快速基于索引合并,尤其是处理时间序列数据。语法:df1.join(df2,how='left',#合并方式:'left','right','outer','inner'on=None,#指定df1的某列作为键(默认用索引)lsuffix='',#左侧重复列名的后缀rsuffix=''#右侧重复列名的后缀)df1=pd.DataFrame({'A':[1,2]},index=['X','Y'])df2=pd.DataFrame({'B':[3,4]},index=['X','Y'])#基于索引合并result=df1.join(df2)ABX13Y24pd.merge()data1_merge_data2=pd.merge(data1,data2,how='left',left_on='校园卡号',right_on='校园卡号')print(data1_merge_data2)print(data1_merge_data2.shape)merge()函数,用于合并两个或多个数据集。类似于MYSQL中的JOIN操作,按照一个或多个键将数据集中的行连接起来。基本格式:pd.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=True)left:第一个数据集。right:第二个数据集。how:指定合并方式。①'inner'(默认):只保留两个数据集中都有的键的行。②'outer':保留两个数据集中的所有行,如果某一边没有匹配的键,则该边的结果为NaN。③'left':保留左侧数据集的所有行,右侧没有匹配的键则为NaN。④'right':保留右侧数据集的所有行,左侧没有匹配的键则为NaN。on:指定用于连接的列名。必须在左右数据集中都存在。left_on:左侧数据集中用作连接键的列。right_on:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国炒菜王调料行业投资前景及策略咨询研究报告
- 家长参与美术教育活动计划
- 速度改变快慢的描述加速度教学设计
- 进行性脊髓性肌萎缩症的临床护理
- 新产品上市计划与策略
- 战略执行中的障碍与解决方案计划
- 强化仓库跨部门沟通的必要性计划
- 小小艺术家培养幼儿艺术欣赏能力的计划
- 2025年揭阳货运从业资格证考试题库a2
- 新质生产力新质战斗力
- 2023年新改版教科版四年级下册科学练习题(一课一练+单元+期中+期末)
- GB/T 10228-2023干式电力变压器技术参数和要求
- 基于STM32的停车场智能管理系统
- 超市商品分类明细表
- 2023年北京市石景山区八角街道社区工作者招聘笔试题库及答案解析
- 完整解读中华人民共和国政府信息公开条例课件
- RB/T 109-2013能源管理体系人造板及木制品企业认证要求
- GB/T 16895.2-2017低压电气装置第4-42部分:安全防护热效应保护
- 法人治理主体“1+3”权责表
- 小学科学《蚂蚁》优质课件
- 幼儿园中班语言绘本《章鱼先生卖雨伞》课件
评论
0/150
提交评论