《机器学习技术应用》课件-pro1-2-1校园消费数据的读取与查看_第1页
《机器学习技术应用》课件-pro1-2-1校园消费数据的读取与查看_第2页
《机器学习技术应用》课件-pro1-2-1校园消费数据的读取与查看_第3页
《机器学习技术应用》课件-pro1-2-1校园消费数据的读取与查看_第4页
《机器学习技术应用》课件-pro1-2-1校园消费数据的读取与查看_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

授课教师:赵

宇项目一智慧校园消费数据分析任务二

提取18级校园消费数据模块目标:提取18级学生校园消费数据data1:18级学生基本信息data2:消费数据任务拆解:18级学生的校园消费数据读:数据读取,查看基本内容合并:data1(18级学生基本信息)和data2(消费数据刷卡记录)查:缺失值;清洗:缺失值存:合并后的数据模块1:校园消费数据的读取与查看任务二

提取18级校园

消费数据案例:读取18级学生校园消费数据pandas是一个强大的数据分析库,它支持多种数据格式的读取。1.CSV文件:CSV(逗号分隔值)文件是一种常见的文本文件格式,每行表示一条记录,字段之间用逗号分隔。importpandasaspd#读取CSV文件df_csv=pd.read_csv('file.csv')2.Excel文件:pandas支持读取Excel文件。可以指定要读取的工作表名称或索引。importpandasaspd#读取Excel文件df_excel=pd.read_excel('file.xlsx',sheet_name='Sheet1')3.JSON文件:JSON(JavaScriptObjectNotation)是一种轻量级数据交换格式,pandas可以从JSON文件中读取数据。importpandasaspd#读取JSON文件df_json=pd.read_json('file.json')pandas是一个强大的数据分析库,它支持多种数据格式的读取。4.SQL数据库:pandas支持从SQL数据库中读取数据。你需要使用sqlalchemy库来创建数据库连接。importpandasaspdfromsqlalchemyimportcreate_engine#创建数据库连接engine=create_engine('sqlite:///mydprint(data1.head(3))atabase.db')#读取SQL数据库中的表df_sql=pd.read_sql('tablename',con=engine)5.Parquet文件:Parquet是一种高效的列式存储格式,适用于大规模数据集。pandas可以读取Parquet文件。importpandasaspd#读取Parquet文件df_parquet=pd.read_parquet('file.parquet')校园消费数据是什么格式?CSV(Comma-SeparatedValues,逗号分隔值,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。校园消费数据的读取?绝对路径:从盘符(c盘、d盘)开始一直到文件所在的具体位置。相对路径:针对“当前文件夹”这一参考对象,来描述文件路径的形式。相对路径使用..\\或.\\表示。一个点.\表示文件或文件夹所在的当前目录。两个点..\表示当前目录的上一级目录。上n级就用n个..\\表示。一个点.\表示文件或文件夹所在的当前目录,可省略。两个点..\表示当前目录的上一级目录。Pandas查看数据在数据分析过程中,df.head()经常用于初步检查数据,包括数据的结构、数据类型以及是否存在明显的异常值。通过查看前几行数据,分析人员可以大致了解数据的分布和特性,为后续的数据处理和分析打下基础。print(data1.head(3))print(data2.head(3))print(data2.head(3))pd.set_option('display.max_columns',None)print(data2.head(3))显示所有列(否则会以省略号的形式省略)Pandas的数据结构DataFrame的特点二维表格:由多个列组成的二维表格;数据类型支持:可以包含不同类型的数据,如整数、浮点数和字符串等。列的灵活性:可以添加、删除或更改列。列的大小不可变。Pandas的数据结构--DataFrameindex:索引值,或者可以称为行标签。columns:列标签,默认为RangeIndex(0,1,2,…,n)shape_of_data1=data1.shapeprint(data1.shape)print(f"TheDataFramehas{shape_of_data1[0]}rowsand{shape_of_data1[1]}columns.")如何将列标签由英文改成中文?print(data1.columns)print("原始的列名是:",data1.columns.tolist())data1.columns=['序号','校园卡号','性别','专业名称','门禁卡号']print(data1.columns)print("当前的列名是:",data1.columns.tolist())print(data1.dtypes)Pandas所支持的数据类型:1.float2.int3.bool4.datetime64[ns]5.datetime64[ns,tz]6.timedelta[ns]7.category8.object如果pandas数据对象在一列中包含多种数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论