python分析原理应用 第4章_第1页
python分析原理应用 第4章_第2页
python分析原理应用 第4章_第3页
python分析原理应用 第4章_第4页
python分析原理应用 第4章_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章pandas数据挖掘4.1Series4.2DataFrame4.3存取数据4.4数据清洗4.5数据挖掘大数据分析技术教学团队Pandas(AQRCapitalManagement于2008.4开发,2009年开源,来自于面板数据(paneldata)和python数据分析(dataanalysis)。PanelData,也叫“平行数据”,是指在时间序列上选取m个截面,同时选取n个样本观测值所构成的样本数据,即m×n的数据矩阵。Pandas主要有两部分组成:Series和DataFrame。Series的本质是只有一列的数据表,而DataFrame是由多个Series组合的多维表。最新版本

1.5.0(2022.9.19),Time-Series:以时间为索引的Series;Panel

:三维的数组,DataFrame的容器;Panel4D:Panel的4维数据容器;PanelND:可创建像Panel4D一样N维命名容器。4.1Series4.1.1创建Seriess=pd.Series(np.array([3,5,7,9]))importpandasaspd4.1.2Series索引4.2DataFrame4.2.1创建DataFrame4.2.2索引DataFramedf.iloc[]:只能使用整数索引,不能使用标签索引df.iloc[3]:索引位置为3的行,即第四行的值#print(E.iloc['Tom'])#语法错误df.iloc[[0,2,3]]:索引第一、三、四行切片df.iloc[0:3]:索引第一到第四行,切片选择数据时,前闭后开df.iloc[df.index!=0]:索引除第一行外所有行df.iloc[1:5,1:5]:会有最多4×4的df数据子集

df.loc[]:只能使用标签索引,不能使用整数索引,整数必须为标签名。loc[]:接受两个参数,并以‘,‘分隔,分别表示行、列。df.loc[1:5,1:5]:最多5×5的df数据子集,包括边界(开始和结束)。df.loc[‘abc’]:行标签为abc的行。

列表,df.loc[[‘a’,‘b’,‘c’]]:

索引行标签分别为a,b,c的行。

切片,df.loc[‘a’:‘b’]:

索引行标签为从a到b的行df.loc[:]:所有行。df.loc[:,:]:索引所有行和列。

布尔数组,与轴长度一致,df.loc[[True,True,False]]:索引为True的行。df.loc[df.index!=2,:]:索引除行标签为2外的所有行和列。4.2.3修改DataFrame数据4.2.4删除DataFrame数据4.2.5添加DataFrame数据4.2.6排序见示例4.2.7数据计算4.3读写数据4.3.1CSV格式导入导出参考:Pandas.read_csv()函数及全部参数使用方法一文详解+实例代码Mode:写入模式,默认为wr:只能读,文件必须存在,可在任意位置读取r+:可读可写,文件必须存在,可在任意位置读写w:只能写,文件可以不存在,必会擦掉原有内容从头写w+:可读可写,文件可以不存在,会擦掉原有内容从头写a:只能写,文件可以不存在,不修改原有内容,只能在结尾追加a+:可读可写,文件可以不存在,只在结尾追加写4.3.2Excel文件导入导出condainstallopenpyxl-i/pypi/simple参考:Pandas读取excel文件(pandas.read_excel)4.4数据清洗4.4.1重复值的处理4.4.2缺失值的处理缺失数据的识别:用NaN表示缺失示例:

学号班级姓名性别英语体育军训数分高代解几0230802424123080242成龙男7678.077.04023601230802424423080242周怡女6691.075.04747442230802425123080242张波男8581.075.04545603230802424923080242朱浩男6550.080.07262714230802421923080242封印女7388.092.06147465230802420123080242迟培男6050.089.07176716230802434723080243李毕女6761.084.06165787230802430723080243陈田男7679.086.06940698230802432623080243余皓男6667.085.06561719230802432023080243李嘉女62NaN90.060677710230802434223080243李上初男7690.084.060666011230802431023080243郭窦女7967.084.064647912230802443523080244姜毅涛男7771.0NaN61737613230802443223080244赵宇男7474.088.068707114230802444623080244周路女7680.077.061748015230802442123080244林建祥男7272.081.063907516230802443323080244李大强男7976.077.078707017230802442823080244李则通男6496.091.069607718230802440223080244王慧女7374.093.070717519230802442223080244李晓虎男8560.085.072728320230802420123080242迟培男6050.089.0717671删除数据为空所对应的行:df.dropna()用其他数值代替NaN:df.fillna(‘?’)用前一个数值替代NaN:df.fillna(method=‘pad’)用后一个数值替代NaN:df.fillna(method=‘bfill’)对不同的列填充不同的值:

df.fillna({‘军训':100,‘体育':0})只有行里的数据全部为空时才删除:df.dropna(how='all')删除列:df.dropna(how=‘all’,axis=1)4.4.3数据合并(1)mergeabcd041571657129912312931616321a_xbc_xd_xa_yc_yd_y001234571456767128910119123129abcd00123145672891011312131415a_xbc_xd_xa_yc_yd_y001234.05.07.0145676.07.01.028910119.0123.0129.0312131415NaNNaNNaN(2)appendprint(data1.append(data2,ignore_index=True))(3)joindata2.columns=list('pown')result=data1.join(data2)#右连接,列名不能重叠

abcd00123145672891011312131415441575657169912312971616321abcdpown0012341571456765712891011991231293121314151616321(4)concatabcddata100123145672891011312131415data2041571657129912312931616321data3041571657129912312931616321(5)多文件合并4.4.4字符串数据处理(1)大小写转换与去空格(2)替换数据中指定字符(3)筛选数据并归类4.5数据挖掘4.5.1简单计算

学号班级姓名性别英语体育军训数分高代解几解几高代0230802424123080242成龙男7678.077.0402360831230802424423080242周怡女6691.075.0474744912230802425123080242张波男8581.075.04545601053230802424923080242朱浩男6550.080.07262711334230802421923080242封印女7388.092.0614746935230802420123080242迟培男6050.089.07176711476230802434723080243李毕女6761.084.06165781437230802430723080243陈田男7679.086.06940691098230802432623080243余皓男6667.085.06561711329230802432023080243李嘉女62NaN90.060677714410230802434223080243李上初男7690.084.060666012611230802431023080243郭窦女7967.084.064647914312230802443523080244姜毅涛男7771.0NaN61737614913230802443223080244赵宇男7474.088.068707114114230802444623080244周路女7680.077.061748015415230802442123080244林建祥男7272.081.063907516516230802443323080244李大强男7976.077.078707014017230802442823080244李则通男6496.091.069607713718230802440223080244王慧女7374.093.070717514619230802442223080244李晓虎男8560.085.072728315520230802420123080242迟培男6050.089.07176711474.5.2描述

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论