《Pandas数据处理》课件 8.2.2 统计各地区最高录取分数的平均值_第1页
《Pandas数据处理》课件 8.2.2 统计各地区最高录取分数的平均值_第2页
《Pandas数据处理》课件 8.2.2 统计各地区最高录取分数的平均值_第3页
《Pandas数据处理》课件 8.2.2 统计各地区最高录取分数的平均值_第4页
《Pandas数据处理》课件 8.2.2 统计各地区最高录取分数的平均值_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计各地区最高录取分数的平均值主讲人:xxXXXXXXXXXXXXXXXXXXXXX问题描述利用2007年-2017年全国部分高校的录取数据(“school.csv”),按“考生地区”分组统计2016年全国各地区高校的录取最高分的平均值见表8.2.5,使用柱状图可视化数据见图8.2.5。表8.2.5各地区录取最高分平均值考生地区最高分河北654.234652北京647.129944山东644.476526重庆639.820621四川635.562427云南632.557823陕西630.983776辽宁628.917614题前思考表8.2.4问题分析根据问题描述,填写以下表格问题描述问题解答要筛选2016年各地区的最高录取分,筛选的表达式该如何书写?筛选的是哪两列的数据?

数据筛选后需要对数据进行分组计算,groupby()中的分组键是什么?

使用哪一个函数来计算平均录取分?

分析柱状图的颜色,使用什么方法来填充柱状图的颜色?

importpandasaspdimportmatplotlib.pyplotasmpmp.rcParams['font.sans-serif']=['SimHei']data=pd.read_csv(r"D:\pydata\项目八\school.csv",engine='python')area_high=data.loc[data['年份']==2016,['考生地区','最高分']]①area_high_sort=area_high.groupby(by='考生地区').mean().sort_values(by='最高分',ascending=False)②print(area_high_sort)mp.figure("各地区录取最高分平均值",figsize=(16,9))③程序代码第一个参数是行索引,data['年份']==2016即筛选出年份为2016的所有行;第二个参数是列索引,即筛选['考生地区','最高分']两列数据importpandasaspdimportmatplotlib.pyplotasmpmp.rcParams['font.sans-serif']=['SimHei']data=pd.read_csv(r"D:\pydata\项目八\school.csv",engine='python')area_high=data.loc[data['年份']==2016,['考生地区','最高分']]①area_high_sort=area_high.groupby(by='考生地区').mean().sort_values(by='最高分',ascending=False)②print(area_high_sort)mp.figure("各地区录取最高分平均值",figsize=(16,9))③程序代码按“考生地区”对数据进行分组,对最高分所在列的数据求平均值并降序排序程序代码8.2.6分组计算后的数据8.2.7排序后的数据考生地区最高分云南632.557823北京647.129944四川635.562427宁夏587.973236安徽625.475610……辽宁628.917614重庆639.820621陕西630.983776青海561.598425黑龙江623.632011考生地区最高分河北654.234652北京647.129944山东644.476526重庆639.820621四川635.562427……福建602.557616广东599.190231宁夏587.973236青海561.598425江苏386.433943importpandasaspdimportmatplotlib.pyplotasmpmp.rcParams['font.sans-serif']=['SimHei']data=pd.read_csv(r"D:\pydata\项目八\school.csv",engine='python')area_high=data.loc[data['年份']==2016,['考生地区','最高分']]①area_high_sort=area_high.groupby(by='考生地区').mean().sort_values(by='最高分',ascending=False)②print(area_high_sort)mp.figure("各地区录取最高分平均值",figsize=(16,9))③程序代码创建一个名为"各地区录取最高分平均值"的16英寸宽9英寸高的绘图窗口color=mp.get_cmap('gist_rainbow',len(area_high_sort))(range(len(area_high_sort)))④mp.bar(area_high_sort.index,area_high_sort['最高分'],0.6,color=color,edgecolor='black')⑤fora,binenumerate(area_high_sort['最高分'].values):mp.text(a,b,'%d'%b,va='bottom',ha='center',fontsize=9)⑥mp.title("各省份录取分数线",fontsize=16)⑦mp.xlabel("省份",fontsize=12)mp.ylabel("分数",fontsize=12)mp.gcf().autofmt_xdate()⑧mp.show()程序代码get_cmap()是取得颜色映射的函数返回值为Colormap类对象,'gist_rainbow'是颜色映射的名字color=mp.get_cmap('gist_rainbow',len(area_high_sort))(range(len(area_high_sort)))④mp.bar(area_high_sort.index,area_high_sort['最高分'],0.6,color=color,edgecolor='black')⑤fora,binenumerate(area_high_sort['最高分'].values):mp.text(a,b,'%d'%b,va='bottom',ha='center',fontsize=9)⑥mp.title("各省份录取分数线",fontsize=16)⑦mp.xlabel("省份",fontsize=12)mp.ylabel("分数",fontsize=12)mp.gcf().autofmt_xdate()⑧mp.show()程序代码绘制柱状图。行索引为area_high_sort.index,即考生地区;

列索引是area_high_sort['最高分'],即录取最高分;间距为0.6;柱状图的颜色是color,边框颜色为'black'color=mp.get_cmap('gist_rainbow',len(area_high_sort))(range(len(area_high_sort)))④mp.bar(area_high_sort.index,area_high_sort['最高分'],0.6,color=color,edgecolor='black')⑤fora,binenumerate(area_high_sort['最高分'].values):mp.text(a,b,'%d'%b,va='bottom',ha='center',fontsize=9)⑥mp.title("各省份录取分数线",fontsize=16)⑦mp.xlabel("省份",fontsize=12)mp.ylabel("分数",fontsize=12)mp.gcf().autofmt_xdate()⑧mp.show()程序代码每个值添加序号构成一个元组,以这些元组为项构成一个可迭代对象。color=mp.get_cmap('gist_rainbow',len(area_high_sort))(range(len(area_high_sort)))④mp.bar(area_high_sort.index,area_high_sort['最高分'],0.6,color=color,edgecolor='black')⑤fora,binenumerate(area_high_sort['最高分'].values):mp.text(a,b,'%d'%b,va='bottom',ha='center',fontsize=9)⑥mp.title("各省份录取分数线",fontsize=16)⑦mp.xlabel("省份",fontsize=12)mp.ylabel("分数",fontsize=12)mp.gcf().autofmt_xdate()⑧mp.show()程序代码设置柱状图的标题及字号。后两条语句是设置x轴、y轴的样式color=mp.get_cmap('gist_rainbow',len(area_high_sort))(range(len(area_high_sort)))④mp.bar(area_high_sort.index,area_high_sort['最高分'],0.6,color=color,edgecolor='black')⑤fora,binenumerate(area_high_sort['最高分'].values):mp.text(a,b,'%d'%b,va='bottom',ha='center',fontsize=9)⑥mp.title("各省份录取分数线",fontsize=16)⑦mp.xlabel("省份",fontsize=12)mp.ylabel("分数",fontsize=12)mp.gcf().autofmt_xdate()⑧mp.show()程序代码自动旋转x坐标刻度标签至合适位置任务小结1.描述groupby()方法及各参数的作用以及DataFrameGroupBy对象的常用方法2.描述给柱状图添加数据标签的过程一展身手现有8000余条电影数据“2_movies.csv”,表中的内容如表8.1.7所示。统计2010以来上映的中国大陆影片,对各“主演”主演的所有影片计算平均分、总分和影片数量,并计算评分总分最高的前10个主演的得分信息,见表8.2.8,使用柱状图对数据进行可视化。一展身手表8.2.8总分最高的主演

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论