版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一部分信息技术
专题三数据处理与应用高考技术某省市专用考点集训考点一
常用表格数据的处理考点二
大数据处理目录考点一常用表格数据的处理考点集训1.(2022诸暨海亮高中期中,16)为了响应全民健身计划,某高中对学生进行了体质健康
测评,并用Excel软件进行数据处理,如图a所示。
图a请回答下列问题:(1)区域M2:P15的数据是通过公式计算得到的,在M2单元格中输入公式后,再使用自动
填充功能完成该区域的计算,则N3单元格中的公式是“=SUMPRODUCT((
)*
($I$3:$I$553=N$1))”。(提示:M2单元格输入公式=SUMPRODUCT((A1:A100=“2”)*(I1:I100=“优秀”)),表
示同时满足A1:A100是2班和I1:I100是优秀这两个条件的情况数量,也就是进行条件计
数。)(2)根据图a中的数据制作的图表如图b所示。创建该图表的数据区域是
。$A$3:$A$553=$K3M1:P1,M16:P16
图b(3)对图a工作表进行相关数据分析,下列说法正确的是
(多选,填字母)。A.以“总分等级”为依据进行升序排序,选择的区域是A3:I553ABCB.选择“A3:I553”按照“总分等级”升序排序后,图b的图表不会发生改变C.现需要选出总分等级为“不及格”的学生,可选择区域A3:I553,以“总分等级”为
“不及格”进行筛选并保留结果D.为了显示男生立定跳远得分最高的3位学生数据,可先对“性别”为“男”进行筛
选,再对“立定跳远”进行筛选,选择最大的3项解析
(1)N3单元格表示2班总分等级为良好的数量,应查找A3:A553中等于2的,即与K
3中的值相同。(2)从题图b可知数据来自M1:P1,M16:P16。(3)先对“性别”为“男”
进行筛选,再对“立定跳远”进行筛选,选择最大的3项,筛选时分别对全体数据进行筛
选,不会只在“男生”中筛选立定跳远得分最高的3位学生。2.(2023杭州“六县九校”期中,16)小明同学为备战明年的计算机类研究生考试,收集
了部分高校的计算机专业复试分数线并进行分析。小明收集到的数据如图a所示。
请帮助小明同学对表格数据进行下列分析:(1)若想知道这些学校的总分情况,则在F2单元格先输入公式
(要求必须
使用函数),然后使用自动填充功能完成单元格F3:F8的计算。各院校总分展示图(2)现要求按照“总分”列进行降序排序,并筛选出总分在290分及以上的院校并显示,
最后绘制各个院校总分的垂直柱形图(如图b)。请在程序划线①②③处填入合适的代
码。importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['KaiTi','SimHei','FangSong']#图表中文显示处理df=pd.read_excel("score.xlsx")df1=df[①
]print(df1)
#输出筛选数据df=df.②
("总分",ascending=False)
#按照"总分"列降序排序print(df)
#输出排序好的数据#------创建图表代码------plt.title("各院校总分展示图")plt.xlabel("院校名称")plt.③
(df.院校名称,df.总分)#各个院校总分的垂直柱形图plt.show()
答案
(1)=SUM(B2:E2)(2)①df.总分>=290或者df["总分"]>=290②sort_values③
bar解析
本题主要考查pandas的数据处理。(1)求和函数是SUM(),F2单元格对应的求和区域是B2:E2,则F2单元格先输入公式=
SUM(B2:E2),然后使用自动填充功能完成单元格F3:F8的计算。(2)①筛选出总分在290分及以上的院校并显示,df1是筛选后的数据,故此处填df.总分>=
290或者df["总分"]>=290。②按照“总分”列降序排序,使用sort_values函数,故填sort_values。③绘制柱形图,使用plt.bar函数,故填bar。3.(2023杭州S9联盟联考,13)小明收集了当地2023年3月份的天气情况,数据存储在文件
“temp.xlsx”中,如图a所示。分析大的日期,并生成反映各类天气情况的天数
对比图如图b所示。
(1)在对表格进行数据整理时发现,“日期”可能存在的数据问题是
(单选:A.
数据缺失;B.数据异常;C.逻辑错误;D.数据格式不一致)。(2)程序代码如下所示,请在划线处填入合适的代码。importmatplotlib.pyplotaspltimportpandasaspdplt.rcParams["font.sans-serif"]=["SimHei"]#设置中文字体df=pd.read_excel("temp.xlsx")df[""]=①
#新增""列s=df.sort_values("",ascending=False,ignore_index=True)df_max=②
#获取大的日期,如并列只输出第一个日期print(df_max)df_t=s.groupby("天气",as_index=False).count()df_t=df_t.rename(columns={"日期":"天数"})#修改列名"日期"为"天数"x=df_t["天气"]y=df_t["天数"]③
(x,y,label="天气情况")plt.legend()plt.show()(3)观察图b,3月份天数最多的天气类型是
。
答案
(1)D(2)①df["最高气温"]-df["最低气温"]
②s["日期"][0]或s.at[0,"日期"]③plt.bar(3)小雨解析
本题主要考查pandas的数据处理。(1)由2023-3-5和2023/3/6可知存在的数据问题是数据格式不一致,故选D。(2)①新增“”列,故填df["最高气温"]-df["最低气温"]。②获取大的日期,上行代码已实现按“”进行降序排序,故此处填s["日期"]
[0]或s.at[0,"日期"]。③由题图b可知,绘制的是柱形图,故填plt.bar。(3)观察题图b,3月份天数最多的天气类型是小雨。4.(2023杭州地区点中学,15)某中学高一年级完成一次7选3意向调查,数据存储
在“xk73.xlsx”中,如图a所示,其中1代表选择科目,0代表弃选科目。
(1)使用pandas编程计算本次选课各门课人数占总人数的比例,请在划线处填入合适
的代码。importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']#图表显示中文df=pd.read_excel("①
")a=[""]*len(df)#存储每个学生的选课组合dic={"物":0,"化":0,"生":0,"政":0,"历":0,"地":0,"技":0}foriindf.index:forjindf.columns[3:]:ifdf.at[i,j]==1:
②
a[i]+=jforiindic.keys():dic[i]=round(dic[i]/len(df)*100,2)(2)按照各科选考人数占比创建如图b所示的图表。各科选考人数占比df1=pd.DataFrame({"学科":dic.keys(),"人数占比":dic.values()})df1=①
plt.title("各科选考人数占比")plt.bar(②
,label="人数占比")plt.legend()plt.show()观察图b,横线处应填入的代码为:①
;②
(选填字母)。A.df1.sort_values("人数占比",ascending=True)B.df1.sort_values(“人数占比”,ascending=False)C.df1.学科,df1.人数占比
D.df1.人数占比,df1.学科(3)小想查询某种七选三组合有多少人。以下程序代码可以为小提供查询功能,程序运行示例如图c所示,请在划线处填入合适的代码。cx=input("请输入需要查询的选课组合:")t=0foriinrange(len(a)):if
:tt+1print(f"选择{cx}组合的同学共有:t}人")答案
(1)①xk73.xlsx②dic[j]+=1(2)①B②C(3)a[i]==cx或其他等价表达式解析
本题主要考查pandas的综合应用。(1)①数据存储在“xk73.xlsx”中,此处使用read_excel函数读取该文件,故填xk73.xl-
sx。②此处统计对应科目的选考人数,当df.at[i,j]==1时,dic[j]递增1,故填dic[j]+=1。(2)①由题图b可知,按“人数占比”进行降序排序,故填df1.sort_values("人数占比",as-
cending=False)。②由题图b可知,横坐标是学科,纵坐标是人数占比,故填df1.学科,df1.人数占比。(3)a=[""]*len(df)存储每个学生的选课组合,故此处if判断条件是a[i]==cx。5.(2023诸暨适应性考试,14)某校区举行优秀学员的评比。教务处统计了本校区的相关
数据并存储于“cj.xlsx”文件中,学生数据按照班级先后次序存储,如1班之后是2班学
生数据。文件部分内容如图a所示。为分析本次评比的结果情况,编写Python程序。请
回答下列问题:(1)读取“cj.xlsx”文件,为每个学生补充班级名称(1班到4班),班级人数存储在列表num
中。请在划线①②③处填入合适的代码。
(2)优秀学员的评比规则为:学业分数不低于80分,德育等级为A。统计每个班级优秀学
员人数,并绘制图表显示,如图b所示,部分Python程序如下。请在划线①②处填入合适
的代码。dfs=df[df["学业分数"]>=80]dfs=①
dfg=
dfg=dfg.rename(columns={"学业分数":"人数"})#将"学业分数"重命名为"人数"plt.bar(dfg["班级"],②
)plt.title("班级优秀人员对比图")plt.xlabel("班级")plt.ylabel("人数")plt.show()(3)加框处应填入的代码是
(单选,填字母)。A.dfs.groupby("班级",as_index=False).学业分数.count()B.dfs.groupby("班级",as_index=False).学业分数.sum()C.dfs.groupby("班级",as_index=True).学业分数.count()D.dfs.groupby("班级",as_index=True).学业分数.sum()答案
(1)①"cj.xlsx"②end=num[0]或end=num[k]③k+=1(2)①dfs[dfs["德育等级
"]=="A"]或dfs[dfs.德育等级=="A"]②dfg["人数"]或dfg.人数(3)A解析
本题主要考查pandas的综合应用。(1)①教务处统计了本校区的相关数据并存储于“cj.xlsx”文件中,此处使用read_excel
函数读取该表格,故填"cj.xlsx"。②num=[29,31,30,32]中存储4个班级的人数,此处取第一个班的人数保存到变量end中,
填空代码与下文有关系,end没赋值,故填end=num[0]或end=num[k]。③k表示班级,如果i=end,则k递增1,故填k+=1。(2)①优秀学员的评比规则为:学业分数不低于80分,德育等级为A。统计每个班级优秀
学员人数,并绘制图表显示,此处筛选出优秀学员,故填dfs[dfs["德育等级"]=="A"]或dfs[dfs.德育等级=="A"]。②由题图b可知,纵坐标是优秀学员的人数,故填dfg["人数"]或dfg.人数。(3)此处以“班级”进行分类汇总,并统计“学业分数”的数量,即每个班级优秀学员人
数,故填dfs.groupby("班级",as_index=False).学业分数.count(),故选A。6.(2023浙江1月选考,14,9分)小红收集了某省市2021年全年每天PM2.5、PM10、CO
浓度数据,每天的数据分别保存在以8位日期字符串命名的CSV文件中,部分文件如图a
所示,每个文件记录了一天24小时的监测数据,示例如图b所示。
为统计某省市A全年各月份PM2.5的月平均浓度(当月的日平均浓度的平均值),编写
Python程序。请回答下列问题:(1)定义pmday函数,功能为:读取某天的CSV文件,某省市A当天PM2.5的日平均浓
度。函数代码如下,划线处应填入的代码为
(单选,填字母)。A.df['类型']=='PM2.5'B.df['类型'=='PM2.5']C.df[df['类型']]=='PM2.5'D.df[df['类型']=='PM2.5']importpandasaspddefpmday(dayfile):df=pd.read_csv(dayfile)#读取文件dayfile中的数据df=
returndf某省市A'].mean()#某省市A当天PM2.5的日平均浓度(2)某省市A各月份PM2.5的月平均浓度并绘制线形图,部分Python程序如下,请在划
线处填入合适的代码。importmatplotlib.pyplotaspltdeftstr(t):ift<10:retrun'0'+str(t)else:retrunstr(t)pm=[0]*12mdays=[31,28,31,30,31,30,31,31,30,31,30,31]#2021年每月天数forminrange(12):sm=0mstr=tstr(m+1)fordinrange(①
):dstr=tstr(d+1)dayfile='2021'+mstr+dstr+'.csv'sd=pmday(dayfile)
②
pm[m]=sm/mdays[m]x=[1,2,3,4,5,6,7,8,9,10,11,12]y=③
plt.plot(x,y)#绘制线形图#设置绘图参数,显示如图c所示线形图,代码略
(某省市A2021年PM2.5年平均浓度为34.6微克/立方米。由图c可某省市A2021年PM
2.5月平均浓度超过年平均浓度的月份共
个。答案
(1)D(2)①mdays[m]②sm+=sd③pm(3)5解析
本题主要考查DataFrame中的数据处理及matplotlib模块绘图。(1)由题意可知:需要某省市A当天PM2.5的日平均浓度,df[df['类型']=='PM2.5']表示由
满足条件的行构成的二维表。(2)①m的数值表示一年的12个月,d的数值表示12个月中的每个月的天数。②由代码可
知,sd为PM2.5的日平均浓度,sm为每个月中每一天平均值的累加,所以应填sm+=sd。③
由题图c可知,y轴的数据为每个月的PM2.5的平均浓度。(3)根据题图c可知,超过34.6的点共有5个。考点二大数据处理1.(2023宁波三锋期中,2)下列关于大数据与大数据处理的说法,不正确的是
()A.处理大数据时,一般采用分治思想B.大数据的处理对象是全体数据,而不是抽样数据C.大数据的特点是数据量大、速度快、数据类型多、价值密度低D.Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于处理实
时数据D解析
Hadoop适用于静态数据的批处理计算。2.(2023金华十校联考,3)下列有关大数据处理、数据可视化的说法不正确的是
(
)A.静态数据是指处理时已收集完成、计算时不会发生改变的数据B.流数据主要是指不间断地、持续地到达的实时数据C.图计算是指有关大量图片的计算D某省市生产总值占比情况”可以采用饼图或环形图呈现C解析
图计算不是指简单的图片计算,而是指数据之间以图的形式呈现,节点与边之间
的错综复杂关系的处理。3.(2023浙江7月学考,9,3某省市2022年全年气象灾害预警数据保存在文件“qxyj.xl-
sx”中,部分数据如图所示,编写Python程序,统计全年发布次数最多的5种气象预警。
importpandasaspddf=pd.read_excel("qxyj.xlsx")#读文件中的数据df=df.drop(["预警发布单位","预警等级","预警发布时间"],axis=1)#删除列print(df_s[0:5])方框中代码由下列语句中的部分语句组成:①df_g=df.groupby("预警名称",as_index=False).sum()#分组求和②df_g=df_s.groupby("次数",as_index=False).sum()③df_s=df.sort_values("次数",ascending=True)#升序排序④df_s=df_g.sort_values("次数",ascending=False)要实现上述功能,下列选项中正确的是
()A.①④B.①③C.②④D.③②A解析
本题考查pandas数据分析。可选语句①②进行分组求和、③④升序和降序排
序:根据题干的描述“统计全年发布次数最多的5种气象预警”,需要对气象预警进行
分组,对发布次数进行统计。在统计时,根据输出中的df_s[0:5]可知需要降序排序,因此
答案A符合题意。4.在网上搜索的文章《绿》,如图所示。
(1)搜索信息并保存为txt文件,该过程称为
。(2)“绿.txt”文件的文本类型是
。(填写字母:A.结构化数据/B.半结构化数据/采集信息CC.非结构化数据)(3)制作标签云的代码如下:importcollectionsimportjiebaimportwordcloudaswcimportnumpyasnpfromPILimportImagewcg=wc.WordCloud(background_color="white",font_path='assets/msyh.ttf')text=open('data/绿.txt',encoding='utf-8')read()seg_list=①
f=collections.Counter(seg_list)wcg.fit_words(f)wcg.to_file('output/b.png')划线处①语句是调用jieba对象的cut函数对变量为text的文件进行分词,则该处语句为
。jieba.cut(text)
该图片的文件名是
,表现该文本特征的是
。(至少
写出3个)(4)得到的标签云如图所示。b.png我、的、着、了、绿、你解析
(1)获取信息的过程称为采集信息。(2)从文件的内容来看,属于非结构化信息。
(3)jieba对象的cut函数对文本文件进行切割,应为jieba.cut(text)。(4)语句wcg.to_file('
output/b.png')定义输出图片名称。标签云用词频表现文本特征,一般以文字大小的形
式代表词语的重要性。5.(2024教改共同体月考,14)小明收某省市2022年1月的线上订单数据,存储某省市
销售数据.xlsx”中,部分界面如图1。
(1)当前原始数据中存在哪些需要进行更改的数据问题?应如何修改?(写出一种即可)
(2)当前Excel表中需要计算订单中每种商品的销售金额(销售金额=销售数量×商品单价),在J2单元格中应填写的是
,并自动填充到下方的单元格中。(3)小明想要求出销售数量最多的10项洗化类的商品,运用Python处理数据后的效果如
图2。
部分Python代码如下,请完成代码片段的填空。importpandasaspdimportmatplotlib.pyplotaspltdf=pd.read_excel某省市销售数据.xlsx")plt.rc("font",**{"family":"SimHei"})#设置字体df=df[df["商品类别"]=="洗化"]#筛选出洗化用品g=df.groupby("商品名称").sum()plt.title("最畅销10大洗化用品")plt.xlabel("洗化用品")plt.ylabel("销售数量")plt.show()答案
(1)问题一:“单位”列中的单位没有统一,有些是“KG”,有些是“千克”。修
改:将所有的“KG”都更改成“千克”。问题二:部分数据缺失,例如G8单元格、F15单元格等。修改:按照内容核实后补齐。问题三:部分数据异常,例如I11单元格,商品单价为99999。修改:按照内容核实后进行
更改。(2)=H2*I2(3)g=g.sort_values("销售数量",ascending=False)[0:10]plt.bar(g.index,g["销售数量"])或g=g.sort_values("销售数量",ascending=False).head(10)plt.bar(g.index,g.销售数量)解析
(1)主要考查数据整理的相关内容,注意寻找异常数据。(2)公式计算时,需要注意等号及乘号的书写。(3)根据题意需求出销售数量最多的10项洗化类的商品,因此在筛选出洗化类产品后,需
要按照销售数量进行降序排序,同时绘制柱形图。6.(2024五校联考5月月考,14)小明收集某省市某地3月各类共享单车的部分骑行数据
记录,每天的用户数据存储在“bike.xlsx”文件中(不考虑跨天数据)。部分数据格式如
图a所示,请回答下列问题:
(1)trans函数功能为:读取骑行开始时间或结束时间,获取小时和分钟部分,转换为分钟
格式并返回,如“2024/03/0121:12”获取“21:12”转换为1272(21*60+12=1272),代码
如下。请在划线处填入合适的代码。deftrans(t):n=len(t)foriinrange(n):ift[i]=="":p=iift[i]==":":q=itime=
returntime(2)共享单车计费规则如下:起步价1.5元(含15分钟),超出15分钟,时长费0.5元/15分钟,不
足15分钟以15分钟计算。考虑到车辆损坏等情况,2分钟内(不含2分钟)的骑行数据作
废,因此本程序实现过滤骑行时间在2分钟内的数据行,统计各条记录的骑行时间及本
月各类单车的收益。
importpandasaspdimportmathdf.insert(4,"骑行时长","")#插入一列dic={'青桔单车':0,'OFO单车':0,'美团单车':0,'摩拜单车':0)foriindf.index:c=trans(df.at[i,"结束时间"])-trans(df.at[i,"开始时间"])df.at[i,"骑行时长"]=cifc<2:fee=0elif2<
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 核桃苗种植施工方案(3篇)
- 水冷壁喷砂施工方案(3篇)
- 河道防水专业施工方案(3篇)
- 混凝土基础挖除施工方案(3篇)
- 熟食小摊的营销方案(3篇)
- 砖砌座椅施工方案(3篇)
- 管家服务套餐营销方案(3篇)
- 网架桥安装施工方案(3篇)
- 苏州顶管施工方案(3篇)
- 街头玫瑰活动策划方案(3篇)
- 盆底康复中心运营管理
- 新疆乌鲁木齐天山区2026届中考历史全真模拟试卷含解析
- 辽宁省能源集团招聘笔试题库2026
- 2026年乡村医生培训考试试卷及答案(共十九套)
- 2026年湖北省武汉市辅警协警笔试真题及答案
- GB/T 47417-2026蜂蜜中水不溶物的测定
- 管道拆除安全措施方案
- 110kV变电站电气设备吊装专项施工方案
- 便利店工作制度详细流程
- 2026年云南省初中学业水平考试数学仿真卷(一)(含答案)
- 2025年中级注册安全工程师《建筑施工安全》真题及答案
评论
0/150
提交评论