第四章数据处理与应用课件浙教版高中信息技术必修1_第1页
第四章数据处理与应用课件浙教版高中信息技术必修1_第2页
第四章数据处理与应用课件浙教版高中信息技术必修1_第3页
第四章数据处理与应用课件浙教版高中信息技术必修1_第4页
第四章数据处理与应用课件浙教版高中信息技术必修1_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高中信息技术必修一第四单元正道中学高一信息技术组数据处理与应用1、数据错误类型2、excel处理数据3、python处理数据大数据具有数据量大、数据来源与类型多样、处理速度快等特点,简单的表格处理软件已经无法满足大数据的处理需求,同时,大数据技术、理论和处理方法也在不断发展,为大数据的处理提供了越来越有力的支持。大数据特征1、数据体量大2、速度快3、数据类型多4、价值密度低(数据非常多,但有用的只有一小部分)静态数据:在处理时已收集完成、在计算时不会发生改变的数据流数据:不间断地、持续地达到的实时数据,随着时间的流逝,流数据的价值也随着降低。数据缺失数据重复数据异常逻辑错误格式不一序号姓名性别语文数学英语总分日期1小唐男981201253432023-2-172李好5002354781121253152023-2-173王小牛女100982023-2-174张三女1701002004702.175麻花女9652682162023-2-176小唐男981201253432023-2-17数据整理数据处理Excel表数据计算数据图python数据计算数据图数据处理与应用1、数据错误类型2、excel处理数据3、python处理数据1、字母代表列、数字代表行。2、单元格用于表示数据位置。书写方式:列在前,行在后。例如:A253、单元格区域书写方式。A2:A11,A2:E54、运算符:^<>&Excel表基础常识Excel单元格、区域引用单元格引用:是用于标识工作表上的单元格或区域,并指明公式或函数使用数据所在的位置。通过引用,可以在函数或公式中使用工作表不同部分的数据,或在多个函数或公式中使用同一单元格的数值。ABC1133263215417534640124255238B2=B2+B4=sum(A1:A4)相对引用:单元格或区域会相对变化,格式如:A1绝对引用:单元格或区域确定不变,需要锁定,格式如:$A$1混合引用:

行不变则锁行,列不变则锁列。格式如$A1或A$1Excel单元格、区域引用黄色部分和绿色部分行、列怎么变化?ABCDFG1选择判断填空作文总分折算分215417555186933464012764453278235255238566442562437折算率0.5=A1+B1+C1+D1=SUM(A1:D1)总分计算=(A1+B1+C1+D1)/$B$7=SUM(A1:D1)/$B$7折分计算依据实际情况,数据区域改变更合理该单元格行和列不变,所以需要锁定各小组总分:=SUMIF(

A

2:

A

8

,

I2

,

F

2:

F

8)各小组成员总分排名:=RANK(F2

,

F

1:

F

8

)数据计算——公式公式的格式:=表达式其中表达式有运算符号,常量,单元格地址,函数以及括号组成。=B4+100=(A1+B1)/2=B4*A4=sum(A2:A6)/B4……例如:=A2+B2某班级约定,每周进行操行评定,分为4个项目,回答问题、作业提交,迟到和早退。回答问题正确加2分,作业提交获得优加2分,迟到一次扣3分,早退一次扣5分。下表部分同学的操行评定情况。使用公式在F2单元格中,计算出操行总分

求和求平均值求最小值求最大值SUM()

AVERAGE()

MIN()MAX()数据计算——函数格式:函数名(参数1,参数2……)函数其实是一些预定义的公式,它们使用称为参数的特定数值按特定的顺序进行计算。例:=sum(A2:A16)

求个数count()

条件返回真假if()常用函数=if(条件判断,“真值”,“假值”)一个数据区域Eg:=if(成绩>90,“优秀”,“合格”)1、使用函数计算高一一班的总分,和400米的最高分2、求200米成绩中,分数为0的班级个数3、如果总分高于80分为优秀、否则良好COUNTIF()指定区域中符合条件的单元格数目SUMIF()指定区域中符合条件的值求和AVERAGEIF()指定条件求平均值函数Rank()大小排名、排序补充函数=rank(数值,数据区域,排序方式)=countif(计算区域,条件)=sumif(条件区域,条件,求和区域)=averageif(条件区域,条件,计算区域)RANK函数:用来排名排序的函数Number(数值):给谁排序就填谁Ref(引用):参与排序的所有范围排位方式:0或忽略为降序,非零值为升序ABC1操作题总分排名2505035050448.348.3548.148.164747746.546.5846.546.5某学校高一年级一次月考结束后,老师用电子表格软件对数据进行处理,如图所示:课堂练习-非选择题请回答以下问题:(1)该数据表是按照________科目进行________排列。(2)该数据表中第二位同学没有总分,如果要用公式计算此同学的总分,公式为=________(3)已知该校高一年级共有200名学生都参加了考试,要对全年级学生按照总分进行排名(相同分数名次需相同),可用到Rank函数,则在H3单元格中应该输入的Rank函数参数为________降序

课堂练习数学

D4+E4+F4+G4

=Rank(C3,C$3:C$202)

Countif函数:指定区域中符合条件的单元格计数

格式:=countif(计算区域,条件)在2017年,在建设高等院校“211工程”和“985工程”的基础上,国家推进“双一流”大学的建设,如图所示是西南三省211大学名单:课堂练习(1)在电子表格软件中,我们一般通过COUNTIF函数计算区域中满足给定条件的单元格的个数。在上表的单元格F3中,通过“COUNTIF(C3:C9,E3)”函数得到云南省的211大学数量是1,COUNTIF函数中统计“云南省”211大学个数的数据区域是________(2)得到云南省的211大学数量后,张华通过自动填充的方式,得到四川省的211大学个数为4,结果与实际不符,应该将单元格F3的函数修改为________(3)如果要直观地表示各个省份211大学数量,可以应用哪种图表方式________C3:C9

课堂练习=COUNTIF(C$3:C$9,E3)

柱形图格式:=SUMIF(条件区域,判断条件,计算区域)sumif函数:按条件求和

“注意:区域要锁定”高二年级的10位同学参加数学竞赛,成绩如下:课堂练习73(1)在上表的G7单元格中,通过函数求出10位同学的平均分是80.9,则应在该单元格输入的函数是________(2)AVERAGEIF是指定条件求平均值函数,上表所示的G3单元格就是通过AVERAGEIF函数求出指导教师是“王老师”的所有学生的平均成绩。如果用该函数求出“刘老师”指导学生的平均分,则函数第二个参数应该填________(3)如果要通过自动填充的方式得到G4和G5单元格的值,则G3单元格的函数式子应该改为:________=AVERAGE(C3:C12)

课堂练习F4=AVERAGEIF(D$3:D$12,F3,

C$3:C$12)3.高三年级的10位学生参加学校的物理竞赛,成绩如下:课堂练习94(1)通过观察上表,获得一等奖的判断条件是:________(2)物理老师通过电子表格软件的“IF函数”快速得到了学生的等级,那么“赵杰”同学所获得“等级”单元格的函数编辑栏内的函数应该是:________(3)物理老师想把表中数据复制到新建数据表中进行编辑,但不想连同D列中的函数粘贴到新表,比较恰当的方式是:________(A.在新表中手动输入;B、选择性粘贴为数值C、选择性粘贴为图片)成绩>=90分

课堂练习=IF(C8>=90,“一等奖”,“二等奖”)B

P110Excel表格

图表是用视觉形式向人们展示数据的一种方法。常见的图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。注意:数值——柱形图;趋势——折线图;比例——饼图项目较多——雷达图

图表呈现数据处理与应用1、数据错误类型2、excel处理数据3、python处理数据python函数1.概念:是组织好的,可重复使用的,用来实现单一,或相关联功能的代码段。2.优点:提高应用的模块性,代码的重复利用率。3.类型:(1)内建函数:Python提供的函数,比如print()、input()、max()…(2)自定义函数:用户自己创建函数。(3)标准函数库(又称模块)和第三方库:不是Python自带的函数库,需要导入后才可以使用库中的函数。python模块的小名儿import还有更多详细的用法,主要有以下两种:导入整个模块时,也可以为模块指定别名。①import模块名1[as别名1]…②from模块名import函数名1[as别名1],…import

pandas

as

pd

pd.series()from

pandas

import

DataFrame

as

df

df()python常用数据处理模块1、pandas——用于数据处理分析。2、

Matplotlib——用于绘制图表3、turtle——用于绘制图形pandasMatplotlibturtle都要使用import导入

pandas数据结构

1.Series(序列)Series类似于一维数组,由一个数组的数据和一个与数据关联的索引(index),索引值默认是从0起递增的整数。importpandasaspdindex:表示索引pandas数据结构

2.DataFrame(数据值,行标签,列标签)

DataFrame是一种类似于关系表的表格型数据结构,DataFrame对象是一个二维表格,由1个索引列(index)和若干个数据列组成。其中,每列中的元素类型必须一致,而不同的列可以拥有不同的元素类型。15.

Python编程中的pandas库常用来对数据进行预处理,分析下面的Python程序:程序运行以后输出的结果是

()。RangeIndex(start=0,stop=3,step=1)B.RangeIndex(start=0,stop=4,step=1)C.135okD.135课堂练习P120pandas模块pandas数据结构常用绘制图表函数plot()绘制线形图。bar()绘制垂直柱形图。barh()绘制水平柱形图。scatter()绘制散点图。title()设置图表的标题。show()显示创建的所有绘图对象。

Matplotlib——绘图表turtle——绘图形Importturtleas

mypenForxinrange(40,0,-10):

mypen.circle(x)Mypen.done()Importturtleas

mypenForxinrange(4):

mypen.forward(50)

mypen.left(90)Mypen.done()Importturtleas

mypenForxinrange(3):

mypen.forward(50)

mypen.left(120)Mypen.done()数据处理与应用1、数据错误类型2、excel处理数据3、python处理数据4、其他考点横向对比分析法:是指对同类的两个或两个以上的事物进行的比较(同一学期,小王和小明俩人的成绩比较)数据分析方法纵向对比分析法:比较同一事物在不同时期的形态,是指对一个事物的历史、现状,乃至未来进行的比较。(不同学期,小明的单科成绩的比较)平均分析法:指应用平均数对经济税源、税收现象进行比较分析的统计分析方法结构分析法:是指对经济系统中各组成部分及其对比关系变动规律的分析1、典型的文本处理过程主要包括文本数据源→分词→特征提取→数据分析→结果呈现等。2、中文分词分为:基于词典(对比)基于统计(频率)基于规则(计算机模拟人的理解)3、文本数据分析与应用(1)标签云(大小和颜色表示关键词出现频次)文本数据处理1.可视化的基本方法(1)有关时间趋势的可视化:可以采用柱形图、折线图等。(2)有关比例的可视化:可以采用饼图、环形图(也称面包圈图)等。(3)有关关系的可视化:可以使用散点图、气泡图等。(4)有关差异的可视化:可以采用雷达图。(5)有关空间关系的可视化:运用不同颜色或图表直接在地图上进行展示。数据可视化

P1331.学习小组在调查同学的爱好情况,通过问卷收集了一些数据,小明负责去除数据中的重复部分,小明所做的工作是数据处理的哪一步()

A.数据收集B.数据整理C.数据分析D.数据呈现B课堂练习P108数据处理1.学习小组在调查同学的爱好情况,通过问卷收集了一些数据,小明负责去除数据中的重复部分,小明所做的工作是数据处理的哪一步()

A.数据收集B.数据整理C.数据分析D.数据呈现B课堂练习P108数据处理课堂练习2.如图所示,某景区2020年某一周的人园游客数量图表,根据图表分析,下列结论错误的是()。A.该图表是折线图

B.该图表是雷达图

C.周六的人园游客数量最多

D.为了分散一周游客人园数量,可以在周三举行门票打折活动BP134可视化的基本方法B3.IF函数是电子表格软件中用来做条件判断的函数,单元格A2的值是90,如果在A3输入“=IF(A2>=90,“合格”,“不合格”)”,确定后得到的结果是(

)。

A.合格

B.不合格

C.90D.NULLA课堂练习P110函数语法4.在用电子表格软件处理某地部分市场菜篮子价格数据,如图所示。计算表中“平均值”列数据:选择单元格输入函数(公式),然后用自动填充功能完成其他单元格平均值的计算。则I3单元格中可使用的函数(公式)为()A.=SUM(C3,H3)/6B.=(3.5+3+3+3+3+3)/6C.=C3+D3+E3+F3+G3+H3/6

D.=AVERAGE(C3:H3)D课堂练习P110函数语法5.某慈善总会接收抗击新型冠状病毒感染肺炎的捐赠物资,使用电子表格软件进行数据处理,若要统计“分类捐助总量”的数据,统计“N95口罩”的总量可修改F4单元格中的公式,并对G4:H4进行自动填充,统计出“84消毒液”和“医用防护服的总量,则F4单元格中的公式应修改为()[提示:SUMIF函数用于对区域中满足条件的单元格求和。例如:=SUMIF(B3:B3126,F3,C3:C3126)表示求B3:B3126区域中所有“N95口罩”的总量]A.=SUMIF(B3:$B3126,F3,$C3:$C3126)B.=SUMIF(B$3:B$3126,F3,C$3:C$3126)C.=SUMIF($B3:$B3126,F3,C$3:C$3126)D.=SUMIF(B$3:B$3126,F3,$C3:$C3126)A课堂练习P110函数语法课堂练习6.学校体育教师对某班级进行三个项目的测试,部分同学体育成绩如下表:图中数据存在的问题主要为()。A.数据缺失B.数据重复C.数据逻辑错误D.数据格式不一致B课堂练习P108常见数据问题7.学校体育老师分别在8月3日和8月4日对运动队队员进行体育测试,队员的体育成绩如下表:图中数据存在的问题主要为()。A.数据缺失B.数据重复C.数据格式不一致D.以上问题都存在C课堂练习P108常见数据问题8.IBM副总裁Dietrich曾说过“可以利用社交平台数据获得用户对每个产品的评价,但是往往上百条记录中只有很少一部分真正讨论这款产品”。这主要体现了大数据的()特征

A.数据体量大

B.数据类型多

C.数据变化速度快

D.价值密度低课堂练习P114大数据处理D10.下列关于“大数据”与“传统数据”的说法错误的是()。A.大数据的种类繁多,有短信、微信、视频、语音、电子邮件等产生的各种数据,也有各种传感器在交通监测、安防监测等过程中产生的大量数据B.传统数据很难做到全样本数据的采集C.所有数据都适合通过“大数据技术”进行处理种分析属D.采集到的大数据会存在“数据冗余”的现象课堂练习CP115静态数据、流数据11.2020年11月1日,正式开始第七次全国人口普查,普查信息除了普查员登记获取外,还可以通过手机小程序自主填报获取。后者的数据采集方式是(

)。A.实验数据采集B.传感器采集C.网络爬虫D.网络数据采集D课堂练习数据采集12.小明想要查看云南省近三年的气温数据,下列哪种方式最合适()

A.百度搜索关键词

B.图书馆查阅资料

C.咨询地理老师

D.访问“国家气象科学数据中心”网站查看D课堂练习数据采集13.智能手环可以检测使用者的心率、记录运动步数等,那么智能手环的功能体现了(

)数据采集的应用。

A.统计报表

B.网络爬虫C.传感器

D.实验数据采集C课堂练习数据采集14.下列关于数据整理的说法错误的是()A.数据整理的目的是对数据进行校验和标准化B.CSV文件将数据表格存储为纯文本C.采集的数据只能保存为CSV文件D.整理数据可以通过编写程序实现C课堂练习P108P126数据整理16.我们在用Python进行数据分析的时候,经常会用到pandas库中的DataFrame,这是类似于()的数据结构。

A.一维表格B.二维表格C.三维表格D.四维表格B课堂练习P121DataFrame17.在用Python编程对数据进行分析的时候,代码pandas.DataFrame.sum()执行的操作是()。

A.返回所有列的和

B.返回所有行的和

C.返回所有数据中的最大值

D.返回所有数据中的最小值A课堂练习P110函数语法18.

自新冠病毒感染肺炎疫情暴发以来,网络某大数据平台通过可视化数据图表实时更新全球疫情,如图是2020年某一天的全球确诊病例情况。在对数据进行分析时,该种分析属于()。A.横向对比分析法

B.纵向对比分析法

C.平均分析法

D.结构分析法A课堂练习P13419.下列关于中文分词方法的描述中,属于基于词典的分词方法的是()

A.在分析句子时与词典中的词语进行对比,词典中出现的就划分为词

B.依据上下文中相邻字出现的频率,同时出现的次数越高就越可能组成一个词

C.让计算机模拟人的理解方式,根据大量的资料和规则进行学习,然后分词D.依据词语与词语之间的空格进行分词A课堂练习P129中文分词20.matplotlib库中的pyplot子库主要用来绘制图表,其中用来绘制散点图的函数是()A.plot()B.scatter()C.title()

D.show()B课堂练习P125常用的绘图函数21.学校篮球队想给队员做一个学期的训练数据分析,数据包括了体能和技术中的8个小项,较为适合的数据图表呈现方式是()。A.折线图

B.散点图C.热力图D.雷达图D课堂练习P134可视化基本方法

22.

2020年10月29日,党的十九届五中全会在北京闭幕,大会通过的公报文本的词云图如下,下列说法正确的是

(

)。A.对文本分词后可直接创建词云图,无须特征提取B.词云图必须显示该数据集包含的全部词语C.通过词云图显示,词语“发展”比“体系”的出现频率高D.最能表现文本特征的词有“建设”“国家”“实力”C课堂练习P130标签云

4.在2017年,在建设高等院校“211工程”和“985工程”的基础上,国家推进“双一流”大学的建设,如图所示是西南三省211大学名单:课堂练习(1)在电子表格软件中,我们一般通过COUNTIF函数计算区域中满足给定条件的单元格的个数。在上表的单元格F3中,通过“COUNTIF(C3:C9,E3)”函数得到云南省的211大学数量是1,COUNTIF函数中统计“云南省”211大学个数的数据区域是________(2)得到云南省的211大学数量后,张华通过自动填充的方式,得到四川省的211大学个数为4,结果与实际不符,应该将单元格F3的函数修改为________(3)如果要直观地表示各个省份211大学数量,可以应用哪种图表方式________C3:C9

课堂练习COUNTIF(C$3:C$9,E3)

P110Excel表格柱形图5.现有5名篮球队员在联赛中的比赛数据,如下图所示。

课堂练习(1)上图右侧所示的图表类型是________;该图表呈现了周旋岷、成果汝两名队员的数据。则系列1和系列2分别是________(A.周旋岷和成果汝;B.成果汝和周旋岷)。(2)通过电子表格软件对数据进行分析,计算5名队员各项数据的平均值可以用到的函数是________(3)如果把队员“高贤”的5.项数据放在Python程序中的一个列表中,则代码为“GX=[6.8,1.9,2.1,]”,那么GX[3]的值为_______课堂练习P110Excel表格雷达图AAVERAGE1.96.学校的物理学习小组通过实验,得到了5组弹簧伸长度ΔX和拉力F的数据。他们想利用Python编程绘制数据图进行相关结论的验证。

课堂练习ΔX/cm0.511.522.5F/N0.491.021.472.022.51(1)通过Python编程对上述得到的数据进行了图形化表达,得到了如上图所示的图表,此图表我们称之为_______(2)得到上图以后,同学们在程序第6行加入了pyplot.plot(ΔX,F)指令后,运行后将会出现什么效果_______(3)pyplot库中的函数常用来快速绘图和设置图表,则pyplot是哪一个库的子库:_______。(A.jieba;B.matplotlib;C.pandas)

课堂练习P125常用绘图函数散点图散点连线B7.高三5班毕业后,班长小明收集了同学们的信息后,做了一个班级通讯录。通讯录的内容包括:姓名、QQ、手机号、录取大学、大学所在城市5项内容。(1)小明是通过网络问卷的方式收集同学们的信息,则这种数据采集方式属于_______(2)小明将网络问卷后台的数据导出后生成了一张CSV表格,他将数据整理后直接发在了微信朋友圈,他的这种做法对吗?请简要分析原因。_______网络数据采集法课堂练习P108数据

不对,包含个人信息的数据不应该直接公布,可以选择邮箱或者私信发送(3)小明把同学们的“大学所在城市”这项数据导入词云图软件中,生成一个词云图,根据词云图可以知道,小明的同学去哪个城市上大学的最多?_______北京

课堂练习P130标签云8.词云图是目前常用的关键词可视化数据表达方式,下图是一个词云图示例。课堂练习P130标签云(1)词云图通常使用文字的_______和_______来表示关键词出现的频次示例词云图应该是对__________小说中人物出现频次进行分析后的结果。

(2)制作词云的方法很多,我们常用Python编程进行词云制作,则编写程序的指令顺序应该是__________(

分词;

导人文本;

保存词云图片;

特征提取,数据分析)。

课堂练习P128文本数据处理的过程P130标签云颜色

大小

三国演义

9.在利用Python编程中,常常使用matplotlib库进行函数绘制,下图所示是通过8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论