成对数据的统计分析 第2课时 成对数据的统计相关性_第1页
成对数据的统计分析 第2课时 成对数据的统计相关性_第2页
成对数据的统计分析 第2课时 成对数据的统计相关性_第3页
成对数据的统计分析 第2课时 成对数据的统计相关性_第4页
成对数据的统计分析 第2课时 成对数据的统计相关性_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

8.1成对数据的统计相关性

(2课时,单元教学设计)

柴化安(安徽省寿县第一中学)

1教学内容和内容解析

1.1内容

第1课时:变量的相关关系,主要包括变量的相关关系,散点图,正相关、负相关和线

性相关等.

第2课时:样本相关系数,主要包括如何构造相关系数以及相关系数的特性.

1.2内容解析

本节课是人教八版选择性必修第三册第八章”成对数据的统计分析”中8.1的内容,是

必修课程中统计知识的进一步延伸.通过必修课程的学习,学生初步建立了用样本估计总体

的思想.本节课主要结合典型案例,利用成对样本数据的统计相关性,研究两个变量之间的

统计相关性.对于成对样人数据研究两个变量的相关关系.根据先直观描述后定量刻画的统

计中研究问题的一般思路,本节课先由成对样本数据的散点图直观推断变量之间的相关关系,

再构造统计量相关系数,让学生感受由直观想法到严格数学表达的逐步转化过程.利用从特

殊到一般的研究方法,掌握样本相关系数绝对值的大小可以刻画样本相关程度的强弱,进一

步推断两个变量之间相关的正负性和线性相关程度的强弱,为后面利用一元回归模型刻画两

个数值变量的相关关系,并利用估计得到的回归方程进行预测奠定基础,也为后面通过抽样

数据推断分类变量的独立性,构建/统计量做了思想方法上的铺垫.

2目标和目标解析

2.1目标

(1)通过实例,了解变量的相关关系,会区别变量之间的函数关系和变量之间的相关

关系.

(2)利用给出的数据画散点图,通过散点图判断两个变量间的正相关、负相关以及线

性相关.

(3)结合实例,了解样本相关系数的统计含义,了解样本相关系数与“标准化”处理

后的成对数据量分量向量夹角的关系.通过实例,会通过相关系数比较多组成对数据的相关

性.

1

2.2目标解析

(1)通过实例,让学生认识到变量的相关关系是普遍的关系,理解学习变量的相关关

系的必要性.通过“提出问题f抽样调查f画散点图一,作出推断”的方式,先直观描

述再定量刻画,利用散点图判断两个变量间是否具有相关关系.

(2)通过数据研究问题,用成对样本数据呈现的统计相关性去估计变量之间的相关性,

散点图知识初步阶段,散点图无法定量刻画成对样本数据相关程度的强弱,因此要构造新的

统计量.在构造样本相关系数的过程中,先初步建立刻画相关性的数学表达式,再逐步优化

表达式,即对数据所做的“中心化”和“标准化”等处理,这些处理是统计学中常用的处理

数据的方法,是一种重要的“标准化”思想,渗透了理性思维和科学精神.

3教学问题诊断分析

(1)问题诊断

学牛在在人教A版数学必修第二册的“统计”中的学习中,对干用样本估计总体的统

计思想有一定的了解,基于数据观察、直观表示及统计特征的刻画等相关知识和方法,研究

了刻画单个变量特征的基本量,如均值、方差、中位数、众数等.这为本节课研究两个变量

间的关系相关程度的强弱奠定了一定的基础.本节课结合现实牛•活中的具体实例,以样本估

计总体为主要思想,在成对样本数据散点图的基础上,定量研究成对样本数据的线性相关的

强弱.

(2)学生可■能存在的困难

学生经过函数的学习,对于两个变量之间的确定性关系先入为主,对学生相关关系的理

解可能产生负迁移.在构造样本相关系数的过程中,对“中心化”和“标准化”处理的理解

可能存在困难;在优化公式表达式的过程中,对公式烦琐的化简过程和符号表示的理解存在

一定困难;对探究样本相关系数大小与相关性强弱的关系存在困难.

(3)教学难点是通过散点图判断成对数据的相关性和样本相关系数的构造.

4教学支持条件分析

借助Excel等软件等制作课件,并进行数据处理,增强学生对数据分析的兴趣,提高教

学效果.

6课时教学设计2

第二课时

6.1教学内容

样本相关系数,主要包括如何构造相关系数以及相关系数的特性.

2

6.2教学目标

(1)结合实例,由散点图的图象特征构建线性相关系数的数学表达式,了解样本相关

系数的绝对值大小与相关性强弱的关系;能使用统计软件分析数据,能对统计结果做出合理

的解释.

(2)通过逐步优化构建相关系数的过程,体会样本相关系数定义的合理性,积累利用

数学工具刻画数据统计特征的经验,了解“中心化”“标准化”是常用的处理数据的方法,

能用统计的眼光看待问题,培养学生的数据分析、数学建模、逻辑推理素养.

6.3教学重与难点

教学重点:样本相关系数表达式的构建、优化过程及范围确定.

教学难点:理解“中心化”“标准化”处理的必要性和合理性.

6.4教学过程设计

6.4.1温故知新.提出问题

引导语:我们现在学习统计。研究统计问题的一般流程是什么?收集数据,整理数据,

分析数据,作出推断预测,

上节课我们借助“人体的脂肪含量与年龄”、“航班正点率与顾客投诉次数”等案例,

学习两个变量的相关关系,这是现实世界中比函数关系更为普遍的两个变量的关系.我们如

何判断两个变量之间的相关性?可以根据经验做出推断,更好的是借助数据说话,利用成对

数据的散点图直观推断.通过观察散点图中成对数据的分布规律,大致推断两个变量是否存

在相关关系、是正相关还是负相关、是线性相关还是非线性相关

问题1:观察下面四幅图中,哪些图可以推断两个变量是相关的?哪些图表示的成对数

据的相关性较强?

引导语:.散点图虽然很直观,但无法确切地反映成对样本数据的相关程度,但是这些

推断都只是定性推断,也就无法量化两个变量之间相关程度的大小.能否像引入平均值、标

准差等数字特征对单个变量数据进行分析那样,引入一个适当的“数字特征”,对成对样本数

据的相关程度进行定量分析,即从定量的角度刻画成对样本数据的线性相关程度呢?

3

追问:假设一组数据是』,与,…,与,用X表示这种数据的平均数,那么请同学们

回忆这组数据的标准差的概念及其意义.

师生活动:这种数据的标准差是S=之(匕一方2.标准差刻画了数据的离散程度或

V〃/=i

波动大小,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.

设计意图:这是上节课留下的问题,通过散点图只能定性判断是否相关,通过类比单个

变量数据的数字特征,引出本节课的研究目标一一构建一个统计展来定量刻画线性相关程度

的强弱,提出构造统计量刻画成对数据相关性数字特征的必要性和可能性.

6.4.2问题引领,构建统计量

对于变量x和变量),,设经过随机抽样获得的成对样本数据为(%,X),(&,%),…,

(王,%),其中平均数分别为工=,(%+£+L+玉),y+%+L+月),标准差

nri

分别为%―乎s,=jN(),,q

问题2:对于具有线性相关的两个样本数据的散点图,我们考虑能否在不改变分布的情

况下,将散点移到同一个点附近,以便更好地观察其分布特点.移到哪个点附近比较合适?

设计意图:让学生感知,要研究数据,就要把数据放到统一的“环境中”,在一致的“环

境”卜.观察散点:的分布特点,从而合理构造度量标准,通过数刻画图形中散点分布的特点:.

师生活动:移到原点附近最好,因为原点在坐标系中最特殊.

追问:怎样将点(%,»),(公,%),…,(/,”)都移到原点附近?

师生活动:将每个点的坐标减去他们各自的平均数,这是统计中一个重要的数据处理方

法,对样本数据进行“中心化”处理.将样本数据以(1J)为零点进行平移,得平移后的成

对数据为(%-工%-3)・屋7』7)•…,(xn-x,x,-y).

问题3:018.1.1中的数据进行“中心化”处理.“中心化”处理后散点集中在原点附

近.如图,两个变最正相关“中心化”处理后的散点图,你观察有什么特点?

师生活动:将样本数据“中

图表标题图表标题

心化”处理后,正相关的敢点大

多数分布在笫一、三象限.大多

数散点横、纵坐标同号;负相关的散点大多数分布在第二、四象限,大多数散点横、纵坐标

异号.

问题4:你能根据上述特点,构造一个度量成对样本数据是正相关还是负相关的统计量

吗?

设计意图:数据“中心化”处理以后,成对数据大多数散点分布在一、三象限或二、四

象限,可以让学生用一个量来表示,学生可以充分感知“中心化”处理的必要性和合理性.

师生活动:%=(石-@(--小(W+…+(乙T)(L—>)•

这个公式形式简单,具有对称性,比较合适.

追问1:如何解决数据个数对它的影响?

生:我们可以除以数据的个数〃,就能够得到

%二'(王一矶y一习+(/一@(必一、)+•••+(%7)(”—>)].

一般情形下,4y〉0表明成对样本数据正相关;Lg<0表明成对样本数据负相关.

追问2:你认为的大小一定能度量出成对样本数据的相关程度吗?

师生活动:因为心口的大小与数据的度量单位有关,所以不宜直接用它度量成对样本数

据相关程度的大小.例如,在研究体重与身高之间的相关程度时,如果体重的单位不变,把

身高的单位由米改为厘米,则相应的将变为原来的100倍,但单位的改变并不会导致体

重与身高之间的相关程度的改变.如何解决这一问题呢?

设计意图:数据“中心化”处理以后,可以让学生用一个量的正负来表示正相关和负相

关,但是由于样本单位不同,导致数值大小不一样,为下一步“标准化”操作的合理性奠定

基础.

师生活动:可以同时除以一个数,消除单位对它的影响.

追问3:同除以什么数呢?观察“中心化”的每个数,(%-)。,卜2一元,%一)'),…,

(七一])'"—5),它与我们学过的哪个数有关呢?

师生活动:与标准差有些类似.为了消除单位对数据的影响,将其除以各自的标准差,

这在统计学当中经常用到.我们把这种处理方式叫做“标准化”处理.也就是用

(七一x)2,Sy=\p£(Y-y)2分别除七一X和丫一y(i=l,2,L,〃),得

V〃/=!V〃J=1

5

y-)]([xn-xy”一『

,,,,,,•

lS'SyJS,SyJlS'S『J

经过两次处理,用图看一下处理后的点的分布情况,帮助我们理解统计量的建构过程.

大家试着用原始数据表示相关系数,

将上述“标准化”处理后的成对数据分别记为(《乂),(,其)「,(工,乂),

〃——

Z(%7)()C)

1_1f=l

则就可以得到r=-(%y+M),;+L+<>;)=;I,

〃(i\的zf乂--

,=1V〃i=i

7)(凹一)')一〃个

设计意图:通过两个步骤的处理,让学生体会定义的合理性,积累利用数学工具刻画统

计特征的经验.构造相关系数过程中对数据的“中心化”和“标准化”处理,是统计中常用

的处理数据的方法,也是一种重要的“标准化”思想.

6.4.3确定范围,理解概念

构建概念后,为了确定线性相关系数的范围与相关性强弱的关系,按照从特殊到一般的

研究方式,探究样本相关系数的性质,帮助学生深入理解概念.

问题5:你能根据上述定义确定样本相关系数,•的取值范围,并进一步判断,•的大小与

成对样本数据相关程度之间的关系吗?

追问1:观察表达式,与我们学过的哪个量有关?你能从特殊入手发现它们之间的关系

吗?

设计意图:确定了表达式,需要进一步了解样本相关系数的大小和相关性强弱的关系.

当遇到个复杂的问题不能解决时,最好的解决办法是先从特殊的、简单的情况入手,由此

体会从特殊到一般的研究问题的流程及方法.

2

2(斗一幻(必-丁)

师生活动:我们发现,当〃=2时,I?_,相关系数看起

来与两个向量的夹角公式类似;当〃=3时,可以看作空间向量相应的内容.由此推广,构

6

造两个"维向量4=卜/?="',%工,<

则有a由=x:y:++L+x:y:,

1rrir||口rrrrt1

所以/•二-(c®)=-aMcos<a,Z?>=cosva,/A=cose,其中夕为向量〃,/?的夹角.

由此得到,样本相关系数厂就是标准化数据夹角的余弦值,所以〃即网£[0』].

追问2:当代|=1时,成对样本数据之间具有怎样的关系?

当卜|=1时,〃=cos。中的6=()或万,向量;和力共线.由向量的知识可知,存在实数

%,使得/?=2a,即■»i=1,2,L,/?.

J,S、

这表明成对样本数据(七,y)都落在直线y-亍二巴*-嚏)上.这时,成对样本数据的

两个分量之间满足一种线性关系.

由此可见,样本相关系数r的取值范围为[-11],样本相关系数r的绝对值大小可以反

映成对数据之间线性相关的程度.

当上|越接近1时,成对样本数据的线性相关程度越强.

当卜|越接近0时,成对样本数据的线性相关程度越弱.

追问3:当r=0时,成对样本数据之间一定不相关吗?请以下表的成对数据,计算相

关系数,说明问题。

X-2-1012

y41014

设计意图:帮助学生进一步理解样本相关系数r的大小在统计中的含义.

说明:当〃=0时,成对样本数据之间不一定不相关,只能说它们之间没有线性相关关

系,但不能排除它们之间具有其他相关关系.因此,一也称为样本线性相关系数.

解决开始提出的问题.我们给出不同成对样本数据的散点图和相应的样本相关系数.图(I)

中的散点令明显的从左下角到右卜.角沿直线分布的趋势,说明成对样本数据呈现出线性相关

7

关系;样本相关系数r=0.97,表明成对样本数据的正线性相关程度很强.图(2)中的散点有明显

的从左上角到右下角沿直线分布的趋势,说明成对样本数据也呈现出线性相关关系;样本相

关系数尸。85,表明成对样本数据的负线性相关程度比较强.从样本相关系数来看,图(I)

中成对样本数据的线性相关程度要比图(2)中强•些;图(3)和图(4)中的成对数据的

线性相关程度很弱,其中图(4)中成对样本的线性相关程度极弱.

师生活动:两个随机变量的相关性可以通过成对样本数据进行分析,而样本相关系数r

可以反映两个随机变量之旬的线性相关程度:r的符号反映了相关关系的正负性;1川II勺大

小反映了两个变量线性相关的程度,即散点集中于一条直线的程度.

在有限总体中,若要确切地了解两个变量之间相关关系的正负性及线性相关的程度,我

们可以利用这两个变量取值的所有成对数据,通过计算H两个变量的相关系数,就能确切地

反映变量之间的相关程度.

在实际问题中,我们还是要用样本估计总体的思想来解决问题.我们先要通过抽样获取

两个变量的一些成对样本数据,再计算出样本相关系数,通过样本相关系数去估计总体相关

系数,从而了解变量之间的相关程度.

对于简单随机样本而言,样本具有随机性,因此样本相关系数厂也具有随机性.一般地,

样本容量越大,用样本相关系数估计两个变量的相关系数的效果越好.

6.4.4学以致用,巩固新知

例1.根据下表中脂肪含量和年龄的样本数据,推断两个变量是否线性相关,计算样本

相关系数,并推断它们的相关程度.

编号1234567

年龄/岁23273941454950

脂肪含量/%9.517.821.225.927.526.328.2

编号891011121314

8

年龄/岁53545657586061

脂肪含量/%29.630.231.430.833.535.234.6

解:先画出散点图,如图所示.

腿肪含由%____________________

观察散点图,可以看出样本点40

35

9、--------

都集中在一条直线附近,由此推断祗••

_____________1___:-------------------

20*

脂肪含量和年龄线性相关.案

根据样本相关系数的定义,0

152125303540455()556065年龄/岁

ZXa-14.

唇-心廨一时.©

利用计算工具计算可得

48.07,7®27.26,Exv=19403.2,Lx?=34181,Sj;=11051.77,

19403.2-14x48.07x27.26

代入①式得,,〜H0.97.

V34181-14x48.072xx/11051.77-14x27.262

由样本相关系数厂々0.97,可以推断脂肪含量和年龄这两个变量正线性相关,且相关程

度很强.

例2.有人收集了某城市居民年收入(所有居民在一年内收入的总和)与A商品销售额

的10年数据,如表所示.

第n年12345678910

居民年收入/‘亿元32.231.132.935.837.138.039.043.044.646.0

A商品销售额/万元25.025.025.025.025.025.025.025.025.025.0

画出散点图,推断成对样本数据是否线性相关,并通过样本相关系数推断居民年收入与

A商品销售额的相关程度和变化趋势的异同.

55

解:画出成对样本数据的散点图,如图所示.从散点图50

45

40

看,A商品销售额与居民年收入的样本数据呈现出线性相35

30

25

关关系.20

由样本数据计算得样本相关系数,个0.95.由此可以推

断,A商品销佻额与居民年收入正线性相关,即A商品销出额与居民年收入有相同的变化

趋势,且相关程度很强.

设计意图:通过练习巩固本节所学知识,学生通过解决问题,发展学生的数学运算素养.

9

例3.在某校高一年级中随机抽取25名男生,测得他们的身高、体重、臂展等数据,

如表所示.

编号身高/cm体重/kg臂展/cm编号身高/cm体重/kg臂展/cm

1173551691416666161

2179711701517661166

3175521721617649165

4179621771717560173

5182821741816948162

6173631661918486189

7180551742016958164

8170811692118254170

9169541662217158164

10177541762317761173

11177591702417358165

12178601742517351169

1317456170

体重与身高、臂展与身高分别具有怎样的相关性?

解:根据样本数据画出体重与身高、臂展与身高的散点图,分别如图(1)和(2)所示,

两个散点图都呈现出线性相关的特征.

通过计算得到体重与身高、博展与身高的样本相关系数分别约为034和0.78,都为正

线性相关,其中,臂展与身高的相关程度更高.

6.4.5即时练习,熟练掌握

1、教科书第103页练习第4题

随机抽取7家超市,得到其广告支出与销售额数据如下:

超市ABCDEFG

广告支出/万元1246101420

销售额/万元19324440525354

10

请推断超市的销售额与广告支出之间的相关关系的类型、相关程度和变化趋势的特征.

2、2020年新课标全国n卷文科数学笫18题第(2)题

某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地

区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的

方法抽取20个作为样区,调查得到样本数据(如丁龄=12…20),其中为和为分别表示第i

20

个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得£升=60,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论