上海新教材高中数学:成对数据的统计分析_第1页
上海新教材高中数学:成对数据的统计分析_第2页
上海新教材高中数学:成对数据的统计分析_第3页
上海新教材高中数学:成对数据的统计分析_第4页
上海新教材高中数学:成对数据的统计分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高中数学成对数据的统计分析

(-)成对数据的相关分析

加辆机理

1、成对数据间的关系

定义:在统计活动中,我们研究来自两个相关变量的两组数据之间的关系,我们把这两组数据叫做成对数据。研究

成对数据相关性的方法称为相关分析

2、相关系数

一般地,在统计中用相关系数,•来衡量两个变量之间线性关系的大小。设由变量x和y获得的两组数据分别为天和

(1</</?),其对应关系如下:

X•••

%%#3%4苑4

■••

y%兀儿

y5

两个变量的相关系数的计算公式为

-1_ii_—I_i!_

其中工=一£>,,)’=一£必分别是这两组数据的平均数。

〃日〃2

-1-

由上述计算公式得到的数值,•称为变昂/和变量),的线性相关系数,简称相关系数

卜|41.4越接近1,线性线关程度越高;川越接近o,线性线关程度越低.

(1)当厂>0时,X的值由小变大时,)的值有由小变大的趋势,这时称这种相关为正相关

⑵当〃<()时,x的值由小变大时,),的值有由大变小的趋势,这时称这种相关为负相关

两个变量的相关系数特点:

(1)相关系数描述的是两个变量之间线性关系的方向与强度,是一种定量分析的方法.

(2)相关系数的计算公式是关于x、y对称的,画散点图时,不论以哪个变量作为横轴(纵轴),得到的

相关系数都一样.

(3)两个变量的相关系数与这两个变量的单位无关.

(4)与平均数和标准差一样,相关系数不仅会受到数据量多少影响,也会受到少数常数值的较大影响.

(5)要用相关系数来描述两个随机变量的相关性,一般要求这两个变量满足正态分布.

怎)用找代耕

B.该同学8次测试成绩的众数是48分

C.该同学8次测试成绩的中位数星49分

D.该同学8次测试成绩与测试次数具有相关性,且呈正相关

-2-

【例2】根据下面四个散点图中点的分布状态,可以直观地判断两个变量之间具有线性相关关系的是

【例3]现随机抽取了我校10名学生在入学考试中的数学成绩㈤与入学后的第一次考试数学成绩(),),数据如下表:

学生号12345678910

X12010811710410311010410599108

y84648468696869465771

计算这10个学生的两次数学考试成绩的样本相关系数,•,并判断两者是否具有线性相关关系.

【例4】互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机

构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调杳,调杳结

果如下表:

1日2日3日4日5日

外卖甲日接单x(百单)529811

外卖乙日接单)'(百单)2310515

(1)试根据表格中这五天的口接单量情况,从统计的角度说明这两家外卖企业的经营状况;

(2)据统计表明,y与X之间具有线性相关关系,请用相关系数,•对y与X之间的相关性强弱进行判断;(若1厂1>0.75,

则可认为)'与x有较强的线性相关关系,,•值精确到0.001)

参考数据:火红,-初凹-刃=66,、忙(—)£)丁“。77.

V1=)r=l

-3-

1、如图,5个(X,),)数据,去掉。(3,10)后,下列说法错误的是()

什.£(10,12)

•2X3,10)

O\Y

A.X与y的相关性变强B.相关指数R2变小

C.相关指数N变大D.解释变量工与预报变量y的相关性变强

2、下列关于相关系数「的说法中,错误的是.

A.相关系数厂越大,两个变量间线性相关性越强

B.相关系数厂的取值范围是卜1』

C.相关系数r>0时两个变量正相关,r<0时两个变量负相关

D.相关系数r=l时,样本点在同一直线上

3、某生物小组为了研究温度对某种醒的活性的影响进行了•组实验,实验数据经整理得到如下的折线图:

由图可以看出,这种酶的活性指标值>'与温度x具有较强的线性相关关系,请用相关系数加以说明.

=5.5,>/7«2.65

-4-

(二)一元线性回归分析

3、一元线性回归分析

(1)由上节内容我们知道,一些散点在某条直线附近,那么这条直线方程是多少,回归分析的方法就是求这条直线方

程。

设所求直线方程为:y=ax+b,当变量x取值看(/=1,2,3,…〃)时,片是由方程得到的计算值,我们把

2

称为在七处的离差,当其一例20时称为正离差,势一警<0时称为负离差。Q=£(y-%)称为拟合误差,当

i=l

拟合误差最小时,方程£=ca+〃称为变量),随X波动的回归方程,对应的直线称为回归直线,/称为解释变量,

),称为反应变量.依据成对数据求同归方程的统计方法称为回归分析,其中的模型参数。和匕称为回归系数.

求回归。和。最基本的方法叫做最小二乘法.用最小二乘法求线性回归系数的公式如下:

«__«__

一幻(必一y)一〃工)'

G___________

<^xr-nx

/=11=1

一-3心

b=y-ax=闫------且一

n

由最小二乘法得到的回归方程为:y=ax^b.a,/;称为模型参数。和〃的最小二乘估计.

(2)建立一元线性回归模型的一般步骤如下:

1、确定研究对象,从•组数据出发,根据实际问题,明确哪个变量是自变量,哪个是因变量.

2、画出确定好的自变量和因变量的散点图,观察它们之间的关系.

3、如果我们观察到数据呈线性关系,则选用回归方程£=aT+/2.

4、按最小二乘法估计回归直线方程中的参数。、b.

5、得出结果后计算离差,采用统计方法检验模型是否合适.

6、利用所求的关系式进行预测.

(3)相关分析和回归分析之间的联系和区别:

1、相关分析主要测定变量之间关系的密切程度和变化方向,而回归分析则要在相关分析的基础上建立同归模

型描述变量之间具体的变动关系.当两组变量具有线性相关时,才作线性回归分析,得到回归直线.

2、在相关分析中,两个变量是对称的,而在回归分析中,要考察的是一个变量随另一个变量的波动情况,其

中一个是解释变量,另一个是反应变量.

-5-

3、回归分析具有因果分析和预测的功能,可以分析反应变量受解释变量的影响程度,也可以通过回归方程求

得反应变量的计算值来估计观察值.

4、在相关分析中,要求两个变量的总体都属于正态分布,在回归分析时,一般只要解释变量的总体满足正态

分布

金)用必代耕

【例5】下列说法正确的有.

A.相关系数,•的绝对值越接近于1,北),的线性相关程度越弱

B.回归方程为),=0.6-0.45x时,变量x和),具有负的线性相关关系

C.设随机变量4服从正态分布N(0,1),若尸«>1)二尸,则P(-ivjvl)=1-2P

D.E(2X+1)=2E(X)+1,ZX2X+1)=4D(X)+1

【例6】根据最小二乘法由一组样本点(冷y)(其中,•=12L,300),求得的回归方程是9=队+》则下列说法正

确的是()

A.至少有一个样本点落在回归直线§=加+自上

B.若所有样本点都在回归直线¥=加+器上,则变量间的相关系数为1

C.当》=一2时,x增加1个单位时,y平均增加2个单位

D.若回归直线¥=法+令的斜率5>0.则变量x与),正相关

【例7】变量x,》之间有如下对应数据:

X34567

已知变量)'与x呈线性相关关系,且回归方程

y13111087

为),=一1.5%+〃,则〃的值是()

A.2.3B.2.5C.17.1D.17.3

-6-

【例8】当今社会面临职业选择时,越来越多的青年人选择通过创业、创新的方式实现人生价值.小明是一名刚毕业

的人学生,通过直播带货的方式售卖自己家乡的特产,下面是他近5个月的家乡特产收入),(单位:万元)情况,

如表所示.

月份56789

时间代号/12345

家乡特产收入y32.42.221.8

(1)根据5月至9月的数据,求),与,之间的线性相关系数(精确到Q001),并判断相关性;

(2)求出),关于,的回归直线方程(结具中B保留两位小数),并预测10月收入能否突破1.5万元,请说明理由.

n__

一叫,

附:相关系数公式:,二.(若|r|>0.75,则线性相关程度很强,可

用线性回归模型拟合)②一组数据(占,匕),(4,/),…,(心”),其回归直线方程字=加+》的斜率和截距的最

〃__

■一〃盯_

小二乘估计公式分别为3=上^------»③参考数据:、区双之2.91.

Yxi-nx

;=1

-7-

1、某公司为了确定下一年投入某种产品的宣传费,需了解年宣传费工(单位:万元)对年销售量.、,(单位:千件)

的影响现收集了近5年的年宣传费工(单位:万元)和年销售量y(单位:千件)的数据,其数据如下表所示,且

y关于x的线性回归方程为了=法-8.2,则下列结论错误的是()

X4681012

y1571418

A.x,y之间呈正相关关系

B.3=2.15

C.该回归直线一定经过点(8,7)

D.当此公司该种产品的年宣传费为20万元时,预测该种产品的年制售量为34800件

2、随着城市生活节奏的加快,网上订餐成为很多上班族的选择,下表是某外卖骑手某时间段订餐数量x与送餐里程

)’的统计数据表:

订餐数x/份122331

送餐里程力里153045

现已求得上表数据的回归方程亍=良+二中的/;值为1.5,则据此回归模型可以预测,订餐100份外卖骑手所行驶的

路程约为()

A.155里B.145里C.147里D.148里

3、某地区实行社会主义新农村建设后,农村的经济收入明显增加,根据统计得到从2015年至2021年农村居民家

-8-

庭收入y(单位:万元)的数据,其数据如下表:

年份2015201620172018201920202021

年份代号r1234567

农村居民家庭收入y3.94.34.65.45.86.26.9

(1)求y关于f的线性回归方程;

(2)根据(1)中的回归方程,分析2015年至2021年该地区农村居民家庭收入的变化情况,并预测该地区2024年农

村居民家庭收入.

E4-7)(》-反)Z

附:回归直线的斜率和截距的最小二乘估计公式分别为/;=口----------=上匕----------,a=y-b't

1=11=1

参考数据:£亿-7)(力-A=14,£=162.4.

/-Ir-1

(三)2x2列联表

-9-

加辆机理

4、2x2列联表独立性检验

不吸烟者吸烟者总计

不患慢性气管炎者aba+b

患慢性气管炎Cdc+d

总计a+cb+da+b+c+d

其中。、b、c、〃为实际观察值.

表中按是否吸烟进行分类和是否患有慢性气管炎进行分类.像这类变量称为分类变量.

像表中这样列出的两个分类变量的频数表,称为2x2列联表,也称四格表.

要检验两个随机变量是否有关系,统计上一股先假设它们没有关系,再进行统计检验.这样的假设称为原假

设.(也称为零假设),“o:慢性气管炎患病与吸烟没有关系,它们相互独立・

得到如下表格:

不吸烟者吸烟者总计

观察值预期值观察值预期值

aa+b/、a+b八八

不患慢性气-----------------X(67+(?)b-----------------x(/?+d)a+b

a+b+c+da+b+c+d

管炎者

cc+d.,、c+d/,、

患慢性气管-----------------x(a+b)d-----------------x(a+b)c+d

a+b+c-vda+b+c+d

总计a+cb+da+b-vc+d

统计量人“U观空预期懿值值;化简:/=('a+/?J)(<?+(d哈)(a姐+c;\b+d八)〃一间c+“

P(/2>3.8410.05

(1)712>3.841,P(/”0.05的概率成立,一般说原假设不成立

(2)Z2<3.841,P(/2)>0.05的概率成立,一般我们说原假没成立。

⑥倒我代耕

-10-

【例9】下列说法错误的是()

A.用相关系数,•来衡量两个变量之间线性关系的强弱M,⑺越接近于1,相关性越强

B.当相关系数,,0时,表明变量x和y正相关

C.独立性检验得到的结论一定正确

D.样本不同,独立性检验的结论可能有差异

【例10】在对吸烟与患肺病这两个分类变量的独立性检验中,下列说法正确的序号是.(参考数据:P(心次.635)

=0.01)

A.若解的观测值满足心次.635,我们有99%的把握认为吸烟与患肺病有关系.

B.若依的观测值满足总次.635,那么在100个吸烟的人中约有99人患有肺病.

C.从独立性检验可知,如果有99%的把握认为吸烟与患肺病有关系时,那么我们就认为:每个吸烟的人有99%的

可能性会患肺病.

D.从统计量中得知有99%的把握认为吸烟与患肺病有关系时,是指有1%的可能性使推断出现错误.

【例11】关于棉花质量,主要有以下几个指标:品级、长度、马克隆值、回潮率、含杂率、短纤维率、危害性杂物、

棉结等.为研究棉花质量,提高棉花品质,某研究机构在一批棉花中随机抽查了200份棉花样品中的马克隆值、回

潮率,得下表:

马克隆值yy<3.43.7<y<4.24.3<y<4.9

3.5<y<3.6

回潮率X

7%<x<8%126108

8%<x<9%35313424

9%vE0%541120

⑴估计一事件”该批棉花马克隆值不超过4.2,【可潮率不超过9%”的概率;

(2)根据所给数据,完成下面的2x2列联表:

>-<4.24.3<y<4.9

-II-

马克隆值),

回潮率X

7%<x<9%

9%<x<10%

(3)根据(2)中的列联表,判断是否有99.9%的把握认为该批棉花马克隆值与回潮率有关?

n(ad-bc)1

(«+/?)((?++(?)(/?+J)

P(K2>k)0.0500.0100.001

k3.8416.63510.828

1、为了调查中学生近视情况,某校160名男生中有90名近视,150名女生中有75名近视,在检验这些中学生眼睛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论