第二节 成对数据的统计分析_第1页
第二节 成对数据的统计分析_第2页
第二节 成对数据的统计分析_第3页
第二节 成对数据的统计分析_第4页
第二节 成对数据的统计分析_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节成对数据的统计分析

课前⑥基础巩固

【教材回扣】

1.变量间的相关关系

(1)如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现

的趋势,我们称这两个变量正相关.

(2)如果当一个变量的值增加时,另一个变量的相应值呈现的趋势,则称这

两个变量负相关.

(3)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在附近,

称这两个变量线性相关.

2.样本相关系数

E(为一x)(»-y)

tQLx八JtCv,-y)2

当r>0时,成对样本数据相关.

当KO时,成对样本数据相关.

当H越接近1时,成对样本数据的线性相关程度

当m越接近。时,成对样本数据的线性相关程度

3.经验回归方程

E(XLX)(州一y)

A1=1

将),=8/+〃其中6=—:-----------a=7-bx称为,,关于x的经验回归方程,

£(XLX)2

7

也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法

叫做最小二乘法.

4.列联表与独立性检验

(I)分类变量:以区别不同的现象或性质的随机变量,称为分类变量.

(2)列联表

列出成对分类变量数据的,称为2X2列联表.

关于分类变量X和丫的2X2列联表:

Y

X合计

r=oY=\

x=oaba+b

x=\cdc+d

合计a+cb+d〃=a+b+c+d

利用*=讲点新篇国的取值推断分类变量X和r是否独立的方法称为f

独立性检验,读作“卡方独立性检验”,简称独立性检脸.

【题组练透】

题组一判断正误(正确的打“J”,错误的打“X”)

1.散点图是判断产个变色是否相关的一种重要方法和手段.()

2.经验回归方程y=Zu+a至少经过点(xi,巾),8,m),…,(,“,W)中的一个点.()

3.若事件X,V关系越密切,则由观测数据计算得到的*的值越小.()

4.两个变量的相关系数的绝对值越接近于1,它们的相关性越强.()

题组二教材改编

1.变最x与),的成对样本数据的散点图如下图所示,据此可以推断变量x与y之间()

A.很可能存在负相关R.一定存在正相关

C.很可能存在正相关D.一定不存在负相关

2.根据分类变量x与),的成对样本数据,计算得到三=2.974.依据。=0.05的独立性检

验,结论为()

a0.10.050.010.0050.001

X。2.7063.8416.6357.87910.828

A.变量x与y不独立

B.变量x与),不独立,这个结论犯错误的概率不超过0.05

C.变量x与y独立

D.变量x与),独立,这个结论犯错误的概率不超过0.05

3.假如女儿身高y(单位:cm)关于父亲身高x(单位:cm)的经验回归方程为;=0.81x+

25.25,已知父亲身高为175cm,则估计女儿的身高为cm.

题组三易错自纠

1.某医疗机构通过抽样调查(样本容量〃=1000),利用2X2列联表和犬统计量研究患

肺病是否与吸烟有关.计算得经查阅临界值表知现给出

四个结论,其中正确的是[)

A.在100个吸烟的人中约有95个人患肺病

B.若某人吸烟,那么他有95%的可能性患肺病

C.有95%的把握认为“患肺病与吸烟有关”

D.只有5%的把握认为“患肺病与吸烟有关”

2.(多选题)在统计中,由一组样本数据(汨,yi),(即,”),…,(M”%)利用最小二乘法

得到两个变量的经验回归方程为;=£+:,那么下列说法正确的是()

A.相关系数「不可能等于1

B.直线;,=法+。必经过点(7,7)

C.直线;=£+)表示最接近y与A-之间真实关系的一条宜线

D.样本相关系数为r,且仍越接近于1,相关程度越大;|「|越接近于0,相关程度越小

3.已知x,y的取值如下表,从散点图可以看出),与x具有线性相关关系,且回归方程

AAA

为y=0.95x+a,贝必=.

X0134

y2.24.34.86.7

题型一变量的相关关系的判断

m11(1)某商家2020年上半年各月的人均销售额(单位:千元)与利润率统计表如下.

月份123456

人均销售额658347

利润率(%)12.610.418.53.08.116.3

根据表中数据,下列说法正确的是()

A.利润率与人均销售额成正相关关系

B.利润率与人均销售额成负相关关系

C.利润率与人均销售额成正比例函数关系

D.利润率与人均销售额成反比例函数关系

⑵为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩

得到如图所示的散点图。轴、y轴的单位长度相同),用经验回归方程尸/*+“近似地刻画其

相关关系,根据图形,以下结论最有可能成立的是()

A.线性相关关系较强,g的值为1.25

B.线性相关关系较强,.的值为0.83

C.线性相关关系较强,♦的值为-0.87

D.线性相关关系较弱,无研究价值

[听课记录I

类题通法

判定两个变量正,负相关性的方法

(1)画散点图:点的分布从左下甭到右上角,两个变量正相关;点的分布从左上角到右

下角,两个变量负相关.

(2)样本相关系数:当r>0时,正相关;当r<0时,负相关.

(3)经脸回归方程中:当力>0时,正相关;当晨0时,负相关.

巩固训练I:⑴对变量x,y有观测数据5,刈(i=1,2,…,10),得散点图如图①,对

变量小。有观测数据(wa)(i=l,2,…,10),得散点图如图②.由这两个散点图可以判断()

A.变量x与),正相关,〃与。正相关

B.变量x与y正相关,〃与。负相关

C.变量x与y负相关,"与。正相关

D.变量x与),负相关,〃与。负相关

(2)变量X与丫相应的一组数据为(101),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与

V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).〃表示变量丫与X之间

的线性相关系数,/'2表示变量V与U之间的线性相关系数,贝|J()

A.r2<n<0B.0</*2</i

C.r2<0<riD.r\=rz

题型二经验回归方程及应用

[例2][2021•山东济南外国语学校检测]我国大力发展校园足球,为了解某地区足球特

色学校的发展状况,社会调查小组得到如卜.统计数据:

年份£20142015201620172018

足球特色学校N百个)0.300.601.001.401.70

(1)根据上表数据,计算),与x的相关系数八并说明y与x的线性相关性强弱;

(已知:0.75WHWL则认为y与x的线性相关性很强;0.3WHV0.75,则认为y与x的

线性相关性一般;|r|W0.25,则认为),与x的线性相关性较弱)

⑵求),关于x的经验回归方程,并预测该地区2020年足球特色学校的个数(精确到个).

Z(为一X)8—y)

参考公式和数据:r=―/”~/

、士(为x),/Lyy

5_5__

2

Z(XLX)2=10,ZIJ,—y)=1.3,也比3.6056,

Z(XLX)°LyI

=

AI1AA

b—----------------,a=y-hx.

E[Xi-X>

»=l

[听课记录]

类题通法

(1)求经脸回归方程

①利用公式,求出回归系数a.

②待定系数法:利用经验回归直线过样本点的中心求系数.

(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数£.

(3)利用经验回归直线判断正、负相关,决定正相关还是负相关的是系数3.

巩固训练2:某地随着经济的发展,居民收入逐年增长,下表是该地•建设银行连续五

年的储蓄存款(年底余额),如下表1:

年份工20162017201820192020

储蓄存款

567810

.V(千亿元)

表1

为了研究计算的方便,工作人员将上表的数据进行了处理,f=x-2015,z=),一5得到

下表2:

时间代号t12345

201235

表2

(1)求z关于/的经验【可归方程;

(2)通过(1)中的方程,求出),关于x的经验回归方程;

(3)用所求经验回归方程预疝到2022年年底,该地储蓄存款额可达多少?

n__

E(Xi-X)tv,-y)

(附:对于经验回归方程y=/?x+a,其中力=----------------,a=y—bx)

£(x,-x)2

产i

题型三独立性检验

[例3][2020・新高考I卷]为加强环境保护,治理空气污染,环境监测部门对某市空气

质量进行调研,随机抽查了100天空气中的PM2.5和SO?浓度(单位:阕/m,得下表:

SO

2[0,50](50,150](150,475]

PM2.5

[0,35132184

(35,75]6812

(75,115]3710

⑴估计事件“该市一天空气中PM2.5浓度不超过75,且SO?浓度不超过150”的概率;

(2)根据所给数据,完成下面的2X2列联表:

SO

2[0.150](150,475]

PM2.5

[0,75]

(75,1151

(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2

浓度有关?

,_______n(ad-be)2______

附•:/3+b)(c+d)m+c)(Z?+(/)'"=〃+力+c+d.

a0.0500.0100.001

3.8416.63510.828

Xa

I听课记录]

类题通法

应用独立性检验解决实际问题的环节

(1)提出零假设“0:x和y相互独立,并给出在问逝中的解释.

(2)根据抽样数据整理出2X2列联表,计算好的值,并与临界值此比较.

(3)根据检验规则得出推断结论.

(4)在x和丫不独立的情况下,根据需要,通过比较相应的频率,分析x和y间的影响

规律.

巩固训练3:[2021•山东青岛检测]2020年1月22日,国新办发布消息:新型冠状病毒

来源于武汉一家海鲜市场非法销售的野生动物,专家通之全基因组比对发现此病毒与2003

年的非典冠状病毒以及此后的中东呼吸综合征冠状病毒,分别达到70%和40%的序列相似

性.这种新型冠状病毒对人们的健康生命带来了严重威胁.因此,某生物疫苗研究所加紧对

新冠病毒疫苗进行实验,井将某一型号疫苗用在动物小白鼠身上进行科研和临床实验,得到

统计数据如表:

未感染病毒感染病毒总计

未注射疫苗20XA

注射疫苗30yB

总计5050100

现从所有试验小白鼠中任取一只,取到“注射疫苗”小白鼠的概率为方2

(1)求2X2列联表中的数据x,y,A,B的值;

(2)能否推断注射此种疫苗对预防新型冠状病毒有关?

______n(ad-be)2______

附:£=〃=a+〃+c+d.

(a+b)(a+c)(c+d)(b+d)

a0.050.010.0050.001

“3.8416.6357.87910.828

[预测1]核心素养——数据分析、教学运算

某工厂生产某种型号的农机具零配件,为了预测今年7月份该型号农机具零配件的市场

需求量,以合理安排生产,工厂对本年度1月份至6月份该型号农机具零配件的俏售量及销

售单价进行了调查,销售单价M单位:元)和销售量N单位:千件)之间的6组数据如下表所

示:

(1)根据1至6月份的数据,求y关于x的经验回归方程(系数精确到0.01);

月份123456

销售单位

11.19.19.410.28.811.4

M元)

销售量y

2.53.132.83.22.4

(千件)

(2)结合(1)中的经验回归方程,假设该型号农机具零配件的生产成本为每件3元,那么

工厂如何制定7月份的销售单价,才能使该月利润达到最大?(计算结果精确到0.1)

Z(Xi-X)侪-y)

参考公式:经验回归方程;,=£+;b=~--------------.

Z(Xi-x)2

6

参考数据:£9=605.82,2必=168.24.

[预测2]新题型——多选题

某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量

(单位:厘米),所得数据的折线图与散点图如图所示,并求得其回归方程为;=l.16x—3075,

以下结论中正确的是()

A.15名志愿者身高的极差小于臂展的极差

B.15名志愿者身高和臂展成正相关关系

C.可估计身高为190厘米的人臂展大约为189.65厘米

D.身高相差10厘米的两人臂展都相差11.6厘米

状元笔记

非线性回归直线方程的求解

回归分析中,依据描述自变量与因变量之间因果关系的函数表达式是线性的,还是非线

性的,分为线性回归分析和非线性回归分析.通常线性回归分析法是最基本的分析方法,遇

到非线性回归问题可以借助数学手段化为线性回归问题处理.

[典例]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)

对年销售晟y(单位:/)和年利润z(单位:千元)的影响,对近8年的年宣传费力和年销售量

yi(i=l,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.

(1)根据散点图判断,y=a+bx与y=c+d也哪一个适宜作为年销售量y关于年宣传费x

的回归方程类型?(给出判断即可,不必说明理由)

(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;

(3)已知这种产品的年利润z与x,y的关系为z=0.2y—x.根据(2)的结果回答下列问题:

①年宣传费x=49时,年销伐量及年利润的预报值是多少?

②年宣传费x为何值时,年利润的预报值最大?

附:对于一组数据(U|,V1),(U2»V2),…,(Un,Vn),其回归直线V=a+pU的斜率和截

n______

Z(Ui-U)(Vi—V)

距的最小二乘估计分别为-----------------,a=~-[iT.

Z(Ui-U)2

i=l

【解析】⑴由散点图可以判断,y=c+岫适宜作为年销售量y关于年宣传费x的回

归方程类型.

8__

Z(WLw)&-y)

Ai-11AOo

(2)令卬=小,先建立y关于w的经验回归方程,由于d=------------------=需

Z(WLW)2

=68,

AA

c=V-d~w=563-68X6.8=100.6,

所以y关于w的经验回归方程为y=100.6+68w,

因此y关于x的回归方程为y=100.6+68正.

(3)①由(2)知,当x=49时,

年销售量y的预报值y=100.6+684而=576.6,

A

年利润z的预报值z=576.6X0.2—49=66.32.

②根据(2)的结果知,年利润z的预报值

A

z=0.2(100.6+685)—x=-x+13.6-\/x4-20.12.

所以当代=孚=6&即x=46.24时,;取得最大值.

故年宣传费为46.24千元时,年利润的预报值最大.

第二节成对数据的统计分析

课前基础巩固

[教材回扣1

增加减少一条直线正负越强越弱交叉分类频数

[题组练透]

题组一

1.J2.X3.X4.V

题组二

1.答案:C

2.解析:由题意知为2=2.974<3.841=w。5

所以认为X和V独立,这个结论犯错误的概率不超过0.05,故选D.

答案:D

3.解析:当x=175时,y=0.81X175+25.25=I67(cm).

答案:167

题组三

1.解析:由题意知在犯错误的概率不超过0.05的前提下认为患肺病与吸烟有关,故有

95%的把握认为患肺病与吸烟有关.故选C.

答案:C

2.解析:样本相关系数,•的取值范围为A错,D正确;经验回归直线;=鼠+

:一定经过样本中心点,B正确,C正确,故选BCD.

答案:BCD

3.解析:•・•点(1,歹)在经验回归直线上,

.-0+1+3+4

••x=J=2,

-2.24-4.3+4.8+6.7

・•・经验回归直线过点⑵4.5).

A

代入得4.5=0.95X2+。

A

••67—2.6.

答案:2.6

课堂题型讲解

题型一

例1解析:(1)由统计表可得利润率与人均销售额不是正比例函数关系,也不是反比例

函数关系,排除C和D,其属于正相关关系,A正确,B错误,故选A.

(2)由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,

且应为正相关,所以经验回归直线的斜率应为正数,且从散点图观察经验回归直线的斜率应

该比),=x的斜率要小一些,综上可知应选B.

答案:(1)A(2)B

巩固训练1解析:(1)由散点图可得两组数据均线性相关,且图①的经验回归方程斜率

为负.图②的经验回归方程斜率为正,则由散点图可判断变量x与y负相关,〃与。正相关.故

选C.

(2)对于变量y与X而言,丫随X的增大而增大,故y与X正相关,即力>o;对于变量

V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选c.

答案:(1)C(2)C

题型二

——1

例2解析:(1)由题得x=5X(2014+2015+2016+2017+2018)=2016,

7=1x(0.30+0.604-1.00+1.40+1.70)=1,

5__

Z(XLx)(Yr-y)

i~1ozRA

Jr=——i--------/=薪产。频同力

r5_r5_3-6056

A/E(XLx*、£(y-y)2

・•・,,与文的线性相关性很强.

(2)设y关于x的经验回归方程为y=〃+/?x,

5__

E(Xi-x心一yI

A尸।36

b=---------------------------=T7r=0.36,

5_IU

E(加—X)2

a=y~bx=1-0.36X2016=-724.76,

・•・),关于x的经验回归方程是:=0.36x-724.76.

当x=2020时,),=0.36X2020—724.76=2.44,预测该地区2020年足球特色学校有244

个.

巩固训练2解析:(1)7=3,7=2.2,fto=45,

1=1

%=55,

i=l

.;45-5X3X2.2—

''b=55-5X9=L2>

/.a=z~bt=2.2—3X1.2=-1,4>

・・・z=1.2f-1.4.

(2)将/=x—2015,z=y—5,代入z=1.2/—1.4,

A

得y-5=1.2(x-2015)-1.4,即y=L2x-2414.4.

A

(3)因为y=1.2X2022—2414.4=12,

所以预测到2022年年底,该地储蓄存款额可达12千亿元.

题型三

例3解析:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SCh浓

度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,

64

且SO?浓度不超过150的概率的估计值为丽=0.64.

(2)根据抽查数据,可得2义2列联表:

SO2

[0,150](150,4751

PM2.5

[0,75]6416

(75,115]1010

(3)根据(2)的列联表得

100X(64X10—16X10)2

贯=80X20X74X26仁7484.

由于7.484>6.635,故有99%的把握认为该市一天空

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论