版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第65讲成对数据的统计.分析
<X\\\\VA走进教材•自主回顾
I.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称
为相关关系.
(2)相关关系的分类:正相关和负相关.
⑶线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在附近,我们就称
这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量),的样本相关系数r的计算公式如下:
n
X:(JT.—F)—~y)
i=i
⑵相关系数厂的性质
①当A0时,称成对样本数据正相关:当M0时,成对样本数据负相关:当,一0时,成对
样本数据间没有线性相关关系.
②样本相关系数r的取值范:围为r-1.11.
当团越接近1时,成对样本数据的线性相关程度越强;
当团越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(I)经验P1归方程与最小二乘法
我们将;=£+:称为y关于X的经验I可归方程,也称经验归I归函数或经验I可归公式,其图形
称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的;叫做儿〃的最
小二乘估计,
其中
才,乂一〃
X(.r.—.r)(yi—y)27y
;:=i»=i
b=-------
«X(J*,—x)"X/;—nx2
,=i»=i
A-------
a=y—bw.
⑵利用决定系数炉刻画回归效果
z(乂一丁尸
I-1
,心越大,即拟合效果越好,肥越小,模型拟合效果越差.
4•列联表与独立性检验
⑴2X2列联表
一般地,假设有两个分类变量X和y,它们的取值分别为{内,”2}和{N,/},其2X2列联
表为
y
X合计
y=yi尸)2
X=X\ah
X=X2cdc+d
合计a+cb+dn=a-\-b-\-c-\-d
(2)临界值
H(d—he)2
J、(一八•忽略/的实际分布与该近似分布的误差后,对于
人\a-\~b)(c+〃)(o+c)ib-vd)人
任何小概率值a,可以找到相应的正实数%,使得P(72N)=a成立.我们称此为a的临界
值,这个临界值就可作为判断大小的标准.
(3)独立性检验
基于小概率俏«的检验规则是;
当Z22双时,我们就推断Ho不成立,即认为X和丫不独立,该推断犯错误的概率不超过a;
当^V此时,我们没有充分证据推断为不成立,可以认为X和y独立.
这种利用/的取值推断分类变量X和V是否独立的方法称为/独立性检验,读作“卡方独
立性检验”,简称独立性检验.
下表给出了Z2独立性检验中几个常用的小概率值和相应的临界值
a0.10.050.010.0050.001
0------------1
考点探究•题型突破7////////////
>考点1成对数据的相关性
[名师点睛]
判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;
如果样本点的分布从整体上看大致在某一直线附近,变盘之间就有线性相关关系.
⑵决定系数法:利用决定系数判定,解越趋近],拟合效果越好,相关性越强.
[典例]
1.对变量X,1y有观测数据(M,为"=1,2,…,10),得散点图如图1,对变量〃,。有观测数
据(的,s)(i=l,2,…,10),得散点图如图2.由这两个散点图可以判断()
y
3()60
255()
2040
153()
102()
510
0
012345623456
A.变量x与y正相关,〃与。正相关
B.变量x与y正相关,〃与。负相关
C.变量x与y负相关,〃与。正相关
D.变量x与y负相关,〃与。负相关
答案C
解析由题图可得两组数据均线性相关,且图1的经验回归直线的斜率为负,图2的经验回
归直线的斜率为正,则由散点图可判断变量x与),负相关,〃与。正相关.
2.(多选)下列有关经验回归分析的说法中正确的有()
A.经验回归直线必过点(7,7)
B.经验回归直线就是散点图中经过样本数据点最多的那条直线
C.当样本相关系数r>0时,两个变量正相关
D.如果两个变量的相关性越弱,则|r|就越接近于0
答案ACD
解析对于A,经验回归直线必过点(三,7),故A正确;
对于B,经验回归直线在软点图中可能不经过任一样本数据点,故B不正确;
对于C,当样本相关系数>0时,则两个变量正相关,故C正确;
对于D,如果两个变量的相关性越弱,则川就越接近丁0,故D正确.
[举一反三]
1.(2022・重庆诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份123456
人均销售额658347
利润率(%)12.610.418.53.08.116.3
根据表中数据,下列说法正确的是()
A.利润率与人均销出额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销出额成反比例函数关系
答案A
解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C知D;
其属于正相关关系,A正确,B错误.
2.下列四个散点图中,变量x与),之间具有负的线性相关关系的是()
OxO
AB
yy
CD
答案D
解析观察散点图可知,只有D选项的散点图表示的是变量x与),之间具有负的线性相关
关系.
3.在一组样本数据(xi,>,i).(X2»闻,…,(为,)力)(〃22,总,心,…,工〃不全相等)的散点图
中,若所有样本点(即,%)(/'=1,2,…,〃)都在直线y=-%+l上,则这组样本数据的样本
相关系数为()
A.-1B.OC.-5D.1
答案A
解析因为样本点在直线,,=-5+1上,呈现完全负相关,样本相关系数为一1.
4.两个变量),与x的回归模型中,分别选择了4个不同模型,它们的决定系数R2如下,其中
拟合效果最好的模型是()
A.模型1的决定系数K为().98
B.模型2的决定系数R2为0.80
C模型3的决定系数心为0.50
D.模型4的决定系数R2为0.25
答案A
解析在两个变量),与x的回归模型中,它们的决定系数R2越接近1,模型拟合效果越好,
在四个选项中A的决定系数最大,所以拟合效果最好的是模型1.
》考点2回归分析
[名师点睛]
n--
A£产通一〃工yAA-A-A
(1)求经险回归方程:利用公式b=———一求〃;利用。=),一切:求。,写出经脸回归方
/=i
程.
(2)经脸回归方程的拟合效果,可以利用相关系数m判断,当仍越趋近于1时,两变量的线性
相关性越强.或利用决定系数片判断,片越大,拟合效果越好.
(3)非线性经验回归方程转化为线性经脸回归方程的方法
AAAAAAAAAA
①若G,设,=\M,则1y=。+4:②若满足对数式:y=a^-b\nx,设,=lnx,则)=
AA
〃+/,;③若满足指数式:两边取对数解]ny=lnc'i+c£r,设z=lny,t/=lnc\,b
=C2,则z=a-\~bx.
[典例]
(2021・广州模拟)根据统计,某蔬菜基地西红柿亩产量的增加量.v(百千克)与某种液体肥料每
亩使用量/(千克)之间的对应数据的散点图如图所示:
y(百千克)
O24568%(千克)
⑴依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数并
加以说明(若用>0.75,则线性相关程度很高,可用线性回归模型拟合):
(2)求y关于x的经验回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的
增加量约为多少.
附:相关系数
一亍)3一歹)
x(.v,-y)2
石孙一心y
n
AAA“Z(Xj—X)(>7—j)
经验回归直线y=bx+a的斜率和截距的最小二乘估计分别为6=」^-------;―-
2
1.=1(XLX)
吝为)y“-…
-7>~~,a=y—bx.
Lxi—nx2
Ll
⑺-2+4+54-6+8
解(l)x=---------q------=5,
34-4+5+6+7
产5=5
吝(x/-x)(y,-j)=(-3)X(-2)+(-l)X(-1)+0X0+1X14-3X2=14,
5
篙u—X)2=(-3)2+(-1)2+02+12+32=20,
5
嵩8一)y=(-2)2+(-1)2+02+"22=1().
・•・可用线性回归模型拟合),与X的关系.
KE(X;x)(y-j).4
(2)/?=-------5---------------------=布=0-7,
I,(x,-x)220
1=1
A-A-
则a=y-〃x=5-().7X5=1.5,
A
・・・y=0.7x+1.5.
A
当x=12时,),=0.7X12—1.5=9.9,
...预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
A
当工=10时,),=39.6,则预测2025年该地区的经济收入为39.6百万元
[举一反三]
1.(2022.湖北九师联盟联考汴表是关于某设备的使用年限M单位:年)和所支出的维修费用
共单位:万元)的统计表.
X23456
y3.44.25.15.56.8
由上表可得经验回归方程;=0.8lx+;若规定:维修费用y不超过10万元,一旦大于10
万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为()
A.7B.8C.9D.10
答案D
解析由表格,得
~x=/X(2+3+4+5+6)=4,
~y=]x(3.4+4.2+5.1+5.5+6.8)=5,
因为经验回归直线恒过点匚T,7),
A
所以5=0.81X4+〃,
解得〃=1.76,
所以经验回归方程为y=0.8£+1.76,
由JWIO,得0.8Lr+1.76W10,
解得xW答2:10.17,
由于xWN",所以据此模型预测,该设备使用年限的最大值约为10.
2.用模型),=。心'拟合一组数据时,为了求出经验回归方程,设z=h】y,其变换后得到经验
回归方程为z=0.5x+2,则。等于()
A.0.5B.e0-5C.2D.e2
答案D
解析因为丁=比此两边取对数得,
Iny=In(cetv)=lnc+ln卢=ki+lnc,
则z=kx+\x\c,而z=0.5x+2,
于是得lnc=2,即c=e2.
》考点3独立性检脸
[名师点睛]
1.在2X2列联表中,如果两个变量没有关系,则应满足ad一加心O.|“d一从1越小,说明两个
变量之间关系越弱;依/一从1越大,说明两个变量之间关系越强.
2.解决独立性检脸的应用问题,一定要按照独立性检脸的步骤得出结论.独立性检验的一般步
骤:
(I)根据样本数据制成2X2列联表:
⑵根据公式/=
〃(ad-be)2
计算Z2;
(a+b)(a+c)(〃+d)(c+d)
(3)通过比较/与临界值的大小关系来作统计推断.
[典例]
(2020・全国川卷)某学生兴趣小组随机调查了某市100人中每天的空气质量等级和当天到某
公园锻炼的人次,整理数据得到下表(单位:天):
人次
空气质量嬴[0,200](200,400](400,6(X)]
1(优)21625
2(良)51012
3(轻度污染)678
4(中度污染)720
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
⑵求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代
表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3
或4,则称这天“空气质量不好”.根据所给数据,完成卜面的2X2列联表,并根据列联表,
能否在犯错误的概率不超过0.05的前提下,认为一天中到该公园锻炼的人次与该市当天的
空气质量有关?
人次W400人次>400
空气质量好
空气质量不好
n(ad-be)~
(a+b)(c+d)(a+c)(b+d)'
a0.0500.0100.001
3.8416.63510.828
解(1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级134
概率的估计值0.430.270.210.09
(2)一天中到该公园锻炼的平均人次的估计值为
77^(100X20+300X35+500X45)=350.
Il/v
⑶根据所给数据,可得2X2列联表:
人次W400人次>400
空气质量好3337
空气质量不好228
零假设为Ho:
一天中到该公园锻炼的人次与该市当天的空气质量无关.
根据列联表得
100X(33X8-22X37)2
一25.820>3.841=.g.
55X45X70X30
根据小概率值a=0.050的3独立性检验,可推断反)不成立,所以在犯错误的概率不超过
0.05的前提下,可认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
[举一反三]
1.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学
生,得到如下2X2列联表:
男女合计
爱好ab73
不爱好C25
合计74
则4一人一C等于()
A.7B.8C.9D.10
答案C
解析根据题意,可得c=120—73—25=22,。=74—22=52,〃=73—52=21,
:.a-b~c=52-2\-22=9.
2.(多选)某医疗研究机构为了了解免疫与注射疫苗的关系,进行一次抽样调查,得到数据
如表I.
免疫不免投合计
注射疫苗101020
未注射疫苗63440
合计164460
(表1)
a0.100.0500.0100.001
2.7063.8416.63510.828
(表2)
则下列说法中正确的是()
A.片5出
B.P(/>6.635)^0.001
C.依据小概率值a=0.0l的独立性检验,我们认为免疫与注射疫苗有关系
D.依据小概率值。=0.001的独立性检验,我们认为免疫与注射疫苗有关系
答案AC
解析由表中数据,
,60X(10X34-6X10、
何-20X40X16X44
比8.352比8.35,所以A正确:
因为0(326.635)比0.01,所以B错误;
/2^8.352>6.635=XO.OI,
依据小概率值a=0.01的独立性检验,我们认为免疫与注射疫苗有关系,所以C正确;
/2?::::8.352<10.828—AO.OOI,
依据小概率值。=0.001的独立性检验,我们认为免疫与注射疫苗没有关系,故D错误.
3.(2022•太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质
量进行调研,随机抽查了市区100天的空气质量等级与兰天空气中SO2的浓度(单位
整理数据得到下表:
SO2的浓度
空气质量羲'[0,50](50,150](150,475]
1(优)2862
2(良)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 一例酒精性心肌病患者的护理个案
- 餐饮服务食品安全承诺书(3篇)
- 校园保洁人员准则
- (完整版)医院住院管理体系及护理措施
- 大型游乐设施维保规程
- 《会议管理》练习题及答案
- 设备防爆装置维护记录表
- 关节僵硬护理查房
- 颌部瘤样纤维组织增生护理查房
- 泥石流保险理赔指南
- 公路工程标准施工招标文件(2018年版)
- 机加工产品过程审核表
- 禁止电动自行车违规停放、充电行为的承诺书
- QB-T1022-2021制浆造纸企业综合能耗计算细则
- 医院科研诚信课件
- 《药物化学》课件-苯二氮䓬类药物
- 《精神病学》人卫-第一章-绪论
- 工程伦理 课件全套 李正风 第1-9章 工程与伦理、如何理解伦理- 全球化视野下的工程伦理
- 生物安全标准操作规程
- 石油产品库仑氯分析仪校准规范
- 食品安全管理制度目录
评论
0/150
提交评论