统计案例与线性回归分析_第1页
统计案例与线性回归分析_第2页
统计案例与线性回归分析_第3页
统计案例与线性回归分析_第4页
统计案例与线性回归分析_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第62讲:统计案例与线性回归分析

一、课程标准

1、会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.

2、了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.

3、了解独立性检验的基本思想、方法及其简单应用,能通过计算判断两个变量的相关程度.

二、基础知识回顾

1.变量间的相关关系

(1)常见的两变晟之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系

是一种非确定性关系.阑体现的不一定是因果关系

(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布

在左上角到右下角的区域内,两个变量的这种相关关系为负相关.

2.两个变量的线性相关

(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间

具有线性相关关系,这条直线叫做回归宜•线.

(2)1可归方程为H=yx+aA,其中其中aA,B是待定参数,错误!(yLbxi-a)2的最小值而得到回归直线

的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.

(4)相关系数:

当r>0时,表明两个变量正J眩;当rVO时,表明两个变量负相关.

I•的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于。,表明两个变量之间几乎

不存在线性相关关系.通常卜|大于0.75时,认为两个变量有很强的线性相关性.

3.独立性检验

⑴2X2列联表

(2)独立性检验

n(nd—he)2

利用随机变量K2(也可表示为片)的观测值k=(a+b)91c)(b+d)(其中n=a+b+

c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.

常用结论

(I)求解回归方程的关键是确定回归系数心,bA,应充分利用归I归直线过样本中心点(X-,丫一).

(2)根据Y的值可以判断两个分类变最有关的可信程度,若K?越大,则两分类变最有关的把握越大.

(3)根据回归方程计算的b人值,仅是一个预报值,不是真实发生的值.

三、自主热身、归纳总结

1、根据如下样本数据

X345678

y4.02.5-0.50.5-2.0-3.0

得到的回归方程为y=bx+a,则()

A.a>(),b>()B.aX),b<()

C.a<0»b>0D.a<0,b<0

2、为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:

收入x(万元)8.28.610.011.311.9

支出y(万元)6.27.58.08.59.8

根据卜表可得回归直线方程y=hx+a,其中b=0.76*a=y---hx—.据此估计,该社区一户年收入为15

万元家庭的年支出为()

4.11.4万元4.11.8万元

C.12.0万元D12.2万元

3、己知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y/\=0.95x+a八,

则aA=________

X0134

y2.2434.86.7

5、为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2X2列联表:

理科文科

男1310

女720

已知P(K223.841)弋0.05,P(IC25.024)=0.025.根据表中数据,得到K2的观测值1<=

年胃,4.844.则认为选修文科与性别有关系出错的可能性为.

X乙3'八//入ZX)入3U

四、例题选讲

考点一线性回归方程

例1、已知变量x与y正相关,且由观测数据算得样本平均数元=3,y=3.5,则由该观测的数据算得的线

性回归方程可能是

A.y=0.4x+2.3B.y=2x-2A

C.?=-2x+9.5D.y=-0.3x+4.4

变式1、有下列数据:

X-2〃3-

y,3-5.99-12.0产

下列四个函数中,模拟效果最好的为(

A.y=3x2'TB.y=log,xC.y=3xD.y=x2

变式2、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费工(单位:千元)对年捎售量)'(单位:

/)和年利润Z(单位:千元)的影响.对近8年的年宣传费占和年销售量x(i=l,2,...8)数据作了初步处理,得

到下面的散点图及一些统计量的值.

//

62c

5HO

3r>o

口3■

520

5CX).

4f4363k4()4亍AA-4K50525ft,

《I:力传快/TTC

kiX

有下列5个曲线类型:①了二位+G:②歹=cJ7+d;③y=〃+t/lnx:®y=k[+e;⑤>二^^十6,

则较适宜作为年销售量)'关于年宣传费x的回归方程的是()

A.①@B.②③C.②④D.③⑤

变式3、对具有线性相关关系的两个变量”和丁,测得一组数据如卜表所示:根据表格,利用最小二乘法得到

回归直线方程为y=10.5x+L5,则小一()

X24568

y20406070in

A.85.5B.80C.85D.90

方法总结:数据处理,要求结合散点图,初步建立线性回归的直观感知:

(1)依托数据,结合公式准确计算线性回归方程的相关系数值;

(2)根据线性回归方程,正确使用回归方程进行估计.

考点二独立性检验

看书运动合计

男82028

女161228

合计243256

例2、在对人们休闲方式的一次调杳中,根据数据建立如下的2x2列联表:

根据表中数据,得到K?=56x(8x1276x20);4.667,所以我们至少有()的把握判定休闲方式与

28x28x24x32

性别有关系.(参考数据:P(K2>3.841)«0.05,P(K2>6.635)^0.01)

A.99%B.95%C.1%D.5%

变式1、某研究性学习小组调杳研究学生使用智能手机对学习的影响,部分统计数据如表

不使用智能手机”

使用智能手机合计

:学刀龙绩优秀4812

学习成绩不优秀16■218

合计•201030

(参考公式:K~=------------------------------,其中〃=4+Z?+c+d.)

(〃+b)(c+d)(Q+c)(b+d)

附表:

2

P(K>k0)0.150.100.050.0250.0100.0050.001

2.0722.7063.8415.0246.6357.87910.828

则下列选项正确的是()

A.芍99.5%的把握认为使用智能手机对学习有影响

B.有99.5%的把握认为使用智能手机对学习无影响

c.有99.9%的把握认为使用智能手机对学习有影响

D.芍99.9%的把握认为使用智能手机对学习无影响

变式2、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()

A.若K?的观测值为〃=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99

人患有肺病;

B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可.能患有

肺病;

C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推判出现错误;

D.以上三种说法都不正确.

变式3、为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如卜.:

未发病发病总计

未注射疫苗20XA

注射疫苗30yB

总计5050100

2

现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为

(I)求2X2列联表中的数据x,y,A,B的值.

(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?

(3)能否在犯错误的概率不超过0.001的前提卜认为疫苗有效?

n(ad-be)2

附:附=,n=a+b+c+d.

(a+b)(c+d)(a+c)(b+d)

临界值表:

P(K2^k0)0.050.010.0050.001

k03.8416.6357.87910.828

方法总结:(1)根据题意完善2X2列联表,再计算观测值K2,对照临界值表即可得出结论;

(2)理解右的运算过程以及在实际问题中的统计学意义.

考点二、统计案例与线性回归分析的综合

例3、某大学餐饮中心为了了解新生的饮食习惯,在某学院大一年级100名学生中进行了抽样调查,发现喜欢

甜品的占70%.这100名学生中南方学生共80人。南方学生中有20人不喜欢甜品.(1)完成下列2x2列联表:

喜欢甜品不喜欢甜品合计

南方学生

北方学生

合计

(2)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异〃;

(3)已知在被调查的南方学生中有6名数学系的学生,其中2名不喜欢甜品;有5名物理系的学生,其中1名

小喜欢甜品.现从这两个系的学生中,各随机抽取2人,记抽出的4人中小喜欢甜品的人数为X,求X的分

布列和数学期望.

附:*(Q+Z?、)/(c+叱d)(〃*+c)(/?+d)

0.150.1000.0500.0250.010

k。2.0722.7063.8415.0246.635

变式1、【吉林省梅河口市第五中学2017-2018学年高二下学期期末】某中学一名数学老师对全班50名学生某

次考试成绩分男女生进行统计,其中120分(含120分)以上为优秀,绘制了如图所示的两个频率分布直方

图:

男生女生

(1)根据以上两个直方图完成下面的2x2列联表:

性别成绩优秀不优秀总计

男生

女生

总计

(2)根据(1)中表格的数据计算,你有多大把握认为学生的数学成绩与性别之间有关系?

k。2.0722.7063.8415.0246.6357.87910.828

尸(片居)0.150.100.050.0250.0100.0050.001

n(ad-bc)~

附:K2其中〃=〃+〃+c+d.

(a+b)(^c+cl)(a+c)(b+d)

变式2、(2020届山东省德州市高三上期末)某公司为了了解年研发资金投人量X(单位:亿元)对年销售额

V(单位:亿元)的影响.对公司近12年的年研发资金投入量X:和年销售额%的数据,进行了对比分析,建

立了两个函数模型:①y-a+4%2,②y=/x”,其中。、0、义、/均为常数,e为自然对数的底数.并得

到一些统计量的值.令〃匕=lny.(i=l,2,…,12),经计算得如下数据:

2

Xy拈T白…)’WV

1=11=1

20667724604.20

£(';-V)2白玉-矶匕T

2(%-祖%-5)

11=1r«l

312502153.0814

(1)请从相关系数的角度,分析哪一个模型拟合程度更好?

(2)(0)根据(1)的选择及表中数据,建立),关于X的I可归方程;

(0)若下一年销售额)'需达到90亿元,预测下一年的研发资金投入量x是多少亿元?

附:①相关系数厂二1日

丁…)5(…『

回归直线^陞江菽中公式分别为:人=J--------:—,S=y-K:

Z")

1=1

②参考数据:308=4x77,廊*9.4868,e44998«90.

变式3、(2020•湖北高三期末(理))某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019

年元旦期间的90位游客购买情况进行统计,得到如卜.人数分布表.

购买金额(元)[0J5)[15,30)[30,45)[45,60)[60,75)[75,90]

人数101520152010

(1)根据以上数据完成2x2列联表,并判断是否有95%的把握认为购买金额是否少于60元与性别有关.

不少于60元少于60元合计

男40

女18

合计

(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为〃(每次

抽奖互不影响,且〃的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10

元,中奖3次减15元.若游客甲卜划购买80元的土特产,请列出实际付款数X(元)的分布列并求其数学期

望.

附:参考公式和数据:K2=(i)(L)(」c)("d)'…+"c+"•附表:

即2.0722.7063.8416.6357.879

pR..k°)0.1500.1000.0500.0100.005

方法总结:统计案例与线性回归分析的综合往往涉及到直方图、概率等综合性问题,对于此类问题可以从以

下两个方面入手:1、理解直方图具体时间频率与概率的对应关系,独立事件的概率计算过程;理解列联表的

数据生成,以及使用公式进行基本运算,学会利用运算结果进行简单的数据分析:2、数学期望是离散型随机

变量中重要的数学概念,反映随矶变量取值的平均水平.求解离散型随机变量的分布列、数学期望时,首先

要分清事件的构成与性质,确定离散型随机变量的所有取值,然后根据概率类型选择公式,计算每个变量取

每个值的概率,列出对应的分布列,最后求出数学期望.正态分布是一种重要的分布,之前考过一次,尤其

是正态分布的3。原则.

五、优化提升与真题演练

1、(2020年高考全国⑦卷理数)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的

关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(K,£)(i=L2,…,20)得到下面的散点图:

由此散点图,在10℃至40<之间,下面四个回归方程类型中最适宜作为发芽率y和温度*的回归方程类

型的是

A.y=a+bxB.y=a+bx2C.y=a+be'D.y=«+Z?lnx

2、(2018年高考全国H卷理数)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折

线图.

为了预测该地区2018年的环境基础设施投资额,建立了y与时间变吊/的两个线性回归模型.根据2000年至

2016年的数据(时间变量,的值依次为1,2,…,17)建立模型①:y=-30.4+13.5/:根据2010年至2016年

的数据(时间变量/的值依次为1,2,…,7)建立模型②:》=99+17.5/.

(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;

(2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3、(2020年高考全国团卷理数)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为

调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方

法抽取20个作为样区,调查得到样本数据依,2,...»20),其中为和力分别表示第/•个样区的植

物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得£七二60,£^.=1200,£(A;-X)2=80,

1=1/=||=|

2020

2(其一了)2=9000,「衿=800.

I=II=I

(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平

均数乘以地块数);

(2)求样本(x”y))(i=l,2.......20)的相关系数(精确到Q01);

(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生

动物数最更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.

?(%-无)(y-刃

附:相关系数旦-----------------V2«1.414.

j七(七-1)2次

V(=1/=1

4、(2020年高考全国III卷理数)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公

园锻炼的人次,整理数据得到下表(单位:天):

锻炼人次

人次

[0,200](200,400](400,600]

空气质量等级

1(优)21625

2(良)51012

3(轻度污染)678

4(中度污染)720

(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;

(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);

(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称

这天“空气质量不好”.根据所给数据,完成下面的2x2列联表,并根据列联表,判断是否有95%的把握

认为一天中到该公园锻炼的人次与该市当天的空气质量有关?

人次“00人次>400

空气质量好

空气质量不好

,n(ad-bcY。(K2》)0.0500.0100.001

附:K------1~-----

(U1UjC十Cl)\Cl\C1(Tu1

k3.8416.63510.828.

5、(2020年高考山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查

了100天空气中的PM2.5和SO?浓度(单位:|ig/m3),得下表:

so,[0.501(5O,15O|(150.4751

PM2.5^\

[0,35]32184

(35,75]6812

(75,115]3710

(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO?浓度不超过150〃的概率;

(2)根据所给数据,完成卜.面的2x2列联表:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论