变量间的相关关系与统计案例教师版_第1页
变量间的相关关系与统计案例教师版_第2页
变量间的相关关系与统计案例教师版_第3页
变量间的相关关系与统计案例教师版_第4页
变量间的相关关系与统计案例教师版_第5页
已阅读5页,还剩8页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

变量间的相关关系与统计案例【知识要点】1.相关关系的判断(1)如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量 x和y具有线性相关关系.n(2)样本数据 (xi,yi)(i=1,2, ,n)的相关系数 r

(xix)(yiy)0时,i1当rnn(xi x)2 (yi y)2i1 i 1两变量正相关,当 r 0时,两变量负相关,当 |r|1且|r|越接近于1,相关程度越高,当|r|1且|r|越接近于0,相关程度越低.2.回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量 x与y具有线性相关关系,有 n个样本数据 (xi,yi)(i=1,2,,n),则回归方程bxa中斜率和截距的最小二乘估计公式分别为:_1n_1n__其中xxi,yyi,(x,y)称为样本点的中心.ni1ni1回归直线ybxa必过样本点的中心__【重点】(x,y),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.3.独立性检验设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:y1y2总计0.0500.0100.001x1aba+b3.8416.63510.828x2cdc+d总计a+cb+da+b+c+d利用随机变量K2n(adbc)2(其中nabcd为样本容量)来判断“两(ab)(cd)(ac)(bd)个变量有关系”的方法称为独立性检验.【例题解析】题型一 变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3 C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3解析:选 A 易知题中图(1)与图(3)是正相关,图 (2)与图(4)是负相关,且图 (1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.【变式1】四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:^y与x负相关且y=2.347x-6.423;^y与x负相关且y=-3.476x+5.648;^y与x正相关且y=5.437x+8.493;^y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是 ( )A.①② B.②③ C.③④ D.①④解析:选D 正相关指的是 y随x的增大而增大,负相关指的是 y随

x的增大而减小,故不正确的为①④,故选D.相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.【例2】(2014·湖北高考)根据如下样本数据x345678y4.02.5-0.50.5-2.0-3.0^得到的回归方程为 y=bx+a,则( )A.a>0,b>0 B.a>0,b<0 C.a<0,b>0 D.a<0,b<0解析:选B 由表中数据画出散点图,如图,由散点图可知 b<0,a>0,选B.【例3】对于下列表格所示五个散点,已知求得的线性回归方程为^y=0.8x-155,则实数m的值为()x196197200203204y1367mA.8B.8.2C.8.4D.8.5解析:选Ax=196+197+200+203+204=200,y=1+3+6+7+m=17+m.555样本中心点为200,17+m,将样本中心点200,17+m^,可得m=55代入y=0.8x-1558.故A正确.题型二回归方程的求法【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;(2)据此估计2016年该城市人口总数 .n参考公式:b$

xiyinxy$i1$n,aybxx2nx2ii1解:(1)Qx2,y10,2分552=0212223242xiyi=0×5+1×7+2×8+3×11+4×19=132,xi30i1i1n?b

xiyinxy?i1=3.2,?3.6故y关于x的线性回归方程为y?=3.2x+3.6naybxx22nxii1(2)当x=5时,?即?据此估计2016年该城市人口总数约为196万.y=3.2*5+3.6y=19.6【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益÷保费收入)的频率分布直方图如图所示:(Ⅰ)试估计平均获益率;(Ⅱ)根据经验若每份保单的保费在20元的基础上每增加x元,对应的销量y(万份)与x(元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:(ⅰ)根据数据计算出销量 y(元)(万份)与x(元)的回归方销量y(万份)程为y bx a;(ⅱ)若把回归方程ybxa当作y与x的线性关系,用(Ⅰ)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益,并求出该最大获益.nnxiyinxy(xix)(yiy)参考公示:bi1i1,aybxnn(xix)2xi22inx1i1解析:(Ⅰ)区间中值依次为: 0.05,0.15,0.25,0.35,0.45,0.55,取值概率依次为: 0.1,0.2,0.25,0.3,0.1,0.05,平均获益率为0.05 0.10 0.150.20 0.250.25 0.350.30 0.45 0.10 0.550.05 0.275(Ⅱ)(i)则y6.00.10(x40)即y0.10x10.0(ii)设每份保单的保费为20x元,则销量为y0.10x10.0,则保费获益为f(x)(20x)(0.10x10.0)万元,f(x)0.1x28x2000.1(x40)2360当x40元时,保费收入最大为360万元,保险公司预计获益为3600.275=99万元.题型三独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,则种子经过处理与是否生病________(填“有”或“无”)关.解析:在假设无关的情况下,根据题意K2=n?ad-bc?2?a+b??c+d??a+c??b+d?≈0.16,可以得到无关的概率大于50%,所以种子经过处理跟是否生病有关的概率小于50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢“应用统计”课程不喜欢“应用统计”课程总计男生20525女生102030总计302555(1)判断是否有99.5%的把握认为喜欢“应用统计”课程与性别有关?(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选 2人,求恰有 1个男生和 1个女生的概率.下面的临界值表供参考:P(K2≥k)0.150.100.050.250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828(参考公式:K2=n?ad-bc?2,其中n=a+b+c+d)?a+b??c+d??a+c??b+d?55×?20×20-10×5?2解:(1)由公式K2= ≈11.978>7.879,30×25×25×30所以有99.5%的把握认为喜欢 “应用统计”课程与性别有关.6m(2)设所抽样本中有m个男生,则30=20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.8所以恰有1个男生和 1个女生的概率为 15.【变式1】经过对计量 K2的研究,得到了若干个临界值如下:当K2的观测值K 3.841时,我们( A )A.在犯错误的概率不超过0.05的前提可认为A与B有关B.在犯错误的概率不超过0.05的前提可认为A与B无关C.在犯错误的概率不超过0.01的前提可认为A与B有关D.没有充分理由说明事件A与B有关系【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分150分)进行分析,按照不小于120分为优秀,120分以下为非优秀的标准统计成绩,已知从全班100人中随机抽取1人数学成绩优秀的概率为3,调查结果如下表10所示.1)请完成上面的列联表;2)根据列联表的数据,问是否有95%的把握认为“数学成绩与班级有关系”;(3)若按下面的方法从甲班数学成绩优秀的学生中抽取 1人:把甲班数学成绩优秀的10名学生从 2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人的编号,求抽到的编号为 6或10的概率.【变式

3】为了解人们对新颁布的

“生育二孩放开”政策的热度,现在某市进行调查.对[5,65]岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(Ⅰ)求,p的值,并由频率分布直方图估计被调查人群的平均年龄;(Ⅱ)根据以上统计数据填下面 2×2列联表,并根据列联表的独立性检验, 判断能否有 99%的把握认为以 45岁为分界点的不同人群对 “生育二孩放开 ”政策的支持度有关系?年龄不低于45岁的人年龄低于45岁的人合数数计支持不支持合计参考数据:0.0500.0100.001n(adbc)23.8416.63510.828K2,(ab)(cd)(ac)(bd)其中nabcd解:(Ⅰ)从[5,15)岁这一年龄组中抽取的人数为45,且频率为0.010100.1,0.8∴n550;2分0.1又第二组的频率为0.2,则第二组人数为10人,∴p54分0.510平均数x0.1100.2200.3300.2400.1500.16033(岁)6分(Ⅱ)22列联表如下:年龄不低于45岁的人数年龄低于45岁的人数合计支持32932不支持71118合计104050K225171772256.276.635,232181152∴没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系。【例8】为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与吸烟人数相同,吸烟患肺癌人数占吸烟总人数的

4

;不吸烟的人数中,5患肺癌与不患肺癌的比为 1:4.(1)若吸烟不患肺癌的有 4人,现从患肺癌的人中用分层抽样的方法抽取 5人,再从这

5人中随机抽取2人进行调查,求这两人都是吸烟患肺癌的概率;2)若研究得到在犯错误概率不超过0.001的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少?附:K2n(adbc)2,其中nabcd.(ab)(cd)(ac)(bd)解:(1)设吸烟人数为 x,依题意有1x 4,所以吸烟的人有 20人,故有吸烟患肺癌的有516人,不患肺癌的有4人.用分层抽样的方法抽取5人,则应抽取吸烟患肺癌的4人,记为a,b,c,d.不吸烟患肺癌的1人,记为A.从5人中随机抽取2人,所有可能的结果有(a,b),(a,c),(a,d),(a,A),(b,c),(b,d),(b,A),(c,d),(c,A),(d,A),共10种,则这两人都是吸烟患肺癌的情形共有636种,∴P,即这两人都是105吸烟患肺癌的概率为3................................6分5(2)方法一:设吸烟人数为5x,由题意可得列联表如下:患肺癌 不患肺癌 合计吸烟不吸烟总计由表得,K210x(16x2x2)23.6x,由题意3.6x≥10.828,∴x≥3.008,(5x)4∵x为整数,∴x的最小值为 4.则5x 20,即吸烟人数至少为 20人.方法二:设吸烟人数为 x,由题意可得列联表如下:患肺癌 不患肺癌 合计吸烟不吸烟总计2x(16x21x2)21818由表得,K22525(x)4x,由题意x≥10.828,∴x≥15.04,∵x为整2525数且为5的倍数,∴x的最小值为20即吸烟人数至少为20人.【高考真题】【1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位: cm).下面是检验员在一天内依次抽取的 16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.95116116x)2116经计算得xxi9.97,s(xi(xi216x2)0.212,16i116i116i1168.5)216(xix)(i8.5)2.78,其中xi为抽取的第i个零件的尺寸,(i18.439,i1i1i1,2,,16.(1)求(xi,i)(i1,2,,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在 (x 3s,x 3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ⅱ)在(x 3s,x 3s)之外的数据称 为离群值,试剔除离群值, 估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)n(xix)(yiy)附:样本(x,y)(i1,2,,n)的相关系数ri1,nnii(xx)2(yy)2iii1i10.008 0.09.【答案】(1)r 0.18,可以;(2)(ⅰ)需要;(ⅱ)均值与标准差估计值分别为 10.02,0.09.【解析】试题分析:(1)依公式求r;(2)(i)由x9.97,s0.212,得抽取的第13个零件的尺寸在(x3s,x3s)以外,因此需对当天的生产过程进行检查;(ii)剔除第13个数据,则均值的估计值为10.02,方差为0.09.(ii)剔除离群值,即第13个数据,剩下数据的平均数为19.22)10.02,这(169.9715条生产线当天生产的零件尺寸的均值的估计值为 10.02.16xi2160.2122169.9721591.134,i1剔除第13个数据,剩下数据的样本方差为1(1591.1349.2221510.022)0.008,15这条生产线当天生产的零件尺寸的标准差的估计值为0.0080.09.【2】【2017课标II,文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于 50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关:箱产量<

50kg

箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较。附:P()0.0500.0100.001k3.8416.63510.828【答案】(1)0.62.(2)有把握(3)新养殖法优于旧养殖法【解析】根据箱产量的频率分布直方图得列联表旧养殖法新养殖法K2=

箱产量<50kg箱产量≥50kg62383466200(62 66-34 38)≈15.705100 100 96 104由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关 .箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【3】(2016年全国III卷高考)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(Ⅱ)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:777y)2参考数据:yi9.32,tiyi40.17,(yi0.55,7≈2.646.i1i1i1n参考公式:相关系数(tit)(yiy)ri1,nn22(ti(yit)y)i1i1)))中斜率和截距的最小二乘估计公式分别为:回归方程yabt79.32?(tit)(yiy)2.89i1(Ⅱ)由y70.103,71.331及(Ⅰ)得b(tit)228i1所以,y关于t的回归方程为:?0.920.10t...........10分y将2016年对应的t9代入回归方程得:y?0.920.1091.82.所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨..........12分4】【2015高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的宣传费 xi和年销售量 yii 1,2,L,8数据作了初步处理,得到下面的散点图及一些统计量的值.46.6 56.3 6.8 289.8 1.6 1469 108.8ur18wi表中wi=xi,w=8i1(I)根据散点图判断,yabx与ycdx,哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由);(II)根据(I)的判断结果及表中数据,建立y关于x的回归方程;(III)已知这种产品的年利润z与x,y的关系为z0.2yx,根据(II)的结果回答下列问题:i)当年宣传费x90时,年销售量及年利润的预报值时多少?ii)当年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),,(un,vn),其回归线vu的斜率和截距的最小二乘估计分别为:n(uiu)(viv)μi1,μμ=nu)2=vu(uii1【答案】(Ⅰ)ycdx适合作为年销售y关于年宣传费用x的回归方程类型(Ⅱ)$100.668x(Ⅲ)46.24y【解析】(Ⅰ)由散点图可以判断,ycdx适合作为年销售y关于年宣传费用x的回归方程类型.2分8(Ⅱ)令wx,先建立y关于w的线性回归方程,由于$(wiw)(yiy)i1=d8(wi w)2i1108.8$$=68,∴cydw=563-68×6.8=100.6.16∴y关于w的线性回归方程为$y100.668w,$100.668x.6分∴y关于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论