人人文库网 > 教育资料 > 中学教育 > 2019-2020学年高中数学 第三章 统计案例讲义+练习(打包6套)新人教A版选修2-3.zip
2019_2020学年高中数学第三章统计案例章末复习讲义新人教A版选修2_3202001020212.doc
2019-2020学年高中数学 第三章 统计案例讲义+练习(打包6套)新人教A版选修2-3.zip
收藏
资源目录
压缩包内文档预览:(预览前10页/共11页)
编号:56358314
类型:共享资源
大小:14.85MB
格式:ZIP
上传时间:2020-03-12
上传人:扣***
认证信息
机构认证
宁夏凯米世纪网络科技有限公司
宁夏
统一社会信用代码/组织机构代码
91640100MA774ECW4K
IP属地:宁夏
15
积分
- 关 键 词:
-
2019-2020学年高中数学
第三章
统计案例讲义+练习打包6套新人教A版选修2-3
2019
2020
学年
高中数学
第三
统计
案例
讲义
练习
打包
新人
选修
- 资源描述:
-
2019-2020学年高中数学 第三章 统计案例讲义+练习(打包6套)新人教a版选修2-3.zip,2019-2020学年高中数学,第三章,统计案例讲义+练习打包6套新人教a版选修2-3,2019,2020,学年,高中数学,第三,统计,案例,讲义,练习,打包,新人,选修
- 内容简介:
-
3.1 回归分析的基本思想及其初步应用知识点线性回归模型(1)函数关系是一种确定性关系,而相关关系是一种非确定性关系(2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法(3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),回归直线 x 的斜率和截距的最小二乘估计公式分别为 , ,其中(,)称为样本点的中心(4)线性回归模型ybxae,其中a和b是模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量知识点线性回归分析1残差平方和法(1) i(i1,2,n)称为相应于点(xi,yi)的残差(2)残差平方和 (yii)2越小,模型拟合效果越好2残差图法残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适,其中这样的带状区域宽度越窄,说明模型的精确度越高3利用相关指数r2刻画回归效果其计算公式为:r21.其几何意义:r2越接近于1,表示回归效果越好1建立回归模型的基本步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性相关关系等)(3)由经验确定回归方程的类型(如观察到数据呈线性相关关系,则选用线性回归方程 x )(4)按一定规则估计回归方程中的参数(如最小二乘法)(5)得出结果后分析残差图是否有异常,若存在异常,则检查数据是否有误或模型是否合适等2线性回归模型中随机误差的主要来源(1)用线性回归模型作为真实模型的近似所引起的误差可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表述这种关系,结果会产生误差(2)忽略了某些因素的影响影响变量y的因素不仅有变量x,可能还包括其他许多因素,例如,在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响(3)观测误差由于测量工具等原因,导致y的观测值产生误差3残差分析的结果(1)残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高(2)若是有个别样本点的残差比较大,需要确认在采集这些样本点的过程中是否有人为的错误如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需要寻找其他的原因4对r2的理解(1)预报变量的变化与解释变量和随机误差的关系预报变量的变化程度可以分解为解释变量引起的变化程度与残差变量的变化程度之和,其中这个变化与解释变量和随机误差(即残差平方和)有关的程度是由相关指数r2的值决定的在线性回归模型中,r2表示解释变量对预报变量变化的贡献率r2越接近于1,表示解释变量和预报变量的线性相关性越强;反之,r2越小,说明随机误差对预报变量的效应越大(2)r2与r的关系相关系数可较好地反映变量的相关性及正相关或负相关,而r2反映了回归模型拟合数据的效果;r2是相关系数的平方,其变化范围为0,1,而相关系数的变化范围为1,1;当相关系数|r|接近于1时说明两变量的相关性较强,当|r|接近于0时说明两变量的相关性较弱,而当r2接近于1时,说明线性回归方程的拟合效果较好1判一判(正确的打“”,错误的打“”)(1)残差平方和越小,线性回归方程的拟合效果越好()(2)在画两个变量的散点图时,预报变量在x轴上,解释变量在y轴上()(3)r2越接近于1,线性回归方程的拟合效果越好()答案(1)(2)(3)2做一做(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为_(2)在残差分析中,残差图的纵坐标为_(3)如果发现散点图中所有的样本点都在一条直线上,则残差平方和等于_,解释变量和预报变量之间的相关系数等于_答案(1)正相关(2)残差(3)01或1解析(1)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关(2)由残差图的定义知道,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图(3)设样本点为(xi,yi),i1,2,3,n,回归直线为 x ;若散点图中所有的样本点都在一条直线上,则此直线方程就是回归直线方程所以有yi i;残差平方和 (yi i)20;解释变量和预报变量之间的相关系数r满足r211,所以r1.探究求线性回归方程例1某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据x681012y2356(1)请画出上表数据的散点图;(要求:点要描粗)(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 x ;(3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力(相关公式: , )解(1)如图:(2)xiyi6283105126158,9,4,x6282102122344, 0.7, 40.792.3,故线性回归方程为0.7x2.3.(3)由(2)中线性回归方程当x9时, 0.792.34,预测记忆力为9的同学的判断力约为4.拓展提升求线性回归方程的步骤(1)列出散点图从直观上分析数据间是否存在线性相关关系(2)计算,x,y,xiyi.(3)代入公式求出 x 中参数 , 的值(4)写出回归方程并对实际问题作出估计某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程, x ,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?注: , .解(1)散点图如图(2)由表中数据得iyi52.5,3.5,3.5,54,所以 0.7.所以 1.05.所以 0.7x1.05.回归直线如图中所示(3)将x10代入回归直线方程,得 0.7101.058.05(小时),所以预测加工10个零件大约需要8.05小时探究线性回归分析例2已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x1416182022y1210753求y对x的回归直线方程,并说明回归模型拟合效果的好坏解(1416182022)18,(1210753)7.4,x1421621822022221660,xiyi14121610187205223620,所以, 1.15, 7.41.151828.1,所以所求回归直线方程是 1.15x28.1.列出残差表:yii00.30.40.10.2yi4.62.60.42.44.4所以, (yi i)20.3, (yi)253.2,r210.994,所以回归模型的拟合效果很好拓展提升这类题目的数据运算繁琐,通常采用分步计算的方法,由r2可以看出回归模型的拟合效果,也可以计算相关系数r,看两个变量的相关关系是否很强为研究重量x(单位:克)对弹簧长度y(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图并求线性回归方程;(2)求出r2;(3)进行残差分析解(1)散点图如图(51015202530)17.5,(7.258.128.959.9010.911.8)9.487,2275,iyi1076.2计算得, 0.183, 6.285,所求线性回归方程为 0.183x6.285.(2)列表如下:yii0.050.0050.080.0450.040.025yi2.241.370.540.411.412.31所以(yi i)20.01318,(yi)214.6784.所以,r210.9991,回归模型的拟合效果较好(3)由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型;由表中数据可以看出残差点比较均匀地落在不超过0.15的狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与重量成线性关系探究非线性回归分析例3为了研究某种细菌随时间x变化繁殖的个数,收集数据如下:天数x/天123456繁殖个数y/个612254995190(1)将天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图;(2)描述解释变量与预报变量之间的关系;(3)计算残差、相关指数r2.解(1)由表中数据作散点图如图所示(2)由散点图看出样本点分布在一条指数函数yc1ec2x的图象的周围,其中c1和c2是待定系数于是令zln y,则zbxa(aln c1,bc2),因此变换后的样本点应该分布在直线zbxa的周围,因此可以用线性回归模型来拟合z与x的关系,则变换后的样本数据如下表:x123456z1.792.483.223.894.555.25由表中数据得到线性回归方程 0.69x1.115.因此细菌繁殖个数关于时间的回归方程为 e0.69x1.115.(3)列出残差表:编号i123456i6.0812.1224.1748.1896.06191.52yi612254995190i0.080.120.830.821.061.52 (yi i)24.8161, (yii)224630.1,r210.9998.故解释变量天数对预报变量繁殖个数解释了99.98%,说明该回归模型拟合效果非常好拓展提升非线性回归方程的求法(1)根据原始数据(x,y)作出散点图;(2)根据散点图,选择恰当的拟合函数;(3)作恰当的变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应的变换,即可得非线性回归方程某电容器充电后,电压达到100 v,然后开始放电,由经验知道,此后电压u随时间t变化的规律用公式uaebt(b0)表示,现测得时间t(s)时的电压u(v)如下表:t/s012345678910u/v100755540302015101055试求:电压u对时间t的回归方程(提示:对公式两边取自然对数,把问题转化为线性回归分析问题)解对uaebt两边取对数得ln uln abt,令yln u,aln a,xt,则yabx,y与x的数据如下表:x012345678910y4.64.34.03.73.43.02.72.32.31.61.6根据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得5,3.045,由公式计算得0.313, 4.61,所以y对x的线性回归方程为0.313x4.61.所以ln 0.313t4.61,即e0.313t4.61,因此电压u对时间t的回归方程为e0.313t4.61.1关于回归分析,下列说法错误的是()a回归分析是研究两个具有相关关系的变量的方法b散点图中,解释变量在x轴,预报变量在y轴c回归模型中一定存在随机误差d散点图能明确反映变量间的关系答案d解析用散点图反映两个变量间的关系时,存在误差2甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数r2分别如下表:甲乙丙丁r20.980.780.500.85哪位同学建立的回归模型拟合效果最好?()a甲b乙 c丙d丁答案a解析相关指数r2越大,表示回归模型的拟合效果越好3设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归方程为0.85x85.71,则下列结论中不正确的是()ay与x具有正的线性相关关系b回归直线过样本点的中心(,)c若该大学某女生身高增加1 cm,则其体重约增加0.85 kgd若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案d解析a,b,c均正确,是回归方程的性质,d项是错误的,线性回归方程只能预测学生的体重选项d应改为“若该大学生某女生身高为170 cm,则估计其体重大约为58.79 kg”4某单位为了了解用电量y度与气温x 之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温()1813101用电量(度)24343864由表中数据得线性回归方程bxa中b2,预测当气温为4 时,用电量的度数约为_答案68解析10,40,回归方程过点(,),40210a.a60.2x60.令x4,(2)(4)6068.5假定小麦基本苗数x与成熟期有效穗y之间存在相关关系,今测得5组数据如下:x15.025.830.036.644.4y39.442.942.943.149.2(1)以x为解释变量,y为预报变量,作出散点图;(2)求y与x之间的回归方程,对于基本苗数56.7预报有效穗;(3)计算各组残差,并计算残差平方和;(4)求相关指数r2,并说明残差变量对有效穗的影响占百分之几?解(1)散点图如下:(2)由图看出,样本点呈条状分布,有比较好的线性相关关系,因此可以用回归方程刻画它们之间的关系设回归方程为x,30.36,43.5,5101.56,9511.43.1320.66,21892.25,2921.7296,iyi6746.76.由0.29, 43.50.2930.3634.70.故所求的线性回归方程为34.700.29x.当x56.7时,34.700.2956.751.143.估计成熟期有效穗为51.143.(3)由于ybxae,可以算得iyii分别为10.35,20.718,30.5,42.214,51.624,残差平方和:8.43.(4)(yi)250.18,所以r210.832.所以解释变量小麦基本苗数对有效穗约贡献了83.2%.残差变量贡献了约183.2%16.8%.- 15 -3.1 回归分析的基本思想及其初步应用a级:基础巩固练一、选择题1由一组样本数据(x1,y1),(x2,y2),(xn,yn)得到的回归直线方程为 x ,那么下面说法不正确的是()a直线 x 必经过点(,)b直线 x 至少经过点(x1,y1),(x2,y2),(xn,yn)中的一个点c直线 x 的斜率为d直线 x 和各点(x1,y1),(x2,y2),(xn,yn)的残差平方和yi( xi )2是该坐标平面上所有直线与这些点残差平方和中最小的直线答案b解析回归直线体现了大多数数据点的排列趋势,并不一定经过其中的点2如图所示是四个残差图,其中回归模型的拟合效果最好的是()答案b解析选项a与b中的残差图都是水平带状分布,并且选项b的残差图散点分布集中,在更狭窄的范围内,所以b中回归模型的拟合效果最好,选b.3变量x与y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量u与v相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量y与x之间的线性相关系数,r2表示变量v与u之间的线性相关系数,则()ar2r10b0r2r1cr200;对于变量u与v而言,v随u的增大而减小,故变量v与u负相关,即r20.故r20b, a b. b, ac. a d. b, ,a,故选c.二、填空题6调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:0.254x0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加_万元答案0.254解析年饮食支出平均增加0.25410.254(万元)7某商场为了了解某品牌羽绒服的月销售量y(件)与月平均气温x()之间的关系,随机统计了某4个月的销售量与当月平均气温,数据如下表:月平均气温x()171382月销售量y(件)24334055由表中数据算出线性回归方程 x 中的 2.气象部门预测下个月的平均气温约为6 ,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为_答案46解析由表格得(,)为(10,38),又(,)在回归直线 x上,且 2,38210 ,58,所以2x58,当x6时,265846.8在研究气温和热茶销售杯数的关系时,若求得相关指数r20.85,则表明气温解释了_的热茶销售杯数变化,而随机误差贡献了剩余的_,所以气温对热茶销售杯数的效应比随机误差的效应大得多答案85%15%解析由相关指数r2的意义可知,r20.85表明气温解释了85%,而随机误差贡献了剩余的15%.三、解答题9在一次抽样检查中,抽得5个样本点,数据如下表:x0.250.5124y1612521试建立y关于x的回归方程解作出散点图,如图所示,由散点图可以看出,图象近似反比例函数在第一象限的部分,因此,令u,由已知数据,可得变换后的样本数据:u4210.50.25y1612521作出散点图,如图所示,可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程拟合计算得1.55,7.2,uiyi94.25,u21.3125,则4.13, 0.8.从而得到y关于u的回归方程为4.13u0.8,则y关于x的回归方程为0.8.b级:能力提升练10二手车经销商小王对其所经营的a型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x234567售价y201286.44.43zln y3.002.482.081.861.481.10z关于x的折线图,如图所示:(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程,并预测某辆a型号二手车当使用年数为9年时售价约为多少( , 小数点后保留两位有效数字)参考公式: , ,r .参考数据:iyi187.4,izi47.64,139,4.18, 13.96,1.53,ln 1.460.38.解(1)由题意,知(234567)4.5,(32.482.081.861.481.10)2,又izi47.64, 4.18,1.53,r0.99,z与x的相关系数大约为0.99,说明z与x的线性相关程度很高(2) 0.36, 20.364.53.62,z与x的线性回归方程是0.36x3.62,又zln y,y关于x的回归方程是e0.36x3.62.令x9,得e0.3693.62e0.38,ln 1.460.38,1.46,即预测某辆a型号二手车当使用年数为9年时售价约为1.46万元- 7 -3.2 独立性检验的基本思想及其初步应用知识点分类变量及22列联表1分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量2列联表(1)定义:列出的两个分类变量的频数表,称为列联表(2)22列联表一般地,假设有两个分类变量x和y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(也称为22列联表)为下表y1y2总计x1ababx2cdcd总计acbdabcd知识点等高条形图(1)等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征(2)观察等高条形图发现和相差很大,就判断两个分类变量之间有关系知识点独立性检验1列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系2对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法先假设“两个分类变量没有关系”成立,计算随机变量k2的值,如果k2的值很大,说明假设不合理k2越大,两个分类变量有关系的可能性越大1判一判(正确的打“”,错误的打“”)(1)分类变量中的变量与函数中的变量是同一概念()(2)列联表频率分析法、等高条形图可初步分析两分类变量是否有关系,而独立性检验中k2取值则可通过统计表从数据上说明两分类变量的相关性的大小()(3)独立性检验的方法就是反证法()答案(1)(2)(3)2做一做(1)为了调查高中生的性别与是否喜欢踢足球之间有无关系,一般需要收集以下数据_(2)若观测值k7.8,得到的正确结论是在犯错误的概率不超过_的前提下认为“爱好该项运动与性别有关”(3)独立性检验中,假设h0:变量x与变量y没有关系则在h0成立的情况下,估计概率p(k26.635)0.01表示的意义是变量x与变量y_(填“有关系”或“无关系”)的概率是99%.答案(1)男女生中喜欢和不喜欢踢足球的人数(2)1%(3)有关系解析(1)为了调查高中生的性别与是否喜欢踢足球之间有无关系,一般需要收集男女生中喜欢和不喜欢踢足球的人数,再得出22列联表,最后代入随机变量的观测值公式,得出结果(2)因为7.86.635,所以这个结论有0.011%的机会说错,在犯错误的概率不超过1%的前提下认为“爱好该项运动与性别有关”(3)因为概率p(k26.635)0.01,所以两个变量有关系的可信度是10.0199%,即两个变量有关系的概率是99%.探究独立性检验的基本思想例1在吸烟与患肺病这两个分类变量中,下列说法正确的是()a若k2的观测值k6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个人患有肺病b从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病c若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误d以上三种说法都不正确解析独立性检验的结果是一种相关关系,不是确定性关系,反映的是有关或无关的概率的大小,故a错误,b错误,c正确答案选c.答案c拓展提升本例考查独立性检验的基本思想,相关性检验的结果是一种相关关系,而不是确定性关系,是反映有关和无关的概率本题考查学生对基本知识的理解给出下列实际问题,其中不可以用独立性检验解决的是 ()a喜欢参加体育锻炼与性别是否有关b喝酒者得胃病的概率c喜欢喝酒与性别是否有关d青少年犯罪与上网成瘾是否有关答案b解析独立性检验主要是对两个分类变量是否有关进行检验,故不可用独立性检验解决的问题是b.故选b.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好4020 60不爱好2030 50总计6050110由k2算得,k27.8.附表:p(k2k0)0.0500.010 0.001k03.8416.63510.828参照附表,得到的正确结论是()a在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”b在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”c有99%以上的把握认为“爱好该项运动与性别有关”d有99%以上的把握认为“爱好该项运动与性别无关”答案c解析根据独立性检验的定义,由k27.86.635可知在犯错误的概率不超过0.01的前提下,认为“爱好该项运动与性别有关”,即有99%以上的把握认为“爱好该项运动与性别有关”故选c.探究用等高条形图判断两个变量是否相关例2为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:药物效果试验列联表患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系解根据列联表所给的数据可得出服用药患病的频率为0.18,未服用药患病的频率为0.4,两者的差距是|0.180.4|0.22,两者相差很大,作出等高条形图如图所示,因此服用药与患病之间有关系的程度很大拓展提升应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件xx1的个体中具有yy1的个体所占的比例,也可以估计满足条件xx2的个体中具有yy1的个体所占的比例.“两个比例的值相差越大,h1成立的可能性就越大”某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系解作列联表如下:性格内向性格外向总计考前心情紧张332213545考前心情不紧张94381475总计4265941020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关探究由k2进行独立性检验例3某校对学生课外活动进行调查,结果整理成下表:体育文娱合计男生212344女生62935合计275279试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解其等高条形图如图所示由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略判断,具体判断方法如下:假设“喜欢体育还是喜欢文娱与性别没有关系”,a21,b23,c6,d29,n79.k28.106.且p(k27.879)0.005,即我们得到的k2的观测值k8.106,超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”拓展提升独立性检验的具体做法(1)根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界,然后查表确定临界值k0.(2)利用公式k2计算随机变量k2的观测值k.(3)如果kk0,推断“x与y有关系”这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“x与y有关系”,或者在样本数据中没有发现足够的证据支持结论“x与y有关系”某地区甲校高二年级有1100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%)甲校高二年级数学成绩:分组50,60)60,70)70,80)80,90)90,100频数10253530x乙校高二年级数学成绩:分组50,60)60,70)70,80)80,90)90,100频数153025y5(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分);(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据填写下面22列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?”甲校乙校总计优秀非优秀总计解(1)依题意知甲校应抽取110人,乙校应抽取90人,x10,y15,估计两个学校的平均分,甲校的平均分为75.乙校的平均分为71.(2)数学成绩不低于80分为优秀,低于80分为非优秀,得到列联表甲校乙校总计优秀402060非优秀7070140总计11090200k4.174,又因为4.1743.841,故能在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异”1.独立性检验是数理统计的一种方法,是数学中的一种基本理论,是数学体系中对数据关系进行探索的一种基本思想判断两个分类变量是否相关可以通过等高条形图进行粗略判断,也可以通过独立性检验来考察两个分类变量是否有关系,利用公式k2计算出随机变量k2的观测值k,通过查表确定临界值k0.若kk0说明x与y有关系,否则是没有关系.2.解决一般的独立性检验问题的步骤(1)通过列联表确定a,b,c,d,n的值,根据实际问题需要的可信程度确定临界值k0;(2)利用k2求出k2的观测值k;(3)如果kk0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过,否则就认为在犯错误的概率不超过的前提下不能推断“两个分类变量有关系”.其中第(2)步易算错k2的值,是本节课的易错点.1在独立性检验中,假设h0:变量x与变量y没有关系,则在h0成立的情况下,p(k26.635)0.01表示 ()a变量x与变量y有关系的概率是1%b变量x与变量y有关系的概率是99%c变量x与变量y没有关系的概率是0.1%d变量x与变量y没有关系的概率是99.9%答案b解析因为p(k26.635)0.01,所以两个变量有关系的可信度是99%,即两个变量有关系的概率是99%.故选b.2某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:文化程度与月收入列联表(单位:人)由上表中数据计算得k2的观测值k6.109,请估计有多大把握认为“文化程度与月收入有关系”()a1%b99%c2.5%d97.5%答案d解析由于6.1095.024,故在犯错误的概率不超过0.025的前提下,即有97.5%的把握认为“文化程度与月收入有关系”3如图是某地区男女中学生是否喜欢理科的等高条形图,从图中可以看出 ()a是否喜欢理科与性别无关b女生中喜欢理科的百分比约为80%c男生比女生喜欢理科的可能性大d男生中不喜欢理科的百分比约为60%答案c解析由等高条形图,可知女生中喜欢理科的百分比约为10.80.220%,男生中喜欢理科的百分比约为10.40.660%,因此男生比女生喜欢理科的可能性大故选c.4为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的22列联表:喜爱打篮球不喜爱打篮球总计男生20525女生101525总计302050则在犯错误的概率不超过_的前提下认为喜爱打篮球与性别有关(请用百分数表示)答案0.5%解析k28.3337.879,所以在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关5吃零食是在中学生中普遍存在的现象,吃零食对中学生的身体发育有诸多不利影响,并影响他们的健康成长下表是性别与喜欢吃零食的列联表:男女合计喜欢吃零食51217不喜欢吃零食402868合计454085试用等高条形图分析性别与吃零食是否有关系解根据列联表所给的数据,可得出男生中喜欢吃零食的频率为0.11,女生中喜欢吃零食的频率为0.3,两者差距是|0.30.11|0.19.两者相差较大,作出等高条形图如图所示,比较图中两个深色的条形可以发现,女生中喜欢吃零食的频率明显高于男生中喜欢吃零食的频率,因此可以认为性别与喜欢吃零食有关系- 12 -3.2 独立性检验的基本思想及其初步应用a级:基础巩固练一、选择题1对于分类变量x与y的随机变量k2的观测值k,下列说法正确的是()ak越大,“x与y有关系”的可信程度越小bk越小,“x与y有关系”的可信程度越小ck越接近于0,“x与y没有关系”的可信程度越小dk越大,“x与y没有关系”的可信程度越大答案b解析k越大,“x与y没有关系”的可信程度越小,则“x与y有关系”的可信程度越大即k越小,“x与y有关系”的可信程度越小故选b.2利用独立性检验对两个分类变量是否有关系进行研究时,若有99.5%的把握认为事件a和b有关系,则具体计算出的数据应该是()ak6.635bk6.635ck7.879dk3.841,所以可以判定选修统计专业与性别有关那么这种判断出错的可能性为()a5%b95% c1%d99%答案a解析若k23.841,说明有95%的把握认为选修统计专业与性别有关,即有5%的把握认为选修统计专业与性别无关,也就是“选修统计课程与性别有关”出错的可能性为5%.4在等高条形图中,下列哪两个比值相差越大,要推断的论述成立的可能性就越大?()a.与 b.与c.与 d.与答案c解析由等高条形图可知与的值相差越大,|adbc|就越大,相关性就越强5某班主任对全班50名学生进行了作业量多少的调查,数据如下表:则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约为()a99%b95%c90%d无充分依据答案b解析由表中数据得k25.0593.841,所以约有95%的把握认为两变量之间有关系二、填空题6某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:文艺节目新闻节目总计20至40岁401858大于40岁152742总计5545100由表中数据直观分析,收看新闻节目的观众是否与年龄有关?_(填“是”或“否”)答案是解析因为在20岁至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的7在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是_若k2的观测值k6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误答案解析k2的观测值是支持确定有多大的把握认为“两个分类变量吃零食与性别有关系”的随机变量值,所以由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误,故填.8某市政府调查市民收入增减与旅游愿望的关系时,采用独立性检验法抽查了3000人,计算发现k26.023,则根据这一数据查阅下表,市政府断言市民收入增减与旅游愿望有关系的可信程度是_p(k2k0)0.0250.0100.005k05.0246.6357.879答案97.5%解析k26.0235.024,可断言市民收入增减与旅游愿望有关系的可信程度为97.5%.三、解答题9某学生对其30位亲属的饮食习惯进行了一次调查,并用如图所示的茎叶图表示他们的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据茎叶图,帮助这位同学说明其30位亲属的饮食习惯;(2)根据以上数据完成如下22列联表;主食蔬菜主食肉类总计50岁以下50岁以上总计(3)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析解(1)由茎叶图,可知30位亲属中50岁以上的人饮食多以蔬菜为主,50岁以下的人饮食多以肉类为主(2)22列联表如下所示:主食蔬菜主食肉类总计50岁以下481250岁以上16218总计201030(3)由题意,知随机变量k2的观测值k107.879,故有99.5%的把握认为其亲属的饮食习惯与年龄有关b级:能力提升练10甲、乙两台机床生产同一型号零件记生产的零件的尺寸为t(cm),相关行业质检部门规定:若t(2.9,3,1,则该零件为优等品;若t(2.8,2.9(3.1,3.2,则该零件为中等品;其余零件为次品现分别从甲、乙机床生产的零件中各随机抽取50件,经质量检测得到下表数据:(1)设生产每件产品的利润为:优等品3元,中等品1元,次品亏本1元若将频率视为概率,试根据样本估计总体的思想,估算甲机床生产一件零件的利润的数学期望;(2)对于这两台机床生产的零件,在排除其他因素影响的情况下,试根据样本估计总体的思想,估计约有多大的把握认为“零件优等与否和所用机床有关”,并说明理由参考公式:k2参考数据:p(k2k0)0.250.150.100.050.0250.010k01.3232.0722.7063.8415.0246.635解(1)设甲机床生产一件零件获得的利润为x元,它的分布列为x311p0.80.140.06则有e(x)30.810.14(1)0.062.48.所以甲机床生产一件零件的利润的数学期望为2.48元(2)由表中数据可知,甲机床优等品40件,非优等品10件;乙机床优等品30件,非优等品20件制作22列联表如下:甲机床乙机床合计优等品4030 70非优等品1020 30合计5050100计算k24.762.考察参考数据并注意到3.8414.7625.024,可知:对于这两台机床生产的零件,在排除其他因素影响的情况下,根据样本估计总体的思想,约有95%的把握认为“零件优等与否和所用机床有关”- 6 -第三章单元质量测评本试卷分第卷(选择题)和第卷(非选择题)两部分满分150分,考试时间120分钟第卷(选择题,共60分)一、选择题(本大题共12小题,每小题5分,共60分)1下列属于相关关系的是()a利息与利率b居民收入与储蓄存款c电视机产量与苹果产量d某种商品的销售额与销售价格答案b解析a与d是函数关系,c中两变量没有关系,b中居民收入与储蓄存款是相关的,但不具有函数关系2已知一个线性回归方程为1.5x45,其中x的取值依次为1,7,5,13,19,则()a58.5b46.5 c60d75答案a解析9,因为回归直线必过样本点的中心(,),所以1.594513.54558.5.故选a.3利用独立性检验来考察两个分类变量x和y是否有关系时,通过查阅下表来确定“x与y有关系”的可信程度如果k5.024,那么就有把握认为“x与y有关系”的百分比为()p(k2k0)0.500.400.250.150.10k00.4550.7081.3232.0722.706p(k2k0)0.050.0250.0100.0050.001k03.8415.0246.6357.87910.828a25%b75% c2.5%d97.5%答案d解析k5.024对应的0.025是“x和y有关系”不合理的程度,因此两个分类变量有关系的可信程度约为97.5%.4工人月工资(元)依劳动生产率(千元)变化的回归方程为5080x,下列判断正确的是()劳动生产率为1000元时,则工资为130元;劳动生产率提高1000元时,则工资提高80元;劳动生产率提高1000元时,则工资提高130元;当月工资210元,劳动生产率为200元ab cd答案b解析回归直线斜率为80,x每增加1千元,增加80,即劳动生产率提高1000元时,工资提高80元5如图,5个(x,y)数据,去掉d(3,10)后,下列说法错误的是()a相关系数r变大b残差平方和变大cr2变大d解释变量x与预报变量y的相关性变强答案b解析由散点图知,去掉d后,x,y的相关性变强,且为正相关,所以r变大,r2变大,残差平方和变小6如图所示的是一组观测值的四个线性回归模型对应的残差图,则对应的线性回归模型的拟合效果最好的残差图是()答案a解析因为残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适故选a.7已知方程0.85x85.7是根据女大学生的身高预报体重的回归方程,其中x,的单位分别是cm,kg,则该方程在样本(165,57)处的残差是()a54.55b2.45 c3.45d111.55答案b解析当x165时,0.8516585.754.55,所以残差为5754.552.45.8为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:作文成绩优秀作文成绩一般总计课外阅读量较大221032课外阅读量一般82028总计303060由以上数据,计算得到k2的观测值k9.643,根据临界值表,以下说法正确的是()a没有充足的理由认为课外阅读量大与作文成绩优秀有关b有0.5%的把握认为课外阅读量大与作文成绩优秀有关c有99.9%的把握认为课外阅读量大与作文成绩优秀有关d有99.5%的把握认为课外阅读量大与作文成绩优秀有关答案d解析根据临界值表,9.6437.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关9根据一位母亲记录儿子39岁的身高数据,建立儿子身高(单位:cm)对年龄(单位:岁)的线性回归方程7.19x73.93,用此方程预测10岁时的身高,有关叙述正确的是()a身高一定为145.83 cmb身高大于145.83 cmc身高小于145.83 cmd身高在145.83 cm左右答案d解析用线性回归方程预测的不是精确值,而是估计值当x10时,145.83,只能说身高在145.83 cm左右10某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价/元456789销量/件908483807568由表中数据,求得线性回归方程为4x ,若在这些样本点中任取一点,则它在回归直线左下方的概率为()a. b. c. d.答案a解析由表中数据得6.5,80.由点(6.5,80)在直线4x上,求得106,即线性回归方程为4x106.经过计算可知只有点(5,84)和点(9,68)在回归直线的左下方,于是所求概率为.故选a.11两个分类变量x和y,值域分别为x1,x2和y1,y2,其样本频数分别是a10,b21,cd35.若x与y有关系的可信程度不小于97.5%,则c等于()a3b4 c5d6附:p(k2k0)0.050.025k03.8415.024答案a解析列22列联表如下:x1x2总计y1102131y2cd35总计10c21d66故k2的观测值k5.024.把选项a,b,c,d代入验证可知选a.12变量x与y具有线性相关关系,当x分别取16,14,12,8时,通过观测得到与之对应的y的值分别为11,9,8,5,若在实际问题中,y的最大值是10,则x的最大值不能超过()a16b17 c15d12答案c解析根据题意可知,y与x呈正相关关系,由最小二乘法或计算器求得回归系数0.857,0.729,所以回归直线方程为0.729x0.857,当10时,得x15.故应选c.第卷(非选择题,共90分)二、填空题(本大题共4小题,每小题5分,共20分)13某种产品的广告费支出x与销售额y(单位:万元)线性相关,两者之间有如下表所示的数据,根据数据得到其回归方程为6.5xb,现要使销售额达到100万元,则广告费支出约为_万元x24568y3040605070答案12.7解析5,50,又(,)满足6.5xb,5032.5b,b17.5,当y100时,x12.7万元14下面是一个22列联表:y1y2总计x121a73x2161733总计b69其中表示a,b处的值分别为_、_.答案5237解析a732152,b211637.15下列关于k2的说法中,正确的有_k2的值越大,两个分类变量的相关性越大;k2的计算公式是k2;若求出k243.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;独立性检验就是选取一个假设h0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝h0的推断答案解析对于,k2的值越大,只能说明我们有更大的把握认为二者有关系,却不能判断相关性大小,故错误;对于,(adbc)应为(adbc)2,故错误;正确16若两个分类变量x和y的列联表为:y1y2总计x151520x2401050总计452570则x与y之间有关系的概率约为_答案0.999解析由题中所给数据易得k218.8,查表知p(k210.828)0.001.三、解答题(本大题共6小题,共70分解答应写出文字说明、证明过程或演算步骤)17(本小题满分10分)以下是某地区不同身高的未成年男性的体重平均值表身高/cm60708090100110体重/kg6.137.99.9912.1515.0217.5身高/cm120130140150160170体重/kg20.9226.8631.1138.8547.2555.05(1)给出两个回归方程:y0.4294x25.318,y2.004e0.0197x.通过计算,得到它们的相关指数分别是:r0.9311,r0.998.试问哪个回归方程拟合效果最好?(2)若体重超过相同身高男性平均值的1.2倍为偏胖,低于0.8为偏瘦,那么该地区某中学一男生身高为175 cm,体重为78 kg,他的体重是否正常?解(1)rr,选择第二个方程拟合效果最好(2)把x175代入y2.004e0.0197x,得y62.97,由于1.241.2,所以这名男生偏胖18(本小题满分12分)某运动员训练次数与成绩之间的数据关系如下:次数(x)3033353739444650成绩(y)3034373942464851(1)作出散点图;(2)求出回归方程;(3)进行残差分析;(4)计算相关指数r2.解(1)作出该运动员训练次数(x)与成绩(y)之间的散点图,如图,由散点图可知,它们之间具有线性相关关系(2)39.25,40.875,12656,13731,iyi13180,1.0415, 0.003875.回归方程为1.0415x0.003875.(3)残差分析某运动员训
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
2:不支持迅雷下载,请使用浏览器下载
3:不支持QQ浏览器下载,请用其他浏览器
4:下载后的文档和图纸-无水印
5:文档经过压缩,下载后原文更清晰
|