人教课标版高中数学选修1-2:《回归分析基本思想及其初步应用(第2课时)》教案-新版.doc_第1页
人教课标版高中数学选修1-2:《回归分析基本思想及其初步应用(第2课时)》教案-新版.doc_第2页
人教课标版高中数学选修1-2:《回归分析基本思想及其初步应用(第2课时)》教案-新版.doc_第3页
人教课标版高中数学选修1-2:《回归分析基本思想及其初步应用(第2课时)》教案-新版.doc_第4页
人教课标版高中数学选修1-2:《回归分析基本思想及其初步应用(第2课时)》教案-新版.doc_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.1.1 回归分析基本思想及其初步应用第二课时一、教学目标1.核心素养:通过学习回归分析的基本思想及其初步应用,初步形成基本的数据分析能力.2.学习目标 (1)1.1.2.1 理解相关系数概念(2)1.1.2.2 判断刻画模型拟合效果的方法相关指数和残差分析 (3)1.1.2.3 能用回归分析的方法对简单的案例进行分析.3.学习重点判断刻画模型拟合效果的方法相关系数、相关指数和残差分析4.学习难点判断刻画模型拟合效果的方法相关系数、相关指数和残差分析二、教学设计(一)课前设计1.预习任务任务1阅读教材P4P6,思考在回归分析中,分析残差能够帮助我们解决那些问题?任务2刻画模型拟合效果的方法有哪些?2 预习自测1.下列说法正确的是 ( )A.在统计学中,回归分析是检验两个分类变量是否有关系的一种统计方法B.线性回归方程对应的直线至少经过其样本数据点中的一个点C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,相关指数为的模型比相关指数为的模型拟合的效果差【知识点:回归分析】解:C A.回归分析反映两个变量相关关系的数学方法,由建立回归方程来预报变量的情况.错误;B.线性回归方程对应的直线,过其样本数据平均数点,错误;D.相关指数越大,则相关性越强,模型的拟合效果越好. 错误;C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确.2.两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下,其中拟合效果最好的模型是( )A.模型1的相关指数为0.99B.模型2的相关指数为0.88C.模型3的相关指数为0.50D.模型4的相关指数为0.20【知识点:回归分析】解:A由相关指数的意义知,越大说明相关性越强,故选A.(二)课堂设计1.知识回顾 对于一组具有线性相关关系的数据,则称点为样本点的中心. (2)线性回归方程:,其中., (3)线性回归模型:y=bx+a+e其中a和b为模型的未知参数,e称为随机误差.2.问题探究问题探究一 什么是相关系数?相关系数可以用来解释什么?活动一 理论研究,概念学习相关系数我们知道,两个变量x和y正(负)相关时,它们就有相同(反)的变化趋势,因此可以用回归直线来描述这种关系.与此相关的一个问题:如何描述x和y之间种线性关系的强弱?在统计中用相关系数r来衡量两个变量之间线性关系的强弱.若相应于变量x的取值,变量y的观测值为(),则两个变量的相关系数r的计算公式为 对于相关系数r,当为正时,表明变量x和y正相关,当r为负时,表明变量x和y负相关.统计学认为,对于变量x,y,如果,那么负相关很强;如果,那么正相关很强;如果或,那么相关性一般;若,那么相关性较弱.活动二 学以致用,相关系数的应用例1 对下列各图中两个变量间的线性相关程度作出分析 【知识点:相关系数】 详解:图1,r=0.97相关性很强,而且是正相关;图2,r=-0.85相关性很强,而且是负相关图3,r=0.24,不能用线性回归模型描述两个变量的关系;图4,r=-0.05乎没有什么关系,不能用线性回归模型描述两个变量的关系.点拨:当相关系数越接近1时,两个变量的线性相关程度越高,当相关系数越接近0时,两个变量的线性相关程度越低.问题探究二 什么是残差、及残差平方和、如何用残差判断拟合效果? 重点、难点知识活动一 残差的定义在线性回归模型中,e是用bx+a报真实值y的随机误差,它是一个不可观测的量,那么应该怎样研究随机误差呢?在实际应用中,我们用回归方程中的估计回归模型y=bx+a+e中的bx+a.由于随机误差e=y-(bx+a),所以是e的估计值.对于样本点 而言,它们的随机误差为 其估计值为 称是相对于点的残差.活动二 学以致用,残差的应用如何发现数据中的错误,如何衡量模型的拟合效果?通过残差可以发现原始数据中的可疑数据,判断所建立模型的拟合效果.下表是女大学生身高和体重的原始数据以及相应的残差数据.编号12345678身高/cm165165157170175165155170体重/kg4857505464614359yi54.37354.37347.58158.61862.86354.37345.88358.618ei-6.3732.6272.419-4.6181.1376.627-2.8830.382我们可以利用图形来分析残差.作图时纵坐标为残差,横坐标可以选为样本的编号或者解释变量的数值,这样作出的图形称为残差图.下表是以女大学生编号为横坐标的残差图从残差图中可以看到第1个样本点和第6个样本点的残差较大,需要确认是否出现人为的错误.残差所能说明的情况: 样本点的残差比较大,确认采集数据时是否出现人为的错误或其他原因; 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.活动三 多角度刻画拟合效果 从残差图中我们可以大致判断模型的拟合效果,能否定性分析模型的拟合效果呢? 我们可以用是刻画回归效果的量,除了表示回归模型的拟合效果,也表示解释变量和预报变量的线性相关关系(在线性回归模型中).其计算公式是 对于已获取的样本数据,表达式中的为确定的数.因此越大,说明残差平方和越小,模型的拟合效果越好;越小,说明残差平方和越大,模型的拟合效果越差.在线性回归模型中,越接近于1,回归的效果越好(因为越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中,同时也表示解释变量对预报变量变化的贡献率.,即解释变量对预报变量变化约贡献了64%,而随机误差贡献了剩余的36%.问题探究三活动一 学以致用 例2.某运动员训练次数与运动成绩之间的数据关系如下:次数/x3033353739444650成绩/y3034373942464851根据数据分别计算相关系数、残差、相关指数,判断能否用线性回归模型,若能求出回归方程并试预测该运动员训练47次以及55次的成绩,若不能说明理由.【知识点:线性回归,线性相关关系】详解:(1)作出该运动员训练次数x与成绩y之间的散点图,如图1所示,由散点图可知,它们之间具有线性相关关系.(2)列表计算:次数成绩30309009009003334108911561122353712251369129537391369152114433942152117641638444619362116202446482116230422085051250026012550由上表可求得, ,所以,所以回归直线方程为(3)计算相关系数将上述数据代入,查表可知,而,故y与x之间存在显著的相关关系.(4)残差分析:作残差图如图2,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.计算残差的方差得,说明预报的精度较高.(5)计算相关指数计算相关指数0.9855.说明该运动员的成绩的差异有98.55是由训练次数引起的.(6)做出预报由上述分析可知,我们可用回归方程作为该运动员成绩的预报值.将x47和x55分别代入该方程可得y49和y57,故预测运动员训练47次和55次的成绩分别为49和57.点拨:1.解答本类题目应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助回归方程对实际问题进行分析.2.在使用回归方程进行预报时要注意:(1)回归方程只适用于我们所研究的样本的总体;(2)我们所建立的回归方程一般都有时间性;(3)样本取值的范围会影响回归方程的适用范围;(4)不能期望回归方程得到的预报值就是预报变量的精确值.3.课堂总结【知识梳理】(1)在统计中用相关系数r来衡量两个变量之间线性关系的强弱.若相应于变量x的取值,变量y的观测值为(),则两个变量的相关系数r的计算公式为 (2)数据点和它在回归直线上相应位置的差异是随机误差的效应,称为残差.由得.【重难点突破】(1)残差图分析:若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度就越高.若残差点分布在其他形状的区域,则说明所选用的回归模型不是最好的,有改进的空间.(2)越大,说明残差平方和越小,模型的拟合效果越好;越小,说明残差平方和越大,模型的拟合效果越差在线性回归模型中,越接近于1,回归的效果越好(因为越接近于1,表示解释变量和预报变量的线性相关性越强).在线性回归模型中, 同时也表示解释变量对预报变量变化的贡献率.4.随堂检测1.下列各组变量之间具有线性相关关系的是( )A.出租车费与行驶的里程B.学习成绩与学生身高C.身高与体重D.铁的体积与质量【知识点:线性回归,线性相关关系】解:C2.已知x与y之间的几组数据如下表:x123456y021334假设根据上表数据所得线性回归直线方程x ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为ybxa,则以下结论正确的是( )A. b, aB. b, aC. b, aD. b, a【知识点:线性回归,线性相关关系】解:C b2,a2, , , b, a.选C.3.四名同学根据各自的样本数据研究变量之间的相关关系,并求得回归直线方程,分别得到以下四个结论:与负相关且;与负相关且;与正相关且;与正相关且.其中一定不正确的结论的序号是( )A.B.C.D.【知识点:线性回归,线性相关关系】解:D 中y与x负相关而斜率为正,不正确;中y与x正相关而斜率为负,不正确.4.如果散点图中的所有的点都在一条斜率不为0的直线上,则残差为_,相关指数_.【知识点:线性回归,线性相关关系】解:0, 1 由题意知, 相应的残差.相关指数(三)课后作业基础型 自主突破1.对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( ) 相关系数为 相关系数为 相关系数为 相关系数为A.B.C.D.【知识点:相关系数】解:A2. 甲、乙、丙、丁四位同学在建立变量的回归模型时,分别选择了4中不同的模型,计算可得它们的相关指数分别如下表,其中拟合效果最好的为( )甲乙丙丁0.980.780.300.85A.甲B.乙C.丙D.丁答案:A解析:【知识点:相关指数】3.已知变量x与y正相关,且由观测数据算得样本平均数3,3.5,则由该观测数据算得的线性回归方程可能是( )A.0.4x2.3B.2x2.4C.2x9.5D.0.3x4.4【知识点:回归方程,相关关系】解:A 因为变量x和y正相关,则回归直线的斜率为正,故可以排除选项C与D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A和B中的直线方程进行检验,可以排除B,只有A可能.4.已知一组观测值之间满足,若恒为0,则为 .【知识点:残差,相关指数】答案:1.5.下表中给出了5组数据,从中选出4组使其线性相关性最大,且保留第1组(-5,-3),那么应该去掉第_组12345-5-4-3-24-3-24-16【知识点:残差分析】解: 3能力型 师生共研6.设两个变量x和y之间具有线性相关关系,它们的相关系数是,关于的回归方程的回归系数是,回归截距是,那么必有( )A.与的符号相同B.与的符号相同C.与的相反D.与的符号相反【知识点:相关关系】解:.A 决定正相关还是负相关,与的符号相同.7.回归分析中,相关指数的值越大,说明残差平方和( )A.越小B.越大C.可能大也可能小D.以上都不对【知识点:相关指数】解: A 由和残差平方和公式易得.8. 若对于变量与的组统计数据的回归模型中,相关指数,又知残差平方和为,那么的值为( )A.241.06B.2410.6C.253.08D.2530.8【知识点:相关指数】解: B 由和残差平方和公式易得.9.已知,之间的一组数据如下表:1234523578对于表中数据,现给出如下拟合直线:;.根据最小二乘法的思想,其中拟合程度最好的直线是_.(填正确序号)【知识点:样本点中心,回归方程】解: 直线必过样本点中心(3,5),依次检验即可.探究型 多维突破(一般为2道题,具体课时可相应灵活调整)10.假定小麦基本苗数与成熟期有效穗之间存在相关关系,现测得5组数据如下表:15.025.830.036.644.439.442.942.943.149.2(1)以为解释变量,为预报变量,作出散点图;(2)球与间的回归方程,对于基本苗数56.7,预报其成熟期的有效穗;(3)求相关指数,并说明残差变量对成熟期有效穗的影响占百分之几.【知识点:散点图,回归方程,相关指数】解:(1)略(2)由散点图可知,样本点呈条状分布,有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.可求得线性回归方程为当=56.7时,即估计其成熟期有效穗为51.164.(3)残差平方和为:总偏差平方和:故解释变量小麦基本苗数对成熟期有效穗的影响约占83.2%,残差变量的影响约占1-83.2%=16.8%.11.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得数据如下:零件数(个)102030405060708090100加工时间(分)626875818995102108115122(1)计算残差及残差和;(2)进行残差分析.【知识点:残差,残差分析,残差图】 解:(1) 列出残差表(由已知可知)如下62687581899510210811512261.668.375.081.788.495.0101.7108.4115.1121.8-29.7-23.7-16.7-10.7-2.73.310.316.323.330.30.4-0.30-0.70.600.3-0.4-0.10.2所以残差平方和=,残差值如表中第四行的值.(2)残差分析:画出残差图,散点图(略),由散点图可以说明与有很强的相关性.可以观察到,第4个样本点和第5个样本点的残差比较大,需要纠正数据,重新利用线性回归模型拟合数据;残差图中的残差点比较均匀地落在水平的带状区域中,说明选用的线性回归模型较为合适,带状区域的宽度仅为1.3,比较狭窄,说明模型拟合精度较高.(四)自助餐1.从某大学随机抽取8名女大学生,其身高(cm)和体重(kg)的回归方程为,则身高172cm的女大学生,由回归方程可以得知其体重( )A.等于60.316kgB.约为60.316kgC.大于60.316kgD.小于60.316kg【知识点:回归分析】解:B2.在回归分析中,残差图的纵坐标为( )A.残差B.样本编号C.等高条形图D.独立性检验【知识点:残差图】解: A3.设是变量和的个样本点,直线是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是( )A.直线过点B.与的相关系数为直线的斜率C.与的相关系数在0到1之间D.当为偶数时,分布在两侧的样本点的个数一定相同【知识点:回归分析,相关系数】解:A4.对两个变量x和y进行回归分析,得到一组样本数据: ,则下列说法中不正确的是( )A.由样本数据得到的回归方程必过样本点的中心B.残差平方和越小的模型,拟合的效果越好C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数r=-0.936 2,则变量y和x之间具有线性相关关系【知识点:回归分析,相关系数】解: C 解析:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.5.如图所示的是四个残差图,其中回归模型的拟合效果最好的是( )【知识点:残差图】解:B 残差图中,只有A、B是水平带状区域分布,且B中残差点散点分布集中在更狭窄的范围内所以B项中回归模型的拟合效果最好.6.变量与具有线性相关关系,当取值16,14,12,8时,通过观测得到的值为别为11,9,8.5.若在实际问题中,的最大取值是10,则的最大取值不能超过( )A.16B.17C.15D.12【知识点:回归方程】解:C7.一家工厂对职工进行技能培训,收集数据如下:零件数(个)1020304050607080加工时间(分钟)1225354855616470两变量的回归直线方程为_,该函数模型的残差平方和为_,相关指数为_.【知识点:回归方程,残差,相关指数】解:. .8.若回归直线方程中的参数,则相关系数为 .【知识点:相关系数】解:0.9.关于与有如下数据245

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论