统计案例的教学---教研用(回归分析).doc_第1页
统计案例的教学---教研用(回归分析).doc_第2页
统计案例的教学---教研用(回归分析).doc_第3页
统计案例的教学---教研用(回归分析).doc_第4页
统计案例的教学---教研用(回归分析).doc_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计案例的教学西城教育研修学院 闻岩一、课标要求学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。内容与要求1统计案例(约14课时)通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。(1)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。(2)通过对典型案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用(参见例1)。-删掉了(3)通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。-删掉了(4)通过对典型案例(如“人的体重与身高的关系”等)的探究,进一步了解回归的基本思想、方法及初步应用。说明与建议1统计案例的教学中,应鼓励学生经历数据处理的过程,培养他们对数据的直观感觉,认识统计方法的特点(如统计推断可能犯错误,估计结果的随机性),体会统计方法应用的广泛性。应尽量给学生提供一定的实践活动机会,可结合数学建模的活动,选择1个案例,要求学生亲自实践。对于统计案例内容,只要求学生了解几种统计方法的基本思想及其初步应用,对于其理论基础不作要求,避免学生单纯记忆和机械套用公式进行计算。2教学中,应鼓励学生使用计算器、计算机等现代技术手段来处理数据,有条件的学校还可运用一些常见的统计软件解决实际问题。例1 某地区羊患某种病的概率是0.4,且每只羊患病与否是彼此独立的。今研制一种新的预防药,任选5只羊做实验,结果这5只羊服用此药后均未患病。问此药是否有效。初看起来,会认为这药一定有效,因为服药的羊均未患病。但细想一下,会有问题,因为大部分羊不服药也不会患病,患病的羊只占0.4左右。这5只羊都未患病,未必是药的作用。分析这问题的一个自然想法是:若药无效,随机抽取5只羊都不患病的可能性大不大。若这件事发生的概率很小,几乎不会发生,那么现在我们这几只羊都未患病,应该是药的效果,即药有效。现假设药无效,5只羊都不生病的概率是(1-0.4)50.078.这个概率很小,该事件几乎不会发生,但现在它确实发生了,说明我们的假设不对,药是有效的。这里的分析思想有些像反证法,但并不相同。给定假设后,我们发现,一个概率很小几乎不会发生的事件却发生了,从而否定我们的“假设”。应该指出的是,当我们作出判断“药是有效的”时,是可能犯错误的。犯错误的概率是0.078。也就是说,我们有近92%的把握认为药是有效的。-没必要讲了这个例子了二、全国考纲的要求17统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题独立检验了解独立检验(只要求列联表)的基本思想、方法及简单应用回归分析了解回归分析的基本思想、方法及简单应用三、关于回归分析(一)数理统计中的处理研究自变量(预报变量)与因变量(响应变量)的相关关系,而非传统的相关关系.对教材中问题的处理用最小二乘估计模型(用到一些数理统计方面的假设和证明)。求得的与教材一致。对回归方程作如下显著性检验: 拒绝表示回归方程是显著的.1、给出三种等价的检验方法:(1)检验。结论:统计量,对于给定的显著性水平,拒绝域为. 解释:在显著性水平下,回归方程是显著的.(2)检验。结论:,对于给定的显著性水平,拒绝域为. 解释:在显著性水平下,回归方程是显著的.(3)相关系数检验结论:,对于给定的显著性水平,拒绝域为. 有专门的制表,显著性水平给的和. 解释:在显著性水平下,回归方程是显著的.2、对于曲线回归方程给出了两个进行比较的指标(1)决定系数 . 越大,说明残差越小,回归曲线拟合越好,从总体上给出一个拟合好坏程度的度量.(2)剩余标准差. 越小,方程越好.在观测数据给定后,不同的曲线选择不会影响的取值,但会影响到残差平方和的取值. 因此,对选择的曲线而言,决定系数和剩余标准差都取决于残差平方和,从而,两种选择标准是一致的,只是从两个不同侧面做出评价.(二)B版教材的处理例1 研究某灌溉渠道水的流速与水深之间的关系,测得一组数据如下:水深1.401.501.601.701.801.902.002.10流速1.701.791.881.952.032.102.162.21(1)求对的回归直线方程;(2)预测水深为1.95时水的流速是多少?回顾:与之间有近似的相关关系,可以有一个回归直线方程来反映这种关系.进一步分析:8个点并不严格的在一条直线上,对于每一个,上式可以确定一个,由于测量流速可能存在误差,或受某些随机因素的影响,或回归直线方程本身就不够精确,与测得的数据很可能不相等,即()其中是随机误差项.于是,(),这就是本题的线性模型.由最小二乘法,使得的平方和达到最小,得到的数学公式,解:(1)计算得,对的回归直线方程,回归系数的解释:在此灌溉渠道中,水深每增加,水的流速平均增加0.0733(本例数据是以为水深间距测得的),可以解释为水的流速中不受水深影响的部分.(2)由上述(1)求出的回归直线方程,把代入,得到().计算结果表明,当水深为时可以预测池水的流速约为.例2 为了了解某地母亲身高与女儿身高的相关关系,随机测得10对母女的身高如下表所示:母亲身高159160160163159154159158159157女儿身高158159160161161155162157162156试对与进行一元线性回归分析,并预测当母亲身高为时女儿的身高是多少?(预测区间的长度与样本量,的偏差平方和,到的距离有关. 越远离,预测精度就越差. 当时,预测精度可能变得很差.)问题:不好说散点是否分布在某条直线的附近. 如果不考虑散点图,根据公式求出一个回归直线方程,能不能反映这组数据的变化规律?需要作线性相关性检验(相关性检验).对数据的检验样本量是样本相关系数.具有以下性质:,并且越接近于1,线性相关程度越强;越接近于0,线性相关程度越弱.检验的步骤如下:1、作统计假设:与不具有线性相关关系.2、根据小概率0.05与在附表中查出的一个临界值.3、根据样本相关系数的计算公式算出的值.4、作统计推断.如果,表明有95%把握认为与之间具有线性相关关系.如果,我们没有理由拒绝原来的假设.这时寻找回归直线方程是毫无意义的.解:由以上分析,先对与作相关性检验.1、作统计假设:与不具有线性相关关系.2、由小概率0.05与在附表中查得.3、由数据可知,.4、,即. 从而有95%的把握认为与之间具有线性相关关系.因而求回归方程是有意义的.对的回归方程是.回归系数反映出当母亲身高每增加时女儿身高平均增加,可以解释为女儿身高中不受母亲身高变化影响的部分.当时,.例4 某种书每册的成本费(元)与印刷册数(千册)有关,经统计得到数据如下:(千册)123510203050100200(元)10.155.524.082.852.111.621.411.301.211.15检验每册书的成本费与印刷册数的倒数之间是否具有线性相关关系,如有,求出对的回归方程.(题目的问题有一点让人费解)解:设,题目数据转化为10.50.330.20.10.050.030.020.010.00510.155.524.082.852.111.621.411.301.211.15作对的相关性检验.1、作统计假设:与不具有线性相关关系.2、由小概率0.05与在附表中查得.3、由数据可知,.4、,即. 从而有95%的把握认为与之间具有线性相关关系.因而求回归方程是有意义的.对的回归方程是. 回代,.(这时如何解释?)(三)A版教材对回归分析的处理1、回归分析的基本步骤:(1) 画出两个变量的散点图. (2) 求回归直线方程.(3) 用回归直线方程进行预报.下面我们通过案例,进一步学习回归分析的基本思想及其应用2、举例:例1. 从某大学中随机选取 8 名女大学生,其身高和体重数据如表所示: 编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为 172 cm 的女大学生的体重解:由于问题中要求根据身高预报体重,因此选取身高为自变量 ,体重为因变量.作散点图.从图上中可以看出,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程来近似刻画它们之间的关系从散点图来看,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数来描述他们之间的关系. 这时我们把身高和体重的关系用下面的线性回归模型来表示:(1),其中和为模型的未知参数,称为随机误差.产生随机误差的原因是什么?(产生随机误差项的原因是什么?)一个人的体重值除了受身高的影响外,还受许多其他因素的影响例如饮食习惯、是否喜欢运动、度量误差等事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系这种近似以及上面提到的影响因素都是产生随机误差的原因(那为什么还要研究?)线性回归模型(1)与我们熟悉的一次函数模型的不同之处是增加了随机误差项,因变量的值由自变量和随机误差共同确定,即自变量只能部分解释的变化. 在统计中,我们把自变量称为解释变量,因变量称为预报变量.如何估计(1)中的未知参数和?由必修三,最小二乘估计就是未知参数和的最好估计.,其中,.称为样本点的中心. 在本例中,根据回归系数的公式 ,可以得到. 于是得到回归方程.因此,对于身高172 cm 的女大学生,由回归方程可以预报其体重为 ( kg ) . 显然,身高172cm 的女大学生的体重不一定是60. 316 kg,但一般可以认为她的体重接近于60 . 316 kg . 下图中的样本点和回归直线的相互位置说明了这一点是斜率的估计值,说明身高每增加1个单位时,体重就增加0.849 个单位,这表明体重与身高具有正的线性相关关系那么,如何描述它们之间线性相关关系的强弱呢?A版在必修 3 中,介绍了用相关系数;用相关系数来衡量两个变量之间线性相关关系样本相关系数的具体计算公式为.当时,表明两个变量正相关;当时,表明两个变量负相关的绝对值越接近,表明两个变量的线性相关性越强;的绝对值接近于时,表明两个变量之间几乎不存在线性相关关系通常,当r的绝对值大于0. 75 时认为两个变量有很强的线性相关关系在本例中,可以计算出这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的进一步分析:假设身高和随机误差的不同不会对体重产生任何影响,那么所有人的体重将相同.在体重不受任何变量影响的假设下,设8名大学生的体重都是她们体重的平均值,即8个人的体重均为54.5kg,如表:编号12345678身高/cm165165157170175165155170体重/kg54.554.554.554.554.554.554.554.5根据此表作出散点图,所有点应该落在同一条水平直线上,但是观测到的数据并非如此,它们散布的情况如图所示,这意味着预报变量(体重)的值受解释变量(身高)和随机误差的影响.如何刻画预报变量(体重)的变化?这个变化在多大程度上与解释变量(身高)有关?在多大程度上与随机误差有关? 以编号为6的学生为例,其体重为61kg. 解释变量(身高)和随机误差共同将这名学生的体重从54.5kg“推”到了61kg,相差6.5kg. 所以6.5kg是解释变量(身高)和随机误差的组合效应.如何把这些效应合并在一个数中呢?在数学上,把每个效应(观测值减去总的平均值)的平方加起来,即用表示总的效应,称为总偏差平方和.例题中的总偏差平方和为354.那么,在总效应(总偏差平方和)中,有多少来自解释变量(身高)?有多少来自随机误差?如果随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图中所有点将完全落在回归直线上,但是,散点图的数据点没有这样. 这些点散布在回归直线附近,所以一定是随机误差把这些点从回归直线上“推”开了.因此,数据点和它在回归直线上相应位置的差异是随机误差的效应,称为残差.编号为6的学生随机误差的效应为.将称为残差平方和. 例题中的残差平方和约为128.361.由于解释变量(身高)和随机误差的总效应(总偏差平方和)为354,而随机误差的效应为128.361,所以解释变量的效应为.这个值称为回归平方和.可以用相关指数来刻画回归的效果,其计算公式为.显然,取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好在线性回归模型中,表示解释变量对于预报变量变化的贡献率 越接近于1,表示回归的效果越好(因为越接近于1,表示解释变量和预报变量的线性相关性越强)如果对某组数据可能采取几种不同的回归方程进行回归分析,也可以通过比较几个,选择大的模型作为这组数据的模型在例 1 中,解释变量对总效应约贡献了64%,即,可以叙述为“女大学生的身高解释了64的体重变化”(或者说“女大学生的体重差异有 64 是由身高引起的”),而随机误差贡献了剩余的36%,所以,身高对体重的效应比随机误差的效应大得多.在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据然后,可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据这方面的分析工作称为残差分析下表列出了女大学生身高和体重的原始数据以及相应的残差数据编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差-6.3732.6272.419-4.6181.1376.627-2.8830.382我们可以利用图形来分析残差特性. 作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,这样作出的图形称为残差图右图是以样本编号为横坐标的残差图. 用身高预报体重时,需要注意下列问题: 1回归方程只适用于我们所研究的样本的总体例如,不能用女大学生的身高和体重之间的回归方程,描述女运动员的身高和体重之间的关系同样,不能用生长在南方多雨地区的树木的高与直径之间的回归方程,描述北方干旱地区的树木的高与直径之间的关系 2我们所建立的回归方程一般都有时间性例如,不能用 20 世纪 80 年代的身高体重数据所建立的回归方程,描述现在的身高和体重之间的关系 3样本取值的范围会影响回归方程的适用范围例如,我们的回归方程是由女大学生身高和体重数据建立的,那么用它来描述一个人幼儿时期的身高和体重之间的关系就不恰当(即在回归方程中,解释变量的样本的取值范围为155cm,170cm,而用这个方程计算 时的值,显然不合适) 4不能期望回归方程得到的预报值就是预报变量的精确值事实上,它是预报变量的可能取值的平均值一般地,建立回归模型的基本步骤为: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程);(4)按一定规则估计回归方程中的参数(如最小二乘法); (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等例2.现收集了一只红铃虫的产卵数和温度之间的7组观测数据列于下表:温度21232527293235产卵数个711212466115325(1)试建立与之间的回归方程;并预测温度为时产卵数目.(2)你所建立的模型中温度在多大程度上解释了产卵数的变化?分析:发现样本点分布在某个指数函数曲线的周围,转化:令(即),变换后,样本点应分布在直线(其中)的周围.于是,可以利用线性回归模型来建立和之间的非线性回归方程了.212325272932351.9463.3983.0453.1784.1904.7455.784由上表的数据得到线性回归方程.因此红铃虫的产卵数对温度的非线性回归方程为(1). 另一方面,可以认为样本点在某二次曲线的附近,其中为待定参数.作变换,令,则,然后建立与之间的线性回归方程.从而得到和之间的非线性回归方程.44152962572984110241225711212466115325从右图中可以看出,与的散点图并不分布在一条直线的周围,因此不宜用线性回归方程来拟合它,即不宜用二次曲线来拟合和之间的关系这个结论还可以通过残差分析得到,下面介绍具体方法为比较两个不同模型的残差,需要建立两个相应的回归方程前面我们已经建立了关于的指数回归方程,下面建立关于的二次回归方程用线性回归模型拟合上表中的数据,得到关于 的线性回归方程, 即关于的二次回归方程为(2).下面,可以通过残差来比较两个回归方程的拟合效果用 表示表中第 1 行第列的数据,则回归方程(1)和(2)的残差计算公式分别为 ;.下表给出了原始数据及相应的两个回归方程的残差从表中的数据可以看出模型(1)的残差的绝对值显然比模型(2)的残差的绝对值小,因此模型(6)的拟合效果比模型(7)的拟合效果好212325272932357112124661153250.557-0.1011.875-8.9509.230-13.38134.67547.69619.400-5.832-41.000-40.1.4-58.26577.968在一般情况下,比较两个模型的残差比较困难原因是在某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反这时可以通过比较两个模型的残差平方和的大小来判断模型的拟合效果残差平方和越小的模型,拟合的效果越好由上表容易算出模型(1)和(2)的残差平方和分别为 .因此模型(1)的拟合效果远远优于模型(2). 类似地,还可以用来比较两个模型的拟合效果,越大,拟合的效果越好由上表容易算出模型(1)和(2)的分别约为和,因此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论