版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、现代高等工程数学电子教案,第8章 回归分析 数学学院应用数学系 王国富 2012年9月,引例: 某厂生产的圆钢,其屈服点Z受含碳量x和含锰量y的影响,现做了25次观察,测得如下数据 x 16 18 19 17 20 16 16 15 19 18 y 39 38 39 39 38 48 45 48 48 48 Z 24 24.5 24.5 24 25 24.5 24 24 24.5 24.5 x 18 17 17 17 18 18 20 21 16 18 y 46 48 49 46 44 45 48 48 55 55 Z 24.5 24.5 25 24.5 24.5 24.5 25 25 25
2、25 x 19 19 21 19 21 y 56 58 58 49 49 Z 25.5 25.5 26.5 24.5 26 试通过上述数据建立起它们之间的关系?,回归分析 回归分析是数理统计的一个应用分枝,它主要研究变量与变量之间的某一种相依关系,其主要内容包括线性回归与非线性回归一元回归与多元回归这一节介绍一元线性回归,回归的含义 变量与变量之间的关系有两种:一种是函数关系;当一组变量取定一个值时,另一个变量也有确定的值与它对应这是一种函数关系。另一种关系不能用函数关系来描述,比如人的身高与体重之间的关系;农作物的产量与施肥量之间的关系就不能用函数关系来描述,变量可以分为可控变量与不可控变量
3、(随机变量) 在回归分析中,讨论的是随机变量与可控变量之间的关系随机变量作为因变量(响应变量),可控变量作为自变量当自变量只有一个变量时的回归分析为一元回归,否则称为多元回归,假设随机变量Y与x有一元回归关系.当选定x时,Y的数学期望应为x的函数,记,回归分析的一般步骤: (1)求取试验数据 (2)选取回归模型 (3)对回归模型中的未知参数作估计 (4)对模型进行检验 (5)预测与控制,(1)求取试验数据,(2)选取回归模型,当选取的是一元线性回归函数时,其回归模型可写为,(3)对回归模型中的未知参数作估计 当选取回归模型为,(4)对模型进行检验 我们是根据经验和散点图选定模型的,模型是否切合
4、实际,需要对模型进行检验。,(5)预测与控制,一元线性回归模型,先假定一元线性回归模型,要使L达到最大,只要等式右边的平方和的部分达到最小即可。,通过求导,并令其为零,可得方程组,注意:当随机误差服从正态分布时,参数的最小二乘估计就是极大似然估计,当随机误差不服从正态分布时,参数的最小二乘估计一般与极大似然估计不同。 一元线性回归模型中回归系数的最小二乘估计为,为了对模型及模型参数进行检验,我们需要知道 估计量的分布,下面对随机误差服从正态分布的情况下给出了一些统计量的分布:,我们有,我们仅证明(1)(2)。 证明(1),证明(2),假设检验 假设检验包括参数检验和线性模型的检验。,t-检验
5、F-检验,r-检验(样本相关系数检验),预测与控制,我们可以得到,由预测区间可以看出:,控制:控制是预测的反问题,当因变量y在某一范围内取值时,x应控制在什么范围之内。这个问题比预测要复杂。,例.为研究温度对某个化学过程的生产量的影响,收集到如下数据(规范化形式): 温度x -5 -4 -3 -2 -1 0 1 2 3 4 5 生产量y 1 5 4 7 10 8 9 13 14 13 18 (1) 求Y对X的线性回归方程。(结果保留小数点后两位。) (2)对回归方程的显著性进行检验。(检验水平=0.01,) (3)对规范温度在0.5时,对其规范生产量作95%的预测区间。,解(1),(2)采用T
6、检验:选用,故回归方程显著,(3),故规范温度在0.5时,其规范生产量的95%的预测区间 为(6.43,13.55),多元线性回归模型,记 则有,因此,有了上面的结论,我们可以导出检验 的检验方法.在这里就不讨论了,参见讲义,预测,回到引例: 某厂生产的圆钢,其屈服点Z受含碳量x和含锰量y的影响,现做了25次观察,测得如下数据 x 16 18 19 17 20 16 16 15 19 18 y 39 38 39 39 38 48 45 48 48 48 Z 24 24.5 24.5 24 25 24.5 24 24 24.5 24.5 x 18 17 17 17 18 18 20 21 16
7、18 y 46 48 49 46 44 45 48 48 55 55 Z 24.5 24.5 25 24.5 24.5 24.5 25 25 25 25 x 19 19 21 19 21 y 56 58 58 49 49 Z 25.5 25.5 26.5 24.5 26 试通过上述数据建立起它们之间的关系?,记,则,解:设,检验线性模型是否显著和检验假设,故,因为,取,所以,故线性模型显著,又因为,故,显著地不成立,9.2.4变量选择及多元共线性性问题,在多元线性回归模型是,由于有多个自变量,存在一些有一元线性回归模型中不会遇到的问题。本节讨论两个涉及到变量之间关系的问题。第一个问题是关于自变
8、量与因变量之间的关系。当我们就一个实际问题建立多元线性回归模型时,可能会考虑到多个对因变量有潜在影响的自变量,但在对数据进行分析之前无法事先断定哪些变量是有效的(对因变量有显著影响),哪些是无效的(对因变量没有显著影响)。有效变量应该保留在模型中,而无效变量应该从模型中去掉。因为无效变量在模型中会对分析结果产生干扰,从而产生误导。那么究竟哪些变量是有效的,哪些变量是无效的呢?这就是变量选择的问题。,第二个问题是关于自变量之间的关系。在某些实际问题中(如在实验室或某些工业生产条件下),观测者(试验者)可以控制自变量的值,这是他可以在事先设计好的自变量值上观测因变量。而在另一些情况下(研究社会、地
9、质、水文)。观测者不能控制自变量的值,或者说自变量是随机变量。这时,自变量之间会有统计相关性。当这种统计相关性很强时就产生“多元共线性”的问题。多元共线性的存在对回归分析的结果产生很坏的影响。因此数据分析应该考虑多元共线性的影响,并知道用何种方法去克服这种影响。,变量选择的方法,从原则上讲,一个好的模型应该包含所有的有效变量,而不包含任何无效变量,准则是根据的 大小在所有可能的模型中选择“最优模型”的一种方法,设备选的自变量共有K个,先假定已知有效变量的数目为r,我们来考虑恰好包含r个变量的模型,这样的模型共有 个,r个自变量对因变量的总的影响可以由它的决定系数 来度量,总的原则:,越大,自变
10、量对因变量的总影响 也越大,在计算决定系数时,由于SST为因变量的总平方和 ,在任何模型下是不变的,只须计算各个模型下的回归平方和SSR,一般情况,有效变量的个数r未知时,在这种情况下如何确定最佳模型?,考虑如下的思路,对j个有效回归变量的模型中按上述方法找到最佳模型,此时最佳模型的决定系数记为,可以得出,如何找出r,根据决定系数增加的快慢来确定r,当它由快变慢形成拐点时,此时的最优模型的自变量的个数就是r,缺点:,准则要求对所有可能的回归模型计算 ,当备选变量的数目比较小时,用这种方法可以保证对给定的有效变量的个数r找到理论上的最优模型。但当备选变量的数目比较大时,用这种方法其计算量非常地大
11、,向后、向前、逐步回归,(1)向后回归法 其基本思路是:先将所有可能对因变量产生影响的自变量都纳入模型,然后逐个地从中剔除认为是最没有价值的变量,直至所留在模型中的变量都不能被剔除,或者模型中没有任何变量为止。在逐步的剔除过程中,每次都对当前模型中的所有变量计算评估附加影响的F统计量,并找到其中最小的。如果最小F统计量超过指定的临界值 Fout ,当前模型中的所有变量都保留,将当前模型作为最终模型,程序终止。反之,如果最小F统计量达不到临界值,就将相应的变量加以剔除,得到一个较小的模型。在新的模型下重复以上作法。以上步骤不断进行,直至没有变量可以剔除,或者模型中没有任何变量为止。最终的模型就是
12、所选定的“最优”模型。标准的统计软件通常还输出所有中间模型。,(2)向前回归法 其基本思路是:先将所有可能对因变量产生影响的自变量作为备选的变量集,都放在模型之外,从零模型,即不包含任何自变量的模型开始,然后逐个地向模型中加入被认为是最有附加价值的变量,直至所留在模型外的变量都不能被加入,或者所有备选的变量都已加入模型为止。在逐步加入的过程中,第一步对所有变量计算当模型中只有一个变量时的F统计量,并找到其中最大的。如果最大F统计量不超过临界值Fin,则所有在模型外的变量都不能加入到模型中去,将零模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到模型中去。从第二步
13、开始,每次都对当前模型外的任一变量计算;当这个变量被加入模型后,在新模型下计算它的F统计量,并找到其中最大的。如果最大F统计量不超过临界值,可以认为所有在当前模型外的变量都是无效变量,因此都不能加入到当前模型中去,将当前模型作为最终模型,程序终止。反之,如果最大F统计量超过临界值,就将相应的变量加入到当前模型中去,得到一个较大的模型。以上步骤不断进行,直至没有变量可以加入,或者模型中已经包含了所有变量为止。最终的模型就是所选定的“最优”模型,标准的统计软件通常还输出所有中间模型。,(3)逐步回归法 逐步回归法是对向前回归的一个修正。在向前回归中,变量逐个被加入到模型中去,一个变量一旦被加入到模型中,就再也不可能被剔除。但是,原来在模型中的变量在引入新变量之后,可能会变得没有存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 成都中医药大学第三附属医院2026年部分岗位招聘考试模拟试题及答案解析
- 2026年博尔塔拉蒙古市粮食和物资储备系统事业单位人员招聘考试备考试题及答案详解
- 2026年毕节市城管协管人员招聘考试备考试题及答案详解
- 融资租赁公司的资产管理岗位职责
- 2026江苏无锡市住房置业融资担保有限公司招聘1人考试备考试题及答案解析
- 2026江苏南京大学YJ20260522法学院特任助理研究员招聘1人考试备考试题及答案解析
- 2026年大连市广播电视台(融媒体中心)人员招聘考试备考试题及答案详解
- 2026广东警官学院总务部招聘合同制工作人员1人考试备考试题及答案解析
- 2026广西医科大学附属口腔医院招聘医学影像科技师3人考试备考题库及答案解析
- 2026河北沧州航空职业学院招聘教师41人笔试备考题库及答案解析
- 【新教材】北师大版(2024)八年级下册生物期末复习全册知识点考点提纲
- 肥料、农药采购服务投标方案技术标
- 第二类精神药品临床应用管理规范
- 破产管理人培训
- 第四单元第13课羊字头(课件)书法北师大版四年级上册
- 分数加减法-基于教学评一体化的大单元整体教学设计
- 污水排放承诺书
- 2026年生态环境保护法专业知识测试题
- 吞噬星空介绍
- 2026年深圳中考数学基础夯实专项试卷(附答案可下载)
- 市场环境下销售电价建模与实证:理论、影响与优化策略
评论
0/150
提交评论