数理统计-线性回归.ppt_第1页
数理统计-线性回归.ppt_第2页
数理统计-线性回归.ppt_第3页
数理统计-线性回归.ppt_第4页
数理统计-线性回归.ppt_第5页
免费预览已结束,剩余72页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第4章 回归分析,4.1 一元线性回归分析 4.2 多元线性回归分析,变量之间的关系,确定性关系,相关关系,确定性关系,身高和体重,相关关系,相关关系的特征是:变量之间的关系很难用一 种精确的方法表示出来.,回归分析的基本思想,变量之间的关系,1.函数关系:变量之间依一定的函数形成的一一对应关系,若两个变量分别记做Y与X,则当Y与X之间存在函数关系时,X值一旦被指定,Y值就是唯一确定的。如圆的面积与其半径之间的关系.,2.统计相关关系:变量之间存在某种关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量间的这种关系就是统计关系,亦称相关关系。例如:小麦的产量Y与施肥

2、量x1,品种x2等存在关系,但给定x1,x2的数值后Y的值还是无法确定的.,两个变量之间若存在线性关系称为线性相关,存在非线性关系称为曲线相关,通常通过适当的变量变换,曲线相关可转换为线性相关。,一般说来,在给定X=x条件下Y的条件概率分布 ,则Y与X的关系就清楚了.但在实际中要求解往往是非常困难的.,事实上,对Y而言,在实际中只需知道它的某个数字特征:条件数学期望 就可以了.把 称为Y关于X的回归方程.,回归分析的作用:在于通过对变量X的观测值就可预测Y的取值,并且当 时, 为Y在方差误差意义下的最佳预测值.,确定性关系和相关关系的联系:,由于存在测量误差等原因,确定性关系在实际 问题中往往

3、通过相关关系表示出来;另一方面,当对 事物内部规律了解得更加深刻时,相关关系也有可 能转化为确定性关系.,回归分析处理变量之间的相关关系的一 种数学方法,它是最常用的数理统计方法.,回 归 分 析,问题的分析,4.1 一元线性回归分析,问题的一般提法,求解步骤,1.推测回归函数的形式,方法一根据专业知识或者经验公式确定;,方法二作散点图观察.,用MATLAB画出散点图,例1为研究某一化学反应过程中,温度 对产 品得率Y ( % )的影响, 测得数据如下 .,x=100:10:190;y=45,51,54,61,66,70,74,78,85,89; plot(x,y,.r),一元线性回归问题,2

4、.建立回归模型,3.未知参数a,b的估计-最小二乘法,意义:实际测得的点与直线上的理论点之间的误差的平方和最小,正规方程组,回归方程回归直线,参数估计量的性质,例2 例1中的随机变量 Y 符合一元线性回归模型所 述的条件, 求 Y 关于 x 的线性回归方程 .,在MATLAB中求解,程序运行结果,残差平方和反应的是在试验中由随机因素 的影响而引起的误差,离差平方和反应整批数据的波动程度,回归平方和反应回归直 线引起的偏差,平方和分解式,例3 求例2中方差的无偏估计.,5.线性相关性的显著性检验,1).F检验法,2).相关系数检验法,例4 检验例 2 中的回归效果是否显著,取显著性水平为 0.0

5、5 .,3).t检验法,6.预测与控制,控制怎样控制x的值才能使Y的值在要求的范围内,预测在自变量 时,估计Y的观测值所在范围,(1).回归函数函数值 的估计,预测,(2). Y 的观察值 的估计,预测,例5 (续例2),解(1)已知,计算,(2)在MATLAB中求解,控制:怎样控制自变量x的值才能使Y的值以1-的置信度落所在要求的区间a,b内,即,控制,例6 对某产品的表面进行腐蚀刻线试验,设腐蚀 深度Y与时间x的结果如下表:,Y=a+bx+,(1)求Y与x的相关关系;(2)当 秒时 的置信度为95% 置信区间;(3)要深度在1021之间时腐蚀时间应如何控制。,解:)在xy坐标系上将描出的散

6、点图,由图看出点在一条直线附近,因此可假设与x之间有线性相关关系设为:,显著性检验:,参数估计:,预测:,控制:,方法通过适当的变量变换,化成一元线性 回归问题进行分析处理.,两边取对数,可化为一元线性回归的问题,两边取对数,曲线回归方程,例 表 9.18 是 1957 年美国旧轿车价格的调查资料,今以 x 表示轿车的使用年数, Y 表示相应的平均价格(以美元计), 求 Y 关于 x 的回归方程 .,在MATLAB中求解,首先作散点图,x=1:1:10; y=2651,1943,1494,1087,765,538,484,290,226,204; plot(x,y,.r),选择模型,变量变换,

7、线性假设的显著性检验,线性回归效果高度显著.,代回原变量,得曲线回归方程,小结,1.回归分析的任务,2.一元线性回归的步骤,3.可化为一元线性回归的问题,研究变量之间的相关关系,(1) 推测回归函数; (2) 建立回归模型; (3) 估计未知参数; (4) 进行假设检验; (5) 预测与控制.,关键:选择适当的变量代换.,4.2 多元线性回归分析,多元线性回归的参数估计、线性相关性的检验以及预测控制等问题都可采用一元线性回归类似的方法求解。,化简可得,参数估计:,正规方程组,最大似然估计值,正规方程组的矩阵形式,残差平方和,估计量的性质:,离差平方和,回归平方和,F检验法:,线性相关性的显著性

8、检验:,多元线性回归,1.确定回归系数的点估计值,用命令: b=regress(Y,X),2.求回归系数的点估计和区间估计,并检验回 归模型,用命令: b,bint,r,rint,stats=regress(Y,X,alpha),3.画出残差及其置信区间,用命令: rcoplot(r,rint),附:MATLAB中回归分析的实现,符号说明,(1),(2) alpha为显著性水平, 默认为 0.05;,(3) bint为回归系数的区间估计;,(4) r与rint分别为残差及其置信区间;,(5) stats 是用于检验回归模型的统计量, 有三个 数值, 第一个是相关系数 r2, 其值越接近于 1,

9、 说明回 归方程越显著; 第二个是 F 值, FF1-alpha(p,n-p-1) 时 拒绝 H0, F 越大, 说明回归方程越显著; 第三个是与 F对应的概率 p, palpha 时拒绝, 回归模型成立.,例1测得16名女子的身高和腿长如下(单位:cm):,试研究这些数据之间的关系.,输入数据,x=143,145,146,147,149,150,153,154,155,156,157, 158,159,160,162,164; X=ones(16,1),x; Y=88,85,88,91,92,93,93,95,96,98,97,96,98,99,100, 102;,回归分析及检验,b,bin

10、t,r,rint,stats=regress(Y,X); b,bint,stats,残差分析,rcoplot(r,rint),预测及作图,z=b(1)+b(2)*x plot(x,Y,k+,x,z,r),数据比较,程序运行结果,一元多项式回归,1.确定多项式系数,用命令: p,S=polyfit(x,y,m),也可使用命令:polytool(x,y,m),结果产生一个交互式的画面, 画面中有拟合曲 线和 y 的置信区间, 左下方的 Export 可以输出参数.,2.预测和预测误差估计用命令:,求回归多项式在x处的预测值Y.,Y,DELTA=polyconf(p,x,S,alpha),求回归多项

11、式在 x 处的预测值 Y 以及预测值的 显著性为1-alpha 的置信区间 YDELTA,alpha 的默 认值是 0.05.,一元多项式回归可化为多元线性回归求解.,Y=polyval(p,x),例2下面给出了某种产品每件平均单价 Y(元) 与 批量 x (件) 之间的关系的一组数据 .,试用一元二次多项式进行回归分析.,输入数据,x=20,25,30,35,40,50,60,65,70,75,80,90; y=1.81,1.70,1.65,1.55,1.48,1.40,1.30,1.26,1.24,1.21, 1.20,1.18;,作二次多项式回归,p,S=polyfit(x,y,2),预

12、测及作图,Y=polyconf(p,x,y) plot(x,y,b+,x,Y,r),程序运行结果,化为多元线性回归,X=ones(12,1) x (x.2); b,bint,r,rint,stats=regress(y,X); b,stats,与前面的结果一致.,多元二项式回归,rstool(x,y,model,alpha),其中,输入数据 x, y 分别为 nm 矩阵和 n 维列向量; alpha 为显著性水平, 默认为 0.05; model 为下列四种模型中的一种, 输入相应的字符串, 默认为线性模型.,rstool的输出是一个交互式画面,画面中有m个 图形,分别给出了一个独立变量xi与

13、y的拟合曲线, 以及y的置信区间,此时其余m-1个变量取固定值.可 以输入不同的变量的不同值得到y的相应值.,图的左下方有两个下拉式菜单,一个用于传送 回归系数、剩余标准差、残差等数据;另一个用于 选择四种回归模型中的一种,选择不同的回归模型, 其中剩余标准差最接近于零的模型回归效果最好.,例3设某商品的需求量与消费者的平均收入、商 品价格的统计数据如下, 建立回归模型, 预测平均收 入为 1000, 价格为 6 时的商品需求量 .,选择纯二次模型,即,数据输入,x1=1000,600,1200,500,300,400,1300,1100,1300,300; x2=5,7,6,6,8,7,5,

14、4,3,9; y=100,75,80,70,50,65,90,100,110,60; x=x1 x2;,回归、检验与预测,rstool(x,y,purequadratic),程序运行结果,化为多元线性回归求解,x1=1000,600,1200,500,300,400,1300,1100,1300,300; x2=5,7,6,6,8,7,5,4,3,9; y=100,75,80,70,50,65,90,100,110,60; X=ones(10,1) x1 x2 (x1.2) (x2.2); b,bint,r,rint,stats=regress(y,X),回归系数的点估计以及区间估计,残差及其

15、置信区间,检验回归模型的统计量,逐步回归分析,在实际问题中,影响因变量的因素很多,而这些 因素之间可能存在多重共线性.为得到可靠的回归 模型,需要一种方法能有效地从众多因素中挑选出 对因变量贡献大的因素.,如果采用多元线性回归分析,回归方程稳定性 差,每个自变量的区间误差积累将影响总体误差,预 测的可靠性差、精度低;另外,如果采用了影响小的 变量,遗漏了重要变量,可能导致估计量产生偏倚和 不一致性.,选择“最优”回归方程的方法,1.从所有可能的变量组合的回归方程中选择 最优者;,2.从包含全部变量的回归方程中逐次剔除不 显著因子;,3.从一个变量开始,把变量逐个引入方程;,4.“有进有出”的逐

16、步回归分析.,“最优”的回归方程应该包含所有有影响的 变量而不包括影响不显著的变量.,逐步回归分析法在筛选变量方面比较理想, 是 目前较常用的方法. 它从一个自变量开始, 根据自变 量作用的显著程度, 从大到小地依次逐个引入回归 方程, 但当引入的自变量由于后面变量的引入而变 得不显著时, 要将其剔除掉. 引入一个自变量或从回 归方程中剔除一个自变量, 为逐步回归的一步, 对于 每一步, 都进行检验, 以确保每次引入新的显著性变 量前回归方程中只包含作用显著的变量.,反复进行上面的过程, 直到没有不显著的变量 从回归方程中剔除, 也没有显著变量可引入到回归 方程.,函数: stepwise,用

17、法: stepwise(x,y,inmodel,alpha),符号说明:,x自变量数据,为nm矩阵;,y因变量数据,为n1矩阵;,inmodel由矩阵x列的指标构成,表明初始模 型中引入的自变量,默认为全部自变量;,alpha判断模型中每一项显著性的指标, 默 认相当于对回归系数给出95%的置信区间.,例4水泥凝固时放出的热量 y 与水泥中的四种化 学成分 x1, x2, x3, x4 有关, 今测得一组数据如下, 试 用逐步回归法确定一个线性模型.,x1=7,1,11,11,7,11,3,1,2,21,1,11,10; x2=26,29,56,31,52,55,71,31,54,47,40,66,68; x3=6,15,8,8,6,9,17,22,18,4,23,9,8; x4=6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论