数理统计-线性回归.ppt_第1页
数理统计-线性回归.ppt_第2页
数理统计-线性回归.ppt_第3页
数理统计-线性回归.ppt_第4页
数理统计-线性回归.ppt_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章回归分析,4.1一元线性回归分析4.2多元线性回归分析,变量之间的关系,确定性关系,相关关系,确定性关系,身高和体重,相关关系,相关关系的特征是:变量之间的关系很难用一种精确的方法表示出来.,回归分析的基本思想,变量之间的关系,1.函数关系:变量之间依一定的函数形成的一一对应关系,若两个变量分别记做Y与X,则当Y与X之间存在函数关系时,X值一旦被指定,Y值就是唯一确定的。如圆的面积与其半径之间的关系.,2.统计相关关系:变量之间存在某种关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量间的这种关系就是统计关系,亦称相关关系。例如:小麦的产量Y与施肥量x1,品种x2等存在关系,但给定x1,x2的数值后Y的值还是无法确定的.,两个变量之间若存在线性关系称为线性相关,存在非线性关系称为曲线相关,通常通过适当的变量变换,曲线相关可转换为线性相关。,一般说来,在给定X=x条件下Y的条件概率分布,则Y与X的关系就清楚了.但在实际中要求解往往是非常困难的.,事实上,对Y而言,在实际中只需知道它的某个数字特征:条件数学期望就可以了.把称为Y关于X的回归方程.,回归分析的作用:在于通过对变量X的观测值就可预测Y的取值,并且当时,为Y在方差误差意义下的最佳预测值.,确定性关系和相关关系的联系:,由于存在测量误差等原因,确定性关系在实际问题中往往通过相关关系表示出来;另一方面,当对事物内部规律了解得更加深刻时,相关关系也有可能转化为确定性关系.,回归分析处理变量之间的相关关系的一种数学方法,它是最常用的数理统计方法.,回归分析,问题的分析,4.1一元线性回归分析,问题的一般提法,求解步骤,1.推测回归函数的形式,方法一根据专业知识或者经验公式确定;,方法二作散点图观察.,用MATLAB画出散点图,例1为研究某一化学反应过程中,温度对产品得率Y(%)的影响,测得数据如下.,x=100:10:190;y=45,51,54,61,66,70,74,78,85,89;plot(x,y,.r),一元线性回归问题,2.建立回归模型,3.未知参数a,b的估计-最小二乘法,意义:实际测得的点与直线上的理论点之间的误差的平方和最小,正规方程组,回归方程回归直线,参数估计量的性质,例2例1中的随机变量Y符合一元线性回归模型所述的条件,求Y关于x的线性回归方程.,在MATLAB中求解,程序运行结果,残差平方和反应的是在试验中由随机因素的影响而引起的误差,离差平方和反应整批数据的波动程度,回归平方和反应回归直线引起的偏差,平方和分解式,例3求例2中方差的无偏估计.,5.线性相关性的显著性检验,1).F检验法,2).相关系数检验法,例4检验例2中的回归效果是否显著,取显著性水平为0.05.,3).t检验法,6.预测与控制,控制怎样控制x的值才能使Y的值在要求的范围内,预测在自变量时,估计Y的观测值所在范围,(1).回归函数函数值的估计,预测,(2).Y的观察值的估计,预测,例5(续例2),解(1)已知,计算,(2)在MATLAB中求解,控制:怎样控制自变量x的值才能使Y的值以1-的置信度落所在要求的区间a,b内,即,控制,例6对某产品的表面进行腐蚀刻线试验,设腐蚀深度Y与时间x的结果如下表:,Y=a+bx+,(1)求Y与x的相关关系;(2)当秒时的置信度为95%置信区间;(3)要深度在1021之间时腐蚀时间应如何控制。,解:)在xy坐标系上将描出的散点图,由图看出点在一条直线附近,因此可假设与x之间有线性相关关系设为:,显著性检验:,参数估计:,预测:,控制:,方法通过适当的变量变换,化成一元线性回归问题进行分析处理.,两边取对数,可化为一元线性回归的问题,两边取对数,曲线回归方程,例表9.18是1957年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,Y表示相应的平均价格(以美元计),求Y关于x的回归方程.,在MATLAB中求解,首先作散点图,x=1:1:10;y=2651,1943,1494,1087,765,538,484,290,226,204;plot(x,y,.r),选择模型,变量变换,线性假设的显著性检验,线性回归效果高度显著.,代回原变量,得曲线回归方程,小结,1.回归分析的任务,2.一元线性回归的步骤,3.可化为一元线性回归的问题,研究变量之间的相关关系,(1)推测回归函数;(2)建立回归模型;(3)估计未知参数;(4)进行假设检验;(5)预测与控制.,关键:选择适当的变量代换.,4.2多元线性回归分析,多元线性回归的参数估计、线性相关性的检验以及预测控制等问题都可采用一元线性回归类似的方法求解。,化简可得,参数估计:,正规方程组,最大似然估计值,正规方程组的矩阵形式,残差平方和,估计量的性质:,离差平方和,回归平方和,F检验法:,线性相关性的显著性检验:,多元线性回归,1.确定回归系数的点估计值,用命令:b=regress(Y,X),2.求回归系数的点估计和区间估计,并检验回归模型,用命令:b,bint,r,rint,stats=regress(Y,X,alpha),3.画出残差及其置信区间,用命令:rcoplot(r,rint),附:MATLAB中回归分析的实现,符号说明,(1),(2)alpha为显著性水平,默认为0.05;,(3)bint为回归系数的区间估计;,(4)r与rint分别为残差及其置信区间;,(5)stats是用于检验回归模型的统计量,有三个数值,第一个是相关系数r2,其值越接近于1,说明回归方程越显著;第二个是F值,FF1-alpha(p,n-p-1)时拒绝H0,F越大,说明回归方程越显著;第三个是与F对应的概率p,palpha时拒绝,回归模型成立.,例1测得16名女子的身高和腿长如下(单位:cm):,试研究这些数据之间的关系.,输入数据,x=143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164;X=ones(16,1),x;Y=88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102;,回归分析及检验,b,bint,r,rint,stats=regress(Y,X);b,bint,stats,残差分析,rcoplot(r,rint),预测及作图,z=b(1)+b(2)*xplot(x,Y,k+,x,z,r),数据比较,程序运行结果,一元多项式回归,1.确定多项式系数,用命令:p,S=polyfit(x,y,m),也可使用命令:polytool(x,y,m),结果产生一个交互式的画面,画面中有拟合曲线和y的置信区间,左下方的Export可以输出参数.,2.预测和预测误差估计用命令:,求回归多项式在x处的预测值Y.,Y,DELTA=polyconf(p,x,S,alpha),求回归多项式在x处的预测值Y以及预测值的显著性为1-alpha的置信区间YDELTA,alpha的默认值是0.05.,一元多项式回归可化为多元线性回归求解.,Y=polyval(p,x),例2下面给出了某种产品每件平均单价Y(元)与批量x(件)之间的关系的一组数据.,试用一元二次多项式进行回归分析.,输入数据,x=20,25,30,35,40,50,60,65,70,75,80,90;y=1.81,1.70,1.65,1.55,1.48,1.40,1.30,1.26,1.24,1.21,1.20,1.18;,作二次多项式回归,p,S=polyfit(x,y,2),预测及作图,Y=polyconf(p,x,y)plot(x,y,b+,x,Y,r),程序运行结果,化为多元线性回归,X=ones(12,1)x(x.2);b,bint,r,rint,stats=regress(y,X);b,stats,与前面的结果一致.,多元二项式回归,rstool(x,y,model,alpha),其中,输入数据x,y分别为nm矩阵和n维列向量;alpha为显著性水平,默认为0.05;model为下列四种模型中的一种,输入相应的字符串,默认为线性模型.,rstool的输出是一个交互式画面,画面中有m个图形,分别给出了一个独立变量xi与y的拟合曲线,以及y的置信区间,此时其余m-1个变量取固定值.可以输入不同的变量的不同值得到y的相应值.,图的左下方有两个下拉式菜单,一个用于传送回归系数、剩余标准差、残差等数据;另一个用于选择四种回归模型中的一种,选择不同的回归模型,其中剩余标准差最接近于零的模型回归效果最好.,例3设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000,价格为6时的商品需求量.,选择纯二次模型,即,数据输入,x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;x=x1x2;,回归、检验与预测,rstool(x,y,purequadratic),程序运行结果,化为多元线性回归求解,x1=1000,600,1200,500,300,400,1300,1100,1300,300;x2=5,7,6,6,8,7,5,4,3,9;y=100,75,80,70,50,65,90,100,110,60;X=ones(10,1)x1x2(x1.2)(x2.2);b,bint,r,rint,stats=regress(y,X),回归系数的点估计以及区间估计,残差及其置信区间,检验回归模型的统计量,逐步回归分析,在实际问题中,影响因变量的因素很多,而这些因素之间可能存在多重共线性.为得到可靠的回归模型,需要一种方法能有效地从众多因素中挑选出对因变量贡献大的因素.,如果采用多元线性回归分析,回归方程稳定性差,每个自变量的区间误差积累将影响总体误差,预测的可靠性差、精度低;另外,如果采用了影响小的变量,遗漏了重要变量,可能导致估计量产生偏倚和不一致性.,选择“最优”回归方程的方法,1.从所有可能的变量组合的回归方程中选择最优者;,2.从包含全部变量的回归方程中逐次剔除不显著因子;,3.从一个变量开始,把变量逐个引入方程;,4.“有进有出”的逐步回归分析.,“最优”的回归方程应该包含所有有影响的变量而不包括影响不显著的变量.,逐步回归分析法在筛选变量方面比较理想,是目前较常用的方法.它从一个自变量开始,根据自变量作用的显著程度,从大到小地依次逐个引入回归方程,但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉.引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步,对于每一步,都进行检验,以确保每次引入新的显著性变量前回归方程中只包含作用显著的变量.,反复进行上面的过程,直到没有不显著的变量从回归方程中剔除,也没有显著变量可引入到回归方程.,函数:stepwise,用法:stepwise(x,y,inmodel,alpha),符号说明:,x自变量数据,为nm矩阵;,y因变量数据,为n1矩阵;,inmodel由矩阵x列的指标构成,表明初始模型中引入的自变量,默认为全部自变量;,alpha判断模型中每一项显著性的指标,默认相当于对回归系数给出95%的置信区间.,例4水泥凝固时放出的热量y与水泥中的四种化学成分x1,x2,x3,x4有关,今测得一组数据如下,试用逐步回归法确定一个线性模型.,x1=7,1,11,11,7,11,3,1,2,21,1,11,10;x2=26,29,56,31,52,55,71,31,54,47,40,66,68;x3=6,15,8,8,6,9,17,22,18,4,23,9,8;x4=60,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论