演示文稿数理统计线性回归_第1页
演示文稿数理统计线性回归_第2页
演示文稿数理统计线性回归_第3页
演示文稿数理统计线性回归_第4页
演示文稿数理统计线性回归_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计线性回归现在是1页\一共有76页\编辑于星期六变量之间的关系确定性关系相关关系确定性关系身高和体重相关关系相关关系的特征是:变量之间的关系很难用一种精确的方法表示出来.回归分析的基本思想现在是2页\一共有76页\编辑于星期六变量之间的关系1.函数关系:变量之间依一定的函数形成的一一对应关系,若两个变量分别记做Y与X,则当Y与X之间存在函数关系时,X值一旦被指定,Y值就是唯一确定的。如圆的面积与其半径之间的关系.现在是3页\一共有76页\编辑于星期六2.统计相关关系:变量之间存在某种关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量间的这种关系就是统计关系,亦称相关关系。例如:小麦的产量Y与施肥量x1,品种x2等存在关系,但给定x1,x2的数值后Y的值还是无法确定的.

两个变量之间若存在线性关系称为线性相关,存在非线性关系称为曲线相关,通常通过适当的变量变换,曲线相关可转换为线性相关。现在是4页\一共有76页\编辑于星期六

一般说来,在给定X=x条件下Y的条件概率分布,则Y与X的关系就清楚了.但在实际中要求解往往是非常困难的.

事实上,对Y而言,在实际中只需知道它的某个数字特征:条件数学期望就可以了.把称为Y关于X的回归方程.

回归分析的作用:在于通过对变量X的观测值就可预测Y的取值,并且当时,为Y在方差误差意义下的最佳预测值.现在是5页\一共有76页\编辑于星期六确定性关系和相关关系的联系:

由于存在测量误差等原因,确定性关系在实际问题中往往通过相关关系表示出来;另一方面,当对事物内部规律了解得更加深刻时,相关关系也有可能转化为确定性关系.

回归分析——处理变量之间的相关关系的一种数学方法,它是最常用的数理统计方法.线性回归分析非线性回归分析回归分析一元线性回归分析多元线性回归分析现在是6页\一共有76页\编辑于星期六问题的分析4.1一元线性回归分析现在是7页\一共有76页\编辑于星期六问题的一般提法现在是8页\一共有76页\编辑于星期六求解步骤1.推测回归函数的形式方法一根据专业知识或者经验公式确定;方法二作散点图观察.温度x(oC)得率Y(%)10011012013014015016017018019045515461667074788589用MATLAB画出散点图例1

为研究某一化学反应过程中,温度

对产品得率Y(%

)的影响,测得数据如下.现在是9页\一共有76页\编辑于星期六x=100:10:190;y=[45,51,54,61,66,70,74,78,85,89];plot(x,y,'.r')现在是10页\一共有76页\编辑于星期六一元线性回归问题2.建立回归模型一元线性回归模型现在是11页\一共有76页\编辑于星期六3.未知参数a,b的估计-----最小二乘法现在是12页\一共有76页\编辑于星期六意义:实际测得的点与直线上的理论点之间的误差的平方和最小.现在是13页\一共有76页\编辑于星期六正规方程组现在是14页\一共有76页\编辑于星期六回归方程

回归直线现在是15页\一共有76页\编辑于星期六参数估计量的性质现在是16页\一共有76页\编辑于星期六例2

例1中的随机变量Y符合一元线性回归模型所述的条件,求Y关于x的线性回归方程.温度x(oC)得率Y(%)10011012013014015016017018019045515461667074788589在MATLAB中求解x=100:10:190;y=[45,51,54,61,66,70,74,78,85,89];polytool(x,y,1,0.05)源程序程序运行结果回归图形参数传送置信区间帮助现在是17页\一共有76页\编辑于星期六残差平方和--反应的是在试验中由随机因素的影响而引起的误差.现在是18页\一共有76页\编辑于星期六离差平方和--反应整批数据的波动程度.回归平方和--反应回归直线引起的偏差.平方和分解式现在是19页\一共有76页\编辑于星期六例3

求例2中方差的无偏估计.现在是20页\一共有76页\编辑于星期六5.线性相关性的显著性检验1).F检验法现在是21页\一共有76页\编辑于星期六2).相关系数检验法现在是22页\一共有76页\编辑于星期六例4

检验例2中的回归效果是否显著,取显著性水平为0.05.3).t检验法现在是23页\一共有76页\编辑于星期六6.预测与控制控制——怎样控制x的值才能使Y的值在要求的范围内预测——在自变量时,估计Y的观测值所在范围(1).回归函数函数值的估计预测现在是24页\一共有76页\编辑于星期六(2).Y的观察值的估计预测现在是25页\一共有76页\编辑于星期六例5(续例2)解(1)已知现在是26页\一共有76页\编辑于星期六计算现在是27页\一共有76页\编辑于星期六(2)在MATLAB中求解输出参数回归直线现在是28页\一共有76页\编辑于星期六控制:怎样控制自变量x的值才能使Y的值以1-的置信度落所在要求的区间[a,b]内,即控制现在是29页\一共有76页\编辑于星期六例6

对某产品的表面进行腐蚀刻线试验,设腐蚀深度Y与时间x的结果如下表:时间x(秒)深度Y(mm)56102030405060659046813161719252529Y=a+bx+12046(1)求Y与x的相关关系;(2)当秒时的置信度为95%置信区间;(3)要深度在10~21之间时腐蚀时间应如何控制。解:1)在xy坐标系上将描出的散点图由图看出点在一条直线附近,因此可假设Y与x之间有线性相关关系.设为:现在是30页\一共有76页\编辑于星期六显著性检验:参数估计:现在是31页\一共有76页\编辑于星期六预测:控制:现在是32页\一共有76页\编辑于星期六

方法——通过适当的变量变换,化成一元线性回归问题进行分析处理.两边取对数可化为一元线性回归的问题现在是33页\一共有76页\编辑于星期六两边取对数曲线回归方程现在是34页\一共有76页\编辑于星期六例7

表9.18是1957年美国旧轿车价格的调查资料,今以x表示轿车的使用年数,Y表示相应的平均价格(以美元计),求Y关于x的回归方程.表

9.18年数x价格Y123456789102651194314941087765538484290226204在MATLAB中求解首先作散点图x=1:1:10;y=[2651,1943,1494,1087,765,538,484,290,226,204];plot(x,y,'.r')现在是35页\一共有76页\编辑于星期六现在是36页\一共有76页\编辑于星期六选择模型变量变换数据变换xx=x;yy=log(y);求回归方程polytool(xx,yy,1)现在是37页\一共有76页\编辑于星期六现在是38页\一共有76页\编辑于星期六线性假设的显著性检验线性回归效果高度显著.代回原变量,得曲线回归方程现在是39页\一共有76页\编辑于星期六小结1.回归分析的任务2.一元线性回归的步骤3.可化为一元线性回归的问题研究变量之间的相关关系(1)推测回归函数;(2)建立回归模型;(3)估计未知参数;(4)进行假设检验;(5)预测与控制.关键:选择适当的变量代换.现在是40页\一共有76页\编辑于星期六4.2多元线性回归分析现在是41页\一共有76页\编辑于星期六多元线性回归模型

多元线性回归的参数估计、线性相关性的检验以及预测控制等问题都可采用一元线性回归类似的方法求解。现在是42页\一共有76页\编辑于星期六现在是43页\一共有76页\编辑于星期六化简可得参数估计:达到最小.使误差平方和现在是44页\一共有76页\编辑于星期六正规方程组现在是45页\一共有76页\编辑于星期六最大似然估计值P元经验线性回归方程正规方程组的矩阵形式现在是46页\一共有76页\编辑于星期六残差平方和估计量的性质:离差平方和回归平方和现在是47页\一共有76页\编辑于星期六F检验法:线性相关性的显著性检验:现在是48页\一共有76页\编辑于星期六多元线性回归

1.确定回归系数的点估计值,用命令:

b=regress(Y,X)

2.求回归系数的点估计和区间估计,并检验回归模型,用命令:

[b,bint,r,rint,stats]=regress(Y,X,alpha)

3.画出残差及其置信区间,用命令:

rcoplot(r,rint)附:MATLAB中回归分析的实现现在是49页\一共有76页\编辑于星期六符号说明(1)现在是50页\一共有76页\编辑于星期六(2)alpha为显著性水平,默认为0.05;(3)bint为回归系数的区间估计;(4)r与rint分别为残差及其置信区间;

(5)stats是用于检验回归模型的统计量,有三个数值,第一个是相关系数r2,其值越接近于1,说明回归方程越显著;第二个是F值,F>F1-alpha(p,n-p-1)时拒绝H0,F越大,说明回归方程越显著;第三个是与F对应的概率p,p<alpha时拒绝,回归模型成立.现在是51页\一共有76页\编辑于星期六身高143145146147149150153154腿长8885889192939395身高155156157158159160162164腿长969897969899100102例1

测得16名女子的身高和腿长如下(单位:cm):试研究这些数据之间的关系.现在是52页\一共有76页\编辑于星期六输入数据x=[143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164]’;X=[ones(16,1),x];Y=[88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102]’;回归分析及检验[b,bint,r,rint,stats]=regress(Y,X);b,bint,stats现在是53页\一共有76页\编辑于星期六现在是54页\一共有76页\编辑于星期六残差分析rcoplot(r,rint)预测及作图z=b(1)+b(2)*xplot(x,Y,’k+’,x,z,’r’)数据比较残差图形预测图形数据比较帮助程序运行结果现在是55页\一共有76页\编辑于星期六一元多项式回归

1.确定多项式系数,用命令:

[p,S]=polyfit(x,y,m)也可使用命令:polytool(x,y,m)

结果产生一个交互式的画面,画面中有拟合曲线和y的置信区间,左下方的Export可以输出参数.现在是56页\一共有76页\编辑于星期六2.预测和预测误差估计用命令:求回归多项式在x处的预测值Y.[Y,DELTA]=polyconf(p,x,S,alpha)

求回归多项式在x处的预测值Y以及预测值的显著性为1-alpha的置信区间Y±DELTA,alpha的默认值是0.05.一元多项式回归可化为多元线性回归求解.Y=polyval(p,x)现在是57页\一共有76页\编辑于星期六例2

下面给出了某种产品每件平均单价Y(元)与批量x(件)之间的关系的一组数据.x202530354050y1.811.701.651.551.481.40x606570758090y1.301.261.241.211.201.18试用一元二次多项式进行回归分析.现在是58页\一共有76页\编辑于星期六输入数据x=[20,25,30,35,40,50,60,65,70,75,80,90];y=[1.81,1.70,1.65,1.55,1.48,1.40,1.30,1.26,1.24,1.21,1.20,1.18];作二次多项式回归[p,S]=polyfit(x,y,2)预测及作图Y=polyconf(p,x,y)plot(x,y,’b+’,x,Y,’r’)回归结果残差图形预测图形帮助程序运行结果现在是59页\一共有76页\编辑于星期六化为多元线性回归X=[ones(12,1)x’(x.^2)’];[b,bint,r,rint,stats]=regress(y’,X);b,stats与前面的结果一致.现在是60页\一共有76页\编辑于星期六多元二项式回归rstool(x,y,’model’,alpha)其中,输入数据x,y分别为n×m矩阵和n维列向量;alpha为显著性水平,默认为0.05;model为下列四种模型中的一种,输入相应的字符串,默认为线性模型.现在是61页\一共有76页\编辑于星期六

rstool的输出是一个交互式画面,画面中有m个图形,分别给出了一个独立变量xi与y的拟合曲线,以及y的置信区间,此时其余m-1个变量取固定值.可以输入不同的变量的不同值得到y的相应值.图的左下方有两个下拉式菜单,一个用于传送回归系数、剩余标准差、残差等数据;另一个用于选择四种回归模型中的一种,选择不同的回归模型,其中剩余标准差最接近于零的模型回归效果最好.现在是62页\一共有76页\编辑于星期六现在是63页\一共有76页\编辑于星期六例3

设某商品的需求量与消费者的平均收入、商品价格的统计数据如下,建立回归模型,预测平均收入为1000,价格为6时的商品需求量.需求量10075807050收入10006001200500300价格57668需求量659010011060收入400130011001300300价格75439现在是64页\一共有76页\编辑于星期六选择纯二次模型,即数据输入x1=[1000,600,1200,500,300,400,1300,1100,1300,300];x2=[5,7,6,6,8,7,5,4,3,9];y=[100,75,80,70,50,65,90,100,110,60]';x=[x1'x2'];回归、检验与预测rstool(x,y,'purequadratic')回归图形回归结果帮助程序运行结果现在是65页\一共有76页\编辑于星期六化为多元线性回归求解x1=[1000,600,1200,500,300,400,1300,1100,1300,300];x2=[5,7,6,6,8,7,5,4,3,9];y=[100,75,80,70,50,65,90,100,110,60]';X=[ones(10,1)x1'x2'(x1.^2)'(x2.^2)'];[b,bint,r,rint,stats]=regress(y,X)现在是66页\一共有76页\编辑于星期六回归系数的点估计以及区间估计现在是67页\一共有76页\编辑于星期六残差及其置信区间现在是68页\一共有76页\编辑于星期六检验回归模型的统计量现在是69页\一共有76页\编辑于星期六逐步回归分析在实际问题中,影响因变量的因素很多,而这些因素之间可能存在多重共线性.为得到可靠的回归模型,需要一种方法能有效地从众多因素中挑选出对因变量贡献大的因素.如果采用多元线性回归分析,回归方程稳定性差,每个自变量的区间误差积累将影响总体误差,预测的可靠性差、精度低;另外,如果采用了影响小的变量,遗漏了重要变量,可能导致估计量产生偏倚和不一致性.现在是70页\一共有76页\编辑于星期六选择“最优”回归方程的方法

1.从所有可能的变量组合的回归方程中选择最优者;

2.从包含全部变量的回归方程中逐次剔除不显著因子;

3.从一个变量开始,把变量逐个引入方程;

4.“有进有出”的逐步回归分析.

“最优”的回归方程应该包含所有有影响的变量而不包括影响不显著的变量.现在是71页\一共有76页\编辑于星期六

逐步回归分析法在筛选变量方面比较理想,是目前较常用的方法.它从一个自变量开始,根据自变量作用的显著程度,从大到小地依次逐个引入回归方程,但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉.引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步,对于每一步,都进行检验,以确保每次引入新的显著性变量前回归方程中只包含作用显著的变量.反复进行上面的过程,直到没有不显著的变量从回归方程中剔除,也没有显著变量可引入到回归方程.现在是72页\一共有76页\编辑于星期六函数:stepwise用法:stepwise(x,y,inmodel,alpha)符号说明:

x—自变量数据,为n×m矩阵;

y—因变量数据,为n×1矩阵;

inmodel—由矩阵x列的指标构成,表明初始模型中引入的自变量,默认为全部自变量;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论