线性回归推导及实例_第1页
线性回归推导及实例_第2页
线性回归推导及实例_第3页
线性回归推导及实例_第4页
线性回归推导及实例_第5页
免费预览已结束,剩余5页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、X与Y的关系数据点基本落在一条直线附近。这告诉我们,变量X与Y的关系大致可看作是线性关系,即它们之间的相互关系可以用线性关系来描述。但是由于并非所有的数据点完全落在一条直线上,因此并没有确切到可以唯一地由一个X值确定一个Y值的程度。其它因素,诸如其它微量元素的含量以及测试误差等都会影响Y的测试结果。如果我们要研究X与Y的关系,可以作线性拟合我们称(2-1-1)式为回归方程,a与b是待定常数,称为回归系数。从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。二、最小二乘法原理如果把用回归方程=十双计算得到的川i值(i=1,2,n)称为回归值,那么实际测量值yi与回归值

2、i之间存在着偏差,我们把这种偏差称为残差,记为ei(i=1,2,3,n)。这样,我们就可以用残差平方和来度量测量值与回归直线的接近或偏差程度。残差平方和定义为:Q三0(祖=J卜当月一跖喧京必厘方西)口(2-1-2)所谓最小二乘法,就是选择a和b使Q(a,b)最小,即用最小二乘法得到的回归直线?津,8工是在所有直线中与测量值残差平方和值总是存在的。下面讨论的三、正规方程组根据微分中求极值的方法可知,Q最小的一条。由(2-1-2)式可知Q是关于a,b的二次函数,所以它的最小a和b的求法。Q(a,b)取得最小值应满足逗=oda3Q门-U(2-1-3)由(2-1-2)式,并考虑上述条件,则da=-2工

3、仇-0占3匹=Q(2-1-4)(2-1-4)式称为正规方程组。解这一方程组可得(2-1-5)其中(2-1-6)MH1HM也-初%-刃=%乂一2-1典i-12七闻一的=春-(2-1-7)(2-1-8)(2-1-9)1-114储1式中,Lxy称为xy的协方差之和,Lxx称为x的平方差之和。如果改写(2-1-1)式,可得1P切一人k+&芯或y-y-x-x由此可见,回归直线是通过点(乱了)的,即通过由所有实验测量值的平均值组成的点。从力学观点看,(冗用即是n个散点(玉,办)的重心位置。现在我们来建立关于例1的回归关系式。将表2-1-1的结果代入(2-1-5)式至(2-1-7)式,得出a=1231.65

4、b=-2236.63因此,在例1中灰铸铁初生奥氏体析出温度(y)与氮含量(x)的回归关系式为y=1231.65-2236.63x四、一元线性回归的统计学原理如果X和Y都是相关的随机变量,在确定x的条件下,对应的y值并不确定,而是形成一个分布。当取确定的值时,Y的数学期望值也就确定了,因此Y的数学期望是x的函数,即E(Y|x=x)=f(x)(2-1-10)这里方程f(x)称为Y对X的回归方程。如果回归方程是线性的,则E(Y|X=x)=a+3x(2-1-11)或Y=a+3x+e(2-1-12)其中一随机误差从样本中我们只能得到关于特征数的估计,并不能精确地求出特征数。因此只能用f(x)的估计式ya

5、门工来取代(2-1-11)式,用参数a和b分别作为“和3的估计量。那么,这两个估计量是否能够满足要求呢?1 .无偏性把(x,y)的n组观测值作为一个样本,由样本只能得到总体参数“和3的估计值。可以证明,当满足下列条件:(1)(xi,yi)是n个相互独立的观测值(2)是服从也”)分布的随机变量则由最小二乘法得到的a与b分别是总体参数“和3的无偏估计,即E(a)=aE(b)=3由此可推知AE()=E(y)即y是回归值在某点的数学期望值。2 .a和b的方差可以证明,当n组观测值(xi,yi)相互独立,并且D(yi尸(y2,时,a和b的方差为。电二哈(2-113)口-Lpf同方%n(2-1-14)以上

6、两式表明,a和b的方差均与Xi的变动有关,Xi分布越宽,则a和b的方差越小。另外a的方差还与观测点的数量有关,数据越多,a的方差越小。因此,为提高估计量的准确性,Xi的分布应尽量宽,观测点数量应尽量多。建立多元线性回归方程,实际上是对多元线性模型(2-2-4)进行估计,寻求估计式(2-2-3)的过程。与一元线性回归分析相同,其基本思想是根据最小二乘原理,求解力产使全部观测值用与回归值H的残差平方和达到最小值。由于残差平方和Q力-珀3,力北一(44瓦西1+如豆+40)广1-1J(2-2-5)是包劣凡的非负二次式,所以它的最小值一定存在。根据极值原理,当Q取得极值时,稀/卜上,应满足由(2-2-5

7、)式,即满足,乂+%由+3%)卜口i-1见习力一小十包。十%十%。)*=0U1+/%+%和)%=0一ZfM一色十仇。十%玉十%)5=。(2-2-6)U-i(2-2-6)式称为正规方程组。它可以化为以下形式HX*叫十(20也十(2?揖尹川十(工当bHri-lUL睥.JBRRDm十(工再;曲十天-十01,电=工碣乂i-li-Ji-li-i:肃X-M(%泡十(%鼻沟十(Z%玉,泡十十但片)=受与凹(2-2-7)i-li-lili-li-l如果用A表示上述方程组的系数矩阵可以看出A是对称矩阵。则有(2-2-8)式中X是多元线性回归模型中数据的结构矩阵,比是结构矩阵X的转置矩阵。(2-2-7)式右端常数

8、项也可用矩阵D来表示因此(2-2-7)式可写成(2-2-9)(2-2-10)(2-2-11)Ab=D或(xxyb-XY如果A满秩(即A的行列式*)那么A的逆矩阵A1存在,则由(2-10)式和(2-11)式得/的最小二乘估计为(2-2-12)b=/”=五幻7里也就是多元线性回归方程的回归系数。为了计算方便往往并不先求(无幻“,再求b,而是通过解线性方程组(2-2-7)来求bo(2-2-7)是一个有p+1个未知量的线性方程组,它的第一个方程可化为(2-2-13)瓦一了一瓦司一与片&网式中1x=-X八12邛盟2-1(2-2-14)将(2-2-13)式代入(2-2-7)式中的其余各方程,得上他十工1也

9、十十上1/7=%2A+4向+4%=474al十/与十十上浮%=上期(2-2-15)其中上声=工%-弓)(弧-冗)=-(工叼)(%)2-11-1#i-1国龙程超J=工函-用)3-于)=工再涓-(工际立卬、用】内储15(2-2-16)将方程组(2-2-15)式用矩阵表示,则有Lb=F(2-2-17)其中于是b=L-1F(2-2-18)因此求解多元线性回归方程的系数可由(2-2-16)式先求出L,然后将其代回(2-2-17)式中求解。求b时,可用克莱姆法则求解,也可通过高斯变换求解。如果把b直接代入(2-2-18)式,由于要先求出L的逆矩阵,因而相对复杂一些。例2-2-1表2-2-1为某地区土壤内含

10、植物可给态磷(y)与土壤内所含无机磷浓度(X1)、土壤内溶于K2CO溶液并受澳化物水解的有机磷浓度(x2)以及土壤内溶于&CQ溶液但不溶于澳化物的有机磷(x3)的观察数据。求y对X1,X2,X3的线性回归方程。表2-2-1土壤含磷情况观察数据样本序号土堞中含碟星ppm土漂中植梭可给态-y白卬Y03q,邦Eri心10.4JZ153420.42/163603工.1S377J4061刀61547.4五耳461.7心J2j77191H61R101幻1P消911C然173931Q125%1125111io.y3711:7b1223.14C11406n制1snP4?71421(5gY汨1523.1561639516q3614F0.01(2,10),说明回归方程是高度显著的。下面对回归系数作显著

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论