应用数理统计统计第26次课_第1页
应用数理统计统计第26次课_第2页
应用数理统计统计第26次课_第3页
应用数理统计统计第26次课_第4页
应用数理统计统计第26次课_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章第五章 线性回归模型线性回归模型1.线性模型的建立线性模型的建立2.最小二乘法估计参数最小二乘法估计参数3.回归模型的检验,预测与控制回归模型的检验,预测与控制 在研究实际问题时,往往归结到讨论若干变量之间在研究实际问题时,往往归结到讨论若干变量之间的关系。变量之间的关系大致上可分作两类,一类是具的关系。变量之间的关系大致上可分作两类,一类是具有确定性关系的所谓函数关系,它的特点是由某些变量有确定性关系的所谓函数关系,它的特点是由某些变量的值能确定另外一些变量的值,如圆半径与圆面积的关的值能确定另外一些变量的值,如圆半径与圆面积的关系是确定定的函数关系,又两物体之间的引力与两物体系是确定

2、定的函数关系,又两物体之间的引力与两物体之间的距离及它们的质量的关系也是函数函数关系。之间的距离及它们的质量的关系也是函数函数关系。 另一类是非确定性关系另一类是非确定性关系, ,例如父母身高与子女身高之例如父母身高与子女身高之间的关系间的关系, ,某种大豆脂肪含量与蛋白质含量之间的关系,某种大豆脂肪含量与蛋白质含量之间的关系,这类变量之间有非确定性的关系称为相关关系。回归分这类变量之间有非确定性的关系称为相关关系。回归分析是研究相关关系的一种统计方法。析是研究相关关系的一种统计方法。线性回归数学模型线性回归数学模型例如:今有某品种大豆脂肪含量例如:今有某品种大豆脂肪含量 X(%)与蛋白质含量

3、与蛋白质含量Y(%)的测定结果如下表,试分析这些数据蕴含的关系。的测定结果如下表,试分析这些数据蕴含的关系。16.5 17.5 18.5 19.5 20.5 21.5 22.5 23.5 24.543.5 42.6 42.6 40.6 40.3 38.7 37.2 36.0 34.0XY将每一对观察值在同一将每一对观察值在同一直角坐标系中描出,得直角坐标系中描出,得散点图如右:散点图如右:从散点图看出,从散点图看出, 与与具有线性相关关系。具有线性相关关系。xy 一般地,设随机变量一般地,设随机变量 Y 与变量与变量 X 有相关关系,作有相关关系,作 次次独立试验,得独立试验,得 对观测值:对

4、观测值:nn 1122,.,nnx yxyxy用试验数据对作出散点图,若如下图,则显示用试验数据对作出散点图,若如下图,则显示 Y 与与 X 有线性有线性关系的趋势。关系的趋势。01yx这里,这里,01iiiyx011200,YxN对每一确定的对每一确定的 ,建立数学模型:,建立数学模型:x(一元线性回归模型)(一元线性回归模型) 0101E YExx则有则有 回归分析的任务:回归分析的任务:1.找出回归方程式;找出回归方程式;2.检验方程有效与否;检验方程有效与否;3.当方程有效时对当方程有效时对Y 值作预测,或对自变量作控制。值作预测,或对自变量作控制。), 0(. ., 2 , 1,.,

5、 2 , 1),(),(20Ndi inixyniyxYXiiiiii相互独立,即于是有回归方程组的观察值为最小二乘法最小二乘法考察考察220101,iiiQyx01,我们希望求出的我们希望求出的 能使能使 最小最小01,Q最小二乘估计最小二乘估计 最小二乘法最小二乘法01,Q分别求分别求 对对 的偏导,的偏导,01,并令各偏导为零,得方程组并令各偏导为零,得方程组010iiyx010iiiyxx可解得:可解得:其中其中 222iixxxxxn xL记作记作iiiixyxxyyx ynx yL记作记作因此因此101,xyxxLyxL同理把同理把 222iiyyyyyn yL记作记作1012,i

6、iixxyyyxxx 1122,.,nnx yxyxy一般地,对测定出来的数据一般地,对测定出来的数据但变量但变量 X 与与Y 是否真有线性相关的关系?是否真有线性相关的关系? 这是需要作检验的。这是需要作检验的。一元线性回归统计假设检验一元线性回归统计假设检验1. F 检验检验2TiyySyyL把把 Y 的观测值的总离差平方和的观测值的总离差平方和分解成两部分:分解成两部分:21RixyUyyL21eiiyyxyQyyLL即:即:TReSUQ回归平方和回归平方和剩余平方和剩余平方和用最小二乘法总是可以求出一条回归直线:用最小二乘法总是可以求出一条回归直线:01yx 反映了自变量反映了自变量

7、X 对随机变量对随机变量 Y 的影响,的影响, 反映了试验误差和其它因素对反映了试验误差和其它因素对 Y 的影响。的影响。 TReSUQ中中10,我们就来检验这个假设。,我们就来检验这个假设。10若假设若假设 H0 : 成立:则成立:则从而统计量从而统计量1,22ReUFFnQn 2222221 ,1 ,2eTRQSUnn对给定的检验水平对给定的检验水平 ,H0 的拒绝域为:的拒绝域为:11,2FFnF 单侧检验单侧检验 这时认为回归方程很大程度上是成立的,是有效的,这时认为回归方程很大程度上是成立的,是有效的,或者说或者说 X 与与Y 的线性相关关系是有统计意义的。的线性相关关系是有统计意义

8、的。若变量若变量 X 与与 Y 没有相关关系,即回归方程没有相关关系,即回归方程 中中01yxRUeQ例如:今有某品种大豆脂肪含量例如:今有某品种大豆脂肪含量 与蛋白质含量与蛋白质含量%x%y的测定结果如下表:的测定结果如下表:16.5 17.5 18.5 19.5 20.5 21.5 22.5 23.5 24.543.5 42.6 42.6 40.6 40.3 38.7 37.2 36.0 34.0XY试找出试找出 X 与与 Y 的线性回归方程并对方程的有效性作假设检验。的线性回归方程并对方程的有效性作假设检验。解5 .2095 .184, 5 .3995 .355xy223842.29 2

9、0.559.957217.29 20.5 39.570.5141289 39.585.5xxxyyyLLL 1011.175,63.5875,xyxxLyxL 63.5875 1.175yx所以为所求经验回归方程110.95018.8 88774.4,780774.45.6774.496825.6/7(1,7)5.59:0RxyeyyxyReULQLLUFQnFH因此应拒绝假设,即x与y之间有显著相关关系 二、参数最小二乘估计的性质二、参数最小二乘估计的性质性质1性质2011()()0niiiyyn yxnii=1, )x y即点(在回归直线上01011111nnniiiiiyxxyn1n性质

10、3、2221022122111,(2),1()(3),xxxxxxxxxNNlnlxCovlxxyxNxnl 10000(1)证明(1) 1110111111(),11()()()nxyiiixxxxnniiiiiixxxxlxx yllExxxxx xll 2221211()niixxxxDxxll010110011221122()(),()()2( ,)1()2( ,),xxEE yxxxDD yxDyCov yxx DCov yxnxlniixxniiixxxxnlyyCovxxlyCov12110)(0),()(1,()其中01111211(2)(,)(,)( ,)()0().xxCo

11、vCov yxCov yxxDxDl 0101200112222222222(3)( )( )()2(,)()121()1()xxxxxxxxxxyxE yxD yDxCovx Dxxxxnlllxxxxnlnl由性质42211212112201222211() ,() ,() ,(1),()(2 ),:= 0,(1)(2 ).() =(+)nnTtRtttnetttTReRxxxyReRennTttttttSyyUyyQyySUQUllUQUQHnSyyyyyy记则与相 互 独 立且 当成 立 时,证 明2211110101111112110=() +()2()()2()()()()=()(

12、)()()()()0,=(nnntttttttttneRttttnnttttttttnttttxyxxRyyyyyyyyQUyyyyyyyyyxxyyyxxxxllU其中而2n22111t=11)()()nttxxtxyxxl例5.1.1 测16名成年女子身高与腿长所得数据如下(单位:厘米)143 145 146 147 149 150 153 154 155888588919293939596XY请写出线性模型的回归方程和检验方程显著性。见书204页解94.4375,153.625yx609.75,438.625,339.9375xxxyyyLLL1010.719,16.07,xyxxLyx

13、L 16.070.7191.175yx 所以为所求11315.217,24.7205RxyeyyxyULQLL0.9501315.217178.52(1,14)4.6/(162)24.7205/14=0.05:0,ReUFFQH因此在显著性水平下拒绝假设即回归方程显著。现在检验回归方程的显著性将有关数据填入下列方差分析表列出回归方差分析表 变差来源 平方和自由度均 方 差F值临界值 回 归315.2171315.217178.524.6 剩余24.7205141.76575 总 变 差339.937515原假设不成立,即认为回归方程有检验意义。 一元线性回归的预测与控制一元线性回归的预测与控制

14、设设 Y 与与 X 的一元线性回归方程是的一元线性回归方程是01yx与与 对应的未来值对应的未来值 的取值的估计称之为预测,的取值的估计称之为预测,0 x 由由 的取值限制来确定的取值限制来确定 的取值范围谓之控制。的取值范围谓之控制。xy1. 点预测点预测y0 x对给定的对给定的 由由 算出的算出的 值为值为 的点预测值。的点预测值。010yx0y2. 区间预测区间预测0y对给定的对给定的 求出求出 的置信度为的置信度为 的取值区间(置信区间)称作的取值区间(置信区间)称作 的预测区间。的预测区间。0 x0 x00100yx0 x1 一元线性回归分析之预测与控制一元线性回归分析之预测与控制2

15、. 区间预测区间预测yy0 x对给定的对给定的 由由 求出求出 以置信度以置信度 的取值区间(置信区间)称作的取值区间(置信区间)称作 的预测区间。的预测区间。01yx1考察统计量:考察统计量:002202112iiiyyTxxyynnxx0020112exxyyxxQnnL (2)t n 一元线性回归分析之预测与控制一元线性回归分析之预测与控制2222(2) (2)/(2)iieyyQVnUTt nVn220000020()10+)(0,1)()1+xxxxxxyyNnLyyUNxxnL,,(11证明 一元线性回归分析之预测与控制一元线性回归分析之预测与控制y对给定的置信度对给定的置信度 ,

16、得,得 的预测区间:的预测区间:1122Ttn即:即:00000yxyyx200121212exxxxQxtnnnL其中其中y的均值的置信区间:的均值的置信区间:00000yxyyx200121212exxxxQxtnnnL其中其中 一元线性回归分析之预测与控制一元线性回归分析之预测与控制二.控制对给定的 求 的范围12yyy( ),( )yx yxx其中2121( )(2) 1() /exxxtnxxLn( )( )1P yxyyx 12( ,),x x设 满足x则有12( )( )yyxyyx1/2( )exu1011/22011/2eeyxuyxu111/201221/2011()1()

17、eexyuxyu设其中例5.3.2 测16名成年女子身高与腿长所得数据如下(单位:厘米)143 145 146 147 149 150 153 154 155888588919293939596XY请在例5.2.1基础上设 求相应的 的预测值和预测区间见书216页解16.070.7191.175yx 0170 xx0y016.070.7191.175*170106.16y 00000yxyyx200121()(2) 1() /exxxtnxxLn0(102.666109.654)y代入有关数据后得所求预测区间:预测区间为其中01 120,nnYxxN关系式:个因素,考虑如下线性假设有的因素往往

18、不止一个,一般的影响kxxyk,1011,1,ttktktyxxtn111101212111,1kknknnnkxxyxxYXyxx用矩阵来表示上式多元线性回归模型于是上式变为2( )0,( , )nYXECovI 称此模型为高斯马尔柯夫线性模型,并简记为2( ,)nY XI 回归分析的任务:回归分析的任务:1.找出回归方程式;找出回归方程式;2.检验方程有效与否;检验方程有效与否;3.当方程有效时对当方程有效时对Y 值作预测与对自变量作控制。值作预测与对自变量作控制。多元线性回归模型的估计多元线性回归模型的估计 一、最小二乘估计2221122)()(kikiiniiiiXXYYYeQkjeQ

19、jij, 20)(2 多元线性回归模型的“残差平方和”为: 要使“残差平方和”达到最小,其充分条件是即:0)(20)(20)(2221222122211kikikiikikikiikikiiXXXYQXXXYQXXYQ 化简得正规方程组 0001112121222212eXeeeXXXXXXeXeXenknkkniKiiii 两边同乘以X的转置矩阵,得 eXXXYX XXYX1()X XX YeXY因为样本回归函数为即的最小二乘估计为:(向量)左乘方程两边,得参数存在,用XXXX1)( 年 份 (百万元) (万吨) (万吨)19911992 -19992000 1 2 - 910 29 24

20、- 28 27 45 42 - 44 43 16 14 - 15 15 29.134425.2446 -27.471326.90770.01811.5490 - 0.27951.1931 3.2410.24 -0.640.04 合合 计计 272 441 147 - 8.027 29.600 iY2X 3X iY2)(iiYY 2)(YYi之间的线性回归方程。与两种重点产品销售量。求利润年的统计资料如表所示年至。现有该公司、重点产品的销售量主要取决于甲、乙两种:某公司的利润例20001991132XXYi解:线性回归模型设定如下:102133221, iXXYiiii272429Y154311

21、442116451X321YXXX)(1其中: 2173648514764851946144114744110154311442116451151416434245111XX 08554377. 00153252. 05848806. 00153252. 008023873. 03143236. 35848806. 03143236. 38594164.1541)(1XXXXXX 401312005272272429151416434245111YX样本回归方程为 : 320995. 15636. 08196.13XXY表示:5636.02 其它条件(乙产品销售量)不变时,甲产品销售量每增加一

22、万吨,公司的利润平均增加0.5636百万元; 表示:0995.13 其它条件(甲产品销售量)不变时,乙产品销售量每增加一万吨,公司的利润平均增加1.0995百万元; 表示:8196.131 如果甲、乙两种产品的销售量均为零, 则公司平均亏损13.8196百万元。 0995.15636.08196.13)(1321YXXX 二、参数最小二乘估计的(统计)性质二、参数最小二乘估计的(统计)性质性质1、无偏性:性质2、kkEEE11)(page1982121,()LX X Cov(),0e(2)Cov()0, .( )0,1,teieE etn (1)E( )性质4、性质3、 ,( , )(2)YY

23、 YCov e eY YY Yee(1)Cov(Y) Cov()+2()(1)E e enk性质5 为 的最优线性无偏估计量,这里最优指协方差矩阵最小2121122(1)( ,),0,(2)(3)(1)knneeNLeNAAIXL XQQnk 其中:与相互独立性质6 设 ,则2(0,)nnNI性质7 21,(0,.nN设为总体)的样本 则 是 的极大似然估计量性质8221121212(0,),1() ,()(1)(2 ),0,()nnnnTttttnRttTReReRkNISyyyynUyySUQUQUk设并 记则与相 互 独 立且 当时 三、多元线性回归方程的显著性检验三、多元线性回归方程的显著性检验 F检验:检验因变量和诸自变量之间是否存在显著的线性关系 1、检验的假设:0230kH1:不全为零:), 3,2(1kjHj检验的具体步骤:检验的具体步骤: 0/2( ,1)(1)ReUkHFF k nkQnk、成立,则222111()()nnniiiiTeRiiiYYYYYYSQU注:(),即3、根据样本数据,计算F统计量的值 14( ,1)FFk nk、对于给定的显著性水平 ,查 分布表确定临界值105( ,1),FFk nkH、拒绝原假设,说明回归方程显著 变差来源 平方和 自由度 方 差F统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论