版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、线性回归线性回归(hugu)计算计算第一页,共56页。根据根据(gnj)(gnj)因变量与自变量之间的关系不同,可以分为两种类型:因变量与自变量之间的关系不同,可以分为两种类型:函数关系函数关系 统计关系统计关系 第1页/共56页第二页,共56页。1.函数函数(hnsh)关系关系 即对两个变量即对两个变量X,Y来说,当来说,当X值值确定后,确定后,Y值按照一定的规律唯一确定,值按照一定的规律唯一确定,即形成即形成(xngchng)一种精确的关系。一种精确的关系。 例如例如:微积分学中所研究的一般变量之间的微积分学中所研究的一般变量之间的函数关系就属于此种类型。函数关系就属于此种类型。 第2页/
2、共56页第三页,共56页。2.统计统计(tngj)关系关系 即当即当X值确定后,值确定后,Y值不是值不是(b shi)唯一确定的,唯一确定的,但大量统计资料表明,这些变量之间还但大量统计资料表明,这些变量之间还是存在着某种客观的联系。是存在着某种客观的联系。 例如:图例如:图9.1在直角坐标平面上,标出了在直角坐标平面上,标出了10个观测点的坐标位置,他们表示以家庭为单个观测点的坐标位置,他们表示以家庭为单位,某种商品年需求量与该商品价格之间位,某种商品年需求量与该商品价格之间的的10对调查数据。对调查数据。 第3页/共56页第四页,共56页。图图9-19-1第4页/共56页第五页,共56页。
3、回归回归(hugu)分析分析(Regression Analysis) 就是应用统计方法,对大量的观测数据进行整就是应用统计方法,对大量的观测数据进行整理、分析和研究,从而理、分析和研究,从而(cng r)得出反映事物内部规律得出反映事物内部规律性的一些结论性的一些结论(数学模型数学模型)。 第5页/共56页第六页,共56页。统计统计(tngj)关系关系特征特征 观测点散布在统计关系直线的周围,此种情况说明观测点散布在统计关系直线的周围,此种情况说明Y的变化除了受自变量的变化除了受自变量X影响以外,还受其他因素的影响。影响以外,还受其他因素的影响。因此试图建立这样一个回归模型,通过对此模型因此
4、试图建立这样一个回归模型,通过对此模型所作的一些假设,可以体现出上述统计关系所刻划的特征。所作的一些假设,可以体现出上述统计关系所刻划的特征。因变量因变量Y随自变量随自变量X有规律的变化,而统计关系直线描述了这一变化的趋势。有规律的变化,而统计关系直线描述了这一变化的趋势。第6页/共56页第七页,共56页。假设假设(jish)(jish)(2)这些这些Y的概率分布的均值,有规律的随的概率分布的均值,有规律的随X变化而变化变化而变化(1)对于自变量的每一水平对于自变量的每一水平X,存在着,存在着Y的一个概率分布;的一个概率分布;第7页/共56页第八页,共56页。Y与与X具有统计具有统计关系关系(
5、gun x)而且是线性而且是线性 建立建立回归回归(hu(hugu)gu)模型模型Yi=0+1Xi+i (i=1,2,n) 其中其中,(X (X i,i,Y Yi i) )表示表示(X,Y)(X,Y)的第的第i i个观测值,个观测值,0 0 , , 1 1为参为参数,数,0 0+1 1X Xi i为反映统计关系直线的分量,为反映统计关系直线的分量, i i为为反映在统计关系直线周围散布的随机分量反映在统计关系直线周围散布的随机分量 i iN N (0,(0,2 2) )。第8页/共56页第九页,共56页。 Yi服从服从(fcng)正态分布正态分布E(Yi)=0+1Xi; 各各Yi间相互独立间相
6、互独立 YiN(0+1Xi,2) 。22)(iY第9页/共56页第十页,共56页。图图9-2第10页/共56页第十一页,共56页。最小二乘法最小二乘法(chngf) Y与与X之间之间为线性关系为线性关系 选出一条最能反选出一条最能反映映Y与与X之间关系之间关系(gun x)规律的直线规律的直线 第11页/共56页第十二页,共56页。Yi=0+1Xi+i 0和和1均未知均未知 根据样本根据样本(yngbn)数据数据对对0和和1进行估计进行估计 0和和1的估计的估计(gj)值为值为b0和和b1 建立一元线性回归方程建立一元线性回归方程 XbbY10第12页/共56页第十三页,共56页。一般而言,所
7、求的一般而言,所求的b0和和b1应能使每个样本观测点应能使每个样本观测点(X i,Y i)与回归与回归(hugu)直线之间的偏差尽可能小,即使观察值与拟直线之间的偏差尽可能小,即使观察值与拟合值的误差平方和合值的误差平方和Q达到最小。达到最小。 图图9-4 回归方程原理图回归方程原理图第13页/共56页第十四页,共56页。令令 2110)(niiiXbbYQQ达到达到(d do)最小值最小值b0和和b1称为最小二乘估计量称为最小二乘估计量 微积分中极值微积分中极值(j zh)的必要条件的必要条件 niiiXbbYbQ1100)(2niiiiXXbbYbQ1101)(2 令偏导数为令偏导数为0n
8、iiniiYXbnb1110iniiniiniiYXXbXb112110解方程解方程第14页/共56页第十五页,共56页。nXXnYXYXXXYYXXbiniiniiiiiniiniii21211211)()()()(XbYb10(9-5)(9-5)(9-6)(9-6)第15页/共56页第十六页,共56页。b0,b1的特性的特性(txng)线性性线性性无偏性无偏性第16页/共56页第十七页,共56页。(1) 线性特性线性特性(txng) 由(由(9-5)得)得niiniiiniiniiiXXYXXXXYYXXb1211211)()()()(niiiiXXXXC12)(令令niiiYCb11则则
9、 表明表明(biomng)b1是是Yi的线性组合的线性组合 第17页/共56页第十八页,共56页。同理,可得同理,可得 niiiYkb10XCnkii1b0是是Yi线线性组合性组合(zh)第18页/共56页第十九页,共56页。(2) 无偏性无偏性可以证明可以证明b0和和b1分别是分别是0和和1的无偏估计的无偏估计(gj)(过程比较繁琐,参照第五章内容(过程比较繁琐,参照第五章内容有兴趣大家自己证明。)有兴趣大家自己证明。) 第19页/共56页第二十页,共56页。9.3.1 总平方和分解总平方和分解(fnji)YYYYYYiiiiniininiiiiYYYYYY121122)()()(niiii
10、YYYY10)(第20页/共56页第二十一页,共56页。图图9-5 总平总平方和分解方和分解(fnji)图图 第21页/共56页第二十二页,共56页。总离差平方和总离差平方和 niiYYSSTO12)(它表示它表示(biosh)没有没有X的影响,的影响,单纯考察数据中单纯考察数据中Y的变动情况。的变动情况。第22页/共56页第二十三页,共56页。回归回归(hugu)平方和平方和niiYYSSR12)(表示各表示各 的变动程度,该变动是由于回归直线的变动程度,该变动是由于回归直线中各中各Xi 的变动所引起的变动所引起(ynq)的,并且通过的,并且通过X对对Y的线性影响表现出来。的线性影响表现出来
11、。 iY第23页/共56页第二十四页,共56页。误差误差(wch)平方和平方和niiiYYSSE12)(表示各表示各Yi围绕所拟合的回归直线的变动围绕所拟合的回归直线的变动(bindng)程度程度 SSTO=SSR+SSE第24页/共56页第二十五页,共56页。SSE=SSTO-SSRSSE=SSTO-SSRniniiinYYSSTO1212)()(121221niniiinXXbSSR第25页/共56页第二十六页,共56页。SSTOniiYY10)(自由度自由度 T为为n-1 SSE0和和1用了用了两个两个(lin )正规方程正规方程 自由度自由度 E为为n-2 SSRniiYY10)(自由
12、度自由度 R为为1 第26页/共56页第二十七页,共56页。自由度的分解自由度的分解(fnji)可以表示为可以表示为n-1=1+(n-2)T=R+E第27页/共56页第二十八页,共56页。1SSRMSR 2nSSEMSE(9-10) (9-11)回归回归(hugu)均方均方误差误差(wch)均方均方第28页/共56页第二十九页,共56页。9.4.1 样本样本(yngbn)确定系数确定系数SSTOSSESSTOSSESSTOSSTOSSRr12(9-12) 注注:Y的总变差中能被的总变差中能被X解释解释(jish)的那部分所占的比率的那部分所占的比率第29页/共56页第三十页,共56页。r2的取
13、值范围的取值范围(fnwi)102 r样本的全部观察样本的全部观察(gunch)值都落在值都落在所拟和的回归直线上所拟和的回归直线上 SSE=0, r2=1 当当X与与Y无关,无关,Y的变差完的变差完全由于随机因素引起,全由于随机因素引起,此时,此时,SSR=0 r2=0 第30页/共56页第三十一页,共56页。样本样本(yngbn)相关系数相关系数2rrniiniiniiiYYXXYYXXr12121)()()(注注:r与与b1的分母均为正,分子的分母均为正,分子(fnz)相同相同,故故r与与b1有相同的符号。有相同的符号。 第31页/共56页第三十二页,共56页。相关相关程度程度完全线完全
14、线性相关性相关高度相关高度相关显著相关显著相关低度相关低度相关微相关微相关无线性无线性关系关系r r1 10.80.81 10.50.50.80.80.30.30.50.50 00.30.30 0第32页/共56页第三十三页,共56页。r的取值情况的取值情况(qngkung) 情况情况(qngkung)一一图图9-6第33页/共56页第三十四页,共56页。情况情况(qngkung)二二图图9-7第34页/共56页第三十五页,共56页。情况情况(qngkung)三三图图9-8第35页/共56页第三十六页,共56页。情况情况(qngkung)四四图图9-9第36页/共56页第三十七页,共56页。在
15、回归函数在回归函数E(Y)=0+1X中,如果中,如果1=0,则对于,则对于X的一切水平的一切水平E(Y)=0,说明,说明Y的变化与的变化与X的变化无关,因而的变化无关,因而(yn r),我们不能通过,我们不能通过X去预测去预测Y。所以,对模型。所以,对模型Yi=0+1Xi+i 检验检验1=0是否成立,等价于检验是否成立,等价于检验Y与与X之间是否存在线性关系。之间是否存在线性关系。 第37页/共56页第三十八页,共56页。为了检验为了检验1=0是否成立,需要构造一是否成立,需要构造一个合适个合适(hsh)的统计量,因此,首先讨论的统计量,因此,首先讨论b1的抽样分布。的抽样分布。第38页/共5
16、6页第三十九页,共56页。b1是观测是观测(gunc)值值Yi的线的线性组合性组合 Yi服从服从(fcng)正态分布且正态分布且相互独立相互独立 b1也服从正态分布也服从正态分布 第39页/共56页第四十页,共56页。以下可以以下可以(ky)证明证明niiXXb12212)()(b1的方差的方差(fn ch)第40页/共56页第四十一页,共56页。证明证明(zhng(zhngmng)mng):因为因为(yn wi) niiiYCb11且且Yi相互独立,其中相互独立,其中 niiiiXXXXC12)(niiniiiniiiXXYCYCb1221221212)()()()(所以,所以,b1服从服从
17、 )(,(1221niiXXN第41页/共56页第四十二页,共56页。在一元线性回归中,为了检验在一元线性回归中,为了检验Y对于对于X线性线性关系的统计关系的统计(tngj)显著性,对显著性,对1进行进行F检验检验1)提出)提出(t ch)假设:假设:H0:1=0,H1:10。 2) 构造并计算统计量构造并计算统计量:ERfSSEfSSRF 3)查)查F分布临界值表,得临界值分布临界值表,得临界值)2, 1 (nF4)比较:)比较: 接受接受H0,认为,认为Y与与X不存在一元线性关系。不存在一元线性关系。) 2, 1 (nFF第42页/共56页第四十三页,共56页。若若F )2,1(nF拒绝拒
18、绝(jju)H0,认为,认为Y与与X存在一元线性关系。存在一元线性关系。 表表9-1 方差分析表方差分析表第43页/共56页第四十四页,共56页。1)提出)提出(t ch)假设假设 H0: H1: 01012)构造并计算)构造并计算(j sun)统计量统计量 步步 骤:骤:)(11bsbt 21)()(XXMSEbsi3)查)查t分布临界值表分布临界值表 得临界值得临界值 )2(2/nt第44页/共56页第四十五页,共56页。4)比较)比较(bjio)若若 ,接受,接受(jishu)H0 t)2(2/nt若若 ,拒绝,拒绝H0 t)2(2/nt第45页/共56页第四十六页,共56页。步步 骤:
19、骤:1)提出)提出(t ch)假设假设 H0: =0H1: 02)计算)计算(j sun)简单相关系数简单相关系数r 3)查)查相关系数相关系数临界值表临界值表 得临界值得临界值 )2( nr是总体是总体Y与与X的线性相关系数的线性相关系数第46页/共56页第四十七页,共56页。4)比较)比较(bjio)若若 ,接受,接受(jishu)H0 rr若若 ,拒绝,拒绝H0 rr第47页/共56页第四十八页,共56页。计算计算(j sun)说明工业总产值说明工业总产值与货运总量之间是否线性相关与货运总量之间是否线性相关及相关程度。及相关程度。对所求得的回归方程进行线性对所求得的回归方程进行线性显著性
20、检验。显著性检验。=0.05对计算对计算(j sun)得出的回归系得出的回归系数进行检验。数进行检验。当工业总产值为当工业总产值为500亿元,置亿元,置信度为信度为1-=0.95时,预测货运时,预测货运总量总量Y0的双侧置信区间。的双侧置信区间。货运总量(亿吨)货运总量(亿吨)2.82.8 2.92.9 3.23.2 3.23.2 3.43.4 3.23.2 3.33.3 3.73.7 3.93.9 4.24.2工业总产值(工业总产值(1010亿元)亿元)2525272729293232343436363535393942424545第48页/共56页第四十九页,共56页。根据这些资料说明产量
21、与单位根据这些资料说明产量与单位成本的数量成本的数量(shling)关系。关系。对所求得的回归方程进行线性对所求得的回归方程进行线性显著性检验。显著性检验。=0.05对计算得出的回归系数进行检对计算得出的回归系数进行检验。验。假设假设2012年的计划产量为年的计划产量为2800件,预测单位成本的件,预测单位成本的95%的置信区间。的置信区间。年年 份份200020002001200120022002200320032004200420052005200620062007200720082008200920092010201020112011产量产量(百件)(百件)2.62.65.65.68 816.616.613.313.316.316.319.319.32222262626.526.529.829.827.127.1单位成本单位成本( (元元/ /件件) )15.815.816.616.613.913.914.114.18 8131312.512.512.512.55 511.811.811.511.5121210.510.51010第49页/共56页第五十页,共56页。在对一元线性回归模型的适合性进行分析时在对一元线性回归模型的适合性进行分析时,由于误差项是不可观测或测量由于误差项是不可观测或测量(clin
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 见义勇为人员自查报告(2篇)
- 拓兴臻玺湾项目水土保持报告书
- 钦州市钦南区晟安养殖场项目水土保持报告表
- 无功补偿基础知识
- 水泥厂粉尘排放准则
- 化工生产防护细则
- 2026殡葬实操面试题及答案
- 2026辩论技巧公务员面试题及答案
- 尾矿库安全检查(监测)表
- 2025年再生塑料回收体系标准
- 胸腺瘤合并重症肌无力围手术期护理
- 2025年河北唐山市初二地理生物会考考试试题及答案
- 2026高渗高血糖综合征课件
- 【地理】 东南亚第2课时课件-2025-2026学年湘教版(2024)七年级地理下学期
- 成人手术后疼痛评估与护理
- 房建装配式灌浆监理实施细则
- 2026中国硅烷偶联剂行业现状动态与需求趋势预测报告
- 济南国际机场股份有限公司招聘笔试题库2026
- 2026年湖北省公务员录用考试《申论》试卷解析
- 第9章 访问控制
- 法布尔介绍课件
评论
0/150
提交评论