




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二章 线性回归的基本思想:双变量线性回归(也称为一元回归)本章目的:介绍一元线性回归的基本思想和最小二乘法,的估计及检验要求:掌握回归的含义、总体回归方程、随机误差项、样本回归函数、残差项、最小二乘法、正规方程的含义;掌握一元回归最小二乘估计量的证明,会运用OLS估计量公式得到回归方程。教学时数:4学时第一节 一些重要概念一、总体回归直线(PRF)和样本回归直线(SRF)第一节我们学习了消费函数模型:案例:假设一个村庄人口总体由60户家庭组成,研究每周家庭消费支出(Y)和每周税后可支配收入(X)之间的关系。这样我们如果知道每周的家庭收入,即可预测每周消费支出的总体平均水平。数据如下: XY8
2、0100120140160180200220240280每周家庭消费支出50606570756570748085887984909498809395103108113115102107110116118125110115120130135140120136140144145135137140152157160162137145155165175189150152175178180185191合计平均325654627744589707101678113750125685137104314996616112111731、 模型完整写成:,随机误差项:是不可观测的随机事件,当80时,-15、-10
3、、0、5、15, 我们假设:,所以直线表示的是收入为时,收入决定的消费的平均值。 :我们为了简便假设为确定型变量2、总体回归直线(population Regression line)、总体回归函数总体回归函数:总体回归直线:其中 ,表示回归系数;表示截距项;表示斜率系数。3、PRF的随机设定由上例子可以知道,对于每个家庭的消费支出并不一定收入成正比,把个别的消费围绕的与期望的偏差表述如下:则4、随即干扰项的意义:除X外的所因素(1)可能代表了模型中并未包括的变量的影响。如上例中,家庭中的儿童数、性别、宗教、教育和地区。 我们为什么在模型中不把这些变量也包括呢?这是节省原则,也就是说模型的要简
4、单。这些变量,有的是对因变量的解释能力不大,不重要;另一方面是我们没其数据。(2)人类行为的内在随机性也一定会发生。人类行为是理性的,也不可以完全可预测。(3)随机误差项可能代表了测量误差:数据处理中产生的误差。(4)错误的函数形式。二、样本回归函数(SPF) 在上一节中,我们学习参数估计的公式,结果是多少:、1、PRF是一个理想化的概念,实际上人们很少知道他们所研究的总体。(1) 总体的数据不可能全部得到(2) 也不需要知道全部信息2、样本回归线:用样本得出的估计样本当我们的例子中的60是总体,现在如果我们只有10个数据,而得出的如上面的值那么这条f(x)= (1)样本回归线:,叫做的预测值
5、 (2),:一个样本,一个结果从算法来讲是随机变量。三、要点:总体回归函数、样本回归函数第二节 一元线性回归模型的估计原理(最小二乘法)一、 最小二乘法(OLS):如何估计,的的公式1、原理:残差平方和最小 我们是通过样本来得到总体回归方程,的估计:样本回归方程。其中,叫做的估计值,如果,对,估计得准确,则对估计也准确。(1)由准确估计的方法:残差最小 定义:或-(),表示样本点到拟合点B的距离。(2)残差最小的方法: 和最小:直接相加,如图L1和L0的残差和应是一样的。 平方和最小:正、负全部相加 , Q= 问:Q的大小由什么决定?(样本已知,已定)2、参数的推导程:求当=的、 ()可得()
6、上述式子称为正规方程组。简记为:最后可解得:()3、化简 设可将()化简为:()()和()给出的估计量称为最小二乘估计量(OLSE)注:的化简过程: 问题:1、和一样吗?前者是最小二乘法的要求,后者是n个的和。 2、和均值: (-)+,() 所以:+(-),两边求和取平均即得。3、 减 4、的含义:当收入是时平均对消费的影响,个别由决定。二、对误差项的假定假定1:假定2:=常数 同方差假定假定3: 序列相关假定上述三个假定称为GM假定,即高斯马尔可夫假定;假定4:只要是非随机变量,就有反之不成立。假定1和4书上写成一个假定5、问题:1、假设1真实吗? 。如果,则令 这和原模型有多少区别呢? 2
7、、同方差的含义:不同收入水平对消费的影响程度是一样的,而实际上一般是随X的增大而增大。 3、有了这些假定你对和的关系模型是还有哪些疑问?线性也是一个假定。三、估计量的统计性质(BLUE: best linear unbiased estimator)1线性。所谓线性是指估计式和为的函数。(1)为的线性函数:= =请同学们证明又因为 ,令,则 =();由于可以证明+注:由减+得,把代入,可得。(但) (2)同理可求得: = () - 也可以得出: =2、无偏性。所谓无偏性是指估计量和的均值等于总体回归参数和证明: =因为 ,所以3、最小方差性.这里所说的方差最小是指在无偏估计类中方差最小。这里可
8、以先推导出参数估计量和的方差,不用证明可以得到: () ()证明:设是有别于的线性无偏估计量=,+, 设 =注:综上所述 ,OLS估计量具有线性、无偏性和最小方差性,这三条性质又称为BLUE性质。这一性质称为高斯马尔科夫定理。附:证明 由 = 4、方差与精度:估计量的方差越小,精度越高 (1)可知X的样本越大越好。(2)由,解释变量的数据越小方差越小,这就是要把数据取对数的一个道理。样本越大越好。5、和的关系 这意味着估计过高则就估计过低。注:,则- 所以:-(-)6、,是随机变量:只有随机变量才有期望和方差。案例:某地区居民的每月收入(X)和每月的消费支出(Y)的样本数据如表(2)XYXY8
9、070180115100652001201209022014014095240155160110260150由上述表格数据可以计算得:, 设回归方程为:, ,,,第三节 回归模型的统计检验一、样本决定系数及回归直线拟合优度的检验 根据变量X和Y的样本观测值应用最小二乘法求得了回归直线方程。但是这条回归直线到底在多大程度上拟和了观测值?拟合:样本点逼近样本回归线的程度1、总离差平方和的分解我们有恒等式 :(=)两边平方并求和:由正规方程中和得到 于是有: ()称为总离差平方和,记为TSS:Total sum of square 称为回归平方和,记为ESS: Explained sum of sq
10、uare 称为残差平方和,记为RSS:Residual sum of square总离差平方和=回归平方和残差平方和2、样本决定系数:“拟合优度”的度量 (1)首先,残差残差平方和小就意味着,逼近,拟合得好,也就是X对Y的解释能力强。(用最小二乘法来估计、时,对已知的一个样本相对于其它方法来说,残差平方和是最小的。)但是不同的回归方程,我们如何来比较拟合高低,那个方程的X对Y真正有解释能力呢?比较相对残差平方和的大小, 图:给定一个样本,总离差是固定的,说明总离差分解为两个部分,ESS归于回归直线,RSS归于随机因素,RSS小,来自回归的ESS就大拟合就好。从回归平方和与残差平方和的意义可以知
11、道,如果在总离差平方和中回归平方和所占的比重越大,则线性回归效果越好,也就是说回归直线与样本观测值拟合优度就越好。(2)定义: ()所以,就可以来量度回归线的拟和优度,表示回归线对样本点的解释程度,0£ £1。(3)应注意:如果回归中没有截距项,不可能有,也就得不到离差分解公式,所以我们定义的只对有截距项的回归有效。对没有截距项的回归的拟和优度的判断应使用其它方法,同学们可以参考经济计量学(古亚拉提著,中国人民大学出版社,1998年)的相应内容。 注:如没有截距项,方程为残差平方和Q=,求导只有(3)、样本决定系数的相关公式 ()上式还可以写成: ()对于第二节中的案例题,
12、我们可以计算得: =0.9621这说明每月的消费支出的离差中有96%可以用收入来解释,既每月的消费支出96%取决于收入。3、样本相关系数 下面我们介绍一个与样本决定系数有密切关系但是又有区别的概念:样本相关系数。由数理统计知识可以知道,两个变量X和Y之间的相关程度用相关系数表示 ()由于总体X和Y的分布是未知的,就无法计算,因此自然的想法就是利用样本观测值给出的一个估计量, 这个估计量就是样本相关系数。根据观测值,定义: 为X、Y的样本协方差;, ,分别叫做X和Y的样本方差。定义样本相关系数 ()当给定观测值以后,利用()可计算样本相关系数r,r可作为的一个估计值。比较()和()可以知道,样本
13、相关系数和样本决定系数在计算上是一致的,这样可以由样本决定系数得到相关系数 但是相关系数和样本决定系数是两个不同的概念。样本决定系数是对变量作出回归分析得出的,它是样本观测值拟合优度的一个数量指标。相关系数是对变量作相关分析得出的。二、 随机项的方差的估计量 在第二节分析和的方差时,发现影响其方差的因素有随机扰动项的方差。但它是不可观测的。如何估计呢? 我们可以证明: ()可以作为的无偏估计量。证明如下:(本科可以不作要求)分析:把的平方转化成及的平方,和的方差,则可建立与的关系 证明:设,所以 把回归方程 化为又 又因为 所以 =所以 所以 ()注:我们经常把()记作: 三、回归系数估计量的
14、显著性检验 根据样本值利用最小二乘法我们求出了回归系数和的估计量和,如果,的方差不大,即估计的精度很高,但如果真实的0,0.001我们的工作有何作用,这时能说X对Y有解释能力,即X和Y有显著的线性关系吗?因此作为的估计量必须进行显著性检验,或者说使假设检验。检验0是否成立。 :01、假设检验:类似于反证法,是用样本的结果,来证明一个虚拟假设()真伪的一种程序。虚是指不知是否正确的判断。(1)例:这个同学是个共产党员背景(规律):绝大多数的共产党员为人民服务,正人君子,为人表率,事实(样本):(有人发现)这个同学吃喝嫖赌,不上课,骗助学贷款结论:拒绝这人同学是真正共产党员这个结论(2)小概率原理
15、(规律):在随机变量的概率空间中,经常发生是大概率事件,随机变量值接近其数学期望的那些事件;而那些概率接近于0的小概率事件在一次试验中是不可能发生的。 :随机变量E0,那么在一次试验中,按最可能事件是的取值落在0附近的区域(画一个正态分布图),如果在这次偶然的试验中100,落在了远处,的情况没有发生;由于小概率事件不可能在一次试验中出现,只有一种解释,不对。E比较大,所以100这样的事件才会在一次试验中出现。这叫拒绝。2、估计量和的概率分布 (1)由()和()我们可以知道: N ,N() N ()(2)由于表示了估计量接近真实值的程度,因此可以用表示的稳定性,要注意的是:含有,而是一个未知的变
16、量,要用代替。 所以 =,但N不成立了。3、参数的T统计量 (1)令:Tt(n-2) T其中:N ,自由度来自于RSS所以:Tt(n-2)同理:T t(n-2)(2)T分布:介绍书后的表,告诉取值的概率,单边分布有单侧的临界值。 P(t>)=,或P(t<-)=,画一图:4、显著性水平:小概率的值 : E()=0 (1)小概率的度量:考虑随机变量的T分布,T在下,则T。通过概率分布图可知,(图)小概率事件为,一般取0.10,0.05,0.025,0.01。的含义:显著性水平,越小,如果从一个样本(一次试验)计算出的T值落入这个范围的概率就越小,这个事件就更不能发生,就更有把握地说,随
17、机变量的期望不是0。而是比0大许多。(2)回归T检验的临界值:双边临界值,两边加起来为,这个临界值得从t分布表中查。由图可以得出显著性水平为双侧检验的临界界值,是表中单边检验概率/2的临界值。(3)拒绝域:(,+)和(-,-)叫拒绝域。在下,T值落入拒绝域的概率为。5、检验过程 因为 所以 因此我们可以用T作为统计量进行t检验,其检验过程步骤如下:第一步 原假设: 备择假设:第二步 计算统计量T第三步 给定检验水平,查自由度为n-2的t分布临界值表。可以得到临界值第四步 作出判断如果,则接不拒绝原假设,认为X与Y线性关系不显著如果,则接拒绝原假设,认为X与Y线性关系显著6、自由度:是独立数据的
18、个数。残差平方和RSS有两个参数、的约束,只有n-2个自由度。所以,有n-2个独立数据,T,自然有n-2个自由度了。7、两类错误:(1)第一类错误:拒绝时犯的错误拒真试验事件,发生了,样本t值落入了拒绝域,我们拒绝。这样做一点风险也没有吗?联想共产党员的例子,我们知道在共产党员中有极少数人如些。那么是共产党员而又吃喝嫖赌的人概率是,这样人出现我们就以的概率犯了错误。这个人真的是共产党员,而我们拒绝了认为他不是,这叫拒真。我们把这类错误称为第一类错误。所以,当我们拒绝时我们犯错误的概率为显著水平。但由于很小,由于我们拒绝时出错的概率小,所以当拒绝时应很坚决。(2)第二类错误:接受时犯的错误纳伪如
19、共产党的例了,这个同学如果真的为人表帅,我们就下他是共产党员的结论合适吗?(好人多的是)这时我们犯的错误的概率很大。当时,我们接受虚拟假设。T值落入接受域,就为0吗?如(P19)图,当t值落入接受域,我们认为它来自,所以接受。但些时,它可以来自其它均值不为0的总体,而这样的分布有太多。所以我们犯错误的概率会相当大。所以,当时,我们接受虚拟假设,这很为难。我们应该说不拒绝,而不是接受它。由于,接受域很宽概率大,所以犯第二类错误的概率很大。但错误的概率不1- ,其大小依赖于样本所在总体所决定的的真正分布。8、的正态假定:(1)假定的意义:保证Tt(n-2),T检验有效。(2)当正态假定不成立时的检
20、验:由+可得:T,根据中心极限定理当,T服从正态分布。而当样本大,自由度大时,t分布和正态分布是很相近的。所以,当N>30时,T检验就认为比较有效。而N>100时,则认为很可靠。案例分析对于第二节中案例中,我们得到了: =24.4545,=0.50911、对做t检验 提出原假设原假设:;备择假设:计算统计量 =14.2605>2.306因此拒绝原假设。认为存在线性关系。2、对做t检验 提出原假设原假设:;备择假设:计算统计量 =3.8128>2.306因此拒绝原假设。认为存在线性关系注意,在一般情况下回归函数经常写成: 四、方程总体显著性检验 由前面可以知道,利用它的样
21、本值得出了回归方程,我们的目的就是利用回归方程对总体进行经济分析和预测,回归方程能否代表总体,即总体模型的设定是否显著,必须进行检验。 由拟合优度可以知道,回归平方和越大,残差平方和越小,回归直线和样本点拟合的越好。利用样本决定系数可以更清楚的说明这一点,我们的目的不仅在于判定样本拟合优度,而是必须对总体作出判断,即总体的线性是否显著成立。1、分布 可以证明:F=2、检验的步骤第一步:原假设: 备择假设: 第二步 计算统计量 第三步 给定检验水平,查自由度为(1,n-2)的F分布临界值表。可以得到临界值第四步 作出判断如果,则接受原假设,认为X与Y线性关系不显著如果,则接拒绝原假设,认为X与Y线性关系显著3、F检验下的t检验当回归模型只有一个解释变量时二者的功效是一样的,都可以用来检验,的显著性。但当模型主多元模型时F检验是检验除截距项之外所有参数显著性的联合检验。4、F与判定系数 = 所以:,这说明当低时方程不一定不显著,要看F值。此时只能说解释变量能够解释的部分为,但这点能力是可信的。五、回归参数的区间估计:以为例1、置信区间在点估计量的两旁构造一个以100(1-)的概率包含真实参数的区间(范围)。已知:T,P(-<t<)=P(-<<) =P(-<+)=1-。则显著水平为时的置信区间为(-<+)2、区间(-&l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年行政管理语文能力测试试题及答案
- 经济法概论考试复习经验试题及答案
- 新型医疗器械使用试题及答案
- 行政法学职业道路试题与答案指导
- 行政管理实战案例分析及答案
- 行政管理专科语文测试策略及试题答案
- 健康护理服务模式试题及答案分析
- 2025年卫生资格考试科目分析与答案
- 执业药师考试中的科研能力培养及试题答案
- 2025年经济法概论厚度试题及答案
- 2025年4月自考00160审计学答案含评分参考
- 强基计划语文试题及答案
- 严重开放性肢体创伤早期救治专家共识解读
- 2024年佛山市顺德区公办中小学招聘教师真题
- 2025-2030中国船舶行业发展分析及发展前景与投资研究报告
- 耐药菌耐药性监测策略-全面剖析
- 北京市通州区2025年初中学业水平模拟考试(一模)英语试卷(含答案)
- 手术中大出血抢救流程
- 2025重庆武工工业技术研究院有限公司招聘15人笔试参考题库附带答案详解
- 输液导管相关静脉血栓形成中国专家共识 课件
- 光伏电站面试题库及答案
评论
0/150
提交评论