第二章简单线性回归

上传人：姚*** IP属地：广东上传时间：2023-06-22 格式：PPT 页数：115 大小：4.12MB 积分：25 举报 版权申诉

已阅读5页，还剩110页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第二章简单线性回归第一页，共一百一十五页，编辑于2023年，星期四何谓简单线性回归模型只有两个变量的线性回归模型，称为简单线性回归模型，也叫做双变量模型，或者一元线性回归模型。模型形式为：第二页，共一百一十五页，编辑于2023年，星期四第一节回归分析和回归方程本节主要介绍：1.1经济变量之间的关系。1.2相关关系：分类、度量。1.3回归分析：概念、回归线、回归函数1.4总体回归函数1.5随机扰动项1.6样本回归函数第三页，共一百一十五页，编辑于2023年，星期四1.1经济变量之间的关系确定的函数关系：y＝f（x）不确定性的统计关系——相关关系

y＝f（x）＋u（u为随机变量）没有关系

变量间的函数关系和相关关系在一定条件下可以互相转化。第四页，共一百一十五页，编辑于2023年，星期四1.2相关关系1.2.1分类：只有两个变量：简单相关；三个及三个以上：多重相关（复相关）；线性相关、非线性相关；正相关、负相关、不相关第五页，共一百一十五页，编辑于2023年，星期四正相关（我国人均消费函数）Y为我国人均消费X为我国人均国民收入相关系数：0.982004006008001000120005001000150020002500YX第六页，共一百一十五页，编辑于2023年，星期四负相关Y与X的相关系数：

-0.9220304050607080010203040YX第七页，共一百一十五页，编辑于2023年，星期四不相关（不排除存在曲线相关）相关系数为：4.24E-18-60-40-200204060-60-40-200204060YX第八页，共一百一十五页，编辑于2023年，星期四1.2.2线性相关程度的度量

——线性相关系数总体相关系数：样本相关系数：第九页，共一百一十五页，编辑于2023年，星期四使用相关系数要注意：简单线性相关包含了其他变量的影响。X,Y都是随机变量，相关系数只说明其线性相关程度，不说明其非线性关系，也不反映他们之间的因果关系；样本相关系数是总体相关系数的样本估计量；相关系数具有对称性，即；相关系数取值区间[-1，1]。第十页，共一百一十五页，编辑于2023年，星期四1.3回归分析和相关分析1.3.1回归分析是对一个应变量对若干解释变量依存关系的研究；其目的是：由固定的解释变量去估计和预测应变量的平均值等。第十一页，共一百一十五页，编辑于2023年，星期四1.3.2回归函数、回归线应变量Y的条件期望随着解释变量X的变化而有规律地变化。把这种变化关系用函数表示出来，就是回归函数：回归函数在坐标系中用图形表示出来就是回归线。它表示了应变量和解释变量之间的平均关系。第十二页，共一百一十五页，编辑于2023年，星期四回归线图示YX概率密度函数f(Yi)PRFx1xiXk第十三页，共一百一十五页，编辑于2023年，星期四注意：一般地，在重复抽样中解释变量被假定为固定的。所以回归分析中，解释变量一般当作非随机变量处理。第十四页，共一百一十五页，编辑于2023年，星期四

由于变量间关系的随机性，回归分析关心的是根据解释变量的已知或给定值，考察被解释变量的总体均值，即当解释变量取某个确定值时，与之统计相关的被解释变量所有可能出现的对应值的平均值。例2.1：一个假想的社区有100户家庭组成，要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入，能否预测该社区家庭的平均月消费支出水平。1.4总体回归函数

为达到此目的，将该100户家庭划分为组内收入差不多的10组，以分析每一收入组的家庭消费支出。第十五页，共一百一十五页，编辑于2023年，星期四第十六页，共一百一十五页，编辑于2023年，星期四（1）由于不确定因素的影响，对同一收入水平X，不同家庭的消费支出不完全相同；（2）但由于调查的完备性，给定收入水平X的消费支出Y的分布是确定的，即以X的给定值为条件的Y的条件分布（Conditionaldistribution）是已知的，如：P(Y=561|X=800）=1/4。因此，给定收入X的值Xi，可得消费支出Y的条件均值（conditionalmean）或条件期望（conditionalexpectation）：E(Y|X=Xi)该例中：E(Y|X=800)=561分析：第十七页，共一百一十五页，编辑于2023年，星期四描出散点图发现：随着收入的增加，消费“平均地说”也在增加，且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X（元）每月消费支出Y（元）

第十八页，共一百一十五页，编辑于2023年，星期四概念：

在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线（populationregressionline），或更一般地称为总体回归曲线（populationregressioncurve）。称为（双变量）总体回归函数（populationregressionfunction,PRF）。

相应的函数：第十九页，共一百一十五页，编辑于2023年，星期四

回归函数（PRF）说明被解释变量Y的平均状态（总体条件期望）随解释变量X变化的规律。含义：

函数形式：可以是线性或非线性的。例2.1中，将居民消费支出看成是其可支配收入的线性函数时:

为一线性函数。其中，0，1是未知参数，称为回归系数（regressioncoefficients）。

。第二十页，共一百一十五页，编辑于2023年，星期四1.4.2总体回归函数的表现形式条件均值形式，如随机设定形式。对于一定的，Y的各个个别值分布在的周围，其差令为，则：对上例，有也即：第二十一页，共一百一十五页，编辑于2023年，星期四1.5随机扰动项1、引入随机扰动项的目的2、随机扰动项代表模型中省略了的所有次要因素的综合作用3、根据中心极限定理随机扰动项服从正态分布4、通常模型由随机方程组成5、随机扰动项产生的原因第二十二页，共一百一十五页，编辑于2023年，星期四为什么要引入随机扰动项模型中引入反映不确定因素影响的随机扰动项μ的目的在于使模型更符合客观经济活动实际。干扰项是从模型中省略下来而又集体地影响着Y地全部变量地替代物第二十三页，共一百一十五页，编辑于2023年，星期四简单线性需求函数——不可能包罗万象地引入全部影响变量我们以最简单的线性需求函数为例进行分析。Qd=b0+b1X1理论分析和实践经验表明，某种商品需求量不仅趋近于价格，而且趋近于替代商品的价格X2，消费者收入X3和消费者偏好X4等等。将所有对需求量有影响的个变量引入方程：Qd=b0+b1X1+b2X2+b3X3+b4X4++bkXk即使如此也还可能有其他次要因素影响需求量，譬如社会风尚，心理变化甚至天气等等。总之，不可能巨细无遗地全部都引入。第二十四页，共一百一十五页，编辑于2023年，星期四次要因素的综合效应是不能忽视的未引入的这些随机变量有的可以度量，有些不可以度量，在实际观测中，有时发生影响有时又不发生影响，记为随机变量Zi（i=1,2,…,m）。从个别意义上，这些次要因素可能是不重要的，但所有这些的综合效应是不能忽视的。否则，模型将与实际不符。于是将它们也引入模型。第二十五页，共一百一十五页，编辑于2023年，星期四必须另外寻找解决问题的思路全部变量引入显然是不必要的。计量经济学将这些或者次要，或者偶然的，或者不可测度的变量用一个随机扰动项μ来概括，需求函数：这是一个随机方程。μ是随机变量Zj的线性组合，也是一个随机变量。它代表所有未列入模型的那些次要因素的综合影响。第二十六页，共一百一十五页，编辑于2023年，星期四由中心极限定理μ服从正态分布进一步分析μ相当于诸随机变量Zj的均值因此，由中心极限定理，无论Zj原来的分布形式如何，只要它们相互独立，m足够大，就会有μ趋于正态分布。而且正态分布简单易用，且数理统计学中研究的成果很多，可以借鉴。第二十七页，共一百一十五页，编辑于2023年，星期四随机扰动项产生的原因（1）人类行为和客观现象的随机性。引入μ的根本原因，乃是经济活动是人类参与的，而人类行为的内在随机性决定了不可能像科学实验那样精确。此外还有社会环境和自然环境的随机性。（2）模型省略了变量。被省略的变量包含在随机扰动项μ中。核心变量与周边变量（3）测量与归并误差。测量误差致使观察值不等于实际值，汇总也存在误差。（4）数学模型形式设定造成的误差。比如由于认识不足或者简化，将非线性设定成线性模型。第二十八页，共一百一十五页，编辑于2023年，星期四（5）数据的欠缺（6）糟糕的替代变量（7）理论的含糊性随机扰动项产生的原因第二十九页，共一百一十五页，编辑于2023年，星期四1.6样本回归函数（SRF）

问题：能从一次抽样中获得总体的近似的信息吗？如果可以，如何从抽样中获得总体的近似信息？问：能否从该样本估计总体回归函数PRF？回答：能例2.2：在例2.1的总体中有如下一个样本，

总体的信息往往无法掌握，现实的情况只能是在一次观测中得到总体的一个样本。第三十页，共一百一十五页，编辑于2023年，星期四核样本的散点图（scatterdiagram)：

样本散点图近似于一条直线，画一条直线以尽好地拟合该散点图，由于样本取自总体，可以该线近似地代表总体回归线。该线称为样本回归线（sampleregressionlines）。记样本回归线的函数形式为：称为样本回归函数（sampleregressionfunction，SRF）。

第三十一页，共一百一十五页，编辑于2023年，星期四

这里将样本回归线看成总体回归线的近似替代则

注意：第三十二页，共一百一十五页，编辑于2023年，星期四

样本回归函数的随机形式/样本回归模型：同样地，样本回归函数也有如下的随机形式：

由于方程中引入了随机项，成为计量经济模型，因此也称为样本回归模型（sampleregressionmodel）。

第三十三页，共一百一十五页，编辑于2023年，星期四

▼回归分析的主要目的：根据样本回归函数SRF，估计总体回归函数PRF。注意：这里PRF可能永远无法知道。即，根据

估计第三十四页，共一百一十五页，编辑于2023年，星期四1.6.2对样本回归函数的说明每次抽样都能够获得一个样本，就可以拟合一条样本回归线，所以样本回归线随抽样波动而变化，可以有多条。样本回归线不是总体回归线，只是未知总体回归线的近似。SRF1SRF2XY第三十五页，共一百一十五页，编辑于2023年，星期四1.6.3残差定义：那么有：对上例，有：第三十六页，共一百一十五页，编辑于2023年，星期四回归分析的思路样本样本回归函数的参数

一定方法得出总体回归函数的参数近似看成是SRF1：PRF2：（观察参数的对应估计关系）第三十七页，共一百一十五页，编辑于2023年，星期四第二节简单线性回归模型的最小二乘估计（OLS）本节主要介绍：

2.1简单线性回归模型的基本假定

2.2普通最小二乘法（OLS）

2.3OLS回归线的性质

2.4最小二乘估计的统计性质

第三十八页，共一百一十五页，编辑于2023年，星期四2.1简单线性回归的基本假定2.1.1为什么要做基本假定参数估计量是随机变量，只有在一定的假设条件下，所作出的估计才具较好的统计性质。只有对随机扰动项的分布作出假定，才能确定所估计参数的分布的性质，也才可能进行假设检验和区间估计。第三十九页，共一百一十五页，编辑于2023年，星期四2.1.2假定的两个方面：

（1）关于变量和模型的基本假定是非随机的，或者虽然是随机的，但是与是不相关的；无测量误差；变量和函数形式设定正确。第四十页，共一百一十五页，编辑于2023年，星期四假定的两个方面：

（2）关于随机扰动项也称高斯假定、古典假定假定1零均值：假定2同方差：假定3无自相关：假定4随机扰动项与不相关。即：假定5服从正态分布，即：第四十一页，共一百一十五页，编辑于2023年，星期四注意：正态性假定（5）不影响对参数的点估计，所以可不列入基本假定，且根据中心极限定理，当样本容量无穷大时，的分布趋近于正态分布。但此假定对确定所估计参数的分布性质是需要的，第四十二页，共一百一十五页，编辑于2023年，星期四2.1.3Y的分布性质由于，所以的分布性质就决定了的分布性质。对的一些假定可以等价地表示为对的假定：零均值：同方差：无自相关：正态性：第四十三页，共一百一十五页，编辑于2023年，星期四2.2普通最小二乘法（OLS）基本思想数学过程估计结果第四十四页，共一百一十五页，编辑于2023年，星期四2.2.1最小二乘法的基本思想纵向距离是Y的实际值与拟合值之差，称为拟合误差或残差。差异大拟合不好，差异小拟合好。残差可正可负，为克服加总时正负相消，将其平方后相加，得残差平方和，“最好”直线就是使误差平方和最小的直线。于是求最好拟合直线问题转换为求残差平方和最小，可以运用求极值的原理求解。第四十五页，共一百一十五页，编辑于2023年，星期四三种距离YX纵向距离横向距离距离A为实际点，B为拟合直线上与之对应的点SRF返回第四十六页，共一百一十五页，编辑于2023年，星期四YX0******△**△****Y7Y9Min数学形式第四十七页，共一百一十五页，编辑于2023年，星期四2.2.2最小二乘法的数学过程详见课本第四十八页，共一百一十五页，编辑于2023年，星期四2.2.3OLS估计结果的离差形式离差形式：OLS估计结果的离差形式：（样本回归函数的离差形式：）第四十九页，共一百一十五页，编辑于2023年，星期四2.2.4几个有用的结果可以用到以后计算、证明过程中：第五十页，共一百一十五页，编辑于2023年，星期四2.3OLS回归线的性质1.回归线过样本均值点2．残差和为零3．Y的真实值和拟合值有共同均值4．残差与自变量不相关5．残差与拟合值不相关第五十一页，共一百一十五页，编辑于2023年，星期四

2.3.1回归线过样本均值由，知：即样本均值点满足回归线方程SRFYX第五十二页，共一百一十五页，编辑于2023年，星期四2.3.2残差和为零由OLS数学过程直接可得。且易推出残差的平均数也等于零。第五十三页，共一百一十五页，编辑于2023年，星期四2.3.3Y的真实值和拟合值有共同的均值第五十四页，共一百一十五页，编辑于2023年，星期四性质4、52.3.4残差与自变量不相关（Residualsareunrelatedwithindependentvariable）2.3.5估计残差与拟合值不相关（Residualsareunrelatedwithfittedvalueof）

第五十五页，共一百一十五页，编辑于2023年，星期四样本回归直线性质总结

残差和=0均值相等拟合值与残差不相关自变量与残差不相关过样本均值第五十六页，共一百一十五页，编辑于2023年，星期四2.4最小二乘估计量的性质当模型参数估计出后，需考虑参数估计值的精度，即是否能代表总体参数的真值，或者说需考察参数估计量的统计性质。一个用于考察总体的估计量，可从如下几个方面考察其优劣性：

（1）线性性，即它是否是另一随机变量的线性函数；

（2）无偏性，即它的均值或期望值是否等于总体的真实值；

（3）有效性，即它是否在所有线性无偏估计量中具有最小方差。第五十七页，共一百一十五页，编辑于2023年，星期四（4）渐近无偏性，即样本容量趋于无穷大时，是否它的均值序列趋于总体真值；（5）一致性，即样本容量趋于无穷大时，它是否依概率收敛于总体的真值；（6）渐近有效性，即样本容量趋于无穷大时，是否它在所有的一致估计量中具有最小的渐近方差。

这三个准则也称作估计量的小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量（bestlinerunbiasedestimator,BLUE）。

当不满足小样本性质时，需进一步考察估计量的大样本或渐近性质：第五十八页，共一百一十五页，编辑于2023年，星期四2.4.1线性：最小二乘估计量是关于Yi的线性函数注意同2.2.4第五十九页，共一百一十五页，编辑于2023年，星期四2.4.2无偏性由2.2.4，知：第六十页，共一百一十五页，编辑于2023年，星期四2.4.3有效性证明太繁杂，略。以下只给出其方差：第六十一页，共一百一十五页，编辑于2023年，星期四2.4.4参数的分布、残差方差的估计由上，知：扰动项的方差通过样本估计为：其中，n为样本容量。第六十二页，共一百一十五页，编辑于2023年，星期四OLS参数估计量的有效性指的是：在一切线性、无偏估计量中，OLS参数估计量的方差最小。所有参数估计量线性参数估计量无偏参数估计量最小二乘参数估计量第六十三页，共一百一十五页，编辑于2023年，星期四3、最大似然法最大似然法(MaximumLikelihood,ML)，也称最大或然法，是不同于最小二乘法的另一种参数估计方法，是从最大或然原理出发发展起来的其它估计方法的基础。基本原理：当从模型总体随机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。ML必须已知随机项的分布。第六十四页，共一百一十五页，编辑于2023年，星期四3.1、估计步骤Yi的分布Yi的概率函数

Y的所有样本观测值的联合概率—似然函数

第六十五页，共一百一十五页，编辑于2023年，星期四对数似然函数

对数似然函数极大化的一阶条件结构参数的ML估计量第六十六页，共一百一十五页，编辑于2023年，星期四3.2、讨论在满足一系列基本假设的情况下，模型结构参数的最大似然估计量与普通最小二乘估计量是相同的。但是，分布参数的估计结果不同。第六十七页，共一百一十五页，编辑于2023年，星期四第四节回归系数的区间估计和假设检验本节主要介绍：简单线性回归系数的分布及其标准化。回归系数的区间估计回归系数的假设检验扰动项方差的区间估计。第六十八页，共一百一十五页，编辑于2023年，星期四4.1回归系数的标准化第六十九页，共一百一十五页，编辑于2023年，星期四4.2回归系数的区间估计区间估计区间估计的概念、步骤应用：

1、已知扰动项方差，对进行区间估计

2、扰动项方差未知，对进行区间估计大样本下/小样本下第七十页，共一百一十五页，编辑于2023年，星期四4.2.1区间估计的概念所谓区间估计就是以一定的可靠性给出被估计参数的一个可能的取值范围。具体作法是找出两个统计量1(x1,…,xn)与2(x1,…,xn)，使

P(1<<2)=1-(1,2)称为置信区间，1-称为置信系数（置信度），称为冒险率（测不准的概率）或者显著水平，一般取5%或1%。第七十一页，共一百一十五页，编辑于2023年，星期四对区间估计的形象比喻我们经常说某甲的成绩“大概80分左右”，可以看成一个区间估计。（某甲的成绩为被估计的参数）P(1<<2)=大概的准确程度（1-）

如：P(75<<85)=95%=1-5%“大概80分左右”冒险率（也叫显著水平）下限上限置信系数1－第七十二页，共一百一十五页，编辑于2023年，星期四4.2.2区间估计的步骤：

1)找一个含有该参数的统计量;

要求该统计量：分布已知含待估参数除了待估参数外，其余为已知量。

2)构造一个概率为的事件;3)通过该事件解出该参数的区间估计.第七十三页，共一百一十五页，编辑于2023年，星期四4.2.3已知扰动项方差，对

的区间估计第七十四页，共一百一十五页，编辑于2023年，星期四4.2.4未知扰动项方差，对的

区间估计（1）大样本下

可以用代替，有所以仍按已知方差作区间估计，只不过把区间估计中的随机扰动的方差换成其估计值。第七十五页，共一百一十五页，编辑于2023年，星期四（2）小样本下第七十六页，共一百一十五页，编辑于2023年，星期四区间估计，统计量选择小结第七十七页，共一百一十五页，编辑于2023年，星期四4.2.5扰动项方差的区间估计对扰动项的区间估计使用的统计量为：其余步骤相同第七十八页，共一百一十五页，编辑于2023年，星期四4.3回归系数的假设检验基本概念：假设检验，原假设/备择假设置信水平假设检验的步骤应用：的假设检验（方差已知/方差未知）方差的假设检验第七十九页，共一百一十五页，编辑于2023年，星期四4.3.1假设检验的概念定义：称对任何一个随机变量未知的分布类型或参数的假设为统计假设，简称假设。检验该假设是否正确称为假设检验。在统计假设，如

H0:p=0.5（称为原假设）

H1:p0.5（称为备择假设）

是假设检验中小概率事件发生的概率，也称为置信水平。

第八十页，共一百一十五页，编辑于2023年，星期四4.3.2假设检验的步骤：Step1:分析问题，提出原假设和备择假设；Step2:选择和计算统计量U：在原假设成立时，U的分布已知；含有要检验的参数；各个参数应该都是已知的、可求的。Step3：构造小概率事件：Step4：判断小概率事件是否发生：Step5：下结论：若小概率事件发生，拒绝原假设H0；选择备择假设H1。否则，原假设成立。第八十一页，共一百一十五页，编辑于2023年，星期四假设检验的具体操作步骤

（已知方差，检验为例）1、提出零假设H0：H1：3、确定显著水平，如=0.05，查表得相应的临界值/24、判断和下结论：若|U|/2，拒绝H0；若|U|</2,接受H0；（判断区域图示）5、依据结论，作出经济学上的解释。第八十二页，共一百一十五页，编辑于2023年，星期四4.3.3假设检验中统计量的选择第八十三页，共一百一十五页，编辑于2023年，星期四4.3.4回归系数假设检验及意义回归系数的假设检验，往往是检验

检验的意义：检验该系数是否显著，进而检验对应的解释变量是否对应变量有解释作用。第八十四页，共一百一十五页，编辑于2023年，星期四第五节拟合优度的度量本节主要内容：4.1总变差（总平方和）的分解4.2可决系数4.3可决系数和相关系数的关系4.4自由度的分解第八十五页，共一百一十五页，编辑于2023年，星期四问题的提出由最小二乘法所得直线确实能够对这些点之间的关系加以反映吗？对这些点之间的关系或趋势反映到了何种程度？于是必须经过某种检验或者找出一个指标，在一定可靠程度下，根据指标值的大小，对拟合的优度进行评价。第八十六页，共一百一十五页，编辑于2023年，星期四

5.1总离差1、总平方和、回归平方和、残差平方和2、总平方和的分解第八十七页，共一百一十五页，编辑于2023年，星期四5.1.1总平方和（总变差）、回归平方和、残差平方和的定义TSS度量Y自身的差异程度；ESS度量因变量Y的拟合值自身的差异程度，是总变差中由模型解释了的变差；RSS度量实际值与拟合值之间的差异程度，是总变差中没有得到解释的变差。第八十八页，共一百一十五页，编辑于2023年，星期四5.1.2平方和分解：TSS＝ESS＋RSS正交分解第八十九页，共一百一十五页，编辑于2023年，星期四平方和分解的意义TSS=ESS+RSS被解释变量Y总的变动（差异）=

解释变量X引起的变动（差异）

+除X以外的因素引起的变动（差异）如果X引起的变动在Y的总变动中占很大比例，那么X可以很好地解释了Y；否则，X不能很好地解释Y。第九十页，共一百一十五页，编辑于2023年，星期四5.2可决系数（或称判定系数）目的：企图构造一个不含单位，可以相互进行比较，而且能直观判断拟合优劣的指标。可决系数的定义：指标含义：可决系数越大，自变量对因变量的解释程度越高，自变量引起的变动占总变动的百分比高。观察点在回归直线附近越密集。第九十一页，共一百一十五页，编辑于2023年，星期四可决系数（续）可决系数只是说明列入模型的所有解释变量对应变量的联合的影响程度，不说明模型中单个解释变量的影响程度。可决系数取值范围：[0,1]对时间序列数据，可决系数达到0.9以上是很平常的；但是，对截面数据而言，能够有0.5就不错了。第九十二页，共一百一十五页，编辑于2023年，星期四可决系数达到多少为宜？没有一个统一的明确界限值；若建模的目的是预测应变量值，一般需考虑有较高的可决系数。若建模的目的是结构分析，就不能只追求高的可决系数，而是要得到总体回归系数的可信任的估计量。可决系数高并不一定每个回归系数都可信任；第九十三页，共一百一十五页，编辑于2023年，星期四5.3可决系数和相关系数的联系数值上，可决系数等于应变量与解释变量之间简单相关系数的平方:第九十四页，共一百一十五页，编辑于2023年，星期四可决系数和相关系数的区别可决系数相关系数就模型而言就两个变量而言说明解释变量对应变量的解释程度度量两个变量线性依存程度。度量不对称的因果关系度量不含因果关系的对称相关关系取值：[0,1]取值：[－1,1]第九十五页，共一百一十五页，编辑于2023年，星期四5.4自由度的分解（1）什么是自由度（2）对应于平方和分解的自由度的分解第九十六页，共一百一十五页，编辑于2023年，星期四自由度是指变量可以自由取值得个数，例如我们要测量学生的身高X，随机抽取10名学生，如果没有任何限制，则X可以自由取值10个值，自由度为10；但是如果我们限定10各同学的平均身高，那么随机抽取9名后，最后一名的身高则不能随意取值了，此时自由度减少一个，为10-1=9。这也是为什么我们在统计学里说修正的样本方差（除以n-1）为总体方差的无偏估计量。4.4.1什么是自由度第九十七页，共一百一十五页，编辑于2023年，星期四模型中样本值可以自由变动的个数，称为自由度自由度=样本个数—样本数据受约束条件（方程）的个数例如，样本数据个数为n，它们受k个方程的约束（系数矩阵秩为k），那么，自由度df=n-k第九十八页，共一百一十五页，编辑于2023年，星期四在计量经济学中，对于一个包含k个解释变量的回归方程而言，待估计的参数个数为k+1（包括常数项），在我们根据最小残差平方和求偏导的过程中，会得到（k+1）个方程构成的方程组，这k+1个方程实际上构成了对残差的k+1个限制条件，所以凡是涉及到残差构成的统计量，自由度就会减少k+1个，例如显著性检验中的t检验和f检验的自由度等。第九十九页，共一百一十五页，编辑于2023年，星期四例:TSS、RSS、ESS的自由度第一百页，共一百一十五页，编辑于2023年，星期四4.4.2对应于平方和分解的自由度的分解

TSS=ESS+RSSn-11n-2

总自由度dfT

回归自由度dfE

残差自由度dfR自由度分解：dfT=dfE+dfR第一百零一页，共一百一十五页，编辑于2023年，星期四复习与提高

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第二章简单线性回归

文档简介

温馨提示

最新文档

评论

第二章 简单线性回归

文档简介

温馨提示

最新文档

评论

相关文档

第二章简单线性回归