第三讲一元线性回归

上传人：农*** IP属地：广东上传时间：2023-07-17 格式：PPT 页数：52 大小：2.43MB 积分：18 举报 版权申诉

已阅读5页，还剩47页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第三讲一元线性回归第1页，课件共52页，创作于2023年2月例题4-1某城镇1988---1998年人均可支配收入X（元，1980年不变价），人均鲜蛋需求量Y（公斤），建立模型Y=a+bX，估计收入对需求的影响。1。利用Excel完成2。利用stata完成先画散点图，然后估计方程。第2页，课件共52页，创作于2023年2月Y=10.766+0.005X+u第3页，课件共52页，创作于2023年2月测试成绩和学生/教师比关系的OLS估计值及其分析。打开数据文件：score.dtaregtestscrstr第4页，课件共52页，创作于2023年2月testscr=698.93-2.28str+u第5页，课件共52页，创作于2023年2月回归结果的分析第6页，课件共52页，创作于2023年2月第7页，课件共52页，创作于2023年2月1。截距项和斜率的含义是什么？本题的截距表示：学生教师比为0（没有学生时）的测试成绩的最高值，因此没有实际意义。可以理解为确定回归线的系数。第8页，课件共52页，创作于2023年2月斜率：表示弹性

-2.28的斜率表示当每个教师对应的学生人数增加1个时，学区测试成绩将平均下降2.28分。而当每个教师对应的学生人数减少2个时，测试成绩平均提高：((-2)×(-2.28))=4.56分，负的斜率表明每个教师对应的学生人数越多(较大规模的班)，则相应的测试成绩越差。第9页，课件共52页，创作于2023年2月

2。方程的经济预测能力：得到回归结果后，可以进行简单的预测，只要给定学生/教师比（X）取值后就能预测全学区的测试成绩了。

testscr=698.93-2.28×str+u

如每个教师对应20个学生的学区，其测试成绩预测值为698.93-2.28×20=653.30。当然，由于其他决定学区成绩的因素（u）的影响，预测不会是绝对正确的。预测的准确程度取决于模型的优劣。第10页，课件共52页，创作于2023年2月3。方程的斜率的大小评估：观察选取的420个样本的总体分布（分位数）第11页，课件共52页，创作于2023年2月一个例子：

假设某个学区处于加利福尼亚学区的中位数，对应的学生/教师比为19.7，现在想减少到17.7。一方面：她的学区学生/教师比从50%分位数移到接近10%分位数。这是一个相当大的变动。另一方面：带入方程，测试成绩预计从654.5提高到659.1，从50%分位数移到将近60%分位数。第12页，课件共52页，创作于2023年2月股票的beta值：证券组合的风险与报酬（一）证券组合的风险同时投资于多种证券的方式称为证券的投资组合，简称证券组合或投资组合。证券组合的风险分为可分散风险与不可分散风险。可分散风险不可分散风险别称非系统性风险公司特别风险系统性风险市场风险含义某些因素对单个证券造成经济损失的可能性某些因素给市场上所有证券都带来经济损失的可能性特性可通过证券持有的多样化来抵消不能通过证券组合分散掉13可分散风险可通过证券组合来消减第13页，课件共52页，创作于2023年2月Rm是市场组合的期望收益，一般用C&P500组合收益，Rf是市场无风险收益，可以理解为各类存款收益。第14页，课件共52页，创作于2023年2月我们把利用OLS方法估计出的参数b0和b1称为OLS估计量，用表示。用OLS方法估计出的方程：第15页，课件共52页，创作于2023年2月残差的概念残差是每个样本的拟合值和实际值之间的差。用ei或者表示。样本回归模型：样本拟合线：残差值：第16页，课件共52页，创作于2023年2月基本原理：1。确定样本个数n，给出观测值(Xi，Yi)，

i=1,2,3,…n。由于样本容量已定，样本回归模型可写为：其中称为回归系数(拟合参数)，称为残差（拟合误差）。普通最小二乘法（OLS）第17页，课件共52页，创作于2023年2月2。利用OLS法寻找残差的平方和最小的直线，估计出的具体值。3。此时可得到利用OLS方法测算出的Y的拟合值，注意，并不是实际的Y值，有如下计算公式：因此，是Y的估计值或拟合值，而残差的大小决定了模型的优劣。第18页，课件共52页，创作于2023年2月思考：与ui是否是一回事？有什么区别和联系？第19页，课件共52页，创作于2023年2月直线上的点的坐标是，样本点的坐标是Yi是从样本点到直线的距离。第20页，课件共52页，创作于2023年2月拟合优度拟合优度R2：描述OLS回归线对样本数据的拟合效果；描述观测值在回归线附近的离散程度；同时描述了样本数据有多大程度可以被回归方程所解释。回归R2是指可由Xi解释(或预测)的Yi样本方差的比例。第21页，课件共52页，创作于2023年2月OLS方法得到的拟合线一定是所有直线中拟合效果最好的，但由于样本自身的原因，拟合效果有好有坏。最典型的例子是错误的函数形式第22页，课件共52页，创作于2023年2月这是一个典型的对数函数的例子，用线性方程，模拟效果较差。第23页，课件共52页，创作于2023年2月拟合优度第24页，课件共52页，创作于2023年2月

对于所有样本点的平方和，均有下列结论：记总体平方和（TotalSumofSquares）回归平方和（ExplainedSumofSquares）残差平方和（ResidualSumofSquares

）第25页，课件共52页，创作于2023年2月TSS=ESS+RSS（证明见附录）

Y的观测值围绕其均值的总离差(totalvariation)可分解为两部分：一部分来自回归线(ESS)，另一部分则来自随机势力(RSS)。在给定样本中，TSS不变，如果实际观测点离样本回归线越近，则ESS在TSS中占的比重越大，因此

拟合优度：回归平方和ESS/Y的总离差TSS第26页，课件共52页，创作于2023年2月2、拟合优度R2统计量

称R2为（样本）拟合优度/可决系数/判定系数（coefficientofdetermination)。

拟合优度的取值范围：[0，1]

R2越接近1，说明实际观测点离样本线越近，拟合优度越高。第27页，课件共52页，创作于2023年2月由于每次向回归方程中增加解释变量，R2必然只增不减。为此，可以通过调整自由度对解释变量过多进行“惩罚”，因此，可以定义“校正的拟合优度”

第28页，课件共52页，创作于2023年2月察看上述例题的拟合优度注意：1。拟合优度一定程度上反映了选取变量的对被解释变量的“解释能力”。2。拟合优度低一般说明方程忽略了某些重要的解释因素。3。在大样本下，拟合优度一般不会太高。第29页，课件共52页，创作于2023年2月回归标准误差（SER）回归标准误差(standarderroroftheregression.SER)是回归误差u的标准差估计量，是用因变量单位度量的观测值在回归线附近的离散程度。对于误差项ui，我们更关心它在回归线附近的离散程度，即标准差。希望标准差越小越好。由于ui本身是不可知的，因此，实际上sui是无法获得的，为了模拟其数值大小，我们用的标准差作为ui的标准差的估计值，称为回归的标准误差。第30页，课件共52页，创作于2023年2月为什么要除以n-2？n-2是自由度。第31页，课件共52页，创作于2023年2月模型中样本值可以自由变动的个数，称为自由度。自由度=样本个数—样本数据受约束条件（方程）的个数。例如，样本数据个数为n，它们受k个方程的约束（系数矩阵秩为k），那么，自由度df=n-k。第32页，课件共52页，创作于2023年2月其中n-2为自由度。由于随机变量必须满足k+1个正规方程（一元线形回归模型中有2个方程），故只有n-k-1个是相互独立的。经过这样校正后，才是无偏估计。第33页，课件共52页，创作于2023年2月如果无任何特征和规律可言，整个计量模型的建立将无法开展，因此，我们需要人为地为它设定一些假定条件。如果下列假定条件满足，我们就可以用最小二乘法对模型进行回归估计。本书中的经典假设是对于大样本数据而言，根据中心极限定理，大样本数据有很好的分布特征。第34页，课件共52页，创作于2023年2月假设1:给定Xi时ui的条件分布均值为零(1)随机误差项ui的数学期望为0。

E(ui|Xi)=0。同时：

E(Yi|Xi)=E()=E()=

理论上，随机误差项被假定为没有被纳入到模型中的微小影响，因此，没有理由相信这样一些影响会以一种系统的方式使被解释变量变大或者变小，可以假定其均值为0。第35页，课件共52页，创作于2023年2月第36页，课件共52页，创作于2023年2月例如对某一给定的班级规模Xi，如每班20个学生，其他因素ui有时使成绩高于预测值(ui>0)，有时使成绩低于预测值(ui<0)，但就总体平均而言，ui的分布的均值为零。同时，给定班级规模Xi，由于ui的干扰，某些Y’i的值大于Yi，某些Y’i的值小于Yi，但就总体平均而言，Y’i的分布的均值为E(Yi|Xi)=B0+B1Xi，即总体均值在回归线上。第37页，课件共52页，创作于2023年2月推论E(ui|Xi)=0意味着ui和Xi不相关，即：Corr(ui,Xi)=0这是最小二乘法最基本的假设，如果Corr(ui,Xi)<>0，模型是有偏的。第38页，课件共52页，创作于2023年2月假设2：(Xi,Yi)满足独立同分布每次从总体中的抽样都包含相同的分布；同时，每次抽样均是独立进行的。可以证明：(Xi,Yi)满足独立同分布，则Xi也满足独立同分布。第39页，课件共52页，创作于2023年2月假设3：不太可能出现大异常值有限峰度假设第40页，课件共52页，创作于2023年2月当出现大异常值时，X和Y分布的峰度会变得很大。包含四阶距，要求其有限。即：0<E(Xi4)<∞0<E(Yi4)<∞第41页，课件共52页，创作于2023年2月出现大异常值的一种可能是数据登录错误，如印刷错误或对不同观测错误地采用了不同的单位：如设想一下收集以米为单位的学生身高数据，但不小心把其中一个学生的身高记成了以厘米为单位。发现异常值的一种方法是画出数据图。如果你确定是由于数据登录错误造成了异常值，则你可以改正这个错误，如果不能改正就把它从数据集中删除。第42页，课件共52页，创作于2023年2月最小二乘假设的作用主要作用：大样本下，抽样分布服从正态分布。同时，假设样本数据没有错误。第43页，课件共52页，创作于2023年2月OLS估计量的抽样分布第44页，课件共52页，创作于2023年2月OLS估计量的抽样分布在ui满足高斯假定条件时，通过OLS方法，我们可以得到回归系数的估计量成为的拟合值。注意：是不是两个常数？第45页，课件共52页，创作于2023年2月计量回归模型中，对于要研究的问题，可以建立方程：这是总体的方程描述。应该能够确定。但事实上我们没有能力获得整体信息，只能通过部分数据模拟整体分布，即抽样。第46页，课件共52页，创作于2023年2月我们是在总体中进行抽样。每抽取一组样本就会有一组相应的回归系数，因此，一定不是常数，而是随机变量，并且具有一定的概率分布。小样本下，这些分布是复杂的，但在大样本下由中心极限定理可得它们是近似正态分布。第4

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三讲一元线性回归

文档简介

温馨提示

最新文档

评论

第三讲一元线性回归

文档简介

温馨提示

最新文档

评论

相关文档