版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲线性回归第一页,共五十四页,2022年,8月28日问题例1、某企业多年为自己的产品在电视、报纸与Internet等不同的媒体投放广告,其广告支出每年皆有变化。在新的一年来临之际,公司需要作出决定,在各个媒体应投放增减多少广告费?第二页,共五十四页,2022年,8月28日例2、对于国家的某个经济发展时期,应保持多大的经济发展增速,才能保证全社会的就业与通胀保持在可接受的水平?第三页,共五十四页,2022年,8月28日例3、一个地区的石油需求取决于该地区生产与消费水平,尤其是制造业产值、产业结构以及汽车保有量等。如何预测2020年中国的石油需求以及对外石油依存度?第四页,共五十四页,2022年,8月28日例4、一个人的幸福程度是取决于其本人收入水平的增长还是取决于其与周围人群的比较?第五页,共五十四页,2022年,8月28日模型例1、以企业销量或利润为随机因变量(响应变量),不同媒体的广告投放为自变量(可控制因素)建立函数关系:第六页,共五十四页,2022年,8月28日例2、以就业率与通胀率作为随机响应变量,以经济增长的指标变量(可包含总量与结构)作为自变量(可控制因素)建立函数关系:第七页,共五十四页,2022年,8月28日例3、以石油需求量作为随机因变量,以制造业产值、产业结构以及汽车保有量等作为可控自变量,建立函数关系:第八页,共五十四页,2022年,8月28日例4、以个人幸福程度作为随机因变量,以本人收入水平和比较差距作为自变量,建立函数关系:第九页,共五十四页,2022年,8月28日线性回归模型若f(x)的系数关系为线性的,且问题聚焦于随机变量的均值变化规律,即称为线性回归模型,我们以n个样本决定模型系数。一般样本回归模型如下,称为多重线性回归模型:当Y为一元随机变量时,称为一元线性回归模型。否则称为多元线性回归模型。本课程仅讨论Y为一元随机变量的情形,参照多数资料的叫法,以自变量的维度来称呼一元(或多元)线性回归第十页,共五十四页,2022年,8月28日多重线性回归模型的一般表达其中:k为解释变量的数目,j称为回归参数(regressioncoefficient),也被称为偏回归系数,表示在其他解释变量保持不变的情况下,Xj每变化1个单位时,Y的均值E(Y)的变化;或者说j给出了Xj的单位变化对Y均值的“直接”或“净”(不含其他变量)影响。第十一页,共五十四页,2022年,8月28日续或或第十二页,共五十四页,2022年,8月28日其中:(模型假设条件)第十三页,共五十四页,2022年,8月28日模型参数估计普通最小二乘法(Theordinaryleastsquaresapproach,OLS)最大似然估计(ML)矩估计(MM)第十四页,共五十四页,2022年,8月28日OLS方法使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第十五页,共五十四页,2022年,8月28日参数估计结果第十六页,共五十四页,2022年,8月28日OLS系数的不确定性随机变量y的误差e取决于其方差s2,而方差s2可以根据残差来估计,估计量为:根据模型假设,显然有:第十七页,共五十四页,2022年,8月28日Y的置信区间自变量为x时y的平均响应值为:统计量服从自由度为n-2的t分布,其置信区间可得。可导出:第十八页,共五十四页,2022年,8月28日Y的预测区间当自变量为xi时y的真实值为:其预测区间的计算方法同置信区间。可导出:第十九页,共五十四页,2022年,8月28日线性回归模型的统计检验回归模型检验包括整体模型显著性检验与自变量显著性检验两种。第二十页,共五十四页,2022年,8月28日目的在于检验模型中所有自变量系数是否全部为0,当自变量系数不全为0时,Y与(X1,X2,…,XK)才具有某种程度的函数关系。零假设及对立假设:H0:j=0,
对所有jH1:j0
,对某些j(j=1,2,…,K)检验统计量:1、模型检验第二十一页,共五十四页,2022年,8月28日显然检验可以使用方差分析表:变化来源回归随机误差总和k为预测变量个数(不含β0)续第二十二页,共五十四页,2022年,8月28日若模型检验显著,即应进行自变量显著性检验(也称边际检验MarginalTests),即检验个别回归系数(j,j=1,2,…,K)是否显著异于某一特定数值,共包括K个检验。备则假设H1:jj0(双尾检验),j>j0
或H1:j<j0
(单尾检验)通常,我们只关心H0:j=0检验统计量:2、自变量显著性检验:第二十三页,共五十四页,2022年,8月28日校正决定系数(Adjusteddeterminationcoefficient)3、数据集合优度——样本决定系数:式中:n为样本数,k为自变量的个数。可证,Y与X的多重相关系数第二十四页,共五十四页,2022年,8月28日线性回归模型的意义考虑一元的情形,随机变量y与可控变量之间存在这样一种关系,其均值随自变量变化而变化。第二十五页,共五十四页,2022年,8月28日例1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。
为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。第二十六页,共五十四页,2022年,8月28日第二十七页,共五十四页,2022年,8月28日(1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同;(2)由统计知,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布是已知的,如:P(Y=561|X=800)=1/4。因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditionalmean)或条件期望(conditionalexpectation):E(Y|X=Xi)该例中:E(Y|X=800)=605分析:第二十八页,共五十四页,2022年,8月28日描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为回归线。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)
第二十九页,共五十四页,2022年,8月28日条件分布示意图第三十页,共五十四页,2022年,8月28日线性回归模式参数的含义一元线性模型中:y=dependentvariablex=independentvariableb0=y-interceptb1=slopeoftheline=errorvariablexyb0RunRiseb1=Rise/Runb0andb1areunknown,therefore,areestimatedfromthedata.第三十一页,共五十四页,2022年,8月28日模型参数最小二乘估计的含义方程系数的估计取决于:从总体中抽出的样本以及,所计算的样本统计量。然后,生成一条从数据中无偏地穿过的直线.wwwwwwwwwwwwwwwThequestionis:Whichstraightlinefitsbest?xy第三十二页,共五十四页,2022年,8月28日Errors直线不同,产生不等的误差,同时亦造成了不等的误差平方和。XY不同直线产生的误差不一样:第三十三页,共五十四页,2022年,8月28日33离差平方和最小的那一条直线为最佳拟合直线。wwww4114(1,2)22(2,4)(3,1.5)Sumofsquareddifferences=(2-1)2+(4-2)2+(1.5-3)2+(4,3.2)(3.2-4)2=6.89Sumofsquareddifferences=(2-2.5)2+(4-2.5)2+(1.5-2.5)2+(3.2-2.5)2=3.992.5LetuscomparetwolinesThesecondlineishorizontalThesmallerthesumofsquareddifferencesthebetterthefitofthelinetothedata.第三十四页,共五十四页,2022年,8月28日例:广告支出与销售额(单位:千元)营业单位 广告支出 年销售额北京 1400 16800上海 1100 14400广州 560 12300深圳 650 13200南京
560 12800昆明 880 14400成都 1100 15900重庆 350 10000第三十五页,共五十四页,2022年,8月28日分析:作散点图第三十六页,共五十四页,2022年,8月28日参数估计:第三十七页,共五十四页,2022年,8月28日结果:第三十八页,共五十四页,2022年,8月28日推论:1、广告投入有力促进了销售额的增长;2、在当前的投放水平下,大约每增加1千元的广告将增加5.75千元的销售收入。第三十九页,共五十四页,2022年,8月28日SPSS软件操作:Analyze——〉Regression——〉Linear…EXCEL软件操作:工具——〉数据分析——〉回归房价、面积与卫浴.xls第四十页,共五十四页,2022年,8月28日回归系数再解释例:某汽车代理商想要了解二手汽车行驶里程数与售价间之关系。随机选取100辆二手交易汽车,记录其里程数与售价数据。见右表:IndependentvariablexDependentvariabley第四十一页,共五十四页,2022年,8月28日利用SPSS求解:Tools>Dataanalysis>Regression>[Shadetheyrangeandthexrange]>OK第四十二页,共五十四页,2022年,8月28日Thisistheslopeoftheline.Foreachadditionalmileontheodometer,thepricedecreasesbyanaverageof$0.0312Theinterceptisb0=6533.65330NodataDonotinterprettheinterceptasthe“Priceofcarsthathavenotbeendriven”第四十三页,共五十四页,2022年,8月28日假设1、解释变量X是确定性变量,不是随机变量;假设2、随机误差项具有零均值、同方差:E(i)=0i=1,2,…,nVar(i)=2i=1,2,…,n假设3、随机误差项与解释变量X之间不相关:Cov(Xi,i)=0i=1,2,…,n假设4(不是必须的)、服从零均值、同方差、零协方差的正态分布i~N(0,2)i=1,2,…,n模型假设的意义第四十四页,共五十四页,2022年,8月28日从这些假设我们有::y是具有均值E(y)=b0+b1x,和方差
se的正态分布。如图示。m3b0+b1x1b0+b1x2b0+b1x3E(y|x2)E(y|x3)x1x2x3m1E(y|x1)m2Thestandarddeviationremainsconstant,butthemeanvaluechangeswithx第四十五页,共五十四页,2022年,8月28日样本决定系数的意义:y的总体变化TheregressionmodelRemains,inpart,unexplainedTheerrorExplainedinpartbyy的方差=ESS+RSS第四十六页,共五十四页,2022年,8月28日R2测度由x变化所引起的y的变化占y全部变化的比重.R2
取值在0与1之间R2=1:Perfectmatchbetweenthelineandthedatapoints.R2=0:Therearenolinearrelationshipbetweenxandy.R2越接近1,说明模型与实际观测值越接近,拟合优度越高。第四十七页,共五十四页,2022年,8月28日x1x2y1y2yTwodatapoints(x1,y1)and(x2,y2)ofacertainsampleareshown.TotalvariationinyVariationexplainedbytheregressionline)Unexplainedvariation(error)TotalSumofSquaresTSSExplainedSumofSquaresESSResidualSumofSquaresRSS+=+=第四十八页,共五十四页,2022年,8月28日qqqqqqqqqqqqqqqqqqqqqq斜率检验的直观含义如果两个变量之间不存在线性关系,那么回归直线一定是水平的,即斜率为0.qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 畹町烧烤活动方案策划(3篇)
- 打井建房施工方案(3篇)
- 大堂换灯施工方案(3篇)
- 天津专业活动策划方案(3篇)
- 社团冬至活动策划方案(3篇)
- 物流行业运输与配送规范
- 2025年老龄服务行业护理操作规范
- 医院开业广告投放方案
- 给排水技术培训
- 2025年大学大二(管理学)专业核心能力测试题及解析
- 校园小导游测试卷(单元测试)2025-2026学年二年级数学上册(人教版)
- 2025年西藏公开遴选公务员笔试试题及答案解析(综合类)
- 扬州市梅岭中学2026届八年级数学第一学期期末综合测试试题含解析
- 末梢血标本采集指南
- GB/T 46156-2025连续搬运设备安全规范通用规则
- AI赋能的虚拟仿真教学人才培养模式创新报告
- 数据管理能力成熟度评估模型(DCMM)评估师资格培训试题及答案
- 工程变更签证培训课件
- 自然分娩的好处
- 教练技术一阶段课件
- 国企跟投管理办法
评论
0/150
提交评论