回归分析课件_第1页
回归分析课件_第2页
回归分析课件_第3页
回归分析课件_第4页
回归分析课件_第5页
已阅读5页,还剩109页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2023/4/18《统计学》第3章参数估计6-1统计学费宇,石磊主编高等教育出版社2023/4/18《统计学》第3章参数估计6-2第6章回归分析6.1相关分析6.2一元线性回归6.3多元线性回归6.4虚拟变量回归6.5Logistic回归6.6回归分析的扩展6.7可化为线性情形的非线性回归2023/4/18《统计学》第3章参数估计6-3【引例6.0】(数据文件为example6.0)某公司经理想研究公司员工的年薪问题,根据初步分析,他认为员工的当前年薪y(元)与员工的开始年薪x1(元)、在公司的工作时间x2(月)、先前的工作经验x3(月)和受教育年限x4(年)有关系,他随机抽样调查了36个员工,收集到以下数据:2023/4/18《统计学》第3章参数估计6-5问题经理想根据以上样本数据,构建一个模型来反映y与x1、x2、x3和x4之间关系,并希望利用该模型在给定一个员工的x2、x3和x4的条件下,预测该员工的当前年薪y。此外,经理认为,公司男女员工的薪水结构不同,他想在建立模型的时候能把性别因素考虑进来,这是否可行?2023/4/18《统计学》第3章参数估计6-66.1相关分析6.1.1相关的概念1.人的身高与体重有相关关系。2.居民可支配收入与支出有相关关系。3.粮食产量与施肥量有相关关系。2023/4/18《统计学》第3章参数估计6-76.1.2相关的种类1.按相关程度划分:分为完全相关、不完全相关和不相关;如图6.1所示。2.按相关方向划分:分为正相关和负相关。如图6.2所示。3.按相关形式划分:分为线性相关和非线性相关;如图6.3所示。4.按变量多少划分:分为简单相关和复相关。2023/4/18《统计学》第3章参数估计6-86.1.3相关关系的度量1.简单线性相关系数2023/4/18《统计学》第3章参数估计6-102023/4/18《统计学》第3章参数估计6-112.偏相关系数2023/4/18《统计学》第3章参数估计6-132023/4/18《统计学》第3章参数估计6-142023/4/18《统计学》第3章参数估计6-156.2一元线性回归6.2.1回归的含义回归(regression)一词最早由英国生物学家兼统计学家高尔顿(F.Galton)于1886年在论文“Regressiontowardsmediocrityinhereditarystature”中正式提出。回归分析(regressionanalysis)是通过建立回归模型来研究相关变量的关系并作出相应估计和预测的一种统计方法,2023/4/18《统计学》第3章参数估计6-172023/4/18《统计学》第3章参数估计6-186.2.3最小二乘估计图6.4x和y的散点图2023/4/18《统计学》第3章参数估计6-192023/4/18《统计学》第3章参数估计6-212023/4/18《统计学》第3章参数估计6-222023/4/18《统计学》第3章参数估计6-232023/4/18《统计学》第3章参数估计6-252023/4/18《统计学》第3章参数估计6-26图6.5人均可支配收入x和人均消费性支出y散点图

2023/4/18《统计学》第3章参数估计6-292023/4/18《统计学》第3章参数估计6-306.2.4回归方程的检验2023/4/18《统计学》第3章参数估计6-311.F检验2023/4/18《统计学》第3章参数估计6-322023/4/18《统计学》第3章参数估计6-332023/4/18《统计学》第3章参数估计6-342023/4/18《统计学》第3章参数估计6-352.t检验2023/4/18《统计学》第3章参数估计6-363.r检验2023/4/18《统计学》第3章参数估计6-372023/4/18《统计学》第3章参数估计6-38【例6.3】给定显著水平,对例6.2的回归方程进行检验。2023/4/18《统计学》第3章参数估计6-392023/4/18《统计学》第3章参数估计6-402023/4/18《统计学》第3章参数估计6-416.2.5估计与预测2023/4/18《统计学》第3章参数估计6-422023/4/18《统计学》第3章参数估计6-43图6.6回归预测的预测区间2023/4/18《统计学》第3章参数估计6-446.3多元线性回归6.3.1多元线性回归模型2023/4/18《统计学》第3章参数估计6-45引入矩阵符号

2023/4/18《统计学》第3章参数估计6-462023/4/18《统计学》第3章参数估计6-472023/4/18《统计学》第3章参数估计6-486.3.2多元线性回归方程的检验2023/4/18《统计学》第3章参数估计6-492023/4/18《统计学》第3章参数估计6-502.方程显著性检验2023/4/18《统计学》第3章参数估计6-512023/4/18《统计学》第3章参数估计6-52表6.11多元回归方程显著性检验的方差分析表2023/4/18《统计学》第3章参数估计6-533.回归系数显著性检验2023/4/18《统计学》第3章参数估计6-54【例6.5】(数据文件为example6.0)沿用本章引例中的资料,建立多元线性回归方程并对回归方程进行检验(给定显著水平=0.05)。解:1.先点散点图,用SPSS打开数据文件example6.0,选择Graphs→LegacyDialogs→Scatter/Dot...→SimpleScatter,点Define,将两个变量开始年薪x和当前年薪y分别选入XAxis和YAxis,点OK。2023/4/18《统计学》第3章参数估计6-55图6.7当前年薪对开始年薪的散点图2023/4/18《统计学》第3章参数估计6-562.做多元线性回归:选择Analyze→Regression→Linear,将自变量开始年薪、工作时间、先前工作经验和受教育年限选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为默认值Enter,点OK即可得3个主要表格:表6.12至6.14。2023/4/18《统计学》第3章参数估计6-57表6.12员工年薪问题的回归方程的可决系数2023/4/18《统计学》第3章参数估计6-58表6.13员工年薪问题的方差分析表2023/4/18《统计学》第3章参数估计6-59表6.14员工年薪问题的多元回归方程回归系数表2023/4/18《统计学》第3章参数估计6-60于是可得如下回归方程:从回归方程可以看出:当前年薪y与开始年薪x1和受教育年限x4正相关(回归系数为正),这是合理的;但与工作时间x2和先前工作经验x3负相关(回归系数为负),这是不合理的,为什么?2023/4/18《统计学》第3章参数估计6-613.对回归方程进行检验。2023/4/18《统计学》第3章参数估计6-626.3.3估计与预测1.均值E(y0)的估计2023/4/18《统计学》第3章参数估计6-632.个值

y0的预测2023/4/18《统计学》第3章参数估计6-646.4虚拟变量回归2023/4/18《统计学》第3章参数估计6-65【例6.6】在例6.5中,将性别作为虚拟变量引入回归方程,建立当前年薪y关于受教育年限和性别虚拟变量的线性回归模型。解:性别x5是虚拟变量,所以这是虚拟变量回归问题;将性别变量“量化”,x5=0表示男性,x5=1表示女性,统计模型设定为2023/4/18《统计学》第3章参数估计6-66用SPSS打开数据文件example6.0,选择Analyze→GeneralLinearModel→Univariate,将因变量当前年薪y选入DependentVariable中,把定量自变量受教育年限x4选入Covariate中,把虚拟变量性别x5选入FixedFactor中,在Options中选择ParameterEstimates,点击Model,在SpecifyModel中选Custom,再把定量自变量x4和虚拟变量x5选入右边,在BuildingTerm中选Maineffect,然后点Continue回到主对话框,在Options中的Display中选择Parameterestimates,点Continue→OK即可得参数估计值表表6.15。2023/4/18《统计学》第3章参数估计6-67表6.15引入性别虚拟变量的线性回归模型回归系数表2023/4/18《统计学》第3章参数估计6-68由表6.15容易得如下回归方程显然,这两条线是截距不同的两条平行线,截距的差异表示男女职工年薪的差别。2023/4/18《统计学》第3章参数估计6-696.5Logistic回归本节讨论因变量是二值定性变量的回归,即Logistic回归。2023/4/18《统计学》第3章参数估计6-70【例6.7】为了研究家庭年收入与是否有私家车的关系,随机调查了50个家庭的情况得结果如表6.16,以是否有私家车为因变量(它是一个二值定性变量),年收入为自变量建立回归方程,并估计年收入为12万元的家庭有私家车的可能性。2023/4/18《统计学》第3章参数估计6-71表6.15抽样调查得到的50个家庭的数据资料2023/4/18《统计学》第3章参数估计6-722023/4/18《统计学》第3章参数估计6-732023/4/18《统计学》第3章参数估计6-74利用SPSS软件实现Logistic回归具体操作如下:打开数据文件example6.6,选择Analyze→Regression→BinaryLogistic,将因变量y选入Dependent中,把自变量x选入Covariate中,点OK即可得参数估计表表6.17。2023/4/18《统计学》第3章参数估计6-75表6.17Logistic回归方程回归系数表2023/4/18《统计学》第3章参数估计6-76如果要估计年收入为12万元的家庭有私家车的可能性,可以打开数据文件example6.6,在x变量末尾增加一个值12,选择Analyze→Regression→BinaryLogistic,将因变量y选入Dependent中,把自变量x选入Covariate中,点Save在PredictedValues里选Probabilities,返回主对话框,点OK,在原数据文件里就会得到一列预测值(PRE_1),对应于x=12的PRE值为0.18237,这就是年收入为12万元的家庭有私家车的可能性的估计值。2023/4/18《统计学》第3章参数估计6-776.6回归分析的扩展6.6.1异方差1.异方差的概念2023/4/18《统计学》第3章参数估计6-78异方差的三种类型(1)单调递增型:随的增大而增大;(2)单调递减型:随的增大而减小;(3)复杂型:随的的变化呈复杂形式变化。2023/4/18《统计学》第3章参数估计6-79图6.8异方差的类型2023/4/18《统计学》第3章参数估计6-802.异方差的修正2023/4/18《统计学》第3章参数估计6-81加权最小二乘(WLS)估计2023/4/18《统计学》第3章参数估计6-822023/4/18《统计学》第3章参数估计6-83【例6.8】在例6.5中,求当前年薪y

(元)关于开始年薪x1(元)的线性回归方程。2023/4/18《统计学》第3章参数估计6-84解:用SPSS打开数据文件example6.0,做的散点图图6.7,容易看出模型存在异方差性,因此先用OLS法求的估计,选择Analyze→Regression→Linear,将自变量开始年薪x1选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为默认值Enter,点Save,在Residuals中选Unstandardized(将回归残差保存到原数据文件中),点Continue→OK即可得3个主要表格:表6.18,6.19和6.20。2023/4/18《统计学》第3章参数估计6-85表6.18普通最小二乘回归方程的可决系数2023/4/18《统计学》第3章参数估计6-86表6.19普通最小二乘回归方程的方差分析表

2023/4/18《统计学》第3章参数估计6-87表6.20普通最小二乘回归方程的回归系数表2023/4/18《统计学》第3章参数估计6-88加权最小二乘回归

选择Transform→Compute,在TargetVariable中输入目标变量名ei,在NumericExpression中输入表达式ABS(RES_1)求得残差向量的绝对值ei,类似再计算残差向量的绝对值ei的倒数inei:Transform→Compute,在TargetVariable中输入目标变量名inei,在NumericExpression中输入表达式1/ei,回到数据窗口可见已经产生了两列新数据:残差向量的绝对值ei和它的倒数inei,最后进行加权最小二乘回归:Analyze→Regression→Linear,将自变量开始年薪x1选入Independent,将因变量当前年薪y选入Dependent中,将权向量inei选入WLSWeight中,然后选择Method为默认值Enter,点OK即可得3个主要表格:表6.21,6.22和6.23。2023/4/18《统计学》第3章参数估计6-89表6.21加权最小二乘回归方程可决系数

2023/4/18《统计学》第3章参数估计6-90表6.22加权最小二乘回归方程的方差分析表2023/4/18《统计学》第3章参数估计6-91表6.23加权最小二乘回归方程的回归系数表2023/4/18《统计学》第3章参数估计6-926.6.2多重共线多元回归模型(6.34)的基本假定之一是自变量是互不相关的,如果其中两个或多个自变量之间出现了相关性,则称为存在多重共线性。2023/4/18《统计学》第3章参数估计6-932023/4/18《统计学》第3章参数估计6-942023/4/18《统计学》第3章参数估计6-952023/4/18《统计学》第3章参数估计6-96【例6.5(续)】试建立当前年薪y关于开始年薪x1,工作时间x2

,先前工作经验x3和受教育年限x4的多元线性回归模型。2023/4/18《统计学》第3章参数估计6-97Analyze→Regression→Linear,将自变量开始年薪x1

,工作时间x2

,先前工作经验x3和受教育年限x4选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为默认值Enter(全变量回归),点OK即可得表6.12,6.13和6.14。从方差分析表表6.13可以看出,对应的p值,所以回归方程显著;但从回归系数表表6.14可知回归系数对应的t统计量的p值分别为0.793,0.353和0.150,都大于0.05,所以这三个回归系数都不显著,因此估计存在多重共线性。解:1.全变量回归,2023/4/18《统计学》第3章参数估计6-982.逐步回归,Analyze→Regression→Linear,将自变量开始年薪x1

,工作时间x2

,先前工作经验x3和受教育年限x4选入Independent,再将因变量当前年薪y选入Dependent中,然后选择Method为Stepwise(逐步回归法),点OK即可得以下回归系数表表6.24。2023/4/18《统计学》第3章参数估计6-99表6.24逐步回归方程回归系数表2023/4/18《统计学》第3章参数估计6-1006.7可化为线性情形的非线性回归2023/4/18《统计学》第3章参数估计6-1012023/4/18《统计学》第3章参数估计6-1022023/4/18《统计学》第3章参数估计6-1032023/4/18《统计学》第3章参数估计6-104【例6.9】(数据文件为example6.8)表6.25给出了1990-2002年某市人均消费性支出x和教育支出y的数据,试建立y关于x的回归模型。2023/4/18《统计学》第3章参数估计6-105表6.25人均消费性支出和人均教育支出数据2023/4/18《统计学》第3章参数估计6-106解:1.先点散点图,图6.9人均消费性支出x对人均教育支出y的散点图2023/4/18《统计学》第3章参数估计6-1072.再尝试采用二次、三次曲线、幂函数曲线和指数函数曲线拟合数据:Analyze→Regression→CurveEstimation,将自变量人均消费性支出x选入Independent,再将因变量人均教育支出y选入Dependent中,在Models中选Linear(线性函数,形如),Quadratic(二次曲线,形如),Cubic(三次曲线,形如),Power(幂函数,形如(6.75)式)和Compound(指数函数,形如(6.79)式),点OK可得如下拟合结果。2023/4/18《统计学》第3章参数估计6-108表6.26五种模型的模型小结和回归系数表2023/4/18《统计学》第3章参数估计6-109从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论