Lceture7相关与回归分析.ppt_第1页
Lceture7相关与回归分析.ppt_第2页
Lceture7相关与回归分析.ppt_第3页
Lceture7相关与回归分析.ppt_第4页
Lceture7相关与回归分析.ppt_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Lecture7 相关与回归分析,7.1 相关分析 7.2 一元线性回归分析 7.3 线性回归的显著性检验与回归预测 7.4 多元线性回归分析,学习目标,1. 变量间的相关关系与相关系数的计算 2. 总体回归函数与样本回归函数 3. 线性回归的基本假定 4. 简单线性回归参数的估计与检验 5. 多元线性回归参数的估计与检验 6. 多个变量的线性相关关系:复相关系数和偏相 关系数 7. 常用的可以转换为线性回归的非线性函数 8. 非线性相关指数,实例1: 中国妇女生育水平的决定因素是什么?,妇女生育水平除了受计划生育政策影响以外,还可能 与社会、经济、文化等多种因素有关。 1. 影响中国妇女生育率变动的因素有哪些? 2. 各种因素对生育率的作用方向和作用程度如何? 3. 哪些因素是影响妇女生育率主要的决定性因素? 4. 如何评价计划生育政策在生育水平变动中的作用? 5. 计划生育政策与经济因素比较,什么是影响生育率的决定因素? 6. 如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?,据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文) 问题: 肥胖症和体重超常与死亡人数真有显著的数量关系吗? 这些类型的问题可以运用相关分析与回归分析的方法去解决。,实例2: 全球吃死的人比饿死的人多?,7.1 相关分析,一、变量间的相互关系 二、相关关系的类型 三、简单线性相关系数及其检验,7.1 相关分析,一、变量间的相互关系 (一)确定性的函数关系 Y =f(X) (二)不确定性的统计关系相关关系 Y = f(X)+ (为随机变量) (三)没有关系 变量间关系的图形描述: 坐标图(散点图),7.1 相关分析,二、相关关系的类型 (一)从涉及的变量数量看 简单相关 多重相关(复相关) (二)从变量相关关系的表现形式看 线性相关散布图接近一条直线(左图) 非线性相关散布图接近一条曲线(右图),(三)从变量相关关系变化的方向看 正相关变量同方向变化 A 同增同减 (A) 负相关变量反方向变化 一增一减 (B) B (四)从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C),7.1 相关分析,7.1 相关分析,三、简单线性相关系数及检验 (一)总体相关系数 1. 对于所研究的总体,表示两个相互联系变量相关程度的总体相关系数为:,总体相关系数反映总体两个变量X和Y的线性相关程度。 2. 特点:对于特定的总体来说,X和Y的数值是既定的 总体相关系数是客观存在的特定数值。,7.1 相关分析,(二)样本相关系数 1.通过X和Y 的样本观测值去估计样本相关系数变量 X和Y的样本相关系数通常用rXY 表示,2.特点:样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的,是对总体相关系数的估计,它是个随机变量。,7.1 相关分析,3.样本相关系数与相关关系的联系 (1)相关系数的取值在-1与1之间。 (2)当r = 0 时,表明X与Y没有线性相关关系。 (3)当0|r|1时,表明X与Y存在一定的线性相关关系:若r 0, X与Y 为正相关;若r0,表明X与Y 为负相关。 (4)当|r|=1时,表明X与Y完全线性相关:若r=1,称X与Y完全正相关;若r=-1,称X与Y完全负相关。,4.使用相关系数的注意事项 (1)X 和Y 都是相互对称的随机变量,所以 XY =YX (2)相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系。 (3)相关系数不能确定变量的因果关系,也不能 说明相关关系具体接近于哪条直线。,7.1 相关分析,(三)相关系数的检验 1.为什么要检验? 样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。 2.检验的依据: 如果X和Y都服从正态分布,在总体相关系 数=0的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布:,7.1 相关分析,3.判断标准 给定显著性水平,查自由度为 n-2 的临界值t/2 ,若|t|t/2 ,表明相关系数 r 在统计上是显著的,应否定=0而接受0的假设;反之,若|t|t/2 ,应接受=0的假设。,7.2 一元线性回归分析,一、相关系数及检验回归 二、总体回归函数与样本回归函数 三、回归系数的估计 四、拟合优度的度量,7.2 一元线性回归分析,一、相关与回归分析的联系 (一)回归的古典意义: 高尔顿遗传学的回归概念 父母身高与子女身高的关系: 无论高个子或低个子的子女 都有向人的平均身高回归的 趋势,7.2 一元线性回归分析,(二)回归的现代意义 一个因变量对若干解释变量依存关系的研究 回归的目的(实质): 由固定的自变量去估计因变量的平均值,7.2 一元线性回归分析,(三)相关分析与回归分析的联系 1.共同的研究对象:都是对变量间相关关系的分析 2.只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义 3.相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 4.相关分析中相关系数的确定建立在回归分析的基础上,7.2 一元线性回归分析,二、总体回归函数与样本回归函数 (一) Y 的条件分布 Y 在 X 取某固定值条件下的分布。 (二)回归线 对于X 的每一个取值,都有Y 的条件期望与之对应,在坐标图上Y 的条件期望的点随X 而变化的轨迹所形成的直线或曲线,称为回归线。 (三)回归函数 如果把Y 的条件期望E(Y|Xi)表示为X 的某种函数: E(Y|Xi)=f(Xi) , 这个函数称为回归函数。 (四)简单线性回归函数 如果其函数形式是只有一个自变量的线性函数,如E(Y|Xi)=+Xi, 称为简单线性回归函数。,7.2 一元线性回归分析,(五)总体回归函数(PRF) 1.概念:将总体因变量Y的条件均值表现为自变量X的某种函数,这个函数称为总体回归函数(简记为PRF)。 2.表现形式: (1)条件均值表现形式,(2)个别值表现形式(随机设定形式),(常用),7.2 一元线性回归分析,(六)样本回归函数(SRF) 1.样本回归线 Y的样本观测值的条件均值随自变量X而变动的轨迹,称为样本回归线。 2.样本回归函数 如果把因变量Y的样本条件均值表示为自变量X的某种函数,这个函数称为样本回归函数(简记为SRF)。 3.样本回归函数的表现形式: 线性样本回归函数可表示为,或者,7.2 一元线性回归分析,(七)样本回归函数与总体回归函数的联系 1.样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 。,是对总体回归函数参数的估计。,是对总体条件期望E(Y|Xi)的估计,4.残差 e 在概念上类似总体回归函数中的随机误差u。 5.回归分析的目的: 用样本回归函数去估计总体回归函数。,2.,3.,7.2 一元线性回归分析,(八)样本回归函数与总体回归函数的区别 1.总体回归函数虽然未知,但它是确定的; 样本回归线随抽样波动而变化,可以有许多条。 2.样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。 3.总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的参数可估计,但是随抽样而变化的随机变量。 4.总体回归函数中的ui是不可直接观测的; 而样本回归函数中的ei是只要估计出样本回归的参数就可以计算的数值。,7.2 一元线性回归分析,三、回归系数的估计 (一)回归系数估计的思想: 1.为什么只能对未知参数作估计? 参数是未知的、不可直接观测的、不能精确计算的,能够得到的只是变量的样本观测值 2.结论:只能通过变量样本观测值选择适当方法去近似 地估计回归系数。 3.前提: u是随机变量其分布性质不确定,必须作某些假定,其估计才有良好性质,其检验才可进行。 4.原则: 使参数估计值“尽可能地接近”总体参数真实值,7.2 一元线性回归分析,(二)简单线性回归的基本假定 假定1:零均值假定。E(ui|Xi) = 0 假定2:同方差假定。 Var(ui|Xi)=Eui -E(ui|Xi)2=E(ui2)=2 假定3:无自相关假定。 Cov(ui ,uj)=Eui -E(ui)uj -E(uj)=E(ui ,uj)=0 假定4:随机扰动ui与自变量Xi不相关。 Cov(ui,Xi)=Eui-E(ui)Xi-E(Xi)=0 假定5:正态性假定ui N(0,2),7.2 一元线性回归分析,(三)回归系数的估计:普通最小二乘法(OLS) 1.基本思想: 希望所估计的 偏离实际观测值Yi的残差ei越小越好。可以取残差平方和ei2作为衡量 与Yi 偏离程度的标准,即最小二乘准则。 2.估计式:,7.2 一元线性回归分析,(四)最小二乘估计量的性质(高斯马尔可夫定理) 前提: 在基本假定满足时 1.最小二乘估计是因变量的线性函数 2.最小二乘估计是无偏估计,即,3.在所有的线性无偏估计中,回归系数的最小二乘估计的方差最小。,结论: 回归系数的最小二乘估计是最佳线性无偏估计(BLUE),7.2 一元线性回归分析,(五)最小二乘估计量的分布,其方差和标准误差为:,结论:,都是服从正态分布的随机变量,其期望为,7.2 一元线性回归分析,(六)2 的无偏估计 1.为什么要估计2 ? 确定所估计参数的方差需要2,由于ui不能直接观测,2也是未知的,对2的数值只能通过样本信息去估计。 2.怎样估计2 ? 可以证明2的无偏估计为:,7.2 一元线性回归分析,四、拟合优度的度量 (一)基本思想 样本回归直线是对样本数据的一种拟合,不同估计方法可拟合出不同的回归线。样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上,总离差平方和,记为SST:(n-1),回归平方和,记为SSR:(k-1),残差平方和,记为SSE:(n-k),(二)可决系数定义:,K为回归系数的个数,对可决系数的理解,7.2 一元线性回归分析,(三)可决系数的特点 1.可决系数是非负的统计量; 2.可决系数取值范围:0 r2 1; 3.可决系数是样本观测值的函数,可决系数是随抽样而变动的随机变量; 4.在一元线性回归中,可决系数在数值上是简单线性相关系数的平方:,其中:,7.3 线性回归的显著性检验及预测,一、回归系数显著性的 t 检验 二、回归方程的检验 三、一元线性回归模型的预测,7.3 线性回归的显著性检验及预测,一、回归系数显著性的 t 检验 (一)目的: 根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验,以检验总体回归系数是否等于某个特定的数值。 (二)思想: 2是未知的,而且不一定能获得大样本,这时可用 2的无偏估计 代替2去估计参数的标准误差:,7.3 线性回归的显著性检验及预测,用估计的参数标准误差对估计的参数作标准化变换,所得的 t 统计量将不再服从正态分布,而是服从 t 分布:,可利用 t 分布作有关的假设检验。,7.3 线性回归的显著性检验及预测,(三)回归系数t 检验的步骤 1、 提出假设 对于: H0:= 0,H1: 0 对于:H0:= 0,H1:0 2、 计算统计量,3、给定显著性水平,确定临界值 ta/2(n-2) 4、 检验结果判断 若|t*|ta/2(n-2),则拒绝原假设,而接受备择假设 若|t*|ta/2(n-2),则接受原假设 ,而拒绝备择假设,7.3 线性回归的显著性检验及预测,(四)回归系数显著性的P值检验 1.P值的意义: 在既定原假设下计算回归系数的t统计量的值t*,可求得统计量大于t*的概率a*:,这里的a*是t统计量大于t*值的概率,是尚不能拒绝原假设 H0 的最大显著水平,称为所估计的回归系数的P值。,P=,7.3 线性回归的显著性检验及预测,2.回归系数显著性的P值检验方法: 将所取显著性水平与P值对比 (1)若P,则在显著性水平下接受 H0。,7.3 线性回归的显著性检验及预测,二、回归方程的检验 (一)目的: 根据样本回归估计的结果对估计的回归方程的进行检验,以检验估计的回归方程是否成立。 (二)回归方程的F检验的步骤 1、 提出假设 H0:= = 0,H1:,不全为零 2、 计算统计量,7.3 线性回归的显著性检验及预测,3、给定显著性水平,确定临界值 Fa(n-2)。 4、 检验结果判断 若FFa(1,n-2),则拒绝原假设,而接受备择假设 若FFa(1,n-2),则接受原假设 ,而拒绝备择假设 (三)回归方程P值的检验 1、若P ,则不能拒绝H0,即估计的回归方程没有意义,也称回归方程没有通过F检验。,例题分析:中国财政收入与GDP,例7.2:为了研究1978-2006年中国财政收入与国内生产总值的关系,取得数据如下表:,例题分析:中国财政收入与GDP,试在显著性水平为=0.05下,对回归系数和回归方程进行检验。,例题分析:中国财政收入与GDP,解:(1)回归系数的检验 对于: H0:= 0,H1: 0 对于:H0:= 0,H1:0 t/2(n-2)=t0.025(27)=2.0518 -2.05182.0518 对于,不能拒绝H0,即= 0; 对于,拒绝H0 即 0。亦即没通过t检验,而通过了t检验。,例题分析:中国财政收入与GDP,(2)回归方程的检验 设H0:= = 0,H1:,不全为零 F(1,n-2)=F0.05(1,27)=4.21 F=767.6124.21 拒绝H0,即,不全为零,即回归方程有意义。,7.3 线性回归的显著性检验及预测,三、一元线性回归模型的预测 (一)对平均值的点预测值 :,(二) Y的个别值置信度为1-的预测区间:,因变量的区间预测的特点,(1)个别值的预测区间大于平均值的预测区间: Y平均值的预测值与真实平均值有误差,主要是受抽样波动影响; Y个别值的预测值与真实个别值的差异不仅受抽样波动影响,而且还受随机扰动项的影响 (2)对Yf 预测区间随Xf 变化而变化:,时,,此时预测区间最窄,,Xf 越是远离,越大,预测区间越宽,当,=0,,因变量的区间预测的特点(续),(3)预测区间与样本容量有关:样本容量n越 大,xi2 越大,预测误差的方差越小, 预测区间也越。 (4)当样本容量趋于无穷大(即n)时, 不存在抽样误差,平均值预测误差趋于0,此时个别值的预测误差只决定于随机扰动的方差。,7.4 多元线性回归分析,一、多元线性回归模型及假定 二、多元线性回归模型的估计 三、多元线性回归模型的检验,7.4 多元线性回归分析,一、多元线性回归模型及假定 (一)多元总体线性回归函数 一般形式:,(二)多元线性样本回归函数: 一般形式:,条件均值形式:,或,7.4 多元线性回归分析,(三)多元总体线性回归模型的矩阵表示,Y=X,+ e,偏回归系数:多元线性回归模型中,回归系数表示当控制其它自变量不变的条件下,第j个自变量的单位变动对因变量均值的影响,这样的回归系数称为偏回归系数。,即Y=X+U (四)多元线性样本回归函数的矩阵表示,7.4 多元线性回归分析,二、多元线性回归模型的估计 (一)多元回归模型的假定,1.与一元线性回归模型相同的假定: 零均值、同方差、无自相关、随机扰动项与自变量不相关、U正态性 2.增加的假定:各自变量之间不存在线性关系,即无多重共线性。 在此条件下,自变量观测值矩阵X列满秩,Rank( X ) = k,方阵,满秩,Rank(,)= k,意义:,存在,可逆,,7.4 多元线性回归分析,二、多元线性回归参数的最小二乘估计 (一)回归系数的估计 使残差平方和:,正规方程组:,达到最小,其充分必要条件:,7.4 多元线性回归分析,正规方程组可简记为矩阵形式,存在,参数向量的最小二乘估计为,参数最小二乘估计的性质,可以证明:多元线性回归的最小二乘估计也是最佳线性无偏估计(BLUE)。,7.4 多元线性回归分析,(二)随机误差项方差2的估计 方差2未知,需要利用样本回归的残差平方和去估计。,可以证明,,是随机扰动项方差2的无偏估计。,7.4 多元线性回归分析,三、多元线性回归模型的检验 (一)拟合优度检验 1、多元线性回归离差平方和的分解式,变差,SST = SSE + SSR (总离差平方和) (残差平方和) (回归平方和) 自由度 n-1 = n-k + k-1,2、多重可决系数:,7.4 多元线性回归分析,3、修正的可决系数: (1)为什么要修正? 可决系数是自变量个数的不减函数,比较因变量相同而自变量个数不同的两个模型的拟合程度时,不能简单地对比多重可决系数。需要用自由度去修正多重可决系数中的残差平方和与回归平方和,(3)相互关系:,(2)计算公式,7.4 多元线性回归分析,(二)回归参数的显著性检验 t 检验 在多元回归中可以证明,其中:,是矩阵,第 j 行第 j 列的元素。,因为2未知,故,也未知。现用,代替2,可构造统计量,:,对原假设,分别作 t 检验,7.4 多元线性回归分析,(三)回归方程的显著性检验 F 检验 目的: 检验多个变量联合对因变量是否有显著影响 方法: 在方差分析的基础上利用F检验进行 假设:,不全为零,方 差 分 析 表,7.4 多元线性回归分析,给定显著性水平,在F分布表中查出自由度为k-1和n-k 的临界值F(k-1,n-k),F检验方法:,成立的条件下,统计量,若FF(k-1,n-k),则拒绝 H0:1=2=k= 0 ,说明回归方程中所有自变量联合起来对因变量有显著影响 若FF(k-1,n-k) ,则接受 H0:1=2= =k= 0 ,说明回归方程中所有自变量联合起来对因变量影响不显著,F(k-1,n-k),例题分析:中国各省财政收入与GDP及第一产业就业比重,试在显著性水平为=0.05下,对回归系数和回归方程进行检验。,例:中国各省财政收入(y)与各省GDP(x2)及第一产业就业比重(x3)额关系如下:,例题分析:中国财政收入与GDP及第一产业就业比重,解:(1)回归系数的检验 对于1: H0: 1 = 0,H1:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论