已阅读5页,还剩63页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Lecture7相关与回归分析 7 1相关分析7 2一元线性回归分析7 3线性回归的显著性检验与回归预测7 4多元线性回归分析 学习目标 1 变量间的相关关系与相关系数的计算2 总体回归函数与样本回归函数3 线性回归的基本假定4 简单线性回归参数的估计与检验5 多元线性回归参数的估计与检验6 多个变量的线性相关关系 复相关系数和偏相关系数7 常用的可以转换为线性回归的非线性函数8 非线性相关指数 实例1 中国妇女生育水平的决定因素是什么 妇女生育水平除了受计划生育政策影响以外 还可能与社会 经济 文化等多种因素有关 1 影响中国妇女生育率变动的因素有哪些 2 各种因素对生育率的作用方向和作用程度如何 3 哪些因素是影响妇女生育率主要的决定性因素 4 如何评价计划生育政策在生育水平变动中的作用 5 计划生育政策与经济因素比较 什么是影响生育率的决定因素 6 如果某些地区的计划生育政策及社会 经济 文化等因素发生重大变化 预期对这些地区的妇女生育水平会产生怎样的影响 据世界卫生组织统计 全球肥胖症患者达3亿人 其中儿童占2200万人 11亿人体重过重 肥胖症和体重超常早已不是发达国家的 专利 已遍及五大洲 目前 全球因 吃 致病乃至死亡的人数已高于因饥饿死亡的人数 引自 光明日报 刘军 文 问题 肥胖症和体重超常与死亡人数真有显著的数量关系吗 这些类型的问题可以运用相关分析与回归分析的方法去解决 实例2 全球吃死的人比饿死的人多 7 1相关分析 一 变量间的相互关系二 相关关系的类型三 简单线性相关系数及其检验 7 1相关分析 一 变量间的相互关系 一 确定性的函数关系Y f X 二 不确定性的统计关系 相关关系Y f X 为随机变量 三 没有关系变量间关系的图形描述 坐标图 散点图 7 1相关分析 二 相关关系的类型 一 从涉及的变量数量看简单相关多重相关 复相关 二 从变量相关关系的表现形式看线性相关 散布图接近一条直线 左图 非线性相关 散布图接近一条曲线 右图 三 从变量相关关系变化的方向看正相关 变量同方向变化A同增同减 A 负相关 变量反方向变化一增一减 B B 四 从变量相关的程度看完全相关 B 不完全相关 A C不相关 C 7 1相关分析 7 1相关分析 三 简单线性相关系数及检验 一 总体相关系数1 对于所研究的总体 表示两个相互联系变量相关程度的总体相关系数为 总体相关系数反映总体两个变量X和Y的线性相关程度 2 特点 对于特定的总体来说 X和Y的数值是既定的总体相关系数是客观存在的特定数值 7 1相关分析 二 样本相关系数1 通过X和Y的样本观测值去估计样本相关系数变量X和Y的样本相关系数通常用rXY表示 2 特点 样本相关系数是根据从总体中抽取的随机样本的观测值计算出来的 是对总体相关系数的估计 它是个随机变量 7 1相关分析 3 样本相关系数与相关关系的联系 1 相关系数的取值在 1与1之间 2 当r 0时 表明X与Y没有线性相关关系 3 当0 r 1时 表明X与Y存在一定的线性相关关系 若r 0 X与Y为正相关 若r 0 表明X与Y为负相关 4 当 r 1时 表明X与Y完全线性相关 若r 1 称X与Y完全正相关 若r 1 称X与Y完全负相关 7 1相关分析 4 使用相关系数的注意事项 1 X和Y都是相互对称的随机变量 所以 XY YX 2 相关系数只反映变量间的线性相关程度 不能说明非线性相关关系 3 相关系数不能确定变量的因果关系 也不能说明相关关系具体接近于哪条直线 7 1相关分析 三 相关系数的检验1 为什么要检验 样本相关系数是随抽样而变动的随机变量 相关系数的统计显著性还有待检验 2 检验的依据 如果X和Y都服从正态分布 在总体相关系数 0的假设下 与样本相关系数r有关的t统计量服从自由度为n 2的t分布 7 1相关分析 3 判断标准给定显著性水平 查自由度为n 2的临界值t 2 若 t t 2 表明相关系数r在统计上是显著的 应否定 0而接受 0的假设 反之 若 t t 2 应接受 0的假设 7 2一元线性回归分析 一 相关系数及检验回归二 总体回归函数与样本回归函数三 回归系数的估计四 拟合优度的度量 7 2一元线性回归分析 一 相关与回归分析的联系 一 回归的古典意义 高尔顿遗传学的回归概念父母身高与子女身高的关系 无论高个子或低个子的子女都有向人的平均身高回归的趋势 7 2一元线性回归分析 二 回归的现代意义一个因变量对若干解释变量依存关系的研究回归的目的 实质 由固定的自变量去估计因变量的平均值 7 2一元线性回归分析 三 相关分析与回归分析的联系1 共同的研究对象 都是对变量间相关关系的分析2 只有当变量间存在相关关系时 用回归分析去寻求相关的具体数学形式才有实际意义3 相关分析只表明变量间相关关系的性质和程度 要确定变量间相关的具体数学形式依赖于回归分析4 相关分析中相关系数的确定建立在回归分析的基础上 7 2一元线性回归分析 二 总体回归函数与样本回归函数 一 Y的条件分布Y在X取某固定值条件下的分布 二 回归线对于X的每一个取值 都有Y的条件期望与之对应 在坐标图上Y的条件期望的点随X而变化的轨迹所形成的直线或曲线 称为回归线 三 回归函数如果把Y的条件期望E Y Xi 表示为X的某种函数 E Y Xi f Xi 这个函数称为回归函数 四 简单线性回归函数如果其函数形式是只有一个自变量的线性函数 如E Y Xi Xi 称为简单线性回归函数 7 2一元线性回归分析 五 总体回归函数 PRF 1 概念 将总体因变量Y的条件均值表现为自变量X的某种函数 这个函数称为总体回归函数 简记为PRF 2 表现形式 1 条件均值表现形式 2 个别值表现形式 随机设定形式 常用 7 2一元线性回归分析 六 样本回归函数 SRF 1 样本回归线Y的样本观测值的条件均值随自变量X而变动的轨迹 称为样本回归线 2 样本回归函数如果把因变量Y的样本条件均值表示为自变量X的某种函数 这个函数称为样本回归函数 简记为SRF 3 样本回归函数的表现形式 线性样本回归函数可表示为 或者 7 2一元线性回归分析 七 样本回归函数与总体回归函数的联系1 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 是对总体回归函数参数的估计 是对总体条件期望E Y Xi 的估计 4 残差e在概念上类似总体回归函数中的随机误差u 5 回归分析的目的 用样本回归函数去估计总体回归函数 2 3 7 2一元线性回归分析 八 样本回归函数与总体回归函数的区别1 总体回归函数虽然未知 但它是确定的 样本回归线随抽样波动而变化 可以有许多条 2 样本回归线还不是总体回归线 至多只是未知总体回归线的近似表现 3 总体回归函数的参数虽未知 但是确定的常数 样本回归函数的参数可估计 但是随抽样而变化的随机变量 4 总体回归函数中的ui是不可直接观测的 而样本回归函数中的ei是只要估计出样本回归的参数就可以计算的数值 7 2一元线性回归分析 三 回归系数的估计 一 回归系数估计的思想 1 为什么只能对未知参数作估计 参数是未知的 不可直接观测的 不能精确计算的 能够得到的只是变量的样本观测值2 结论 只能通过变量样本观测值选择适当方法去近似地估计回归系数 3 前提 u是随机变量其分布性质不确定 必须作某些假定 其估计才有良好性质 其检验才可进行 4 原则 使参数估计值 尽可能地接近 总体参数真实值 7 2一元线性回归分析 二 简单线性回归的基本假定假定1 零均值假定 E ui Xi 0假定2 同方差假定 Var ui Xi E ui E ui Xi 2 E ui2 2假定3 无自相关假定 Cov ui uj E ui E ui uj E uj E ui uj 0假定4 随机扰动ui与自变量Xi不相关 Cov ui Xi E ui E ui Xi E Xi 0假定5 正态性假定ui N 0 2 7 2一元线性回归分析 三 回归系数的估计 普通最小二乘法 OLS 1 基本思想 希望所估计的偏离实际观测值Yi的残差ei越小越好 可以取残差平方和 ei2作为衡量与Yi偏离程度的标准 即最小二乘准则 2 估计式 7 2一元线性回归分析 四 最小二乘估计量的性质 高斯 马尔可夫定理 前提 在基本假定满足时1 最小二乘估计是因变量的线性函数2 最小二乘估计是无偏估计 即 3 在所有的线性无偏估计中 回归系数的最小二乘估计的方差最小 结论 回归系数的最小二乘估计是最佳线性无偏估计 BLUE 7 2一元线性回归分析 五 最小二乘估计量的分布 其方差和标准误差为 结论 都是服从正态分布的随机变量 其期望为 7 2一元线性回归分析 六 2的无偏估计1 为什么要估计 2 确定所估计参数的方差需要 2 由于ui不能直接观测 2也是未知的 对 2的数值只能通过样本信息去估计 2 怎样估计 2 可以证明 2的无偏估计为 7 2一元线性回归分析 四 拟合优度的度量 一 基本思想样本回归直线是对样本数据的一种拟合 不同估计方法可拟合出不同的回归线 样本回归拟合优度的度量建立在对因变量总离差平方和分解的基础上 总离差平方和 记为SST n 1 回归平方和 记为SSR k 1 残差平方和 记为SSE n k 二 可决系数定义 K为回归系数的个数 对可决系数的理解 7 2一元线性回归分析 三 可决系数的特点1 可决系数是非负的统计量 2 可决系数取值范围 0 r2 1 3 可决系数是样本观测值的函数 可决系数是随抽样而变动的随机变量 4 在一元线性回归中 可决系数在数值上是简单线性相关系数的平方 其中 7 3线性回归的显著性检验及预测 一 回归系数显著性的t检验二 回归方程的检验三 一元线性回归模型的预测 7 3线性回归的显著性检验及预测 一 回归系数显著性的t检验 一 目的 根据样本回归估计的结果对总体回归函数回归系数的有关假设进行检验 以检验总体回归系数是否等于某个特定的数值 二 思想 2是未知的 而且不一定能获得大样本 这时可用 2的无偏估计代替 2去估计参数的标准误差 7 3线性回归的显著性检验及预测 用估计的参数标准误差对估计的参数作标准化变换 所得的t统计量将不再服从正态分布 而是服从t分布 可利用t分布作有关的假设检验 7 3线性回归的显著性检验及预测 三 回归系数t检验的步骤1 提出假设对于 H0 0 H1 0对于 H0 0 H1 02 计算统计量 3 给定显著性水平 确定临界值ta 2 n 2 4 检验结果判断若 t ta 2 n 2 则拒绝原假设 而接受备择假设若 t ta 2 n 2 则接受原假设 而拒绝备择假设 7 3线性回归的显著性检验及预测 四 回归系数显著性的P值检验1 P值的意义 在既定原假设下计算回归系数的t统计量的值t 可求得统计量大于t 的概率a 这里的a 是t统计量大于t 值的概率 是尚不能拒绝原假设H0的最大显著水平 称为所估计的回归系数的P值 P 7 3线性回归的显著性检验及预测 2 回归系数显著性的P值检验方法 将所取显著性水平 与P值对比 1 若P 则在显著性水平 下接受H0 7 3线性回归的显著性检验及预测 二 回归方程的检验 一 目的 根据样本回归估计的结果对估计的回归方程的进行检验 以检验估计的回归方程是否成立 二 回归方程的F检验的步骤1 提出假设H0 0 H1 不全为零2 计算统计量 7 3线性回归的显著性检验及预测 3 给定显著性水平 确定临界值Fa n 2 4 检验结果判断若F Fa 1 n 2 则拒绝原假设 而接受备择假设若F Fa 1 n 2 则接受原假设 而拒绝备择假设 三 回归方程P值的检验1 若P 则不能拒绝H0 即估计的回归方程没有意义 也称回归方程没有通过F检验 例题分析 中国财政收入与GDP 例7 2 为了研究1978 2006年中国财政收入与国内生产总值的关系 取得数据如下表 例题分析 中国财政收入与GDP 试在显著性水平为 0 05下 对回归系数和回归方程进行检验 例题分析 中国财政收入与GDP 解 1 回归系数的检验对于 H0 0 H1 0对于 H0 0 H1 0 t 2 n 2 t0 025 27 2 0518 2 05182 0518 对于 不能拒绝H0 即 0 对于 拒绝H0即 0 亦即 没通过t检验 而 通过了t检验 例题分析 中国财政收入与GDP 2 回归方程的检验设H0 0 H1 不全为零 F 1 n 2 F0 05 1 27 4 21 F 767 612 4 21 拒绝H0 即 不全为零 即回归方程有意义 7 3线性回归的显著性检验及预测 三 一元线性回归模型的预测 一 对平均值的点预测值 二 Y的个别值置信度为1 的预测区间 因变量的区间预测的特点 1 个别值的预测区间大于平均值的预测区间 Y平均值的预测值与真实平均值有误差 主要是受抽样波动影响 Y个别值的预测值与真实个别值的差异不仅受抽样波动影响 而且还受随机扰动项的影响 2 对Yf预测区间随Xf变化而变化 时 此时预测区间最窄 Xf越是远离 越大 预测区间越宽 当 0 因变量的区间预测的特点 续 3 预测区间与样本容量有关 样本容量n越大 xi2越大 预测误差的方差越小 预测区间也越 4 当样本容量趋于无穷大 即n 时 不存在抽样误差 平均值预测误差趋于0 此时个别值的预测误差只决定于随机扰动的方差 7 4多元线性回归分析 一 多元线性回归模型及假定二 多元线性回归模型的估计三 多元线性回归模型的检验 7 4多元线性回归分析 一 多元线性回归模型及假定 一 多元总体线性回归函数一般形式 二 多元线性样本回归函数 一般形式 条件均值形式 或 7 4多元线性回归分析 三 多元总体线性回归模型的矩阵表示 Y X e 偏回归系数 多元线性回归模型中 回归系数表示当控制其它自变量不变的条件下 第j个自变量的单位变动对因变量均值的影响 这样的回归系数称为偏回归系数 即Y X U 四 多元线性样本回归函数的矩阵表示 7 4多元线性回归分析 二 多元线性回归模型的估计 一 多元回归模型的假定 1 与一元线性回归模型相同的假定 零均值 同方差 无自相关 随机扰动项与自变量不相关 U正态性2 增加的假定 各自变量之间不存在线性关系 即无多重共线性 在此条件下 自变量观测值矩阵X列满秩 Rank X k 方阵 满秩 Rank k 意义 存在 可逆 7 4多元线性回归分析 二 多元线性回归参数的最小二乘估计 一 回归系数的估计使残差平方和 正规方程组 达到最小 其充分必要条件 7 4多元线性回归分析 正规方程组可简记为矩阵形式 存在 参数向量 的最小二乘估计为 参数最小二乘估计的性质 可以证明 多元线性回归的最小二乘估计也是最佳线性无偏估计 BLUE 7 4多元线性回归分析 二 随机误差项方差 2的估计方差 2未知 需要利用样本回归的残差平方和去估计 可以证明 是随机扰动项方差 2的无偏估计 7 4多元线性回归分析 三 多元线性回归模型的检验 一 拟合优度检验1 多元线性回归离差平方和的分解式 变差 SST SSE SSR 总离差平方和 残差平方和 回归平方和 自由度n 1 n k k 1 2 多重可决系数 7 4多元线性回归分析 3 修正的可决系数 1 为什么要修正 可决系数是自变量个数的不减函数 比较因变量相同而自变量个数不同的两个模型的拟合程度时 不能简单地对比多重可决系数 需要用自由度去修正多重可决系数中的残差平方和与回归平方和 3 相互关系 2 计算公式 7 4多元线性回归分析 二 回归参数的显著性检验 t检验在多元回归中可以证明 其中 是矩阵 第j行第j列的元素 因为 2未知 故 也未知 现用 代替 2 可构造统计量 对原假设 分别作t检验 7 4多元线性回归分析 三 回归方程的显著性检验 F检验目的 检验多个变量联合对因变量是否有显著影响方法 在方差分析的基础上利用F检验进行假设 不全为零 方差分析表 7 4多元线性回归分析 给定显著性水平 在F分布表中查出自由度为k 1和n k的临界值F k 1 n k F检验方法 成立的条件下 统计量 若F F k 1 n k 则拒绝H0 1 2 k 0 说明回归方程中所有自变量联合起来对因变量有显著影响 若F F k 1 n k 则接受H0 1 2 k 0 说明回归方程中所有自变量联合起来对因变量影响不显著 F k 1 n k 例题分析 中国各省财政收入与GDP及第一产业就业比重 试在显著性水平为 0 05下 对回归系数和回归方程进行检验 例 中国各省财政收入 y 与各省GDP x2 及第一产业就业比重 x3 额关系如下 例题分析 中国财政收入与GDP及第一产业就业比重 解 1 回归系数的检验对于 1 H0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学(历史学)中国近现代史期末测试题及答案
- 2025年高职(游戏设计)游戏关卡设计试题及答案
- 制药企业安全培训内容课件
- 工程安全资料培训课件
- 公安自查自纠报告及整改措施详述
- 2026CNAO全国中学生天文知识竞赛预赛试题(附答案)
- 广东省东莞市虎门镇2024-2025学年三年级上册期末考试数学试卷(含答案)
- 铁路防雨线路维护协议
- 2026年WMS仓储管理咨询协议
- 2026年普法依法治理工作计划4篇
- 南方航空安全员培训
- 2025年律师事务所书记述职报告律所主任述职报告
- 2025-2026学年岭南美版(新教材)初中美术七年级上册期末综合测试卷及答案
- 工抵房合同范本
- 动火作业考试卷子及答案
- 机电设施设备安装施工方案
- 剧场工作总结
- GB/T 42765-2023保安服务管理体系要求及使用指南
- 2023版设备管理体系标准
- 建设工程施工内部承包协议
- 【角色游戏对对幼儿社会性发展影响及促进对策7900字(论文)】
评论
0/150
提交评论