统计学-第七章-相关分析与回归分析.ppt_第1页
统计学-第七章-相关分析与回归分析.ppt_第2页
统计学-第七章-相关分析与回归分析.ppt_第3页
统计学-第七章-相关分析与回归分析.ppt_第4页
统计学-第七章-相关分析与回归分析.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章 相关分析与回归分析,第一节:相关分析 第二节:一元线性回归分析 第三节:多元线性回归分析*,第一节 相关分析,1. 相关关系的种类,(1) 按相关程度划分 完全相关: Y的变化完全由X的变化确定; 不相关: Y与X不相互影响,各自独立变化; 不完全相关:Y与X之间有一定程度的相互影响。 (2) 按相关方向划分 正相关: X与Y同时变大或变小; 负相关: X变大,Y变小 或 X变小,Y变大。 (3) 按相关形式划分 线性相关: Y与X的关系呈现出线性关系; 非线性相关:Y与X的关系呈现出非线性关系。,第一节 相关分析,1. 相关关系的种类,(4) 按变量多少划分 单相关: 指两个变量间的相关关系; 复相关: 指三个以上变量间的相关关系; 偏相关: 指多个变量情形下,固定其他变量,只考 虑其中两个变量间的相关关系。 (5) 按相关性质划分 真实相关: 两个变量确实存在内在的相关关系; 虚假相关: 两个变量只是表现为数量上相关,并不 存在内在的联系。,第一节 相关分析,2. 相关表和相关图,(1) 相关表 将某一变量按其数值的大小顺序排列,然后再将与 其相关的另一变量的对应值平行排列,便可得到相关表。,第一节 相关分析,2. 相关表和相关图,(2) 相关图 相关图又称散点图,是以直角坐标系的横轴代表变量x, 纵轴代表变量y,将两个变量相对应的成对数据用坐标点的 形式描绘出来,用于反映两变量之间的相关关系的图形。,第一节 相关分析,3. 相关系数及其计算方法,相关系数的定义 变量x与变量y之间的相关关系,可用数量指标来表示。 通常以字母 表示总体的相关系数,以 表示样本的相关 系数。定义如下: 式中, 是变量X与变量Y的协方差。,第一节 相关分析,3. 相关系数及其计算方法,(2) 相关系数的特点 a. r的取值介于-1到1之间; b. 当r=0时,X与Y的样本观测值之间没有线性关系; c. 在大多数情况下, 。r0,说明X与Y正相 关;r0,说明X与Y负相关。r值越接近1,X与Y的 相关程度越高。 微弱相关: 低度相关: 显著相关: 高度相关:,第一节 相关分析,3. 相关系数及其计算方法,(3) 相关系数的计算 具体计算相关系数时,通常利用以下公式: 【例7-2】基于表7-1中的数据,求广告费与年销售收入间的 相关系数。 可见,广告费与销售收入间存在高度的相关关系。,第一节 相关分析,4. 样本相关系数(Pearson)显著异于0的T检验,在二维总体(X,Y)服从正态分布的前提下,Fisher给出了 检验简单相关系数(Pearson)显著异于0的 t 统计量如下: 式子中,n是样本容量,r是简单相关系数(Pearson)。 设定假设: H0: r=0, H1: r0 这是一个双尾检验问题。,【例7-3】根据表7-3资料计算的相关系数,检验该公司广告费和年销售收入之间的相关系数是否显著(设定显著水平=0.05)? 解:第一步,提出假设: H0: ; H1: 第二步,计算检验的统计量 第三步,统计决策。从下式中可以看出,相关系数显著。,第一节 相关分析,4. 样本相关系数(Pearson)显著异于0的T检验,此时的偏相关系数计算公式为: 式中, 是普通样本相关系数。,第一节 相关分析,5. 剔除了一个变量Z的影响后,X、Y的偏相关系数,6. 剔除两个变量Z1,Z2的影响后,X、Y的偏相关系数,此时的偏相关系数计算公式为: 式中, 是固定z1的偏相关系数。,偏相关系数显著异于0的 t 统计量如下: ,服从 分布 式中,n 是样本容量,k是剔除了的变量数,r 是偏相关系数。,第一节 相关分析,7. 偏相关系数显著异于0的T检验,第二节 一元线性回归分析,1. 相关分析与回归分析的关系,(1) 相关分析通过计算相关系数来确定两个变量之间的 相关方向和密切程度,回归分析则是选择一个合适的数学模型,对具有相关关系的两个或多个变量之间的具体数量关系进行测定,以实现对因变量的估计或预测。 (2) 相关分析无需考虑变量作用顺序,回归分析则要考虑; (3)相关分析将变量都视为随机变量,回归分析则只将因 变量视为随机变量,自变量被认为是非随机的。,第二节 一元线性回归分析,2. 一元线性回归模型与回归函数 总体回归模型 总体回归函数 和 是未知参数,又叫回归系数; 是随机误差项。,3. 样本模型与样本函数 样本回归模型 样本回归函数 称为截距项, 称为趋势项, 是残差项。,第二节 一元线性回归分析,样本回归函数是对总体回归函数的近似反映。回归分析的主要任务就是采用适当的方法,充分利用样本提供的信息,使得样本回归 函数尽可能地接近 于真实的总体回归 函数。,第二节 一元线性回归分析,4. 模型参数的点估计:最小二乘法OLS,所谓最小二乘法就是通过令样本的残差平方和达到最小,来求得截距项与趋势项的估计值的方法。大致包括三个步骤: 第一,建立最小二乘函数; 第二,应用极值定理对最小二乘函数求偏导数; 第三,求解偏导数方程组。,第二节 一元线性回归分析,4. 模型参数的点估计:最小二乘法OLS,(1)建立二乘函数:,(2)基于极值定理对二乘函数求偏导数,化简后可得,第二节 一元线性回归分析,4. 模型参数的点估计:最小二乘法OLS,应用克莱姆法则解之得,第二节 一元线性回归分析,4. 模型参数的点估计:最小二乘法OLS,和 是样本值与均值的离差。,对 和 做进一步的变形为,其中,特例,第二节 一元线性回归分析,4. 模型参数的点估计:最小二乘法OLS 【例7-4】我们利用例7-1的表7-3的数据计算该公司广告费对年销售收入的回归方程(直线)。 解: 第一,观察原始数据的散点图;,第二节 一元线性回归分析,4. 模型参数的点估计:最小二乘法OLS 第二,利用Excel表格计算截距项与趋势项中的各个值;,第二节 一元线性回归分析,4. 模型参数的点估计:最小二乘法OLS 第二,利用Excel表格计算截距项与趋势项中的各个值; 从而有 因此,样本回归方程为,第二节 一元线性回归分析,5. 如何利用样本残差估计总体方差 除了 和 外,一元线性回归模型中还包括另一个未知参数,那就是总体随机误差项的方差 。 在数学上已证明: 因约束条件 、 ,所以,自由度为 n-2 。 S2 还可化简为:,第二节 一元线性回归分析,5. 回归参数的区间估计,因为 所以,第一,考虑 、 的概率分布 由于 服从正态分布, 也服从正态分布。 、 都是 的线性组合,因而也服从正态分布。 公式表述如下:,第二节 一元线性回归分析,5. 回归参数的区间估计,第二,考虑随机变量 的方差 的方差可用残差值 来表示:,是 的无偏估计量,即,因此, 与 的标准差估计值分别为:,第二节 一元线性回归分析,5. 回归参数的区间估计,第三,利用 t 统计量求出置信区间 置信区间为:,第二节 一元线性回归分析,5. 回归参数的区间估计,【例7-6】根据例7-1中给出的有关数据和例7-4中已得到的 回归参数的估计值,求回归系数 的置信区间。 解: 由 得 进一步简化得 0.22410.382,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,(1) 什么是拟合优度? 拟合优度指的是模型对 样本数据的拟合情况,回 归线距离样本值越近拟合 度越好,同时,说明X对Y 的解释程度越强。拟合优 度的评价指标为“样本可决 系数”。,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,.,.,.,.,.,.,.,.,Y,X,Yi,Xi,A,0,(2) 什么是样本可决系数? 在给出可决系数的公式之 前,我们先来看离差平方和的 “神奇分解”。,离差 未被解 被解释 释的部 的部分 分 对式子求平方和可得:,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,下面证明最后一项为0,因而,有,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,其中,是样本的总离差平方和;,是样本的回归平方和;,是样本的残差平方和。,可见,总离差平方和=回归平方和+残差平方和,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,则,记,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,(2) 什么是样本可决系数呢?,对上式移项可得,就被称作样本的可决系数 或 决定系数 或 判定系数。,是样本回归线与样本观测值拟合优度的度量指标,也是回归模型包含多少样本信息量的具体表现。,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,(2) 什么是样本可决系数呢?,说明变量X与Y之间不存在线性关系; 说明变量X与Y之间存在线性关系,(X,Y)的样本点都落在同一条直线上。 通常 越接近1,样本回归线对样本值的拟合优度越好,X 对Y的解释能力越强。,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,(3) 样本可决系数的计算公式,由最小二乘回归结果知:,因此样本系数可表示为: 其中:,第二节 一元线性回归分析,6. 一元线性回归模型的拟合优度,【例7-7】利用例7-2中表7-3的资料,计算年销售收 入对广告费的回归的判定系数,并解释其意义。 解:方法1: 方法2:,第二节 一元线性回归分析,7. 一元线性回归模型的显著性检验,(1) 未知参数的 t 检验 第一步:提出假设 H0: ; H1: 第二步:确定显著性水平 =0.05*或0.01*或0.001*。 第三步:计算未知参数的统计量 t 值 第四步:依据显著水平 和自由度 确定临界值 第五步:作出判断。 则,拒绝原假设。,第二节 一元线性回归分析,7. 一元线性回归模型的显著性检验,(2) 未知参数的 P值 检验 P值检验是指在计算出 值后,计算,【例7-8】利用例7-4和例7-6的有关资料和结果,检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论