第十章相关与回归分析.ppt_第1页
第十章相关与回归分析.ppt_第2页
第十章相关与回归分析.ppt_第3页
第十章相关与回归分析.ppt_第4页
第十章相关与回归分析.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实践中的统计,1947年,宝丽来公司创始人Dr. Edwin Land宣布,他们在研究即时显像的技术方面迈出了新的一步,这使得一分钟成像成为可能。紧接着,公司开始拓展用于大众摄影的业务。宝丽来的第一台相机和第一卷胶卷诞生于1949年。在那之后,他们不断地在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和更为便利的摄影系统。 宝丽来公司的另一项主要业务是为技术和工业提供产品,目前,它正致力于使即时显像技术在现代可视的通信环境下,成为日益增长的成像系统中的关键部分。为此,该公司推出了多种可进行即时显像的产品,以供专业摄影、工业、科学和医学之用。除此之外,公司还在磁学、太阳镜、

2、工业偏振镜、化工、传统涂料和全息摄影的研制和生产方面有自己的业务。 用于衡量摄影材料感光度的测光计,可以提供许多有关于胶片特性的信息,比如它的曝光时间范围。在宝丽来中心感光实验室中,科学家们把即时显像胶片置于一定的温度和湿度下,使之近似于消费者购买后的保存条件,然后再对其进行系统地抽样检验和分析。他们选择专业彩色摄影胶卷,抽取了分别已保存113个月不等的胶卷,以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时间的延长而下降,它们之间相应变动的关系可用一条直线或线性关系近似表示出。 运用回归分析,宝丽来公司建立起一个方程式,它能反映出胶卷保存时间长短对感光速率的影响。 Y= -

3、19.87.6x 式中y表示胶卷感光率的变动,x为胶卷保存时间(月) 从这一方程式可以看出,胶卷的感光速率平均每月下降7.6个单位。通过此分析得到的信息,有助于宝丽来公司把消费者的购买和使用结合起来考虑,调整生产,提供顾客需要的胶卷。,事物之间的数量关系举例,某种商品的销售额(y)与销售量(x)之间的关系可表示为:销售额=销售量销售价格 (p ) 用符号表示,即:y = p x 圆的面积(S)与半径之间的关系可表示为:S = R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为:y = x1 x2 x3,事物之间的数量关系举例,你怎么这么

4、高?,因为我爸爸妈妈高。,变量间的关系,函数关系 是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 以线性函数关系为例,各观测点落在一条线上,变量间的关系,某音像设备商店在过去的3个月有10周,利用周末电视广告进行促销.管理人员想调查是否可以证实在广告展示次数和下一周期间的商店销售额间有关系,以百万元计的销售额的10周的样本数据如下表:,相关关系 变量间关系不能用函数关系精确表达 一个变量的取值不能

5、由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值可能有几个 以线性相关关系为例,各观测点分布在直线周围,变量间的关系,10名20多岁的女性一季的“化妆品费”和“置装费”如下:,“年龄”和“喜欢的品牌”有关系吗?,第十章 相关与回归分析p253,学习目标 Learning Objectives 1.理解相关系数 2.描述线性回归模型 3.解释最小二乘法 4.评价模型,讨论内容,简单线性相关分析,简单线性回归分析,相关关系及其类型P253,相关分析要解决的问题,相关与回归分析的步骤,Excel的相应应用,线性相关关系的量度,回归分析P262,简单线性回归模型及其建立,简单线性回归模型

6、的评价,利用回归方程进行预测,应用相关与回归分析的注意事项,相关关系及其类型p255,相关关系现象之间存在的非确定性的数量依存关系称为相关关系。,完全相关,不相关,不完全相关,相关关系的类型,链接,相关关系的类型p255,正相关,负相关,直线相关,曲线相关,相关关系的类型,单相关,复相关,相关关系的类型,相关关系,非线性相关,线性相关,单相关,正相关,负相关,复相关,完全相关,不 相关,按相关形式,按相关程度,按相关因素多少,不完全相关,相关分析要解决的问题,变量之间是否存在关系? 如果存在关系,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变量之间

7、的关系?,相关与回归分析的步骤,定性分析,有,无,终止,初步判断 (确定表现形式及方向),定量分析 (计算相关系数),建 模 (数学模型表现相关关系),检 验 (可信度及显著性检验),运 用 (分析、预测或模拟控制),检 验 (相关系数显著性检验),变量线性相关关系的测度p257,相关表将一变量的变量值按顺序排列,与之对应的另一变量或多个变量的变量值依次排列形成的统计表 相关图(散点图)将两个变量间相对应的变量值用坐标点的形式描绘出来。大致判断两个变量间的相关形态、方向及程度。 相关系数度量变量之间线性相关关系密切程度的指标 简单相关系数与复相关系数前者:测定直线相关条件下两个变量之间相关关系

8、密切程度和方向;后者:反映多个变量 之间线性相关关系 样本相关系数与总体相关系数前者:根据样本数据计算的,记为r;后者:根据总体全部数据计算的,记为,两变量线性相关关系的测度(简单)相关系数的理解,协方差相关系数实质上是通过协方差来说明相关关系的密切程度的。对于一个含有 n个个体,每个个体含有两个数据 (x1,y1), (x2,y2),协方差定义如下:,两变量线性相关关系的测度(简单)相关系数的理解,协方差的理解以音像商店例子为例。散点图中加了一条垂直线(即x的平均值)和一条水平线(即y的平均值)。以此将图划分为四个象限。第一象限的点对应于xi值大于其平均值且yi值大于其平均值。以此类推。,的

9、值,在第一、第三象限为正,在第二、第四象限为负。,会有几种情况:,所有点全在第一、三象限,则加总结果为正数。说明x的值增加则y的值也增加,两个现象属于正线性相关;所有点全在第二、四象限,则加总结果为负数,说明x的值增加则y的值减少,两个现象属于负线性相关;所有象限都有点,加总时正数和负数会发生抵消,抵消的结果如为正数则是正相关,为负数则是负相关。数值大表示关系强,数值小表示关系弱。若全部抵消掉了,结果为0,则表示是零相关。 所以,根据离差乘积总和的结果可以判断两个现象属于哪一种相关,以及相关关系是否密切。 但是很显然,离差乘积总和受项数多少的影响。因此从离差的总和还不能准确说明相关关系是否密切

10、。将这个总和除以项数就可以消除项数多少的影响,即得出平均每一项的离差乘积,这就是协方差。,两变量线性相关关系的测度(简单)相关系数的理解,从上面的讨论中看出,似乎协方差是一个大的正值就表示强的正线性相关关系,若是一个大的负数就表示强的负线性相关关系。但是运用协方差的一个问题在于其值的大小取决于x和y本身数值的大小,和它们采用的度量单位也有关系。比如,假设要研究人的身高与体重的关系,无论用厘米还是用米来度量身高,它与体重的关系都不会改变。但是,如果用厘米来度量身高的话,计算出的x的离差将比以米的大,从而协方差也大而事实上相关关系并无变化。为了避免这种情况即消除变量值大小和离差大小的影响,将协方差

11、和xy的乘积相比较,使协方差变为相对数。这就称为相关系数。,两变量线性相关关系的测度 (简单)相关系数的理解,取值范围在-1与+1之间。为负表示负相关,为正称为正相关。数值越接近于1表示相关关系越强,反之则越弱。,皮尔逊乘积矩相关系数:,相关系数的计算简捷法,相关关系密切程度的判断(绝对值): 00.3之间为弱(微)相关(不相关); 0.30.5之间为低度相关; 0.50.8之间为显著相关; 0.81之间为高度相关。,注:按此标准计算相关系数,原始数据要比较多,结果才可信;若数据太少,可信度会降低,此时一般不能以0.3为起点,要查“相关系数检验表”,该表中列有不同条件下判断相关关系密切程度的起

12、点值。,用excel计算: 函数:pearson和correl 数据分析工具:相关系数和回归,相关关系的测度,r,相关系数的计算举例,在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到以下样本数据(xi ,yi),i =1,2,,13,数据见表,计算相关系数。,相关系数的计算举例,解:根据样本相关系数的计算公式有,人均国民收入与人均消费金额之间的相关系数为 0.9987,利用Excel计算 相关系数,相关分析注意事项P261,因果关系问题 使用范围问题 虚假相关问题,A,B,C,A,B,C,伪相关,中介相关,相关系数的显著性检验P261,检验总体两变量间线

13、性相关性是否显著。即样本相关系数是否会来自一个无线性关系的总体。 检验依据:如果变量X和Y都服从正态分布,在总体相关系数=0的假设下,与样本相关系数 r 有关的 t统计量服从自由度为n-2的 t 分布:,相关系数的显著性检验步骤,提出假设。H0:0 ; H1:0 规定显著性水平,并依据自由度(n-2)查阅t分布表得到临界值t/2 计算检验统计量,将检验统计量与临界值对比,作出决策。若|t|t/2(n-2),则拒绝原假设若|t|t/2(n-2),则接受原假设,举例:P262,回归分析p262,管理决策,经常取决于对两个或更多个变量的分析。如一位销售部经理在考虑了广告费和销售收入之间的关系后,才能

14、尝试去预测一定水平的广告费可能带来多少销售收入。又如一家公用事业公司可以先分析出白天最高气温与用电量之间的关系,再根据下个月白天紧高气温的预报,才能预测出下个月的用电量。通常管理人员要依靠直觉去判断两个变量的关系。但是,如果能取得数据,就能利用统计方法去建立一个表示变量间相互关系的方程,这一统计方法称为回归分析。也就是通过一个变量或一些变量的变化解释另一变量的变化。,回归分析的内容,从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个

15、特定变量的取值,并给出这种预测或控制的精确程度,回归分析与相关分析的区别,相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,回归模型的类型,简单(一元)线性回归模型,当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线

16、性关系时称为一元线性回归 对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型,简单(一元)线性回归模型,yi=0+1 xi+i,只涉及一个自变量的简单线性回归模型可表示为:,因变量/被解释变量,自变量/解释变量,斜率,Y轴上的截距,随机误差,模型中,y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异 0和1 称为模型的参数,简单线性回归

17、假设,正态性:误差项是一个服从正态分布的随机变量,且相互独立。即服从N( 0 ,2 ) 线性:误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的X值,Y的期望值为0+ 1 x 换言之,y的平均值是x的线性函数。 同方差性:对于所有的X值,的方差2都相同 独立性:对于一个特定的X值,它所对应的与其他X值所对应的不相关;对于一个特定的X值,它所对应的Y值与其他X所对应的Y值也不相关,简单线性回归方程,描述: y的平均值如何依赖于x的方程为回归方程。形式为: E( yi ) = 0+ 1 xi 0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值 1是直线的斜率,称为回归系数,

18、表示当 x 每变动一个单位时,y 的平均变动值,估计的回归方程,在实际中参数0和1的值未知,必须用样本数据去估计它们。计算样本统计量 作为参数0和1的估计。用样本统计量 代替回归方程中的未知参数0和1 ,这样就得到估计的回归方程:,样本估计值i并不完全等于Y的实际样本观测值yi,二者之间偏差称为残差,用ei表示,即: yi - i= ei,简单线性回归,= 随机误差,Y,X,观测值,观测值,yi=0+1 xi+i,最小二乘法,基本思想是希望得到的估计的回归方程是最佳一种拟合。即真实的值 (Yi) 和估计的值之间的差异最小。为避免正负误差抵消,以残差平方和最小作为衡量其偏离程度的标准。即,以此为

19、依据确定估计回归方程中未知系数的方法称为最小平方法或最小二乘法。,回归方程系数的计算P265,方法一,方法二,截距,斜率(回归系数),举例(前面第22张例子),初步判断散点图,计算相关系数,利用Excel计算,建立简单线性回归模型,excel进行相关与回归分析,线性拟合图示,利用Excel求解系数的结果,模型的评价之估计标准误差(剩余标准差)p268,以上求出了估计的回归方程,问题是,估计的回归方程是否很好地拟合了样本数据?估计标准误差为估计的回归方程提供了一个拟合优度的度量。 它是实际观察值与回归估计值离差平方和的均方根,说明以回归直线为中心的所有相关点的离散程度; 估计标准误差说明回归直线

20、代表性大小, 即说明回归直线的拟合程度; 它在抽样调查条件下是计算回归抽样误差的根据。,模型的评价之判定系数p266,判定系数是另一个显示回归方程拟合优劣的指标。又称可决系数。 判定系数是建立在回归中的几个离差关系的基础上的。因此先要了解这几个离差。 总离差平方和 回归平方和 残差平方和,回归中离差的度量,样本中因变量的观测值yi与其平均值之间的离差给出了利用样本中因变量的平均值去估计因变量i所产生的误差的一个度量。这些离差对应的平方和称为总离差平方和,记作SST。,为了测定在回归线上的值与直线(y的平均值)有多大的偏离,计算它们之间离差的平方和,称为回归平方和。记为SSR。,被用于估计回归参

21、数的样本中的第i次观测,因变量的观测值yi和因变量的估计值i之间的离差称为第i个残差。这些残差的平方和称为残差平方和记作SSE 。,离差的度量,SST、SSR和SSE之间的关系: SST=SSR+SSE,Y,X,Xi,残差平方和 (Yi -i)2,Yi,Y,总离差平方和 (SST),回归平方和 (SSR),残差平方和 (SSE),判定系数,比值SSR/SST称为判定系数,用R2表示。将在0和1之间取值。即: R2 =回归平方和/总离差平方和= SSR/SST R2 1,说明回归方程拟合的越好; R2 0,说明回归方程拟合的越差。 数值上等于相关系数的平方,即R2 (R)2 意义上与相关系数的区别: 判定系数无方向性,相关系数则有方向,其方向与回归系数相同; 判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向。,一元线性回归模型的显著性检验P269,回归系数的检验。回归系数是决定X与Y变量依存关系形式的重要参数。如果回归系数为0,说明X与Y不存在线性关系。,因此检验总体回归系数等于0的假设就等于检验总体X与Y的变量没有线性关系的假设。 t检验:小样本时使用。P269 Z检验:大样本条件下使用。 F检验:是将前述的总离差平方和进行分解的一种检验方法。各种离差平方和都同自由度相联系,总离差平方和的自由度为n-1,因为在计算它时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论