版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 第八章 相关与回归分析 本章内容 第一节 相关分析 第二节 回归分析与一元线性回归方程 2 第一节 相关分析 本节内容 一、相关关系的概念 二、相关关系的种类 三、相关关系的测定 四、相关分析中应注意的问题 3 1.函数关系函数关系 当一个或几个变量取一定的值时,另一个变量有确当一个或几个变量取一定的值时,另一个变量有确 定值与之相对应,我们称这种关系为确定性的函数定值与之相对应,我们称这种关系为确定性的函数 关系。关系。 例例: :某种商品的销售额某种商品的销售额( (y y) )与销售量与销售量( (x x) )之间的关系可表示为之间的关系可表示为: : y y = = p x p x
2、 ( (p p 为单价为单价) ) 圆的面积圆的面积( (S)S)与半径之间的关系可表示为与半径之间的关系可表示为: :S S = = r r2 2 企业的原材料消耗额企业的原材料消耗额( (y y) )与产量与产量( (x x1 1) ) 、单位产量消耗单位产量消耗( (x x2 2) ) 、原材料价格原材料价格( (x x3 3) )之间的关系可表示为之间的关系可表示为: : y y = = x x1 1 x x2 2 x x3 3 一、相关关系的概念 4 (1)变量之间是一一对应的确定关 系; (2)设有两个变量x 和 y ,变量 y 随变量 x 一起变化,并完全 依赖于 x ,当变量
3、x 取某个 数值时,y 依确定的关系取相 应的值,则称y 是 x 的函数, 记为y y = = f f ( (x x) ),其中x 称为自 变量,y 称为因变量; (3)各观测点落在一条线上 . 函数关系的特点: 5 2.相关关系相关关系 指变量之间保持着不确定的数量依存关系。即变量指变量之间保持着不确定的数量依存关系。即变量 间关系不能用函数关系精确表达,一个变量的取值间关系不能用函数关系精确表达,一个变量的取值 不能由另一个变量唯一确定,当变量不能由另一个变量唯一确定,当变量x取某个值时,取某个值时, 变量变量y的取值可能有几个。的取值可能有几个。 例:商品的消费量例:商品的消费量( (y
4、)y)与居民收入与居民收入( (x)x)之间的关系;之间的关系; 商品的消费量商品的消费量( (y)y)与物价与物价( (x)x)之间的关系;之间的关系; 商品销售额商品销售额( (y)y)与广告费支出与广告费支出( (x)x)之间的关系;之间的关系; 粮食亩产量粮食亩产量( (y)y)与施肥量与施肥量( (x x1 1) ) 、降雨量降雨量( (x x2 2) ) 、温度温度( (x x3 3) )之之 间的关系;间的关系; 收入水平收入水平( (y)y)与受教育程度与受教育程度( (x)x)之间的关系。之间的关系。 6 相关关系的特点: (1)变量间关系不能用函数 关系精确表达; (2)一
5、个变量的取值不能由 另一个变量唯一确定; (3)当变量 x 取某个值时, 变量 y 的取值可能有几个; (4)各观测点分布在直线周 围。 7 具有相关关系的某些现象可表现为因果关系。 自变量:是引起某种结果变化的原因,它是可以 控制、给定的值,常用x表示; 因变量:是自变量变化的引起结果量,它是不确 定的值,常用y表示。 它们的表现形式有多种:一种原因引起一种结果;多种 原因引起一种结果;还有变量之间是互为因果的关系。 相关分析时,一般不区分原因和结果。 8 二、相关关系的种类 1. 1. 按相关的程度可分为完全相关、不完全相关和不相关按相关的程度可分为完全相关、不完全相关和不相关 n完全相关
6、:当一个变量的变化完全由另一个变量所 决定时,称变量间的这种关系为为完全相关关系,这 种严格的依存关系实际上就是函数关系。 n不相关:当两个变量的变化相互独立、互不影响时, 称这两个变量不相关(或零相关)。 n不完全相关:当变量之间存在不严格的依存关系时, 称为不完全相关。不完全相关关系是现实当中相关关 系的主要表现形式,是相关分析的主要研究对象。 9 2. 2. 按相关的方向可分为正相关和负相关按相关的方向可分为正相关和负相关 正相关:当一个变量随着另一个变量的增加 (减少)而增加(减少),即两者同向变化时, 称为正相关。 如家庭收入与家庭支出之间的关系。 负相关:当一个变量随着另一个变量的
7、增加 (减少)而减少(增加),即两者反向变化时, 称为负相关。 如产品产量与单位成本之间的关系,单位成 本会随着产量的增加而减少。 10 3、 按相关的形式可分为线性相关和非线性相关按相关的形式可分为线性相关和非线性相关 线性相关:当变量之间的依存关系大致呈现为 线性形式,即当一个变量变动一个单位时,另一 个变量也按一个大致固定的增(减)量变动,就 称为线性相关。 非线性相关:当变量间的关系不按固定比例变 化时,就称之为非线性相关。 11 4. 4. 按研究变量的多少可分为单相关、偏相关和复按研究变量的多少可分为单相关、偏相关和复 相关相关 单相关:两个变量之间的相关,称为单相关。 复相关:一
8、个变量与两个或两个以上其他变量之 间的相关,称为复相关。 偏相关:在复相关的研究中,假定其他变量不变, 专门研究其中两个变量之间的相关关系时称其为 偏相关。 12 三、相关关系的测定 注意:并非所有的变量之间都存在相关关系,因此需要用相 关分析方法来识别和判断。 相关分析就是借助于图表和分析指标对变量之间的 依存关系的密切程度进行测定的过程。 定性分析定性分析 定量分析定量分析 13 (一)相关表:(一)相关表:将自变量将自变量x x的数值按照从小到大的的数值按照从小到大的 顺序,并配合因变量顺序,并配合因变量y y的数值一一对应而平行排的数值一一对应而平行排 列的表。列的表。 (二)相关图(
9、散点图)(二)相关图(散点图) 识别变量间相关关系最简单的方法是散点图法。识别变量间相关关系最简单的方法是散点图法。 所谓散点图法,就是将所研究变量的观察值以散所谓散点图法,就是将所研究变量的观察值以散 点的形式绘制在相应的坐标系中,通过它们呈现点的形式绘制在相应的坐标系中,通过它们呈现 出的特征,来判断变量之间是否存在相关关系,出的特征,来判断变量之间是否存在相关关系, 以及相关的形式、相关的方向和相关的程度等。以及相关的形式、相关的方向和相关的程度等。 14 【例】在研究我国人均消费水平的问题时,把全国人均 消费记为y,把人均国内生产总值(人均GDP)记为x。 我国人均国内生产总值与人均消
10、费金额数据 单位:元 年份 人均国内生产 总值X 人均消费金额 Y 1995 1996 1997 1998 1999 2000 2001 2002 2003 4854 5576 6054 6308 6551 7086 7651 8214 9101 2236 2641 2834 2972 3138 3397 3609 3818 4089 从上表可以看出从上表可以看出X X和和Y Y这两个变量之间存在什么样的相关关系?这两个变量之间存在什么样的相关关系? 将上表资料绘制散点图如下:将上表资料绘制散点图如下: 15 所绘制的散点图呈现出从左至右的上升趋势,它表明x与y之间存在着 一定的正相关关系,即
11、随着人均GDP的上升,人均消费金额也会增加。 有时也可通过表格来直接观察变量之间是否存大相关关系。 将上表资料绘制散点图如下:将上表资料绘制散点图如下: 16 (a)正相关直线相关(b)负相关直线相关 (c)正相关曲线相关 x与y关系散点图的主要类型 17 (d)负相关曲线关系(e)负相关直线相 关(相关程度较小) (f )不相关 18 (二)相关系数 相关图表可反映两个变量之间的相互关系及其相关方向, 但无法确切地表明两个变量之间相关的程度。 统计学家卡尔皮尔逊设计了统计指标 相关系数。 简单相关系数:在线性条件下说明两个变量之简单相关系数:在线性条件下说明两个变量之 间相关关系密切程度的统
12、计分析指标,简称相间相关关系密切程度的统计分析指标,简称相 关系数。关系数。 根据总体全部数据计算的,称为总体相关系数,记为根据总体全部数据计算的,称为总体相关系数,记为; 根据样本数据计算的,则称为样本相关系数,记为根据样本数据计算的,则称为样本相关系数,记为 r。 将反映两变量间曲线相关关系的统计指标称为非线性相 关系数、非线性判定系数;将反映多元线性相关关系的 统计指标称为复相关系数、复判定系数等。 19 n1、由未分组资料计算相关系数公式: 的协方差。与的标准差及、变量分别为变量和、其中:yxyx r xyyx yx xy 2 2 n xx x 2 )( n yy y 2 )( n y
13、yxx xy )( 22 )()( )( yyxx yyxx r 上述公式还可以变换为其它形式,如: 20 n x x xnx xnx n n xx xnxxx 2 2 22 22 22 )( 2 2 2 )(yy n y y 2 2 )( n yx xyyyxx)( )2()( 222 xxxxxx 21 2222 )( 1 )( 1 1 y n yx n x yx n xy r 2222 )()(yynxxn yxxyn r 22 【例】根据上述资料,计算人均消费与人均国内生产 总值的直线相关系数。 23 9938. 0 28734945474969613954330576679 2873
14、4613952022998529 22 2 2 2 2 yynxxn yxxyn r 将上表计算结果代入公式为: 相关系数较大,这说明人均消费额与人均国内生产 总值高度相关。 2、由分组资料计算相关系数的公式为: 2 2 2 2 )()( jjjjjiiii i jjiiijjiij fyfyffxfxf fyfxfyxf r 24 3、相关系数取值及其意义相关系数取值及其意义 相关系数的值介于1与+1之间,即1r+1。 25 (1)当r0时,表示两变量正相关,r0时,两变量为负相关。 (2)当|r|=1时,表示两变量为完全线性相关,即为函数关系。 (3)当r=0时,表示两变量间无线性相关关系
15、,它并不意味着 与之间不存在其他类型的关系。 。 (4)当0|r|0 ,说明两变量之 间正线性相关; 2)所有相关点都为负相关,则 0 ,说明两变量之 间负线性相关; 3)在全部相关点中,既有正相关、又有负相关和零相 关,这时计算协方差时就会出现正负抵消。抵消的结果 为正数,为正相关;为负数就是负相关. 2 xy 2 xy 2 xy 27 四、相关分析中应注意的问题 (一)相关系数是说明线性联系程度的,相关系数很小的变量间可能 存在非线性联系。 (二)相关系数不能解释两变量间的因果关系,警惕虚假相关导致的 错误结论。 有人曾对教师工资提高和酒价上涨的数据计算相关系数,得到的数值 比较大,这是否
16、表明教师工资提高导致酒的消费量增加,从而导 致酒价上涨呢?经定性分析,事实是由于经济繁荣导致政府普遍 增加工资,其中教师工资也随之增加,同时人们收入提高增加了 酒的消费导致酒价的上涨,而教师工资增长和酒价之间并没有什 么直接关系。 (三)不要在相关关系据以成立的数据范围以外,推论这种相关关系 仍然保持。 28 第二节 一元线性回归分析 n本节内容: n一、回归分析的概念及种类 n二、一元线性回归模型 n三、回归估计标标准误差 n四、可线性化的常用曲线类型 29 一、回归分析的概念 1、什么是回归分析 “回归”一词是由英国生物学家F.Galton在研究人 体身高的遗传问题时首先提出的。 回归分析
17、通过一个变量或一些变量的变化解释另 一变量的变化,即从一组样本数据出发,确定 变量之间的数学关系式。 30 2、相关分析与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则 是相关分析的深入和继续。 相关分析需要依靠回归分析来表现变量之间数量 相关的具体形式,而回归分析则需要依靠相关 分析来表现变量之间数量变化的相关程度。 只有当变量之间存在高度相关时,进行回归分析 寻求其相关的具体形式才有意义。 31 二者的区别: (1) 相关分析中变量之间的关系是对等的;回归分析 中,变量之间的关系是不对等的,将变量划分自变量 和因变量。 (2) 相关分析中变量都必须是随机变量;回归分析中, 自变
18、量是给定的,因变量是随机的。 (3)相关分析主要是通过一个指标即相关系数来反映 变量之间相关程度的大小,相关系数是惟一的。而在 回归分析中,对于互为因果的两个变量 ,则有可能存 在两个或多个回归方程。 32 3、回归分析的种类 回归模型回归模型 多元回归多元回归一元回归一元回归 线性线性 回归回归 非线性非线性 回归回归 线性线性 回归回归 非线性非线性 回归回归 33 4、回归分析步骤: 首先对变量之间的关系进行相关分析,并将变 量分为自变量和因变量; 其次,找出合适的回归模型(即数学方程式), 描述变量间的关系; 再次,对回归模型进行统计检验; 最后,统计检验通过后,利用回归模型,根据 自
19、变量去估计、预测因变量。 本节仅讨论一元线性回归分析。 34 二、一元线性回归模型 如果变量x和y相关,并且从相关图表中可以看出 它们之间大致形成一种直线关系,我们就可在相 关图上求出一条与各点最相配合的直线。 y=a+bx+ 式中x为自变量,通常由研究者事先选定数值。 a为样本 回归直线在y轴上的截距; b为样本回归直线的斜率(又 称回归系数),它表示当x增加一个单位时y的平均增加数 量;为误差项。 35 当只涉及一个自变量时称为一元回归,若 因变量 y与自变量x之间为线性关系时称 为一元线性回归。 对于具有线性关系的两个变量,可以用一 条直线方程来表示它们之间的关系。 描述因变量y如何依赖
20、于自变量x和误差项 的方程称为回归模型。 一元线性回归概念要点一元线性回归概念要点 36 在回归分析中,欲使所求回归直线 y=a+bx最适 合于实际资料,必须使每个xi对应的指标实测值yi 与回归直线确定的估计值yi的离差平方之和为最 小。这样便把寻找适当直线问题转化为使 Q(a, b) 达到最小条件下求出a、b的问题。 如何确定回归直线方程呢?(怎样确定参数a、b) 最小 n i n i i x bayyybaQ 11 2 ) () , (最小值 37 满足上述条件的a、b即为所求的未知参数。 0)1)(2 0)(2 bxay a Q xbxay b Q 由 化简得 (yabx)=0 (ya
21、bx)x=0 即: y=na+bx xy=ax+bx2 因为Q(a, b)是a、b的非负二元函数,所以其最小值无 疑是存在的。根据数学中的极值原理,令: 0 0 b Q a Q 和 38 上述方程组称为标准方程组。解之,得: , )( 1 1 22 x n x yx n xy- b a = y b x y n yx n x 1 , 1 :其中 39 将上述结果代入即可确定回归方程式为: y=a+bx 这个方程称为在给定样本条件下的一元线性回归方程, 对应的直线称为样本回归直线。 回归方程对于不同的样本是有差别的,因而,它具有经 验的特征,所以在实用上,也将它叫做经验公式。 40 教育经费(万元
22、)x在校学生数(万人)y 316 343 373 393 418 455 11 16 18 20 22 25 要求:(1)建立教育经费x与高校学生人数回归直线方程; (2)估计教育经费为500万元时的在校学生数。 例:某地高校教育经费x与高校学生人数y连续6年的统 计资料如下表。 41 回 归 分 析 计 算 表 教育经费x在校学生数y xy 316 343 373 393 418 455 11 16 18 20 22 25 3476 5488 6714 7860 9196 11375 99856 117649 139129 154449 174724 207025 121 256 324 4
23、00 484 625 2298112441098928322210 x2y2 42 (1)建立回归直线方程 91.17 6 2298 0955.0 6 112 0955.0 )2298(8928326 1122298441096 2 22 n x b n y a xxn yxxyn b 所以回归方程为:Y-17.91+0.0955x (2)当教育经费为500万元时,在校学生数可以为: Y-17.91+0.095550029.84(万人) y=a+bx 43 为了简化上述回归系数b的表达形式,引入如 下离差乘积的和式: yx n xy 1 Lxy= (xx)(yy) Lxx= (xx)2 22
24、)( 1 x n x 于是,回归系数可简化为 xx xy L L b 为了相关性检验的需要,顺便引入关于 y 的离差平方和: 22 )( 1 y n y Lyy= (y y )2 44 三、回归估计标准误差 n回归方程的一个重要作用在于根据自变量的已知 值估计因变量的理论值(估计值)。而理论值yc 与实际值y存在着差距,这就产生了推算结果的 准确性问题。如果差距小,说明推算结果的准确 性高;反之,则低。 n为了度量y的实际水平和估计值离差的一般水平, 可计算估计标准误差。 n估计标准误差是衡量回归直线代表性大小的统计 分析指标,它说明观察值围绕着回归直线的变化 程度或分散程度。 45 为了度量回归方程的可靠性,通常计算估计标准 误差。它度量观察值回绕着回归直线的变化程度 或分散程度。通常用Sy代表估计平均误差,其计 算公式为: 2 2 n )y(y S y 注意,公式中根号内的分母是n2, 而不是n。这 是由于Q=(yy)2有两个线性关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年国家公务员招录考试答题技巧解析
- 2026年个人信息保护专员面试题及答案
- 加油站考试试题及答案
- 2026年安徽新闻出版职业技术学院单招综合素质考试模拟试题附答案详解
- 2026年上海外国语大学贤达经济人文学院单招职业技能考试参考题库附答案详解
- 基金从业资格考试题目及答案
- 基础化学试题及答案
- 2026年鹤壁汽车工程职业学院单招综合素质考试备考题库附答案详解
- 2026年山西职业技术学院单招综合素质笔试备考题库附答案详解
- 2026年秦皇岛职业技术学院单招综合素质笔试备考题库附答案详解
- 2026年教师资格之中学综合素质考试题库500道及完整答案【名师系列】
- 招标人主体责任履行指引
- 财务审计工作程序及风险防范措施
- 健康管理师考试题库及答案题库大全
- 雨课堂学堂云在线《中国传统艺术-篆刻、书法、水墨画体验与欣赏(哈工 )》单元测试考核答案
- 公墓骨灰安葬协议书
- 2025国家粮食储备局考试真题与答案
- 2025年汽车后市场汽车维修行业技术更新换代趋势可行性研究报告
- 2024年一建网络图案例专题
- 2025深圳生物会考试卷及答案
- 水泥厂安全检查表
评论
0/150
提交评论