统计学基础 第八章 相关与回归分析_第1页
统计学基础 第八章 相关与回归分析_第2页
统计学基础 第八章 相关与回归分析_第3页
统计学基础 第八章 相关与回归分析_第4页
统计学基础 第八章 相关与回归分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统订学基础第八章相关和回归预测【教学目的】1 .掌握相关系数的测量和性质2 .明确相关性分析和回归预测的特点3、建立回归直线方程,掌握估计标准误差的修正运算【教育要点】1 .相关关系、相关性分析和回归预测的概念2 .相关系数的计算3 .回归方程的建立及其化学基估计和预测【教育难点】1 .相关性分析和回归预测的不同2 .相关系数的校正计算3 .回归系数的订正4 .估计基准错误的纠正算法【上课时间】上课时间是八个小时【教育内容参考】第一节相关关系一、相关关系的含义宇宙的任何现象都不是孤立存在的,而是普遍的联系和相互制约。 这种现象间的相互关系、相互制约的关系是相关关系。相关关系根据其依存度表示相关

2、度的差异。 一些现象之间存在严格的数据依赖关系,例如价格不变条件下的销售量关系、圆面积与半径关系等,都具有显着的一对一对应关系。 因为可以用数学中的函数关系正确地记述这些个的关系,所以也可以认为是完全的相关关系。 一些现象之间的依赖关系并不那么严格。 一种现象的数量变化,身高和体重的关系等,其他现象的数量在一定范围内变化。 一般来说,身高越高体重越重,但两者的关系并不是严格意义上的对应关系,身高1.75米的人,对应的体重有多个数值。 因为影响体重的因素不仅受身高,还受遗传、饮食习惯等因素的制约和影响。 社会经济现象往往存在这种不确定的相关关系。统订学认为,这些个社会经济现象之间普遍存在的数量依

3、赖关系都是相关的。 在本章中,主要介绍可以用函数关系记述的具有经济统订意义的相关关系。二、相关关系的特点1 .现象之间确实存在数量上的依赖关系一种现象在数量上变化,另一种现象也在数量上变化。 两个相互依存的变量中,根据研究目的,可以决定一方的变量作为参数,另一方的对应的变量作为主要因素变量。 例如,以身高为自变量,体重是主要因素变量。2 .现象之间的数量关系是不确定的相关关系的完整名称是统一的相关关系,属于变量间的不完全关系。 也就是说,一个变量受到另一个(或组的)变量的影响,但并非完全由该变量(或组的)变量决定。 例如,上述的身高和体重的关系就是这样的关系。三、相关关系的种类现象之间的相互关

4、系复杂,涉及的变动因素多少不同,作用方向不同,表现形态也不同。 关联关系大致可分为以下几类(1)正相关和负相关根据相关关系的方向,可以分为正相关和负相关。 由于当两个元素(或变量)在相同方向上变化时,即自变量值增加(或减小),并且变量值也相应地增加(或减小),所以此关系在正相关关系中。 家庭消费支出随着收入的增加而增加的话就在正相关关系。 如果两个元素(或变量)变化的方向相反,即自变数值增加(或减少),变数值随之减少(或增加),因此称为负相关。 商品流通费用率随商品经营规模的变大而逐渐降低的是负相关。(2)单相关和复相关根据自变量的多少,可以分为单相关和复相关。 单相关是两个变量之间的相关关系

5、,即所研究的问题只涉及一个参数和一个原因变量。 例如,员工的生活水平和工资之间的关系是单相关的。 复相关是三个或更多变量之间的相关关系,也就是说,正在研究的问题是当云同步研究成本、市场需求和消费倾向对收益的影响时,这些个元素之间的关系是复相关。(三)线性相关和非线性相关按相关关系的表现形态,可分为线性相关和非线性相关。 所谓线性相关,是指当在两个变量之间自变量值变动时,变量值几乎均等地变动,因此在相关图的分布上近似地直线地表现。 例如,商品销售量和销售额是线性相关的。 所谓非线性相关,是指当两个变量之间自变量值变动时,变量值发生偏差等变动,因此在相关图的分布上,用抛物线、双曲线、指数曲线等非线

6、性形式表现。 例如,从人的生命全过程来看,年龄和医疗费用支出呈非线性关系。(4)与完全相关、不完全相关不相关;根据相关程度,可分为完全相关、不完全相关、不相关。 所谓的完全相关是指两个变量之间有完全确定的关系,即变量值完全随着自变量值的变动而变动,从而在相关图上表现出所有的视点处于同一直线上,此时,相关关系被转换为函数关系。 不相关意味着两个变量之间不存在相关关系,即,两个变量的变动彼此不产生影响。 自变量值变动的情况下,不会根据变量值变动。 例如,家庭收入多少和小盆友多少之间没有相关关系。 不完全相关是指完全相关和非相关之间的相关关系。 例如农作物产量和播种面积的关系。 不完全的相关关系是统

7、订研究的主要对象。第二节相关分析一、相关分析的主要内容所谓相关性分析,就是分析、研究客观现象的相互依存关系,这种分析方法称为相关分析法。 相关性分析的目的是研究相互关系的密切度及其变化规律,做出判断,进行必要的预测和控制。 该相关分析的主要内容如下:(1)特定现象间有无相关关系这是相关和回归预测的起点,只有相互依存关系,还需要进一步的分析。(2)确定相关关系的密切度和方向;决定相关关系的密度主要是建立相关格拉夫,校正相关系数。 只有为了达成某种程度的密切的相关关系,才能协助有某种意义的回归方程。(3)决定相关关系的公式为了确定现象之间变化的一般关系,必须使用函数关系公式作为相关关系的公式。 如

8、果现象之间表现为直线相关,则可以采用适合直线方程式的方法。如果现象之间表现为曲线相关,则可以采用适合曲线方程的方法。(4)根据变量推定值决定误差的程度通过配合直线和曲线,可以找到现象间的一般变化关系,即自变量变化时变量变化多少。 线性方程或得到的曲线方程可给出自变量的一些数值,球因子变量的一些估计。 估计与实际值不同,决定变量估计的误差大小的指标是估计标准误差。 估计标准误差大,表示估计不太准确;估计标准误差小,表示估计更准确。二、相关关系的测定相关性分析的主要方法有相关表、相关图和相关系数三种。 在此,将这些个3种方法分类如下(一)相关表格;在整合补正中,生成相关表及相关图,可以直观地判断现

9、象间大致存在的相关关系的方向、形式及密度。对现象整体中的两个相关变量进行相关性分析,研究其相互依存关系时,如果将实际调查得到的一系列成对变量值的资料按顺序排列为一个表,则该表成为相关表。 关联表还是统订表的一种。 根据资料是否分组,关系表可以分为简单的关系表和分组的关系表。1 .简单相关表简单相关表是资料未分组的相关表,是按照自变量从小到大的顺序,与要因变量相匹配地并列排列的统一校正表。【案例】为了研究和分析产量()和单位产品成本()的关系,我们对从30个同种企业得到的原始资料进行了调查,将产量按从小到大的顺序排列,可以做成简单的相关表,结果如表8-2所示。表8-2产量和单位产品成本的原始数据

10、产量(件)202020202020202020303030303040单位产品成本(元)151616161618181818151516161614产量(件)404040405050505050506060606060单位产品成本(元)151515161414151515161414141415从表8-2可以看出,随着产量的提高,单位产品成本有相应降低的倾向,在同一产量的情况下,尽管单位产品成本有差异,但两者之间存在一定的依存关系。2 .小组关系表大量观察时,原资料多,简单的相关表表示难以使用。 在这种情况下,将原始资料分组,并创建一个称为分组关系表的关系表。 分组相关表有单变量分组相关表和2

11、变量分组相关表两种。(1)单变量组表。 在原始资料较多的情况下,将自变量的值分组,对应的要因变量不分组,仅校正其平均值,根据资料,自变量可以是单项式也可以是组距离式。【案例】以上述例子的原始资料为例,将同种30家企业的生产量()和单位产品成本()的原始资料按生产量分组,制作单变量分组表,结果如表8-3所示。表8-3生产量和单位产品成本的简单相关表产量(件)企业数量(个)单位产品成本(元)20916.830515.640515.050614.860514.2由表8-3可知,两者之间存在正相关关系。(2)2变量组表。 将两个相关变量分组、交叉排列,并列出两个变量各组之间的共同次数。 本统一修订表称

12、为2变量组关联表。 此表呈棋盘形状,亦称棋盘式关联表。【案例】以原资料为例,对同类30家企业的产量()和单位产品成本()的原资料作成2变量分组关联表,结果如表8-4所示。表8-4产量和单位产品成本的2变量组关系表单位产品成本(元)产量(件)合订2030405060184-4164311-915123311014-1247合订9556530从表8-4可以看出,产量集中在从左上犄角旮旯到右下犄角旮旯的对角线上,表示产量和单位产品成本存在负相关关系。要创建二变量组关系表,请注意变量是纵栏标题,按变量值从小到大的顺序从左到右排列;变量是横行标题,按变量值从大到小的顺序从上到下排列。 其目的是将相关表和

13、相关图结合,整合性良好地判断相关关系的性质。(2)相关图相关图也被称为散布图。 这是反映两个变量之间的相关关系的格拉夫,其中,自变量用坐标系的横轴来表示,自变量用纵轴来表示,两个变量之间的对应变量值绘制为坐标点的形式。关联图可以用未分组的原始数据创建,也可以用分组的数据创建。从关联图可知,如果对是函数关系,则所有相关点分布在某条线上。如果是相关关系,由于其他因素的影响,这些个的点并不在一条直线上因此,相关图直观地表示了现象间的相关方向和密切度。【案例】以上述例子的原资料制作的生产量和单位产品成本单变量组关联表为例,制作关联图的结果如图8-1所示。从图8-1可以看出,随着产量的增加,每单位产品的

14、成本降低,散点的分布大致呈直线状。 由此可以判断产量和单位产品成本这两个变量之间存在线性的负相关关系。(3)相关系数相关表和相关图粗略地说明了变量之间有无关系,但由于无法表现出这些相关关系的紧密性,所以需要使用数学解析方法来建构表示相关关系及其紧密性的恰当的数学模型。 为了正确地从数量上说明现象间的相关关系的紧密性,需要修正相关系数。1 .相关系数的校正计算相关系数是在直线相关条件下说明两个现象间关系的密切度的统一修正分析指标。 相关系数的修正公式是式中的资料项目数变量的算术平均数变量的算术平均数变量的标准离差变量的标准离差变量的协方差。在实际问题中,只要从原始数据中校正相关系数就可以用相关系

15、数的简单方法校正它,其校正公式是真【案例】根据教材中的表8-5的资料可知,居民户月收入与消费支出之间存在线性相关,修正居民户月收入与消费支出之间的相关系数(参照表8-6 )。表8-3编号月收入x(一百元)消费支出y(一百元)x2y2xy115122251441802181532422527032018400324360425206254005005302890078484064036160012961440762423844176426048755356252809397598860774436005280109265846442255980合订4653492975115571214292 .

16、相关系数的分析明确相关系数的性质是进行相关系数分析的前提。 现将相关系数的性质归纳如下(1)相关系数的数值范围在-1和1之间,即- 11。(2)修正计算结果为0时,表示正相关的为0时,和有负相关。(3)相关系数的绝对值越接近1,表示相关关系越强;越接近0,表示相关关系越弱。 |=1表示两种现象完全线性相关。 |=0表示两种现象完全不相关(不是线性相关)。(4)相关系数的绝对值在0.3以下时无直线相关,在0.3以上时有直线相关,在0.30.5时有低度直线相关,在0.50.8时有显着相关,在0.8以上时有高度相关。【案例】以上例子修正的相关系数为0.99,消费支出与居民的家庭月收入呈高度正相关,也就是说家庭收入越高消费支出也越高。第三节回归预测一、回归预测的含义在一般意义上,相关性分析同时包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论