统计学课件-第七章-相关分析_第1页
统计学课件-第七章-相关分析_第2页
统计学课件-第七章-相关分析_第3页
统计学课件-第七章-相关分析_第4页
统计学课件-第七章-相关分析_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章相关分析,1相关分析的意义与任务2简单线性相关3回归分析4标准误差,1相关分析的意义与任务,1,函数关系与相关关系,如半径与圆面积的关系工资水平与社会商品零售额的关系优良品种比重与收获量的关系沸点(100度) (a b)2=a2 2ab b2砖的抗压强度与抗弯强度、函数关系, 函数关系函数关系、相关关系(因果)、相关关系(因果)、相关关系、现象之间的关系一般分为两种不同的类型:函数关系:当某个变量或一些变量取一定值时,另一个变量对应于确定值的关系称为确定性函数关系。 函数关系中,一般将成为影响因素变量称为自变量(x ),将与变化(结果)对应的变量称为因子(y )。 相关关系:如果一个或多个相互关联的变量取一定数值,则与其对应的其他变量的值未确定,但在一定范围内变化。 变量之间的这种相互关系被称为具有不确定性的相关关系。 函数关系和相关关系是两种不同类型的关系,但两者之间不存在严格的边界。 另外,由于在观察和实验中出现的误差,如果更加清楚地理解了函数关系也反映出来的现象之间的内在联系和规律,那么相关关系可能转化为函数关系。 在相关性中通常存在一定的因果关系。 但是应当知道,在相关性中,两个变量之间仅存在互相关系,并且可能存在明显的因果关系。 而且,根据相关程度将相关的类型分成单相关、复相关和偏振相关,其中所述变量按正相关和负相关的形式划分成线性相关(线性关系)和非线性相关。 另外,根据相关程度,如果一种现象的数量变化完全由另一种现象的数量变化确定,则两种现象之间的关系是完全相关的(函数关系)。 例如,半径与圆面积之间的关系。 不相关:如果两种现象互不影响,其数量变化各自独立,则这两种现象之间的关系不相关。 例如,股票价格和人的平均寿命之间的关系。 不完全相关:如果现象之间的关系处于完全相关与不完全相关之间,则这两个现象之间的关系是不完全相关的。 例如居民收入水平与恩格尔系数的关系。 按相关方向分为:正相关:一个现象的数量从小到大,另一个现象的数量从小到大,这种相关称为正相关。 例如,员工的工资水平必须随着劳动生产率的提高而增加。 负相关:一个现象的数量从小到大,另一个现象的数量从大到小的相关叫做负相关。 例如,流通费用率随销售额的增加而下降,以相关的形式分为:线性关联:两个相关现象之间的关系大致呈线性关系时,称为线性关联(直线关联)。 例如,人们消费水平与收入水平的关系。 非线性相关性:当近似两个相关现象之间的曲线方程的关系时,这种相关性被称为非线性关系。 例:产品的平均成本与产品产量的关系。 根据所研究的变量数,单相关性可以分为两种现象的相关性,即一种变量与另一种变量的相关性。 例如,投资额与国内生产总值的关系。 复相关:如果一个变量考虑与两个或更多其他变量的相关性,则称为复相关。 例如,某商品的销售额及其价格水平与人们收入水平的关系。 偏振相关:如果一个现象与多个现象相关联,则两个变量之间的相关性被称为偏振相关,假定另一个变量是不变的。例如,在假定人们的收入水平不变化的条件下,某商品的需求和价格水平的关系是不一致的。 三、相关分析和回归分析:这是研究两种现象相关关系的基本方法。 (1)、相关分析相关分析是指用一个指标来表示现象间相互依存关系的密切。 (二)回归分析是根据相关关系的具体形态,选择近似表示变量之间的平均变化关系的适当数学模型。 回归(Regression ) :回归这个词,最初是英国的生物学家F.Golton研究遗传学的论文采用的词语(1877年)。 他在研究中发现,身高较高的父母或身高较低的父母,都有孩子身高恢复到平均身高的倾向。 他在这项研究中确立的数学公式被称为回归公式,其含义应该是关系公式或者推定公式,但基于历史原因,通常沿用回归公式这一想法。(三),相关分析和回归分析的联系,相关分析和回归分析不仅有共同的研究对象,而且在具体应用时,必须经常互相补充。 相关分析需要通过回归分析来展示现象数量的具体形式。 回归分析需要通过相关分析来表示现象数变化的相关度。 仅当变量之间存在高度相关性时,进行回归分析求出其相关性的具体形式是有意义的。 因此,相关分析和回归分析合称为广义相关分析。(四),相关分析和回归分析的差异:研究目的的差异:相关分析是变量间的相关方向,相关程度和相关形式。 回归分析是研究变量间相互关系的具体形式,一个变量在数量上发生变化时,另一个变量平均如何变化。 研究方法不同:相关分析通过计算相关系数和相关指数来判断变量之间的相关关系。 回归分析用数学模型确定变量间的具体数量关系。 变量的性质不同:相关分析无需决定谁是参数,谁是变量,以及所有变量是随机变量。 在回归分析中,必须事先决定在相关关系的变量中,参数是谁,变量是谁。 通常,参数是给定的非随机变量(一般变量),而变量是随机变量。 四、相关表与相关图,(一),居民消费与收入的相关表,单位:百元,可支配收入、消费支出,(二),消费与收入的相关图,二简单线性相关分析,相关系数:线性相关关系。 用积差法计算。 相关指数:用于确定所有相关性,包括线性和非线性相关性。 其中,用回归系数b判别其相关方向。一、相关系数(r ) :相关系数是线性相关条件下说明两个现象之间相关关系密度的统计指标。 可取相关系数的值的范围在-1到1之间。 计算结果r0为正相关性,r0为正相关性,在第二、四象限中,(x-x )、(y-y ) 0为负值,其中(x-x )、(y-y )的大小受变量值的个数影响,两种现象都由变量值的个数产生计算结果的不一致性。 因此,有必要消除计算结果对变量值的数量有多大影响。 方法是将计算结果除以变量值的个数n。 协方差的作用:显示x和y是正相关还是负相关。 相关系数的正负完全取决于协方差的正负。 显示x和y的关联度的大小。 协方差的绝对值小,表示相关性低;协方差的绝对值大,表示相关度高。 然而,x和y的协方差是名称,根据现象的变异状况,相关程度无法用直接协方差的大小来比较。 必须利用x和y的标准偏差进行标准化,使协方差为无名数,能够比较相关系数不同的现象的相关程度的高低。 然后,用x和y的标准偏差进行标准化后,使相关系数的绝对值不超过1。举例说明、相关系数的计算:例:观察收入水平的提高对食品支出的影响。 收入水平为x,食品支出为y。 根据资料制作散点图:从收入水平、食品支出、计算结果来看,收入水平与食品应用支出有很高的正相关性。 在、三维线性回归分析、相关分析中,已知两个变量之间存在线性的相关关系。 必须确定反映变量与参数之间关系的公式。 若有这样的数学式则分析容易,若有参数的一定的数值,则可以估计随变量的数值平均而如何变动。 这样的数学公式称为回归公式。 由于变量间关系的复杂性,回归公式也有一些类型和形式。 一元线性回归表达式是一个参数,表示相关格式为直线。 例示、其研究方法:x (参数)为人均月收入水平,y (因变量)为人均月食支出额。 根据上述的相关分析可知,两个变量之间呈线性的倾向,因此a、b可以用回归方程式的未定参数表示,b可以用被称为回归系数的线性方程式表示。 为了研究线性关系,回归方程式应当满足以下要求:基于方程式确定的估计表示所有观测值y的总体,并且最大程度上在所确定的估计直线与每个观测点之间靠近,即y和x之间的关系用该直线表示,并且实际数据与y之间的误差小于其它直线用最小二乘法估计未定系数a和b:a :的截距,当x为0时y=a; b :斜率,表示x每增加1个单位,y平均增加的数值。 这也是回归系数,与相关系数r的取值一致:如果b为正值,r为正值,表示正相关的b为负值,则r为负值,表示负相关。 一元线性回归方程的具体求法:a=9.99元,表示如果没有收入,人均食品支出需要9.99元。 b=0.18元,每增加一元收入,人均食品支出平均增加0.18元。 b为正值,表明收入水平与食品支出的关系为正相关。 将人均收入水平(x )代入回归公式,计算估计值,并将其结果记入统计表。 由于变量(y )的观测值和估计值不一致,所以会出现差异。 这种差异的大小是所有视点的直线方程式的代表性尺度。 4、估计标准误差和相关指数,回归公式反映变量和变量的变动关系。 然而,它本身并不反映拟合程度的好坏,建立方程后,需要进一步分析估计直线的代表性、所有观察点和估计方差的程度等,为了测量这些指标需要确立几个指标。一、方差平方和的分解,所有的观测值y上下变动,y取值的变动现象称为恶化。 退化的原因是参数变化的影响,即其他因素(x取值的差异)的影响。 为了分析这两个方面的影响,有必要分解总劣化:x,总劣化的分解:根据线性方程式,可以认为这是由x的变动引起的。 因此,在y的总劣化中,反映依赖于x与y的线性依赖关系的y的变化的部分,即判明或解释为总劣化的变化的部分被称为回归劣化。每个观察点的回归直线方差的平方和。 根据最小二乘法的原理,该量是所有直线中距视点的距离的平方和最小之一,反映除x对y的线性关系的影响以外的所有要素对y的影响部分,称为馀数劣化,或者将未说明的劣化记为q。 从定义上看,二、估计标准误差:是观测值y和估计值y的平均方差。 在回归分析中,Sq反映了所有观测值y相对于估计值y的平均差异的程度。根据回归公式的意思,对于给定的参数x的值,观测值y不总是分布在回归直线上,而是分布在回归直线周围,这必然形成了一定的方差。 直观地反映了观测值y和估计值y的方差,并且反映了在从变量x估计变量y时产生的误差。 该方差的值越小,即,根据给定的x的值,y的误差越小,则y的精度越高,相反,该方差的值越大,从直观上来看,各视点越远离直线,则根据预定的x值来估计y值,则该误差越大,因此y的正确度降低。 在这个意义上,这种偏差称为回归估计参考误差。 回归估计基准误差的计算公式:说明:观测值y与估计值y的平均差异程度为1.91元。 根据正态分布的性质,趋势值(预测值)为ySq的区间约为68.27%; 在y2Sq区间约为95.45%; 落入y3Sq区间的约为总次数的99.73%; 另外,判定系数和相关系数、回归劣化u在意义上是在影响总劣化的要素中被明确或被说明的部分,即参数x影响的部分。 q的数值越小,u的数值越大,即,在总恶化中判明或解释的要素(x )所占的比例越大,在曲线图上所有的视点都越接近回归直线,表示x和y的关系越紧密。 如果所有的观察点都在回归直线上,则y=y,即总劣化为回归劣化,并且馀数劣化为零。 此时发生的总退化完全是由x的波动导致的,这是完全相关的。 但是,一般在相关关系中,除了自变量的影响之外,还有其他未知的要因发挥作用,其视点的分布不是在回归直线上,而是分布在其周围,表示上下变动的状况。在此情况下,关系的紧密度主要取决于u对总劣化的比率的大小:当u对总劣化的比率逐渐增大时,相关关系增加,并且当u对趋向于完全相关的总劣化的比率逐渐减小时,相关关系减小并且接近零相关。 由此可知,通过比较u与总劣化的关系及其比率的变动,反映了已判明的要因在总劣化中所占的比率的大小,反映了x与y之间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论