《统计基础知识》-第八章_第1页
《统计基础知识》-第八章_第2页
《统计基础知识》-第八章_第3页
《统计基础知识》-第八章_第4页
《统计基础知识》-第八章_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一节相关分析的一般问题一、相关关系概述1.相关关系的概念在自然界与人类社会中,许多现象之间是相互联系、相互制约的,究其实质,这种现象之间的关系可以概括为两种不同类型,即函数关系与相关关系。函数关系是指现象之间客观存在的,在数量变化上按一定法则严格确定的相互依存关系。在此种关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之对应并且可以用一个数学表达式表达出来。例如,正方形面积(S)对于边长(a)的函数关系是S=a2;电流(I)与电压(U)和电阻(R)的关系是I=U/R;下一页返回第一节相关分析的一般问题商品销售额是商品销售价格与商品销售量的乘积;某种农作物总产量等于单位面积产量与种植面积的乘积等。这类现象的变化关系是确定的函数关系,已知某现象数值,可求解出另一现象的数值。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。相关关系是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。例如,储蓄额与国内生产总值的关系、失业率与通货膨胀率的关系等都属于相关关系。不同国家家庭的人均食品支出与人均收入之间为相关关系,人均收入高的国家,人均食品支出往往较高;但是人均收入相同的地区,人均食品支出不一定相同,这是因为后者同时与地区价格水平以及居民的消费习惯等随机因素有关。上一页下一页返回第一节相关分析的一般问题又如生育率与人均GDP的关系也属于典型的相关关系,人均GDP高的国家,生育率往往较低,但二者没有唯一的确定关系,这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。上一页下一页返回第一节相关分析的一般问题2.相关关系的主要特点相关关系表现为数量上的相互依存关系,即一个现象在数量上发生变化,另一个现象也会相应地发生数量上的变化。相关关系在数量上的相互依存关系是非确定性的。存在相关关系的两个变量,对应于一个变量的取值,另一个变量可能有多个数值与之对应。例如,对于同一个施肥量值,可能有多个单位面积产值;同一个劳动生产率值也可能有多个利润值与之对应。这是因为,任何一种现象的产生,其诱发的原因是多方面的,若只研究其中一个或几个原因,对其他因素未予控制时,变量间的因果关系就表现为这种非确定性的依存关系。上一页下一页返回第一节相关分析的一般问题二、相关关系的种类现象间的相关关系,从不同的角度,按不同的标志划分,有不同的种类。不同种类的相关关系,需要用不同的方法进行研究。现象间的相关关系主要有以下几种分类。1.从表现形态上划分为线性相关与非线性相关线性相关是指两个变量的对应取值在坐标图中大致呈一条直线。例如,人均消费水平与人均收入水平通常呈直线相关。非线性相关是指两个变量的对应取值在坐标图中大致呈一条曲线,如抛物线、指数曲线、双曲线等。例如,单位产品成本与产品总产量之间的相关关系就是一种曲线相关。上一页下一页返回第一节相关分析的一般问题相关关系表现为直线或某一种曲线,这是客观现象本身所固有的,不是由人的主观意识所决定的。现象表现为不同形式的相关关系,就要用不同的统计方法去研究,因此,进行相关分析时,首先要确定相关关系的表现形态。上一页下一页返回第一节相关分析的一般问题2.从变动方向上可分为正相关和负相关正相关是指直线相关中,两个变量的变动方向相同,即变量X增加,变量Y也相应增加;变量X减少,变量Y也相应减少。在一般情况下,身高增加,体重也增加;在一定范围内,施肥量增多,单产也增多;在正常情况下,居民货币收入增多,商品零售额也增多等,这些都是正相关。负相关是指直线相关中,两个变量的变动方向相反,即变量X增加,变量Y反而减少;变量X减少,变量Y反而增多。如商品价格降低,商品的销售量增多;总产量增加,产品的单位成本降低;商品的流通费用增多,销售利润额减少等。上一页下一页返回第一节相关分析的一般问题3.按变量的多少可分为单相关和复相关单相关是指两个变量间的相关关系,如自变量X和因变量Y的关系。在实际中,如身高与体重、降雨量与单产、机床使用年限与维修费用、总产量与单位成本等都是单相关。复相关是指多个自变量与因变量间的相关关系,如气温、降雨量、施肥量、播种面积与粮食总产量的相关关系,资金周转速度、流通费用与销售量的相关关系,销售价格、居民收入与销售利润间的相关关系等,这些都是复相关。社会经济现象中,许多现象都是相互依存、彼此关联的,它们都是复相关。在一个变量与两个或两个以上的变量相关的条件下,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。例如,在假定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关关系即为偏相关。上一页下一页返回第一节相关分析的一般问题4.按相关的密切程度划分,有完全相关、不完全相关和不相关完全相关是两个变量之间有确定的函数关系。例如,在价格不变的条件下,销售额与销售量之间的正比例函数关系即为完全相关。若两个变量之间有一定联系,当一个变量变化时,另一个变量也会因此发生变化,但不存在严格的函数关系,称为不完全相关。若两个变量之间各自独立,当一个变量变化,另一个变量不变化,或呈不规则变化,两者没有依存关系,称为不相关。例如,考试成绩的高低与学生胖瘦之间一般情况下是不相关的。另外,由于完全相关与不相关的数量关系是确定的或者说是互相独立的,因此在统计学中相关分析的主要研究对象是不完全相关。上一页下一页返回第一节相关分析的一般问题三、相关分析的主要任务相关分析是对客观社会经济现象间存在的相关关系进行分析研究的一种统计方法。其目的在于对现象间所存在的依存关系及其所表现出的规律性进行数量上的推断和认识,以便为回归分析提供依据。相关分析的内容或任务如下所述。上一页下一页返回第一节相关分析的一般问题1.判别现象间有无相关关系现象间有无相关关系,这是相关分析的出发点。只有现象间确实存在相关关系,才可能进行相关分析。所以进行相关分析时,首先要通过定性分析,借助相关表和相关图等方法来判别现象间是否确实存在相关关系,否则就会产生认识上的偏差,得出错误的分析结论。例如,中学生的身高和学习成绩是否有相关关系?按一般常识我们认为是没有关系的,但是如果就某个研究的需要,要研究该项内容,那么就要在大量观察的基础上,使用一定的手段,进行判别,判断两种现象之间是否有相关的方面。上一页下一页返回第一节相关分析的一般问题2.判定相关关系的表现形态和密切程度相关关系是一种数量上不严格的相互依存关系。只有当变量间确实存在高度密切的相关关系时,才可能进行相关分析,对社会经济现象进行预测、推算和决策。因此,判定现象间存在相关关系后,需要进一步确定相关关系的表现形态和密切程度。统计上,一般是通过编制相关表、绘制相关图和计算相关系数来做出判断的。根据相关图表可对相关关系的表现形态和密切程度做出一般性的判断,依据相关系数则能做出数量上的具体分析。在我们判断中学生的学习成绩和身高之间有无相关性时,如果我们发现有部分相关联的点,我们还要进行相关程度的判断,确定两种现象之间的相关程度的高低,以此来判定其是否具有研究相关性的必要。上一页返回第二节相关关系的判断一、相关关系的一般判断进行相关关系分析,首先要判断现象间是否存在相关关系。判断现象间是否存在相关关系,一般是对现象进行定性分析、编制相关表和绘制相关图。1.定性分析对现象进行定性分析,就是根据现象的性质,运用理论知识、专业知识、实际经验来进行判断和分析。例如,根据经济理论来判别居民的货币收入与社会商品购买力是否存在相关关系;根据生物遗传理论,来判别父辈的身高与子辈的身高是否存在相关关系等。定性分析是进行相关分析的基础,在此基础上,根据需要通过编制相关表和绘制相关图来进行分析。下一页返回第二节相关关系的判断2.相关表相关表就是把被研究现象的观察值对应排列所形成的统计表格。如某地区工业劳动者人数和增加值的历史资料对应排列如表8-1所示。相关表中的两行数据叫相关数列,它有别于变量数列。相关表中的数值是变量的观测值,是实际资料,是样本数据,它是判别相关关系的基础。在相关表中,如果观测值的分布呈现一定的规律性,则表明现象间存在相关关系。如随着一个变量数值的增加或减少,另一个变量的值也大致以某一固定的速率和数量增加或减少,这就可以初步判别现象间存在相关关系。如果两个变量的观测值不表现出任何规律性,则可以判定现象间不存在相关关系。上一页下一页返回第二节相关关系的判断相关表可分为简单相关表和分组相关表。表8-1为简单相关表。分组相关表是把简单相关表资料适当分组后而编制成的相关表。按分组的情况不同,分组相关表又可分为两种:单变量分组相关表和双变量分组相关表。单变量分组相关表是在具有相关关系的两个变量中,只对自变量进行分组的相关表,如表8-2所示。上一页下一页返回第二节相关关系的判断双变量分组相关表就是对自变量和因变量都进行分组的相关表。如果两个相关变量变动均较为复杂,根据分析的需要,同时对两个变量进行分组即对总体作复合分组,一个分组设在主体栏,另一个分组设在叙述栏,形成棋盘式的表格,叫双变量分组相关表,如表8-3所示。这张双变量分组相关表,按照相关图的形式做了特别的设计,形成图表结合的模式,因此反映这两个现象之间的相关关系更加清楚。上一页下一页返回第二节相关关系的判断除上例外,在其他方面也都可以编制类似的双变量分组相关表。如工业企业按产量和成本水平同时分组;对同行业的商业企业,按企业规模和流通费水平同时分组等。这种双变量分组相关表,可作为探寻最佳方案、提高经济效益的一种工具。但是,根据双变量分组表的资料来计算相关分析指标比较复杂,所以,在相关分析中较少使用。上一页下一页返回第二节相关关系的判断3.相关图相关图也叫相关散点图,它是根据相关表中的观测数据,在坐标图中所绘制的点状图形。用X和Y分别代表两个变量,把相关表中的对应观测值一一描绘在坐标图中,则形成了反映相关点分布状况的图形,据此就可以观测现象间相关关系的情况。如根据上面表8-1的数据所绘制的图8-1和根据上面表8-2的数据所绘制的图8-2。在相关图中,若相关点呈现出一定的规律性,如大致为一条直线(图8-1)或一条曲线(图8-2),这表明现象间存在相关关系,且为直线相关或曲线相关。相关点越密集,表明相关关系越密切。若相关点分布毫无规律,表明现象间无相关关系或存在低度的相关关系。上一页下一页返回第二节相关关系的判断二、相关系数现象间的相关关系,有直线相关和曲线相关。社会经济现象之间的相关,多数属直线相关。因此,直线相关分析在实际中最为常用,本书在此只介绍直线相关分析。直线相关关系的密切程度是通过直线相关系数来度量的。1.相关系数的涵义相关系数是指直线相关条件下,说明两种现象之间相关关系密切程度的统计分析指标,用r表示。其定义公式为:上一页下一页返回第二节相关关系的判断依相关系数的定义公式可知相关系数的涵义如下:·r的取值范围为:-1≤r≤1。协方差的绝对值最小为0,最大为σx和σy的乘积。·r的绝对值越接近于1,表明相关关系越密切;越接近于0,表明相关关系越不密切。·r=+1或r=-1,表明两现象完全相关。·r=0,表明两变量无直线相关关系。·r>0,表明现象呈正直线相关,r<0,表明现象呈负直线相关。实际中,—r—≤0.3,视为无相关;0.3<—r—≤0.5,为低度相关;0.5<—r—≤0.8,为显著相关;—r—>0.8,一般称为高度相关。上一页下一页返回第二节相关关系的判断2.相关系数的计算(1)根据相关系数的定义公式直接计算具体计算时,要使用相关表的资料,设计一个计算表,将相关系数公式中所需要的基本数据先计算出来,即需要列出5个计算栏:(x-x)、(y-y)、(x-x)(y-y)、(x-x)2、(y-y)2。(2)相关系数的简捷计算法按照定义公式计算相关系数,运算量较大,过程繁琐,实践中多采用由定义公式推导出的简捷公式计算相关系数。简捷计算公式为:上一页下一页返回第二节相关关系的判断按照这一公式计算相关系数,只需列3个计算栏:xy、x2、y2,且避免了平均数、协方差、标准差的直接计算,大大简化了运算过程。现以表8-4中的数据,用简捷公式计算相关系数,如表8-6所示。(3)相关系数的其他公式在定义公式的第一个公式中,分子、分母均有1/n,它是可以消掉的,于是可得:上一页下一页返回第二节相关关系的判断根据相关系数的定义公式,可推导出相关系数的其他计算公式:上一页返回第三节回归分析的概念、特点和研究内容一、回归分析概述1.回归分析的概念现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。其意思是根据现象之间相关关系的形式,配合一条最适合的直线或曲线(本章只介绍直线),用这条直线反映它们之间数量变化的一般关系,即当自变量发生一个量的变化时,因变量一般会(或平均会)发生多大量的变化。下一页返回第三节回归分析的概念、特点和研究内容例如,单位面积施肥用量增加1千克,粮食单产量会增产多少千克。反映现象间相关关系数量变化规律的这条直线,就叫回归直线。表示这条回归直线的数学表达式,称直线回归模型,它是推算或预测因变量的经验数据模型。直线回归模型有一元线性回归模型(只反映两现象之间的相关关系)和多元线性回归模型(反映三个或三个以上现象之间的相关关系)。本章仅讨论一元线性回归模型。2.回归分析的特点与相关分析相比,回归分析的特点有两点。上一页下一页返回第三节回归分析的概念、特点和研究内容(1)回归分析的两个变量是非对等关系相关分析中,相关关系的两个变量是对等的,不必区分哪一个是自变量,哪一个是因变量。而回归分析中,两个变量是因果关系,需要分出哪个是因变量,哪个是自变量。自变量、因变量不同,所得出的分析结果也不同。因此,在回归分析中,变量之间的关系是不对等的。(2)回归分析中,因变量是随机变量,自变量是可控制变量可依研究的目的分别建立Y对于X的回归方程或X对于Y的回归方程;而相关分析中,被研究的两个变量都是随机变量,它只能计算出反映两个变量之间相关密切程度的一个统计分析指标——相关系数。上一页下一页返回第三节回归分析的概念、特点和研究内容相关分析是回归分析的基础,回归分析是相关分析的深入和继续。只有当两个变量间存在高度相关时,进行回归分析才有意义。二、回归分析的内容回归分析是指将具有相关关系的现象的变量转变为函数关系,并建立变量关系的数学表达式,来研究变量之间数量变动关系的统计分析方法。具体内容包括两个方面。上一页下一页返回第三节回归分析的概念、特点和研究内容1.确定现象之间相关关系的数学模型回归分析的目的之一就是要根据一个现象的变动对另一现象的变动做出数量上的判断,测定变量间的一般数量变化关系,即建立描述现象间相关关系的数学模型——回归方程,用函数关系式近似地表现相关关系,进而找出现象间相互依存关系数量上的规律性,作为判断、推算、预测的根据。2.测定数学模型的拟合精度数学模型是现象间相关与回归关系的数量描述形式,模型拟合的精度直接影响着统计分析结论的准确性。因此,在模型建立后,需要对其精确度进行检验。统计上一般通过计算估计标准误差来测定。上一页下一页返回第三节回归分析的概念、特点和研究内容估计标准误差小,说明模型的拟合精度高,从而进行统计分析结论的可靠性就大;反之,估计标准误差大,说明模型拟合的精度低,则统计分析结论的可靠性就低。三、相关分析和回归分析的区别与联系相关分析与回归分析既相互区别又密切联系,是相辅相成的。相关分析是研究两个或两个以上变量之间相关关系及其密切程度的分析。判断相关关系及其密切程度,一般可通过进行定性与定量分析、编制相关图表、计算相关系数等来反映相关方向和密切程度。回归分析是指将相关现象的关系转变为函数关系,并建立变量关系的数学表达式,来研究变量之间数量变动关系的统计分析方法。上一页下一页返回第三节回归分析的概念、特点和研究内容相关分析和回归分析是研究现象之间互相依存关系的不可分割的两个方面。一般先进行相关分析,测定相关现象之间相关程度大小,进而决定是否需要进行回归分析,并拟合相应的回归方程,以便进行推算和预测等。因而可以说相关分析是进行回归分析的基础,回归分析是把变量的相关关系转变为函数关系的手段。但须指出,相关分析可以不分自变量和因变量,而进行回归分析时,则必须明确自变量和因变量,当自变量与因变量位置互换时所得到的回归方程是不同的。上一页返回第四节回归模型的建立与检测一、一元线性回归模型一元线性回归模型是用来进行两个变量间回归分析的。回归分析的重要内容之一,就是根据变量观测值构建回归方程,对现象间存在的一般数量关系进行描述。1.构建回归模型应具备的条件构建一元线性回归模型应具备以下几个条件:(1)现象间确实存在数量上的相互依存关系只有当两个变量存在高度密切的相关关系时,所构建的回归模型才有意义,用以进行分析和预测才有价值。下一页返回第四节回归模型的建立与检测(2)现象间存在直线相关关系一元线性回归方程在图形上表现为一条直线,因此,只有当两个变量的相关关系表现为直线相关时,所配合的直线方程才是对客观现象的真实描述,才可用来进行统计分析。如果现象间的相关关系表现为曲线,却配合为一条直线,这必然会得出错误的分析结论。实际中,一般是借助散点图来判定现象是否呈直线相关。(3)具备一定数量的变量观测值回归直线方程是根据自变量和因变量的样本观测值求得的,因此,变量X和变量Y两者应有一定的数量上的对应观测值,这是构建直线方程的依据。如果观测值太少,受随机因素的影响较大,就不易观察出现象间的变动规律性,所求出的直线回归方程也就没有多大意义了。上一页下一页返回第四节回归模型的建立与检测2.直线回归方程的求法直线回归方程又称一元一次线性回归方程,若以X表示自变量,Y表示因变量,则其基本形式为:模型中的参数a、b与直线趋势方程相同,通常用最小平方法来求。最小平方法的数学出发点是:上一页下一页返回第四节回归模型的建立与检测令G(a,b)=Σ(y-a-bx)2,根据高等数学中求极值的原理:令Σ2(y-a-bx)(-1)=0,并且Σ2(y-a-bx)(-x)=0。即Σy=na+bΣx,并且Σxy=aΣx+bΣx2。这就是求解参数a、b的二元一次方程组。解之即求得a、b的公式如下:上一页下一页返回第四节回归模型的建立与检测这里,b为回归系数,它表示自变量X每增加一个单位时,因变量Y的平均增减量,b>0为增量,b<0为减量。b的符号与相关系数的符号一致。若r>0,则b>0,变量呈正相关;若r<0,则b<0,变量呈负相关。上一页下一页返回第四节回归模型的建立与检测二、估计标准误差1.估计标准误差的概念及意义回归方程是在直线相关条件下,反映两个变量之间一般数量关系的数学模型。根据回归直线方程,可以由自变量的给定值推算因变量的取值情况。但是,推算出的因变量数值并不是一个精确数值,而是一个估计值和理论值。这就是说,由回归方程进行预测是存在误差的。误差越大,说明拟合的回归直线方程愈不精确;误差越小,说明拟合的回归直线方程愈精确,即代表性越大。因此,回归直线方程求出后,有必要对其拟合精度进行检测。估计标准误差就是进行这种检验的统计分析指标。上一页下一页返回第四节回归模型的建立与检测2.估计标准误差的计算估计标准误差是用来说明回归直线方程代表性大小的统计分析指标。其计算公式为:式中,Syx为估计标准误差;y为因变量实际值;ˆy为因变量估计值;n为相关数列的项数。

上一页下一页返回第四节回归模型的建立与检测按照上面的定义公式计算估计标准误差十分繁琐,运算量较大,因为它需要计算出因变量Y所有的估计值。实践中,在已知直线回归方程的情况下,通常用下面的简便公式计算估计标准误差:下面用上例的资料分别用定义公式和简捷公式计算比较估计标准误差(见表8-8)。上一页下一页返回第四节回归模型的建立与检测表8-8中ˆy的值是根据上例中的回归直线方程ˆy=-4.364+0.601x求得的。按照定义公式有:按照简捷公式有:上一页下一页返回第四节回归模型的建立与检测3.估计标准误差与相关系数的关系估计标准误差与相关系数存在着密切的关系,二者的关系可由如下表达式描述:根号前面的正负号表明正相关或负相关,具体取舍由回归系数的符号来确定:回归系数为正,则取正;回归系数为负,则取负。在给定相关系数的情况下,估计标准误差的计算公式又为:上一页下一页返回第四节回归模型的建立与检测由上面的公式可知:·r越小,S就越大,这表明现象间的相关关系越不密切,直线回归方程的精度越差。特别值得注意的是,当r=0时,Syx取得最大值。这时,现象间不存在直线相关关系,直线回归方程与Y轴重合,此时X无论怎样变化,Y始终保持平均水平。·r越大,S就越小,表明现象间的相关关系密切,直线回归方程的估计精度就高。特别值得注意的是,当r=±1,Syx=0时,现象间完全相关,各相关点均落在回归直线上,此时,对X的任何变化,Y总有一个相应的确定值与之对应。上一页下一页返回第四节回归模型的建立与检测4.相关系数与回归系数的关系5.回归方程的交形形式在ˆy=a+bx中,b是直线的斜率。又由于直线回归方程必经过(x,y)点,根据点斜式直线方程的公式,直线回归方程可由下式给出:上一页下一页返回第四节回归模型的建立与检测三、相关分析与回归分析在应用中的注意事项相关分析与回归分析都是重要的统计分析方法,在统计学知识体系中占有重要的地位。它们对于人们加深现象间相互依存关系的认识,促使这种认识由定性阶段进入定量阶段都具有重要意义。但是,应该看到,相关分析和回归分析与其他统计方法一样,也有自己的局限性,因此,在实践中应注意如下几方面的问题。上一页下一页返回第四节回归模型的建立与检测1.注意社会经济现象的复杂性客观社

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论