[理学]相关与回归分析.doc_第1页
[理学]相关与回归分析.doc_第2页
[理学]相关与回归分析.doc_第3页
[理学]相关与回归分析.doc_第4页
[理学]相关与回归分析.doc_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

三 相关与回归分析(1) 相关分析的基本概念辩证唯物主义认为物质世界是一个普遍联系的统一整体。这说明,世界上的事物或多或少存在着某种联系。例如:身高与体重之间,就存在着联系,一般情况下,身体越高体重也越大;投资与利润之间也存在着类似的联系。研究这种联系无论是在经营决策还是在科学研究中都必不可少,比如:投资方只有在考虑了投资和利润的关系后,才能大致预测出一定水平的投资能带来多少利润;又如,在工程技术中,对于混凝土的抗压强度和抗拉强度的研究,有助于应对不同的施工要求。要研究这些变量之间的关系,可以通过统计的方法进行,而这种统计的方法主要是相关分析和回归分析两种。1 相关关系如前所述,变量之间存在着相互的联系,如果进一步考察,可以发现,这些联系又具体的可以分为两种不同的类型。1)函数关系它反映现象之间存在着严格的依存关系。其特点: 变量之间的数值以确定的关系相对应这种关系中,对于某一变量的每一个数值,都有另一个变量的确定的值与之相对应。 变量间的关系可以用一个确定的公式来反映例如,圆的面积随着半径而变动;,产值和产量、单位生产成本之间也是确定的函数关系。2)相关关系它是指现象之间确实存在依存关系,但这种关系不确定不严格。这种关系的特点: 变量之间确实存在数量上的依存关系如前所述的身高与体重之间,投资与利润之间都存在着某种依存关系。 数量依存关系的具体关系值是不固定的在这种关系中,对于某个变量的某个数值,另一个变量可以有若干个数值与之对应,这些数值表现出一定的波动性。例如:身高与体重之间,存在一定的依存关系。但是体重除了与身高有关外,还受年龄、性别、区域、种族等因素影响。身高与体重并无严格的对应关系,同一身高的人,体重大多数情况下是不相等的。但即便如此,这两个变量之间仍旧存在一定的规律性,在一般条件下,身高越高,体重越大。统计在研究变量的相关关系时,应当首先根据有关的科学理论,通过观察和实验,才能建立这种联系,并且还要通过理论与实践的检验。只有这样,才能得出科学的有意义的结论。2 相关关系的种类变量之间的相关关系是很复杂的,它们各以不同的方式和程度相互作用,表现出不同的类型和形态。1) 按相关关系涉及的变量多少来划分,可分为单相关和复相关两个变量之间的相关关系叫做单相关(也称一元相关),即只涉及一个自变量和一个因变量。三个或三个以上的变量之间的相关关系叫做复相关(也称多元相关),即研究涉及一个因变量和两个或两个以上的自变量。2) 按相关的方向分,可分为正相关和负相关自变量的数值增加,因变量的数值也基本随之增加,即为正相关,例如:商品价格上升,供给也上升。而相反的即为负相关,如商品价格上升,商品的需求下降。3)按相关的表现形式分,分为线性相关(直线相关)和非线性相关(曲线相关)变量间的相关关系近似地表现为直线即称为直线相关。其特点是当一个变量增减1个单位时,另一个变量也按一个大致固定的量变化。若这种相关关系近似为曲线时,即称为曲线相关,按具体形态又可分为:抛物线、指数曲线、双曲线等。在实际应用中,变量之间究竟采取哪种形态,要根据具体情况进行理论分析,并根据实际经验,才能得到较好的解决。4) 按照相关的密切程度分,分为完全相关、不完全相关和无相关(b)不完全相关yx(a)完全相关yx当一个变量的值完全由另一个变量的值所决定,即称为完全相关,即前述的函数关系,如;两个变量各自独立,互不影响,称为无相关,如股票价格和气温之间,一般是无相关的。介于这二者之间,称为不完全相关,通常相关分析是指对不完全相关的分析。以上相关关系的种类,如图1所示。(d)曲线相关xy(c)无相关xy(f)负相关xy(e)正相关xy图1 相关关系类型需要注意的是,现实的相关关系一般是以组合形态出现,如图1(a)为完全线性正相关,图1(b)为不完全线性正相关。而相应的完全线性负相关和不完全线性负相关如图2(a)和图2(b)。(b)不完全线性负相关xy(a)完全线性负相关xy图2 相关关系的组合类型此外,线性关系还有其他的组合类型,在此不一一列举。3 相关分析的主要内容相关分析的目的在于分析现象间相关关系的形式和密切程度以及依存变动的规律性,在实际工作中,有非常广泛的应用。主要内容如下:1) 确定变量之间有无相关关系,以及相关关系的表现形式这是相关分析的出发点,由相关关系才能用相应的方法去分析,否则,只会得出错误的结论。相关关系表现为何种形式就用什么样的方法分析,若把本属于直线相关的变量用曲线的方法来分析,就会产生认识上的偏差。2) 确定相关关系的密切程度对于这个问题,直线相关用相关系数表示,曲线相关用相关指数表示,相关系数的用途很广泛。3)选择合适的数学方程式确定了变量之间确实有相关关系和及其密切程度,就要选择合适的数学方程式来对变量之间的关系近似描述,并用自变量的数值去推测因变量的数值,称之为回归分析。如果变量之间为直线相关,则采用直线方程,称之为线性回归;如果变量之间为曲线相关,则采用曲线方程,称之为非线性回归。4)测定变量估计值的准确程度在相关分析中,第三步建立了数学方程式,并用方程式对因变量进行估值。因变量的估计值和实际值之间进行对比,因变量估计值的准确程度可以用估计标准误差来衡量。5)对回归方程进行显著性检验对前几步变量之间建立的回归方程,要进行显著性检验。检验变量之间是否真的具备这样的关系,这种关系是不是因为数据的选取而偶然形成的。(2)简单线性相关分析1 散点图和相关表进行相关分析,和许多其它的统计研究一样,基本都是采用定性和定量相结合的方法,即先作定性分析,再作定量分析。所谓定性分析,是要根据有关专业知识和实际经验,来判断变量之间是否存在一定的相关性。如果确实存在关系再通过编制散点图和相关表,对变量之间的相关关系的类型做出大致判断。上述工作完成后,再进行定量分析,即可以计算相关系数,以精确反映相关关系的方向和程度。1) 绘制散点图【例1】在某个地区抽取了9家生产同类产品的企业,其月产量和单位产品成本的资料如表1,现在来分析月产量和单位成本的关系。表1 9家企业的月产量和单位产品成本资料企业编号123456789月产量(千件)(x)4.16.35.47.63.28.59.76.82.1单位产本(元)(y)807271588650426391根据规模经济理论,可以判断产品的产量和单位成本之间存在着相关关系,再绘制散点图,我们可以比较直观地看出这两个变量间的关系。如图3所示。图3 9家企业的月产量和单位产品成本散点图从图3看出,月产量和单位成本是负相关,而且有形成一条直线的倾向。如果与某个变量相关的因素不止一个,可以分别绘制许多相关图。从许多相关图的对比中,大致可以看出与各因素关系的密切程度,从中判断哪个是主要因素,哪个是次要因素。2) 相关表根据总体单位的原始数据可以编制相关表,根据例1的数据,将月产量按照升序排列,即得相关表,见表2。表2 9家企业的月产量和单位产品成本相关表序 号月产量(千件)(x)单位产本(元)(y)92.19153.28614.18035.47126.37286.86347.65868.55079.742合计53.7613从相关表中可以看出,月产量和单位成本之间存在着明显的负相关关系。3) 分组相关表在实际的统计工作中,原始数据是非常多的,如果直接编制相关表会很长,而由于数据点过多,散点图也不好绘制,这时常常编制分组相关表。根据分组情况不同,分组表有两种:单变量分组表和双变量分组表,而在实际操作中,单变量应用最为广泛。 单变量分组表在有相关关系的两个变量中,只根据一个变量进行分组,另一个不进行分组,只是计算其频数和平均值。如表3所示。表3 380名女大学生的体重和身高相关表按体重分组()人数(人)每组平均身高(m)60以上41.760-6261.6555-60721.6350-55641.647-501101.5845-471211.5645以下31.53合计38011.25图8-4 380名女大学生的体重和身高散点图从表3和图4可以看出,这380名女大学生的身高和体重之间存在着明显的正相关关系。 双变量分组表如果对表3中的两个变量都进行分组,可以得到双变量分组表,但由于这种分组后的相关表,加权的方法比较复杂,而且并不实用,所以在实际中已很少采用,从略。2 相关系数的计算通过前述相关表和散点图,可以基本判断变量间相关关系的方向和程度,但这只是相关分析的开始。如果通过散点图发现变量间基本是线性相关,那么如何判定其线性关系的密切程度呢?这可以用相关系数来衡量。1) 相关系数1890年英国统计学家卡尔皮尔逊(Karl Pearson)便提出了相关系数的公式。- 式中:r-相关系数-变量x与变量y的协方差;-变量x的标准差-变量y的标准差需要说明的是,为正意味着变量x与变量y为正相关,为负意味着变量x与变量y为负相关。r与同符号,也意味着r为正意味着变量x与变量y为正相关,r为负意味着变量x与变量y为负相关。2)未分组资料的相关系数将以上各式代入的定义式,可得: - 式为相关系数的基本计算公式。经推算,还可形成相关系数的简便计算公式:-或者:-现用表2的数据来说明相关系数的计算过程。表4 相关系数计算表序 号月产量 x(千件)单位成本 y(元)14.18016.81640032826.37239.695184453.635.47129.165041383.447.65857.763364440.853.28610.247396275.268.55072.25250042579.74294.091764407.486.86346.243969428.492.1914.418281191.1合计53.7613370.65438993332.9在已有平均值的情况下,还可以用式计算,即:,注:协方差正负的意义。为正,则说明,或者和多数情况下符号相同,即和基本上同时大或同时小,即两个变量之间为正相关;同理,为负,则说明两个变量之间为负相关。3)分组资料的相关系数计算当原始数据较多,已分组编成二元频数分布表时,就用各组频数加权计算相关系数,公式为: -式中:-的频数-的频数-的联合频数3 相关系数的密切程度可以证明,相关系数 1。0,表明变量之间正相关;0,表明变量之间负相关。那么,相关关系的强弱如何通过体现?=1,表明变量之间为完全的线性相关关系;=0,表明变量之间没有线性关系,但要注意,有可能是曲线关系。当01时,变量之间有不同程度的线性关系。由此可以确定一个对相关程度评价的标准。00.3为弱相关;0.30.5为低度相关0.50.8为显著相关0.81为高度相关。4 相关系数的显著性检验测算两个变量的相关系数,是从二元总体中随机抽取一个样本,再用样本的相关系数去推断,因为推断误差的存在,不可能保证百分之百的可靠。也就是说,因为样本是随机抽取的,根据其计算出的相关系数虽然很大,但总体却可能并不具备相关性。那么总体到底有没有线性相关性,在得出结论前,就必须要做假设检验。检验样本(相关系数为)是否会来自于一个无线性关系的总体(总体的相关系数为),可以采用费舍(R.A.Fisher)的t检验法。1)原假设:;备择假设:。2)检验统计量为:,其中为自由度。3)若显著性水平为,查表的临界值:4)若,则拒绝原假设,接受备择假设,即认为样本的相关系数显著,可以说明总体两个变量间存在着线性相关,检验通过。若,则结论相反。【例2】用上述方法,对【例1】中9家企业的月产量和单位成本的样本相关系数做显著性检验。已知:,提出如下假设:; :设显著性水平。查t表得,表明总体相关系数的可能性小于。所以拒绝原假设:,认为样本的相关关系具有显著性,即不能否认总体(全部的同类企业)的两变量存在线性相关。(3) 回归分析1 回归分析的概念通过相关分析可以说明变量之间相关关系的方向和程度,但是却不能说明变量之间具体的数量因果关系。当自变量给出一个数值时,因变量可能取值是多少,这是相关分析不能解决的。这需要通过新的方法,即回归分析。回归分析:就是建立一个数学方程来反映变量之间具体的相互依存关系,并最终通过给定的自变量数值来估计或预测因变量可能的数值,该数学方程称为回归模型。“回归”意思源于19世纪英国生物学家葛尔登(Francis Galton)对人体遗传学的研究,他发现子女有回归或回复到上一代原有特性的倾向。葛尔登的学生统计学家皮尔逊把这一概念和数理统计方法结合,最终形成了回归分析的理论体系。2 线性回归分析在回归分析中,如果变量之间的回归模型是直线方程,则这类回归分析为线性回归分析(直线回归),该直线方程成为线性回归方程。具体的:如果直线方程中只有一个自变量和一个因变量,称之为简单线性回归分析;若存在一组自变量和多个因变量,称之为多元线性回归分析。线性回归分析是整个回归分析的基础。1)简单线性回归分析主要任务是在唯一的自变量和因变量之间建立一个直线函数,其表现形式为:需要指出的是:是自变量,是因变量的估计值,又称理论值。实际观测值和理论值的关系是:,式中称为离差,反映了因各种偶然因素、观察误差以及被忽略的其他影响因素带来的随机误差。 一般简单线性回归方程确定,主要是确定和,那么如何选择最为满意的和呢?最小平方法给出了解决方案,其基本思想是让,又称最小二乘法。将代入。令根据微分求极值的原理,分别对和求偏导,令其为零。得:整理得:求解方程组,可得和: -则可得直线回归方程 。【例3】 根据【例1】中的数据,建立月产量和单位产品成本之间的直线方程。并估计当月产量(千件)时,单位产品成本的数值。表5 直线回归方程计算表序 号月产量 x(千件)单位成本 y(元)14.18016.81640032826.37239.695184453.635.47129.165041383.447.65857.763364440.853.28610.247396275.268.55072.25250042579.74294.091764407.486.86346.243969428.492.1914.418281191.1合计53.7613370.65438993332.9将表5有关数据代入式,得:,所以回归方程为:当(千件),(元)。直线如图5所示。图5 月产量和单位成本的直线回归方程图 当时间为解释变量时的简单线性回归方程若自变量为时间,则用t表示,此时,直线方程为:由最小平方原理可得:若 ,则: , -那么,怎样使得呢?年编(序)号: 奇数 偶数1990 -2 -51991 -1 -31992 0 -11993 1 +11994 2 +31995 +5 【例8.4】某游览点历年观光游客的数量如下表,用最小平方法建立直线方程,并预测2010年的游客数量年份时间序号游客(万人)19981-310019100-30019992-211244224-22420003-112591375-125200140140160560020025115525177515520036216836410083362004731804991260540合计280980140284302382万人若,则万人2) 多元线性回归简单线性回归反映的是一个自变量和一个因变量之间的关系,但是客观事物非常复杂,许多现象的变动牵扯到多个影响因素。例如:一个企业的利润,受产值、成本、价格等多个因素的影响;再如,粮食产量受施肥量,同时也受温度、播种量、土壤的酸碱性、降雨量的影响。所以在现实中,经常要进行一个变量和多个自变量的多元线性回归分析。其一般形式为:。为了叙述方便,本书以二元线性回归为例。即一个因变量和两个自变量得线性回归,方程为:。利用最小二乘原理,可以得出如下的方程组: - 解该方程组可得。【例8.5】某服装企业有十家销售公司分布在不同的城市,决策者通过反复调查分析后认为,影响该企业总销售额的因素为:当地的人均月收入和广告投入,经过一年的统计,有关数据如表6。表6 企业销售额与广告投入和人均收入(千元)城市销售额广告投入人均月收入155401922.63 254392102.42342901461.71 455022003.12 548711302.63 647081102.70 746271032.30 84110902.39 94122981.78 1042301321.96 合计47439141123.65多元线性回归方程也可以按照上述的最小二乘法通过求解方程组得出,但在实际操作中不要求手算,可用EXCEL“数据分析”中的“回归”求解。得出结果如下:如果广告投入,人均月收入,则销售额的估计值为。上面的方法可以推广到n个自变量的情况,对回归方程:同样可用最小平方法,建立一个阶方程组(式),解该方程组可求出有关参数。-(3) 曲线回归分析若回归模型表现为曲线形式,则这就是曲线回归分析,曲线模型种类多样,不过在统计研究中常用的曲线模型主要有:1)二次抛物线:2)指数曲线:3)双曲线:在建立曲线回归方程时,最重要的问题是合适的曲线类型,解决这个问题,主要是通过作图,然后凭借经验从图形显示的曲线形状来判断应当拟合的曲线。图6至8给出了以上三种曲线的图形。yxyx在多数情况下,曲线回归问题,可以通过变量代换,将其化成线性回归问题,然后再用前面介绍的线性回归的方法来解决。yxyx图6 抛物线图8-7 指数曲线xyyx图8 双曲线1 双曲线回归令,则有【例6】 两个变量的数据如下表,建立这两个变量的回归方程。9.310.412.615.417.519.621.723.425.327.517.124.231.337.943.346.247.550.151.151.3做出散点图如下:从图中可以看出这两个变量之间的变动关系基本上是一个递增的双曲线,则用双曲线模型去分析两个变量的关系,计算表如表7表7 x和y双曲线回归方程计算表序号19.317.1 0.1080.0580.0120.006288210.424.2 0.0960.0410.0090.003973312.631.3 0.0790.0320.0060.002536415.437.9 0.0650.0260.0040.001713517.543.3 0.0570.0230.0030.00132619.646.2 0.0510.0220.0030.001104721.747.5 0.0460.0210.0020.00097823.450.1 0.0430.020.0020.000853925.351.1 0.040.020.0020.0007731027.551.3 0.0360.0190.0010.000709合计182.74000.6210.2830.0440.02024将表中数据代入以下公式:得:于是有:将,代入后,得:在实际操作中,一元曲线回归不用手工来完成,都是先将数据进行变换,再按照线性回归添加趋势线的方法来拟合曲线。 2 指数曲线回归和抛物线回归1)指数曲线:两边取对数:令:,则得到一元线性回归模型:2)二次抛物线:令,原方程转化为二元线性回归模型:(4)线性回归分析的评价和检验通过以上的学习,我们可以得出回归方程,但变量之间的回归方程毕竟是根据随即抽取的样本来计算的一个“经验公式”,根据回归模型计算的值只是一个“估计值”,和实际的值之间存在差异。因而这时又出现了两个问题:1)如何去评价回归模型的准确性?2)如何去检验回归模型的可靠性?对以上两个问题的说明,就是本节的主要内容。线性回归分析是各类回归分析的基础,所以本节以线性回归分析为例来进行说明。1 判定系数和估计标准误差要评价回归模型的精确性,主要是用判定系数和估计标准误差这两个统计量。1)判定系数回归方程的准确性又称为拟合优度,判定系数是测定回归方程拟合优度的一个重要指标,为此要先引入几个概念:总变差:,记作。回归变差:,记作。残余变差:,记作。可以证明: -判定系数的定义为:-结合公式和公式,可以看出越大,则意味着回归变差在总变差中占的比重越大,因而越小,即与的差距越小,对的拟合程度高,也就是说该回归模型的准确度越强。可以证明:01,即越接近于1,回归模型的“拟合忧度”越好。 简单线性回归方程的用式计算会非常繁琐,可以证明若一元线性回归方程的相关系数,有这样的结论:。对【例3】 中的数据来计算其判定系数,其相关系数=0.9886,所以。计算结果表明,单位成本的总变差中,有97.73%可以由回归变差来解释,这说明月产量和单位成本的回归方程对真实的值有很好的拟合效果。 多元线性回归方程的多元线性回归的不需要手算,在EXCEL的“回归”结果中会给出。2) 估计标准误差在前面,用判定系数对回归模型的准确度作了评价,而还可以通过来衡量回归模型的准确度,在SSE的基础上形成了估计标准误差的概念。 简单线性回归方程的估计标准误差定义:估计标准误差:-估计标准误差越小说明与越接近。将代入式,可得如下计算公式: -同样将【例3】中的数据(表6)代入式,可得: 二元线性回归方程的定义: -多元线性回归的估计标准误差也不需要手算,在EXCEL的“回归”结果中也会给出。2 线性回归方程的显著性检验1)简单线性回归方程的显著性检验对于变量和,一元直线方程根据样本的数据计算,带有样本抽取的随机性,根据一个样本计算的结果是否具有代表性?是否真正描述了在总体中变量和之间的关系,即和之间的关系是否真的是直线函数?这都需要检验,这个问题就称之为对的显著性检验。根据样本,得出变量和之间的回归直线为:,而总体变量和之间的回归直线为:。因此,可以认为、是、的估计值,如何检验估计的可靠性,主要有两种办法:-检验和-检验。如果总体变量和之间不存在直线关系,则意味着

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论