第四章相关分析和回归分析修改课件_第1页
第四章相关分析和回归分析修改课件_第2页
第四章相关分析和回归分析修改课件_第3页
第四章相关分析和回归分析修改课件_第4页
第四章相关分析和回归分析修改课件_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章相关分析和回归分析.8/4/20231第四章相关分析和回归分析.8/1/20231相关分析和回归分析第一节

地理要素间的相关分析第二节地理要素间的回归分析.8/4/20232相关分析和回归分析第一节地理要素间的相关分析.8/1/20一相关分析的概念二地理要素的相关类型三相关程度的程度方法及显著性检验

第一节

地理要素间的相关分析.8/4/20233一相关分析的概念第一节地理要素间的相关分析.8/1/20一相关分析的概念——就是测度各个变量之间的关系密切程度的数学方法。——相关分析仅限于测定两个或两个以上变量具有相关关系者,其主要目的在于计算出表示两个或两个以上变量间相关程度和性质。.8/4/20234一相关分析的概念——就是测度各个变量之间的关系密切程度的数图地理事物的空间分布类型

所谓地理相关,就是运用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标。.8/4/20235图地理事物的空间分布类型所谓地理相关,就是运用相为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。.8/4/20236为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了10★正相关★负相关★完全正相关★完全负相关★零相关

.8/4/20237★正相关★负相关★完全正相关★完全负相关★二地理要素间的相关类型曲线相关(非线性相关)按变量多少两个变量两个以上变量直线相关(线性相关)复相关偏相关按质量等级相关(顺序相关)品质相关.8/4/20238二地理要素间的相关类型曲线相关(非线性相关)按变量两个变

三相关程度的测度方法及显著性检验由于地理相关类型各不相同,因此测度的方法也不同。(一)线性相关程度的测度所谓相关程度,就是研究它们之间的相互关系是否密切。所谓相关方向,又可以分两种,即正相关和负相关。用来测度直线相关程度和方向的指标就是相关系数。.8/4/20239

三相关程度的测度方法及显著性检验由于地理相关类型各不相1、常用的相关系数的计算公式及检验(1)相关系数的性质●相关系数的分布范围,介于-1和+1之间●当相关系数为正值时,表示两个要素(或变数)之间呈正相关,相关系数为负值时,表示两个要素(或变数)之间为负相关;●相关系数的绝对值越大。表示两个要素间相关程度越密切。当r=+1时,为完全正相关。R=-1时,为完全负相关;r=0则完全无关。.8/4/2023101、常用的相关系数的计算公式及检验(1)相关系数的性质●相关相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。

(2)相关系数的显著性检验为什么?

一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来完成的。

.8/4/202311相关系数是根据要素之间的样本值计算出来的,它随着样本数检验相关系数ρ=0的临界值(ra)表p{|r|>ra}=α

f值称为自由度,其数值为f=n-2,这里n为样本数

a代表不同的显著性水平

表内的数值代表不同的置信水平下相关系数ρ=0的临界值,即ra

公式p={|r|>ra}=a的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值ra时,两要素不相关(即ρ=0)的可能性只有a。

.8/4/202312检验相关系数ρ=0的临界值(ra)表f值称为自由度,其数值为相关系数r的具体检验方法步骤如下:(1)计算相关系数r(2)给定显著水平α,按n-2查相关系数临界值,查出相应的临界值(3)比较r的绝对值与临界值的大小。当r的绝对值大于或等于临界值时,说明两变量在α水平上达到显著性;若小于临界值,则说明两变量没有达到所要求的精度。如果仍需研究二者的关系,可考虑降低精度,即修改显著性水平α、相关系数的显著性检验步骤.8/4/202313相关系数r的具体检验方法步骤如下:相关系数的显著性检验步骤.2、等级相关系数的计算公式及检验——表示两个变量顺序间直线相关程度和方向的系数,称为等级(或顺序)相关系数。等级相关系数不仅适用于数量指标的相关分析,同时亦适用于质量指标的相关分析。——等级相关系数,又称顺序相关系数是将两要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。

.8/4/2023142、等级相关系数的计算公式及检验——表示两个变量顺序间直线相(1)等级相关系数的计算公式.8/4/202315(1)等级相关系数的计算公式.8/1/202315(2)等级相关系数的计算及检验1985年全国各省(市,区)总人口与社会总产值

.8/4/202316(2)等级相关系数的计算及检验1985年全国各省(市,区)总.8/4/202317.8/1/202317即:总人口(x)与社会总产值(y)的等级相关系数为0.726.8/4/202318即:总人口(x)与社会总产值(y)的等级相关系数为0.726等级相关系数检验的临界值

.8/4/202319等级相关系数检验的临界值.8/1/202319在上例中,n=29,表中没有给出相应的样本数下的临界值ra,但我们发现,在同一显著水平下,随着样本数的增大,临界值ra减少。在n=28时,查表可知:r0.05=0.317,r0.01=0.448,由于r′xy=0.726>r0.01=0.448,故r′xy在a=0.01的置信水平上是显著的。

等级相关系数检验结果

.8/4/202320在上例中,n=29,表中没有给出相应的样本数下的临界值ra,(二)简单非线性相关程度的测度(见课本)(三)多要素间相关程度的测定

1.偏相关系数的计算与检验在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。

.8/4/202321(二)简单非线性相关程度的测度(见课本)(三)多要素间相关程当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2、r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有6个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。.8/4/202322当研究2个相关变量x1、x2的关系时,用直线相关系数r12表一般,当研究m个相关变量x1、x2、、、…、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,…,m,i≠j)。.8/4/202323一般,当研究m个相关变量x1、x2、、、…、xm的相关时,只偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2,x3,其两两间单相关系数矩阵为.8/4/202324偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三个,即r12·3,r13·2,r23·1(下标点后面的数字,代表在计算偏相关系数时,保持不变量,如r12·3即表示x3保持不变),其计算公式分别如下:式(5)—(7)表示三个偏相关系数,称为一级偏相关系数。.8/4/202325对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三若有四个要素X1,X2,X3,X4,则有六个偏相关系数,即r12·34,r13·24,r14·23,r23·14,r24·12,r34·12,它们称为二级偏相关系数,其计算公式分别如下:在式(8)中,r12·34表示在x3和x4保持不变的条件,x1和x2的偏相关系数。

.8/4/202326若有四个要素X1,X2,X3,X4,则有六个偏相关系数,即r实例:对于某四个地理要素X1,X2,X3,X4的23个样本数据,经过计算得到了如下的单相关系数矩阵:.8/4/202327实例:对于某四个地理要素X1,X2,X3,X4的23个样本数为了计算二级偏相关系数,需要先计算一级偏相关系数,由(5)式可求得

同理,依次可以计算出其它各一级偏相关系数,见下表

.8/4/202328为了计算二级偏相关系数,需要先计算一级偏相关系数,由(5)式在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如由(8)式计算可得同理,依次可计算出其它各二级偏相关系数,见下表

.8/4/202329在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如偏相关系数具有下述性质:(1)偏相关系数分布的范围在-1到1之间,譬如,固定X3,则X1与X2间的偏相关系数满足-1≤r12·3≤1。当r12·3为正值时,表示在X3固定时,X1与X2之间为正相关;当r12·3为负值时,表示在X3固定时,X1与X2之间为负相关。(2)偏相关系数的绝对值越大,表示其偏相关程度越大。例如,|r12·3|=1,则表示当X3固定时,X1与X2之间完全相关;当|r12·3|=0时,表示当X3固定时,X1与X2之间完全无关。(3)偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1·23≥|r12·3|。.8/4/202330偏相关系数具有下述性质:.8/1/202330偏相关系数的显著性检验偏相关系数的显著性检验,一般采用t-检验法。其统计量计算公式为在(15)式中,r12·34…m为偏相关系数,n为样本数,m为自变量个数。.8/4/202331偏相关系数的显著性检验在(15)式中,r12·34…m为偏相对于前述计算得到的偏相关系数r24·13=0.821,由于n=23,m=3,故查t分布表,可得出不同显著水平上的临界值ta,若t>t。则表示偏相关显著;反之,t<ta,则偏相关不显著。在自由度为23-3-1=19时,查表得t0.001=3.883,所以t>ta,这表明在置信度水平a=0.001上,偏相关系数r24·13是显著的。2.复相关系数的计算与检验(看课本).8/4/202332对于前述计算得到的偏相关系数r24·13=0.821,由于n2.复相关系数的计算与检验复相关系数:反映几个要素与某一个要素之间的复相关程度。复相关系数的计算当有两个自变量时当有三个自变量时.8/4/2023332.复相关系数的计算与检验复相关系数:反映几个要当有k个自变量时复相关系数的性质

①复相关系数介于0到1之间,即.8/4/202334当有k个自变量时.8/1/202334

②复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。

③复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验F检验法。其统计量计算公式为.8/4/202335②复相关系数越大,则表明要素(变量)之间的相关程度越密切例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。解:按照公式(3.1.16)计算检验:,故复相关达到了极显著水平。.8/4/202336例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,一回归分析的意义及其作用二一元回归模型的建立三多元回归模型四非线性回归模型第二节地理要素间的相关分析.8/4/202337一回归分析的意义及其作用第二节地理要素间的相关分析.8/一回归分析的意义及其作用(一)回归分析的概念就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系。这个数学模式称为回归模型(回归方程).8/4/202338一回归分析的意义及其作用(一)回归分析的概念就——相关关系的变量之间尽管没有确定性的关系,但在大量数据条件下,从一定的统计意义上来看,它们之间可能存在某种类型的函数关系,因此可以借助函数关系的数学表达式来表达。——变量之间的函数关系,从理论上说是完全精确的函数关系。——回归分析和相关分析都是研究和处理变量之间具有相关关系的一种数理统计方法。它们之间既有联系,又有区别。(1)研究对象和内容是相同的,相关分析主要研究变量之间的密切程度,并没有严格的自变量和因变量之分。(2)而回归分析则主要研究变量之间联系的数学表达式,因而有自变量和因变量之分,从而就可以由自变量的取值来预测,因而回归分析具有预测的功能。应当注意:.8/4/202339——相关关系的变量之间尽管没有确定性的关系,但在大量数据(二)回归分析研究的主要内容——从一组地理数据出发,确定这些要素(变量)间的定量数学表达式,即回归模型。——根据一个或几个要素(自变量)的值来预测或控制另一个要素(因变量)的取值。——从影响某一地理过程中的许多要素中,找出哪些要素(变量)是主要的,哪些因素是次要的,这些要素之间又有什么联系。

回归分析研究的地理数学模型,依要素(变量)的多少可分为一元地理回归模型和多元地理回归模型。.8/4/202340(二)回归分析研究的主要内容——从一组地理数据出发

二一元回归模型的建立一元地理回归所处理的问题,是要解决两个要素(变量)之间的定量关系。有的是线性关系,有的是非线性关系。因此判断研究的变量之间的线性与非线性归属问题是非常重要的。.8/4/202341二一元回归模型的建立一元地理回归所处理(一)一元回归模型类型的判断方法

作图法、差分法、曲度法和计算器法等。.8/4/202342(一)一元回归模型类型的判断方法作图法、差分法、曲(二)一元线性地理回归模型的建立定义:假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为式中:a和b为待定参数;为各组观测数据的下标;为随机变量。

.8/4/202343(二)一元线性地理回归模型的建立定义:假设有两个地理要素(变记和分别为参数a与b的拟合值,则一元线性回归模型为

上式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。.8/4/202344记和分别为参数a与b的拟合值,则一元线性①参数a与b的最小二乘拟合原则要求yi与的误差ei的平方和达到最小,即1、参数a、b的最小二乘估计

②根据取极值的必要条件,有

.8/4/202345①参数a与b的最小二乘拟合原则要求yi与的误差e③解上述正规方程组式,得到参数a与b的拟合值.8/4/202346③解上述正规方程组式,得到参数a与b的拟合值.8/1/2——以课本的例子为例(手算)2、具体计算方法(1)将原始数据根据需要列表(2)根据公式计算b(3)计算a(4)写出回归模型(5)一般情况下还要求出相关系数.8/4/202347——以课本的例子为例(手算)2、具体计算方法(1)将原始数据——用Excel建立回归模型及其进行预测(1)确定变量,建立数据库(2)作图,选择散点图(3)图完成后,点击图表,然后点击添加趋势线,选择线性方程;然后点击选项,在选项栏中点中显示公式和相关系数的平方。.8/4/202348——用Excel建立回归模型及其进行预测(1)确定变量,建立(4)对图进行修饰(5)利用建立的回归方程,可以对原始数据进行递推,检验误差;同时可以对未来的趋势进行预测。——用Excel建立回归模型及其进行预测.8/4/202349(4)对图进行修饰(5)利用建立的回归方程,可以对原始数据进江苏省1985-1994年耕地面积利用所给数据:(1)建立江苏省耕地面积与时间的回归模型(2)计算耕地面积与时间的相关系数(3)并预测2010年江苏耕地面积.8/4/202350江苏省1985-1994年耕地面积利用所给数据:.8/1/2将2010带入上述方程中,可以求得2010年江苏省耕地面积.8/4/202351将2010带入上述方程中,可以求得2010年江苏省耕地面①方法:F检验法。②总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为

可以证明

3、一元线性回归模型的显著性检验.8/4/202352①方法:F检验法。3、一元线性回归模型的显著性检验.8在上式中,Q称为误差平方和,或剩余平方和而

称为回归平方和。.8/4/202353在上式中,Q称为误差平方和,或剩余平方和.8/1/202

③统计量F

F越大,模型的效果越佳。统计量F~F(1,n-2)。在显著水平α下,若F>Fα,则认为回归方程效果在此水平下显著。一般地,当F<F0.10(1,n-2)时,则认为方程效果不明显。.8/4/202354③统计量F.8/1/202354变差来源平方和自由度方差F回归(因素x)1S2u=U/1剩余(随机因素)n-2S2Q=Q/n-2总和n-1.8/4/202355变差来源平方和自由度方差F回归(因素x)1S2u=U/1剩余4、利用回归模型进行预测对所建立的回归模型经过检验效果显著时,便可以利用回归模型进行地理预测。所谓地理预测就是利用建立的回归模型,在给出一定信度条件下,求出在的水平上预测y值的出现范围(或预测区间)。具体例子见课本。.8/4/2023564、利用回归模型进行预测对所建立的回归模型经三、多元线性回归模型回归模型的建立

①多元线性回归模型的结构形式为

式中:为待定参数;为随机变量。.8/4/202357三、多元线性回归模型回归模型的建立式中:②回归方程:如果分别为上式中的拟和值,则回归方程为在上式中,b0为常数,b1,b2,…bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量每变化一个单位而使因变量平均改变的数值。.8/4/202358②回归方程:.8/1/202358③偏回归系数的推导过程:根据最小二乘法原理,的估计值应该使

由求极值的必要条件得

方程组式经展开整理后得

.8/4/202359③偏回归系数的推导过程:根据最小二乘法原理,方程组式称为正规方程组。

引入矩阵.8/4/202360方程组式称为正规方程组。.8/1/202360.8/4/202361.8/1/202361.8/4/202362.8/1/202362则正规方程组式可以进一步写成矩阵形式.8/4/202363则正规方程组式可以进一步写成矩阵形式.8/1求解得引入记号.8/4/202364求解得.8/1/202364正规方程组也可以写成.8/4/202365正规方程组也可以写成.8/1/202365回归模型的显著性检验

①回归平方和U与剩余平方和Q:②回归平方和③剩余平方和为④

F统计量为计算出来F之后,可以查F分布表对模型进行显著性检验。.8/4/202366回归模型的显著性检验①回归平方和U与剩余平方和Q:.8/四非线性回归模型的建立在许多实际地理问题中,有时变量之间的关系并不是线性的,而是某种非线性,这时就需要选配适当类型的曲线,近似地表达两要素之间的平均变化关系。.8/4/202367四非线性回归模型的建立在许多实际地理问题中,有非线性关系线性化的几种情况对于指数曲线,令,可以将其转化为直线形式:,其中,;对于对数曲线,令,,可以将其转化为直线形式:;对于幂函数曲线,令,,可以将其转化为直线形式:其中,;.8/4/202368非线性关系线性化的几种情况.8/1/202368对于双曲线,令,转化为直线形式:;对于S型曲线,可转化为直线形式:;对于幂乘积,只要令,就可以将其转化为线性形式其中,;.8/4/202369对于双曲线,令对于对数函数和只要令,就可以将其化为线性形式

例:表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。.8/4/202370对于对数函数和.8/1/202370

序号面积A周长P序号面积A周长P110447.370625.39242232844.3004282.043215974.730612.286434054.660289.307330976.770775.7124430833.840895.98049442.902530.202451823.355205.131510858.9201906.1034626270.300968.060621532.9101297.9624713573.9601045.07276891.680417.0584865590.0802250.43583695.195243.90749157270.4002407.54992260.180197.239502086.426266.54110334.33299.729513109.070261.8181111749.080558.921522038.617320.396122372.105199.667533432.137253.335138390.633592.893541600.391230.030146003.719459.467553867.586419.406表3.2.1某地区各个林地景观斑块面积(m2)与周长(m)

.8/4/202371

序号面积A周长P序号面积A周长P110447.3706215527620.2006545.291561946.184198.66116179686.2002960.4755777.30556.9021714196.460597.993587977.719715.7521822809.1801103.0705919271.8201011.1271971195.9401154.118608263.480680.710203064.242245.0496114697.1301234.11421469416.7008226.009624519.867326.317225738.953498.6566313157.6601172.916238359.465415.151646617.270609.801246205.016414.790654064.137437.3552560619.0201549.871665645.820432.3552614517.740791.943676993.355503.7842731020.1001700.965684304.281267.9512826447.1601246.977696336.383347.136297985.926918.312702651.414292.235.8/4/20237215527620.2006545.291561946.303638.766399.725712656.824298.47331585425.10011474.770721846.988179.8663235220.6401877.476731616.684172.8083310067.820497.394741730.563172.1433427422.5701934.5967511303.970881.0423543071.5501171.4137614019.790638.1763657585.9402275.389779277.172862.0883728254.1301322.7957813684.750712.78738497261.0009581.298791949.164228.4033924255.030994.906804846.016324.481401837.699229.40181521457.4007393.938411608.625225.84282564370.80012212.410.8/4/202373303638.766399.725712656.8242解:(1)作变量替换,令:,,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。

序号y=lnAx=LnP序号y=lnAx=LnP19.2541066.4383794212.358138.36218629.6787636.4172438.3076225.667487310.340996.6537824410.336376.79791849.1530196.273258457.5084335.3236559.2927427.5528164610.176196.87529469.9773387.168551479.5159096.95184178.838076.0332264811.091187.71887988.2147895.4967894911.965727.78636497.72325.284414507.6432085.585528105.8121354.602457518.0420795.567651119.371536.326008527.6200275.769558表3.2.2经对数变换后的数据.8/4/202374解:(1)作变量替换,令:,,127.7715335.296653538.1409385.534711139.0348716.385013547.3780035.438211148.7001346.130066558.2603866.0388391513.176138.786501567.5736265.2915971612.098977.993105574.3477554.041328179.5607486.393579588.9844086.5733341810.034927.005852599.8663996.9188211911.173197.051092609.0196016.523136208.0275565.501457619.5954087.1181092113.059259.0150

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论