计量地理学第五章地理要素间的相关分析和回归分析_第1页
计量地理学第五章地理要素间的相关分析和回归分析_第2页
计量地理学第五章地理要素间的相关分析和回归分析_第3页
计量地理学第五章地理要素间的相关分析和回归分析_第4页
计量地理学第五章地理要素间的相关分析和回归分析_第5页
已阅读5页,还剩162页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 地理要素间的相关分析与回归分析 地理系统,是由多种要素相复合而构成的复杂巨系统。在这个系统中,一方面,各种要素之间存在着相互联系、相互影响和相互制约的关系;另一方面,各种要素的复合作用又使各种地理事物和地理现象表现出强烈的地域差异性。为了定量地揭示各种地理要素之间的相互关系,以及各种地理事物和地理现象所表现出来的地域分异规律,就必须采用以概率论和多元统计分析方法对地理系统进行深入研究。地理要素间的相关分析地理要素间的回归分析空间趋势面分析 地理要素的时间序列分析地理要素的逐步回归模型分析 第1节 相关分析 相关分析的任务,是揭示地理要素之间相互关系的密切程度。 地理要素之间相互关系密切

2、程度的测定,主要是通过对相关系数的计算与检验来完成的。地理要素间的相关类型根据相关所涉及变量的多少,相关关系分为单相关与复相关。两个变量之间的相关关系称为单相关;多个变量之间的相关关系称为复相关。根据相关的形式不同,相关关系分为线性相关与非线性相关。如果变量之间的关系近似地表现为一条直线,则称为线性相关;如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关。根据变量相关方向的不同,相关关系分为正相关与负相关。正相关是指两个变量之间的变化方向一致,都是增长或下降趋势,如居民收入增加,居民消费额随之增加,故它们是正相关;负相关是指两个变量变化趋势方向相反,如产品单位成本降低,利润随之

3、增加,故它们是负相关。根据相关程度的不同,相关关系分为不相关、完全相关和不完全相关。如果两个变量彼此的数量变化相互独立,这种关系称为不相关;如果一个变量的数量变化完全由另一个变量的数量变化所唯一确定,这种关系称为完全相关;介于不相关与完全相关之间的关系,称为不完全相关。本节主要内容:两要素之间相关程度的测定多要素间相关程度的测定一、两要素之间相关程度的测定相关系数的计算与检验秩相关系数的计算与检验相关系数的计算相关系数的计算 定义: 和 为两要素的平均值。 niiniiniiixyyyxxyyxxr12121)()()(yx(3.1.1)(一)相关系数的计算与检验(一)相关系数的计算与检验 说

4、明 :- 1 = 0.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。 rr01. 0rxyr01. 0r二、多要素间相关程度的测定偏相关系数的计算与检验复相关系数的计算与检验 偏相关和复相关是两个相对应的概念 (一)偏相关系数的计算与检验(一)偏相关系数的计算与检验 定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究单独研究两个要素之间的相互关系的密切程度,这两个要素之间的相互关系的密切程度,这称为偏相关称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。n偏相关系数偏相关系数(partial correlation

5、 coefficient)624C2/ ) 1(2mmCm当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2、 r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反

6、映两个相关变量间线性相关的性质与程度。二级偏相关系数共有个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。一般,当研究m个相关变量x1、x2、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,m,ij)。偏相关系数的取值范围为-1,1,即:-1rij.1。 计算:3个要素的偏相关系数)1)(1(2232132313123.12rrr

7、rrr(3.1.5) (3.1.6) )1)(1(2232122312132.13rrrrrr)1)(1(2132121312231.23rrrrrr(3.1.7) 4个要素的偏相关系数(3.1.8) )1)(1(23.2423.143.243.143.1234.12rrrrrr)1)(1(22.3422.142.342.142.1324.13rrrrrr(3.1.9) )1)(1(22.4322.132.432.132.1423.14rrrrrr(3.1.10) )1)(1(21.3421.241.341.241.2314.23rrrrrr(3.1.11) 例如:对于某4个地理要素x1,x2

8、,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵: 1469.0950.0579.0469.01592.0346.0950.0592.01416.0579.0346.0416.0144434241343332312423222114131211rrrrrrrrrrrrrrrrR 利用公式计算一级偏向关系数,如表3.1.6所示:r1234r1324r1423r2314r2413r3412-0.1700.8020.635-0.1870.821 -0.337r123r132r142r143r231r241r243r341r3420.8210.8080.6470.895-0.8630.

9、9560.945-0.8750.371 利用公式计算二级偏相关系数,如表3.1.7所示: 4个要素的一级偏相关系数有12个,这里给出了9个;二级偏相关系数有6个,这里全部给出来了。 写出其余3个一级偏相关系数表表3.1.6 3.1.6 一级偏相关系数一级偏相关系数 表表3.1.7 3.1.7 二级偏相关系数二级偏相关系数 n 偏相关系数的性质偏相关系数的性质 偏相关系数分布的范围在-1到1之间; 偏相关系数的绝对值越大,表示其偏相关程度越大; 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。偏相关系数的显著性检验偏相关系数的显著性检验 偏相关系数的

10、显著性检验,一般采用t检验法。其统计量计算公式为 式中: 为偏相关系数;n为样本数;m为自变量个数。 11341223412 mnrrtmm(3.1.14) mr312 查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然 ,这表明在置信度水平 =0.001上,偏相关系数r2413是显著的。268. 61323821. 01821. 02ttt 譬如,对于上例计算得到的偏相关系数 ,由于n=23,m=3,故821. 01324r小结偏相关分析 ( Partial ) 是研究在多变量的情况下,变量之间的复杂相关关系。在多变量的情况下, 2 个变量间的简单相关系数往往不能正确

11、揭示这 2 个变量间的关系,只有在除去其他变量影响的情况下,计算它们之间的相关系数,才能更确切地揭示他们间的相关关系。简单相关关系有时不能真实反映现象的关系简单相关关系有时不能真实反映现象的关系, 如:在研究商品的需求量和价格、消费者收入之间的关系时会发现,需求量和价格之间的相关关系实际上还包含了消费者收入对商品需求量的影响。 例如,一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论,在一定收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相需求与价格之间应当是负相关关。可是,在现实经济生活中,由于收入和价格常常收入和价格常常都有不断提高的趋势都有

12、不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算简单相关系数简单相关系数,就有可能得出价格越高需求越大的错误结论。 所以,我们在进行相关分析时往往要控制第三个变量,而研究变量之间的相关关系。通过偏相关系数与相关系数的比较,来确定这两个变量之间的内在线性联系会更真实,更可靠自然因素中平均坡度和平均海拔均表现出与土地生产率的负相关关系,其中以低值区的系数绝对值最大,平均海拔的相关系数达到平均海拔的相关系数达到-0.599 的显著负相的显著负相关关,说明当前该地区的土地生产率水平受到地形海拔高度的明显负向影响。社会经济因素中,化肥投入量和有效灌溉率化肥投入量和有效灌

13、溉率与土地生产率的正向偏相关关系显著,尤其是中值区中值区的正相关度较高,明显高于其他地区.(二)复相关系数的计算与检验(二)复相关系数的计算与检验 复相关系数(multiple correlation analysis ) :反映几个要素与某一个要素之间的复相关程度 。复相关系数的计算复相关系数的计算 当有两个自变量时 当有三个自变量时(3.1.15) )1)(1 (11 . 221212.yyyrrR)1)(1)(1 (112. 321 . 2212123.yyyyrrrR(3.1.16)可利用单相关系数和偏相关系数求得 当有k个自变量时)1 )1)(1 (1)1.(12.21 .2212.

14、12. kykyykyrrrR(3.1.17) 复相关系数的性质 复相关系数介于0到1之间,即1012.kyR 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。 复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验复相关系数的显著性检验 F检验法。其统计量计算公式为kknRRFkyky11212.212.(3.1.18)例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。 解:按照公式(3.1.16)计算 检验: ,故复相关达到了极显著水平。974.0337

15、.01)(956.01)(579.01 (1)1)(1)(1 (1222212.4321 .42241123.4)rrrR3010. 57190.12001. 0FF相关系数取值在相关系数取值在 -1 与与 1 之间。之间。相关系数是一种对称测量。相关系数是一种对称测量。相关系数无量纲,可以进行比较。相关系数无量纲,可以进行比较。2222)()( yynxxnyxxynr使用相关系数时应注意的问题:使用相关系数时应注意的问题:相关关系不等于因果关系;相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;弱相关不一定表

16、明变量间没有关系;极端值可能影响相关系数。极端值可能影响相关系数。注意相关关系成立的数据范围。注意相关关系成立的数据范围。警惕虚假相关警惕虚假相关第2节 地理要素间的回归分析Regression Analysis回归分析的意义和作用l一、一元线性回归模型l二、一元非线性回归模型l三、多元线性回归模型l四、多元非线性回归模型回归:退回回归:退回regression相关与回归统计方法的创始人相关与回归统计方法的创始人-弗朗西斯弗朗西斯高尔顿高尔顿, 1877年年 研究人类身长的遗传研究人类身长的遗传 “回归回归”到平均到平均数数平均身高平均身高回归名称来自于早期研究父母和他们的孩子的身高早期研究父

17、母和他们的孩子的身高时所采用的方法。回归分析,就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系。回归分析是研究要素之间具体的数量关系的一种强有力的工具,运用这种方法能够建立反映地理要素之间具体的数量关系的数学模型,即回归模型。 回归分析的定义地理回归分析的意义和作用地理系统是一个要素众多、联系复杂的大系统。各个因素之间存在着错综复杂的关系。在水文、气象、地震等预报中,人文地理与经济地理分析中,常常需要选择对某一地理变量(因变量)有影响的因子(自变量)。虽然可以从理论上分析,选出影响因子,但是影响程度不是单凭理论分析就可判定的。需要回归分析来测

18、定各变量(因素)对不同地理现象的影响程度;并以此建立模型进行预测或控制。因此,在地理研究中回归分析具有极其重要的作用回归分回归分析分类析分类按自变量按自变量个数分类个数分类一元回归一元回归简单回归简单回归多元回归多元回归复回归复回归按模型特按模型特征分类征分类线性回归线性回归非线性回归非线性回归Simple Linear regression一一 元元线线性性回回归归 为了研究钢材消费量与国民收入之间的关系,在统计年鉴上查得某地区一组历史数据。引例:钢材消费量与国民收入的关系 年 份199419951996200720082009钢材消费(吨)698872988144627362825国民收入

19、(亿)109712841502294831553372 试分析预测若2010年到2015年该地区国民收入以4.5%的速度递增,2015年钢材消费量将达到什么样的水平? 钢材消费量-因变量y dependent variable 被被解释变量,待估测的变量解释变量,待估测的变量国民收入-自变量 x independent variable解释变量,给定的或可以控制的变量,作为估测根据的变量解释变量,给定的或可以控制的变量,作为估测根据的变量建立数据拟合函数 y = E(Y | x)= f(x);作拟合曲线图形分析。 问题分析:10001500200025003000350050010001500

20、200025003000y=a+bx 钢材消费量y与国民收入x的散点图 钢材消费量y国民收入x 定义:假设有两个地理要素(变量)x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数; 为各组观测数据的下标; 为随机变量。iiibxay(3.2.1) ni,1,2,i一、一元线性回归模型需要解决的问题: 1) 在回归模型中如何估计参数a、b? 2) 模型的假设是否正确?需要检验。3)利用回归方程对y进行预测或对x进行控制? 记 和 分别为参数a与b的拟合值,则一元线性回归模型为 (3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线; 是y的估计值

21、,亦称回归值。a bxbay(3.2.2) y 1.参数估计:最小二乘法(Ordinary Least Squares)截距截距斜率斜率xbay10001500200025003000350050010001500200025003000 钢材消费量y与国民收入x的散点图ei(xi , yi)y 钢材消费量y国民收入xmin)(1122niniiiiyyeQ 参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 根据取极值的必要条件,有 niiininiiiibxayyyeQ121122min)()(niiiiniiixbxaybQbxayaQ110)(20)(2(3.2.4

22、) iy 参数参数a、b的的最小二乘估计(最小二乘估计(OLSOLS) (3.2.3) 正规方程组iniiniiniiniiniiyxbxaxybxan112111(3.2.5) 解上述正规方程组(3.2.5)式,得到参数a与b的拟合值xxxyniiniiiLLxxyyxxb121)()(xbya2112111)(1)(1niiniininiiniiiixnxyxnyx(3.2.6) (3.2.7) 例1:为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(X)与当年灌溉面积(Y),得到连续10年的数据年序年序最大积雪最大积雪深度深度X(X(尺尺) )灌溉面积灌

23、溉面积Y(Y(千千亩亩 ) )年序年序最大积雪最大积雪深度深度X(X(尺尺) )灌溉面积灌溉面积Y(Y(千千亩亩 ) )1 115.215.228.628.66 623.423.445452 210.410.419.319.37 713.513.529.229.23 321.221.240.540.58 816.716.734.134.14 418.618.635.635.69 9242446.746.75 526.426.448.948.9101019.119.137.437.4第一步:判断是否存在线性关系首先,正确的分析和判断两个变量之间的关系是线性关系还是非线性关系?方法:作散点图法、差

24、分法、曲度法、计算器法等。从散点图可以看出:两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);两个变量间关系的类型,是直线型还是曲线型(如果数据接近一条直线,则认为变量间存在线性关系;如果数据接近一条光滑的曲线,则称之为非线性关系);是否有异常观测值的干扰。做出散点图xbay第二步:求解a和b年序年序 x y(x- )(x- )2 2 ( y- )2(x- )* ( y- )1 115.215.228.628.613.362.88 28.94 2 210.410.419.319.371.4296.87 145.59 3 321.221.240.540.55.5215.7

25、6 9.33 4 418.618.635.635.60.060.86 0.23 5 526.426.448.948.957153.02 93.39 6 623.423.4454520.771.74 38.54 7 713.513.529.229.228.653.73 39.22 8 816.716.734.134.14.625.90 5.22 9 9242446.746.726.5103.43 52.38 101019.119.137.437.40.060.76 0.22 求和求和188.5188.5365.3365.3228228764.96764.96413.06413.06平均值平均值1

26、8.8518.8536.5336.53xyyxxy813. 1256. 2256.285.18*813.153.6xbya813. 122806.413xxxyLLb一元线性回归模型的显著性检验一元线性回归模型的显著性检验 方法:F 检验法(方差分析)。构造F统计量来衡量回归模型的效果。2. 回归模型的假设检验自由度剩余平方和自由度回归平方和1knQkUF(3.2.8) 总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为) () ()(yyyyyy两端平方,然后对所有的n点求和,则有2)(yy2)()( yyyy) )( (2) () (22yyyyyyyyxbya又因为)(xx

27、bybxay)(xxbyy) )() )(yyxxbyyyy)()(xxbyyxxb)()()(xxbxxbyyxxbxxxyLbLb202xxxxxyxyxxxyLLLLLLxxxyLLb niiyyyyLS12)(总niiyyyyLS12)(总niniiiiUQyyyy1122)()((3.2.9) (3.2.10) Q称为误差平方和,或剩余平方和;U称为回归平方和。 可以证明可以证明: :在假设在假设y y和和x x不存在线性关系(不存在线性关系(b=0b=0)时,)时,F F统计量统计量 因此,在给定的显著水平(通常=0.01或0.05)下,若FF,则拒绝假设,认为回归方程效果在此水平

28、下显著。一般地,当FF(0.01,1,8)=11.25;回归效果显著Finding the Critical FFinding the Computed FConclusion on Significance of Slopes00 xbay点估计量3. 预测与控制给定的自变量x0,给出: 但是由于各种因素的影响但是由于各种因素的影响,在在x= x0时时,实际上的观察到的数值实际上的观察到的数值y0一般不会恰好等于一般不会恰好等于 , 它们之间总是存在一定的偏差它们之间总是存在一定的偏差,即预即预测误差。为了掌握预测的精度,要对误差的变动范围作出测定。测误差。为了掌握预测的精度,要对误差的变动

29、范围作出测定。通常用通常用估计标准误差估计标准误差S来说明来说明 与与 的差异程度的差异程度 0 yiy iy2)(2nyySii区间估计一般情况下,若一般情况下,若y为正态分布,当为正态分布,当n很大时,并且自变量很大时,并且自变量x不远离不远离均值时,则可以确定预测区间为:均值时,则可以确定预测区间为:以以0.6287概率保证的概率保证的y预测区间为:预测区间为:以以0.9545概率保证的概率保证的y预测区间为:预测区间为:以以0.9973概率保证的概率保证的y预测区间为:预测区间为:可见,可见,S 越小,数据越集中,由回归模型估计越小,数据越集中,由回归模型估计y值,其精度越高值,其精度

30、越高SySySySySySy3,32,2,000000例1 : 预测2009年最大积雪深度(X)达到28尺,概率度取1 时,预测2009年灌溉面积将是多少千亩?灌溉面积应在51.702, 54.538千亩。418. 128*813. 1356. 200Sxbay例2 :货运量和工业总产值二、一元非线性回归模型1选配曲线的基本方法确定曲线类型 数学表达式 化曲为直 利用最小二乘法求参数曲线回归分析(curvilinear regression analysis)的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程,以揭示x与y间的曲线联系的形式。曲线回归分析最困难和首要的工作是确定变

31、量与x间的曲线关系的类型。通常通过两个途径来确定:1、利用已有的有关专业知识,根据已知的理论规律和实践经验。例如,谋取与人口增长常具有“S”型曲线的形状,即Logistic曲线的形式等。2、若没有已知的理论规律和经验可资利用,则可用描点法将实测点在直角坐标纸上描出Scatter diagram ,观察实测点的分布趋势与哪一类已知的函数曲线最接近,然后再选用该函数关系式来拟合实测点。非线性关系线性化的几种情况非线性关系线性化的几种情况对于指数曲线 ,令 , 可以将其转化为直线形式: , 其中, ; 对于对数曲线 ,令 , ,可以将其转化为直线形式: ;对于幂函数曲线 ,令 , ,可以将其转化为直

32、线形式: 其中, ; bxdyexbayxbaylnxbaybdxy xbayyylnxx dalnyy xxlnyylnxxlndaln对于双曲线 令 ,转化为直线形式: ; 对于S型曲线 ,可 转化为直线形式: ; 对于幂乘积 ,只要令 ,就可以将其转化为线性形式 其中, ;xbay1xbayxxxyybaye,1,e1令xbaykkxxdxy2121kkxxxy22110 xxyy1,1kkxxxxxxyyln,ln,ln,ln2211dln0对数模型双曲线模型课本例题一元非线性回归模型的建立一元非线性回归模型的检验总离差平方和回归平方和2222)()()(1yyyyyycRiii22)

33、(2nQnyySi相关系数越大,表明回归模型效果越好;反之,越差。剩余标准差越小,表明回归模型效果越好;反之,越差。F检验法对于对数函数和 只要令 ,就可以将其化为线性形式 例例: :表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型 。 kkxxxylnlnln22110kkxxxy22110kkxxxxxxyyln,ln,ln,2211 序号面积A周长P序号面积A周长P110 447.370625.39242232 844.3004 282.043215 974.730612.286434 05

34、4.660289.307330 976.770775.7124430 833.840895.98049 442.902530.202451 823.355205.131510 858.9201 906.1034626 270.300968.060621 532.9101 297.9624713 573.9601 045.07276 891.680417.0584865 590.0802 250.43583 695.195243.90749157 270.4002 407.54992 260.180197.239502 086.426266.54110334.33299.729513 109.0

35、70261.8181111 749.080558.921522 038.617320.396122 372.105199.667533 432.137253.335138 390.633592.893541 600.391230.030146 003.719459.467553 867.586419.406表3.2.1 某地区各个林地景观斑块面积(m2)与周长(m) 15527 620.2006 545.291561 946.184198.66116179 686.2002 960.4755777.30556.9021714 196.460597.993587 977.719715.75218

36、22 809.1801 103.0705919 271.8201 011.1271971 195.9401 154.118608 263.480680.710203 064.242245.049 6114 697.1301 234.1142146 9416.7008 226.009624 519.867326.317225 738.953498.6566313 157.6601 172.916238 359.465415.151646 617.270609.801246 205.016414.790 654 064.137437.355256 0619.0201 549.871665 645.

37、820432.355261 4517.740791.943676 993.355503.7842731 020.1001 700.965684 304.281267.9512826 447.1601 246.977696 336.383347.136297 985.926918.312702 651.414292.235303 638.766399.725712 656.824298.4733158 5425.10011 474.770721 846.988179.8663235 220.6401 877.476731 616.684172.8083310 067.820497.394741

38、730.563172.1433427 422.5701 934.5967511 303.970881.0423543 071.5501 171.4137614 019.790638.1763657 585.9402 275.389779 277.172862.0883728 254.1301 322.7957813 684.750712.78738497 261.0009 581.298791 949.164228.4033924 255.030994.906804 846.016324.481401 837.699229.40181521 457.4007 393.938411 608.62

39、5225.84282564 370.80012 212.410 解解:(1)作变量替换,令: , ,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。 AylnPxln序号y=lnAx=LnP序号y=lnAx=LnP1 9.254 1066.438 3794212.358 138.362 1862 9.678 7636.417 243 8.307 6225.667 487310.340 996.653 7824410.336 376.797 9184 9.153 0196.273 258457.508 4335.323 655 9.292 7427.

40、552 8164610.176 196.875 2946 9.977 3387.168 551479.515 9096.951 8417 8.838 076.033 2264811.091 187.718 8798 8.214 7895.496 7894911.965 727.786 3649 7.723 25.284 414507.643 2085.585 52810 5.812 1354.602 457518.042 0795.567 65111 9.371 536.326 008527.620 0275.7695 58表3.2.2 经对数变换后的数据127.771 5335.296 65

41、3538.140 9385.534 711139.034 8716.385 013547.378 0035.438 211148.700 1346.130 066558.260 3866.038 8391513.176 138.786 501567.573 6265.291 5971612.098 977.993 105574.347 7554.041 328179.560 7486.393 579588.984 4086.573 3341810.034 927.005 852599.866 3996.918 8211911.173 197.051 092609.019 6016.523 13

42、6208.027 5565.501 457619.595 4087.118 1092113.059 259.0150 56628.416 2385.787 871228.655 0326.211 917639.484 7597.067 248239.031 156.028 643648.797 4386.413 133248.733 1136.027 773658.309 9576.080 7442511.012 367.345 927668.638 6716.069 247269.583 1276.674 49678.852 7166.222 1472710.342 397.438 9516

43、88.367 3655.590 8062810.182 97.128 478698.754 0635.849 717298.985 4366.822 537707.882 8485.677 56308.199 45.990 776717.884 8875.698 6783113.280 099.347 906727.521 3115.192 2133210.469 397.537 684737.388 1325.152 181339.217 0996.209 381747.456 2025.148 3263410.219 127.567 654759.332 9096.781 1053510.

44、670 627.065 966769.548 2256.458 6143610.961 037.729 906779.135 3126.759 3583710.248 997.187 502789.524 0376.569 1823813.116 879.167 568797.575 1565.431 1123910.096 386.902 648808.485 9125.782 227407.516 275.435 4718113.164 388.908 416417.383 1355.419 8378213.243 479.410 208 (2) 以x为横坐标、y为纵坐标,在平面直角坐标系

45、中作出散点图。很明显,y与x呈线性关系。图3.2.2 林地景观斑块面积(A)与周长(P)之间的双对数关系 (3)根据所得表中的数据,运用建立线性回归模型的方法,建立y与x之间的线性回归模型,得到 对应于(3.2.19)式,x与y的相关系数高 达 =0.966 5。 (4)将(3.2.19)还原成双对数曲线,即 7505.0505.1xy(3.2.19)7505.0ln505.1lnPA (3.2.20)xyr三、多元线性回归模型回归模型的建立回归模型的建立 多元线性回归模型的结构形式为 aakaaaxxxyk22110(3.2.11) 式中: 为待定参数; 为随机变量。 k,10a 回归方程:

46、 如果 分别为式(3.2.11)中 的拟和值,则回归方程为 在(3.2.12)式中,b0为常数,b1,b2,bk称为偏回归系数。偏回归系数偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。kkxbxbxbby22110(3.2.12) kbbb,10k,210ix 偏回归系数的推导过程:根据最小二乘法原理, 的估计值 应该使 由求极值的必要条件得 方程组(3.2.14)式经展开整理后得 min)()(122211012nakakaaanaaaxbxbxbbyyyQ(3.2.13) ), 2, 1(0)(20)(2110kjxyybQyybQnajaaaj

47、naaa), 2 , 1 , 0(kii)(k,1,2, 0iib(3.2.14) 方程组(3.2.15)式称为正规方程组。 引入矩阵nanaakanakkanakaakaanakananaaanakkaanaaaanaananaaanakkaanaaanaananaanakkanaaayxbxbxxbxxbxyxbxxbxbxxbxyxbxxbxxbxbxybxbxbxnb11122121101112122122121012111112121121011111212110)(.)()()()()()()()()()()()()()( (3.2.15) knnnkkxxxxxxxxxxxxX2

48、132313222121k211111.11knnnkkkknkkknnTxxxxxxxxxxxxxxxxxxxxxxxxXXA213231322212121113212232221113121111111111nakanakaanakaanakanakaanaanaaanaanakaanaaananaanakanaanaaxxxxxxxxxxxxxxxxxxxxxn12121111212212112111211211111211nyyyY21nbbbbb210 则正规方程组(3.2.15)式可以进一步写成矩阵形式BAb naakanaaanaaanaanknkkknnTyyyxyxyyyyy

49、xxxxxxxxxxxxYXB112111321321223222111312111111求解得引入记号 YXXXBAbTT11)(najjiiajiijxxxxLL1)(naaiiaiyyyxxL1)((3.2.16) ),2, 1,(kji),2,1(ki正规方程组也可以写成kkkykkkkkykkykkxbxbxbybLbLbLbLLbLbLbLLbLbLbL2211022112222212111212111)51 . 2 . 3( n回归模型的显著性检验回归模型的显著性检验 回归平方和U与剩余平方和Q: 回归平方和 剩余平方和为 F统计量为 计算出来F之后,可以查F分布表对模型进行显著

50、性检验。k21x,x,xQULSyy总nanaiyiLbyyU112)(nayyaaULyyQ12)()1/(/knQkUF关于自由度模型中样本值可以自由变动的个数,称为自由度自由度=样本个数- 样本数据受约束条件(方程)的个数例如,样本数据个数=n,它们受k+1个方程的约束(这n个数必须满足这k+1个方程)那么,自由度df = n-k-1补充:线性相关与回归的区别补充:线性相关与回归的区别 相关系数的计算只适用于两个变量都服从正态分相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随机变量,布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(自变量既

51、可以是随机变量(IIII型回归模型,两个型回归模型,两个变量都应该服从正态分布),也可以是给定的量变量都应该服从正态分布),也可以是给定的量(I I型回归模型,这时,与每个型回归模型,这时,与每个X X 取值相对应的变取值相对应的变量量Y Y必须服从正态分布)。必须服从正态分布)。 线性相关表示两个变量之间的相互关系是双向的,线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,是单向的。回归则反映两个变量之间的依存关系,是单向的。 补充:线性相关与回归的联系补充:线性相关与回归的联系 如果对同一资料进行相关与回归分析,则得到如果对同一资料进行相关与回归分析,则得到的相

52、关系数的相关系数r r与回归方程中的与回归方程中的b b正负号是相同的。正负号是相同的。 在相关分析中,求出在相关分析中,求出r r后要进行假设检验,同样,后要进行假设检验,同样,在回归分析中,对在回归分析中,对b b也要进行假设检验。实际上,也要进行假设检验。实际上,通过数学推导,对同一样本可以得出通过数学推导,对同一样本可以得出r r与与b b互化的互化的公式,同一样本的这两种假设检验也是等价的。公式,同一样本的这两种假设检验也是等价的。因此,由于因此,由于r r的假设检验可以直接查表,较为简的假设检验可以直接查表,较为简单,所以可以用其代替对单,所以可以用其代替对b b的假设检验。的假设

53、检验。 相关回归可以互相解释。相关回归可以互相解释。总回归SSSSll/llllrRYYXX2XYYYXX2XY22R R 的平方称为确定系数的平方称为确定系数 (coefficient of determinationcoefficient of determination)应用确定系数,也可以从回归的角度对相关程度做应用确定系数,也可以从回归的角度对相关程度做进一步的了解。进一步的了解。补充:线性相关与回归的联系补充:线性相关与回归的联系第3节 空间趋势面分析(Trend-Surface Analysis )一、概念 趋势面分析趋势面分析是用数学曲面数学曲面来拟合地理系统要素在空间的分布及

54、变化趋势的一种数学方法。它实质上是通过回归分析原理,模拟地理要素在空间上的空间上的分布规律分布规律,展示地理要素在地域空间上的变化趋势。趋势面分析常常被用来模拟资源、环境、人口及经济要素在空间上的分布规律,它在空间分析方面具有重要的应用价值。 二、空间趋势面分析的一般原理 空间趋势面空间趋势面并不是地理要素的实际分布面,而是模拟地理要素空间分布的近似曲面。因此,通常把实际的地理曲面分解为趋势面趋势面和剩余面剩余面两部分 。前者反映地理要素的宏观分布宏观分布规律,属于确定性因素作用的结果;而后者则对应于微观局域,是随机随机因素因素的结果。趋势面分析的一个基本要求就是所选择的趋势面模型应该是剩余值

55、最小剩余值最小,而趋势值最大趋势值最大,这样拟合精度才能达到足够的精确性。 1.趋势面模型的建立 设 某 地 理 要 素 的 实 际 观 测 数 据 为zi(xi,yi)(i=1,2,n),趋势面拟合值为,则有式中,i为剩余值(残差值) 采用回归分析方法 在最小二乘法意义下的趋势面拟合。 用来计算趋势面的数学方程式有多项式和傅立叶级数,其中最常用的是多项式函数形式。 多项式趋势面的形式为:一次趋势面模型:二次趋势面模型: First-order (linear) trend surfaceSecond-order (quadratic) trend surfaceAn isoline map

56、of a third-order trend surface created from 105 points with annual precipitation values (105个年降水量点)zx,y = b0 + b1x + b2y + b3x2 + b4xy + b5y2 + b6x3 + b7x2y + b8xy2 + b9y3 需要注意在实际应用中,往往用次数低的趋势面逼近变化比较小的地理要素数据,用次数高的趋势面逼近起伏变化复杂的地理要素数据。次数低的趋势面使用起来比较方便,但是具体到某点拟合较差;次数较高的趋势面只在观测点附近效果较好,而在外推和内插时则效果较差。 2.趋势面

57、模型的参数估计 将多项式回归(非线性模型)模型转化为多元线性回归模型。 若要偏差平方和Q达到最小,求偏差平方和Q对a0,a1,a2ap的偏导数,并令其等于0。经化简后得到正规方程组。用矩阵形式表示正规方程组则正规方程组为nnPPnnnzzzzaaaAXpnXXXXXXXXXXXX101021321123121111322211ZXXXAZXXAXTTTT1)(那么,三、趋势面模型的适度检验 1拟合度R2检验2.趋势面模型的显著性F检验 n为观测值的个数 p为自变量的个数3.趋势面适度的逐次检验四、应用举例课本例题:1建立趋势面模型Z=18.44-1.38x-1.54y(R2=0.915,F=1

58、19.74) Z=18.27-1.161x-1.49y+0.07xy-0.07x2-0.04y2(R2=0.92,F=43.73)2.模型检验(1)根据R2检验方法计算(2)显著性F检验。在显著性水平0.01下,二次趋势面的F值,大于临界值4.17;一次趋势面模型的F值大于临界值 5.72。说明二者的整体显著性均很高 。(3)一次和二次趋势面回归模型的逐次检验方差分析表 离差来源平方和自由度均方差F检验2次回归214.77543.95543.722次剩余18.6625-5-10.9821次回归213.82106.9119.741次剩余19.6425-2-10.893由1次增高到2次的回归0.9

59、730.3230.329结论:二次趋势面,F值不显著,则二次多项式对于回归并无新贡献。因此选取一次趋势面比较合适。 第4节 时间序列分析时间序列分析的基本原理 趋势拟合方法季节变动预测 自回归模型时间序列:时间序列:各种社会、经济、自然现象的数量指标按照时间次序排列起来的统计数据时间序列分析模型:时间序列分析模型:解释时间序列自身的变化规律和相互联系的数学表达式一、时间序列分析的基本原理 (一)时间序列的组合成份(一)时间序列的组合成份 长期趋势(长期趋势(T, Trend T, Trend ) 是指时间序列随时间的变化而逐渐增加或减少的长期变化的趋势。上升或下降季节变动(季节变动(S,Sea

60、sonalS,Seasonal) 是指时间序列在一年中或固定时间内,呈现出的固定规则的变动。 循环变动循环变动(C,CyclicalC,Cyclical) 是指沿着趋势线如钟摆般地循环变动,又称景气循环变动(business cycle movement) 。资本主义经济危机不规则变动(不规则变动(I,IrregularI,Irregular) 是指在时间序列中由于随机因素影响所引起的变动。 SARS、战争、地震等405060708090100110120130123456789 10 11 12月销量无趋势无趋势606570758085909510010513579 11 13 15 17

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论