




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1、相关分析2、回归分析3、时间序列分析4、系统聚类分析5、主成分分析6、马尔可夫预测7、趋势面分析8、地统计分析第三章第三章 地理学中的经典统计分析地理学中的经典统计分析方法方法 3.1 相关分析 3.1 相关分析相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。 两要素之间相关程度的测定 多要素间相关程度的测定 相关关系的分类 按照影响因素分类 简单线性相关 偏相关 复相关正相关负相关线性相关非线性相关主要步骤 判断现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这是相关分析的出发点; 确定研究变
2、量均为随机变量; 根据变量个数和特征选择合适的分析方法; 计算相关系数; 对相关系数进行显著性检验。 一、两要素之间相关程度的测定 相关系数的计算与检验 秩相关系数的计算与检验(一)、相关系数的计算与检验相关系数的计算 定义 和 为两要素的平均值。 说明 :- 1 = 0.010.432,所以在=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。 二、多要素间相关程度的测定偏相关系数的计算与检验复相关系数的计算与检验 二元变量的相关分析在一些情况下无法较为真实准确地反映二元变量的相关分析在一些情况下无法较为真实准确地反映事物之间的相关关系。例如,在研究某农场
3、春季早稻产量与平均降雨事物之间的相关关系。例如,在研究某农场春季早稻产量与平均降雨量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还量、平均温度之间的关系时,产量和平均降雨量之间的关系中实际还包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生包含了平均温度对产量的影响。同时平均降雨量对平均温度也会产生影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映影响。在这种情况下,单纯计算简单相关系数,显然不能准确地反映事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算事物之间地相关关系,而需要在剔除其他相关因素影响的条件下计算相关系数。偏相关分析正是用来解决这个问
4、题的。相关系数。偏相关分析正是用来解决这个问题的。 问题产生偏相关系数的计算与检验偏相关系数的计算 定义:在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。 计算:3个要素的偏相关系数 )1)(1(2232132313123.12rrrrrr(3.1.5) )1)(1(2232122312132.13rrrrrr(3.1.6) )1)(1 (2132121312231 .23rrrrrr(3.1.7) 四个要素的偏相关系数 (3.1.8) )1)(1(23.2423.143.243.143.
5、1234.12rrrrrr)1)(1(22.3422.142.342.142.1324.13rrrrrr(3.1.9) )1)(1(22.4322.132.432.132.1423.14rrrrrr(3.1.10) )1)(1(21.3421.241.341.241.2314.23rrrrrr(3.1.11) 例如:对于某四个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵: 1469.0950.0579.0469.01592.0346.0950.0592.01416.0579.0346.0416.0144434241343332312423222114131
6、211rrrrrrrrrrrrrrrrR 利用一级偏向关系数公式计算一级偏向关系数,如表3.1.5 所示:r1234r1324r1423r2314r2413r3412-0.1700.8020.635-0.1870.821 -0.337r123r132r142r143r231r241r243r241r3420.8210.8080.6470.895-0.8630.9560.945-0.8750.371利用 二级偏相关系数公式计算二级偏相关系数,见下表: 性质 偏相关系数分布的范围在-1到1之间; 偏相关系数的绝对值越大,表示其偏相关程度越大; 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得
7、的复相关系数,即 R123|r123|。偏相关系数的显著性检验 t检验法的计算公式:11341223412 mnrrtmm。 上例检验:上例检验: 查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然 ,这表明在置信度水平 =0.001上,偏相关系数r2413是显著的。268. 61323821. 01821. 02ttt 某山地各气象观测站的相关数据如所示,试分析消除经度影响后,年降水量与海拔的偏相关系。分析步骤:1. 前提条件检验正态性检验2. 计算偏相关系数3. 显著性检验偏相关分析产产 量量降降 雨雨 量量温温 度度150.0025.006.00230.0033.
8、008.00300.0045.0010.00450.00105.0013.00480.00111.0014.00500.00115.0016.00550.00120.0017.00580.00120.0018.00600.00125.0018.00600.00130.0020.00 实现步骤实现步骤 结果和讨论结果和讨论复相关系数复相关系数:反映几个要素与某一个要素之间的复相关程度 。计算 当有两个自变量时, 当有三个自变量时, 当有k个自变量时,)1)(1 (11 . 221212.yyyrrR(3.1.15) )1)(1)(1 (112. 321 . 2212123.yyyyrrrR(3.
9、1.16))1 )1)(1 (1)1.(12.21 .2212.12. kykyykyrrrR(3.1.17)性质 复相关系数介于0到1之间,即 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。仅表现出一个变量与一个变量集一起变化的程度。 复相关系数必大于或至少等于单相关系数的绝对值。显著性检验 F-检验法。其统计量计算公式为1012.kyRkknRRFkyky11212.212.例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。 解:按照公式(3.1.16)计算: 检验
10、: ,故复相关达到了极显著水平。974.0337.01)(956.01)(579.01 (1)1)(1)(1 (1222212.4321 .42241123.4)rrrR0103. 51907.12001. 0FF 某山地各气象观测站的相关数据如2所示,试年降水量与海拔和经度的复相关关系.相关分析研究目的二元相关分析不考虑其它因素影响,仅研究x1和x2的相关关系偏相关分析在消除了x3.xk影响的前提下,研究x1和x2的相关关系复相关分析研究x1与(x2xk)的相关关系 假定有 n 个样品,m个变量,则可以建立一个原始数据矩阵 X如下 相关系数(correlation coefficient)是
11、对于变量而言,第 j 和第 k 个变量的相关系数,计算公式为相似系数 相似系数(similar coefficient)是针对样本而言,第 i 和第 r 个样品的相似系数,计算公式为相关系数与相似系数的不同在于 R 型分析(基于样品分析变量)和 Q 型分析(基于变量分析样品)的区别 举例说明。下表是 2000 年北京、天津及上海的非农业人口和建成区面积。非农业人口和建成区面积为变量,城市为样品,因此计有两个变量,三个样品。我们采用这个非常简单的例子是为了便于直观地显示图形的结构回归分析 回归(regression)这一术语是1886年高尔顿(Galton)研究遗传现象时引进的,他发现:虽然高个
12、子的先代会有高个子的后代,但后代的增高并不与先代的增高等量,后代的身高有向平均高度靠拢的趋势。他称这一现象为“向平常高度的回归” “Regression toward mediocrity in heredity stature”。尔后,皮尔逊(Pearson)搜集了1078个家庭或成员的身高数据,分析出成年儿子的身高y和父亲的身高x大致可归结为以下关系: 如今人们将回归分析理解为研究变量间统计依赖关系的方法,而并非Galton的原意,但回归这一名词却一直沿用下来,成为统计中最常用的概念之一。回归分析的由来 回归分析能解决的问题 确定几个特定变量之间是否存在相关关系,如果存在的话,找出它们之间
13、合适的数学表达式;根据一个或几个变量的值,预报或控制另一个变量的取值。 主要内容 建立变量x与y之间的线性回归模型 估计回归系数(最小二乘法)并进行显著性检验 判断变量x和y之间是否存在线性关系根据一个变量的值,预测或控制另一变量的取值 一元线性回归模型 设(X,Y)是反映两个总体特征的指标。对(X,Y)进行n次观察,获得观察值(xi,yi),得到平面上的n个点。在n较大的情况下,如果有一条曲线基本上通过这些点,或使这些点的大部分偏离曲线不远,则称这条曲线为观察值的拟合曲线,亦称此曲线为y对x的回归曲线。如果这条曲线的方程能够表示成yf(x),则称该方程为y对x的回归方程。当此曲线是直线时,就
14、称之为直线回归。一、一元线性回归模型 定义:假设有两个地理要素(变量)x 和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数; 为各组观测数据的下标; 为随机变量。bxay(3.2.1) n,1,2,a 记 和 分别为参数a与b的拟合值,则一元线性回归模型为 (3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线; 是y的估计值,亦称回归值。a bxbay(3.2.2) y 参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 根据取极值的必要条件,有 niiininiiiibxayyyeQ121122min)()(niiiini
15、iixbxaybxay110)(0)((3.2.4) iy (一)参数(一)参数a、b的最小二乘估计的最小二乘估计 (3.2.3) niiniiixxxyxxyyxxLLb121)()(xbya2112111)(1)(1niiniininiiniiiixnxyxnyx(3.2.5) (3.2.6) 解上述正规方程组(3.2.4)式,得到参数a与b的拟合值(二)一元线性回归模型的显著性检验(二)一元线性回归模型的显著性检验niiTyy12)(SSniiiRyySS12)(niiieyySS12)(总的离差平方和误差平方和,或剩余平方和回归平方和 方法:F 检验法。 总的离差平方和:在回归分析中,
16、表示y的n次观测值之间的差异,记为 可以证明(3.2.9)niiyyyyLS12)(总niiyyyyLS12)(总niniiiiUQyyyy1122)()((3.2.8) 在式(3.2.9)中,Q称为误差平方和,或剩余平方和 而 称为回归平方和。niiiyyQ12)(xyxxniiniiniiibLLbxxbxbabxayyU21221212)()()( 统计量F F越大,模型的效果越佳。统计量FF(1,n-2)。在显著水平下,若FF,则认为回归方程效果在此水平下显著。一般地,当FF0.10(1,n-2)时,则认为方程效果不明显。 2nQUF(3.2.10) 方差检验法 一元线性回归方程的检验
17、(分析)可决系数R2(coefficient of determination)表达式是相关系数的平方,但不同于相关系数。该比值是自变量能解释Y变异的百分比,反映了回归拟合的优劣程度。拟合越好,可决系数越接近于1。由于可决系数不是对总体参数的估计,因此不能作任何显著性检验。 调整的可决系数 (adjusted R2)实际中,随着自变量个数p的增加和样本量n的变化,必然会使得R2不断变化,在进行拟合优度检验的判定时,一般采用调整的R2 ,以消除自变量的个数以及样本量的大小对R2的影响。 估计标准误(均方误差)估计标准误(标准误差)定义各测量值误差的平方和的平均值的平方根(Std. Error o
18、f the Estimate ),故又称为均方误差(Mean Square Error,MSE),也称为剩余标准差(Root MSE)。它反映了回归方程的精度,估计标准误差越小,回归效果越好。一元线性回归模型的表达估计标准误(Std. Error of the Estimate) 多元线性回归模型 回归参数的估计 回归方程的显著性检验 回归参数的显著性检验 回归方程的拟合优度检验多元线性回归 问题的提出 现实生活中引起被解释变量(因变量)变化的因素并非仅只一个解释变量(自变量),可能有很多个解释变量(自变量)。 例如,作物产量往往受各种投入要素施肥、农药、灌溉、管理、技术等的影响。2. 所以在
19、一元线性模型的基础上,提出多元线性模型解释变量个数 2二、多元线性回归模型回归模型的建立回归模型的建立 多元线性回归模型的结构形式为 aakaaaxxxyk22110(3.2.11) 式中: 为待定参数; 为随机变量。 k,10a 回归方程: 如果 分别为式(3.2.11)中 的拟和值,则回归方程为 在(3.2.12)式中,b0为常数,b1,b2,bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。kkxbxbxbby22110(3.2.12) kbbb,10k,210ix 偏回归系数的推导过程:根据最小二乘法原理, 的估计值 应该使
20、由求极值的必要条件得 方程组(3.2.14)式经展开整理后得 min)()(122211012nakakaaanaaaxbxbxbbyyyQ(3.2.13) ),2, 1(0)(20)(2110kjxyybQyybQnajaaajnaaa), 2 , 1 , 0(kii)(k,1,2, 0iib(3.2.14) 方程组(3.2.15)式称为正规方程组。 引入矩阵nanaakanakkanakaakaanakananaaanakkaanaaaanaananaaanakkaanaaanaananaanakkanaaayxbxbxxbxxbxyxbxxbxbxxbxyxbxxbxxbxbxybxbx
21、bxnb11122121101112122122121012111112121121011111212110)(.)()()()()()()()()()()()()()( (3.2.15) knnnkkxxxxxxxxxxxxX2132313222121k211111.11knnnkkkknkkknnTxxxxxxxxxxxxxxxxxxxxxxxxXXA213231322212121113212232221113121111111111nakanakaanakaanakanakaanaanaaanaanakaanaaananaanakanaanaaxxxxxxxxxxxxxxxxxxxxxn
22、12121111212212112111211211111211nyyyY21nbbbbb210 则正规方程组(3.2.15)式可以进一步写成矩阵形式BAb naakanaaanaaanaanknkkknnTyyyxyxyyyyyxxxxxxxxxxxxYXB112111321321223222111312111111求解得引入记号 YXXXBAbTT11)(najjiiajiijxxxxLL1)(naaiiaiyyyxxL1)((3.2.16) ),2, 1,(kji),2,1(ki正规方程组也可以写成kkkykkkkkykkykkxbxbxbybLbLbLbLLbLbLbLLbLbLbL2
23、211022112222212111212111)51 . 2 . 3( n回归模型的显著性检验回归模型的显著性检验 回归平方和U与剩余平方和Q: 回归平方和 剩余平方和为 F统计量为 计算出来F之后,可以查F分布表对模型进行显著性检验。k21x,x,xQULSyy总nanaiyiLbyyU112)(nayyaaULyyQ12)()1/(/knQkUFF检验结果表明:回归方程显著。t检验结果表明:回归常数和偏回归系数均显著结果表明:拟合效果很好,可以利用该经验回归方程进行预测和控制。 相关系数(correlation coefficient)主要用于检验拟合模型的线性关系的显著性程度,一般用
24、R 表示。相关系数的平方(R2)称为测定系数(determination coefficient,或译“决定系数”、“判定系数”、“可决系数”等),又叫拟合优度(goodness of fit)。在一元线性回归中,测定系数的大小可以反映自变量对因变量的解释程度,即具有百分之几的解释能力。 相关系数的计算公式为非线性关系线性化的几种情况非线性关系线性化的几种情况对于指数曲线 ,令 , 可以将其转化为直线形式: , 其中 对于对数曲线 ,令 , ,可以将其转化为直线形式: ;对于幂函数曲线 ,令 , ,可以将其转化为直线形式: 其中, ; 三、非线性回归模型 bxdyexbayxbaylnxbay
25、bdxy xbayyylnxx dalnyy xxlnyylnxxlndaln对于双曲线 , 令 ,转化为直线形式: 对于S型曲线 ,可 转化为直线形式: ; 对于幂乘积 ,只要令 就可以将其转化为线性形式 其中 ;xbay1xbayxxxyybaye,1,e1令xbaykkxxdxy2121kkxxxy22110 xxyy1,1kkxxxxxxyyln,ln,ln,ln2211dln0对于对数函数和 只要令 ,就可以将其化为线性形式 例例: :表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型 。
26、 kkxxxylnlnln22110kkxxxy22110kkxxxxxxyyln,ln,ln,2211 序号面积A周长P序号面积A周长P110 447.370625.39242232 844.3004 282.043215 974.730612.286434 054.660289.307330 976.770775.7124430 833.840895.98049 442.902530.202451 823.355205.131510 858.9201 906.1034626 270.300968.060621 532.9101 297.9624713 573.9601 045.07276
27、891.680417.0584865 590.0802 250.43583 695.195243.90749157 270.4002 407.54992 260.180197.239502 086.426266.54110334.33299.729513 109.070261.8181111 749.080558.921522 038.617320.396122 372.105199.667533 432.137253.335138 390.633592.893541 600.391230.030146 003.719459.467553 867.586419.406表3.2.1 某地区各个林
28、地景观斑块面积(m2)与周长(m) 15527 620.2006 545.291561 946.184198.66116179 686.2002 960.4755777.30556.9021714 196.460597.993587 977.719715.7521822 809.1801 103.0705919 271.8201 011.1271971 195.9401 154.118608 263.480680.710203 064.242245.049 6114 697.1301 234.1142146 9416.7008 226.009624 519.867326.317225 738.
29、953498.6566313 157.6601 172.916238 359.465415.151646 617.270609.801246 205.016414.790 654 064.137437.355256 0619.0201 549.871665 645.820432.355261 4517.740791.943676 993.355503.7842731 020.1001 700.965684 304.281267.9512826 447.1601 246.977696 336.383347.136297 985.926918.312702 651.414292.235303 63
30、8.766399.725712 656.824298.4733158 5425.10011 474.770721 846.988179.8663235 220.6401 877.476731 616.684172.8083310 067.820497.394741 730.563172.1433427 422.5701 934.5967511 303.970881.0423543 071.5501 171.4137614 019.790638.1763657 585.9402 275.389779 277.172862.0883728 254.1301 322.7957813 684.7507
31、12.78738497 261.0009 581.298791 949.164228.4033924 255.030994.906804 846.016324.481401 837.699229.40181521 457.4007 393.938411 608.625225.84282564 370.80012 212.410 解解:(1)作变量替换,令: , ,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。 AylnPxln序号y=lnAx=LnP序号y=lnAx=LnP1 9.254 1066.438 3794212.358 138.362
32、1862 9.678 7636.417 243 8.307 6225.667 487310.340 996.653 7824410.336 376.797 9184 9.153 0196.273 258457.508 4335.323 655 9.292 7427.552 8164610.176 196.875 2946 9.977 3387.168 551479.515 9096.951 8417 8.838 076.033 2264811.091 187.718 8798 8.214 7895.496 7894911.965 727.786 3649 7.723 25.284 414507
33、.643 2085.585 52810 5.812 1354.602 457518.042 0795.567 65111 9.371 536.326 008527.620 0275.7695 58表3.2.2 经对数变换后的数据127.771 5335.296 653538.140 9385.534 711139.034 8716.385 013547.378 0035.438 211148.700 1346.130 066558.260 3866.038 8391513.176 138.786 501567.573 6265.291 5971612.098 977.993 105574.34
34、7 7554.041 328179.560 7486.393 579588.984 4086.573 3341810.034 927.005 852599.866 3996.918 8211911.173 197.051 092609.019 6016.523 136208.027 5565.501 457619.595 4087.118 1092113.059 259.0150 56628.416 2385.787 871228.655 0326.211 917639.484 7597.067 248239.031 156.028 643648.797 4386.413 133248.733
35、 1136.027 773658.309 9576.080 7442511.012 367.345 927668.638 6716.069 247269.583 1276.674 49678.852 7166.222 1472710.342 397.438 951688.367 3655.590 8062810.182 97.128 478698.754 0635.849 717298.985 4366.822 537707.882 8485.677 56308.199 45.990 776717.884 8875.698 6783113.280 099.347 906727.521 3115.192 2133210.469 397.537 684737.388 1325.152 181339.217 0996.209 381747.456 2025.148 3263410.219 127.567 654759.332 9096.781 1053510.670 627.065 966769.548 2256.458 6143610.961 037.729 906779.135 3126.759 3583710.248 997.187 502
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国高纯度六氯乙硅烷行业市场分析及投资价值评估前景预测报告
- 2025年中国杠杆式浓缩咖啡机行业市场分析及投资价值评估前景预测报告
- 2025年中国干洗化学品行业市场分析及投资价值评估前景预测报告
- 2025年中国干墙板行业市场分析及投资价值评估前景预测报告
- 2025年中国甘氨酰酪氨酸行业市场分析及投资价值评估前景预测报告
- 03 专题五 牛顿第二定律的综合应用 【答案】听课手册
- 2025年中国枫木行业市场分析及投资价值评估前景预测报告
- 2025年中国非锁定登山扣行业市场分析及投资价值评估前景预测报告
- 高二六门考试题目及答案
- 说课稿:铸牢民族共同体意识
- 2024至2030年全球及中国海洋休闲设备行业市场分析及投资建议报告
- 心脏搭桥手术病历
- 托育早教中心家长常见问题(百问百答)
- QFD质量功能展开的未来发展趋势
- 燃气行业数字化转型研究
- 成长纪念册课件
- 超声引导下神经阻滞
- 浙江省安装工程预算定额说明及计算规则
- 围墙新建及改造工程施工组织设计(技术标)
- 房屋建筑学民用建筑构造概论
- 政策议程多源流模型分析
评论
0/150
提交评论