




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章地理学中的经典
统计分析方法第3章地理学中的经典
统计分析方法1本章主要内容相关分析回归分析时间序列分析系统聚类分析主成分分析趋势面分析方法马尔可夫预测方法本章主要内容相关分析2第1节相关分析相关分析的任务,是揭示地理要素之间相互关系的密切程度。而地理要素之间相互关系密切程度的测定,主要是通过对相关系数的计算与检验来完成的。第1节相关分析相关分析的任务,是3本节主要内容:两要素之间相关程度的测定多要素间相关程度的测定本节主要内容:两要素之间相关程度的测定4一、两要素之间相关程度的测定相关系数的计算与检验秩相关系数的计算与检验一、两要素之间相关程度的测定相关系数的计算与检验5
相关系数的计算
①定义:
和为两要素的平均值。(3.1.1)(一)相关系数的计算与检验
相关系数的计算(3.1.1)(一)相关系数的计算与检验6②说明:-1<=<=1,大于0时正相关,小于0时负相关。的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。②说明:-1<=<=1,大于07
③简化:
记
公式(3.1.1)可简化为(3.1.2)③简化:(3.1.2)8表3.1.1伦敦的月平均气温与降水量资料来源:.tw/V4/climate/wta_station/wta20.htm
相关分析实例表3.1.1伦敦的月平均气温与降水量资9(1)根据表3.1.1中的数据,我们可以利用公式(3.1.1),计算伦敦市月平均气温(t)与降水量(p)之间的相关系数(2)计算结果表明,伦敦市的月平均气温(t)与降水量(p)之间呈负相关,即异向相关。(1)根据表3.1.1中的数据,我们可以利用公式(310又如:根据甘肃省53个气象台站的多年平均数据(见教材表3.1.2),可以利用公式(3.1.1)对降水量(p)和纬度(y)之间的相关系数以及蒸发量(v)和纬度(y)之间的相关系数进行计算,结果如下
=又如:根据甘肃省53个气象台站的多年平均数据(见教材11=计算结果表明,降水量(p)和纬度(y)之间异向相关,而蒸发量(v)与纬度(y)之间同向相关。
=计算结果表明,降水量(p)和纬度(y)之间异向相关12相关系数的检验
相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。检验是通过在给定的置信水平下,查相关系数检验的临界值表来实现的。相关系数的检验相关系数是根据要素之间的样本值计算出13f
0.100.050.020.010.0011234567891011120.987690.900000.80540.72930.66940.62150.58220.54940.52140.49730.47620.45750.996920.950000.87830.81140.75450.70670.66640.63190.60210.57600.55290.5324
0.9995070.980000.934330.88220.83290.78870.74930.71550.68510.65810.63390.6120
0.9998770.990000.958730.917200.87450.83430.79770.76460.73480.70790.68350.66140.9999980.9990000.9911600.974060.950740.924930.89820.87210.84710.82330.80100.7800表3.1.3检验相关系数的临界值()表
f0.100.050.014在表3.1.3中,f称为自由度,其数值为f=n-2,n为样本数;上方的代表不同的置信水平;表内的数值代表不同的置信水平下相关系数的临界值,即;公式的意思是当所计算的相关系数的绝对值大于在水平下的临界值rα时,两要素不相关(即)的可能性只有。
在表3.1.3中,f称为自由度,其数值为15对伦敦市月平均气温(t)与降水量(p)之间的相关系数,f=12-2=10,在显著性水平上,查表3.1.3,得知:。因为,所以,伦敦市月平均气温(t)与降水量(p)之间的相关性并不显著。对伦敦市月平均气温(t)与降水量(p)之间的相关系数16对于甘肃省53个气象台站降水量(p)和纬度(y)之间的相关系数,以及蒸发量(v)和纬度(y)之间的相关系数,f=53-2=51,表中没有给出相应样本个数下的临界值,但是我们发现,在同一显著水平下,随着样本数的增大,临界值
减少。在显著性水平α=0.001上,取f=50,查表3.1.3得知:=0.4433。显然,和
的绝对值都远远大于=0.4433,这说明甘肃省53个气象台站降水量(p)和纬度(y)之间,以及蒸发量(v)和纬度(y)之间都是高度相关的。对于甘肃省53个气象台站降水量(p)和纬度(17秩相关系数又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
(3.1.4)(二)秩相关系数的计算与检验秩相关系数(3.1.4)(二)秩相关系数的计算与检验18教材中表3.1.4给出了2003年中国大陆各省(直辖市、自治区)的GDP(x)和总人口(y)数据及其位次,将数据代入公式(3.1.4),就可以计算它们之间的秩相关系数即:GDP(x)与总人口(y
)之间的等级相关系数为0.7847。
示例:教材中表3.1.4给出了2003年中国大陆各省(直19n显著水平α
n显著水平α
0.05
0.01
0.050.0141.000--
160.4250.60150.9001.000180.3990.56460.8290.943200.3770.53470.7140.893220.3590.50880.6430.833240.3430.48590.6000.783260.3290.465100.5640.746280.3170.448120.4560.712300.3060.432140.4560.645------注:n代表样本个数,α代表不同的置信水平,也称显著水平,表中的数值为临界值。
秩相关系数的检验
表3.1.5秩相关系数检验的临界值显著水平α显著水平α20在上例中,n=31,表中没有给出相应的样本个数下的临界值,但是同一显著水平下,随着样本数的增大,临界值减少。在n=30时,查表得:=0.432,由于=0.7847>=0.432,所以在α=0.01的置信水平上来看,中国大陆各省(直辖市、自治区)人口规模与GDP是等级相关的。在上例中,n=31,表中没有给出相应的样本个21二、多要素间相关程度的测定偏相关系数的计算与检验复相关系数的计算与检验二、多要素间相关程度的测定偏相关系数的计算与检验22(一)偏相关系数的计算与检验①定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。偏相关系数的计算(一)偏相关系数的计算与检验偏相关系数的计算23②计算:3个要素的偏相关系数(3.1.5)
(3.1.6)
(3.1.7)
②计算:(3.1.5)(3.1.6)(3.1.7)244个要素的偏相关系数(3.1.8)
(3.1.9)
(3.1.10)
(3.1.11)
4个要素的偏相关系数(3.1.8)(3.1.9)(3.125例如:对于某4个地理要素x1,x2,x3,x4的23个样本数据,经过计算得到了如下的单相关系数矩阵:
例如:对于某4个地理要素x1,x2,x3,x4的23个样本数26利用公式计算一级偏向关系数,如表3.1.6所示:r12·34r13·24r14·23r23·14r24·13r34·12-0.1700.8020.635-0.1870.821-0.337r12·3r13·2r14·2r14·3r23·1r24·1r24·3r24·1r34·20.8210.8080.6470.895-0.8630.9560.945-0.8750.371利用公式计算二级偏相关系数,如表3.1.7所示:4个要素的一级偏相关系数有12个,这里给出了9个;二级偏相关系数有6个,这里全部给出来了。表3.1.6一级偏相关系数
表3.1.7二级偏相关系数
利用公式计算一级偏向关系数,如表3.1.6所示27偏相关系数的性质
①偏相关系数分布的范围在-1到1之间;②偏相关系数的绝对值越大,表示其偏相关程度越大;③偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1·23≥|r12·3|。偏相关系数的性质
①偏相关系数28偏相关系数的显著性检验
偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为式中:为偏相关系数;n为样本数;m为自变量个数。
(3.1.14)
偏相关系数的显著性检验偏相关系数的显著性检验29
查t分布表,在自由度为23-3-1=19时,t0.001=3.883,显然,这表明在置信度水平=0.001上,偏相关系数r24·13是显著的。譬如,对于上例计算得到的偏相关系数
,由于n=23,m=3,故查t分布表,在自由度为23-3-1=19时,t030(二)复相关系数的计算与检验复相关系数:反映几个要素与某一个要素之间的复相关程度。复相关系数的计算当有两个自变量时当有三个自变量时(3.1.15)
(3.1.16)(二)复相关系数的计算与检验复相关系数:反映几个31当有k个自变量时(3.1.17)复相关系数的性质
①复相关系数介于0到1之间,即当有k个自变量时(3.1.17)复相关系数的性质32
②复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。
③复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验F检验法。其统计量计算公式为(3.1.18)(3.1.18)33例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。解:按照公式(3.1.16)计算检验:,故复相关达到了极显著水平。例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,34第2节回归分析一元线性回归模型多元线性回归模型非线性回归模型第2节回归分析一元线性回归模型35一、一元线性回归模型定义:假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为式中:a和b为待定参数;为各组观测数据的下标;为随机变量。(3.2.1)
一、一元线性回归模型定义:假设有两个地理要素(变36记和分别为参数a与b的拟合值,则一元线性回归模型为
(3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。(3.2.2)
记和分别为参数a与b的拟合值,则一元线性37①参数a与b的最小二乘拟合原则要求yi与的误差ei的平方和达到最小,即②根据取极值的必要条件,有
(3.2.4)
(一)参数a、b的最小二乘估计
(3.2.3)
①参数a与b的最小二乘拟合38(3.2.5)
(3.2.6)
③解上述正规方程组(3.2.4)式,得到参数a与b的拟合值(3.2.5)(3.2.6)③解上述正39(二)一元线性回归模型的显著性检验
①方法:F检验法。
②总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为
可以证明(3.2.9)(3.2.8)(二)一元线性回归模型的显著性检验(3.2.9)40在式(3.2.9)中,Q称为误差平方和,或剩余平方和而
称为回归平方和。在式(3.2.9)中,Q称为误差平方和,或剩余平方和41
③统计量F
④
F越大,模型的效果越佳。统计量F~F(1,n-2)。在显著水平α下,若F>Fα,则认为回归方程效果在此水平下显著。一般地,当F<F0.10(1,n-2)时,则认为方程效果不明显。(3.2.10)③统计量F(3.2.10)42二、多元线性回归模型回归模型的建立
①多元线性回归模型的结构形式为
(3.2.11)式中:为待定参数;为随机变量。二、多元线性回归模型回归模型的建立(3.2.11)式43②回归方程:如果分别为式(3.2.11)中的拟和值,则回归方程为
在(3.2.12)式中,b0为常数,b1,b2,…bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量每变化一个单位而使因变量平均改变的数值。(3.2.12)
②回归方程:(3.2.12)44③偏回归系数的推导过程:根据最小二乘法原理,的估计值应该使
由求极值的必要条件得
方程组(3.2.14)式经展开整理后得
(3.2.13)
(3.2.14)
③偏回归系数的推导过程:根据最小二乘法原理,45方程组(3.2.15)式称为正规方程组。
引入矩阵(3.2.15)
方程组(3.2.15)式称为正规方程组。(3.2.146计量地理学中的经典统计分析方法课件47计量地理学中的经典统计分析方法课件48则正规方程组(3.2.15)式可以进一步写成矩阵形式则正规方程组(3.2.15)式可以进一步写成49求解得引入记号(3.2.16)
求解得(3.2.16)50正规方程组也可以写成正规方程组也可以写成51回归模型的显著性检验
①回归平方和U与剩余平方和Q:②回归平方和③剩余平方和为④
F统计量为计算出来F之后,可以查F分布表对模型进行显著性检验。回归模型的显著性检验①回归平方和U与剩余平方和Q:52非线性关系线性化的几种情况对于指数曲线,令,可以将其转化为直线形式:,其中,;
对于对数曲线,令,,可以将其转化为直线形式:;对于幂函数曲线,令,,可以将其转化为直线形式:其中,;三、非线性回归模型
非线性关系线性化的几种情况三、非线性回归模型53对于双曲线,令,转化为直线形式:;对于S型曲线,可转化为直线形式:;对于幂乘积,只要令,就可以将其转化为线性形式其中,;对于双曲线,令54对于对数函数和只要令,就可以将其化为线性形式
例:表3.2.1给出了某地区林地景观斑块面积(area)与周长(perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型。对于对数函数和55
序号面积A周长P序号面积A周长P110447.370625.39242232844.3004282.043215974.730612.286434054.660289.307330976.770775.7124430833.840895.98049442.902530.202451823.355205.131510858.9201906.1034626270.300968.060621532.9101297.9624713573.9601045.07276891.680417.0584865590.0802250.43583695.195243.90749157270.4002407.54992260.180197.239502086.426266.54110334.33299.729513109.070261.8181111749.080558.921522038.617320.396122372.105199.667533432.137253.335138390.633592.893541600.391230.030146003.719459.467553867.586419.406表3.2.1某地区各个林地景观斑块面积(m2)与周长(m)
序号面积A周长P序号面积A周长P110447.370625615527620.2006545.291561946.184198.66116179686.2002960.4755777.30556.9021714196.460597.993587977.719715.7521822809.1801103.0705919271.8201011.1271971195.9401154.118608263.480680.710203064.242245.0496114697.1301234.11421469416.7008226.009624519.867326.317225738.953498.6566313157.6601172.916238359.465415.151646617.270609.801246205.016414.790654064.137437.3552560619.0201549.871665645.820432.3552614517.740791.943676993.355503.7842731020.1001700.965684304.281267.9512826447.1601246.977696336.383347.136297985.926918.312702651.414292.23515527620.2006545.291561946.57303638.766399.725712656.824298.47331585425.10011474.770721846.988179.8663235220.6401877.476731616.684172.8083310067.820497.394741730.563172.1433427422.5701934.5967511303.970881.0423543071.5501171.4137614019.790638.1763657585.9402275.389779277.172862.0883728254.1301322.7957813684.750712.78738497261.0009581.298791949.164228.4033924255.030994.906804846.016324.481401837.699229.40181521457.4007393.938411608.625225.84282564370.80012212.410303638.766399.725712656.824258解:(1)作变量替换,令:,,将表3.2.1中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如表3.2.2所示。
序号y=lnAx=LnP序号y=lnAx=LnP19.2541066.4383794212.358138.36218629.6787636.4172438.3076225.667487310.340996.6537824410.336376.79791849.1530196.273258457.5084335.3236559.2927427.5528164610.176196.87529469.9773387.168551479.5159096.95184178.838076.0332264811.091187.71887988.2147895.4967894911.965727.78636497.72325.284414507.6432085.585528105.8121354.602457518.0420795.567651119.371536.326008527.6200275.769558表3.2.2经对数变换后的数据解:(1)作变量替换,令:,,59127.7715335.296653538.1409385.534711139.0348716.385013547.3780035.438211148.7001346.130066558.2603866.0388391513.176138.786501567.5736265.2915971612.098977.993105574.3477554.041328179.5607486.393579588.9844086.5733341810.034927.005852599.8663996.9188211911.173197.051092609.0196016.523136208.0275565.501457619.5954087.1181092113.059259.015056628.4162385.787871228.6550326.211917639.4847597.067248239.031156.028643648.7974386.413133248.7331136.027773658.3099576.0807442511.012367.345927668.6386716.069247269.5831276.67449678.8527166.222147127.7715335.296653538342397.438951688.3673655.5908062810.18297.128478698.7540635.849717298.9854366.822537707.8828485.67756308.19945.990776717.8848875.6986783113.280099.347906727.5213115.1922133210.469397.537684737.3881325.152181339.2170996.209381747.4562025.1483263410.219127.567654759.3329096.7811053510.670627.065966769.5482256.4586143610.961037.729906779.1353126.7593583710.248997.187502789.5240376.5691823813.116879.167568797.5751565.4311123910.096386.902648808.4859125.782227407.516275.4354718113.164388.908416417.3831355.4198378213.243479.4102082710.342397.438951688.3673661
(2)
以x为横坐标、y为纵坐标,在平面直角坐标系中作出散点图。很明显,y与x呈线性关系。图3.2.2林地景观斑块面积(A)与周长(P)之间的双对数关系(2)以x为横坐标、y为纵坐标,在平面直角坐标系62(3)根据所得表中的数据,运用建立线性回归模型的方法,建立y与x之间的线性回归模型,得到
对应于(3.2.19)式,x与y的相关系数高达=0.9665。
(4)将(3.2.19)还原成双对数曲线,即
(3.2.19)(3.2.20)(3)根据所得表中的数据,运用建立线性回归模型的方63第3节时间序列分析时间序列分析的基本原理趋势拟合方法季节变动预测第3节时间序列分析时间序列分析的基本原理64一、时间序列分析的基本原理
(一)时间序列的组合成份
长期趋势(T)是指时间序列随时间的变化而逐渐增加或减少的长期变化的趋势。季节变动(S)是指时间序列在一年中或固定时间内,呈现出的固定规则的变动。循环变动(C)是指沿着趋势线如钟摆般地循环变动,又称景气循环变动(businesscyclemovement)。不规则变动(I)是指在时间序列中由于随机因素影响所引起的变动。
一、时间序列分析的基本原理(一)时间序列的组合成份65(二)时间序列的组合模型
加法模型假定时间序列是基于4种成份相加而成的。长期趋势并不影响季节变动。若以Y表示时间序列,则加法模型为Y=T+S+C+I乘法模型假定时间序列是基于4种成份相乘而成的。假定季节变动与循环变动为长期趋势的函数。该模型的方程式为(3.3.1)
(3.3.2)
(二)时间序列的组合模型(3.3.1)(3.3.2)66二、趋势拟合方法时间序列分析的平滑法主要有三类:移动平均法设某一时间序列为y1,y2,…,yt,则t+1时刻的预测值为式中:为t点的移动平均值;n称为移动时距。(一)平滑法(3.3.3)
二、趋势拟合方法时间序列分析的平滑法主67
滑动平均法其计算公式为
式中:为t点的滑动平均值;l为单侧平滑时距。若l=1,则(3.3.4)式称为三点滑动平均,其计算公式为
若l=2,则(3.3.4)式称为五点滑动平均,其计算公式为(3.3.4)
(3.3.5)
(3.3.6)
滑动平均法(3.3.4)(3.3.5)(3.368指数平滑法
①
一次指数平滑
α为平滑系数。一般时间序列较平稳,α取值可小一些,一般取α∈(0.05,0.3);若时间序列数据起伏波动比较大,则α应取较大的值,一般取α∈(0.7,0.95)。(3.3.7)
指数平滑法(3.3.7)69
②
高次指数平滑法二次指数平滑法的预测公式为
三次指数平滑法的预测公式为
(3.3.8)
(3.3.9)
②高次指数平滑法(3.3.8)(3.3.9)70三种最常用的趋势线直线型趋势线指数型趋势线
抛物线型趋势线
(二)趋势线法三种最常用的趋势线(二)趋势线法71自相关性判断
①时间序列的自相关,是指序列前后期数值之间的相关关系,对这种相关关系程度的测定便是自相关系数。
②测度:设y1,y2,…,yt,…,yn,共有n个观察值。把前后相邻两期的观察值一一成对,便有(n-1)对数据,即(y1,y2),(y2,y3),…,(yt,yt+1),…,(yn-1,yn)。(三)自回归模型自相关性判断(三)自回归模型72其一阶自相关系数r1为二阶自相关系数r2为其一阶自相关系数r1为二阶自相关系数r2为73k阶自相关系数为
k阶自相关系数为74自回归模型的建立
常见的线性自回归模型:①一阶线性自回归预测模型为②二阶线性自回归预测模型为③一般地,p阶线性自回归模型为在以上各式中,为待估计的参数值,它们可以通过最小二乘法估计获得。自回归模型的建立75基本步骤(1)对原时间序列求移动平均,以消除季节变动和不规则变动,保留长期趋势;(2)将原序列y除以其对应的趋势方程值(或平滑值),分离出季节变动(含不规则变动),即
三、季节性预测法季节系数=TSCI/趋势方程值(TC或平滑值)=SI基本步骤三、季节性预测法季节系数=TSCI/趋势方程值(T76
(3)将月度(或季度)的季节指标加总,以由计算误差导致的值去除理论加总值,得到一个校正系数,并以该校正系数乘以季节性指标从而获得调整后季节性指标。(4)求预测模型,若求下一年度的预测值,延长趋势线即可;若求各月(季)的预测值,需以趋势值乘以各月份(季度)的季节性指标。求季节变动预测的数学模型(以直线为例)为
式中:是t+k时的预测值;at、bt为方程系数;为季节性指标。(3)将月度(或季度)的季节指标加总,以由计算误77
例题:如表3.3.3所示,下面我们用上述步骤,预测该旅游景点2005年各季度的客流量。
表3.3.3某旅游景点2002—2004年各季度客流量例题:如表3.3.3所示,下面我们用上述步骤,预测该旅游78解题步骤:(1)求时间序列的三次滑动平均值,见表3.3.3第5列。(2)求季节性指标:将表3.3.3中第4列数据分别除以第5列各对应元素,得相应的季节系数。然后再把各季度的季节系数平均得到季节性指标,见表3.3.4。季节性指标之和理论上应等于4。现等于3.9515,需要进行校正。校正方法是:先求校正系数:θ=4/3.9515=1.0123。然后将表中的第5行,分别乘以θ,即得校正后的季节性指标(见表3.3.4第6行)。解题步骤:79表3.3.4季节性指标及其校正值
表3.3.4季节性指标及其校正值80(3)用二次指数平滑法,求预测模型系数:取平滑指数,分别计算一次指数平滑值和二次指数平滑值,然后再分别计算趋势预测模型的系数和,结果如表3.3.5所示。由表3.3.5可知,预测模型为式中:为校正后的季节性指标。
(3)用二次指数平滑法,求预测模型系数:取平滑指数81表3.3.5预测模型系数
表3.3.5预测模型系数82(4)求预测值。以2004年第4季度为基期,套用步骤(3)中所得预测模型,计算预测2005年各季度的客流量第1季度:=301.7746(104人次)第2季度:=400.27(104人次)第3季度:=371.07(104人次)第4季度:=283.17(104人次)由此可以计算出2005年全年度的客流量预测值为301.7746+400.27+371.07+283.17=1356.28(104人次)(4)求预测值。以2004年第4季度为基期,套用83第4节系统聚类分析聚类要素的数据处理距离的计算直接聚类法最短距离聚类法最远距离聚类法系统聚类法计算类之间距离的统一公式系统聚类分析实例第4节系统聚类分析84一、聚类要素的数据处理
在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。
一、聚类要素的数据处理在聚类分析中,聚类85假设有m个聚类的对象,每一个聚类对象都有n个要素构成。它们所对应的要素数据可用表3.4.1给出。
表3.4.1聚类对象与要素数据
假设有m个聚类的对象,每一个聚类对象都有n个要86在聚类分析中,常用的聚类要素的数据处理方法有如下几种:
①
总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即这种标准化方法所得到的新数据满足(3.4.1)在聚类分析中,常用的聚类要素的数据处理方法有如下几种87②
标准差标准化,即由这种标准化方法所得到的新数据,各要素的平均值为0,标准差为1,即有(3.4.2)
②标准差标准化,即(3.4.88
③极大值标准化,即经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。
④极差的标准化,即
经过这种标准化所得的新数据,各要素的极大值为1,极小值为0,其余的数值均在0与1之间。
(3.4.3)(3.4.4)③极大值标准化,即(3.4.89例题:表3.4.2给出了某地区9个农业区的7项指标,它们经过极差标准化处理后,如表3.4.3所示。表3.4.2某地区9个农业区的7项经济指标数据
区代号人均耕地X1/(hm2·人-1)劳均耕地X2/(hm2·个-1)水田比重X3/%复种指数x4/%粮食单产x5/(kg·hm-2)人均粮食x6/(kg·人-1
)稻谷占粮食比重x7/%G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17例题:表3.4.2给出了某地区9个农业区的7项指标,它们经过90表3.4.3极差标准化处理后的数据x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00表3.4.3极差标准化处理后的数据x1x2x3x4X5X91二、距离的计算
常见的距离有
①绝对值距离
②欧氏距离
③明科夫斯基距离(3.4.5)
(3.4.6)
(3.4.7)
二、距离的计算常见的距离有(3.4.5)(3.4.92
④切比雪夫距离。当明科夫斯基距时,有据表3.4.3中的数据,用公式(3.4.5)式计算可得9个农业区之间的绝对值距离矩阵如下(3.4.8)
(3.4.9)
④切比雪夫距离。当明科夫斯基距93三、直接聚类法
原理先把各个分类对象单独视为一类,然后根据距离最小的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类谱系图。三、直接聚类法原理94例题:根据距离矩阵式(3.4.9),用直接聚类法对某地区的9个农业区进行聚类分析,步骤如下:(1)在距离矩阵D中,除去对角线元素以外,d49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;(2)在余下的元素中,除对角线元素以外,d75=d57=0.83为最小者,故将第5区与第7区并为一类,划掉第7行和第7列;例题:根据距离矩阵式(3.4.9),用直接聚类法对某95(3)在第2步之后余下的元素之中,除对角线元素以外,d82=d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列;(4)在第3步之后余下的元素中,除对角线元素以外,d43=d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类;(3)在第2步之后余下的元素之中,除对96(5)在第4步之后余下的元素中,除对角线元素以外,d21=d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行和第2列,此时,第1、2、8区已归并为一类;
(6)在第5步之后余下的元素中,除对角线元素以外,d65=d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类;计量地理学中的经典统计分析方法课件97(7)在第6步之后余下的元素中,除对角线元素以外,d31=d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1、2、3、4、8、9区已归并为一类;
(8)在第7步之后余下的元素中,除去对角线元素以外,只有d51=d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1、2、3、4、5、6、7、8、9区均归并为一类。
根据上述步骤,可以作出聚类过程的谱系图3.4.1。(7)在第6步之后余下的元素中,除对98图3.4.1直接聚类谱系图
图3.4.1直接聚类谱系图99四、最短距离聚类法
原理最短距离聚类法,是在原来的m×m距离矩阵的非对角元素中找出,把分类对象Gp和Gq归并为一新类Gr,然后按计算公式
计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离矩阵;再从新的距离矩阵中选出最小者dij,把Gi和Gj归并成新类;再计算各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。(3.4.10)
四、最短距离聚类法原理(3.4.10)100
例题:以下根据式(3.4.9)中的距离矩阵,用最短距离聚类法对某地区的9个农业区进行聚类分析。计量地理学中的经典统计分析方法课件101(1)在9×9阶距离矩阵D中,非对角元素中最小者是d94=0.51,首先将第4区与第9区并为一类,记为G10={G4,G9}。按照公式(3.4.10)式分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离得
d1,10=min{d14,d19}=min{2.19,2.62}=2.19d2,10=min{d24,d29}=min{1.47,1.66}=1.47d3,10=min{d34,d39}=min{1.23,1.20}=1.20(1)在9×9阶距离矩阵D中,非对102d5,10=min{d54,d59}=min{4.77,4.84}=4.77d6,10=min{d64,d69}=min{2.99,3.06}=2.99d7,10=min{d74,d79}=min{4.06,3.32}=3.32d8,10=min{d84,d89}=min{1.29,1.40}=1.29(2)这样就得到G1,G2,G3,G5,G6,G7,G8,G10上的一个新的8×8阶距离矩阵
d5,10=min{d54,d59}=min{4.77,4103计量地理学中的经典统计分析方法课件104(3)在上一步骤中所得到的8×8阶距离矩阵中,非对角元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11={G5,G7}。
按照公式(3.4.10)式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,可得到一个新的7×7阶距离矩阵(3)在上一步骤中所得到的8×8阶距105(4)在第2步所得到的7×7阶距离矩阵中,非对角元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。再按照公式(3.4.10)分别计算G1,G3,G6,G10,G11与G12之间的距离,可得到一个新的6×6阶距离矩阵(4)在第2步所得到的7×7阶距离矩106(5)在第3步所得的6×6阶距离矩阵中,非对角元素中最小者为d6,11=1.07,故将G6与G11归并为一类,记为G13,即G13={G6,G11}={G6,(G5,G7)}。再按照公式(3.4.10)计算G1,G3,G10,G12与G13之间的距离,可得到一个新的5×5阶距离矩阵
(5)在第3步所得的6×6阶距离矩阵中107
(6)在第4步所得的5×5阶距离矩阵中,非对角线元素中最小者为d3,10=1.20,故将G3与G10归并为一类,记为G14,即G14={G3,G10}={G3,(G4,G9)}。再按照公式(3.4.10)计算G1,G12,G13与G14之间的距离,可得一个新的4×4阶距离矩阵
(6)在第4步所得的5×5阶距离矩阵中,非对角线元108(7)在第5步所得到的4×4阶距离矩阵中,非对角线元素中最小者为d12,14=1.29,故将G12与G14归并为一类,记为G15,即G15={G12,G14}={(G2,G8),(G3,(G4,G9))}。再按照公式(3.4.10)计算G1,G13与G15之间的距离,可得一个新的3×3阶距离矩阵
(7)在第5步所得到的4×4阶距离矩阵中,非对角109(8)在第6步所得的3×3阶距离矩阵中,非对角线元素中最小者为d1,15=1.32,故将G1与G15归并为一类,记为G16,即G16={G1,G15}={(G1,(G2,G8),(G3,(G4,G9))}。再按照公式(3.4.10)计算G13与G16之间的距离,可得一个新的2×2阶距离矩阵(8)在第6步所得的3×3阶距离矩110(9)将G13与G16归并为一类。此时,所有分类对象均被归并为一类。综合上述聚类过程,可以作出最短距离聚类谱系图(图3.4.2)。
(9)将G13与G16归并为一类。111图3.4.2最短距离聚类谱系图图3.4.2最短距离聚类谱系图112五、最远距离聚类法
最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离时采用的公式不同。最远距离聚类法的计算公式是(3.4.11)
五、最远距离聚类法最远距离聚类法与最短距113例题:对于前面的例子,最远距离聚类法的聚类过程如下:(1)在9×9阶距离矩阵中,非对角元素中最小者是d94=0.51,将第4区与第9区并为一类,记为G10,即G10={G4,G9}。按照公式(3.4.11)分别计算G1,G2,G3,G5,G6,G7,G8与G10之间的距离,得到一个新的8×8阶距离矩阵例题:对于前面的例子,最远距离聚类法的聚类过程如下:114计量地理学中的经典统计分析方法课件115(2)在第1步所得到的8×8阶距离矩阵中,非对角线元素中最小者为d57=0.83,故将G5与G7归并为一类,记为G11,即G11={G5,G7}。按照公式(3.4.11)式分别计算G1,G2,G3,G6,G8,G10与G11之间的距离,得到一个新的7×7阶距离矩阵如下(2)在第1步所得到的8×8阶距离116(3)在第2步所得到的7×7阶距离矩阵中,非对角线元素中最小者为d28=0.88,故将G2与G8归并为一类,记为G12,即G12={G2,G8}。再按照公式(3.4.11)分别计算G1,G3,G6,G10,G11与G12之间的距离,得到一个新的6×6阶距离矩阵如下(3)在第2步所得到的7×7阶距离117(4)在第3步所得的6×6阶距离矩阵中,非对角元素中最小者为d3,10=1.23,故将G3与G10归并为一类,记为G13,即G13={G3,G10}={G3,(G4,G9)}。再按照公式(3.4.11)计算G1,G6,G11,G12与G13之间的距离,得到一个新的5×5阶距离矩阵如下(4)在第3步所得的6×6阶距离矩阵118(5)在第4步所得的5×5阶距离矩阵中,非对角线元素中最小者为d1,12=1.52,故将G1与G12归并为一类,记为G14,即G14={G1,G12}={G1,(G2,G8)}。再按照公式(3.4.11)分别计算G6,G11,G13与G14之间的距离,得到一个新的4×4阶距离矩阵如下(5)在第4步所得的5×5阶距离矩阵119(6)在第5步所得的4×4阶距离矩阵中,非对角线元素中最小者为d6,11=1.78,故将G6与G11归并为一类,记为G15,即G15={G6,G11}={G6,(G5,G7)}。再按照公式(3.4.11)分别计算G13,G14和G15之间的距离,得到一个新的3×3阶距离矩阵如下(6)在第5步所得的4×4阶距离矩阵120(7)在第6步所得的3×3阶距离矩阵中,非对角线元素中最小者为d13,14=3.10,故将G13与G14归并为一类,记为G16,即G16={G13,G14}={(G3,(G4,G9)),(G1,(G2,G8))}。再按照公式(3.4.11)计算G15与G16之间的距离,可得一个新的2×2阶距离矩阵如下(7)在第6步所得的3×3阶距离矩121(8)将G15与G16归并为一类。此时,各个分类对象均已归并为一类。综合上述聚类过程,可以作出最远距离聚类谱系图(图3.4.3)。
图3.4.3最远距离聚类谱系图G1G2G8G3G4G9G5G7G6(8)将G15与G16归并为一类。此时,各个分类122六、计算类之间距离的统一公式最短距离和最远距离可以用一个公式表示
用图3.4.4表示二者关系:(3.4.12)
最短距离最远距离图3.4.4两种不同的空间距离a1Ab1b2Ba2六、计算类之间距离的统一公式最短距离和最远距离(3.4.12123当α、β、γ三个参数取不同的值时,就形成了不同的聚类方法(表3.4.4),在表3.4.4中,np是p类中单元的个数,nq是q类中单元的个数,nr=np+nq;β一般取负值。
表3.4.48种系统聚类方法的距离参数值
系统聚类其他方法的公式(3.4.13)
当α、β、γ三个参数取不同的值时,就形成了不同的124方法名称参数D矩阵要求空间性质apaq
βγ最短距离1/21/20-1/2各种D压缩最远距离1/21/201/2各种D扩张中线法1/21/2-1/4≤β≤00欧氏距离保持重心法0欧氏距离保持组平均法
00各种D保持距离平方和法0欧氏距离压缩可变数平均法<10各种D不定可变法
<1
0各种D扩张方法参数D矩阵要求空间性质apaqβγ最短1/21/2125七、实例分析
表3.4.5给出了某农业生态经济系统各个区域单元的有关数据,下面我们运用系统聚类法,对该农业生态经济系统进行聚类分析,步骤如下:(1)用标准差标准化方法,对9项指标的原始数据进行处理;(2)采用欧氏距离测度21个区域单元之间的距离;(3)选用组平均法,计算类间的距离,依据不同的聚类标准(距离),对各样本(各区域单元)进行聚类,并作出聚类谱系图。七、实例分析表3.4.5给出了某农业生态经济系126表3.4.5某农业生态经济系统各区域单元的有关数据
表3.4.5某农业生态经济系统各区域单元的有关数据127计量地理学中的经典统计分析方法课件128图3.4.5某农业生态经济系统区域单元的系统聚类(组平均法)谱系图图3.4.5某农业生态经济系统区域单元的系统聚类(组平均129从聚类分析谱系图(图3.4.5)可以看出,在不同的聚类标准(距离)下,聚类结果不同,当距离标准逐渐放大时,21个区域单元被依次聚类。当距离为0时,每个样本为单独的一类;当距离为5,则21个区域单元被聚为16类;当距离为10,则21个区域单元被聚为9类;当距离为15,则21个区域单元被聚为5类;当距离为20,则21个区域单元被聚为3类;最终,当聚类标准(距离)扩大到25时,21个区域单元被聚为1类。从聚类分析谱系图(图3.4.5)可以130第5节主成分分析
主成分分析的基本原理主成分分析的计算步骤主成分分析方法应用实例第5节主成分分析主成分分析的基本原理131地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?
问题的提出:地理系统是多要素的复杂系统。在地理学研究中,多变量问132事实上,这种想法是可以实现的,主成分分析方法就是综合处理这种问题的一种强有力的工具。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。
事实上,这种想法是可以实现的,主成分分析方法就是综合133一、主成分分析的基本原理
假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵(3.5.1)
一、主成分分析的基本原理假定有n个地理样本,每134当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。当p较大时,在p维空间中考察问题比较麻烦。为了克135定义:记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新变量指标(3.5.2)
系数lij的确定原则:①
zi与zj(i≠j;i,j=1,2,…,m)相互无关;定义:记x1,x2,…,xP为原变量指标,z136②
z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;…;zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。
则新变量指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年执业药师中药学综合知识与技能试题汇编(含解析)
- 2025年国企招聘人力资源规划岗考试专业卷(含岗位定编计算)押题卷
- 广西武鸣县高级中学11-12学年高一上学期期考试题(英语)
- 2025年心理咨询师基础培训心理诊断与咨询模拟试卷(心理评估与心理咨询实践)
- 护理人文修养美学
- 2025年全媒体运营师高级模拟试卷(全媒体内容策划)-内容创新与品牌传播
- 肺癌的护理操作
- 高中地理选修四城乡规划案例分析2025年试卷:城市规划与环境保护试题
- 2025年公路水运工程试验检测师公共基础模拟试卷(法规标准与试验管理)-考试热点与难点解析
- 车市科技和银行合作协议
- 隧道工程隧道洞口临建施工方案
- 心理咨询的面谈技术
- DBJ∕T13-374-2021 福建省钢筋桁架叠合楼板技术标准
- 事故池管理的有关规定
- (word完整版)污水处理厂安全评价报告
- DB50∕T 867.6-2019 安全生产技术规范 第6部分:黑色金属冶炼企业
- 新产品开发流程课件
- 高中语文部编版选择性必修下册第四单元 单元学习导航 课件 (8张PPT)
- 化妆品原料-PPT课件
- 重庆市参加企业职工基本养老保险人员退休审批表
- 混凝土结构课程设计244
评论
0/150
提交评论