




免费预览已结束,剩余82页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章相关分析和回归分析,2020/6/8,2,相关分析和回归分析,第一节地理要素间的相关分析第二节地理要素间的回归分析,3,2020/6/8,一相关分析的概念二地理要素的相关类型三相关程度的程度方法及显著性检验,第一节地理要素间的相关分析,4,2020/6/8,一相关分析的概念,就是测度各个变量之间的关系密切程度的数学方法。,相关分析仅限于测定两个或两个以上变量具有相关关系者,其主要目的在于计算出表示两个或两个以上变量间相关程度和性质。,2020/6/8,5,图地理事物的空间分布类型,所谓地理相关,就是运用相关分析法来研究各地理要素间的相互关系和联系强度的一种度量指标。,2020/6/8,6,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,2020/6/8,7,正相关负相关完全正相关完全负相关零相关,2020/6/8,8,二地理要素间的相关类型,2020/6/8,9,三相关程度的测度方法及显著性检验,由于地理相关类型各不相同,因此测度的方法也不同。,(一)线性相关程度的测度,所谓相关程度,就是研究它们之间的相互关系是否密切。,所谓相关方向,又可以分两种,即正相关和负相关。,用来测度直线相关程度和方向的指标就是相关系数。,2020/6/8,10,1、常用的相关系数的计算公式及检验,(1)相关系数的性质,相关系数的分布范围,介于-1和+1之间,当相关系数为正值时,表示两个要素(或变数)之间呈正相关,相关系数为负值时,表示两个要素(或变数)之间为负相关;,相关系数的绝对值越大。表示两个要素间相关程度越密切。,当r=+1时,为完全正相关。R=-1时,为完全负相关;r=0则完全无关。,2020/6/8,11,相关系数公式简化:记公式可简化为,2020/6/8,12,相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。,(2)相关系数的显著性检验,为什么?,一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来完成的。,2020/6/8,13,检验相关系数=0的临界值(ra)表prra=,f值称为自由度,其数值为f=n-2,这里n为样本数,a代表不同的显著性水平,表内的数值代表不同的置信水平下相关系数=0的临界值,即ra,公式p=rra=a的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值ra时,两要素不相关(即=0)的可能性只有a。,2020/6/8,14,相关系数r的具体检验方法步骤如下:(1)计算相关系数r(2)给定显著水平,按n-2查相关系数临界值,查出相应的临界值(3)比较r的绝对值与临界值的大小。当r的绝对值大于或等于临界值时,说明两变量在水平上达到显著性;若小于临界值,则说明两变量没有达到所要求的精度。如果仍需研究二者的关系,可考虑降低精度,即修改显著性水平、,相关系数的显著性检验步骤,2020/6/8,15,2、等级相关系数的计算公式及检验,表示两个变量顺序间直线相关程度和方向的系数,称为等级(或顺序)相关系数。等级相关系数不仅适用于数量指标的相关分析,同时亦适用于质量指标的相关分析。,等级相关系数,又称顺序相关系数是将两要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。,2020/6/8,16,(1)等级相关系数的计算公式,2020/6/8,17,(2)等级相关系数的计算及检验,1985年全国各省(市,区)总人口与社会总产值,2020/6/8,18,2020/6/8,19,即:总人口(x)与社会总产值(y)的等级相关系数为0.726,2020/6/8,20,等级相关系数检验的临界值,2020/6/8,21,在上例中,n=29,表中没有给出相应的样本数下的临界值ra,但我们发现,在同一显著水平下,随着样本数的增大,临界值ra减少。在n=28时,查表可知:r0.05=0.317,r0.01=0.448,由于rxy=0.726r0.01=0.448,故rxy在a=0.01的置信水平上是显著的。,等级相关系数检验结果,2020/6/8,22,(二)简单非线性相关程度的测度(见课本),(三)多要素间相关程度的测定,1.偏相关系数的计算与检验,在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。,2020/6/8,23,当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2、r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有6个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。,2020/6/8,24,一般,当研究m个相关变量x1、x2、xm的相关时,只有将其中的m-2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有,个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,m,ij)。,2020/6/8,25,偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2,x3,其两两间单相关系数矩阵为,2020/6/8,26,对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三个,即r123,r132,r231(下标点后面的数字,代表在计算偏相关系数时,保持不变量,如r123即表示x3保持不变),其计算公式分别如下:,式(5)(7)表示三个偏相关系数,称为一级偏相关系数。,2020/6/8,27,若有四个要素X1,X2,X3,X4,则有六个偏相关系数,即r1234,r1324,r1423,r2314,r2412,r3412,它们称为二级偏相关系数,其计算公式分别如下:,在式(8)中,r1234表示在x3和x4保持不变的条件,x1和x2的偏相关系数。,2020/6/8,28,实例:对于某四个地理要素X1,X2,X3,X4的23个样本数据,经过计算得到了如下的单相关系数矩阵:,2020/6/8,29,为了计算二级偏相关系数,需要先计算一级偏相关系数,由(5)式可求得,同理,依次可以计算出其它各一级偏相关系数,见下表,2020/6/8,30,在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如由(8)式计算可得,同理,依次可计算出其它各二级偏相关系数,见下表,2020/6/8,31,偏相关系数具有下述性质:(1)偏相关系数分布的范围在-1到1之间;(2)偏相关系数的绝对值越大,表示其偏相关程度越大;(3)偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R123|r123|。,2020/6/8,32,偏相关系数的显著性检验偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为,在(15)式中,r1234m为偏相关系数,n为样本数,m为自变量个数。,2020/6/8,33,对于前述计算得到的偏相关系数r2413=0.821,由于n=23,m=3,故,查t分布表,可得出不同显著水平上的临界值ta,若tta,则表示偏相关显著;反之,tta,则偏相关不显著。在自由度为23-3-1=19时,查表得t0.001=3.883,所以tta,这表明在显著性水平a=0.001上,偏相关系数r2413是显著的。,2020/6/8,34,山东省1990-2006年GDP和人口情况,2020/6/8,35,1.计算简单相关系数,2020/6/8,36,-PARTIALCORRELATIONCOEFFICIENTS-Controllingfor.时间GDP人口GDP1.0000-.0690人口-.06901.0000,2.计算偏相关系数,如果令时间T不变,计算人口与GDP的偏相关系数为=-0.0690,且t=-0.2590.8=。由此可以看出,如果去掉时间的因素,人口与GDP之间的偏相关系数很小,即如果固定时间不变,人口与GDP之间的关系是微弱的,且经检验人口与GDP之间没有什么内在的必然的线性联系。人口越多未必GDP越高,这是比较合乎实际的。,2020/6/8,37,2.复相关系数的计算与检验,复相关系数:反映几个要素与某一个要素之间的复相关程度。复相关系数的计算当有两个自变量时当有三个自变量时,2020/6/8,38,当有k个自变量时,复相关系数的性质复相关系数介于0到1之间,即,2020/6/8,39,复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。复相关系数必大于或至少等于单相关系数的绝对值。复相关系数的显著性检验F检验法。其统计量计算公式为,2020/6/8,40,例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。,解:按照公式计算检验:,故复相关达到了极显著水平。,2020/6/8,41,一回归分析的意义及其作用二一元回归模型的建立三多元回归模型四非线性回归模型,第二节地理要素间的相关分析,2020/6/8,42,一回归分析的意义及其作用,(一)回归分析的概念,就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系的数理统计方法。这个数学模式称为回归模型(回归方程),2020/6/8,43,(三)回归分析与相关分析的区别与联系,相关分析所研究的变量是对等关系;回归分析所研究的两个变量不是对等关系。对两个变量来说,相关分析只能计算出一个相关系数,而回归分析,可分别建立两个不同的回归方程。相关分析要求两个变量都必须是随机的,而回归分析的要求,自变量是给定的,因变量是随机的。,2020/6/8,44,(三)回归分析研究的主要内容,从一组地理数据出发,确定这些要素(变量)间的定量数学表达式,即回归模型。,根据一个或几个要素(自变量)的值来预测或控制另一个要素(因变量)的取值。,从影响某一地理过程中的许多要素中,找出哪些要素(变量)是主要的,哪些因素是次要的,这些要素之间又有什么联系。,回归分析研究的地理数学模型,依要素(变量)的多少可分为一元地理回归模型和多元地理回归模型。,2020/6/8,45,二一元回归模型的建立,一元地理回归所处理的问题,是要解决两个要素(变量)之间的定量关系。有的是线性关系,有的是非线性关系。因此判断研究的变量之间的线性与非线性归属问题是非常重要的。,2020/6/8,46,(一)一元回归模型类型的判断方法,作图法、差分法、曲度法和计算器法等。,2020/6/8,47,(二)一元线性地理回归模型的建立,定义:假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为,式中:a和b为待定参数;为各组观测数据的下标;为随机变量。,2020/6/8,48,记和分别为参数a与b的拟合值,则一元线性回归模型为上式代表x与y之间相关关系的拟合直线,称为回归直线;是y的估计值,亦称回归值。,2020/6/8,49,参数a与b的最小二乘拟合原则要求yi与的误差ei的平方和达到最小,即,1、参数a、b的最小二乘估计,根据取极值的必要条件,有,2020/6/8,50,解上述正规方程组式,得到参数a与b的拟合值,2020/6/8,51,以课本的例子为例(手算),2、具体计算方法,(1)将原始数据根据需要列表,(2)根据公式计算b,(3)计算a,(4)写出回归模型,(5)一般情况下还要求出相关系数,2020/6/8,52,用Excel建立回归模型及其进行预测,(1)确定变量,建立数据库,(2)作图,选择散点图,(3)图完成后,点击图表,然后点击添加趋势线,选择线性方程;然后点击选项,在选项栏中点中显示公式和相关系数的平方。,2020/6/8,53,(4)对图进行修饰,(5)利用建立的回归方程,可以对原始数据进行递推,检验误差;同时可以对未来的趋势进行预测。,用Excel建立回归模型及其进行预测,2020/6/8,54,江苏省19851994年耕地面积,利用所给数据:(1)建立江苏省耕地面积与时间的回归模型(2)计算耕地面积与时间的相关系数(3)并预测2010年江苏耕地面积,2020/6/8,55,将2010带入上述方程中,可以求得2010年江苏省耕地面积,2020/6/8,56,方法:F检验法。总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为可以证明,3、一元线性回归模型的显著性检验,2020/6/8,57,在上式中,Q称为误差平方和,或剩余平方和而称为回归平方和。,2020/6/8,58,统计量FF越大,模型的效果越佳。统计量FF(1,n-2)。在显著水平下,若FF,则认为回归方程效果在此水平下显著。一般地,当FF0.10(1,n-2)时,则认为方程效果不明显。,2020/6/8,59,2020/6/8,60,4、利用回归模型进行预测,对所建立的回归模型经过检验效果显著时,便可以利用回归模型进行地理预测。,所谓地理预测就是利用建立的回归模型,在给出一定信度条件下,求出在的水平上预测y值的出现范围(或预测区间)。,具体例子见课本。,2020/6/8,61,例:某地人口随着时间的推移而呈线性增加,利用所给数据写出a、b的计算公式写出回归模型,并计算相关系数和进行F检验并分别预测该地2010年和2020年的人口数,2020/6/8,62,三、多元线性回归模型,回归模型的建立多元线性回归模型的结构形式为,式中:为待定参数;为随机变量。,2020/6/8,63,回归方程:如果分别为上式中的拟和值,则回归方程为在上式中,b0为常数,b1,b2,bk称为偏回归系数。偏回归系数的意义是,当其他自变量都固定时,自变量每变化一个单位而使因变量平均改变的数值。,2020/6/8,64,偏回归系数的推导过程:根据最小二乘法原理,的估计值应该使由求极值的必要条件得方程组式经展开整理后得,2020/6/8,65,方程组式称为正规方程组。引入矩阵,2020/6/8,66,2020/6/8,67,2020/6/8,68,则正规方程组式可以进一步写成矩阵形式,2020/6/8,69,求解得引入记号,2020/6/8,70,正规方程组也可以写成,2020/6/8,71,回归模型的显著性检验,回归平方和U与剩余平方和Q:回归平方和剩余平方和为F统计量为计算出来F之后,可以查F分布表对模型进行显著性检验。,2020/6/8,72,四非线性回归模型的建立,在许多实际地理问题中,有时变量之间的关系并不是线性的,而是某种非线性,这时就需要选配适当类型的曲线,近似地表达两要素之间的平均变化关系。,2020/6/8,73,非线性关系线性化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商务合同审批管理模板及流程工具
- 专家聘用合同书
- 2025-2030仿生结构智能窗体抗冲击性能优化与安全标准制定
- 2025-2030二手车交易市场行业供需分析及竞争格局评估分析报告
- 2025-2030中国高端服务式公寓市场需求与发展战略分析
- 2025-2030中国青年租赁住房产业发展预测与竞争战略研究
- 2025-2030中国青年公寓行业资本运作与并购策略报告
- 2025-2030中国青年公寓行业标准化建设与服务质量提升研究
- 2025-2030中国青年公寓行业市场饱和度与增长潜力研究报告
- 2025-2030中国青年公寓行业信用体系建设与租赁金融创新
- 煤炭分选工艺中的安全操作标准
- 教科版科学五年级上册《光》单元教材解读培训PPT
- 超早期脑梗死的CT影像表现及诊断课件
- 拉西地平原料制药课程设计说明书
- 小学体育-小学二年级《单双脚跳》教学设计学情分析教材分析课后反思
- ××领导班子及成员分析研判报告
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
- Frenchay构音障碍评定
- 教育学原理课后答案主编项贤明
- 建筑装饰施工技术-轻质隔墙工程施工课件(-)
- 语言领域核心经验《学前儿童语言学习与发展核心经验》
评论
0/150
提交评论