




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE34PAGE城市规划系统工程学城市规划与系统工程学系统工程学概论空间分布的测度城市系统要素间的相关分析和回归分析城市系统结构分析系统的评价、优选方法科学决策和层次分析法人口预测动态模型城市空间引力模型
第一章城市规划和系统工程学(一课时)1.1对城市规划学科的反思一门学科的科学性表现在许多方面,包括成熟的理论可以指导实践(包括研究和应用),完善的方法可以验证理论假设,以及最终在实践中对理论和方法的实证。为提高城市规划的科学性而作出的努力,早在学科创建期就已开始。首先是规划理论问题。由于城市规划是一门应用学科,重在实际应用,因而被一些理论性较强的学科视作“缺乏专业理论”。时至今日,城市规划还是被一些著名社会学家认为“理论缺乏”(Johnlogan在2001年3月在UIC的讲学)。其次是方法问题。大量的定性方法在规划中的应用,使苛刻的批评者认为规划更多是一种描绘性(descriptive)的学科,而不是分析性(analytical)的学科。而描绘性的学科被认为是不完全合格的科学,起码不是真正成熟的科学。因为真正的科学必须有过硬的定量分析方法作基础。其实,一些今日看来“历史悠久”的“正宗科学”如社会学,也曾有过一个发展过程。在1920年代的芝加哥学派之前,社会学所作的更多是“社会调查”,纪录、描绘社会现象,而不是进行“社会研究”,去分析、探索社会现象后面的深层原因。1960年代后兴起的计量革命,使一切学科都转向定量分析。曾任哈佛和麻省理工学院联合城市研究中心主任的罗德温(L.Rodwin,1999年去世)在其最后一本著作《作为一门职业的城市规划》一书中,对1950年至2000年西方五门人文学科:经济学、政治学、哲学、文学和城市规划学的演变作了回顾(Rodwin,Sanyal,2000)。他认为学科演变中最大的共同之处是定量分析方法的应用。五门学科中,经济学获得的评价最高,因为定量分析方法在经济学中应用最广、最好,计量经济学已成为经济学的主流。城市规划则面临着学科“青春期”的种种问题,如仍在为自己的职业特点(identity)定位。对定量方法的应用,仍在探索之中。中国城市高速发展的新形势,以及政府和社会各界对城市规划工作的更高要求,使规划师迫切希望提高规划工作的科学性和可信度,以期用更高质量的规划成果来维护城市规划的严肃性、权威性,向政府和社会证明城市规划作为一门学科及一项专业存在的价值及其重要性。近年来,中国规划界已开始重视规划的科学性问题。在规划中引入实证研究就是提高规划科学性的努力。自从库恩(T.Kuhn)和波普(K.Popper)等提出科学哲学中的“证伪主义”以后,对科学命题的“证伪”或“同真”就成为检验学科自身科学性高下的标志。在城市规划中,通过实证的方法来检验规划假设,是一大进步,反映了对规划研究中流传颇广的反思、随感、思辨、我见等仅从主观感觉出发,漫无边际地空发议论的作法的不满。但在以“实证检验”为名的研究中,对实证研究的方法论的研究却仍然有限。就国内已发表的研究报告看,有用民意调查的结果来验证命题的正确性(唐子来,1999),有以观察到的实例来支持自己的论点(赵燕青,2001),但少见用定量方法、以数学模型来验证假设的实例。在科学飞速发展的今天,任何一门学科要想取得长足的进步,必须不断对自己进行反思,以发现不足,并及时弥补。城市规划学科本身有如下不足:1.1.1古老而不成熟早在春秋战国时期(距今约2300年前),«周礼.考工记»记述了关于周代王城建设的制度,“匠人营国,方九里,旁三门。国中九经九纬,经涂九轨。左祖右社,面朝后市。”但是,具有两千多年历史的城市规划学科,对于复杂的城市规划问题,至今基本上还停留在定性分析的阶段,尚未实现从定性向定量、感性向理性的飞跃;研究所需的资料、数据不全,且缺乏对资料、数据深加工、分析的技术和手段;面对复杂的城市系统,缺乏科学的决策方法。1.1.2年轻而不有力有特定的研究对象和范围,系统的现代城市规划学形成于十九世纪末、二十世纪初,以英国霍华德的«田园城市»问世为标志。但此时的城市规划学侧重于城市形体规划,社会、经济等宏观规划很少;侧重于建筑学和工程技术学,人文科学涉及很少。在研究城市发展建设的规律,制订城市发展的战略方针,具体技术政策等等上非常薄弱,对于复杂的城市系统难以驾御。2引入系统工程学发展城市规划学科系统工程学理论的基本点是要求人们对研究对象作完整的、系统的、全面的考察、分析。系统工程学的方法论是要求人们既定量又定性地研究分析对象,并提出优化的政策、方案、措施。由此可见,系统工程学的理论和技术以及电子计算机技术为剖析城市深层结构提供了锐利的解剖刀和透视机,同时它又为构造城市规划模型,以便进行科学的实验提供了理想的“实验室”。系统工程学方法(定量分析和数学模型)在城市规划中的应用已有数十年的历史。可分为如下四个阶段:(1)1950年代,萌芽阶段:以统计学上的回归模型和方差分析等用在规划预测中,此为先例。(2)1960年代,发展阶段:随着计量革命和定量分析流入各个学科领域,规划师对数学模型的热情出现第一个高潮。例如,以物理学的引力原理为基础建立交通量的引力模型。(3)1970——1980年代,是令定量分析和数学模型支持者失望的年代,其在规划中的应用处于停滞阶段。由定量分析和数学模型得出的结论,在预测城市实际发展状况时十分不准确。例如,1960年代曾预测美国大城市人口会增长,但1970年代看到的却是中心城人口减少。于是,原先就对定量方法有怀疑的学者认为,企图以精确的数学计量来预测本身就非精确,因而难以预测人类的行为。但支持这个方法的规划师认为,问题出在三个方面。第一,缺乏优秀的理论,无法把现实中无数多个复杂的因子简化,所以无法建立一个能涵盖种种因素,又不会庞大到无法处理的模型。第二,缺乏足够的数据。虽然发现了某些因子的重要性,但无法找到具体数据。没有数据,也就无所谓定量分析。第三,缺乏有效的计算技术。计算机仍在起步阶段,价格昂贵,但容量有限且速度缓慢,无法进行大型数据处理。而城市问题却必然涉及大型数据处理。(4)1990年代至今,飞速发展阶段:90年代,计算机进入了各行各业,IT革命开始。定量分析成了规划研究不可或缺的部分,由此迎来了对数学模型热情的第二次高潮。产生这种热情的原因包括:第一,计算机技术的飞速进步,实用、便于操作而功能强大的软件日新月异,而硬件设备却越来越快速而廉价。SAS和GIS都可以在PC机的平台上操作。第二,数据的可获得性提高了。在美国,向公众提供中央和地方政府的大量数据是由国家“公共信息法”所规定的。凡使用纳税人交的税款而收集的数据,除国家机密外,一般都应免费公布。研究者可在因特网上获得如人口统计等各种数据,大大便利了定量分析工作。最后,大众,包括广大规划人员的教育程度提高了,对用定量方法、数学模型解释、预测城市发展问题的兴趣上升,理解加深了。也许最重要的一点是,规划师对数学模型的期望更加合理了。数学模型不再被过高地期望能完全正确地预测城市发展的一切问题,而主要是为了理解城市发展的各种因素及其作用的机制――什么因素会产生什么影响而不是真正去精确计量“影响到何种程度”。建立模型,是为了使城市发展的决策更有迹可循,更加透明,更有逻辑性,以求摆脱盲目的决策或黑箱作业的状况。同时,建立模型也是为了促进规划师和政府及公众的沟通交流。以数字来说明问题,以数学分析或地图来解释规划意图,往往比一般文字或口头说明更具说服力,其结论在决策者和公众看来,也更具科学性。以数学模型进行实证研究有多种类型,较常见的有两类:方案检验和政策检验。方案检验是为了回答“如果出现这种情况或采用这个方案,那么结果会是什么?”这样的问题,简称“What……if……”模型。例如在交通规划中应用的EMME/2模型是为了预测交通量的发生和分布。近年来,在用地规划中更多是使用以GIS为平台的数学模型,最后成果表现为不同的用地方案。在用地形态和土地开发程序上去应答“如果出现某种情况,则规划上可作调整”这样很有实际意义的问题。当前美国规划界使用的“CURBA”,“LUCAS”及“SAM-IM”等模型,基本属于这个类型。在作政策检验时,统计模型、投入-产出模型、成本-利润分析则是常用的方法。参考文献:《城市规划》2001年第9期第57页。系统工程学概论(一课时)系统工程学是一门横向组织的新兴的边缘学科。2.1系统的定义和属性2.1.1系统的定义系统是由若干相互作用和相互依赖的组成部分结合而成,具有特定功能的有机整体。构成系统的三个必要条件:1、两个以上的要素;2、不同的要素之间必然存在相互作用和相互依赖;3、具有特定功能。2.1.2系统的分类1、按自然属性:分自然系统(天体系统、地球系统);人造系统(经济系统、军事指挥系统);复合系统(农业系统)2、按物质属性:分实体系统、概念系统;3、按运动属性:分静态系统、动态系统;4、按反馈属性:分开环系统、闭环系统;5、按系统规模与复杂程度:分大系统、小系统。系统工程学研究的对象为人造大系统,一般为动态的闭环的控制系统,可以是实体系统或概念系统。2.1.3系统的属性1、集合性2、相关性3、目的性:区别系统的主要标志4、环境适应性2.2系统思想和系统工程学2.2.1系统思想系统思想就是强调整体,整体观念是系统工程学的精髓。2.2.2系统工程学的形成古代:“只见森林,不见树木”——15世纪下半叶:“只见树木,不见森林”——19世纪:迫切需要系统工程学——20世纪30年代:运筹学产生,为系统优解提供了定量化方法和理论——20世纪40年代:计算计诞生,提供了强有力的运算工具和信息处理手段——20世纪50年代:系统工程学诞生。2.2.3系统工程学的定义 举例:钱学森1978年 美国切斯纳1967年 日本三浦武雄 总结:广义定义:系统工程学是为了合理进行系统的研制、设计、运行等工作所采取的思想程序,组织方法等的技术。狭义定义:是对系统的分析、综合、模拟优化等的工程技术。3系统工程学理论基础和方法论理论基础:运筹学和控制论方法体系:运用各种数学方法、计算机技术、模拟仿真技术和控制理论来实现系统的模型化和最优化,进行系统的分析和系统的设计。1系统工程学研究问题的基本思路系统工程学的基本思路是把一个研究对象作为一个整体,根据系统的整体目的,将其包括的众多要素按其关系疏密程度,逐级分解为较低一级的子系统,甚至直到最简单的一对相互联系的要素,研究他们之间的关系,建立模型,、实验和计算,求得它们之间的数量关系,进行定量分析。然后再根据系统的总目标逐级向上进行联结(协调)和综合,形成最终优化的系统。2.3.2系统工程学研究问题的步骤1、摆明问题2、目标选择3、系统设计4、系统分析5、系统的评价和优选6、决策7、实施空间分布的测度3.1空间分布的类型城市组成要素的分布有四种基本类型:1、点状分布这是一种常见的分布类型,表示要素的每一项都是标在地图上的离散的点子。它们虽然有一定的面积,但在研究其系统分布时,将它简化为一个点。例如,城市商业网点分布;郊区居民点的分布;工业企业的分布。(图点状分布)2、线状分布这类要素的每一项都以直线、曲线或不规则线表示在图上。它们虽然有一定的宽度,但在研究其系统分布时,将它简化为一条线。例如,道路网、给排水系统、输电线路、输油输气管。3、离散的区域分布 它和点状分布相同,只是在分析时其面积大小不容忽视而成为一种区域分布。例如,城市中的工业区、居住区。4、连续的区域分布连续的区域分布是空间上连续的点状分布,往往可以画出等值线图来表达其分布规律和特征,比如人口分布(人口密度等值线)、地形(等高线)、空气污染分布。3.2点状分布的测度3.2.1中心位置的测度1、中项中心(Themediuncenter)它是两条相互垂直的直线的交叉点,这两条直线一般取南北向和东西向,每条直线把点状分布的点子二等分(图3-1)。2、平均中心(Themeancenter)又称分布重心,其确定方法如下:(1)任意在分布图上作轴和轴,通常这种数轴画在分布点的西侧和南侧;(2)确定每一点的轴和轴坐标;(3)计算坐标、坐标的平均值、,这,就是平均中心的坐标(、)。假定有点的坐标(、),平均中心的位置由下式确定:=,=如图3-1中10个点的平均中心。通常中项中心与平均中心的位置是不一致的,但比较接近。中项中心易于确定,但精度较差,常用在精确度要求不高的轮廓性分析中。平均中心可以精确计算,用于计算机的信息处理。3.2.2离散程度或集中程度的测度1、对中项中心的离散程度的测度在1/2中项中心基础上,分别在左右、上下四个半片上作四个1/4的中项中心四条线,形成四个小矩形(图3-2),每个小矩形和大矩形的面积之比反映了它们对1/2中项中心的离散程度。==1,2,3,4 给出了量的测度,表达不同方向的离散程度:若=1/4,为均分布;=0,为最大集中;=1,为最大离散。将城市商业网点的离散程度和人口分布的离散程度相对照,可以很精确的揭示商业网点分布的合理程度。2、就任意指定中心的离散程度的测度从任意选择的中心(交通中心、市中心)出发去衡量离散程度,应用起来比较灵活。具体方法是按点状分布现象与选择中心之间的距离(如1/4,1/2,1,1,2公里)进行分组(图3-3),统计频数和频率,画出频率累积曲线(图3-4)。为不使作图范围过大,一般作圆范围能包括80%左右的点就可。按面积比和半径值为坐标作出来的曲线叫均匀曲线。累计曲线偏离均匀曲线越远说明分布越不均匀。这种方法对于考察城市公用设施、工业等的分布状况十分有效。3、各点之间的离散程度的测度邻点距离平均值是以随机分布的各点到其最近的邻点的平均距离来表示。其计算公式:=N为点数;A为研究区的面积在随机分布的情况下,每点的距离内平均有一个邻点,即每点的平均邻点数(在距离内)为1,均匀分布和凝集分布的每点平均邻点数分别小于1和大于1。例:假定在城市中心的两公里以外没有饮食店,在两公里内共有饮食店21个(图3-5),计算其和M。解:(1)计算:A=π*=12.5(平方公里)=(公里)如地图的比例尺是1.295厘米为1公里,则0.386公里换算为0.5(厘米)。(2)以每一点为圆心,0.5厘米为半径作圆,数出每个圆内的点数及其出现的频数,列于下表:邻点数(n)0123…89频数(f)6400…38(3)计算圆内平均邻点数M:圆内平均邻点数M为离散程度的测度,M越大,分布越集中;M越小,越趋于平均。在随机分布的情况下,圆内平均邻点数为1,均匀分布和集中分布的圆内平均邻点数分别小于1和大于1。3.3线状分布—网络的测度绕曲指数(TheDetourIndex)(DI)是指AB两点间实际最短的线路长度和AB两点间的直线距离的比值,一般以%表示,反映线路弯曲的程度。DI=(AB间实际最短线路长度/AB间直线距离)*100%当网络初定之后,采用抽样的方法,选择网络上的若干结点或顶点,逐一计算其绕曲指数,然后计算其平均绕曲指数(DI)。如某网络中抽取A、B、C、D诸点分别求得各点间的绕曲指数(表3-1)。3.4界线网络(Boundarynetworks)的测度城市中许多要素的分布具有一定的区域界线,且形状不规则,可用紧凑度指数(CompactionIndex)(CI)精确测定其形状。CI=量标的区域面积/区域的最小外接圆面积CI越小区域形状越不紧凑,CI→0则趋于一条线,即最不紧凑。圆形区域是最紧凑的形状,其CI=1。不同历史时期同一建成区的紧凑度的变化规律是(图3-6),当它是小村庄时较紧凑,以后随村镇的发展经历比较分散到更紧凑的过程,这一过程与城镇的规模存在相关关系。因此,研究若干个城市发展的历史过程,则能揭示城镇布局形态和发展规模、阶段之间的规律。3.5区域分布的测度3.5.1位商(LocationQuotient)以各区职工数为例LQ=(A区某类职工数/A区总职工数)/(O区某类职工数/O区总职工数)3.5.2罗伦兹曲线(TheLorenzCurve)和集中化指数(IndexofConcentration)1、罗伦兹曲线罗伦兹曲线是一种频率累积曲线,是美国经济统计学家罗伦兹20世纪20年代发表的关于工业集中化的统计方法,它其实是对各个离散的区域内某些要素分布的集中程度进行测度,求得量的表述,以便进行比较分析。下面以某城市为例作罗伦兹曲线,步骤如下:(1)某城市各区(j)各类(i)职工数(当然也可用产值,各类城市用地等数值,根据研究的对象目的而定)占全市该类职工总人数的百分比(Wij)以及各区(j)职工总人数占全市职工总人数的百分比(Pj)列表如下:(表3-2)(2)为了使曲线逐渐平缓(即和原点距离越大,斜率越小)在计算累积频率之前,以特殊方法先换算求得R值。求R值必须各类分开各自计算列表,如纺织业,i=1,如纺织业1区(3)根据R值的大小将原分区的秩序按各类分别重新排序(R值越大排在越前面)。然后再进行累积频率的计算,得新表(表3-3)。(4)分别按各行业的职工累积比重值为y轴的值,以相对应的总职工累积比重为x轴的值确定坐标位置并连成曲线,得罗伦兹曲线。其对角线反映均匀分布时的累积频率线。曲线与对角线偏离的程度反映该要素其区域分布的集中程度,偏离越大则越集中。(图3-7)2、集中化指数将横轴x按10%分为10档:(i=1,2,…10)分别引垂线和曲线相交点为,再从各点引水平线和纵轴分别相交于点。C==796.5=10+20+…+100=550集中化指数纺织业集中化指数I=(796.5―550)/450=0.48Imin=0表示最小的集中化程度。Imax=1表示最大的集中化程度(图3-8)。用集中化指数可以和其他行业职工分布情况进行比较,也可以与其他城市同项目指数进行比较,说明它们在空间区域分布集中化程度上的差异。如果以不同历史时期的情况作比较,就可以说明区域分布集中化程度在时间上的变化规律。注意:区划越细,区域个数越多,所求得的集中化指数越大,相反亦然。因为区域个数越少区域范围越大,人口分布则逐步趋于均匀。所以在应用此指数时必须注意在区划等级上要基本一致,才有可比性。另外,还可以从罗伦兹曲线中演化出一个折线:以某一区作基准区,以基准区各类职工累积比重作横轴坐标值,而以另一区对应的职工累积比重作纵轴坐标值,求得坐标点,作出折线。(图3-9)各段折线代表相应的行业职工,折线的斜率称之为位率(locationcoefficient)。(1)位率值越大表示该区的该项职工越集中。比如基准区a项职工比重为6.5%,则位率为1,斜率为45。。若斜率>45。则某区该项职工较基准区为集中。同样若斜率<45。,则某区该项职工较基准区为分散。(2)折线段在y轴上投影的长度则表示该类职工在本区内各类职工中的重要程度。本章介绍了空间测度的一些基本方法,这些都是比较简单的统计量,有助于定量分析和进一步的统计分析。城市系统要素间的相关分析与回归分析城市系统是一个极其复杂的系统。有人统计说明,缝纫机和收音机的零部件数为102,电视机为103,汽车和螺旋桨飞机为104,喷气式飞机为105,宇宙火箭为106,宇宙飞船为107,城市系统为108等等。城市系统各要素之间存在着相互联系,相互影响和相互制约,为了定量的研究它们之间的数量关系,常常用相关分析法和回归分析法来确定它们之间的关系和性质,并概括成数学模型,进而对城市系统作出预测。4.1城市系统要素间的相关分析4.1.1相关定义1、相关:是指两个或两个以上变数间相互关系是否密切。在研究此种关系时,并不专指哪一个是自变量,哪一个是因变量,而视实际需要来确定。2、相关分析的限定范围:相关分析仅限于测定两个或两个以上变数具有相关关系者。3、目的:计算出表示两个或两个以上变数间的相关程度和性质。在城市系统中大多数要素间是具有相关关系的,因此,相关分析在城市规划中得到了广泛应用。4.1.2系统各要素间相互关系分类(设X、Y为两种要素)1、函数关系或完全相关:若y严格的随着x的变化而变化,称函数关系,如图,所有观测点均落在直线或曲线上。2、统计相关:两个要素之间具有相关关系,观测点均落在直线或曲线两旁。如图,要素间既存在较密切的关系,但又不能由一个(或几个)要素(或变量)的值精确地求出另一个要素(变量)的值。3、不相关:两个要素间相互独立,没有依存关系,所有观测点在图中分布状态散乱,无规律可寻(图4-20)。4.1.3相关程度的度量方法由于相关基本类型的不同,因而度量相关程度的指标也各异。1、简单直线相关程度的度量相关系数(r)相关系数是用来度量直线相关程度和方向的指标。相关系数计算公式:r===其中==相关系数性质:a、相关系数的分布范围介于-1≤r≤+1之间;b、当相关系数为正值时,表示两个要素(或变数)之间为正相关;相关系数为负值时,表示两个要素(或变数)之间为负相关;c、相关系数的绝对值∣r∣越大,表示两个要素相关程度越密切。具体情况如下:当r=+1时,为完全正相关;r=-1时,为完全负相关;r=0时,完全无关。在实际工作中,r总处于0~+1或-1~0之间,见(图4-20)。例1:求全国城市化水平与年份的相关系数,数据如下表:年份(年)(t)19831984198519861987198819891990199119921993城市化水平(%)(y)20.4722.0223.3823.8924.6625.5126.0826.4126.7527.7928.9解:(1)列相关系数计算表:样本号码1198320.472198422.023198523.384198623.895198724.666198825.517198926.088199026.419199126.7510199227.7911199328.9Σ(2)代入公式计算:r=其中==则r=0.9842、相关矩阵(R)
(1)定义:把两个变量间的相关推广扩大为若干对变量间相关,并把它们的相关系数按矩阵方式列出,称之为相关矩阵。相关矩阵必为正方矩阵,它对角线上各元素、相关系数均为1(因是自相关),且主对角线上下三角形部分完全对称。相关矩阵能帮助人们定量地判明各有关要素之间关系的密切程度。例如,在分析居住小区居住密度时,通常可以有户/公顷(ha),居住面积密度,居住建筑面积密度,居住建筑密度,每人用地面积,人口净密度等指标来衡量。*自相关系数不参与平均。同时用以上指标来衡量,非常繁琐,工作量也大,可以根据各个指标之间存在着的一定相互关系,一个指标可以大体地代表另一个指标来加以取舍,选择最具有代表性的指标。调查统计十余个居住小区,取得上述指标,求两两之间的相关系数,列相关系数矩阵如上:从表中得知:户/ha与其他指标间的相关最为密切,具代表性,但因家庭规模是不太稳定的值,故以第二密切的人口净密度指标作为居住密度指标(居住小区居住密度)4.1.4相关系数的显著性检验为了判定计算出来的相关系数是否有意义,通常要进一步对相关系数作显著性检验。为实用方便,前人已制定了相关系数检验表(见附表二)其中n表示所使用资料的个数,α为信度,α越小,信度越高。如例1:r=0.984,查附表二,当n-2=9,α=5%时,其临界相关系数rα=0.602;α=1%时,rα=0.735,可见|0.984|>0.602,且|0.984|>0.735,表明两者的线性相关程度已达到极显著水平,两者高度相关。r越大,并不表示相关程度就一定好,不能忽略样本的大小。假如:n-2=5,α=5%时,其临界相关系数rα=0.754,而求得的r=0.7,则此相关系数没有意义,相关程度不显著;示例2:n-2=100,α=5%时,其临界相关系数rα=0.195,而求得的r=0.7,则此例相关程度极显著。当相关系数经过显著性检验后,可以对要素间的数量关系进一步作回归分析。4.2两要素的回归分析与预测步骤:定性分析两要素之间关系,或通过试验,抽样调查,计算相关系数,证明他们之间存在(较)密切的相关关系。通过试验或抽样调查进行统计分析,运用一元回归分析方法,构造两要素间的数学函数式或数学模型,利用模型或函数式进行试验、预测等。回归分析即对相关关系进行函数处理。回归分析与相关分析的联系与区别:联系:两者都是研究和处理变量之间相互关系的一种数理统计方法。两者不能截然分开,从相关可以获得回归的一些重要信息,反之,从回归也能获得相关的一些重要信息。区别:后者主要是研究要素(变量)之间联系的密切程度,没有严格的自变量与因变量之分;前者主要是研究要素(变量)之间联系的数学表达式,有自变量与因变量之分,从而可由自变量的取值来预测,延长或插补和控制因变量的取值,有预测的性质。4.2.1一元(正态)线性回归模型(一)一元(正态)线性回归分析的基本思路假设两个要素(变量)和,自变量,因变量。假定一元线性模型结构为yα=B0+B1xα+εα式中,B0、B1为待定参数,α=1,2,…,n为n组观测数据,(x1,y1),(x2,y2),…(xn,yn),εα为随机变量。参数B0、B1为未知数,需根据yα、xα观测值采用最小二乘法来估计。设b0、b1分别为参数B0、B1的最小二乘估计值,于是得一元线性回归模型为=b0+b1上式代表和之间关系的最佳拟合直线,称为回归直线。b0、b1称回归系数(图5-2)。b1:(1)b1值的大小反映变化率的大小;(2)b1值反映方向。是的估计值,回归值与实际观测值之差,称为残差。通常总希望残差(剩余)平方和Q剩余最小,即通常所说的最小二乘法。Q剩余求得(5-1)其中=(5-2)=例2:为检查某城市商业网点配置是否合理,调查了10个居住小区,其居民户数和基层粮店数量()见下表,求两者回归方程。NO(%)1800164000018001.13-13.02120021440000424001.86+7.03160022560000432002.59-90.54160032560000948002.59+13.75180033240000954002.59+1.66200034000000960003.32-10.772000440000001680003.32+17.082400457600001696004.05-1.3926004676000016104004.41-10.31028005784000025140004.78+4.4∑18800313880000010964600平均值18803.1解:(1)作散点图(图5-4),求相关系数r:==6320==3456000r=n-2=8,取信度α=5%时,查表得其临界相关系数rα=0.632,可见|0.947|>0.632,表明两者的线性相关程度已达到极显著水平,两者高度相关,可作回归分析。(2)计算b1、b0(3)将上表中的数据和b1值代入(5-1)式中,得b0。(4)得一元线性回归模型如下:作业:用例1的数据求年份(t)和城市化水平()两者的回归方程。答案:F0.05(1,9)=5.12,F>Fα,说明方程显著。(二)回归模型效果检验(1)回归模型估计的误差由线性回归模型估计的值往往与实测值不完全一致。由于用线性回归模型由值估计值所产生的误差,称为回归方程估计的误差=(-)。剩余标准差(或标准估计误差)SS=是检验回归效果的极其重要的标志,同时也是衡量预测精度的指标。S越小越好,在实际问题中,只要S≤允许的偏差就可以。回归模型的显著性检验要知道回归方程是否有意义,需对回归方程作显著性检验。n次观测值y1,y2,y3,…yn之间的差异,可用观测值yi与其算术平均值的离差平方和来表示,称为的总的离差平方和,记作Q总=∑(-)2=对总离差平方和进行分解(图5-6)Q总=∑(-)2=Q剩余+Q回归当样本n给定后,Q总是一个定值,于是Q剩余越大则Q回归越小。Q剩余越大说明剩余偏差越大,可能有某些因素的影响没有考虑进来,方程拟合得越差;相反,Q剩余越小,说明方程拟合得越好。此外,每个平方和都有一个自由度与其相联系。总平方和的自由度f总等于回归平方和的自由度f回与剩余平方和的自由度f剩之和,即f总=f回+f剩f总=n-1,n为样本数,1为因变量个数;f回对应于自变量的个数,f回=1,所以f剩=n-2。构造统计量F,F=回归效果的好坏取决于Q回归与Q剩余的大小,或者说取决于Q回归在Q总中所占的比例的大小,该比值越大,即F越大,回归效果越显著;反之,亦反。这种把平方和和自由度同时进行分解,并用F检验法对整个回归方程进行显著性检验的方法,称方差分析。对回归方程的F检验可列成方差分析表进行:方差来源平方和自由度均方F检验回归Q回=1Q回/1F=剩余Q剩n-2Q剩/n-2总偏差Q总=n-1若F≥Fα(1,n-2),则回归方程显著;F<Fα(1,n-2),则回归方程不显著。说明:(1)影响y的除x外,还有其他不可忽视的因素;(2)x、y非线性相关;(3)x、y无关。例2:(5)预测精度估计:S=(6)作F检验:方差来源平方和自由度均方F检验回归Q回111.55/1F=剩余Q剩81.35/8总偏差Q总=9定α=0.05,f回=1,f剩=8,查F分布表(附表4)F0.05(1,8)=5.32,F>Fα,说明方程显著。(三)求一元线性回归方程的步骤试验调查,搜集样本值xi,yi(i=1,2,…,n);作散点图,直观判断是否线性相关(图5-3);非线性相关先作线性处理;列一元回归计算表:∑xi,∑yi,∑xi2,∑yi2,∑xiyi;求回归系数b0,b1;确定显著水平,作相关系数检验;运用回归方程拟合、验证和预测;回归方程显著性检验。4.2.2一元非线性回归模型非线性回归关系、常见曲线及线性化处理1、幂函数:(图5-7)令则2、指数函数:(图5-8)令则3、双曲线函数:(图5-9)令则4、负指数函数:(图5-10)令则5、对数函数:(图5-11)令则6、S曲线:(图5-12)令则7、生长曲线:(图5-13)令则其中,k为y的极限值。非线性回归模型的建立例3:某市人口密度(万人/平方公里),与市中心距离(公里)抽样调查值如下:(表5-4)解:(1)作散点图(图5-14):样本3数值突然增大,在城市地理学上无法解释,可判断其为错误样本加以剔除。根据散点图,初步选定模型为指数函数。(2)线性化处理:令则列一元非线性回归计算表(表5-5),求得:NO102.88541.0596601.1228902.9340.002361.59913222.14930.7651440.585441.530282.1450.000020.27938351.39100.33002250.108921.65011.34020.002590.05278470.9737-0.02665490.00071-0.186550.97060.000030.41866590.7043-0.35055810.12289-3.154950.7160.000140.83986Σ238.10371.777621591.94085-0.161120.005133.19004==159-105.8=53.2==-8.33817(4)得一元线性回归模型如下:=(5)求得,代入模型得方程:(6)检验:在非线性回归问题中,为表明所配曲线与实际观测数据间拟合的密切性,用相关指数R2对其进行检验。R2值越大(越靠近1)说明所配的曲线剩余离差小,曲线拟合越密切。S=课后作业:国内外专家研究表明,人均国内生产总值与城市化水平之间存在对数曲线相关,表中是我国1983年至1993年人均国内生产总值与城市化水平的资料,根据资料求二者的对数曲线模型并作R2检验。年份人均GDP(元/人)城市化水平(%)198319841985198619871988198919901991199219931165131714661566171118741927197321042362264820.4722.0223.3823.8924.6625.5126.0826.4126.7527.7928.90解:人口预测动态模型5.1人口基本概念介绍5.1.1人口自然变动1、定义:是指出生或死亡相互作用下的人口数量的自然增减变化过程。人口自然变动是人口变动的一个方面,它和人口机械变动(人口迁移)综合作用,构成某一国家或特定地区人口总的变动过程。2、影响人口自然变动的因素(1)人口出生率:是指某一地区一年内的出生人数同该地区平均总人数的比率。出生率(‰)=当人口死亡率趋于稳定时,出生率则成为人口自然变动的主要因素,控制人口增长的主要途径则是控制人口出生率水平。出生率取决于与妇女生育密切相关的各种因素:a:人口性别和年龄构成;b:经济因素;c:文化因素d:人口政策因素e:其它:婚姻、宗教、风俗习惯等。城市人口生育率是影响城市人口自然增长的重要因素。育龄妇女人数多,生育率则高,育龄妇女人数少,则生育率就低。因此,历史上生育的高峰和低谷将通过育龄妇女多寡反映到下一代生育率的波动上。近几年,虽然计划生育工作在许多城镇颇有成绩,一胎率有的已近达95%,然而生育率仍在回升,就是因为解放初期生育高峰期出生的人口纷纷进入育龄阶段。再过若干年则是50年代末,60年代初的生育低潮,紧接又是60年代中后期的生育高潮。育龄妇女育龄期的区间各地稍有不同,一般大城市偏高,小城镇偏低。图8-3为某县城育龄妇女生育率曲线,育龄妇女年龄区间为20岁到40岁,育龄高峰在25~26岁之间。出生的女婴略多于男婴,这是正常规律。(2)人口死亡率:是指某地区一年内的死亡人数与年内平均人口数之比。死亡率(‰)=影响人口死亡率的因素有:a:人体生命活动规律b:医疗卫生水平c:社会经济因素等。人口死亡率的一般规律:出生婴儿和幼儿死亡率较高,随年龄增长,死亡率逐渐下降,最低点在10至20岁之间,再随年龄增长又回升。一般女性死亡率较男性略低(图8-2)。死亡率在不同城市,由于不同的自然环境、生活水平、保健医疗等条件有所不同。但各城市的死亡率基本稳定,如某县1957年和1974年死亡率曲线几乎重叠,国外也是如此,如美国20年间死亡率基本不变。5.1.2人口机械变动(人口迁移)1、定义:人口迁移是指人们变更住所(或称定居地)的空间流动行为。2、人口迁移类型(1)根据人口迁移空间范围的不同:国际迁移、国内迁移;(2)根据移民在迁入区定居时间的长短:永久性迁移、定期迁移、季节性迁移、暂时性迁移;(3)根据人口迁移有无组织与计划性:分为有组织移民、自发移民;(4)根据迁移人口的数量:集团迁移、个人迁移。3、影响人口迁移的因素(1)自然生态环境;(2)经济因素;(3)社会文化因素;(4)其他(宗教活动等)。一个城镇迁移人口越多,必将更为严重地影响城市人口的年龄结构,或加快老年化或加重年轻化,随着开放政策实行,这将更为突出。此外,由于机械增长变化很大,根据对一些城镇人口分析表明,它和时间等因素均不存在显著的相关关系,因此建议以逐年机械增长率(年机械增长人口数和当年总人口数之比值)的平均值,作为今后预测的依据。各城镇年迁移总人数一般公安部门能提供必要的资料,应用起来并不困难。5.1.3人口构成定义:人口构成是指一定地区、一定时点的人口系统内部各因素的结构及其比例关系。2、人口构成分类(1)人口自然构成(2)人口经济构成(3)人口社会构成(4)人口质量构成(5)人口地域构成人口构成体系图3、人口性别构成:是指在一个国家或地区的总人口中,男性人口和女性人口各自所占的比重。可用两种方法表示:(1)性别比:以女子人口为100,计算男性人数对女性人数的百分比。性别比=(2)性比重:分别计算男性人口和女性人口在人口总数中的百分比,用公式表示如下性比重=4、人口年龄构成定义:是指一个国家(或地区),在某一时间各个年龄组人口在其总人口中所占的比重。通常用各个年龄组人口在总人口中所占的百分比表示。(2)目前通用的划分年龄层次的四种方法a:基本年龄组:即一岁年龄组;b:常见年龄组:即按5岁或10岁为组距将人口进行分组;c:主要年龄组:国际通用的划分法,0—14岁为幼年组,15—64岁为成年组,65岁以上为老年组。d:特殊年龄组:即从需要出发,根据人口的各种社会经济特征把人口划分为若干年龄层次。美国学者划分的七个年龄组:0—4岁为学龄前;5—19岁为就学期;20—34岁为青年期;35—64岁为壮年期;65—74岁为中年期;75—84岁为高年期;85岁以上为老年期。(3)人口年龄构成类型划分目前,世界上一般把人口年龄构成类型划分为年轻型、成年型、老年型。其主要划分指标普遍采用联合国人口学家建议采用的老年人口系数、少年人口系数、老少比和年龄中位数等(见下表)。人口年龄构成决定着未来人口的发展趋势。一般说来,年轻人口型地区的未来育龄人群大,出生率高,死亡率低,人口增长速度快;相反,老年人口型地区的未来育龄人群小,出生率则较低,死亡率则较高,未来人口增长速度缓慢。人口年龄构成类型表人口年龄构成类型老年人口系数(%)少年人口系数(%)老少比(%)年龄中位数(岁)年轻人口型5以下40以上15以下20以下成年人口型5—1030—4015—3020—30老年人口型10以上30以下30以上30以上(4)人口金字塔为了更加形象、直观地反映人口年龄构成现状,并能更好地预测未来人口的发展趋势,可采用一种特殊的图表法——人口年龄金字塔。人口年龄金字塔的横向坐标表示各年龄组的男性和女性人口的人数或比例,纵坐标表示各年龄组。人口金字塔和人口年龄构成一样,基本上可被直观的划分为三种与人口年龄构成类型相对应的人口金字塔形状(图图8-5):山型:与年轻型年龄构成相对应,人口出生率高,年轻人占总人口的比重大,其塔形呈上尖下宽的“山”字型。属于此类年龄构成的国家或地区目前面临着:青年人的抚养、教育、就业和住宅等严重问题,未来人口增长速度快。钟型:是成年型人口年龄构成的形象表现,各年龄组人数差别不大,只是在高龄人口部分才有比较急剧的减少,故塔形类似“钟”型。瓮坛型:是老年型人口年龄构成的形象表现。由于人口出生数量不断减少,年轻人越来越少,中年以上人口所占比重较大,塔形下窄上宽,类似于瓮坛。目前此类年龄构成面临着老年人的照顾、赡养、医疗等问题,年轻人负担重。未来老年人口比重不断增长,人口增长速度缓慢,乃至停滞。自本世纪60年代以来,全世界人口年龄构成已转变为成年型。5.2人口规模预测5.2.1回归分析法年份与人口规模的一元线性回归模型工农业总产值与人口规模的一元线性回归模型参考《县域规划理论与实践》 为年份或工农业总产值; 为人口规模。5.2.2增长率推算法本方法根据未来人口自然增长率、人口机械增长率的控制数值,预测人口规模。预测公式为:参考《县域规划理论与实践》以及《济南市人口发展预测》。5.2.3百岁图法(人口分组生存模型法)本方法根据已掌握的年龄构成及妇女的生育情况,并且考虑机械增长情况预测未来人口规模。例题见《县域规划理论与实践》。5.3城市化水平预测(参考《经济全球化与中国城市发展》)5.3.1时间序列模型城市化水平()与时间()呈直线上升趋势,对其作一元线性回归模型。5.3.2“S”型曲线模型世界各国城市化发展所经历的轨迹显示,城市化发展速度与现有城市化水平和尚未城市化水平的乘积成正比,即城市化的发展是由拉力和推力共同作用而成,呈“S”型曲线。对城市化水平()和时间(年份)()作“S”型曲线模拟:5.3.3相关分析(对数)模型国内外大量研究证实,城市化水平与经济发展水平密切相关,人均国内生产总值(GDP)()与城市化水平()之间存在对数曲线相关:城市空间引力模型6.1城市空间引力模式6.1.1模式公式城市空间引力模式是各种相互作用模式中最简单的一个。该模式认为:两个城市间的相互作用与这两个城市的人口规模(表示城市的质量)成正比,与它们之间的距离成反比。Iij=(WiPi)(WjPj)/DijbIij:i、j两城市间的相互作用量;Wi,Wj:经验确定的权数;Pi,Pj:i、j两城市的人口规模;Dij::i、j两城市间的距离;b:测量距离摩擦作用的指数。6.1.2变量确定引力模式的特点是简单明了,但要应用于实际却比较复杂。难度较大的问题是式中的变量如何确定的问题。引力模式中确定城市质量一般用人口规模,有时也用其它指标。如艾萨德(W.Isard)就认为,在探讨大城市的移民问题时,城市的就业机会和收入水平在反映城市的吸引力方面更具代表性。又如,考虑市场问题时,城市的零售总额比人口规模更多地反映出城市对产品的需求量。更好的方法是,选取若干个相互独立又能反映城市实力的指标,采用数学统计的方法构造出一个指数,用这个指数来表示城市的质量。引力模式的距离,一般用km来表示。但随着各种现代化运输工具的发展,传统的距离概念正受到挑战。在交通便捷的地方,空间上的距离被“缩短”了,因此也可以用时间、运输成本等特殊距离来衡量两地间的距离。引力模式中的质量加权问题更为复杂。在一些应用中,人口的加权取值1,这等于没有加权。如果选用别的适当的数值能更好地改善这个模式的性能。质量加权的基本原理,是要显示人口规模不能反映出的人口结构上产差异,因此,人口性别、年龄、收入、职业、受教育水平等因素都可以作为“权数”来考虑。但是,要加权,就将使引力模式变得复杂,计算困难。而不加权,公式的适用范围和客观性都受到局限。距离指数b的选择。理论上认为,b应等于1.0或2.0(即取平方),但经验研究显示,b值可以在0.5-3.0的幅度内变化,其原因在于不同货物的可运输性不同,从而影响了距离指数的值。6.2单约模型(TheSingleConstrainedModel)6.2.1模型公式Tij=AiOiDjf(Cij)(6-1)Tij:起始区i和到达区j之间所发生的关系量;Oi:来自起始区i的活动发生量;Dj:j到达区的吸引指数;Cij:i起始区与j到达区之间的交通消耗,可用距离、交通时间、费用度量;f(Cij):交通消耗的某种函数;Ai:平衡因子,Ai=[∑jDjf(Cij)](-1)在模型中Oi的发生量为固定值,即Oi=∑jTij。它是一个分配引力模型。单约模型是因为来自Oi区的发生量固定的,只是这些发生量分配到各D区的量是自由的,模型就是要确定各D区的到达量。平衡因子Ai,就是确保Oi发生量分配到各区的比重总和等于1。6.2.2应用可用该模型研究城市的商业零售出行问题,Oi就是i区的人口数,Tij就是从i区到j商业中心的商业出行量,模型的结果就是给出j商业中心的顾客量,将这顾客量乘以每人平均零售消费额,或根据不同出行距离采用不同的每人平均零售消费额,就可得知j商业中心的营业额。Dj是到达j区所提供的设施水平引力指数,在商业零售问题研究中,它可以用Dj区的营业面积来代表。虽然商业吸引力还应考虑不同商业中心的经营水平,环境质量,提供停车条件等因素,这些对引力指数都有影响,不过由于这些因素的测度比较复杂,所以一般仍以营业面积作为引力指数的度量。出行消耗Cij通常用距离,出行时间或费用来代表。交通消耗函数有许多种,如负幂函数1/Cijr或Cij-r,和负指数函数1/exp(λCij)或exp(-λCij)即1/eλCij。如果区间交通消耗Cij用距离来代表时间即dij,从图9-2中可以看出它们之间的差别。负幂函数当出行距离增加时曲线下降得很快,而负指数函数曲线则下降得较为和缓。在西方机动交通发达的城市因可达范围大,采用负指数函数较好。我国采用负幂函数较好。还可用于研究游乐的出行分布等。6.2.3适用范围凡到达区的到达量没有固定约束量的情况。6.3居住分布模型6.3.1模型公式各区的就业岗位数为Ei,将此就业人员分配到各个居住区Hj,Tij=AiEiHjf(Cij)(6-4)式中:Tij:从工作区i到居住区j的职工数; Ei:各工作区的就业岗位数; Hj:各居住区的吸引指数,考虑各区的住宅质量和数量;Ai:平衡因子;Ai=[∑jHjf(Cij)]-1Cij、f(Cij)同于(6-1)式Hj可用住宅量来表示。根据模型可求得在各居住区居住的就业人口:Hj=∑iTij,再除以带眷系数,得到各居住区的总人口数Pj。6.3.2实例:P126-129步骤:实际调查该区上班出行情况,Tij,Hj,出行时间矩阵dij,求平均出行时间;取λ值,1/平均交通时间≤λ≤2/平均交通时间求平衡因子Ai;根据(6-4)式,以及Ai求上班出行矩阵Tij’;对照Tij’与Tij,作误差表;若要增大区间相互作用,则需降低λ值,对模型校验;选择最佳λ,求出行矩阵以及误差表;据此计算各区人口数,并与实际各区人口数比较;改变数据,利用模型。6.4双约交通模型6.4.1模型两条件:各区活动的发生量固定,∑jTij=Oi;各吸引区的到达量固定,∑iTij=Dj为互相作用模型,出行分配矩阵Tij=AiBjOif(Cij)(6-5)其中:Ai=[∑jBjDjf(Cij)]-1(6-6) Bj=[∑iAiOif(Cij)]-1(6-7) Oi:各工作区的就业岗位数 Dj:各居住区的吸引指数Ai:确保起始区i的活动发生量OiBj:确保吸引区j的到达量等于Dj6.4.2步骤实际调查基础出行矩阵Tij,出行时间矩阵dij,求平均出行时间;取λ值,λ=1.5/平均出行时间;设Bj=1.0,代入Bj值于6-6式,求Ai,将计算出的Ai值代(6-7)式,求得第二轮Bj值。新的Bj值再回代(6-6)式…,如此反复迭代,直到Ai,Bj反复迭代的前后两次变化很小为止,确定Ai,Bj值;将Ai,Bj代入(6-5)式,计算Tij;对照拟合与实际的Tij,作误差表;误差较大,重新设定参数λ,回到第3步,计算,直到两个Tij误差较小时为止;应用模型对未来城市交通出行进行预测等等。注意:如要增大区间相互作用,则降低λ值如要减小区间相互作用,则增大λ值6.5引力模型应用中若干注意问题6.5.1确定研究范围和分区1、研究范围本身为一相对封闭的系统,应满足自容条件(self-contained)。2、分区最重要的因素是有可能利用现成资料。分区数宜在80-100之间。若分区太少,太粗,则各区数字较相似,反映不出各区的特征,且互相作用大多在区内部进行而非区间;若分区太多,可能造成输出结果难以解释、理解,且计算量大6.5.2交通消耗的确定常用交通距离、出行时间、交通费用来代表,一般认为以时间来代表较好。6.5.3模型校准必须对模型进行校准,但要求模型做到完全拟合则不可能。6.5.4利用模型进行预测、实验模型为静态反映,利用它进行预测有两种方式:单程(OneShot)预测递归预测(RecutisivePredictions)第七章城市系统结构分析7.1聚类分析的直观说明根据其特征值所规定的空间(可以是多维空间)分布点,按其彼此间的距离远近大小,测度其疏密程度。以二维空间举例说明。例:对不同居住小区归类。假定反映居住小区的特征要素有两个:人口密度与每户拥有的私人小汽车数量。搜集国外七个小区的资料,列表11—1。7.1.1二维坐标图法以两个特征值做二维坐标轴,确定其空间分布位置,计算其相对空间距离,确定其归类。从图11—1中,凭直观将其归为三大类。第一类:低密度、私人汽车多的小区(6号小区)第二类:中密度、私人汽车拥有量一般的小区(1、2、4、5、7号小区)第三类:高密度、少汽车的小区(3号小区)7.1.2数学方法步骤:1、对原始数据进行标准化处理;2、进行距离计算,列各点间距离表;聚类。7.2三元比例分类图7.2.1适应范围当系统以三个比例值为表征,三个比例值总和为100%,则作三元比例分类图进行分类。7.2.2举例根据各城镇三大产业的比重,对北非某国规划区内22座城镇进行分类。7.3测度系统类型及差异性的综合指标7.3.1城市系统数据分布的特征值(离散性的代表值)离差:各个变量与均值之差di=xi-见表11-2:计算七个小区人/公顷(x)(原始数据)的离差=1729/7=247d1=116-247=-131d2=211-247=-36d3=590-247=343d4=310-247=63d5=260-247=13d6=135-247=-112d7=107-247=-140离差平方和:样本的离差平方和=1312+362+3432+632+132+1122+1402方差:各离差平方和除以其数据的个数总体方差:2=
u为总体均值样本方差:S2=标准差:对方差开方总体的标准差:=样本的标准差:S=
在聚类分析中,假设有m个待分析归类的对象,可以用n个特征要素来表示,其数据矩阵如表11-5。则第j个要素的总体标准差j= 样本的标准差Sj=7.3.2城市系统数据的标准化(注意:通常在标准化之前进行对数变换)标准差标准化xij’=其中i=1,2,…,n;j=1,2,…,m。变换后的数据均值为0,方差为1,且与其指标的量纲无关。极差标准化xij’=(书本公式错误)变换后数据,变化范围在0~1之间,且消除量纲影响。7.3.3城市系统间的距离(一)定量数据距离:代表系统间异同程度的距离可以其差异程度,也可以其相似程度表达。差异性距离(距离系数)(1)欧氏距离dij(1)=xik代表第i个系统第k个特征值xjk代表第i个系统第k个特征值k=1,2,…,m个特征值个数(2)绝对距离dij(2)=距离系数越小,两系统间相似程度越大,反之,相反。相似性距离距离系数越小,两系统间相似程度越大;反之则反。(1)相关系数Cij=在数据标准化后,相关系数可简化为Cij=1/mi,j代表两系统,xk代表第k个特征值或指标,m为:特征值个数。(2)夹角余弦 cos n个系统,m个特征值(二)定性指标的距离d1,2=m2/(m1+m2)作业:给定一原始数据矩阵(见下表),要求:(1)对原始数据矩阵进行标准差标准化;(2)用标准化后的数据求系统间的欧氏距离;(3)用标准化后的数据求系统间的相关系数。解:(1)标准差标准化根据公式Sj=,xij’=则S1=其中;S2=其中;S3=其中;S4=其中;x11’=(4-2.5)/1.29=1.16x12’=(8-5)/2.58=1.16x13’=1.16x14’=1.16x21’=(3-2.5)/1.29=0.39x22’=(6-5)/2.58=0.39x23’=0.39x24’=0.39x31’=(2-2.5)/1.29=-0.39x32’=(4-5)/2.58=-0.39x33’=-0.39x34’=-0.39x41’=(1-2.5)/1.29=-1.16x42’=(2-5)/2.58=-1.16x43’=-1.16x44’=-1.16得标准差标准化后数据矩阵:(2)求系统间的欧氏距离:根据欧氏距离公式dij=则d12==0.77d13=d14=d23=d24=d34=得欧氏距离矩阵D(0)G1G2G3G4G1G2G3G400.7701.550.7802.321.550.770(3)求系统间的相关系数:根据相关系数公式Cij=C12=1/4(4*1.16*0.39)=0.4524C13=1/4[4*1.16*(-0.39)]=-0.4524C14=1.16*(-1.16)=-1.3456C23=0.39*(-0.39)=-0.1521C24=0.39*(-1.16)=-0.4524C34=(-0.39)*(-1.16)=0.4524得相关系数矩阵:D(0)G1G2G3G4G1G2G3G400.45240-0.4524–0.15210-1.3456-0.45240.452407.4层次聚类法7.4.1实质就是把系统的最低一级单元作为各自独立的类型或最低一级子系统,然后计算这些单元之间的差别指标——距离,选择它们之间距离最小的归为同一类型,加以归并。然后进一步计算类型和类型间的距离,再选择类型间距离最小者,再加以归并成新类,如此逐步向上归并,便形成层次结构。7.4.2方法、举例例如:有五个基本单元(G1,G2,┅,G5),彼此间的距离假设已经求得,其距离矩阵D(0)如下,D的上脚标记录计算的步数。最短距离法第一步,将原始数据经标准化处理后,以欧氏距离作为分类统计量,得初始距离矩阵D(0)。D(0)G1G2G3G4G21G358G414122G579115第二步,在D(0)中,最小元素为D12=1,将G1与G2合并为一新类G6,G6={G1,G2},然后计算新类G6与其它各类间的距离。D6,3=min(d13,d23)=min(5,8)=5D6,4=min(d14,d24)=min(14,12)=12D6,5=min(d15,d25)=min(7,9)=7第三步,作D(1)表,先从D(0)表中删去G1类和G2类所在的行和列中的元素,然后再把新计算出来的G6与其它类间的距离D6,3,D6,4,D6,5填到D(0)中,即成D(1)表。D(1)G3G4G5G42G5115G65127第四步,在D(1)表中,最小元素为D34=2,再将G3与G4合成一新类G7,G7={G3,G4},然后计算新类G7与其它各类间的距离。D7,5=min(d35,d45)=min(11,5)=5D7,6=min(d36,d46)=min(5,12)=5第五步,作D(2)表,先从D(1)表中删去G3类和G4类所在的行和列中的元素,然后再把新计算出来的G7与其它类间的距离D7,5,D7,6,填到D(1)中,即成D(2)表。D(2)G5G6G67G755第六步,在D(2)表中,最小元素为D67=5,再将G6与G7合成一新类G8,G8={G6,G7}={G1,G2,G3,G4},然后计算新类G8与其它各类间的距离。D8,5=min(d65,d75)=min(7,5)=5第七步,作D(3)表,先从D(2)表中删去G4类和G5类所在的行和列中的元素,然后再把新计算出来的G8与其它类间的距离D8,5,填到D(2)中,即成D(3)表。D(3)G5G85由此表可知,G5类与G8类最后合成一类为G9,G9={G5,G8}={G1,G2,G3,G4,G5},至此,全部计算过程结束。第八步,作谱系图。最长距离法第一步,将原始数据经标准化处理后,以欧氏距离作为分类统计量,得初始距离矩阵D(0)。D(0)G1G2G3G4G21G358G414122G579115第二步,在D(0)中,最小元素为D12=1,将G1与G2合并为一新类G6,G6={G1,G2},然后计算新类G6与其它各类间的距离。D6,3=max(d13,d23)=max(5,8)=8D6,4=max(d14,d24)=max(14,12)=14D6,5=max(d15,d25)=max(7,9)=9第三步,作D(1)表,先从D(0)表中删去G1类和G2类所在的行和列中的元素,然后再把新计算出来的G6与其它类间的距离D6,3,D6,4,D6,5填到D(0)中,即成D(1)表。D(1)G3G4G5G42G5115G68149第四步,在D(1)表中,最小元素为D34=2,再将G3与G4合成一新类G7,G7={G3,G4},然后计算新类G7与其它各类间的距离。D7,5=max(d35,d45)=max(11,5)=11D7,6=max(d36,d46)=max(8,14)=14第五步,作D(2)表,先从D(1)表中删去G3类和G4类所在的行和列中的元素,然后再把新计算出来的G7与其它类间的距离D7,5,D7,6,填到D(1)中,即成D(2)表。D(2)G5G6G69G71114第六步,在D(2)表中,最小元素为D56=9,再将G5与G6合成一新类G8,G8={G5,G6}={G1,G2,G5},然后计算新类G8与其它各类间的距离。D8,7=max(d57,d67)=max(11,14)=14第七步,作D(3)表,先从D(2)表中删去G5类和G6类所在的行和列中的元素,然后再把新计算出来的G8与其它类间的距离D8,7,填到D(2)中,即成D(3)表。D(3)G7G814由此表可知,G7类与G8类最后合成一类为G9,G9={G7,G8}={G1,G2,G3,G4,G5},至此,全部计算过程结束。第八步,作谱系图。总结:阶级越高越强调其共同性,阶级越低,其特殊性越突出。根据系统各组成元素的相近特征逐级向上归并,自然也就是系统的结构体系。子系统内部各元素之特征,性质相近。如交通系统,组成元素都与交通有关。子系统之间的特征,性质差别较大。如交通系统和工业系统之间自然各元素有较大的差距。所以聚类方法可以揭示系统的结构体系。系统的分级分类是相对的,依不同等级的距离量的变化而变化的。其他方法除了上述两种方法外,还有其他方法,这些方法可综合成一个统一公式:D2kr=αpD2kp+αqD2kq+βD2pq+γ|D2kp+D2kq|式中,D代表距离,αp、αq、β、γ为不同方法的系数,其值如下系统聚类法参数表表中的np,nq,nk,nr为Gp,Gq,Gk,Gr各类样本数据个数。这一统一公式为编写程序提供了方便。作业:给定D0(欧氏距离系数表)进行聚类分析。D(0)G1G2G3G4G5G6G1G2G3G4G5G600.37500.4830.77601.7491.5961.92601.5161.3361.6620.50101.9721.7432.1540.6930.5890解:(1)最短距离法(2)最长距离法作业:给定初始距离矩阵D(0),分别用最长距离法和最短距离法对其进行聚类分析。D(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 消防安全与应急处理培训企业制定与实施新质生产力项目商业计划书
- 电子书阅读器租赁企业制定与实施新质生产力项目商业计划书
- 民族手工艺大赛行业跨境出海项目商业计划书
- 化纤工程设计在线平台企业制定与实施新质生产力项目商业计划书
- 学习风格评估与辅导行业跨境出海项目商业计划书
- 海洋工程装备与设计行业跨境出海项目商业计划书
- 拆迁补偿居间合同范本(商业地产拆迁)
- 汽车无偿赠与及后续保险理赔责任合同
- 公共交通系统维护职责
- 车辆借用期间责任界定及赔偿协议
- 2025年安全知识竞赛题库及答案(共150题)
- 合资公司的组织结构与运营规范
- 成都设计咨询集团有限公司2025年社会公开招聘(19人)笔试参考题库附带答案详解
- 基层医疗卫生机构信息化建设中的医疗信息化服务创新与产业链协同发展路径报告
- 海南省历年中考作文题与审题指导(2003-2023)
- 幼儿照护知到课后答案智慧树章节测试答案2025年春铁门关职业技术学院
- 2025衢州辅警考试题库
- 出差工作总结模版
- GB/T 10810.2-2025眼镜镜片第2部分:渐变焦
- 复旦大学面试题及答案
- 八年级语文上册第四单元整体公开课一等奖创新教学设计
评论
0/150
提交评论