




已阅读5页,还剩133页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2008.10 土地数据分析 为什么学习数据分析 信息提取和知识汇总 行动指导和决策依据 数据分析学什么 数据调查与预处理方法 数值特征、空间与时间特征分析 常用统计方法与模型应用 如何学习数据分析 转换思维模式 多练习,勤思考 第一章 绪论 本章目标: 1、了解数据分析的基本内容 2、数据分析方法的一般过程 3、系统模型建立的一般过程 第一章 绪论 第一节 数据分析 第一章 绪论 数据、信息与知识 随着计算机计算能力和数据处理能力的加强,使得从大量数据中 了解数据之间的相互关系和影响成为可能,基于对这些数据间关 系的分析,可以提取出对理解数据代表的现象更有帮助的信息, 即所谓的“透过现象看本质”。这种运用基于计算机的方法,依据 统计学和其他数学原理从数据中分析出信息的过程,称为数据挖 掘(Data Mining)。数据挖掘技术应用十分广泛,只要有数据存储 分析要求的领域都需要数据挖掘技术。事实上,在对各种社会经 济现象和自然现象的研究过程中,人们已经收集了大量的数据, 并且已经习惯了被大量的数据所包围并且忽视数据的存在。原因 很简单,一是因为人们只关注自己感兴趣的数据,会自动忽略掉 其他数据;二是人们在获得数据后,往往考虑如何保存数据比较 多,少有考虑数据最终会被如何使用,从则影响到了数据的应用 。 对于土地科学来讲,这种研究方法显得尤为重要。这是土地科学 研究对象的特点决定的。土地数据都包含有时间和空间的信息, 而且不确定的影响因素众多,数据来源十分广泛,综合性强,类 型多,数据量大而且数据间的直接关系并不明显 第一节 数据分析 第一章 绪论 数据、信息与知识 作为地理信息的载体,包括地理的数据或资料(Data)、 影像(image)、图形(Picture)等中都可能含有噪声。因此 Datainformation+Noise 一般来说,数据产生信息,信息产生知识,因此数据具 有极大的潜力。信息在数据范围之外还有特点的,尤其 是具有人类解释的特点,具有超信息的某种东西。数据 和信息适用于进行技术处理,而知识则能靠人的分析和 解释进行处理。 数据、信息和知识是人类对客观世界认知的三个阶段。 数据是直接来源于对事物的通过仪器感应或人的直接感 知的变量的测定位;信息是经过组织的有结构的数据, 从而它有了意义;知识则进了一步,它能够预测、能够 给出因果关系,并指导进一步应该做什么。 第一节 数据分析 第一章 绪论 数据分析基本方法 变化和偏差检测。主要是对数据的初步观察,并检 查数据的异常值、数据是否有错误或有漏失,这是 数据预处理的重要步骤,是确保数据具有可分析性 的重要过程之一。 总结概括。主要是研究数据的数值特征即其集中性 、离散性和分布特征,以得到数据特点的描述。统 计学上的描述性统计方法是进行总结概括的最常用 的方法。这是了数据概貌的基本方法之一。 分类。根据数据属性的特征,将一个或多个数据归 置到预先定义的某一个类中。 第一节 数据分析 第一章 绪论 数据分析基本方法 聚类。在数据对象可以区分的类别数量未知的 情况下,根据数据性质的相似性,以确定的有 限的类别,并将数据以此类别进行区分。 回归与关联建模。通过描述变量或数据集或其 中一部分的特征值之间的重要的相关性,从而 分析设计数学模型,根据数学模型预测变量可 能的值或者分析不同变量或数据间的衍生关系 。 第一节 数据分析 第一章 绪论 聚类与分类 对于分类和聚类的概念比较容易混淆。比如, 土地利用现状调查的过程实际上是一个分类的 过程,因为我们已经有了预定义的类别,即国 家规定的土地利用分类标准,我们要做的只是 把符合特定利用条件的土地区分开来,这就是 分类。 聚类与分类最大的不同在于聚类本身是没有预 定义的类别的,所分的类别的多少是依据研究 人员主观上对分类尺度的把握而确定的。 第一节 数据分析 第一章 绪论 数据分析的悖论 数据组合模式 信息提取:观点、角度和知识面 结论的提取与筛选 创造性思维 理性思考 专业知识 第一章 绪论 第二节 研究内容 第一章 绪论 数值特征分析方法 数据的集中性与离散性研究 数据可靠性分析 来源的可靠性 数据的典型性 结论的可信度 第二节 研究内容 第一章 绪论 空间分布特征与发展过程分析研究土地现象的分 布特点,并从中分析其成因和变化趋势、空间分 布与发展过程的规律性。 空间分布的规律性研究,即土地现象内在的空间诸要素 ,包括位置、距离、方向、广度、形状等和空间展开状 况的规律性; 指空间构成研究,即土地现象的空间规律性是用面还是 用立体来表示的; 空间过程研究,即空间规律性和空间构造形成和发展的 变化过程。 分析土地现象的各种分布与发展模型,以期为合 理利用和规划土地资源提供理论依据。 孤立国农业土地利用模式 杜能环 农业区位论的核心理论之一 杜能以同城市的距离和收入的多少这两个指 标要素来说明城市同它的郊区间的土地利用 方式的不同,每一环带的土地各有不同的用 途。这样的模型比较简单,可控变量很少, 并且附加上了多个假设前提条件。然而所有 复杂的模型都是在简单模型的基础之上建立 的,杜能环实际上研究的就是地域分工,因 此,这对今天的功能分区研究仍然有重要的 借鉴意义。 第二节 研究内容 第一章 绪论 杜能环:孤立国农业土地利用模型 六个假定条件: 1)肥沃的平原中央只有一个城市; 2)不存在可用于航运的河流与运河,马车是唯一的交通工 具; 3)土质条件一样,任何地点都可以耕作; 4)距城市50英里之外是荒野,与其它地区隔绝; 5)人工产品供应仅来源于中央城市,而城市的食物供给则 仅来源于周围平原; 6)矿山和食盐坑都在城市附近。 杜能研究了在这样一种条件下,农业产品的布局问题 ,即为了从土地取得最大的纯收益,农业经营内容随 着距城市距离的变化将如何变化。 第二节 研究内容 第一章 绪论 杜能环:孤立国农业土地利用模型 杜能考察问题的方法是“孤立化的方法”。利用这一 方法是为了排除其它要素(像土质条件,土地肥力 ,河流等)的干扰,而只探讨一个要素(即市场距 离)的作用。即不考虑所有的自然条件差异,而只 是考察在一个均质的假想空间里,农业生产方式的 配置与距城市距离的关系。这种研究方法即我们通 常所利用的两种基本科学方法(演绎和归纳法)之 一的演绎方法。 从简单到复杂,是模型建立的一般过程。 第二节 研究内容 第一章 绪论 空间分布分析方法 分布分析。 网络分析。 趋势面分析。 空间构成分析方法 地域构成分析 空间相互作用分析 第二节 研究内容 第一章 绪论 空间过程分析 空间扩散分析 空间行动分析 系统的预测与规划分析 系统预测(动态分析) 系统规划(平衡分析) 分布规律是地理现象空间存在形态的计量,空间 构成、空间过程和系统规划则是各种现象空间关 系和空间过程的计量。 前者是从静态方面去研究,后者则是从动态方面 去研究。 第二节 研究内容 第一章 绪论 研究拓展 生态环境变化 区域异同分析 第一章 绪论 第三节 数据分析一般方法 第一章 绪论 现代土地科学,是一门研究土地及其与人类 活动之间相互关系的综合性、交叉性学科。 它以分布、形态、类型、关系、结构、联系 、过程、机制等概念构筑其理论体系,研究 土地现象的空间格局与发生、发展及变化规 律;研究目标是人地系统的和谐发展,即人 口、资源、环境与社会经济协调发展;采用 的是定性与定量方法相结合、综合归纳与理 论演绎方法并用、规范与实证研究方法并举 的研究方法 方法论的比较 传统研究方法是把现实世界分成系统,经过 观察、分类、比较、综合、描述等方法,由 直接的类推得出现实世界的结论。 采用数据挖掘方式进行的研究首先建立假说 ,然后模型化,应用现实的资料进行检验, 而且解释检验的结果,并导出有关现实世界 的结论,再经反复推敲形成理论。即使对于 已经理论化了的命题,经过模型化检验 解释结论的程序,再加以推敲,可 以使原有理论进一步发展。 数据分析用建立模型、反复检验的计量分析 方法研究地学问题,和传统分析研究方法是 不同的。 主体(现实) 研究结论 建模 外推 模型解释 数学方法 抽象(假说理论) 基于对主体的思考/资 料收集/ 解释(研究结论) 通过归纳演绎深 入认识主体 研究结果:理论化的结论 不合理 专业知识 符合对主体 的收集资料 计量化的研究特点 第三节 数据分析一般方法 第一章 绪论 一门学科的发展总是同其研究方法的进展 密切相关的,方法论对学科研究对象的划 分和新兴学科的形成都起重要的作用,新 的方法的应用往往能加速学科理论的发展 。应用新方法不是目的,但新方法是我们 重新认识土地的新手段,是学科向前发展 的有力支柱。 第三节 数据分析一般方法 第一章 绪论 数据分析方法 系统分析 系统分析就是指扬弃现象繁琐的枝节,抓住实质 ,抽象出现象在结构与功能上的主线,并能揭示 现象动态演变的方法和强度,预测其状态变化和 稳定性程度等,从而将复杂的、高级的系统简化 成次一级的简单的系统,进而探讨土地要素之间 的数量关系。因此,土地系统的分析方法,一般 是首先要列出所研究的系统的要素清单,并根据 系统的实际情况,画出各要素的联系框图,然后 再以定量的方法研究系统要素间的关系。 第三节 数据分析一般方法 第一章 绪论 数据分析方法 数学方法应用 定量分析技术中,最基本的技术可分成三类:说明、 推理、构成模型。说明的技术就是用描述性统计,将 大量的原始数据经过整理、计算简化为若干容易理解 、能更好地说明主要情况的数值指标。推理的技术就 是用统计方法分析所选择的样本的代表性,或所搜集 的资料对所研究对象的支持程度。需要有大量的调查 、观测或实验数据作为支持来进行研究的问题,都需 要采用统计方法来解决。构成模型是把实际情况模拟 在一种二维或三维的“图象”,用数学的方法构成抽象 模型来研究实际问题。 第三节 数据分析一般方法 第一章 绪论 数据分析方法 数学方法应用 土地系统是多级、多元系统;在进行系统分析时,需要分析一组或几 组要素之间的关系,经常应用多元统计分析方法,也就是数据挖掘技 术,如多元线性回归、逐步回归、主成分分析、因子分析等。 不同的土地系统功能区是有不同的空间范围和地域界线的系统,确定 界线、进行功能区的划分等都经常应用二级判别分析、多级判别、逐 步判别等数学分类技术。 在探讨土地系统结构、类型组合、空间关系时,常运用系统聚类分析 方法; 分析土地系统的空间特性时,常用趋势面分析的方法。 研究土地系统的目的,是为了能更好利用土地系统,为人类生产生活 提供服务。为了使土地系统达到符合一定目标的最佳状态,需要研究 系统的目标和结构,因此常运用运筹学理论和方法来对土地系统进行 规划,其中最常用的是线性规划、0-1规划和动态规划。 对于土地系统的状态转移规律,常使用马尔柯夫链,多元线性方程组 、微分方程方法来进行研究。 第三节 数据分析一般方法 第一章 绪论 数据分析方法 系统模拟 数据挖掘技术是运用数学模型研究土地系统的。建立系统的数学模型的过程 ,称为土地系统的数学模拟,即所谓数学建模。 数学模型一般是可以求解的。如果一个数学模型是一个土地系统或其特性的 好的代表,那么这个数学模型的解,一般地说,也就是解决该系统问题的一 个可以实现的方案。一个系统或系统某种特性的数学模型建立以后,就要对 数学模型进行求解,然后对数学模型的可能的解进行基于专业知识的解释, 形成对该系统或该特性的一个一般解决方案。因此,在系统状态、要素预测 分析以及系统规划的研究中,都会大量运用数学模型。 数学建模的一般过程是:首先从实际的研究对象或其要素出发,对其空间状 态、空间成分、空间相互作用进行分析,建立系统或要素的数学模型。经过 经验检查,如与实际情况不符,则要重新分析,修改模型;如大致相符,则 选择计算方法,并进行程序设计、程序调试和上机运算,从而输出模型解。 再对模型解进行分析,如模型解没能对系统或要素作出合理的解释,则修改 模型;如计算出错,则要修改计算方法和程序。如模型解能给出合理的解释 ,则对模型运算结果进行专业解释,提出切实可行的解决问题的方案 第三节 数据分析一般方法 第一章 绪论 数据分析方法 计算机应用 土地问题数学化;数学问题计算化,计算问题程 序化;程序结果土地化。 必要的操作知识和软件应用技能 必要的程序编制和设计能力 第一章 绪论 第四节 数据分析一般流程 第一章 绪论 描述问题,提出假设。 多数基于数据的研究都是在特定的领域里完成,因此,要提出问 题,有研究领域里面专业知识和经验是非常重要的。没有这一点 ,基于数据的研究就没有办法指明需要研究的变量以及可能的假 设。 数据收集。 数据来源总体上讲有两种,一种是被制造出来的,比如数据生产 过程是在专家控制下,通过实验得出;另一种是通过观察得出, 数据随机产出,不受控制。无论哪一种,我们都要非常清晰的了 解所收集的数据在所代表的对象中的分布。这一点非常重要,若 所收集的数据在其代表的对象中呈偏态分布,数据分析出来的结 果必然也是偏态的。此外,在验证模型时所采用的数据要和建模 时采用的数据样本来自同样的分布,否则对模型的评估也是失败 的。 在数据收集过程中,对数据质量,比如准确性、完整性、一致性 等等要有严格的要求。低质量的数据产生不了高质量的发现。 第四节 数据分析一般流程 第一章 绪论 数据预处理。 在处理任何数据之前,预处理工作是必不可少的。一是异常值的检测与去 除。这种异常值可能是采集过程中产生,也可能本身自然存在。异常值的 存在会严重影响数据模型的产生。一般采用去除异常点或寻找一种不受异 常点影响的建模方法。二是比例缩放、编码处理。由于数据来源的多样, 数据本身受量纲、数据特征等的影响,是无法直接用于数据挖掘的。因为 我们要找出的结果是数据间所包含的变化信息,不是数据本身,因此通过 预处理能减少工作量和数据处理难度而不损失数据信息。 模型建立与评估。 选择适当的模型是需要专业知识的,否则就只能依靠反复利用多种分析技 术来测试多个模型来找出相对最合适的。若没有合适的软件工具,这一步 难度相对大很多。 解释模型,得出结论。 多数情况下,数据模型是为决策服务的,因此要对模型进行解释。这一步 需要专业知识为背景,对模型结果的解释和说明是很重要的工作,因为模 型分析的数值结果难于理解,也不能用于非专业人士进行决策活动。 第四节 数据分析一般流程 第一章 绪论 不管数据内容是什么,数据原始形式本身 并没有价值。有价值的是从数据中得出并 付之实用的知识。数据存储能力和数据分 析能力之间的差距正在逐步拉大,这个问 题的根源在于数据的规模和维数对计算机 数据分析的传统方法来说太大了。数据挖 掘技术将是解决这类问题的捷径。 第二章 数值分析 理解土地数据的一般特点 理解数据类型及一般预处理方法 数据数值特征分析方法 数据指标体系 第二章 数值分析 在对问题的分析过程中,通常都要收集大量 的数据、资料,以帮助我们认识问题、分析 问题。 这些数据往往能提供大量的、多方面的、杂 乱的甚至是隐含的信息,借助这些信息可以 发现和了解数据所代表的系统的特征和规律 性,从而帮助我们了解数据所代表的意义。 数据规律和特征不是一目了然的,需要对具 有代表性的、典型性的、准确性的和完整性 的数据进行加工与统计分析,才能从中总结 出土地现象要素间、地域间和时间上的统计 特征及其变化规律。 第二章 数值分析 第一节 土地数据基本概念 第二章 数值分析 土地数据是比较复杂的,不是拿来就可以用 ,就可以任意分析的。必须充分了解土地数 据的来源、性质、特点,才能进行分析和总 结。土地数据是数据的一种类型,它带有空 间坐标的,位于地球表层的各种地理实体和 社会经济现象及其所产生的数据信息。 属性、空间和时间特征是空间数据所必须具 备的三要素,作为空间数据的一种,土地数 据也必须具备这三种要素,缺少其中之一或 二,都不能成为土地数据,至少不是完整的 土地数据。 第一节 土地数据基本概念 第二章 数值分析 土地数据来源十分复杂 精确数据:测量数据、降水量、建筑物的大 小、层数 模糊数据:地类界、土壤成分分布、降水量 分布 动态数据:土地要素处于不间断的变化中, 具有强烈的时效性、空间性 土地数据的精确是有条件的,即精确是相对 的,而模糊性或不确定性则是主要的。 第一节 土地数据基本概念 第二章 数值分析 模糊性产生的原因 因为多数土地现象和要素之间是逐渐变化、逐渐过渡的 ,两个类型之间本身就不存在明确的界线,如相邻的不 同土壤类型之间、相邻的气候带和自然地理带之间等, 都是逐渐过渡的,不存在明确的界线,而所划的界线则 是人为的。这样的现象在地球科学的领域内是很多的。 一些土地现象和要素的定义有争论,或定义的界线难以 精确划分。如有林地的定义,要求郁闭度大于60%,但 实际核定林地边界时却很困难,可操作性差。 对于土地类型的划分来说,各种土地类型都不是纯的, 水田中包含了部分属田埂、灌溉毛渠、甚至是房屋等地 类。且随着比例尺的不同,对它们分类的“纯度”也有所 不同;比例尺越大,则分类的纯度越高。 第二章 第二节 数据来源与抽样分析 第二章 数值分析 数据统计分析是对一定主体的定量认识活动 。统计工作过程包括统计设计、统计调查、 统计整理、统计分析四个阶段,是从“定性 定量定性”的认识过程。 统计设计是根据统计研究对象的性质和研究目的, 对统计研究对象的各个方面和统计工作的各个环节 所做的系统考虑和安排。统计设计贯穿于统计工作 的始终,其科学性直接影响着整个统计工作的效率 。 统计调查是根据统计设计的规定,合理安排调查工 作以获取统计资料的过程。 第二节 数据来源与抽样方法 第二章 数值分析 统计整理是指根据统计研究的条件和任务,对统计 调查资料进行系统的加工和汇总,通过信息的合成 和分解,取得能够表明客观现象总体特征的综合资 料的工作过程。统计整理是根据统计研究任务的要 求,对调查所搜集到的原始资料进行分组、汇总, 使其条理化、系统化的工作过程。统计整理是统计 工作的中间环节,是统计分析的前提。 统计分析是指对经过加工整理的统计资料进行分析 研究和开发应用的过程,包括对客观现象数量规律 性的描述、对客观现象的分析评价以及前景预测等 。统计分析是统计工作的决定性阶段。 第二节 数据来源与抽样方法 第二章 数值分析 数据收集的方法有很多种,基本方法是实地 调查和利用已发表的汇编材料。 汇编材料主要来源有:(1)政府统计机构连 续编制的反映全国及各地区国民经济和社会 发展全貌的统计月报和年鉴;(2)土地主管 部门存留的数据资料、图件、文件、档案; (3)相关部门(如农业、林业、水利、建设 等部门)留存的数据资料、图件等;(4)政 府关于土地的专门文件或政府工作报告;(5 )研究人员进行科学研究而专门调查取得的 专题性研究报告; 实地调查是对影响研究对象的相关土地要素的的进行 考察并记录调查结果,实际就是对研究对象的抽样调 查,是一种非全面调查。 把研究对象视为一个总体,按照随机原则从总体中抽 取部分单位进行观察,用以推断总体数量特征的一种 调查方式,是一种以部分代表全局的方法。 所谓总体,是根据一定的目的和要求所确定的研究事 物的全体,它是由客观存在的、具有某种共同性质的 许多个体构成的整体。 个体则是指构成总体的个别事物, 根据个体有限性或无限性,总体可以分为有限总体和 无限总体。 第二节 数据来源与抽样方法 第二章 数值分析 抽样调查中抽中的个体即成为总体的样本 。因此,样本必须对总体有很好的代表性 ,否则结论就会出现大的错误。 一般样本数越大,抽样误差越小。但由于 条件限制,抽样不可能做到尽可能大。因 此,抽样方法的选择是需要慎重考虑的问 题。 第二节 数据来源与抽样方法 第二章 数值分析 常用抽样方法有以下几种: 随机抽样:指抽样样本随机选取,总体单元有同等 的机会被抽出,并且某一单元的抽取不影响其它单 元被抽中的可能性。 等距随机抽样:连续并有序的按照一定规则抽样。 这种抽样方法对于有关土地类的要素十分有效。 分区随机抽样:这种抽样方法适合于区域间差异比 较大的总体。比如土地利用调查,在利用类型多变 的城市中心要加大抽样密度,在郊县甚至郊区就可 以减少抽样密度。 第二节 数据来源与抽样方法 第二章 数值分析 第二章 数值分析 原生数据与次生数据 每天的温度,每天、每小时、每分钟的降雨 量等为原生数据; 月平均温度、季平均温度、年平均温度,月 最高温度、月最低温度,年最高温度、年最 低温度;月平均、年平均降水量等则都是属 于派生的和次生的。 次生数据的生产 统计方法 数据挖掘(Data mining)方法 第三节 数据类型及变换 第二章 数值分析 根据数据代表的对象性质特点,可分为定性数据和定量数据两种 基本类型。 定性数据 定性数据表示现象或要素只有性质上的差异,而没有数量上的变化。 定性变量通过数量化(即编码)对一定的现象或要素予以“赋值”,用所赋 的不同值用来代表定性数据中的某一种性质。 在土地利用现状分类规程中,既定义了各种地类的特征和名称,也规定了 不同地类的编号,这种编号即可视为对不同土地类型的一种量化。 定性数据的量化是一种无序的尺度(名义尺度),它使用不同的符号、字 符、数字来表示变量的不同状态或者数据的不同的性质,其值没有特定的 顺序,值间也没有必然的联系。即使用顺序数据序列(有序尺度)进行量 化,如土地利用分类,所量化的结果没有量上的差异,只有变量值的顺序 差异。有序尺度的顺序不需要一定是线性的,如我国的国民教育序列,其 序列可以进行高低或同与不同的比较,但也没有量上的不同。 定性变量中特别的一类是周期变量,比如日期变量。 第三节 数据类型及变换 第二章 数值分析 定量数据是表示连续数量的,例如温度、 雨量、流量、人口粮食产量、土地面积、 钢铁产量等,都是定量变量(数值型变量 )。 定量数据的两个重要特点是变量值之间有 顺序关系和距离关系。 第三节 数据类型及变换 第二章 数值分析 地块高程坡度坡向临湖距离临居民点植被面积土质 A3525NW220321251 B5730NW150115352 C3822NW325233151 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第三节 数据类型及变换 第二章 数值分析 为了处理上方便,定量数据可以通过分类方法转为定性数据,如临湖 距离,可按一定尺度划分为近、中、远,坡向可划为阴坡、阳坡等等 。 多数原始数据在使用前需要做数据检查, 原因是有很多原因可能导致数据失真或丢 失。 检查数据是十分必要的。对于海量数据库 依靠人检查数据是完全不可行的,必须通 过计算机系统来检测数据异常,并采用人 工或自动的方式清洁数据。 第三节 数据类型及变换 第二章 数值分析 数据的变换 原始数据并不总是进行数据分析的最佳数据, 要通过多种方法对数据进行转换,才有可能出 现所期望的特征。这种变化是将原始数据的每 个数值通过某种运算把它们变成一个新的数值 ,而且而且这种变化不依赖于数据集合中其它 数据的数值。通过数据变换可达到去伪存真、 易识规律、减小变幅和便于建模等目的。 第三节 数据类型及变换 第二章 数值分析 数据变换 标准化。标准化主要去除量纲和数量级的影响。标准化 数据分布可以在指定的范围内,使不同量纲的变量易于 比较。标准化有几种简单易行的方法:比例缩放;极差 标准化;标准差标准化。 数据平整。平整工作主要目的是要减少数据的微小变化 ,或减少数据的时间空间维度,使得数据更加平滑,特 点表现更明显。常用的数据变换方式有对数变换(包括以 10为底的常用对数logx、和以e为底的自然对数lnx等)、 开(立)平方变换、取倒数变换、概率变换、模数变换和 指数变换等。 对于不同性质的数据,应根据其特点,采用不同的变换 方式,除上述变换方式外,还有滑动(移动)平均法、差 分算法、累加(减)生成数法等。 第三节 数据类型及变换 第二章 数值分析 从我国1952年至1999年GDP变换后的序 列可知,数据的变化幅度减小了,易于建 模,增长变化规律表现得更加平稳 第三节 数据类型及变换 第二章 数值分析 第二章 数值分析 数据整理:检查资料、统计分组和绘图表。 检查资料 在整理资料以前,首先要对原始资料和所抽出的样本资 料进行详细地检查,以保证样本资料的代表性、完整性 和准确性。 可靠性主要是所获得的样本资料须要和总体有共同的分 布特征,也就是能代表总体的特点。若可靠性不足,所 得出的结论必定也是不可靠的; 完整性,是要检查资料是否有遗漏或重复; 准确性,就是要检查所有项目是否准确,各项之间有无 矛盾,数字有无不合理的地方。 对有错误、相互矛盾、重复遗漏的资料,应作合理的修 改、剔除或补充。 第四节 数据的分布特征 第二章 数值分析 统计分组 统计分组就是根据研究任务的要求和现象总体 的内在特点,把统计总体按照某一分组标志划 分为若干性质不同又有联系的几个部分。 同一组内的单位性质相同,不同组所包括的单 位性质相异,进而研究它们的规律性和依存关 系。 统计分组能反映出现象质的差别。 第四节 数据的分布特征 第二章 数值分析 统计分组 分组标志包括定性标志和定量标志。 定性标志分组是按事物的质量属性分组,定性标志 标志分组是没有组距的概念的。 定量标志分组和变量类型有关,对离散型变量而言 ,有按数值分组,即每个变量取值为分组标志,类 似定性分组;也可以按组距分组,即将整个变量的 取值范围划分为若干个区间,每个区间为一组,区 间的数值距离称为组距。对连续型变量而言,由于 不能穷举其取值大小,只能按组距进行分组。 第四节 数据的分布特征 第二章 数值分析 按组距式分组时,有等距和不等距两种分组方法。 通常均匀分布的总体应该采用等距分组,如果资料 分布不均匀或离差比较大,则应采用不等距分组。 按组距分组时,组距的大小关系到组数的多少;组 距过小,组数很多,容易把同类现象划分到不同组 去;组距过大,组数则少,可能会把不同类的现象 划分到同一组里。这两种情况都会掩盖总体分配的 规律性,因此在选择组距时要适当,过多过少都不 好,为便于组中值的计算,组距以奇数为宜。 有些系统如spss采用等量分组,也就是每个组的样 本数据大体相同,这适合数据分布相对平均的资料 ,若资料分布过于集中,则不适合这种方式。 第四节 数据的分布特征 第二章 数值分析 5.79 6.09 6.05 6.07 6.05 6.16 6.10 6.09 6.01 5.92 6.05 6.03 5.96 6.00 5.87 6.03 6.18 6.13 5.97 5.90 5.98 5.88 6.18 6.08 6.10 6.03 6.01 6.03 6.11 5.97 6.09 6.00 6.00 6.10 6.10 6.09 6.01 5.97 6.20 5.89 6.00 6.06 5.97 5.97 6.06 6.04 6.24 6.00 5.92 6.09 5.98 6.10 5.93 6.06 6.00 5.98 5.96 5.93 6.07 6.24 6.08 6.07 5.88 5.97 6.03 6.00 5.86 6.02 6.04 6.05 5.92 6.08 6.28 6.04 6.05 6.15 5.95 6.10 6.07 5.96 6.10 6.01 6.10 6.03 6.00 6.05 5.86 5.96 6.35 6.17 6.04 6.07 6.06 6.04 6.13 6.00 6.18 6.20 5.81 6.01 5.98 6.06 6.01 5.92 6.14 6.01 5.98 5.98 6.08 6.11 5.98 6.01 5.84 6.06 6.11 6.29 6.05 5.84 6.19 5.89 6.06 6.06 第四节 数据的分布特征 第二章 数值分析 第四节 数据的分布特征 第二章 数值分析 求变数的全距(R):由上表可知,土壤中样本中含Pt 量最值是6.35,最小为5.79,其全距R为0.56。 确定组数(n): 组数是根据变量所包括的样本个数(N) 的多少,可依Sturges经验公式来确定。经计算n8 ,即可分为9组。 计算组距(h): 组距(h) 取0.07。 确定组限:组限是指组的界限,数值小的为起点数值 ,称为下限;数值大的为终点数值,称为上限。第一 组的下限值,可从样本数据最小值中减去l2的组距 求得。 计算组中值(m): 组中值是一组数据的上限与下限之 间的中点数值,通常以它来表示各组数值的平均水平 。 第四节 数据分布特征 第二章 数值分析 频数分布图表的绘制 进行数据分组的目的就在于通过对样本数据进 行分组,研究各组数据出现的频数(次数)和频 率,以便概括数据总体结构及其分布特征。次 数和频率的大小反映了各组标志值对总体标志 水平所起的作用的大小,次数和频率的数值越 大则其起的作用越大,反之越小。 第四节 数据的分布特征 第二章 数值分析 频数分布图表的绘制 组中值频率频率数组限累积频率累积频率数 15.791.63925.725-5.8241.6392 25.864.37795.825-5.8949.01611 35.939.836125.895-5.96418.85223 4630.328375.965-6.03449.18060 56.0734.426426.035-6.10483.607102 66.144.37796.105-6.17490.984111 76.216.55786.175-6.24494.541119 86.281.63926.245-6.31499.180121 96.350.82016.315-6.384100.000122 第四节 数据的分布特征 第二章 数值分析 频数分布图表的绘制 第四节 数据的分布特征 第二章 数值分析 数据的分布特征值 在数据的分布性质分析中,最重要的两个 性质是集中性 和离散性 ,这两个特性可 以用平均数和离散度来表示。 第四节 数据的分布特征 第二章 数值分析 数据的分布特征值 常用的度量中心趋势的量有:平均数、中位数 (分位数)和众数 算术(加权)平均数和几何平均数 中位数是数据样本按取值大小或一定顺序进行 排列后,居于中间的数据。中位数在频数图上 处于正中央,在累积频率图上处于50%的对应 特征值即是中位数。 众数是一个系列中出现次数最多的数。它在频 数分布曲线上处于最高点的位置。 第四节 数据的分布特征 第二章 数值分析 优 点缺 点用 途 算术平均数意义易懂,并富有代表 性 有严密的计算公式, 如能与现象联系起来, 就更具体化 易用代数方法处理和证 明 结果可能不符合实际 易受极端项的影响 不利于处理定性数据。 如一个系数两端数值不 定,以“以上”成“以下” 表示的数列即不能求均 值 当两极端变量之差不大 时,可用算术平均数 当各项变数有显著的不 同重要性时,可用加权 平均数 当测定具有动态变化的 现象时,可用几何平均 数 中位数简单,只须将一群数值 按大小排列即可求出 当中位数的位置确定后 ,其两侧数值无论怎样 变动,都不会影响中位 数 不受极端项的影响 中位数有时为抽象数值 ,与实际不符 中位数受项数多少影响 较大 中位数不是一个好的估 计量,适合于数据分布 均匀的情况。 当极值对平均数计算上 产生巨大影响时,欲除 去其影响,可用中位数 当研究时间序列、顺序 统计量时,可采用中位 数 众 数众数是一个系列中出现 次数最多的数值,因此 它是最常见、最典型、 最集中的数 不受极端项数值的影响 众数可根据数值出现次 数的多少来确定 依分组资料求众数不够 精确 受组距大小和地位变动 的影响 一群不规则的数不能求 众数 缺乏良好的数学性质, 不能用代数方法处理 一个系列两端数值不确 定时,可采用众数 求发生次数最多的数值 时,可用众数 当频数分布为正态分配 时常用众数为代表值 第四节 数据的分布特征 第二章 数值分析 数据的分布特征值 离散性的代表值:绝对离散度和相对离散度。 绝对离散度:离差、离差平方和、方差和标准 差等。 第四节 数据的分布特征 第二章 数值分析 相对离散度 在均值及单位相同的条件下,标准差大,表示 变量值分布得比较分散,反之较集中。 当两个系列数值的单位不同或均值相差较大, 或它们的标准差相同时,就不能简单地甩标准 差的绝对值来比较不同均值时随机系列的离散 程度,需消除均值的影响。 第二章 数值分析 第五节 数据指标体系 第二章 数值分析 为方便对数据的值和变化特征进行说明,通 常要对数据进行加工,这样可以得到新的并 且易于比较和分析的数据,在数据分析工作 中引入了绝对数和相对数的概念。 对于原生的数据来讲,它是我们收集到的对 现象特征的一种描述,通常都是绝对数,而 加工后的数据通常都是利用原生数据进行比 较而来,是通过原始数据派生出来的数据( 次生数据),基本上次生数据都是相对数。 为方便说明,使用总量指标和相对指标两个 统计指标来衡量绝对数和相对数。 第五节 数据指标体系 第二章 数值分析 总量指标是反映社会经济现象或自然现象 的总体规模或水平的指标 相对指标是两个相互联系的现象数量的比 率,用以反映现象的发展程度、结构、强 度、普遍程度,为人们深入认识现象发生 、发展的特点提供依据,使不能直接对比 的现象找到对比的基础。 第五节 数据指标体系 第二章 数值分析 相对指标:结构相对指标 用来反映总体内部构成特征或类型的统计指标。 以总体总量T作为比较标准,求出各组总量t占总体 总量T的比重或比例。各组或各部分t占总体T的比 重之和,必须为1或100%。 反映的是总体内各个局部、各个分特征组之间量的 大小比例关系,是同一总体内不同特征部分的数量 对比的结果。 某地共有耕地1000亩,其中水田400亩,旱地600 亩,这三者为总量指标,拥有40%( 400/1000=0.4)的水田,60%(600/1000=0.6)的旱 地,这两者为为结构相对指标。 第五节 数据指标体系 第二章 数值分析 相对指标:比较相对指标 说明某一同类现象在同一时间内各不同总体下 发展的不平衡程度,以表明同类事物在不同条 件下的数量对比关系。 以同类指标T在不同空间A 和B的数值进行对比 ,通常用百分数或倍数表示。 A地共有耕地1000亩,其中水田400亩,旱地 600亩,B地共有耕地1500亩,其中水田1000 亩,旱地500亩,则CB水田1000/4002.5, 即B 地水田是A 地水田数量的2.5倍。 第五节 数据指标体系 第二章 数值分析 相对指标:强度相对指标 用来表明某一现象在另一现象中发展的强度、 密度或普遍程度的相对指标。 以两个性质不同而又有联系的总量指标T1和 T2之间进行对比。指标数值的计量单位可以是 无名数,百分数、千分数,也可以是有名数, 如:吨公里、人/平方公里等。 人均耕地面积、人均GDP都是强度相对指标。 第五节 数据指标体系 第二章 数值分析 相对指标:动态相对指标 说明同类现象在不同时间上变动程度的相对指 标。 以不同时间t1、t2的同一类指标A进行对比计 算,结果通常用百分数表示。 CPI(消费者价格指数)等价格指数都是动态 相对指标。 亦称为指数。 第三章 空间分析 本章目标 掌握点线面要素的概念 了解点线面要素的空间特征分析方法 集中性和离散性分析的空间应用 第三章 空间分析 第一节 空间要素类型 第三章 空间分析 描述空间分布的两种方法: 将现象看作点要素,根据点要素间的距离、密度, 不同区域间点要素的数量、分布的异同以及点要素 间的相关性,将基于概率分布理论的点分布特征和 实际点要素的分布特征进行比较,从而了解点要素 在空间分布上的特点; 基于网格的分析方法。即以网络作为一个基本要素 的集合,比较不同网格间要素配置与特点的异同。 网格基本单元不一定要求是规则网格,以不规则的 比较对象的基本构成单元也可以作为基本网格单元 。 第一节 空间要素类型 第三章 空间分析 描述空间分布的三种类型 点:现象的每一项,都是呈点状离散分布于某个 区域中。如工业企业、工业基地、自然资源、城 市、商店、医院、学校等,都采用点状分布的形 式。 线:现象的每一项都以直线、曲线或不规则线的 形式存在于区域之中。如道路网、给排水系统、 输电线路、输油输气管、台风路径、冰雹线等。 面: 第一节 空间要素类型 第三章 空间分析 描述空间分布的三种类型 面:现象的每一项分布于整个区域。 一类是不连续的面状分布,例如行政区,不同类型 的作物分布区等。相邻区域之间,要么是分属不同 级别的分类系统,要么是性质或属性不相同; 一类是连续的面状分布,比如地形地貌、气候特征 等。连续面通常用等值线来表示,如地形的等高线 、气候上的等压线、土壤肥力分布、地下潜水位高 低等等。 第一节 空间要素类型 第三章 空间分析 描述空间分布的三种类型 点线面可互相转换,并适用相应的分析方法 离散面可以直接应用点型的分析方法。在不同比 例尺的情况下,点型和离散面型是互通的。在小 比例尺图上表示为点状分布的现象,如居民点、 城市分布,在大比例尺图上则可以用离散面来表 示。 第一节 空间要素类型 第三章 空间分析 描述空间分布的三种类型 连续面型通过网格化处理,也可以转为离散面型 和点型。 离散面可直接表示为点型,归并、等值线化为连 续面型。 点型和线型可通过归并、等值化为连续面,网格 化为离散面。 第一节 空间要素类型 第三章 空间分析 描述空间分布的三种类型 空间分布要素化原则 真实世界中所有现象,都可归结为点、线、面状分 布。 无论现象如何微小,都存在于三维空间之中。 现象分布形状是紧致的,则可由3维简化为1维点 现象分布形状是平面的,则可由3维简化为2维面 现象分布形状是细长的,则可由3维简化为1维线 第三章 空间分析 第二节 点型分析 第三章 空间分析 点状分布分析方法 最邻近点距离(形状) 中心位置(位置) 离散程度(位置) 第二节 点型分析 第三章 空间分析 点状分布分析方法 顺序法最邻近点距离 在某一地区分布n个点,以任意一点 作为基准点i,测定从这一点到其它 全部点的距离rij(ji,j=1,2,3n)。 测定从基准点i到区域边界的最短距 离rk,所测定的n-1个距离中,选出 rij=rk条件的距离(称为边界条件), 假定选出的是p个距离,从小到大顺 序排列为ri1,ri2rip,也就是说 ri1=ri2=rip=rk。 若i有p个此种距离,则称rip为i的第p 级距离。n个点依次作为基准点,得 到顺序化距离矩阵。 第二节 点型分析 第三章 空间分析 点状分布分析方法 顺序法最邻近点距离 由于各点的rk不同,因此每个点满 足边界条件的点距离的数量也不一 定相同,即上述矩阵每行的列数不 一定相同。该矩阵第一列之和就是 最邻近距离的合计,其最邻近平均 距离为: 对于不同地图比例尺所产生的影响 ,rip可以用 乘 d1/2而使其标准化( 其中d为研究区内点的密度,d=n/a 为研究区域的面积)。 第二节 点型分析 第三章 空间分析 点状分布分析方法 区域法最邻近距离 将点分布的区域分割成n个大小相等的齿轮状区域,量度各 区内各点到最邻近点的距离,得到几个距离值,从中选出满 足边界条件的距离的最小值。 最邻近距离对确定点状分布的特征有重要作用。 点状分布通常为均等、随机、凝集三种基本类型 。通过最邻近距离与随机分布(普阿松分布型) 最邻近距离比较(最邻近点指数)来确定分布类 型。 第二节 点型分析 第三章 空间分析 中心位置 确定点状分布的中心位置可以用相似于测度数字分布的 中心位置的方法,如众数、中位数、均值等。但其测度 的结果常常是表示图上的一定位置,而不是用数字表示 。 中项中心(中位数),又称为几何中心 平均中心(平均数),又称为重心 各种分位数,例如把四分位数等,运用到空间分布的测 度上也有重要作用。 它在点状分布图上,表示为南14 ,北14,东14,西14的垂直线所交叉的各点。 第二节 点型分析 第三章 空间分析 离散程度 对于中项中心(或平均中心)的离散程度; 对于某一个指定位置的离散程度; 各点相互之间的离散程度。 第二节 点型分析 第三章 空间分析 对于平均中心的离散程度 标准距离 dic为各点到平均中心的距离 离散程度是区域划分的基础和条件 区划,即区域划分,是根据一个或几个要素在空间分布上 的差异,根据质或量的不同将区域划分为若干个子区的过 程。 第二节 点型分析 第三章 空间分析 对于平均中心的离散程度 根据要素的质或量,假定量化为n个点,将区域划分K 个子区,第j个子区里包括nj个 点,计算子区内各个点 到子区平均中心(xj,yj)的距离,进行合计,再对k个子区 求和然后除以n,就得到区内标准距离dw: k个子区域内部离散程度的测度 第二节 点型分析 第三章 空间分析 对于平均中心的离散程度 从大区域的平均中心到各小区域平均中心距离的测定,并合 计求平均为 k个子区域间离散程度的测度 比率db/d可用于区域划分时显著性的测定。当比率趋于1时 ,表明区域间具有最大差异性,区域划分是必要而且有意义 的,反之区域间具有与整个区域相同的平均中心,划分子区 是不必要的。 第二节 点型分析 第三章 空间分析 对于中项中心的离散程度 对于中项中心的离散程度可由中项中心的两条垂线与四个1 4中心的四条垂线构成四个小矩形,各个小矩形面积的大 小表示对中心的离散程度,矩形面积大,则对中项中心的离 散程度也大,反之,矩形面积小,则离散程度也小。面积的 数值表示离散程度的大小。 离散程度的大小也可以用相对数值来表示。如把一个分布区 内小矩形面积除以14线所包围的矩形面积,便得出离散程 度指标Id=Q/A,式中Q为分布区小矩形面积;A为1/4中心线 所包围的矩形面积。运用A作分母,均匀分布的离散程度Id 是0.25,向周围极端分散的分布现象Id趋近于1,并且用相 对数表示的Id变化范围在0与1之间。 第二节 点型分析 第三章 空间分析 对于任何指定位置的离散程度 确定一个位置作为现象分布的中心,比如城市中心,农 作物分布中心,交通中心等,然后研究点状分布的上述 现象,并确定对中心的离散程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 机动车售后服务合同范本
- 美术高考集训班协议合同
- 现场勘测安全协议书模板
- 自建房盖楼出售合同范本
- 腌制品配送服务合同范本
- 鱼缸家用转让协议书模板
- 离婚前财产转移合同范本
- 混凝土施工承包合同协议
- 高压铝电缆收购合同范本
- 潍坊小餐饮加盟合同范本
- 2025至2030中国柴油内燃机行业发展趋势分析与未来投资战略咨询研究报告
- 水政执法水行政处罚课件
- 2025贵州省水利投资(集团)有限责任公司招聘84人笔试备考题库附答案详解
- 广东省广州市南沙区2025年八年级下学期期末数学试题及参考答案
- PICC的日常护理课件
- 2025年口腔医学专业毕业考试试题及答案
- 河南省郑州一八联合2025年八下物理期末综合测试试题含解析
- 2025年中学教师资格考试《综合素质》教育热点案例分析题实战解析及答案
- GB/T 45577-2025数据安全技术数据安全风险评估方法
- 中国瓷砖胶行业市场深度调研及发展趋势与投资前景研究报告2025-2028版
- 小学音乐花城版二年级上册歌曲《老爷爷赶鹅》教案
评论
0/150
提交评论