数据统计模型.doc_第1页
数据统计模型.doc_第2页
数据统计模型.doc_第3页
数据统计模型.doc_第4页
数据统计模型.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据统计模型多变量统计分析主要用于数据分类和综合评价。综合评价是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型,因为绝大多数地理现象难以用精确的定量关系划分和表示,因此模糊的模型更为实用,结果也往往更接近实际,模糊评价一般经过四个过程: (1)评价因子的选择与简化; (2)多因子重要性指标(权重)的确定; (3)因子内各类别对评价目标的隶属度确定; (4)选用某种方法进行多因子综合。1.主成分分析 地理问题往往涉及大量相互关联的自然和社会要素,众多的要素常常给模型的构造带来很大困难,为使用户易于理解和解决现有存储容量不足的问题,有必要减少某些数据而保留最必要的信息。 主成分分析 是通过数理统计分析,求得各要素间线性关系的实质上有意义的表达式,将众多要素的信息压缩表达为若干具有代表性的合成变量,这就克服了变量选择时的冗余和相关,然后选择信息最丰富的少数因子进行各种聚类分析,构造应用模型。 设有n个样本,p个变量。将原始数据转换成一组新的特征值主成分,主成分是原变量的线性组合且具有正交特征。即将x1,x2,xp综合成m(mp)个指标zl,z2,zm,即 z1=l11*x1+l12*x2+.+l1p*xp z2=l21*x1+l22*x2+.+l2p*xp . zm=lm1*x1+lm2*x2+.+lmp*xp这样决定的综合指标z1,z2,zm分别称做原指标的第一,第二,第m主成分,且z1,z2,zm 在总方差中占的比例依次递减。而实际工作中常挑选前几个方差比例最大的主成分,从而简化指标间的关系,抓住了主要矛盾。从几何上看,找主成分的问题,就是找多维空间中椭球体的主轴问题,从数学上容易得到它们是x1,x2,xp的相关矩阵中m个较大特征值所对应的特征向量,通常用雅可比(Jaobi)法计算特征值和特征向量。主成分分析这一数据分析技术是把数据减少到易于管理的程度,也是将复杂数据变成简单类别便于存储和管理的有力工具。地理研究和生态研究的GIS用户常使用上述技术,因而应把这些变换函数作为GIS的组成部分。 2.层次分析法(AHP)Hierarahy Analysis 是T.L.Saaty等在70年代提出和广泛应用的,是系统分析的数学工具之一,它把人的思维过程层次化、数量化,并用数学方法为分析、决策、预报或控制提供定量的依据。 AHP方法把相互关联的要素按隶属关系分为若干层次,请有经验的专家对各层次各因素的相对重要性给出定量指标,利用数学方法综合专家意见给出各层次各要素的相对重要性权值,作为综合分析的基础。例如要比较n个因素yyl,y2,yn 对目标Z的影响,确定它们在z中的比重,每次取两个因素yi和yJ,用aij表示yi与yJ对Z的影响之比,全部比较结果可用矩阵A(aij)n*n表示,A叫成对比矩阵,它应满足: aij0,aij=1/aij (i,j=1,2,.n) 使上式成立的矩阵称互反阵,必有aijl。 在旅游问题中,假设某人考虑5个因素:费用yl、景色y2,居住条件y3,饮食条件y4、旅途条件y5。他用成对比较法得到的正互反阵是: 在上式中a122表示yl与景色y2对选择旅游点(目标Z)的重要性之比为2:1;a137,表示费用yl与居住条件y3之比为7:1;a234,则表示景色y2与居住条件y3之比为4:1。如果A不是一致阵(即A12、A23;不等于A13;),需求正互友阵最大特征值对应的特征向量,作为权向量。 3.系统聚类分析60年代末到70年代初人们把大量精力集中于发展和应用数字分类法,且将这类方法应用于自然资源、土壤剖面、气候分类、环境生态等数据,形成“数字分类学”学科。目前聚类分析已成为标准的分类技术,在许多大型计算机中都存储了这种分析程序,从GIS数据库中将点数据传送到聚类分析程序也不困难。聚类分析的主要依据是把相似的样本归为一类,而把差异大的样本区分开来。在由m个变量组成为m维的空间中可以用多种方法定义样本之间的相似性和差异性统计量。例:用xik表示第i个样本第k个指标的数据xik表示第j个样本第k个指标数据;dij表示第i个样本和第j个样本之间的距离,根据不同的需要,距离可以定义为许多类型,最常见、最直观的距离是欧几里德距离,其定义如下: 依次求出任何两个点的距离系数dij(i,jl,2,n)以后,则可形成一个距离矩阵: 它反映了地理单元的差异情况,在此基础上就可以根据最短距离法或最长距离法或中位线法等。进行逐步归类,最后形成一张聚类分析谱系图,如图: 4.判别分析 判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法,与聚类分析不同,它需要已知一系列反映事物特性的数值变量值及其变量值。 判别分析就是在已知研究对象分为若干类型(组别)并已经取得各种类型的一批已知样品的观测数据基础上,根据某些准则,建立起尽可能把属于不同类型的数据区分开来的判别函数,然后用它们来判别未知类型的样品应该属于哪一类。根据判别的组数,判别分析可以分为两组判别分析和多组判别分析;根据判别函数的形式,判别分析可以分为线性判别和非线性判别;根据判别时处理变量的方法不同,判别分析可以分为逐步判别、序贯判别等;根据判别标准的不同,判别分析有距离判别、Fisher判别、Bayes判别等。判别分析与聚类分析同属分类问题,所不同的是,判别分析是预先根据理论与实践确定等级序列的因子标准,再将待分析的地理实体安排到序列的合理位置上的方法,对于诸如水土流失评价、土地适宜性评价等有一定理论根据的分类系统定级问题比较适用。判别分析依其判别类型的多少与方法的不同,可分为两类判别:多类判别和逐步判别。判别分析要求根据已知的地理特征值进行线性组合,构成一个线性判别函数Y,即 式中,Ck(kl,2,m)为判别系数,它可反映各要素或特征值作用方向、分辨能力和贡献率的大小。只要确定了Ck,判别函数y也就确定了。Xk为已知各要素(变量)的特征值。为了使判别函数Y能充分地反映出A、B两种地理类型的差别,就要使两类之间均值差Y(A)Y(B)2尽可能大,而各类内部的离差平方和尽可能小。只有这样,其比值I才能达到最大,从而能将两类清楚地分开。其表达式为: 判别函数求出以后,还需要计算出判别临界值,然后进行归类。不难看出,经过二级判别所作的分类是符合区内差异小而区际差异大的划区分类原则的。目前在地理信息系统中发展了一种多因素模糊评价模型,相当于模糊评判分析.该方法首先根据标准类别参数的指标空间确定各因素各类别对目标的隶属度,作为判别距离的度量,再结合要素的权重指数,采用适当的模糊算法,计算各地理实体的归属等级类别,作为评价的基础。该方法通过隶属度表达人们对目标与因素之间关系的模糊性认识,用适当的算法将这种认识量化并反映到结果的分类中,对于地理学中的评价与规划问题非常有效。 第一章:绪论 在经济生活中,受多种指标(随机变量)共同作用和影响的现象大量存在。有两种方法可同时对多个随机变量的观测数据进行有效地分析和研究。一种做法是把多个随机变量分开分析,一次处理一个去分析研究。但是,由于变量多,无法避免地存在变量之间的相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结论。另一种做法是同时进行分析研究。即用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示变量的内在规律。 所以,多元统计分析就是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。 多元分析包括的主要内容有:多元正态总体的参数估计和假设检验以及常用的统计方法。这些方法是多元数据图表示法、聚类分析、判别分析、主成分分析、因子分析、对应分析、多重多元回归分析、典型相关分析、路径分析、多维标度法等。 第二章:多元正态分布 第三章:多元数据图表示法 多元数据的图形表示方法有两种:一类是使高维空间的点与平面上的某种图形对应,以反映高维数据的某些特点或数据间的某些关系;另一类是在尽可能多地保留原数据信息的原则下进行降维,若能使数据维数降至 2 或 1 ,则可在平面上作图。 第一类方法有: u 轮廓图 u 雷达图 u 调和曲线图 u 星座图 第二类方法有: u 主成分法 u 因子分析法 第四章:聚类分析 聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为 Q 型聚类分析(对样本进行聚类)和 R 型聚类(对变量进行聚类)。 一、 距离和相似系数 对样品或变量进行分类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。 变量的类型有: n 间隔尺度:指变量用连续的量来表示 n 有序尺度:变量度量时没有明确的数量表示,而是划分一些有次序关系 的等级 n 名义尺度:变量度量时既没有数量表示,也没有次序关系 第五章:判别分析 判别分析要解决的问题是在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。 距离判别 距离判别的基本思想是:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第 i 类的重心距离最近,就认为它来自第 i 类。 第六章:主成分分析 基本思想 主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是:设法将原来众多具有一定相关性的指标(设为 个),重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来 个指标作线性组合,作为新的指标。第一个线性组合,即第一个综合指标记为 ,为了使该线性组合具有唯一性,要求在所有的线性组合中 的方差最大,即 越大,那么包含的信息越多。如果第一个主成分不足以代表原来 个指标的信息,再考虑选取第二个主成分 ,并要求 已有的信息不出现在 中,即 。 第七章:因子分析 因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。 第八章:典型相关分析 概念及基本思想 典型相关分析是研究两组变量之间的相关关系的一种统计分析方法,它能够真正反映两组变量之间的相互线性依赖关系。设两组变量用 及 表示,采用类似主成分分析的做法,在每一组变量中都选择若

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论