三种数值分析方法报告.doc_第1页
三种数值分析方法报告.doc_第2页
三种数值分析方法报告.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

方差分析(Analysis of variance, ANOVA)的基本思想是将所有观察值的总变异分解成不同的变异来源,即对总变异的自由度和平方和进行分解,进而获得不同变异来源的方差估计值。这种方法是从观测样本变量的方差入手,研究诸多控制变量中哪些是对观测变量有显著影响的变量。系统聚类分析(Hierarchical Cluster Analysis, HCA)根据一批样本(参数)的亲疏程度对观测样本进行分类,是将对象的集合区分并加以组合成由类似的对象组成的多个类的分类过程,其目标就是在收集数据的基础上,根据相似度来进行分类。分类的依据一般按照样本间的距离或相似系数来进行,按样本间的距离来定义类间距离,首先将n个样本各自看作一类,然后对两类之间距离最小的样本进行合并,最后重新计算类间距离。这种区分和合并的过程反复进行,直到所有的样本可以合并为一类,结果最终会在聚类系谱图中反映。SAS软件中,系统聚类分析运行程序如下:其中观察对象名用来表示,每一行变量所对应的观察对象序号用1,2j来表示,x为变量,ix1,ix2ixn为每一列变量所对应的变量名,每一行变量数用n表示,j为每一列观察值总数(变量数),method=average表示算法为类平均法。主成分分析(Principal Component Analysis, PCA)是一个减少变量个数、简化数据结构的有效工具,通过线性转换将多个变量中选出较少个数重要变量的一种重要的多元统计分析方法。这种分析方法的特点就是简化运算,因为在分析多个变量数据的过程中,各个变量之间往往会存在着一定的相关性联系,如果用多元分析方法同时对这些变量进行分析往往会很复杂。可以利用变量之间的相关性来从新构造一个能反映原变量信息的综合参数(变量),在此基础上再进行分析,这样会大大简化分析的过程。比如有p个数值变量,通过主成分分析会由这些变量产生p个主分量。其中原始变量的每一个线性组合会形成一个分量,其系统为数值变量的相关系数矩阵(或方差、协方差矩阵)的特征向量,特征值为方差。排列顺序按照主分量的特征值大小,第一主分量为特征值最大的一个,具有最大的方差。主成分分析运行程序如下:其中观察对象名用来表示,每一行变量所对应的观察对象序号用1,2j来表示,x为变量,ix1,ix2ixn为每一列变量所对应的变量名,每一行变量数用n表示,j为每一列观察值总数(变量数),method=average表示算法为类平均法。主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差一协方差结构。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。聚类分析是依据实验数据本身所具有的定性或定量的特征来对大量的数据进行分组归类以了解数据集的内在结构,并且对每一个数据集进行描述的过程。其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。也就是说,聚类分析是把研究对象视作多维空间中的许多点,并合理地分成若干类,因此它是一种根据变量域之间的相似性而逐步归群成类的方法,它能客观地反映这些变量或区域之间的内在组合关系。 聚类分析是通过一个大的对称矩阵来探索相关关系的一种数学分析方法,是多元统计分析方法,分析的结果为群集。对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。并且新的变量彼此间互不相关,消除了多重共线性。这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量。在主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x,x2,x3,经过坐标变换,将原有的p个相关变量xi作线性变换,每个主成分都是由原有p个变量线性组合得到。在诸多主成分zi中,z在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。并且新的变量彼此间互不相关,消除了多重共线性。主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关。它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次类推。若共有P个变量,实际应用中一般不是找P个主成分,而是找出m(mp)个主成分就够了,只要这m个主成分能反映原来所有变量的绝大部分的方差。主成分分析可以作为因子分析的一种方法出现。聚类分析算法是给定in维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。聚类可以理解为:类内的相关性尽量大,类间相关性尽量小。聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。聚类分析中并没于产生新变量,但是主成分分析产生了新变量。主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0,方差为1的无量纲数据。聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。如果是正态分布应该采用z分数法。主成分分析1、优点。首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价再次它在应用上侧重于信息贡献影响力综合评价。2、缺点。当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。命名清晰性低。聚类分析1、优点:聚类分析模型的优点就是直观,结论形式简明。2、缺点:在样本量较大时,要获得聚类结论有一定困难

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论