第7部分 方差分析.docx_第1页
第7部分 方差分析.docx_第2页
第7部分 方差分析.docx_第3页
第7部分 方差分析.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

方差分析与聚类优化之间的联系方差分析与聚类优化二者之间其实说不上有什么联系,可是我为什么要把这二者硬拉扯到一起呢?源于我最近看了这两方面的书籍和论文。不是闲扯淡,这二者之间还真有那么些相似,听我慢慢道来。先介绍二者的基本概念,随后在详细说这二者之间的一些联系。方差分析是R.A.Fisher发明的。在我们的生产和科学实验中,所考察的指标受到一些因素的影响。需要研究的问题是:各个因素对指标的影响程度,哪些因素是主要的,哪些因素是次要的。由于考察指标在受到各种明确的因素的影响的同时,也受到随机误差的影响。因此,在科学实验中,除了要分析各种明确的因素对指标的影响情况外,还要分析随机误差的影响情况。通过考察指标的因素多少,可以将方差分析分为单因素方差分析和多因素方差分析,以下我们仅从单因素方差分析进行解释,进而说明单因素方差分析同聚类优化之间的联系。单因素方差分析中,我们只需要考虑一个因素对指标的影响。下面举一个单因素方差分析的例子:某电子厂用四种不同配料方案(A1-A4)生产出四批元件,在每一批中取出若干个装配在机器上进行寿命试验,得到如下试验,得到如下数据元件品种A11600,1610,1650,1680,1700,1720,1800 均值:1680.0A21580,1640,1640,1700,1750 均值:1662.0A31460,1550,1600,1620,1640,1660,1740,1820 均值1636.25A41510,1520,1530,1570,1600,1680 均值1568.33我们需要考察的就是四种配料方案:A1,A2,A3,A4对生产出来的元件寿命是否有影响。在这里元件寿命即我们要考察的指标。配料方案就是我们考虑的因素,显然这里我们只考虑这一个因素,因此这是个单因素方差分析的例子。而配料方案中共有A1,A2,A3,A4四种配料方法,我们叫做配料方案这一因素下的四个水平。通过观察上述数据,我们发现,在每一个水平上得到的数据是不同的,这种不同是由什么造成的呢?是由随机误差造成的。大家想想啊,在同一水平上,设备和测量方法都一样,显然得到的就是由随机的误差造成的。而在各个水平之间,我们发现测量均值也是不相同的,而这种不同是由什么造成的呢?我们知道不同的水平上,配料方案的不一样,造成测量结果不一样这种误差叫做水平误差。既然得到的误差是由水平误差和随机误差两方面决定,自然要考虑这两方面哪一方面占主要因素。如果水平误差占主要因素,那么显然配料方案对元件使用寿命有很大影响。如果水平误差不是占主要因素,而是和随机误差差不多。那么配料方案对元件寿命的影响就不是显著的。因此我们的问题就转化成了水平误差和随机误差的比值问题。那么接下来,就得找找水平误差和随机误差的统计量。不然,如何比较他们的大小呢?在概率论课本中,通常是通过离差平方和得到水平误差和随机误差的统计量的。下面推演下这个过程ST=sj=1nji=1(XijX)2其中 ST 称作离差平方和。其中j=1.s表示共有s个水平,i=1. nj 表示在每一个水平j上,有 nj 个观察量。 Xij 表示第j个水平中的第i个观察结果。 X 表示所有 Xij 的平均值。下面对 ST 做一些推导:ST=sj=1nji=1(XijX.j)+(X.jX)2=sj=1nji=1(XijX.j)2+sj=1nji=1(X.jX)2+2sj=1nji=1(XijX.j)(X.jX)在这里,我们把分解后的第一项,第二项分别记作 SE , SA ,而其中的第三项通过进一步的推导是可以得出为0的。因此得SE=sj=1nji=1(XijX.j)2SA=sj=1nji=1(X.jX)2ST=SE+SA详细观察下 SE ,发现它就是随机误差平方和,因为考虑的都是每一个水平内部的观察值同这一水平内部的平均值之间的差值,这个值在每次测量条件都一直的情况下,是随机产生的误差。从某方面我们也能够发现, SE 表现的是每一组内的数据平均和单个观察值之间的离差和。这里强调下是每一个水平内,即组内。再看 SA ,是每一个水平下的样本均值同数据总平均之间的差异。 SA 也被称作效应平方和。我们前面强调,要比较水平误差和随机误差的大小,以决定某一因素对生产或科学实验的影响是否强烈。而这里的就是我们需要的随机误差和水平误差。而我们如果直接把数值带入上述的两个公式来做的话,无法从数学的严密性上考量,同时也无法从一个统一的标准来考量。因此,需要考虑 SE , SA 的统计量,进而寻找统计量之间的关系。对 SE 有如下统计特性: SE22(ns) ,说明的自由度为n-s对有如下统计特性: SA22(s1) ,的自由度为s-1又由于相互独立,因此,二者的比值满足F分布的特性,将二者组合成F分布的样子,SA/(s1)SE/(ns)=SA/2(s1)/SE/2(ns)F(s1,ns)这样我们就能够查F分布的数据就可以得到结果了。这是我关于方差分析的一个简单描述。 下面说一下聚类优化:在聚类过程中,我们把聚在一起的称作一个簇。那么久可以得到聚类优化的一个原则就是簇内相似度高,簇间相似度低。符合这个标准的聚类优化过程,就可以说是一个号的聚类优化算法。这里我们以最简单的自底向上的层次聚类来作为具体的聚类算法,以欧几里得距离来作为数据之间的距离来考虑。自底向上的层次聚类的聚类个数是一个从n到1的过程,而一般如果能够在起初确定聚类个数k的话,就不存在我们说的聚类优化的问题,我们所说的问题,就是在提前不知道k的情况下,找到一个合理的k值,满足簇内相似度高,而簇间相似度低。在以欧式距离作为距离函数来进行层次聚类时,如何满足是簇内相似度高,而簇间相似度低呢?我们通过下面两个公式来表示簇内距离 Dintra ,和簇间距离 Dinner 。先把问题形式化一下:有n个数据点 X1,X2,X3,X4.Xn ,每个数据点表示有s个维度,即 Xi=(X1i,X2i.Xsi) 。这里假设有K个簇,定义每个簇的中心点为 Xk=1nnkj=1Xjk 其中 k(1.K) , Kk=1nk=n所有数据的中心点记作 X=1nni=1Xi那么簇内距离可以表示为: Dintra=nkj=1XjkX

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论