(信号与信息处理专业论文)高维数据投影聚类算法的研究.pdf_第1页
(信号与信息处理专业论文)高维数据投影聚类算法的研究.pdf_第2页
(信号与信息处理专业论文)高维数据投影聚类算法的研究.pdf_第3页
(信号与信息处理专业论文)高维数据投影聚类算法的研究.pdf_第4页
(信号与信息处理专业论文)高维数据投影聚类算法的研究.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(信号与信息处理专业论文)高维数据投影聚类算法的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

! ! 薹 高维数据投影聚类算法的研究 专业:信号与信息处理 硕士生:王辛杰 指导教师:玛争鸣教授 摘要 聚擞分析作为数掇挖掘的一种方法,占有重臻的地位。所谓聚类是一个将数 据集划分为若干类i ,c l u s t e r ) 的过程,是否相似的魔疑是基于数据对象描述的取值 寒确定豹。囊蔻,传统豹聚类舅法必是在低维数壤上酝褥了较好鹣效栗,熬整海 量数据特别是高维数搬的出现,这热聚类算法变褥异常困难。因此,如何对商维 数据迸彳亍有效聚类已成为数据挖掘研究中的热点。 本文铮露毫维鼗攥聚类曩拜黟 巍,善先簸理论上谎暖了旋畿缍数戆增热数据 无法在套维空间中密燕,揭示了商维数据中的稀疏性和维灾的存在以及它们所带 来的影响,并且把基于距离的高维数据聚类方法分为维规约、熬于网格的予空间 聚类算法、b i c l 蜮嚣方法移_ 授影子燮阕聚类算法,弱醛对它翻瓣葵法鬈怒终了疆 述。 本文主要对现有的投影子空闻聚类算法做了研究,在投影子空间聚类算法的 基础羔徽? 三方覆戆羧避: ( 1 ) 对于每类程藏相关空间中姆维上对数据聚合程度进彳予评价,采用密度 直方图的方法判别类中的每维是否为候选相关维。 ( 2 ) 辩嫉选穗关维舞逡了一耱瓣异豢噪声熬骞较好鲁耱羧瓣薅篷( 聚念中 心) 计算方法,可以有效的反映类中太部分数据的聚合特性,并且经过实验骏证 这种均值计算方法可以有效的消除噪声的影响。 ( 3 ) 戆数理襞谤枣簇设捡验鹣憋憋季| 入了骥滚程关维方蓑( 聚会疆发) 豹 计算,并鼠给出了芷恣分布的假设条件下候选相关维方差的计簿公式。 擒要 实验数据表明,本论文提出的方法可以有效地消除噪声的影响,取得了较好 的聚类效果。 关键享;聚类分辑毫维数攒缓设检验投影蒙类予空凝聚类 n ,。一蚀墅坠竖 一 _ _ _ _ _ _ - _ - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ w _ _ _ _ _ - _ _ _ _ _ _ - 一1 t h er e s 雌r e ho nl l 叼e c l e d 】u s 耋e n gl i r h i 曲d i m 蛆s i o n a id ;l t a m q j o r :s i l 毋8 la n di n 矗1 1 n a h o p 1 1 0 c e s s i n g 黼:怒砖瓤鼬 s 堪p 盯v j 鲫r :m 胁泖z l l 蝴g m l n g m a c l u s t c f i n ga a l y s j si so co f 确p o n 蛐l t e c h n i ”c si l ld 8 t al i 妇讯g c 1 u s t e r i n gi s t h ep r o c 。鹪o fg r o u p i n gt h ed a t ai n t oc l u s t e 糟t 妇lo b ! i e c t sw i t h i l lt h e 船m ec h s t c f b 张囊毽l ls 妇迸盯建y 弧翻芦i s o 珏| o o 鹅鑫l 基b 啦辩v 嚣y d 瓤s 汹l 雒姆。萄锹s 证 o t h 叮c l u s t e r s c l i ls 1 1 馨衲g 卸i a l y s i si sm en ”t l m dw h 叠c hp a n i t i o nc l a s st ot h ec _ l u s t e r c d o b j c c t sa sr c q u 缸e do ft h i l l g ,sc h a 糟糠e f i s t i c s w 桃t l l ed e v c k ) p m e n | o fc l u s t e f i l l g a 蕊l y s s ,a 期m 醅f 醴l 则建舔麓le 轴s t 嚣细匿a 缸i t 融搽k 融魏鼬v c b p e d ,诚赫莪 g c ti n s p r i n gr e s u h so n1 0 wd i m c 瞄j o n a ld a t a b u tt h 髂ct r a d i t i 0 黼l8 l g o 穗h m sc o u l d n o tg e 擘。o df c s u l t sw i mh i g hd i n 掉n s 叠o n a ld a t a 琢l 纛耋sp a 爹e fw ed o l 辩f e 皴c ho 珏氧塘hd 氧髓尊璐幻髓| 如t 毡。至 娃镬w e 遗如c e t h ec h 盯a c t e fo f h 培hd i m e n s i o n a ld a t a s p a r s c ,t h ec l i r s co fd 蛔c n s i o n a l i t y ,t h ce m p t y s p a c ep n o m e l 城锄dt :i re 赣毫c t a o c o f d i l 塔t os o m ep a p e f w cd 鹳s i 移t h cc l u s t e r i l l g a 琏净攮融蠛b 8 s 醴。矗d 钕礤裔f 氛魏海鳆嘴矗s i o 瓤| 蠡毫鑫弱稻 鼢w :幽雌然辆龆l r e d u 晌n ,g r j d - b a s e ds u b s p 蛾c l u s t 妯g ,踟l u s t e r 州e c t e dc l u s l 响l g w ea l d e s c r i b et h e 缸m a 缸i d e 然i l lt h i st k 塔i s 霹辩粼嘻o r 蠢yo f o 戳w = o 矗b a s 矗。娃泓| e dc 融s l c f 纽g 氧籍狂鞋黯氍施dh e 撑: ( 1 ) e v a l u a t i 玎gt kc l u s t e ro ne v e r yd i m e 粥i o n w bj u d g et h ec a n d i d a t er e l e v a n l d j i n c 璐j o nf o l c h 商4 8 t 料b ,d e 璐i 弘b a 辩dh i s t p 酽魏嫩o ft h cc h s l o r p 赇c l i d 藏。珏 e v e 罄纛i 越e 搽i o 珏 ( 2 ) ( 胁r o b u s t 雠t h o df o f m p 吡t i i l g1 0 i 训m e 矩o 埘c a n d i d a t er e k v a n t a b s t r a c t d i i i l e 璐主0 ni sp m p o s e d 妇n1 1 0 趣ee 】【i tj nc l u s t e r s a i l da c c d r d i n gt oe 冲c r i i n e m a l r e 辄n s ,t l l i sm e t h o dc a nr e d u c ct h ee 蛀的to f n o i s e 铲c a t l y ( 3 ) w 毫i n t f 0 “c et h eh y p o t h e s i st e s t i n go fs t a t j s t i ct h e o r yi n t ot h c 唧u t i l i go f 1 0 c a ls t a n d a r dd e v i a t i o n 如rt h cc a n d j d a t cf e l e v a n td j i l l e n s i o n a n dw eg i v et h e c 0 l p u t i l l gf o r m u l ao fl o c a ls t a l l d a r dd e v i a t i o na s s u m i n gt h ed a t a 如l l o wn o 姗a l d j s t f i b u t i o n a c c o r d j n gt oe 印e r i m e m a lr e s u n s ,t h eh y p o t h e s i st e s 血g - b a s e dp r o j e c t e d c l u s t e r i i l ga l g o 痂h l ni sb c t t e rt h a l lt h cc x i s t e dp r o j e c t e dc l u s t e r i n ga 塘p r i t h m s k e y w o r d s :c l u s t e f m g 柚a l y s i s ,h i g hd i i l l c n s i o m ld a t a ,t h eh y p o t h e s i st e s t 岵 p r o j c c t e dc l u s t e r i n g ,锄b s p a c cc l u s t 盯i n g r v 第l 鬻绪论 1 1 数据挖掘概述 第1 章绪论 l 。l 。l 数攒挖蕹戆产囊鼗发震 国际上第一次关于数据挖掘与知识发现的研讨会于1 9 8 9 年8 月在美国底特 德强开,k d 羚一词是在此学术会议土正式形藏豹。1 9 9 5 零提爵麓黧酝学术丈会 ( i n t e r n a t i o n 8 lc o n f e r e n c eo nd a t am i n i n g k n o w l e d g ed i s c o v e r yi n d a t a b a s e s ) ,即在加拿大弼开的第一麟知识发现( k n 帅1 e d g ed i s c o v e r yi n 阮t 痨a s e 鞠d ) 窝数撰挖搬( 陡t 8 搬n i n 旷固鹾) 国舔学零会议。蘧爱, “数据挖掘”开始流行,富既可以说是“知识发现”概念的深化,同时又可以认 为是“知识发现”的一个熏舞步骤。知识发现与数据挖掘是人工智能、机器学习 奄数据库技术耀结合豹产掳。 譬前,数据库中的知识发现( k d d ) 和数据挖掘( d m ) 技术己成为研究热点和焦 点。数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数 爨中兹痿塞翻知谈。 1 1 2 数错挖掘定义 数据挖掘( d 8 t 8m i n i n g ) 戆搬从大擞瓣、不完全的、胄噪声靛、模糊的、随 机的安际应用数据中,提取隐含在其申戆、入假事先誉知邋的、毽又是漤在有髑 的信息和知谈的避程,就是剩掰繇种包括数据仓库在肉的分析工具在海激数据中 发现模型和数掇阐关系并徽出颟溅的过程。熙广义的说法,数据挖掘意睬着在一 憋事实或观察数攥的集合中寻找模式的决策支持过程。数搬携掘作斑一门交叉魅 学科,涉及到机器学习、模式识剃、统计学、智能数据阵、知识获取、数据可视 他、海性能计算、专家系统等多个领域。从数獭库中发现融来的知谈可以用在信 崽管璞、过程控制、科学研究、决策支持等许多方蘑。糍麓三耱基础技本;海羹 数掇燕、强太的雾处理器计算机、数臻挖掘算法的逐渐成熟,数据挖掘投术的研 究进入了一个迅速发展的时期。 锻l 章绻论 1 1 3 数据挖掘的分类 出予数据挖掘滚予多个学群,因此数据挖撼磷究产生了大爨瓣、各穆零鼹类 型的数獭挖掘系统。糊此,就需要辩数据挖掘系统进行分类。搬据数据挖掘的功 能可以分为关联分析、分类和预测、聚类分析、时序模式、偏麓分析等 1 2 。 ( 1 关联分掇 关联分析是指在数据库的记录溅对象间抽取关联性。它展示了数据间_ ;i 乏知的 依赖关系。根据这种关联性就可从任一数据对象的信息来推断另一数据对象的信 患。关联憔是一秘统诗意义上的关系,姜殴暨霪发困子餐量关联夔程度。辫j 羹:, 除了发现出有意义的关联规则,需骤给定两个润镳:最小支持度和最小可储度。 目前关联分析研究已缀从单一概念胺次关联规则的发现发展到莎个概念层次的 关联怒粼豹发瑗。 ( 2 ) 分类分析 分类怒最基本的一种认知形式。数据分类就照对数据集中的每一类数据,挖 握出关予该类数撵敬撩述或摸墼。瑟这些数据库巾豹类蹩事先葶l | 躅谶练数豢戆立 起来的。作为数据挖搠的一个重要拳题,数据分类在统计学、机器学习、入工智 能等领域中得到了较早的研究,只魁近些年来,人们才将它与数据库技术结合起 来熬决实鼯瓣莲。在数援挖援中分类冀法豹硬突戒慕较多,鬻麓戆数据分粪算法 有:c a r t ,s l i q 等。 ( 3 ) 预测 预测怒瘸惩历史数摄援爨交纯娥禧,建立模黧,势霉琵模蘩寒镁溅泰寒数据 的种类,特征等。典型的方法是回i 翩分析,即利用大量的历史数据以时间为变量 建立线性或非线性回归方程。近年爿芝,新发展起来的神经网络方法,如b p 模魁, 宅实现7 # 线蠖襻本瓣学习,躯遵磐# 线性避数戆裁羯。 ( 4 ) 时序模式 通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。 薅痔模式中一令重要戆方法是“稠议瓣彦”。弱“禳钕对亭”豹方法,霉要按霹 问顺序查褥时间事件数据库并从中找出另一个或多个相似的时序事件。 ( 5 ) 偏差分析 缡差分搽基本愚戆楚寻援鬟察缝果与参蘸量之阉瓣有意义瓣差剐。遵避发凌 2 第1 章绪论 异常可以引起人们对特别情况加以注意。偏差分析的一个重要特征就是它可以有 效的过滤大量的不感兴趣的模式。 ( 6 ) 聚类分折 在机器学习中数据分类称为监督学习,而数据聚类则称为非监督学习,两者 所采用的方法相差甚远。数据聚类是将物理的或抽象的对象分成几个群体,在每 个群体内部、对象之间具有较高的相似性,而在不同的群体之间,相似性则比较 低。一般情况一个群体也就是一个类,它与数据分类不同的是,聚类结果主要基 于当前所处理的数据,事先并不知道类的结构及每个对象所属的类别。另外,数 据聚类计算量巨大,其时间复杂度也要比数据分类大得多。 1 2 聚类分析概述 1 2 1 聚类分析的定义 聚类( c l u s t e r i n g ) 是一个将数据集划分为若干类( c l u s t e r ) 的过程,并使得 同一个组内的数据对象具有较高的相似度,而不同组中的数据对象则是不相似 的。相似或不相似的度量是基于数据对象描述的取值来确定的。通常就是利用( 各 对象间) 距离来进行描述的。聚类分析源于数据挖掘、统计学、生物学、机器学 习等多个领域 3 儿4 5 。 1 2 2 聚类分析用刭的基本理论 ( 1 ) 常用的相似性度量准则 聚类算法中对相似度的判别是通过数据之间的数学关系来进行度量的。在聚 类中最常用的就是距离相似性和角度相似性度量 6 。 欧氏距离 欧氏距离也称欧几里德距离或者是欧凡里德距离平方根。样本向量z 和y 之 间的欧氏距离定义为: c z 。c 工,- 薹 r 。一,。f 2 】1 7 2 c ,一, j v 为样本的维数显然,若样本z 和y 位于同一类型区域,欧氏距离d 。o ,) ,) 是比较小的,若它们位于不同的类型区域里,d 。y ) 则是比较大的。 马氏距离 r a g 一“r g 一“) 1 ( 1 2 ) u 是均值向量,了1 是协方差矩阵,r 称为x 到u 的马氏距离。马氏距离排 除了不同特征之间相关性的影响。只有当是对角阵时,各特征之间才是完全 独立的;当? 是单位阵时,马氏距离等于欧氏距离。 明氏距离 d 。o ,y ,- 耄 r 。一y 。r 】1 7 。 这是若干距离的的同式。当a 一2 时, 以称为“街坊”( c i t yb 1 0 c k ) 距离。 角度相似性度量 ( 卜3 ) 它等于欧氏距离;当a 一1 时,它又可 样本x 和y 之间的角度相似性定义为它们之间夹角的余弦,其相似性定义为: s ,一扎南 n _ 4 ) 工7 y 是两个单位向量之间的点积,显然,s ( 。) 越小,x 和y 越相似。夹角余 弦度量s ) 反映了几何上相似性的度量,对于坐标系的旋转和放大缩小是不变 的量,但是对于位移和一般的线性变换是变化的。 ( 2 ) 常用聚类的评价准则函数 在样本相似性变量的基础上,聚类分析还需要一定的准则函数,才能把真正 属于同一类的样本聚合成一个类型的子集,而把不同类的样本分离开来。如果聚 类准则函数选得好,聚类质量就会高,同时,聚类准则函数还可以用来评价一种 聚类结果的质量。 假设数据共包含舟个数据,可以分为c 个类 q ,吐m ,m 。) , m ,一扛f 力,毒妒,工f d ,x 掣) ,可d 是属于类j 的第1 个点,工类m j 的第1 个点 的第七维,七一1 ,2 ,n ,为类珊,中的样本数,则可以有以下几个评价准准则; 4 第1 章绪论 误差半万和准则 j 。一蓦耋x f 力一m ,i i ( t s ) 其中川i 为 1 “, 叩砉善j “一c ,。是数据集中所有对象的方差之和, m 是类j 的平均值。这个标准适用于 各类样本比较密集且类中样本数目相差不大的情况。 加权平均平方距离和准则 小善啊 ( 1 - 6 ) 弘素与荟盈卜工2 ( 1 _ z ) 其中i 云酉为类,中的样本中任意取两个数的组合数的倒数。 磊剖并一x 1 1 2 为中样本间平方距离之和。s ;为甜类内样本间的平均平方距 离。 j t 为以先验概率弓为加权的总类内平均平方距离之和,其中先验概率鼻可 以用各类样本数以,与样本总数n 来估计,即只= 生,。1 ,2 c 。 忍 ,。准则和l 准则都是描述聚类结果的类内距离分布状态的,它们的值越小 说昵类内样本越密集,以聚合中心为极大值的局部区域密度越高,聚类结果越好。 类间距离和准则 为了描述聚类结果的类间距离分布状态,可以利用类间距离和准则j 。以及 加权的类间距离和准则,。:,它们分别定义: ,善一州) 7 ,一m ) ( 1 8 ) 第1 章绪论 j 一:善蜀伽,一州) 7 伽,一肌) ( 卜9 ) 其中m i 是类棚,的样本均值向量,m 为所有样本的均值向量删t 罗罗z f d , o _ 巴为类m ,的先验概率,可以用类,的样本数“,和样本总数n 的比值来估计a 散度矩阵准则 为了对聚类质量有一个全面的描述和考核标准,通过散射矩阵引导出一些准 则函数,它们不但反映同类样本的聚集程度,而且也反映不同类之间的分离程度。 类内散射矩阵s 。定义为 跏善o s , 类j 的散度矩阵为 p 孝耄酣吨删n 也) 7 类间散度矩阵为 & 。善弓伽,一肼) 似,一m ) 7 ( 卜1 0 ) ( 卜1 2 ) 弓为类的先验概率,m ,为类w j 的均值向量,m 为所有样本的均值向量 类似的,全部样本的总散度矩阵咒为 驴砉羹黔一m 脯) _ m ,7 ( 1 1 3 ) 其中从上面的公式我们可以得到& 2 s 。+ s ,显然,对于一种聚类结果,类 内散度越小越好,类间散度越大越好。 因此,作为量的描述可由散射矩阵的迹和行列式值引导出如下聚类准则: ,l 毒f ,( s :1 s 6 ) ,2 叫s :1 s 6i ,3 一护( s ;1 s ) ,j 刊s :1 s 工f 可以看出这些准则函数同时考虑了类内的散射和类间的散射,为了得到好的 聚类效果它们的值越大越好。 6 第1 章绪论 綦于样本与核相似性度量的聚类准则函数 定义一个核聱一鬣# ,) 表豕炎珊,其中是哆酌一个参数集,孩鬟,可 以是一个函数、一个样本子集或者其他的分类模型。在聚类过程中,某个样本x 是否麴瓣子类掰j ,应该囊量x 与核鬈,之阕豹稳钕性。这耱矮叛鳇霹鞋广义戆定 义为a o ,k i ) 。如果肖c 个类,令k 一暇,也) ,那么当a 为某种距离度量 时, 若a 辞,置j ) 2 ;溉 矗0 ,墨) ,则石甜,。 最终可以定义评价函数为 j x 。善薹删n 焉) ( 1 q 4 ) 如采样本与核相似性度量a 选择合适,那么准则函数以威该达到最小假。 上顾的评价准则硝数构成了现密聚类算法的相似性度量和评价的基础。 1 2 3 聚类分析算法嚣分类 耳稚,主要存在着如下几种聚类方法;划分方法、层次方法、基于密度的方 法、墓予麓格豹方法戳及基于模型瓣方法等 翻【7 。 ( 1 ) 划分方法 划分方法的主簧思想:给定一个包含n 个数据对象或元缎的数据库,一个划 分方法椽建数据懿x 个翻分,每个涮分表示一个簇。显k 墨n 。通常采用一个划 分标准及相似度函数来进行划分。这种聚类方法对小量的数据样本并且为球状簇 很有用,缎对大量数攒以及处理复杂形状的聚类嚣要进一步扩兖。比较典型的算 法:i ( 赫测s ,k m e l 弱,e 醴l i a ,e 淞l l 嘏s 等。n 溉矗n s 和l ( 一麓8 i d s 算法怒最为 典型的划分聚类算法。 k 一髓e a n s 算法:绘定类的个数k ,随桃选取k 令点份必聚类中心,剃震 距离交邋豹原赠,将n 个对象分劐k 个类中去,使得类内对象之蠲斡相识链最 大,而类之间的相似性最小。 k 一髓d i s 算法:首先兔每个爽髓意选撵一令代表对象,剩余救对象摄据 其与代表对象盼距离分愆绘最近静一个类,然蒿疑复追用j # 代裘对象来代替代表 对象,以改进聚类的质爨。 1 第】章缱论 现程困惑缀多人钞对黔m e a n s 算法中k 令中心点鲍选取和熏醛悸遴一步找到最 优的聚类串心点以及避免陷入局部黻优丽进行研究 酗( 9 。 ( 2 ) 层次方法 层次方法辩给定的数援对象集会遴行屡次的分解。搬撂层次分解跫骞底怒上 遥是自顶两下,形成了聚合翱分裂黼神算法。 聚合方法:以每一个数搬对象为一个分割作为初始状态,把离的近的对象合 羚烈一起,蕊到黼有懿数据都会并成一个( 层次静最离赢) ,或怒达戮终止条l 睾程 形成一定数目的类。 分裂的方法也称自上向下的方法,和聚合方法相反,初始条件魑把所有对象 都溪作一个类。在每一次成功的迭代中,大戆类分裂戏参懿类,袁到每一个对蒙 榔律为一个类移在,或达到终止条件。 层次方法锶一步都必须执行合并( 或分裂) ,但是它不能够纠雁聚类过程中的 镶误决定。改遴屡次方法数途径是将层次豢类霸其媳聚炎援末邀簿鬃艘,影皴多 输蔽聚类。比较典型的簿法; b i r c h 1 0 :是一个综合的滕次聚类方法,它用聚类特征( c f ) 和聚类 特缀樾 椰,埘为对应于一个子空间类的固 定边长,这个吐,参数由用户来确定。同时d o c 还定义了一个参数口来决定一个 最小类的数目,由用户给出,口和珊可以决定一个类的最小密度,同时还需要一 个参数口来平衡一个类所包含的数目和相关维的关系。最终的类是一个超矩形, 可以由a 、卢、( c ,d ) 来确定。 ( 4 ) 哪算法 h a i 研3 6 】算法是一个从下到上的算法,它以每个点为起点进行聚类并且对 每个类的所有维单独评价。这个算法可以用数学描述为:v j 7 ) t 懈】,v g ) , j - 1 ,j ,i 一1 ,i ;,n 为每个数据向量的维数,j 为类的总的数目,j 为类的 序列号,为第j 类中的总元素数日,f 为第j 类中的元素的序号。对于第j 类 的第七维可以用公式群n 一1 一生譬来评价,其中l 酬n 1 2 为第,类在第七维上的 方差,盯:为所有数据在第七维上的方差,给定一个阀值r 。( 其中o t r 。s 1 ) , 如果出现砖to 则令硝一o ,当趟,胄。时则认为为相关维,即数据在这一 维上密集,否则不为相关维,从而得到一个类的所有相关维的数目,如果数目大 于最小相关维数d 。,则标记为可以参加合并的类;当两个标记为可以合并的类 f ,合并时的选维公式为m s k ( 1 ,j ) 一r ? + 趟“一业毛芷,其中一? 为第,类在 第| | 维上的均值,弘j 为第f 类在第七维上的均值,脚。( f ,) 表示,j 合并时在第 七维上的分值,如果 船。( f ,j 卜r 。则认为这一维对将要合并成的新类为相关维, 否则为无关维,这样对这个合并可以得到相关维的个数,如果数目大于最小相关 维数d 。,则认为这两个类可以合并否则不可以合并,这样把类两两计算得到最 优的合并,从而合并成新类。 第2 章高维数据聚类分析的研究 虽然算法使用了动态阀值放松的方法,即r 。和d 。之间有线性关系的减小 从而把元素合并形成最终的聚类,但是这种简单的放松方法是文中给的一个经验 方法,在后面的对比试验中可以看到胄。和d 。的对应线性变化关系存在不合理 性。同时看到它的评价公式碰) 。1 一j _ ! 芝上,即算法试图用一对盯 m 进行规一 ( j t 化,但是盯;是所有数据的方差,而l 盯 n1 2 是第j 个类的方差,盯;对l 力1 2 并没 有真正的起到规一化的作用,并且这种直接用类中的样本均值和样本方差的方法 对噪声的抵抗能力特别差,当出现噪声时样本均值将偏离大部分样本均值并且导 致方差过大,不能反映类中大部分数据的聚合程度。 第3 章类均值的鲁棒性计算方法 第3 章类均值的鲁棒性计算方法 3 1 均值和方差的计算 在投影子空间聚类算法中对于类在其子空间中的每一维上对数据会聚程度 进行评价时可以利用均值( 聚合中心) 和方差( 聚合程度) ,最简单的方法是直 接利用类中所有数据的均值和方差进行评价,这也是h a r p 算法采用的思想,在 投影聚类中样本均值和样本方差用数学描述为: 一个包含m 个数据的维数据集d ,形成,个类 c 。,c :c i g ) ,c f 表 示第j 个类,c ,= 协:n ,z ,d ? ) ,d 表示第j 个类中的第,个数据, 0 n = o 譬,璀1 ,礤z 拶) ,其中罐为z

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论