数据挖掘各类算法综述_第1页
数据挖掘各类算法综述_第2页
数据挖掘各类算法综述_第3页
数据挖掘各类算法综述_第4页
数据挖掘各类算法综述_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘各类算法综述了解数据挖掘的各类算法的原理和应用领域以及优缺点对于在实际的工作中选择合适 的方法,并加以改进有很重要的指导意义。1.1关联规则挖掘算法R Agrawal等人于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法。此后人们对关联规则的挖掘问题进行了大量研究, 包括对Apriori算法优化、多层次关联规则算法、多值属性关联规则算法、其他关联规则算 法等,以提高算法挖掘规则的效率。1) Apriori 算法Apriori算法是最有影响的挖掘布尔关联规则频繁项集的算法。算法Apriori利用“在给定的事务数据库 D中,任意频繁项集的非空

2、子集都必须也是频繁的”这一原理对事务数据库进行多次扫描,第一次扫描得出频繁1-项集L ,第k (k>1)次扫描前先利用第 k-1次扫描的结果(即频繁k-1项集Lk-1)和函数Apriori gen产生候选k-项集Ck,然后在扫描过程 中确定Ck女中每个元素的支持数,最后在每次扫描结束时计算出频繁k-项集Lk,算法在当频繁n-项集为空时结束。算法:Apriori ,使用根据候选生成的逐层迭代找出频繁项集输入:事务数据库 D;最小支持度阈值 min_sup输出:D中的频繁项集L方法:(1) L 1 = find_frequent_1- itemsets(D);(2) for (k = 2;L

3、k-1 工;k +)Ck = apriori_ge n(Lk-1,min _sup);for each tran sacti on t D /scanD for countsCt = subset (Ck,t);/getthe subset of t that are can didatesfor each can didate c Ctc.co un t+;(9)L k = c Ck | c.count> min_sup ;(10) (11) return L = U k L k;II apriori_gen用来产生候选 k项集procedure apriori_gen(L k-1 :

4、 (k-1 )项频繁集,min_sup :最小值尺度)(1) for each itemsetI1 L k-1(2) for each itemsetI2 L k-1(3) if ( l11 = l21 ) A ( l12 = l22 ) A , A ( l1k-2 = l2k-2 ) A ( l1k-1 < l2k-1)then c =l1自连接l2 ;II产生候选项集(5) if has_ in freque nt_subset(c , L k-1 ) the n(6) delete c;II根据性质作剪枝操作(7) else add c to C k ;(8) (9) return

5、 Ck ;IIprocedure has_ in freque nt_subse(c , L k-1 )(1)for each(k-1)-subset s of cifs/ L k-1 thenreturnTrue;(4) return false;appriori_gen 做两个动作:连接和剪枝。在连接部分,Lk-1 与 Lk-1 连接产生可能的候选(1-4 步)。剪枝部分(第 5-7 步)使用 Apriori 性质删除具有非频繁子集的候选。非频繁 子集的测试在过程 has_infrequent_subse 中。有了频繁项集就可以通过如下的方法得到强关联规则:对于每个频繁项集 L , 产生

6、L 的所有非空子集对于 L 的每个非空子集 s, 如果support_co un t(L)/support_co un t(s)> min_conf ,则输出规则"s t(L-s )”。其中min_conf是最小置信度阈值为了提高 Apriori 的有效性,后来又出现了基于散列、实物压缩、划分、采样和动态项 计数多个改进算法。然而对于基于 Apriori 的频集方法,即使进行了优化,一些固有的缺陷 还是无法克服。 Apriori 的算法及其优化算法可能产生大量的候选集。当长度为1的频集有10000个的时候,长度为 2的候选集就会成指数倍增长,其候选集个数将会超过10 。如果要生

7、成一个很长的规则时,要产生的中间元素也是巨大量的,此可采用FP树算法解决。2)FP树算法FP树算法采用了一种FP-growth的方法。它采用了分而治之的策略:在对数据库进行第 一次扫描后,把找到的频集项压缩进一棵频繁模式树 (FP-tree) ,同时依然保留其中的关联 信息。 随后再将 FP-tree 分化成一些条件库, 每个库和一个长度为 1的频集相关。 然后再对这 些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个 FP-tree 可以放入主存中。 实验表明, FP-growth 对不同长度的规则 都有很好的适应性, 同时 在效率上比 Apriori 算法有很大的

8、提高。算法:FP-增长。使用FP-树,通过模式段增长,挖掘频繁模式。输入:事务数据库D;最小支持度阈值min_sup;输出:频繁模式的完全集方法:(1)按以下步骤构造FP-树:(a)扫描数据库D一次。收集频繁项的集合F和它们的支持度。对F按照支持度降 序排序,结果为频繁项表 L。(b)创建FP-树的根节点,以“ null ”标记。对于D中每个事务Trans,执行: 选择Trans中的频繁项,并按L中的次序排序。设排序后的频繁项表为p|P, 其中p是第一个元素,而 P是剩下的元素表。调用insert_tree(p|P,T) 。该过程执行情况如下:如果T有子女N使得N.item-name = p.

9、item-name,则N的计数增加1 ;否则创建一个新节点 N,将其计数设置为1,链接到它的父节 点T,并且通过节点链结构将其链接到具有相同item-name的节点。如果P非空递归地调用 insert_tree(P,N) 。(2) FP-树的挖掘通过调用 FP-growth(FP_tree, null)实现。该过程实现如下:Procedure FP_growth(Tree, a ) if Tree含单个路径P then for路径P中节点的每个组合(记作 3 ) 产生模式3 U a,其支持度support =3中节点的最小支持度 else for each a i 在 Tree 的头部 产生一

10、个模式 3 = a iUa ,其支持度 support = a i .support 构造3的条件模式基,然后构造 3的条件FP-树Tree 3 if Tree 3 工 then 调用 FP_growth(Tree 3 ,3 );3) 多维关联规则挖掘 它指关联规则涉及两个或两个以上变量。根据是否允许同一个维重复出现,多维关联规则又可以细分为维间关联规则 (不允许维重复出现 )和混合维关联规则 (允许维在规则的左 右同时出现 )。比如“年龄 20 至 30,喜欢郊游一喜欢游泳”就是混合维关联规则。维间关 联规则和混合维关联规则的挖掘还要考虑不同数据字段的类型。1.2 分类算法 近年来,数据挖掘

11、分类已提出了很多算法,按大的方向分类主要有:决策树、关联规 则、贝叶斯、神经网络、规则学习、 k- 临近法、遗传算法、粗糙集以及模糊逻辑技术等1) 决策树分类算法 决策树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输出, 而每个树节点代表类或类分布。 树的最顶层节点是根节点。 决策树算法的类型主要有基于决策树归纳、强调在数据挖掘中可伸缩性的决策树算法、决策树 归纳属性选择度量比较等。决策树归纳算法ID3算法是较早也是最著名的决策树归纳算法。该算法利用信息论中的互信息(信息增益)寻找数据中具有最大信息增益的属性字段,建立决策树的一个节点,再根据该属性字

12、段 的不同取值建立树的分支。在每个分支子集中重复建立树的下层节点和分支过程。这种方法的优点是描述简单、分类速度快,特别适合大规模的数据处理。但ID3算法是借用信息论中的互信息作为单一属性能力的度量,其启发式函数并不是最优的,存在的主要问题有: 互信息的计算依赖于属性取值的较多特征,而这一属性不一定最优;ID3是非递增学习算法;抗噪性差,训练例子中正例和反例较难控制。对ID3算法的早期改进算法主要是ID3的增量版ID4、ID5及C4. 5、CART FAC和CHAID算法等。后期的改进算法主要有QUES和PUBLIC等。算法:Generate_decision_tree由给定的训练数据产生一棵判

13、定树输入:训练样本samples,由离散值属性表示;候选属性的集合attribute_list输出:一个判定树方法: 创建节点N;(2) if samples者E在同一个类 C then(3) 返回N作为叶结点,以类C标记;(4) if attribute_list为空 the n(5) 返回N作为叶节点,标记为samples中最普通的类;/多数表决(6) 选择attribute_list中具有最高信息增益的属性test_attribute;(7) 标记节点 N为 test_attribute;(8) for each test_attribute中的已知值 ai / 划分 samples(9

14、) 由节点N长出一个条件为test_attribute = ai的分枝(10) 设si是samples中test_attribute =的样本的集合;/ 一个划分(11) if si 为空 then(12) 加上一个树叶,标记为samples中最普通的类;(13) else力口上一个由 Generate_decision_tree(si,attribute_list-test_attribute)返回的节点;强调可伸缩性的决策树算法以上讨论的算法对于小的数据集是很有效的。当这些算法用于现实世界中非常大的数 据库的挖掘时, 有效性和可伸缩性就成了需要关注的问题。 大部分决策树算法都限制训练样 本

15、驻留主存, 这一限制制约了这些算法的可伸缩性。 为解决这一问题, 一些可伸缩性的决策 树算法相继推出,如 SLIQ、SPRINT “雨林”和BOA算法等。2) 贝叶斯分类算法贝叶斯分类基于贝叶斯定理。 分类算法的比较研究发现, 一种称作朴素贝叶斯分类的简 单贝叶斯分类算法可以与决策树和神经网络分类算法相媲美。理论上讲, 与其他的分类算法相比,贝叶斯分类具有最小的出错率。 然而由于对其应用的假定的不准确性以及缺乏可用的 概率数据,导致实践中并非如此。贝叶斯分类还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。朴素贝叶斯分类的工作过程:(1) 每个数据样本用一个n维特征向量X = x 1

16、,X2,X3.,x n表示,分别描述对n个属性Al,A2,A3,An样本的n个度量。(2) 假定有m个类G,C2,Cmo给定一个未知的数据样本 X(即没有类标号),分类法将 预测X属于具有最高后验概率(条件 X下)的类。即是说,朴素贝叶斯分类将未知的样本 分配给 Ci , 当且仅当p(Ci|X) > p(C j |X) ,1 w j w m,J 丰 i 这样最大化 p(Ci |X)。(3) 由于P(X)对于所有类为常数,只需要 P(X|C i)P(Ci)最大即可。如果类的先验概率未知,则通常假定这些类是等概率的。 并据此对 P(Ci|X) 最大化。否则最大化 P(X|Ci)P(Ci)。(

17、4) 给定具有许多属性的数据集,计算P(Ci|X) 的开销可能非常大。为降低开销,可以做类条件独立的朴素假定。 给定样本的类标号, 假定属性值相互条件独立, 即在属性间, 不存在依赖关系。 为对未知样本X分类,对每个类Ci,计算P(X|Ci)P(Ci)。样本X被指派到类Ci,当且仅P(X|Ci) P(Ci) > P(X| C j)P(Cj) , 1 W j W m,JM I换言之,X被指派到其(X|C i )P(C i)最大的类Ci3) 神经网络算法神经网络是大量的简单神经元按一定规则连接构成的网络系统。它能够模拟人类大脑的结构和功能,采用某种学习算法从训练样本中学习,并将获取的知识存储

18、在网络各单元之间的连接权中。神经网络主要有前向神经网络、 后向神经网络和自组织网络。在数据挖掘领域,主要采用前向神经网络提取分类规则。神经网络算法最早在文献10中得出,此后又提出许多变形,包括替换的误差函数、网络拓扑的动态调整、学习率和要素参数的动态调整。近年来,从神经网络中提取规则受到越来越多的关注。这主要有以下二种倾向:(1)网络结构分解的规则提取;(2)由神经网络的非线性映射关系提取规则。未来神经网络的发展可向进一 步降低算法的复杂度、提高所提取规则的可理解性及算法的适用性方向发展。下面是后向传播算法算法:后向传播。使用后向传播算法的神经网络分类学习输入:训练样本sample,学习率I,

19、多层前馈网络network输出:一个训练的、对样本分类的神经网络方法:(1) 初始化network的权和偏置(2) while终止条件不满足 (3) for samples中的每个训练样本X(4) / 向前传播输入(5) for隐藏或输出层每个单元j (6) Ij = 2 i Wj O + 9 j ; / 相对于前一层i,计算单元j的净输入-Ij一(7) O j = 1 /(1 + e );/计算每个单兀j的输出(8) II向后传播误差(9) for输出层每个单元j(10)Errj = Oj (1-O j )(Tj - O j ); II计算误差(11)for由最后一个到第一个隐藏层,对于隐藏

20、层每个单元(13)for network中每个权Wij(14) W= (l)Err j Oj ; / 权增值(15)Wij =Wij + Wij; / 权更新(16)for network中每个偏差 0 j (17) 0 j= (l )Err j ; / 偏差增值(18)0 j =0 j + 0 j ; / 偏差更新(19)4)遗传算法(12)Errj = Oj (1 - Oj)工Err kWk ; /计算关于下一个较高层k的误差遗传算法是模拟生物进化过程的全局优化方法,将较劣的初始解通过一组遗传算子(繁殖 即选择、交叉即重组、变异 即突变 ),在求解空间按一定的随机规则迭代 搜索,直到求得问

21、题的最优解。遗传算法在数据挖掘领域的主要应用有:(1)用它和BP算法结合训练神经网络,然后从网络提取规则; (2) 分类系统的设计,如编码方式、信任分配函 数的设计以及遗传算法的改进等。遗传算法用于数据挖掘存在的问题是:(1) 算法较复杂,(2) 收敛于局部极小的过早收敛等难题未得到解决。5) 其他基于案例的推理(Case Based Reasoning,CBR分类法是基于要求的。不像最临近分类 法将训练样本作为欧氏空间的点存放,CBR?放的样本或“案例”是复杂的符号描述。它试图组合临近的训练案例, 提出新案例的解。 基于案例的推理可能使用背景知识和问题求解策 略,以便提出可行的组合解。 基于

22、案例的推理存在的挑战包括找到一个好的相似度量,开发对训练案例索引的有效技术和组合解的方法。粗糙集方法用于分类主要发现不准确数据或噪声数据内在的结构联系,它用于离散值属性,也可以用于特征归约和相关分析。粗糙集已用于许多应用的特征归约和专家系统中。模糊集方法提供了在高抽象层处理的便利。 一般地, 模糊逻辑在基于规则的系统中的使 用涉及: (1) 将属性值转换成模糊值; (2) 对于给定的新样本,可以使用多个模糊规则; (3) 组合上面得到的和,得到一个系统返回的值。1.3聚类算法目前,文献中存在着大量的聚类算法,通常可以分为基于分割的、基于层次的、基于 密度的、基于网格的和基于模型的聚类方法五大类

23、。1)分割的聚类方法分割聚类算法是将数据集分成若干子集即给定一个例子的集合x,其中包括n个数据对象,并要生成数目为 K的簇。常用的基于分割的聚类方法有 K一均值(K means)法和K一中 心法,CLAR法和 CLARAN法等。K-均值法K-均值法首先由MacQuen提出,它以K为参数,将n个对象分成K个簇,以使簇内具有较 高的相似度,而簇间的相似度较低. 其相似度的计算根据一个簇中对象的平均值来进行。此方法能有效地处理簇内密集,但簇间区别明显的数据的聚类,其时间复杂度为o(nkt),(其中t是迭代次数),因此有相对较高的可伸缩性和高效率。但它只能聚类数值型的数据,且要求用户必须事先确定参数K

24、,也不适合发现非凸面形状的簇或大小差别很大的簇,聚类结果 与数据的输入顺序也有明显的关系,对于“噪声”和孤立点数据 也是敏感的。算法:K-均值。划分的k-均值算法基于簇中对象的平均值输入:簇的数目K和包含n个对象的数据库输出:k个簇,使平方误差准则最小方法:(1) 任意选择k个对象作为初始的簇中心(2) repeat(3) 根据簇中对象的平均值,将每个对象(重新)赋给最类似的簇;(4) 更新簇的平均值,即计算每个簇中对象的平均值(5) un til不再发生变化K-中心点方法它的基本策略是:首先为每个簇随意选择一个代表对象,剩余的对象根据其与代表对象的距离分配给最近的一个簇,然后反复地用非代表对

25、象来替代代表对象,以改进聚类的质量。这种方法能有效处理小数据集,且也能有效处理“噪声”和孤立点,但其仍要求用户输入参数K,且算法的执行代价比 K-均值法高,没有良好的伸缩性。算法:k-中心点。对基于中心点或者中心对象的划分的典型k-中心点算法输入:结果簇的数目k,包含n个对象的数据库输出:k个簇。使得所有对象与其最近中心点的相异度总和最小方法:(1) 随机选择k个对象作为初始的中心点(2) repeat(3) 指派每个剩余的对象给离它最近的中心点所代表的簇;(4) 随机地选择一个非中心点对象Orandom; 计算用Qandomf弋替O的总代价S;(6) if S > O,then Ora

26、ndom替换O,形成新的k个中心点的集合;(7) until 不再发生变化;Clara 算法Clara(ClusteringLarge Applications)算法的主要思想是:不考虑整个数据集合,选择实际数据的一小部分作为数据的样本,然后用K-中心点法选择中心点。Clara算法能够处理大量的数据,其每步的迭代时间复杂度为2o(k s + k( n k ),其中,S是样本的大小,K是簇的数目,而n是所有对象的总数。因此其的效率取决于采样的大小。但运用该方法时, 一般不太可能得到最佳的结果。Clarans 算法Clarans(Clustering Large Applications base

27、d upon RandomizedSearch)算法是一种基于随机搜索的方法,它是在 Clara 算法的基础上提出来的,它与 Clara 算法不同的是:在 Clara算法寻找最佳的中心点的过程中,采样是不变的,而Clara ns算法在每一次循环过程中所采用的采样都是不一样的。此方法的优点是一方面改进了 Clara 的聚类质量,另一方面拓2 展了数据处理量的伸缩范围。其有较好地聚类效果,但其计算复杂度仍为O(n ),因此,低效仍是其存在的缺点之一, 虽对噪声数据不敏感, 但对数据输入顺序敏感, 只能聚类凸状或 球型边界。2) 层次聚类方法现在层次聚类法是把对给定的数据集按层次进行分解, 结果是形

28、成一棵以数据子集为节点的 类别树。 根据层次分解的方式不同, 其又可以分为凝聚的层次方法和分裂的层次方法。 比较常用的层次聚类方法有 BIRCH法、CUR法等。BIRCH 法:利用层次方法的平衡迭代规约和聚类BIRCH法是一种综合优化的层次聚类的方法,它的核心是采用了一个三元组的聚类特征树(CF树)汇总了一个簇的有关信息,从而使一个簇的表示可以用对应的聚类特征,而不必用具体的一组点表示,通过构造分支因子B和簇直径阈值T来进行增量和动态聚类。BIRCF算法的优点是采用了多种聚类技术,对数据库的一次扫描产生一个基本好的聚类, 一次或更多的附加扫描能够提高聚类的质量,比较适合于大型数据集。 这个算法

29、的时间复杂度为 0(n) ,这里n为对象的树木。该算法具有对对象数目的线性伸缩性,及较好的聚类质量。它的缺点是 只适合于类的分布呈凸状或球状情况,并且需要提供正确的聚类数和簇直径T,不适于高维数据。BIRCH勺算法的两个阶段:阶段一:BIRCH扫描数据库,建立一个初始存放于内存的CF树,它可以被看作数据的多层压缩,试图保留数据内在的聚类结构。阶段二:BIRCH采用某个聚类算法对 CF树的叶节点进行聚类。CUR法:利用代表点聚类CURE 法是一种很新颖的层次聚集算法, 采用了基于质心和基于代表对象方法之间的中 间策略, 它选择数据空间中固定数目的具有代表性的点来代表一个簇,并将这些点乘以一个适当

30、的收缩因子, 使它们更靠近簇的中心。 它的时间复杂度为 0(n) 。其的优点是选择多个代 表使得该算法可以适应非球状的几何形状, 簇的收缩或凝聚可以有助于控制噪声的影响, 同 时该方法采用了随机抽样与分割相结合来提高效率,对大型数据库有良好的收缩性。下面的步骤描述的CUR算法的核心:(1) 从源数据对象中抽取一个随机样本S。(2) 将样本S分割为一组划分。(3) 对每个划分局部地聚类。(4) 通过随机取样剔除孤立点。如果一个簇增长的太慢,就去掉它。(5) 对局部的簇进行聚类。落在每个新形成的簇中的代表点根据用户定义的一个搜索因子a搜索或向簇中心移动。这些点代表和捕捉到了簇的形状。(6) 用相应

31、的簇标签来标记数据。Chameleon( 变色龙 ) :一个利用动态模型的层次聚类算法Chameleon是一个在层次聚类中采用动态模型的聚类算法。Chamele on的产生是基于对CUR的缺点。CUR及其相关的方案忽略了关于两个不同簇中对象的聚集互连性的信息,而 ROC及其相关的方案强调对象间互连性,去卩忽略了关于对象间近似度的信息。Chameleon的主要思想:首先通过一个图划分算法将数据对象聚类为大量相对较小的子聚类,然后用一个凝聚的层次聚类算法通过反复地合并子类来找到真正的结果簇。它既考虑了互连性,又考虑了簇间的相似度,特别是簇内部的特征,来确定最相似的子簇。3) 基于密度的聚类方法这种

32、算法的主要思想为: 只要临近区域的 ( 对象或数据点的数目 )超过某个阈值, 就继续 聚类,这样就能很好的过滤掉“噪声”数据,发现任意形状的簇。具有代表性的基于密度的 方法有 DBSCAN OPTICS DEN CLUE(Density Based Clustering) 等。DBSCA法:基于高密度连接区域的密度聚类方法DBSCA法 (De nsity Based Spatial Clusteri ng of Applicatio ns with Noise)的算法思想是:检查一个对象的£领域的密度是否足够高,即一定距离E内数据点的个数是否超Minpts 来确定是否建立一个以该对象

33、为核心对象的新簇, 再合并密度可达簇。 它可以在带有 “噪声” 的空间数据库中发现任意形状的聚类, 另外此算法可以 通过不断执行区域查询来实 现聚类 。其缺点是对输入参数£和 Minpts 相对敏感, 且这两参数难以确定。 在算法复杂度上,*2 若采用空间索引R-树,其时间复杂度为 O(n*logn),否则仍为O(n)。OPTICS法 :通过对象排列识别聚类结构OPTICS (Ordering Point to Identifyt|le Clustering Structure)是为了解决 DBSCAN算法中参数£和 Minpts 难以确定而提出来的。 它不显式地产生一个数

34、据集合簇, 而是为自动 和交互的聚类分析计算一个聚类分析方法。因此OPTICS!产生的是一个基于密度的簇的次序集合,它的时间复杂度与 DBSCA相同。DENCLU法DENCLU法 (De nsity Based Clusteri ng)是用一个影响函数来模拟每个数据点在领域的影响,所有数据点的影响函数总和来模拟数据空间的整体密度, 通过确定密度吸引点即整体密度函数的局部最大来发现簇。DENCLU法的主要优点是可以处理高维数据,集中任意形状的簇,且具有较强的抗噪能力,有较快地处理速度。它的缺点是要求输入密度参数6和噪声阈值£,且聚类结果对这两参数比较敏感。4) 基于网格的聚类方法基于网

35、格的聚类方法是指采用一个多分辨率的网络数据结构。它首先将数据空间划分成为有限个单元 (cel1) 的网格结构, 并且所有的处理都是以单个的单元为对象的 常用的方法 有统计信息网格法STING基于小波变换的聚类法 WaveCluster法以及聚类高维空间法 CIQUESTING法:统计信息网络STING法 (Statistical In formation Grid)的基本思想是:先将数据空间划分成矩形单元,对应不同级别的分辨率,存在着不同级别的矩形单元,这些单元形成一个层次结构:高 层的每个单元被划分为多个低一层的单元。高层单元的统计信息可以由计算低层单元获得, 而统计信息的查询则采用自顶向下

36、的基于网格的方法。 这种方法的主要优点是: 网格结构有 利于并行处理和增量更新, 且其的计算是独立于查询的, 另外它的处理效率很高, 它通过扫 描数据库一次来计算单元的统计信息,因此其聚类时间复杂度为 O(n) ,在层次结构建立后, 其查询处理的时间复杂度为0(g),其中,g为最低层网格单元的数目。它的缺点是聚类质量取决于网格结构最低层的粒度, 而粒度的大小会明显地影响处理代价; 另外, 它的结果簇的 形状是 isothetie ,即所有的聚类边界或者是水平的,或者是竖直的,没有对角的边界。WaveCluster 法 :采用小波变换聚类WaveCluster 法(ClusteringUsing Wavelet Transformation)是一种基于网格和密度的多分辨率变换的聚类方法, 它的算法思想是: 首先在数据空间上强加一个多维网格结构来汇 总数据, 然后采用一种小波变换来变换原特征空间, 在

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论