模糊数学,分类器融合_第1页
模糊数学,分类器融合_第2页
模糊数学,分类器融合_第3页
模糊数学,分类器融合_第4页
模糊数学,分类器融合_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LOGO 基于模糊规则的多分类器基于模糊规则的多分类器融合融合 刘 明 袁保宗 苗振江 唐晓芳 基本内容基本内容v摘要v1.补充知识v2.引言v3.基于模糊规则的多分类器融合 v4.基于支持向量的模糊系统设计方法 v5.实验 v6.总结v7.参考 文 献 Company Logo摘要 用非线性方法解决多分类器融合问题能够取得比较高的识别率, 但是,当前被应用在多分类器融合领域中的非线性方法可理解性较差,给使用者带来一定的困难。而基于模糊规则的模式识别方法是一类可理解性好的非线性方法,但迄今为止还没有被应用于多分类器融合问题中。基于上述考虑,该文将模糊系统应用到多分类器融合中,并且研究了如何设计

2、可理解性好、精度高的模糊系统的问题,提出了一种改进的基于支持向量的模糊系统设计方法。该方法在从ELENA项目数据库和UCI数据库中选出的4个数据集上进行了测试。实验结果表明,该方法能够用可理解性好的模糊系统实现低错误率的多分类器融合。 关键词:信息融合;模式识别;模糊逻辑;支持向量机 1.补充知识1. 分类器:给出一个数据集D,机器学习的目标是产生一个联系属性值集合A和类标集合C的分类、预测函数,这个函数的目的是预测新函数的类属性,这个函数被称为分类模型,预测模型,或者分类器。2. 泛化能力:概括地说,所谓泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应

3、能力。学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力3.K-NN算法:即K-近邻算法, K最近邻(k-Nearest Neighbour,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)Company Logo1.补充知识的样本中的大多数属于某一个类别,则该样本也属于这个类别。 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻

4、居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。根据这个说法,看下引自维基百科上的一幅图:4.置信度:一条规则X Y是指即包含X有包含Y的事务的数量占所有包含X的事务是量的百分比。这乐意看做是条件概Company Logo1.补充知识率P(Y|X)一个估计,置信度的计算如下:置信度=(XY).count/X.count 置信度决定了规则的可预测程度,如果一条规则的可以测程度过低,那么就很难从X推导Y,置信度过低的规则在实际中应用不大。5.支持向量机:是一种有监督学习方法,即已知训练点的类别,求训练点和类别的之间的对应关系,以便将训练集按照类别分开,或者预测新的训练点的所对应的

5、类别。 支持向量机的主要思想:建立的分类超平面能够保证分类的精度的同时,使得超平面两侧的区域最大,从而实现超平面的最优分类问题。6.支持向量:是指训练集中的训练点,这些点最靠近分类决策面,是最难分类的点。Company Logo1.补充知识给出支持向量机的主要思想的概图:8.数据压缩法:数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。Company Logo2.引言v 多分类器融合是目前模式识别领域的一个研究热点,人们已经提出了很多种融合方法

6、,如投票法1,证据理论方法2,模糊积分方法3,神经网络方法4,回归方法5等。考虑一个一般性的多分类器融合问题,假定我们对各个分类器之间的关系不清楚,只有大量的训练样本,那么我们可以认为分类器之间的关系是复杂的,非线性的。许多研究成果表明针对这种一般性的多分类器融合问题,采用非线性方法能够取得比较好的效果。例如实验表明基于非线性回归的融合方法比基于线性回归的融合方法正确识别率高。神经网络是一种经典的非线性方法,它已经被证明是一种很好的多分类器融合方法4,7。证据理论方法和模糊积分方法也属于非线性方法。但是目前已经应用在多分类器融合中的非线性方法可理解性较差,为使用者带来一定的困难。这里所说的融合

7、方法的可理解性指的是融合规则形式上比较简单,符合 人类的思维习惯,便于理解。神Company Logo2.引言 经网络由于可理解性差,被人们称为“黑箱子”;而非线性回归方法中要使用很多难以解释的参数;基于证据理论的方法中使用的合成规则也是很复杂的;基于模糊积分的方法的融合规则以根据模糊测度定义的模糊积分的形式表达出来,这种形式可理解性也比较差。基于模糊规则的模式识别方法是一类可理解性好的非线性方法,其融合规则可以用符号化的语言描述,符合人的思维习惯。但是这种方法还没有被应用在多分类器融合中。基于上述原因,本文提出了基于模糊规则融合多分类器的思想。 在多分类器融合系统中,需要设计一种可理解性好又

8、具有比较高的精度的模糊系统。设计这样一种模糊系统是模糊系统设计方法研究中的一个难题。这里提到的精度指的是函数逼近问题中的逼近精度和模式识别问题中的识别率。可理解性好,就要求模糊系统的规则数比较少。而在规则数比较少的条件下达到比较高的精度是一个难题。为了解决这一难题,一些作者提出了基于多目标遗传算法的方法8,Company Logo1.引言 但是这一类方法时间复杂度很高,而在多分类器融合问题中往往包含大量的训练样本,这样训练一个模糊系统需要大量的时间。有学者提出了一种基于“特征点”设计模糊系统的方法,在该方法中采用了两种减少模糊规则的算法,试图在不降低模糊系统精度的条件下尽可能减少模糊规则数目。

9、这种方法需要比较多的循环操作来进行模型优化,每一轮循环都需要计算模糊系统在训练集上的平均误差,所以在训练样本很多的条件下仍然要使用大量的训练时间。本文出一种从支持向量中选取一部分有代表性的样本点,然后根据这些样本点产生模糊规则的方法。实验证明用这种方法可以设计出模糊规则数少而精度高的模糊系统。 基于支持向量设计模糊系统的方法是由Chen等提出来的11。该方法通过支持向量机(SVM)在训练集上的学习确定模糊系统的参数,使得到的模糊系统具有比较好的泛化能力,从而能够得到一个高识别率的模糊分类器。这种方法在训练样本比较少的情况下非常有效。而当训练样本多、数据中存在噪声情况下,支持向量的数目很多,Co

10、mpany Logo1.引言如果根据每一个支持向量产生一条模糊规则,模糊系统的可理解性将会大大降低。过多的模糊规则使得模糊系统的复杂度提高,可理解性降低。本文根据基于k-近邻的数据压缩算法12提出了一种从支持向量中选择一部分样本点来产生模糊规则的方法,在实验中取得了比较好的效果。Company Logo3.基模于糊规则的多分类器融合Company Logoilx12(,)iiiilllM lxxxxily12(,)iiiilllM lxxxxy基于模糊规则的多分类器融合 分类器融合方法可以分为3个层次:决策层融合、排序层融合、度量层融合。本文只考虑度量层融合。在这类方法中,被融合的单个分类器被

11、当作是第0层的分类器,第0层分类器的输出为样本属于各个模式类的置信度(本文中我们理解为概率);多分类器融合模块可以看成是第1层的分类器,第1层分类器可以是一组分类器,每个分类器针对一个模式类5;也可以是一个分类器,针对所有的模式类。在本文中第1层分类器是一组模糊系统。 下面介绍基于模糊规则的多分类器融合 的基本框架流程如下:Company Logo基于模糊规则的多分类器融合 Company Logo3.基于模糊规则的多分类器融合 Company Logo12(,)iiiilllM lxxxx3.基于模糊规则的多分类器融合 Company Logo2nA2nAnmAnmA3.基于模糊规则的多分类

12、器融合 Company Logo其中 , 参数,参数, 是隶属函数的中心。是隶属函数的中心。 在推理引擎中采用乘法规则,在去模糊模块中采用质心去模糊法。模糊系统的输出表示为 这里M为模糊系统输入特征的维数,也就是第0层分类器的数目;N为模糊规则的数目。 mnmpnmp4.向量的基于支持模糊系统设计方法 Company Logoyy4基于支持向量的模糊系统设计方法 Company Logo4.基于支持向量的模糊系统设计方法 采用高斯隶属函数可以保证 从而可以简化为:假设模糊子集序列的隶属函数中心为输入空间中的一点 ,则可以定义一个核函数 Company Logo12(,)nnnnmpp pp4基

13、于支持向量的模糊系统设计方法 Company Logonmpm4基于支持向量的模糊系统设计方法 Chen提出的方法虽然可以采用核方法求出模糊系统的参数,是的生成的模糊系统在解决分类问题时有较高识别率,适用于训练样本比较少的情况。在多分类器融合问题中,通常训练样本很多,而且每个分类器输出的数据存在比较大的噪声,这些因素导致非常多的支持向量。如果根据每一个支持向量产生一条模糊规则,那么模糊规则的数量非常多。过多的模糊规则使得系统的复杂度提高而可理解性降低。 为了解决这一问题,我们改进了这个方法,基于k近邻的数据压缩方法是一种多分辨率的方法,其主要思想是从原始数据中选择一些代表性的数据。然后我们将其

14、和基于支持向量设计模糊系统的方法结合,主要内容是在支持向量构成的集合中求数据样本的k-近邻距离,然后在所有训练样本组成的集合上估计局部密度,最后选取局部密度最大的支持向量并删除被它覆盖的其它支持向量。Company Logo4.基于支持向量机的模糊系统设计方法 Company Logo12(,)ssssllMlvv vv4基于支持向量机的模糊系统设计方法Company Logo21!Msmnqsmlmlrnrdvv4基于支持向量机的模糊系统设计方法Company Logoilyilxily,iillyxily4基于支持向量机的模糊系统设计方法下面进入本文的实验部分:在实验中采用了ELENA项目

15、中的Clouds数据集,Phoneme 数据集,Satimage 和UCI数据库中的Waveform 数据集。每个数据集被平均分为训练集和测试集两部分,不需要额外的数据来训练融合算法。被融合的单个分类器被称为第0层分类器。对于只包含两个模式类,样本维数比较低的Clouds数据集和Phoneme数据集,本文采用相同输入特征不同分类器的方法生成第0层分类器。采用的第0层分类器有:SVM,多层感知器(MLP)和k-近邻(k-NN)。对于SVM,根据决策函数计算样本属于各模式类的概率,具体方法见文献15;对于MLP,通过调整其结构参数和训练方法使其输出为样本属于各模式类的概率。对k-NN, 根据k-N

16、N中各类样本的数量来计算样本属于各模式类的概率,对于包含多个模式类,样本维数比较高的Satimage 和Waveform 数据集,本文采用子空间方法各生成5个10-NN分类器。对于每个10-NN分类器,从原始数据集的特征中随机选取一部分特征作为它的输入特征。在S数据集和 W数据集上的10-NN分类器的输入特征的数目为15和10。 Company Logo4基于支持向量机的模糊系统设计方法实验分为两部分,第1部分实验用于测试本文提出的模糊系统设计方法;第2部分实验将基于本文方法的多分类器融合方法与两种经典的多分类器融合方法进行了比较。第1部分:我先通过模糊规则数及错误率确定k,通过实验我们得到如

17、图所示的曲线要求模糊规则较少,错误率较低,本文去k为Company Logo4基于支持向量机的模糊系统设计方法本文将提出的改进的基于支持向量的模糊系统设计方法与Chen方法进行了比较。分别基于这两种方法设计多分类器融合算法,并在4个数据集上比较算法分类时的平均运行时间、错误率和算法中模糊系统的规则数目。表1中给出了基于十重交叉验证的平均结果。在表中,FRCF-1表示Chen方法的多分类器融合方法,FRCF-2表示本文改进的多分类器融合方法。可以看出与FRCF-1方法相比,FRCF-2方法的模糊规则减少了910倍,分类时运行时间缩短了910倍。错误率方面,在两类数据集(Clouds, Phoneme)上基本保持不变,在多类数据集(Satimag, Waveform)上略有下降。分类时运行时间缩短是因为模糊规则减少了,模糊系统的复杂度降低了,而复杂度降低还使得模糊系统的可理解性提高了。错误率下降的原因是复杂度降低之后,系统的泛化能力提高。Company Logo4基于支持向量机的模糊系统设计方法我们的实验结果如下表所示:Company Logo4基于支持向量机的模糊系统设计方法另外也将此方法和其他的分类器方法进行比较得到下面的表格:从这几个表格我们可以看出本文题出的算法对这几个数集都有很好的优越性。Company Logo5总结本文题出的算法具有可理解性好,错误率低,模糊规则数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论