类可分离性的判据_第1页
类可分离性的判据_第2页
类可分离性的判据_第3页
类可分离性的判据_第4页
类可分离性的判据_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

类可分离性的判别类可分离性的判别方法问题1背景2方法3D

结论4问题很多分类算法实现之前,需要判定现有的特征是否能有效的分类。请举出几种类分离性的判别方法。Todesigngoodclassifiers,usuallywemustknowifthefeaturescanclassifythedataeffectively.Pleasegiveafewofmeasurementsofseparation.背景为了设计出效果好的分类器,通常需要对原始的测量值集合进行分析,经过选择或变换处理,组成有效的识别特征;在保证一定分类精度的前提下,减少特征维数,可使分类器实现快速、准确和高效的分类。为达到上述目的,关键是所提供的识别特征应具有很好的可分性,使分类器容易判别。为此,需对特征进行选择或提取。应去掉模棱两可、不易判别的特征;去掉相关性强且没有增加更多分类信息的特征。a.特征选择和提取背景特征选择与特征提取的任务是求出一组对分类最有效的特征因此需要有定量分析比较的方法,判断所得到的特征维数及所使用特征是否对分类最有利,这种用以定量检验分类性能的准则称为类可分离性判据。类别可分离性判据,用来检验不同的特征组合对分类性能好坏的影响,并用来导出特征选择与特征提取的方法。理想准则:某组特征使分类器错误概率最小。b.类可分离性判据背景与误判概率有单调关系度量特性当特征独立时有可加性对特征数目是单调不减c.类可分离性判据要求方法a.基于几何距离的可分性判据1.类内距离和类内散布矩阵2.类间距离和类间散布矩阵3.多类模式向量间的距离和总体散布矩阵b.基于类的概率密度函数的可分性判据1.Bhattacharyya判据(JB)2.Chernoff判据(JC)3.散度判据(JD)c.基于熵函数的可分性判据a.基于几何距离的可分性判据一般来讲,不同类的模式可以被区分是由于它们所属类别在特征空间中的类域是不同的区域。显然,区域重叠的部分越小或完全没有重叠,类别的可分性就越好。因此可以用距离或离差测度(散度)来构造类别的可分性判据。1.类内距离和类内散布矩阵类内距离:同一类模式点集内,各样本间的均方距离。

若{X}中的样本相互独立,有2)类内散布矩阵:表示各样本点围绕均值的散布情况注:特征选择和提取结果应使类内散布矩阵的迹愈小愈好

2.类间距离和类间散布矩阵类间距离:模式类之间的距离,记为Db。2)类间散布矩阵:表示c类模式在空间的散布情况,记为Sb。3)类间距离与类间散布矩阵的关系:注:类间散布矩阵的迹愈大愈有利于分类。

3.多类模式向量间的距离和总体散布矩阵两类情况的距离注:两个类区之间的距离=p×q个距离的平均距离依此可推导:多类间任意两个点间距离的平均距离多类间任意两个点间平方距离的平均值

q个p个共p×q个距离

2)多类情况的距离

多类模式向量间的平均平方距离Jd注:多类模式向量之间的平方距离=各类平方距离的先验概率加权和3)多类情况的散布矩阵

多类类间散布矩阵:

多类类内散布矩阵:

即各类模式协方差矩阵的先验概率加权平均值多类模式的总体散布矩阵:4)多类模式平均平方距离与总体散布矩阵的关系

注:距离与散布矩阵作为可分性测度的特点*计算方便,概念直观*与分类错误率没有直接的联系。b.基于类的概率密度函数的可分性判据上图是一维的两类概率分布密度。图(a)表示两类是完全可分,图(b)是完全不可分的。因此,可用两类概密函数的重叠程度来度量可分性,构造基于类概密的可分性判据。此处的重叠程度是指两个概密函数相似的程度。满足下述条件的任何函数:都可用作基于类概率密度的可分性判据JP。

(1)非负性,即JP>=0。

(2)当两类概率密度函数完全不重叠时取最大值,即若对任意x有P(x|ω1)<>0和P(x|ω2)=0时,则JP=max。

(3)当两类概率密度函数完全相同时取最小值,即若P(x|ω1)=P(x|ω2),则JP=0。1.Bhattachayya判据(Jb)

受相关运算概念与应用启发,可以构造B-判据:

式中:表示特征空间。

最小误判概率与判据的关系如下:2.Chernoff判据(JC)

可以构造更一般的判据C-判据,其定义式为:

JC判据具有如下性质:

(1)对一切0<s<1,JC≥0

(2)对一切0<s<1

(3)当参数s和1-s互调时,有对称性

(4)当x的各分量彼此独立时,有

(5)最小误判概率:显然,当S=0.5时JB=JC。

3.散度判据(JD)在贝叶斯判决中,可反映出和的重叠情况。对于两类问题

1相对2类的平均可分性信息为:同样,2类对于1类的平均可分性信息为:对于两类总的平均可分性信息称为散度,其定义为:

在特征空间中,若有某两类间的JB、JC或JD很大,可使平均判据变大,这样就掩盖了某些类对的判据值较小的情况存在,从而可能降低总的分类正确率,即所谓的大盖小问题。为改善这种情况,可对每个类对的判据采用变换的方法,使对小的判据较敏感。例如,对JD

,可采用变换这样,当i和j两类模式相距很远时,JD(i,j)变得很大,但也只能接近于1。但对于散度JD(i,j)小的情况,又变得较敏感。于是,总的平均(变换)判据为

同样对于JB,单类与平均判据分别为:

单类判据:

平均判据:

c.基于熵函数的可分性判据

可采由特征的后验概率分布来衡量它对分类的有效性

(1)后验概率相等:无法确定样本所属类别;

(2)后验概率集中:存在一组特征使得P(ωi|x)=1

且P(ωj|x)=0,则此时样本x可以肯定地规划为ωi类,

而错误概率为零。要衡量后验概率分布的集中程度,需规定一个定量

指标。在信息论中用熵来作为不确定性的度量,熵越

大则不确定性越大,因此可以借助熵的概念来描述各

类的可分性。

对于c类问题,设给定样本x的各类后验概率为P(ωi|x)=Pi,定义熵:由洛必达法则知:当时从特征选择角度看,我们应选择使熵最小的那些特征用于分类即选用具有最小不确定性的特征进行分类是有益的。使熵最小的特征利于分类,取熵的期望:定义广义熵:式中>0,1。不同的值可得不同的可分性度量。当1时,由洛必达法则可得Shannon熵当=2时,可得平方熵

同理,我们亦可用点熵在整个特征空间的概率平均作为可分性判据。

使用判据进行特征提取与选择时,我们的目标使结论

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论