已阅读5页,还剩58页未读, 继续免费阅读
(模式识别与智能系统专业论文)模式分类中特征选择问题的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
哈尔滨理工大学工学硕士学位论文 模式分类中特征选择问题的研究 摘要 特征选择在数据分析和预处理步骤中发挥着重要的作用,通过特征选择可 以删除无关、冗余的信息,降低训练样本的维数、降低算法的复杂度和噪音的 干扰,提高模型的推广能力,因而在分类问题中起着很重要的作用。一个特征 选择的过程在原理上可以看成是一个组合优化过程:在原有的特征中选择其中 的一部分,使某个给定的评价函数最优。 特征选择框架指出一个特征选择算法是由“特征子集生成、“特征子集 评价”、“停止条件”和“结果验证”四个部分组成的。 首先,本文基于这个框架,总结归纳了常用特征选择算法的搜索策略和评 价准则。 然后,本文研究了常用的几种搜索算法:b & b 算法、连续选择算法、增l 减r 法、浮动搜索算法。本文给出了这几种搜索算法在同一数据集上基于类内 类间距离这一评价准则下的实验结果,并进行了比较,验证了理论分析。 其次,本文详细分析了评价准则中的互信息对于特征选择的意义,以及从 样本出发来计算互信息量的方法。采用窗函数估计的非参数密度估计方法,实 现了一种基于互信息量的特征选择算法,并在人工数据集和实际数据集上进行 了实验验证,对结果进行了分析。同时,把互信息准则与其它的距离准则作了 一下比较。 最后,本文研究了特征选择中特征的相关性和冗余性,以特征与类别以及 特征与特征之间的关联性为标准,提出了一种基于相关分析的特征选择方法, 该方法直接从原始特征集中抽取相关性小且分类能力强的特征子集,大大降低 了特征空间的维数,减小了运算量。 关键词特征选择;搜索策略;评价准则;互信息;相关性 哈尔滨理工大学工学硕士学位论文 r e s e a r c ho nf e a t u r es e l e c t i o nf o rp a t t e r n c l a s s i f i c a t i o n a b s t r a c t f e a t u r es e l e c t i o np l a y sa l li m p o r t a n tr o l ei nd a t aa n a l y s i sa n dp r e p r o c e s s i n g s t e p s i tc a ne l i m i n a t eb o t hi r r e l e v a n ta n dr e d u n d a n ti n f o r m a t i o n , a n dr e d u c et h e d i m e n s i o no ft r a i n i n gs a m p l e sa n dc o m p l e x i t yo fa l g o r i t h ma n de s c a pt h en o i s e d i s t u r b a n c e i nt h er e s u l t ,t h eg e n e r a l i z a t i o np e r f o r m a n c ea n dc l a s s i f i c a t i o np r e c i s i o n o fm o d e lw o u l dh a v eb e e ne f f e c t i v e l yi m p r o v e d a c c o r d i n gt oi t sp r i n c i p l e ,af e a t u r e s e l e c t i o np r o c e s sc a nb es e e na sac o m b i n a t o r i a lo p t i m i z a t i o np r o c e s s :s e l e c t i n ga s u b s e to ff e a t u r e st oo p t i m i z eac e r t a i ne v a l u a t i o nc r i t e r i o n f i r s t l y , t h ef e a t u r es e l e c t i o nf r a m ei n c l u d ef o u rs t e p s :ag e n e r a t i o np r o c e d u r et o g e n e r a t et h en e x tc a n d i d a t es u b s e t ,a l le v a l u a t i o nf u n c t i o nt oe v a l u a t et h es u b s e t u n d e re x a m i n a t i o n ,as t o p p i n gc r i t e r i o nt od e c i d ew h e nt os t o pa n dav a l i d a t i o n p r o c e d u r et oc h e c kw h e t h e rt h e s u b s e ti sv a l i d s e a r c hs t r a t e g i e sa n de v a l u a t i o n f u n c t i o i i sa r es u m m a r i z e db a s e do nt l l ef r a m ei nt h et h e s i s s e c o n d l y , s e v e r a ls e a r c hs t r a t e g i e sa r es t u d i e di nt h ep a p e r , f o re x a m p l e :t h e b r a n c h & b o u n da l g o r i t h m ,t h es e q u e n t i a ls e l e c t i o na l g o r i t h m ,p l u s1t a k e a w a yr ,t h e f l o a t i n gs e a r c ha l g o r i t h m b a s e d o nt h ee v a l u a t i o no fi n t e r i n t r ad i s t a n c e ,a l lt h e p e r f o r m a n c e so ft h es e a r c ha l g o r i t h m sa r ec o m p a r e do nt h es a m ed a t a s e t ,v e r i f i e dt h e t h e o r e t i c a la n a l y s i s t h i r d l y , t h em u t u a li n f o r m a t i o nf o rf e a t u r es e l e c t i o ni si n t r o d u c e di nd e t a i la n d i t sc o m p u t a t i o nb a s e do nn o n p a r a m e t r i cd e n s i t ye s t i m a t i o ni sd e s c r i b e d am u t u a l i n f o r m a t i o nb a s e df e a t u r es e l e c t i o na l g o r i t h mi si m p l e m e n t e do ns e v e r a la r t i f i c i a l a n dr e a ld a t a s e t s ,i t se x p e r i m e n t sr e s u l t si sa n a l y s e d a tt h es a m et i m e ,t h em u t u a l i n f o r m a t i o nc r i t e r i aa n do t h e rc r i t e r i aw e r em a d eac o m p a r i s o n f i n a l l y ,t h ep a p e rs t u d i e dt h ef e a t u r e so fr e l e v a n c ea n dr e d u n d a n c y a c c o r d i n g t ot h ec o r r e l a t i o n sb e t w e e nf e a t u r e sa n dc l a s sl a b e l sa n db e t w e e nf e a t u r e s ,am e t h o d f o rf e a t u r es e l e c t i o nb a s e do nt h ec o r r e l a t i o na n a l y s i si sp r o p o s e d ,a n di tc a l lg r e a t l y 哈尔滨理工大学工学硕士学位论文 r e d u c et h ed i m e n s i o no ff e a t u r es p a c e ,r e d u c i n gt h ec o m p u t a t i o n a lc o m p l e x i t y k e y w o r d sf e a t u r es e l e c t i o n ,s e a r c hs t r a t e g y , e v a l u a t i o ni l l e a s u r e ,m u t u a li n f o r m a t i o n , r e l e v a n c e 哈尔滨理工大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文模式分类中特征选择问题的 研究,是本人在导师指导下,在哈尔滨理工大学攻读硕士学位期间独立进行研 究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他人已发表 或撰写过的研究成果。对本文研究工作做出贡献的个人和集体,均已在文中以 明确方式注明。本声明的法律结果将完全由本人承担。 作者签名:孙伟绝 日期:舢7 年;月爿日 哈尔滨理工大学硕士学位论文使用授权书 模式分类中特征选择问题的研究系本人在哈尔滨理工大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归哈尔滨理工大 学所有,本论文的研究内容不得以其它单位的名义发表。本人完全了解哈尔滨 理工大学关于保存、使用学位论文的规定,同意学校保留并向有关部门提交论 文和电子版本,允许论文被查阅和借阅。本人授权哈尔滨理工大学可以采用影 印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。 本学位论文属于 保密口,在年解密后适用授权书。 不保密口。 ( 请在以上相应方框内打) 作者签名:孑小伤拖 新签名:酋金击 日期:知予年;月彦7b 日期:细7 年;月争fb 哈尔滨理工大学工学硕士学位论文 第1 章绪论 1 1 课题研究的目的和意义 特征选择是数据挖掘、机器学习、模式识别中的一项重要技术,是当前信 息领域研究的热点之一。随着人工智能、计算机技术的迅速发展和应用领域的 不断拓宽,特征选择方法得到了较大的发展,这方面基于统计或机器学习的理 论研究成果不断出现,其中一些己在实际工程应用中显示出巨大的发展潜力。 特征选择在数据分析和预处理步骤中发挥着重要的作用,它是一种数据约 简技术,并与数据降维技术密切相关。目前,由于科技水平的快速发展、信息 获取技术的不断提高和存储能力的不断提升,我们能够获得的数据量也越来越 大,维数也越来越高,尽管这可以使信息更充分,但在另一方面对分类器的设 计也提出了更高的要求,因为随着维数的增加会带来著名的“维数灾难 问 题,同时数据中的冗余和无关部分也会相应的增多。在分类问题中决定一个样 本属于哪一类的所有信息都是包含在描述样本的特征向量里的,这个信息是否 完整,是否有冗余,是否含有和分类无关的部分,直接决定了最后建立的分类 模型的正确程度。有用信息太少或者无用信息太多都会对模型的正确程度产生 很坏的影响,冗余信息的存在也会误导分类模型的建立。而特征选择就是为了 筛选出那些对于分类来说最相关的特征,而去掉冗余的和无关的特征。特征选 择就是在原有的特征集合中选择一个子集,让分类器的学习在所选择的特征上 进行。一个合适、有效的特征选择算法可以在数据预处理阶段把数据中的冗 余、有噪声的部分去处掉的同时,降低数据的维数,减少建立学习模型的训练 时间,提高分类器正确率。 另外,特征选择对于避免“过学习”问题有一定帮助,同时还能使分类器 在结构上更加简洁和容易理解。在机器学 - 3 中,如果特征中含有大量无关特征 甚至噪声特征而学习样例又不是很充足的话,就容易发生所谓过拟合( o v e r - f i t t i n g ) 现象,这也会导致学习器预报能力下降。在模式识别中,由于要根据一 定数量的样本之间的相似性进行分类器的设计,所以特征的选择强烈的影响着 分类器的设计及其性能。在数据挖掘中,由于当前信息获取技术和计算机技术 的快速发展,积累了大量信息,在信息的挖掘过程中,如果无关特征太多,那 么所得到的知识将会是冗余或者是无用的。由于上述原因特征选择在很多领域 哈尔滨理工大学工学硕士学位论文 已经越来越受到人们的重视。 1 2 特征选择概述 1 2 1 特征选择的定义与作用 首先需要区分几个概念。在有的文献中,特征选择被称为属性选择 ( a t t r i b u t es e l e c t i o n ) 或变量选择( v a r i a b l es e l e c t i o n ) 。根据文献【1 】的定义,变量选 择是指对特定的输出选定具有最大预测能力的输入变量的问题,而特征选择是 指选定一个最优的特征子集,这个特征子集是从输入变量中构造出来的。在 其他文献中卜1 经常还会看到特征提取( f e a t u r ee x t r a c t i o n ) 这个词,有的时候和特 征选择混在一起用。这些名词的使用有一定的混乱。本文采取大多数文献和学 者对于特征选择的理解,约定特征选择是指在输入特征集中挑选一个对目标概 念最相关的特征子集的过程,而特征提取是指在输入特征空间上做一个变换得 到新的特征空间,在这个空间中选取一定的特征来作为对模式的描述。两者的 区别在于有没有在特征空间上进行变换。同时,对于属性选择和变量选择,本 文认为就是指特征选择。另外,特征选择可以有两种完全不同的途径,最简单 的一种是由分类问题所涉及的问题的领域专家根据每一个特征所代表的具体意 义来选出对分类最有影响的那些特征,分类器设计就在那些特征上进行,这种 方式非常依赖专家对领域的了解、经验和主观判断;另外一种是利用数学的、 人工智能的方法设计无须人工干预的自动算法,在原始输入特征集合中自动的 找出最优的特征子集。本文研究的是后一种,即通过数学上的分析,利用人工 智能的知识,研究数据挖掘、机器学习和模式识别等相关领域中用于分类的特 征选择方法。 然而,即使对这样一个明确的问题,对于特征选择依然没有一个统一、完 善的数学定义。由于面对的实际问题不同,带来对特征选择的不同要求和定 义。有的是因为数据的维数太高,训练时间太长,希望在保证一定分类正确率 的条件下通过特征选择来降维;有的是因为分类器的正确率太低,可能是因为 一些和分类无关的或者冗余的特征的存在影响了学习性能,希望通过特征选择 来去掉那些无关和冗余的特征;还有的是因为维数灾难的问题,以及过学习的 问题,这两个问题是紧密联系在一起的,也可以通过特征选择来达到部分的解 决。以下是文献 3 】 4 总结的不同定义: 1 在所有的n 个特征所组成的特征集合中选取一个由m 个特征组成的子 哈尔滨理工大学工学硕士学位论文 集,其中m 事先给定,并且m 图2 1 特征选择算法搜索空间示例 f i g 2 - 1a s e a r c hs p a c es a m p l eo ff e a t u r es e l e c t i o na l g o r i t h m 图2 1 中,1 表示特征子集包含的特征;o 表示特征子集不包含的特征;连 线表示特征子集的增加或删除。 2 1 特征选择的基本框架 特征选择在本质上是一个组合优化问题:在原有的d 个特征中,选择数量 为d ( d d ) 的一组最优特征以达到降维的目的。在数学中解决组合优化问题的一 个最直接的方法就是搜索,对于特征选择来说,d 个特征可以有2 d 一1 个不同 的特征组合( 特征子集) ,搜索的目的就是在这些候选的特征子集中选取最优的 那一个。至于如何在所有的候选子集中搜索的问题就是搜索策略的问题,一种 最简单的策略就是穷举法,即考虑所有可能的候选,选择其中最好的一个子集 作为最后的输出。这种穷尽搜索的方法简单但是在实际中很不实用,因为它的 9 心夕 0 1 l 1 1 0 l l 1 1 0 1 m 叭 哈尔滨理工大学工学硕士学位论文 运算量和存储量是随着特征维数的增加而指数递增的,实际中经常会碰到维数 超过几十甚至上百的情况,这种时候穷尽搜索的效率是非常低的。因此穷尽搜 索的办法在实际中并不经常用,通常可以采用避免穷尽搜索的完全搜索,或者 牺牲全局最优特性的局部最优搜索,以降低搜索的计算复杂度。 d a s ha n dl i u ( 1 9 9 7 ) 提出了一个特征选择的基本框架译,认为一个基本的特 征选择方法由以下四个步骤组成: 图2 2 特征选择的基本步骤 f i g 2 - 2g e n e r a lp r o c e d u r e so f f e a t u r es e l e c t i o n 由以上四个步骤组成的一个完整的特征选择是一个循环搜索的过程: 1 “子集生成”的方式决定了搜索的策略,包括搜索的起始点、方向、 产生下一个子集的策略。搜索的起始点可以是不含任何特征的空集,包括所有 特征的全集,也可以是任意的一个子集。搜索的方向可以是前向( 特征依次增 多) 、后向( 特征依次减少) 或者双向( 有时递增,有时递减) 。从当前子集产生下 一个子集的策略可以有依次增加或减少一个特征、随机产生等方式。 2 “子集评价 模块的作用是根据一定的评价标准对“子集生成”模块 产生的子集进行优劣评价,这一过程称为评价函数的计算。每进行一次特征子 集的优劣评价,将新的评价值和之前保存的最好的评价值进行比较,如果发现 新的子集优于之前最好的子集,那么更新当前的最优子集。这里面非常关键的 点是评价标准的确定,对于整个特征选择方法的有效性具有决定性的意义。 3 对子集评价完之后要进行“停止条件”的判断,如果没有停止条件, 搜索过程将无尽的直进行下去。通常的停止条件有: 1 ) 达到事先指定的特征数目; 2 ) 循环次数超过了预先给定的数值; 3 ) 增加或减少特征不能使子集的评价函数值有所提高: 3 ) 找到了评价函数的最优解: l o 啥尔滨理工大学工学硕士学位论文 4 ) 评价函数值超出了预先设定的阈值。 4 最后要对选择出来的特征子集进行验证。验证通常用选定的特征子集 对人工的或实际的数据集进行训练和预测,将训练和预测的结果和没有进行特 征选择而在原始数据集上的结果进行比较,这种比较包括训练和预测所花费的 时间,模型的复杂程度,分类器的正确率。 以上这四个步骤就构成了本文研究特征选择的一个基本框架。在四个步骤 中,对特征选择整体性能影响最大的是搜索策略和评价标准的确立,停止条件 基本上是根据问题来决定或者由搜索策略和评价标准来确定的。下面我们就详 细的在这两个方面进行分析。 2 2 子集生成 特征子集的产生实际上是一个搜索过程,而搜索有其起始点、方向和最重 要的环节:搜索策略。 2 2 1 搜索方向 特征选择搜索方向是指特征选择算法采用何种方向进行特征选择。首先必 须决定搜索的起始点。理论上任何一个特征子集都可以作为搜索的初始子集, 但通常这是由搜索方向来决定的。常见的几种产生特征子集的方向有: 1 前向生成:以一个不含任何特征的空集作为初始子集,然后在每一次 循环中依次在剩下的特征中选择一个特征,这个特征的选择以使评价函数值最 大为准则,直到满足停止条件为止。 2 后向生成:和前向生成相反,以包含全部特征的子集开始,依次去掉 一个特征,选择去掉的标准同样是使评价函数最大,直到整个搜索过程停止。 3 双向搜索:同时从两个方向开始搜索,一般搜索到特征子集空间的中 部时,需要评价的子集数将会急剧增加。当使用单向搜索时,如果搜索要通过 子集空间的中部就会消耗掉大量的搜索时间,所以双向搜索是比较常用的搜索 方法。 4 随机生成:这里初始子集是随机产生的,下一步的特征子集也是随机 产生的,随机的方法有时候可以避免陷入局部最优点。这样的个特征选择算 法多次运行的结果可能会不一样。 哈尔滨理工大学工学硕士学位论文 2 2 2 搜索策略 决定了搜索的起始点和方向后,下一步很重要的一个问题就是搜索策略。 特征选择搜索策略是指特征选择算法采用何种方法从特征搜索空间中找到符合 特征评价判据的特征子集。由于搜索空间的大小不同,所使用的搜索策略也不 同。因此,搜索的结果可能是最优的,也可能是次优,可能是一个,也可能是 一组特征。基于对这个问题的考虑,把搜索策略可以大致分为三种: 1 完全搜索:可以保证获得对于给定的评价准则是最优的特征子集,例 如穷尽搜索就是一种完全搜索。但是,并不是说所有的完全搜索都是穷尽搜 索,某些启发式评价函数可以用来减少搜索空间并能保证获得最优特征子集。 相应的算法有分支限界法( b r a n c hb o u n d ) p 川和b s ( b e a ms e a r c h ) 算法。 2 启发搜索:是在搜索的最优性和计算量之间做了一个折中的搜索策 略。启发式特征选取的算法很多,例如:顺序前向搜索( s f s ) 、顺序后向搜索 ( s b s ) ,以及广义的顺序前向搜索( g s f s ) 和广义的顺序后向搜索( g s b s ) 等。这 些算法复杂度低,搜索过程可以很快的就收敛。该类算法的缺点是,特征一旦 被加入或删除,以后便不会改变,因此容易陷入局部极值,为克服此缺点,出 现了增z 减广法,即搜索方向不再是单向加或者减,可以根据评估函数灵活的 浮动,其问题在于,和,的大小难以确定。p u m l 等提出了顺序浮动前向搜索 ( s f f s ) 和顺序浮动后向搜索算法( s f b s ) 一。,算法变固定的增,减r 法为浮动 的,减少了不必要的回溯并在需要时增加回溯的深度。浮动搜索算法的解接近 全局最优解,会在后面详细介绍。 3 随机搜索:和前面的几种策略不同,随机搜索的下一个特征子集的产 生是随机的,和当前的特征子集无关。这种方法可以设定一个循环次数的上 限,一达到这个上限就停止搜索,输出目前为止所找到的最优特征子集。随机 搜索算法的可控性比较好,如果资源充足的话,可以增加循环次数的上限值, 那么所遍历的搜索空间必然更加完备,找到的结果也会更接近全局最优解。在 文献f 4 9 中的l v f 算法就是采用随机搜索的算法,用遗传算法和模拟退火算法 来做特征选择的方法使用的搜索策略也属于随机搜索。 以上介绍了几种主要的搜索策略,表2 1 为各种特征选择搜索算法的总 结。在决定搜索策略的时候通常需要在计算复杂性和全局最优性之间根据实际 问题来寻找一个最佳平衡。直观上也非常容易理解,花更多的时间在更大的搜 索空间中搜索自然能找到比较正确的解。穷尽搜索可以保证全局最优,但是搜 索效率却非常低以至于在实际场合中很少有应用。b r a n c h & b o u n d 算法也可以 找到全局最优解,但是尽管它比穷尽搜索可以节省很多时间,在搜索的复杂度 上还是非常高的。启发搜索中的“顺序前向搜索 和“顺序后向搜索”在搜索 效率上可以大大提高,但是这是以牺牲了全局最优性为代价的。所以在选择搜 索策略的时候需要根据实际问题采用的评价标准等其他因素来进行综合考虑, 在搜索效率和最优性之间取一个折中。 表2 一l 特征选择搜索算法总结 t a b l e2 1f e a t u r es e l e c t i o ns e a r c ha l g o r i t h m 算法名称算法描述 s f s 顺序前向搜索算法( s e q u e n t i a lf o r w a r ds e a r c h ) 顺序后向搜索算法( s e q u e n t i a l s b sb a c k w a r ds e a r c h ) 。s f s 从空集开始,先选择评估最好的一个特征k ,然后 在选择包括k 个评估最好的两个特征,如此继续,特点是选中的特征就不 会被删掉。s b s 从全集开始,不断删除特征,特点是删掉了就不会再被选 中。 g s f s ( g )广义的顺序前向搜索算法和顺序后向搜索算法( g e n e r a ls e q u e n t i a l g s b s ( g ) f o r w a r d b a c k w a r ds e a r c h ) 每次评价大小为g 的特征子集,每步操作为g 个 特征被加入( 前向搜索) 或者删除( 后向搜索) 。 p t a ( i ,r ) 加,减r 法( p l u s ,t a k ea w a y ,) ,前行,步( 通过s f s 方法加入,个特征) , g p t a ( i ,n 后退,步( 通过s b s 方法减掉,个特征) ,g p t a ( z ,- ) 选用g s f s ( d 方法加 特征,g s b s ( ,) 方法减特征。 s f f s p t a ( ,厂) 方法的浮动模式。和p t a ( ,) 不同,s f f s s b f s 不限定前 s b f s 行后退的步数,s f f s 和s b f s 方法可以无限制的回溯,只要回溯可以找 到比目前的特征更好的特征。s f f s 和s b f s 的不同之处在于算法的搜索空 间的起点不同。s f f s 从空集开始,而s b f s 从全集开始。 b & b , 分支界限法及其扩展系列,一般需要评价函数单调,可以找到最优解。 b & b + b & b + + 等 g a 遗传算法不能保证找到最优解但是搜索空间较大,速度较快,不易陷入局 部极值。 s a 模拟退火搜索算法,计算量较大,初始温度以及每个温度值下的迭代次数 难以设定。 哈尔滨理工大学工学硕士学位论文 2 3 评价测度 对于一个新产生的特征子集,需要依据某一评价函数对其进行评价,把评 价函数值与先前最优的特征子集的进行比较,然后决定下步搜索方向或停止 搜索。评价函数可以如下定义: 对于样本集q ,其特征集合为x ,且其维数 i x i l = n ,这个样本集的特征子 集的集合与空间x - o ,1 ) n 同构。特征子集q 优于特征子集仃,( o 1 ,伊:x ) , 当且仅当对某个损失函数阢 ,一 y ( q ,诼矽q 0 ,| 硝 , 如= 0 , jf 可 3 q = 3 l t 1 9 哈尔滨理工大学工学硕士学位论文 这个条件表明,不同类别之间可分性判据为正,表明他们之间是可分的,且可 分性是相互的。而同类之间是不可分的,因而可分性判据值为o 。 4 ) 单调性,即加入新的特征时,判据不减小。 厶( 而,恐,劫) 厶( 五,x 2 ,x d ,x d + 1 , 下面我们介绍一下用于类别可分性判据的类内类间距离。 各类样本可以分开是因为它们位于特征空间中的不同区域,显然这些区域 之间距离越大类别可分性就越大。对于空间中两个点之间的距离度量我们都很 清楚,下面来求如何表示各个类区之间的距离。 令x :n ,x d 分别为w f 类及w ,类中的d 维特征向量,万( x 纨x t j ) ) 为这两个 向量之间的距离,则各类特征向量之间的平均距离为: 怕) = 鬻喜乞菇喜聊艄 ( 3 - l , 式( 3 1 ) 中c 为类别函数,n t 为w r 类中样本数,n j 为类中样本数,尸,、乃是相 应类别的先验概率。 多维空间中两个向量之间有很多种距离度量,在欧氏距离情况下有: 艿( n ,巧9 = ( n x t j ) ) 7 1 ( n 一d ) ( 3 2 ) 用m ,表示第f 类样本集的均值向量: 嬲,= 土 t 壹k = l 石:。 ( 3 3 ) 用m 表示所有各类的样本集总平均向量: m = p 朋。( 3 - 4 ) 将式( 3 2 ) 一3 - 4 ) 代入式( 3 1 ) 得: 厶( x ) = p ( n 一碍) r ( 筇一m i ) + ( m i 所) 7 1 ( m i m ) 】 f35)i= l t t ik = l 、,一, = t r ( & + 墨) 其中: 既= 只( 聊,- m ) ( m ,一m ) r ( 即类间散度矩阵) ,i l s w = 只( d 一) ( d 一镌) r ( 即类内散度矩阵) i = l,k = l 哈尔滨理工大学工学硕士学位论文 显然,在讨论类别可分性的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年莱芜辅警招聘考试真题含答案详解(精练)
- 2024年三亚辅警招聘考试题库含答案详解(a卷)
- 2024年云南辅警协警招聘考试真题含答案详解(考试直接用)
- 2024年六盘水辅警招聘考试题库及完整答案详解1套
- 2024年孝感辅警招聘考试题库含答案详解(预热题)
- 2024年三门峡辅警招聘考试真题附答案详解(突破训练)
- 2023年鄂州辅警招聘考试题库附答案详解(培优a卷)
- 2024年佛山辅警招聘考试真题完整答案详解
- 2023年鹤壁辅警协警招聘考试真题及答案详解(全优)
- 2024年南充辅警协警招聘考试真题含答案详解(b卷)
- 荷花课件英文
- 浙江省温州环大罗山联盟2024-2025学年高一上学期期中考试化学试题
- 超市收银员培训资料
- 《电力数据通信网络工程设计规程》
- 电动车消防安全预防电动车火灾培训课件
- 应急管理法律法规课件
- 无人机植保技术课件:无人机植保现状
- 代开发票合作合同
- 09J801民用建筑工程建筑施工图设计深度图样
- 高考语文复习:《到梨花屯去》 《秦琼卖马》课件
- 广东省珠海市文园中学2025届数学七上期末学业质量监测试题含解析
评论
0/150
提交评论