




已阅读5页,还剩54页未读, 继续免费阅读
(概率论与数理统计专业论文)朴素贝叶斯分类器及改进分类效果的若干方法的探讨.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
论文题目:朴素贝叶斯分类器及改进分类效果 的若干方法的探讨 专业:概率论与数理统计 硕士生:杨玉莹 指导教师:张磊副教授 摘要 朴素贝叶斯分类方法是简单的贝叶斯分类方法,在众多分类方法和理论中, 朴素贝叶斯由于计算高效、精确度高,并具有坚实的理论基础而得到了广泛应用。 朴素贝叶斯方法要求属性取离散值,并假定在给定分类特征条件下属性值之间是 相互独立的,同时认为每个条件属性对分类特征的重要性是相同的。但是这在真 实数据中不一定成立,此为朴素贝叶斯方法的局限性。 本文详细介绍了贝叶斯理论、贝叶斯分类器模型,详细阐述朴素贝叶斯分类 器模型的优点和局限性,针对局限性,详细介绍常用的连续属性离散化方法,阐 述它们各自的优缺点。在连续属性离散化、学习属性权重这两方面提出了改进朴 素贝叶斯分类效果的两个方法:进一步改进的基于熵的连续性属性离散化方法、 n b o o s t - 加权朴素贝叶斯算法。最后,通过实验验证了本文提出的两点改进可提 高朴素贝叶斯分类器的分类准确性。 本文在离散化时将连续属性分为5 类,但是将连续属性划分为多少类最佳有 必要进行进一步的讨论;同时,本文的n b o o s t 算法在调整权重时使用的函数是 否最优,这一问题也值得进一步探讨。 关键词:贝叶斯分类器朴素贝叶斯 连续属性离散化 信息熵 优化属性权重 b o o s t i n g 方法 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指 导下,独立进行研究工作所取得的成果。除文中已经注明引 用的内容外,本论文不包含任何其他个人或集体已经发表或 撰写过的作品成果。对本文的研究作出重要贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的 法律结果由本人承担。 学位论文作者签名才幻五薹 日期劲彳年厂月嘭日 为此,在未来的2 0 年中,至少要新增住宅 亿多套也即新建1 0 0 亿平方米以上的住宅。这意味着 地产企业发展空间在今后相当一段时间内是非常巨大的 房地产企业税登鎏霎蒌萎耋囊孽茎孽馨薹羹萋萋 i ;l 霎篓羹釜主萎萋薹蠢霎主囊毳蠹曼薹蓄羹薹羹 萋蓁鋈薹耋量:霪羹薹翼攀霎萋塞主塞? 霉蒌茎霎蓁藿 霎萋蓁羹耄羹蠹耄薹蚕二期:加c f 7 年岁月6 中山大学硕士学位论文 第一章引言 本章首先介绍本文的研究背景,然后进一步说明本文的研究范围和研究意 义,最后介绍本文的主要内容和体系结构。 1 1 朴素贝叶斯方法的产生背景 分类是将一个未知样本分到几个预先己知类的过程【l 】。数据分类问题的解决 是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集。通过分 析由属性描述的样本( 或实例,对象等) 来构造模型。假定每一个样本都有一个 预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元 组形成训练数据集,该步也称作有指导的学习。 在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型【2 】和贝叶 斯模型。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一 棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。在分类问题中使 用决策树模型有很多的优点,决策树便于使用,而且高效;根据决策树可以很容 易地构造出规则,而规则通常易于解释和理解;决策树可很好地扩展到大型数据 库中,同时它的大小独立于数据库的大小:决策树模型的另外一大优点就是可以 对有许多属性的数据集构造决策树。决策树模型也有一些缺点,比如处理缺失数 据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。 和决策树模型相比,贝叶斯模型发源于古典数学理论,有着坚实的数学基础, 以及稳定的分类效率。贝叶斯分类法是基于贝叶斯定理的统计学分类方法。用于 预测成员关系的可能性,如给定元组属于一个特定类的概率。 朴素贝叶斯分类方法是简单的贝叶斯分类方法,在众多分类方法和理论中, 朴素贝叶斯由于计算高效、精确度高,并具有坚实的理论基础而得到了广泛应用 【3 1 。朴素贝叶斯方法基于一个简单的假定【4 】:在给定分类特征条件下属性值之间 是相互独立的,同时认为,每个条件属性对分类特征( 决策属性) 的重要性是相 同的,这一点称为“朴素贝叶斯假设( 类条件独立性) 。做此假定是为了简化所 d o i :l o 3 9 6 9 j i s s n 1 0 0 3 3 5 3 x 2 0 0 9 0 8 0 2 4 线性均衡器的研制 集成缝垫燃咿脚a n dd | 鹏l o i m 哑o f i cj 严 秦志亮,郭文椹 ( 中国电子科技集团公司第十三研究所,石家庄0 5 0 0 5 1 ) 摘要:均衡器是重要的微波器件之一,用来改善微波系统的平坦度。研究了加载电阻的微带 谐振器及其在微带均衡器中的应用。先用微波仿真软件s e r e n a d e 对由加栽电阻的微带谐振器构成 的均衡器进行优化,再利用三维场仿真软件( h f s s ) 对电路进行电磁仿真检验,设计并制做了 2 一1 2g h z 微带线性均衡器。均衡器在整个频带内约均衡5d b ,输入与输出驻波比均小于2 :l ,最 终实验结果与设计相吻合,满足了工程的需要。结果表明,这种加载电阻的微带谐振器方式适合 线性均衡器的设计和制作。 关键词:均衡器;平坦度;微带谐振器;加载电阻;微波器件 中图分类号:7 1 5文献标识码:a文章编号:1 0 0 3 3 5 3 x ( 2 0 0 9 ) 0 8 0 8 1 1 0 3 r e s e a r c ha n di m p l e m e n to fl i n e a re q u a l i z e r q i nz h i l i a n g ,g u ow e n r e n ( 孤1 3 m 肠鲫曲触厶眦,凹陀,s 批曲w ,l g0 5 0 0 5 l ,饥讹) a b s 慨c t : e q u a l i z e ri soneo ft h em 憾ti m p o r t 舳tm i c r o w a v e d e v i c 船f o ri m p r o v i n gt h en a t n e s so f m i c r o w a v es y s t e m t h e 糟s i s t o rl o a d e di i i i c m s t r i pr e s o n a t o r 蛐di t 8 印p l i c a t i 伽i ni i l i c m s t r i pe q u a l i 髓rw e r e i n v e s t i g a t e d t h ee q u a l i z e r 瑚d eu po ft h er e s i s t o rl o a d e dm i c m 8 t r i pr e s o n 砒o rw 鹪o p t i i i l i z e d 而t l ls e r e n a d e , 蛐dt i l es i m u l a t i o nr e s u l t sw e r ev a l i d a t e du s i n gh f s s ,a tl 船ta2t o1 2g h zm i c m 8 t d pl i n e 盯e q u a l i 趵rw 躺 鲫c c e s s f u l l yd e s i g i l e da n df 曲d c a t e d h lt h ew h o l eb 锄d 衍d t h ,t h ep e 舶肋肌c eo ft h es y s t e mi 8i m p m v e d a b o u t5d bb yt h ee q u a l i z e r ,a n dt h ei n p u ta n dt h eo u t p u t俺i 隅a r en om o r et h a n2 ,锄dt h ef i n a lr e s u l t s m e 鹅u r e di ne x p e r i m e n ta 托c o n s i s tw i t l lt h ed e s i g n , m e e t i n gt h er e q u i r e r n t s t h er e s u l t 8s h o wm a tt l i e m e t h o d , u s i n gr e s i s t o rl o a d e dr n i c r o s t 邮r e s o n a 衙, i ss u i t a b l et od e s i g i l 锄df 如r i c a t el i n e a re q u a l i z e r 中山大学硕士学位论文 ( 3 ) 详细介绍了用于学习样本权重的一种b 0 0 s t i n g 算法_ a d a b 0 0 s t 算法以及 改进后的n a d a b o o s t 算法。 ( 3 ) 提出改进朴素贝叶斯分类效果的两个方法:进一步改进的基于熵的连续属 性离散化方法、学习属性权重的n b 0 0 s t 功口权朴素贝叶斯算法。改进的基于熵方 法优化了原基于熵方法在选择划分区间时的判断准则函数,但是没有考虑区间样 本个数,本文提出的新方法在使用了较优的判断准则函数的同时考虑了区间样本 个数。传统b o o s t i n g 算法应用于训练样本的权重,本文吸取了b 0 0 s t i n g 的基本 思想,并将其应用于朴素贝叶斯方法中,用于学习属性的权重。 1 4 本文的主要内容 文章余下部分是这样安排的: 第二章,介绍贝叶斯理论、朴素贝叶斯分类器、贝叶斯网络,对朴素贝叶斯 方法的优点、局限性进行分析。 第三章,介绍常用的连续属性离散化方法。 第四章,介绍b o o s t i n g 算法的基本思想,以及a d a b 0 0 s t 算法的具体流程, 介绍它的改进方法n a d a b o o s t 。 第五章,提出进一步改进的基于熵的连续属性离散化方法,提出应用于朴素 贝叶斯方法中,学习属性权重的n b o o s t - 加权朴素贝叶斯算法。 第六章,实验分析。 刘建栋等:k u 波段小型化功率介质振荡器的研制 1 理论分析 1 1工作原理 微波介质振荡器三种典型的电路形式是反馈 式、反射式和带阻式,其中反馈式又分为串联反馈 式和并联反馈式,后者更为常用。并联反馈式电路 拓扑图如图1 所示,结构的腔体剖面图如图2 所 示。可见并联反馈电路中采用了高增益放大器,允 许d r 与微带线间耦合极松,使得d r 具有一个较 高的有载品质因数值,并使得振荡器具有较低的相 位噪声。 图l 并联反馈型电路拓扑图 f i g 1 t 0 p o g r a p h yo fp a 口_ l l e lf j e d b a c kc i r c u i t ;r _ d1微芦 髟舔勿堕 j :一_ :;椒:? j :一i ! : 图2 介质振荡器腔体剖面图 f i g 2 p m f i l eo f d r 0c a v i 哆 中山大学硕士学位论文 若样本个数与lk l 相等,则称这个系统为全样本空间( ac o m p l e t ei n s t a n c e s y s t e m ) 。在真实数据中,训练集往往不是全样本空间系统。 下表是样本信息系统的一个简单示例: 表2 1样本信息系统示例【4 】 ud 口l 口2 口3口4 u 4224 + 矾 2l43 玑 2331 以 ll22 玑 3231 玑 44l2 + 阢 4333 酞 5224 + u 6 214 + u 。 7123 + u 723l u : 73l2 + 表2 1 给出了样本信息系统的一个示例。在这个系统中,有四个属性 彳= ( q ,吒,口3 ,口4 ) ,1 2 个样本u = 池,吻,约2 ,一个二值的决策属性 圪= + ,一) ,各决策值的值域及维数如下: 圪l = l ,2 ,3 ,4 ,5 ,6 ,7 ) ,l 圪ll = 7 ;圪:= 1 ,2 ,3 ,4 ) ,l 圪2l = 4 ;圪3 = l ,2 ,3 ) ,i 圪3i 2 3 ; = l ,2 ,3 ,4 ) ,i 圪。| - 4 。 条件属性空间的维数为i 攻爿l - 7 4 3 4 = 3 3 6 。显然表2 - l 并不是一个全样 本空间。这时,我们需要一个分类器可以从即使不完全的训练集中总结出分类准 则。下面介绍朴素贝叶斯分类法。 8 中山大学硕士学位论文 在条件属性取值为j 的时候,最可能的决策值应为: 噍可能= 吗粤a x p ( 4i a ) 。 d t y 4 根据贝叶斯法则,有 ( 2 7 ) 2 鼍掣驴。a r 3 1 p ( j m 呦。( 2 8 ) 朴素贝叶斯分类法假定一个属性对给定类的影响独立于其他属性值。因此, 尸( j l 谚) = p ( q ,呸,q 卅l z ) = 兀尸( 乃1 4 ) 。 可能= a r g m a x p ( 西) 兀p ( 口lz ) 。 d ,e 屹 , ( 2 9 ) ( 2 1 0 ) 为了从样本信息中获得( 2 - 9 ) 式,定义k 为决策值取为喀的样本的个数: = i 甜:d ( 甜) = 喀f o f a l lz , 口j ,k 为属性q 取为匕的样本的个数: ( 2 1 1 ) 心,b = l 甜:q ( 甜) = k f o r a l l u i ( 2 - 1 2 ) 心巾决策值为吨,属性q 取值为叱的样本个数: 显然, 心,q 气- l 群:d ) = 喀,q ( 甜) = 叱f o ra l l 甜u 地,= 一 如 = 陬。 h ( 2 1 3 ) ( 2 - 1 4 ) ( 2 1 5 ) 根据以上定义,( 2 。9 ) 式可改写为 略可能= a r g 鬈擎( 喀) 耳p ( 吁i4 ) = 鼍警斋耳丝甓警 ( 2 舶, q , 咏l i, ”以 其中,iu l 表示样本总数。利用( 2 1 1 ) ( 2 1 5 ) 的定义,为了方便得到( 2 - 1 6 ) 式的结果,可将表2 一l 表示成下表: 9 中山大学硕士学位论文 表2 2 样本取值的分布【4 】 属性 心m kf o r 吒 决策 n 电 名称q取值范围圪 圪。圪2圪3圪。圪, 珞 圪, 口l l ,2 ,7 ) 0o02l12 d 1 = t + 口2 1 ,2 ,3 ,4 ) 2311 6 口3 l ,2 ,3 ) 33 0o 口4 l ,2 ,3 ,4 ) 02l3 q l ,2 ,7 ) 12ll00l d 2 = - 口2 l ,2 ,3 ,4 ) 2220 6 口3 l ,2 ,3 ) 0 14 1 口4 l ,2 ,3 ,4 3120 2 2 1 贝叶斯网络 最早由j u d e ap e a r l 于1 9 8 8 年提出的贝叶斯网络实质( b a y e s i a n n e t 、v o r k ) 上就 是一种基于概率的不确定性推理网络。它是用来表示变量集合连接概率的图形模 型,提供了一种表示因果信息的方法。当时主要用于处理人工智能中的不确定性 信息。随后它逐步成为了处理不确定性信息技术的主流,并且在计算机智能科学、 工业控制、医疗诊断等领域的许多智能化系统中得到了重要的应用。这些成功的 应用,充分体现了贝叶斯网络技术是一种强有力的不确定性推理方法。 贝叶斯网络亦称信念网络( b e l i e f n e 铆o r k ) 【1 0 1 ,于1 9 8 5 年由j u d c ap e a r l 首先提 出。贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一 个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量 是概率相依的,反之则说明这两个随机变量是条件独立的。网络中任意一个结点 1 0 中山大学硕士学位论文 x 均有一个相应的条件概率表( c 0 n d i t i o n a lp r o b a b i l i 妙1 拍l e ,c p t ) ,用以表示结 点x 在其父结点取各可能值时的条件概率。若结点x 无父结点,则x 的c p t 为 其先验概率分布。贝叶斯网络的结构及各结点的c p t 定义了网络中各变量的概 率分布。 贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点c ,其中c 的取值来自于类集合( q ,乞,) ,还包含一组结点x = ( 置,置,疋) ,表示用 于分类的特征。对于贝叶斯网络分类器,若某一待分类的样本d ,其分类特征值 为工= ( 五,而,) ,则样本d 属于类别q 的概率为: 户( c = ql 墨= 毛,五= 乇,0 = 矗) ,( f = 1 ,2 ,m ) ( 2 一1 7 ) 当x 被判为属于第i 类时,应满足下式: 尸( c = qi x = x ) = 脓 p ( c = c ll x = x ) ,p ( c = 乞l x = x ) ,尸( c = i x = z ) ( 2 - 1 8 ) 尸( c = qix = x ) = ! 1 2 二三二萼 三手掣 ( 2 。9 ) 其中,尸( c = q ) 可由领域专家的经验得到,而尸( x = x l c = q ) 和p ( x = x ) 的 计算则较困难。下图所示为一个简单的贝叶斯网络模型: 图2 1 简单贝叶斯网络示意图 歹 ,力 d 三 刍 _ 二3 = , o1 02 03 05 07 08 0 缺失数据比例 图2 2 :6 种分类器的平均预测损失示意图 总体上来说当缺失数据在数据集中所占比例少于l o 的时候,缺失数据对 分类器的影响很小。对于这6 种分类器,由缺失数据所造成的预测损失率平均在 2 左右。若缺失数据的比例为l o 一2 0 ,趋势数据对分类器的影响是不容忽视 的,六种分类器的平均预坝0 损失率上升到5 左右。但是,通过简单的处理,比 如用近似值替代等,仍能很好地减少数据缺失对分类器所造成的不利影响。当缺 失比例超过2 0 的时候,预测准确率有很明显的下降。需要选择适当的缺失处理 方法来消除缺失数据带来的不利影响,以提高分类器的性能。然而,当数据缺失 率超过5 0 以后,数据缺失所造成的预测准确率的损失是巨大的。这时,缺失数 据处理技术所能挽回的损失是非常有限的。 在6 种分类器中,朴素贝叶斯分类器对缺失数据最不敏感。随着数据集中缺 失比率的增加,朴素贝叶斯分类器的预测准确率一直接近无缺失值的情况,且比 较稳定,只有当缺失比例超过7 0 时,才呈现明显的下降。总体来说,在众多分 类器中,朴素贝叶斯分类器对缺失数据的适应性是最好的。 因此,当数据集中有大量数据缺失的时候,朴索贝叶斯分类器是一个不错的 选择。同时,在众多分类器中,选择用朴素贝叶斯分类器来处理块失数据也能得 到比其他分类器更好的结果。 。p鬣弘加氐。 中山大学硕士学位论文 2 3 2 朴素贝叶斯方法对属性的几点要求 前言提到过,朴素贝叶斯有几点局限性,下面进行详细的阐述。 ( 1 ) 类条件独立性假设不成立: 朴素贝叶斯方法假定属性值之间是相互独立的,这个假设在现实世界中经常 不能满足,针对这一点不足之处,贝叶斯网络是一个有效的方法。然而要学习得 到一个最优贝叶斯网络是n p 难的问题。为了既保持朴素贝叶斯计算的简单性, 又提高其分类性能,可在分类前对数据进行预处理,对属性子集进行选择( 属性 子集选择通过删除不相关或冗余属性减小数据集) ,把与决策不相关的属性或冗 余属性删除掉。 另外,朴素贝叶斯方法的类条件独立性还假设了每个条件属性对分类特征 ( 决策属性) 的重要性是相同的,这点也有可能与现实不符,此时我们可通过计 算不同属性的加权值改进。第四章、第五章将对该部分内容进行详细阐述。 ( 2 ) 训练集不完全: 由于训练集往往是不完全的,如果测试集样本中出现了训练集中未出现过的 属性取值,例如某个伟咖) = o ,这会导致式( 2 - 1 6 ) 值为零。这个零概率值 将消除乘积中涉及的其他属性取值对后验概率的影响。为了防止这种情况出现, 通常在分类前,进行拉普拉斯校准【l 】。 若训练数据库很大,可将需要的每个计数加1 避免零概率问题出现,而由此 造成的估计概率变化对于整个训练数据库而言可以忽略不计。这种概率估计计数 称为拉普拉斯校准或拉普拉斯估计方法。 若相较于条件属性空间的维数,训练样本数量并不是很多,针对这种情况, 文献【4 】提出一种改进的拉普拉斯校准形式: = 嚆衔耳揣 沼2 。, 1 4 中山暮薹:! 薹蚕霎萼耋;雾妻堂i l i 季薹委萋薹耋丢萋薹鏊量囊萼垂葡i i ;【! 羹| ;: 蓁蓁雾饕;耍蚕薹誊囊蠢鍪蓁雾篓蓁霎薹姜囊薷 孵二奏薹喾已阮垂j 硬霞;。羹薹霎j 篓囊薹萋羹薹萋 霎,! 薹囊雾羹薹;薹薹蓁霎雾衍萎孽雾芋兰攀薹藿薹 霎 二蠢羹 域辇i 曩薹翼奏霎攀雾蠢粪委霎奏i 蓁薹? 薹。篓雾蔷霉i 蔷尝鍪雾薹鍪雾蓁薹萎嘉蓁羹 中山大学硕士学位论文 第三章连续属性离散化问题的解决方法 3 1 连续属性离散化问题的提出 朴素贝叶斯方法要求属性数据取值为离散的,但是现实中经常出现属性值为 连续的情况,这时在使用朴素贝叶斯方法时需先将连续属性离散化。本章将介绍 几种常用的连续属性离散化方法。 3 2 离散化问题的常用解决方法 连续属性离散方法应尽可能满足: ( 1 ) 属性离散化后的空间维数尽量少; ( 2 ) 属性值被离散化后丢失信息量尽量少。 若离散化过程有使用类信息,则称它为监督离散化;否则是非监督离散化。 下面将介绍的几种常见的离散方法【1 】是:分箱、z 2 合并、聚类分析、基于 熵的离散化。通常,每种方法都假定待离散化的值已经按递增序排序。 3 2 1 分箱技术 分箱【1 】是一种基于箱的指定个数自顶向下的分裂技术,分箱方法把有序值分 布到一些“桶”或箱中,是最简单的离散化方法。通常有等宽、等频两种方法。 等宽分箱指每个箱值的区间范围是个常量。等频分箱指放在每个箱中的对象个数 一样。在使用等宽或等频分箱后,通常用箱均值或中位数替换箱中的每个值,从 而将属性值离散化。分箱方法并没有使用类信息,因而是非监督的分类法,分类 信息有可能在分箱过程中损失掉,造成错误的分类,而且它对用户指定的箱个数 很敏感,也容易受离群点的影响。 1 6 中山大学硕士学位论文 3 2 2z 2 合并方法 z 2 合并【1 】采用自底向上的策略,递归地找出最佳邻近区间,然后合并它们, 形成较大的区j 司。这种方法是监督的,使用了类信思。它的基本思想是,对于精 确的离散化,相对类频率在一个区间内应当相当一致。因此,如果两个邻近的区 间具有非常类似的分布,则这两个区间可以合并。否则,它们应当保持分开。 初始,将数值属性a 的每个不同值看作一个区间,构造列联表。这个列联 表有两列( 两个相邻区间) 和m 行( m 个决策属性) 。为第i 行第j 列所对应 单元的实际观测值。勺为的期望频率。z 2 统计量的零假设为给定属性的两个 相邻区间是类独立的。对每对相邻区间进行z 2 检验,具有最小z 2 值的相邻区间 合并在一起,因为低z 2 值表明它们具有相似的类分布。该合并过程递归地进行, 直到满足预先定义的终止标准。 z 2 统计量【2 4 】的计算公式如下: 序立壹譬竽 ( 3 - ) 扛l 户if 勺:竺唑苎粤竺型,扛1 ,叫:l , ( 3 - 2 ) 勺2 可_ 一川司, g 户l , 呓 终止判定标准通常由三个条件决定。首先,当所有相邻区间对的z 2 值都低 于由指定的显著水平确定的某个阈值时合并停止。z 2 检验的置信水平太高可能 导致过分离散化,而太低的值可能导致离散化不足。通常,置信水平设在 0 1 0 o o l 之间。其次,区间数可能少于预先指定的区间数,如1 0 1 5 。最后,区 间内相对类频率不应当超过某个预先指定的阈值,如3 ,利用这一个条件还可 以检测属性间的冗余,删除数据集中不相关的属性。 3 2 3 基于聚类分析的离散化 1 7 中山大学硕士学位论文 下面以两类样本为例介绍基于信思熵的离散化方法。 记尸为已选取的断点集合,召为候选断点的集合,有限个属性值经过排序后 为: h 一 占 、-, 似 其 忽哆 r 硝 器类 l_。、 分 = 强 力 蝴 输 中山大学硕士学位论文 然而寻找最佳阈值胁劝耽嘞,将花费很高的时间复杂度。针对这个问题本文 提出如下改进方案,就是采用经验值,将劢劝耽泐设置为某一固定值。 本章总结: 本章介绍了b o o s t i n g 算法的基本原理、a d a b o o s t 算法的基本流程以及改进 后的n a d a b o o s t 方法,我们将在下一章具体提出如何将这一系列b o o s t i n g 算法 的基本思想应用于朴素贝叶斯分类器的属性权重学习中。 3 2 中山大学硕士学位论文 图5 一l基于信息熵的离散化方法基本流程图 璧鬻溺目妄j 臣耋圣;圣耋罟薹粪薹霎 匡匡匡。霎篓霞萋;薹薹萎霎委囊鋈雾型 囊辇。雪萎。冀蠢薹霎薹鍪;霪藿i 爹一薹萋 蓁薹薹萋旦甏鋈萋而墨雾妻主篓薹 薹萋! 蓁的薹篓薹霪。 ! 薹! 薹蠹些羹囊雾 萎篓姜窆羹萋薹蓁垂霞型鍪薹 鍪尘蓁一嚣囊鐾霎囊姜雾;l 薹薹爹薹 菱耄;薹霎薹霪恫囊耄霎薹产量;冀 耋需火羹薹霎萋薹。霎錾茎薹以妻薹 萋;蓁羹薹襄坚霎薹羹霎薹矍。囊i 萋霪萎 篓薹| 堇:i 雪奏萎;霎当蠹薹鹜爹爹匡董喜 囊萎一姜耋篓羹i 霎= 熏葡冀蠹蝥委j 鼍童套震 霎,蚕鍪翼雨篓霎霪薹薹囊冀囊囊毳 霪| 薹,! 霎霎萋薹篓薹嘉警逊重主一三妻 霎薹:囊。薹羹薹蓁萋藿薹霎弓茎 藜i 羹篓萎菱| 羹誉霎霆薹萋i 霉囊篓 妻萎萋霎i 耄耋。萎羹耋篓! 錾:薹辇奏墓 ! 霉童。莲露篓萋! 薷 剁,。囊孽薹薹| 茎孽 囊矍窭铆兰? 耋i 孽霉蚕妻囊塞妻圣; 耄j _ | 垡; 雾囊雾鬟羹奚羹羹;f 薹蓁篓蓁 羹萋羹鎏奏茎霎:囊薹| 羹| 羹薹薹霎蓁彳 蠢冀蒌霞曼羹蓁:萋霎薹羹羹冀薹囊 蓁? 鍪鋈爹薹藿薷蕊羹囊蓥蓄i 竺鍪霪 霎薹奏篓萎蓁篓篓薹霪囊簿蹩霞霎; 中山大学硕士学位论文 此算法简单易实现,并且能有效的提高原朴素贝叶斯分类器的准确率,我们 将在下一章用实验具体验证此方法的可行性。 3 7 中山大学硕士学位论文 第六章实证分析及实验结果 为了验证基于熵的离散化方法的改进,以及n - b o o s t i n g - 力口权朴素贝叶斯算法 可以提高朴素贝叶斯方法的分类正确率,本文采用u c i 数据库【3 7 】【3 8 】的数据资料 进行实验。在u c i 数据库中挑选了3 个数据集后,分别对它们进行了缺失数据处 理、连续属性离散化处理( 使用3 2 4 节、3 2 5 节、5 1 节提到的三种离散化方 法) 、冗余属性检测及删除( 在s p s s 软件上进行【4 1 】) 、利用朴素贝叶斯分类器分 类、利用n b 0 0 s t - 力口权朴素贝叶斯分类器分类( m a n ,a b 【4 2 】上进行) 。下面我们 将介绍挑选出来的数据集,然后以数据集c r e d i t - a 为例,详细阐述实验步骤。 6 1 挑选数据集 我们将文献【3 9 】提到的3 6 组u c i 数据集中的两类分类问题数据集抽取出来, 再选择属性中含有连续属性的作为我们的实验数据集,它们分别是: 表6 1 数据集信息表述 n o 数据集名称样本个数属性个数是否含有缺失值 lc d i t - a6 9 01 6是 2d i a b e t e s7 6 89否 3s i c k3 7 7 23 0 是 6 2 对数据集c r e d i t a 的实证分析及结果 c r c d i t a 是一个关于信用卡信息的数据集,包含1 6 个属性,其中第1 6 个属 性为决策属性,其余为条件属性。1 5 个条件属性中,有6 个属性是连续型的, 其余为离散型属性。c r e d i t a 共含6 9 0 个样本,其中3 2 个样本含缺失值,我们将 先对数据进行缺失值处理,再划分出训练集( 4 6 7 个样本) 以及测试集( 1 9 1 个 中山大学硕士学位论文 样本) ,随后针对训练集,进行预处理、朴素贝叶斯学习。具体步骤如下。 621缺失数据预处理 由于缺失样本个数占总样本个数约4 ,所占比例较小,我们将缺失值从样 本集中删掉。对于剩余的6 5 8 个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025四川泸州交通物流集团有限公司及下属公司招聘10人备考考试题库附答案解析
- 法务专业团队咨询方案
- 2025湖北省省直机关遴选公务员214人备考考试题库附答案解析
- 可再生能源供应链的金融创新-洞察及研究
- 农村数字文化与传统手工艺保护-洞察及研究
- 文化IP价值链构建-洞察及研究
- 数字化转型人才策略-第3篇-洞察及研究
- 河北省2025-2026学年高三上学期9月月考检测思想政治试卷
- 渑池县第二高级中学2026届高三上学期开学考试英语试卷(含答案)
- 环境光感自适应调节-洞察及研究
- 2024版2025秋贵州黔教版综合实践活动五年级上册全册教案教学设计
- 转作风重实干课件
- 村干部饮水安全培训总结课件
- 安全生产治本攻坚三年行动半年工作总结
- 单招备考科学方案
- 医美咨询培训课件
- 海船船员适任 评估规范(2024)轮机专业
- DB50-T 1463.2-2023 牛羊布鲁氏菌病防控技术规范 第2部分:人员防护
- NoSQL数据库应用与实践 课件 第1-6章 认识NoSQL - 增删改查
- 20世纪宋史研究:主要趋势、热点领域与未来展望
- 2025年度餐饮店知识产权保护与合伙人合同
评论
0/150
提交评论