


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
五种贝叶斯网分类器的分析与比较摘要:对五种典型的贝叶斯网分类器进行了分析与比较。在总结各种分类器的基础上,对它们进行了实验比较,讨论了各自的特点,提出了一种针对不同应用对象挑选贝叶斯网分类器的方法。 关键词:贝叶斯网;分类器;数据挖掘;机器学习 故障诊断、模式识别、预测、文本分类、文本过滤等许多工作均可看作是分类问题,即对一给定的对象(这一对象往往可由一组特征描述),识别其所属的类别。完成这种分类工作的系统,称之为分类器。如何从已分类的样本数据中学习构造出一个合适的分类器是机器学习、数据挖掘研究中的一个重要课题,研究得较多的分类器有基于决策树和基于人工神经元网络等方法。贝叶斯网(,)在应用中一直作为一种不确定知识表达和推理的工具,从九十年代开始也作为一种分类器得到研究。 本文先简单介绍了贝叶斯网的基本概念,然后对五种典型的贝叶斯网分类器进行了总结分析,并进行了实验比较,讨论了它们的特点,并提出了一种针对不同应用对象挑选贝叶斯分类器的方法。 贝叶斯网和贝叶斯网分类器 贝叶斯网是一种表达了概率分布的有向无环图,在该图中的每一节点表示一随机变量,图中两节点间若存在着一条弧,则表示这两节点相对应的随机变量是概率相依的,两节点间若没有弧,则说明这两个随机变量是相对独立的。按照贝叶斯网的这种结构,显然网中的任一节点均和非的父节点的后裔节点的各节点相对独立。网中任一节点均有一相应的条件概率表(,),用以表示节点在其父节点取各可能值时的条件概率。若节点无父节点,则的为其先验概率分布。贝叶斯网的结构及各节点的定义了网中各变量的概率分布。 贝叶斯网分类器即是用于分类工作的贝叶斯网。该网中应包含一表示分类的节点,变量的取值来自于类别集合,。另外还有一组节点(,)反映用于分类的特征,一个贝叶斯网分类器的结构可如图所示。 对于这样的一贝叶斯网分类器,若某一待分类的样本,其分类特征值为(,),则样本属于类别的概率为(),因而样本属于类别的条件是满足()式: ()(),(),()() 而由贝叶斯公式 ()() 其中()可由领域专家的经验得到,而()和()的计算则较困难。应用贝叶斯网分类器分成两阶段。一是贝叶斯网分类器的学习(训练),即从样本数据中构造分类器,包括结构(特征间的依赖关系)学习和表的学习。二是贝叶斯网分类器的推理,即计算类结点的条件概率,对待分类数据进行分类。这两者的时间复杂性均取决于特征间的依赖程度,甚至可以是完全问题。因而在实际应用中,往往需要对贝叶斯网分类器进行简化。根据对特征间不同关联程度的假设,可有各种贝叶斯分类器。下面讨论五种典型的分类器。 五种贝叶斯分类器 分类器 为简化计算,最简单的情形可假定各特征变量是相对独立的,即为()分类器,其结构如图所示。 虽然这种条件独立的假设在许多应用领域未必能很好满足,但这种简化的贝叶斯分类器在许多实际应用中还是得到了较好的分类精度。 分类器 ()分类器对分类器进行了扩展,允许各特征结点构成一棵树。图为一分类器的简单例子。允许特征变量间构成有限的关联。 分类器 ()分类器进一步扩展分类器,允许各特征结点之间的关系构成一个图,而不只是树。图给出了一例子。 分类器 ()作为分类器对应一组贝叶斯网,类结点的每个可能取值均对应一个贝叶斯网(图)。可看作是的推广,认为对各个不同的类各特征之间的关系是不变的,而则认为对类变量的不同取值,各特征之间的关系可能是不一样的。 分类器 ()是一种无约束的贝叶斯网分类器,和前四类贝叶斯网分类器有较大区别的是,在前四类分类器中均将类变量作为一特殊的结点,是各特征结点的父结点,而中将特征结点作为一普通结点。图给出了一例子。 将和进行比较,我们可以发现,假设对整个数据集有一单一联合概率分布,而则认为对不同的分类有不同的联合概率分布。因而对那些数据集有单一内在概率模型的应用使用更合适,而对那些不同类的数据集其特征之间的依赖关系差异较大的应用场合,则使用更合适。 实验 我们通过实验对上述五种贝叶斯分类器进行了比较。实验中用到的五个数据集下载自机器学习数据库。这五个数据集的基本情况见表。实验分成以下几步: ()应用每个数据集中的训练数据分别构造分类器。和分类器的学习算法取自,而和学习算法取自。 ()将构造的贝叶斯网分类器以()格式输出成文件。 ()采用作为贝叶斯网推理器,读入格式的分类器和数据集中测试数据进行分类测试,测试分类精度见表。 表实验所用数据集 数据集名称特征数目类别数目实例数目训练集测试集表测试结果(分类精度) 进一步讨论 对实验结果作进一步分析,我们可以有以下结论: ()虽然分类器的特征独立性假设在许多情况下是不符合实际的,但其分类精度并不是特别差,而其无须结构学习、计算简单的优点很特出,因而在某些应用中还是一种实用选择。 ()对特征关联程度强的应用,应采用较复杂的贝叶斯网分类器,这其中相对表现较佳。当然复杂分类器的学习、推理的时间复杂度就会增加。 ()各种分类器有不同的适用对象,一具体应用适用哪一类分类器主要取决于特征之间的关联情况,而这种关联情况往往难以人工直观确定。为解决贝叶斯网分类器的选择问题,我们提出如下方法: 将样本数据分成训练集和选择集两部分; 将训练集作为输入,构造五类贝叶斯网分类器; 在选择集上运行构造的各个分类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年医疗美容行业美容产品跨境电商市场分析与监管报告
- 2025年医疗美容行业报告:行业规范化与市场增长潜力分析
- 2025年医疗健康数据隐私保护技术在远程会诊中的合规应用报告
- 2025年医疗健康产业市场细分领域市场潜力评估与投资机会研究
- 急性心梗科普课件
- 大学生生命教育及生涯规划
- 护理管理培训课件
- 巩义华德礼仪培训
- 2023-2024学年江苏省盱眙县初中数学毕业考试模拟冲刺卷含解析
- 牙疮日常护理方法
- 2024年山东省高中学业水平合格考生物试卷试题(含答案详解)
- 物业经营分析报告
- 修理厂大修发动机保修合同
- 中国成人暴发性心肌炎诊断和治疗指南(2023版)解读
- 法庭科学 伪造人像 深度伪造检验
- 沙滩卫生清洁方案
- 人工智能设计伦理智慧树知到期末考试答案章节答案2024年浙江大学
- 电动轮椅车-标准
- MOOC 网络技术与应用-南京邮电大学 中国大学慕课答案
- 电化学储能电站安全规程
- 微生物知识及无菌操作知识培训
评论
0/150
提交评论