贝叶斯网络与朴素贝叶斯方法PPT课件_第1页
贝叶斯网络与朴素贝叶斯方法PPT课件_第2页
贝叶斯网络与朴素贝叶斯方法PPT课件_第3页
贝叶斯网络与朴素贝叶斯方法PPT课件_第4页
贝叶斯网络与朴素贝叶斯方法PPT课件_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贝叶斯网络与朴素贝叶斯 2020 4 19 1 知识管理与数据分析实验室 一 贝叶斯法则问题 如何判定一个人是好人还是坏人 2020 4 19 知识管理与数据分析实验室 2 人的主观认识 一 贝叶斯法则引言 当你无法准确的知悉一个事物的本质时 你可以依靠与事物特定本质相关的事件出现的次数来判断其本质属性的概率 如果你看到一个人总是做一些好事 那这个人就越可能是一个好人 数学语言表达就是 支持某项属性的事件发生得越多 则该属性成立的可能性就愈大贝叶斯法则 2020 4 19 知识管理与数据分析实验室 3 一 贝叶斯法则起源 贝叶斯法则来源于英国数学家贝叶斯 ThomasBayes 在1763年发表的著作 论有关机遇问题的求解 2020 4 19 知识管理与数据分析实验室 4 贝叶斯法则最初是一种用于概率论基础理论的归纳推理方法 但随后被一些统计学学者发展为一种系统的统计推断方法 运用到统计决策 统计推断 统计估算等诸多领域 一 贝叶斯法则贝叶斯公式 贝叶斯公式定义一假定某个过程有若干可能的前提条件 则表示人们事先对前提条件Xi出现的可能性大小的估计 即先验概率 定义二假定某个过程得到了结果A 则表示在出现结果A的前提下 对前提条件Xi出现的可能性大小的估计 即后验概率 2020 4 19 知识管理与数据分析实验室 5 一 贝叶斯法则算例 全垄断市场条件下 只有一家企业M提供产品和服务 企业K考虑是否进入该市场 同时 企业M为阻止K进入该市场采取了相应的投资行为 而K能否进入该市场完全取决于M为阻止其进入所花费的成本大小 假设K并不知道原垄断者M是属于高阻挠成本类型还是低阻挠成本类型 但能确定 如果M属于高阻挠成本类型 K进入市场时M进行阻挠的概率是20 如果M属于低阻挠成本类型 K进入市场时M进行阻挠的概率是100 现设K认为M属于高阻挠成本企业的概率为70 而在K进入市场后 M确实进行了商业阻挠 试以企业K的角度 判断企业M为高阻挠成本类型的概率 2020 4 19 知识管理与数据分析实验室 6 一 贝叶斯法则算例 利用贝叶斯公式建模 前提条件 设M是高阻挠成本类型为X1 低阻挠成本类型为X2 结果 M对K进行阻挠为A 所求概率即为在已知结果A的情况下 推断条件为X1的后验概率 已知为0 2 为1 P X1 为0 7 P X2 为0 3 2020 4 19 知识管理与数据分析实验室 7 一 贝叶斯法则算例 即 根据实际市场的运作情况 企业K可判断企业M为高阻挠成本类型的概率为0 32 换句话说 企业M更可能属于低阻挠成本类型 2020 4 19 知识管理与数据分析实验室 8 根据贝叶斯公式可计算 二 贝叶斯网络引言 贝叶斯网络又称为信度网络 是基于概率推理的图形化网络 它是贝叶斯法则的扩展 而贝叶斯公式则是这个概率网络的基础 贝叶斯网络适用于表达和分析不确定性和概率性事件 应用于有条件地依赖多种控制因素的决策过程 可以从不完全 不精确或不确定的知识或信息中做出推理 2020 4 19 知识管理与数据分析实验室 9 二 贝叶斯网络引言 贝叶斯网络由JudeaPearl于1988年提出 最初主要用于处理人工智能中的不确定信息 随后 逐步成为处理不确定性信息技术的主流 并在文本分类 字母识别 经济预测 医疗诊断 工业控制等领域得到了广泛的应用 目前 贝叶斯网络是不确定知识表达和推理领域最有效的理论模型之一 2020 4 19 知识管理与数据分析实验室 10 二 贝叶斯网络定义 符号B D G 表示一个贝叶斯网络 包括两个部分 一个有向无环图 DirectedAcyclicGraph DAG 它由代表变量的节点及连接这些节点的有向边构成 其中 节点代表随机变量 可以是任何问题的抽象 如 测试值 观测现象 意见征询等 节点间的有向边代表了节点间的互相关系 由父节点指向其后代节点 2020 4 19 知识管理与数据分析实验室 11 A B C 二 贝叶斯网络定义 一个节点与节点之间的条件概率表 ConditionalProbabilityTable CPT 如果节点没有任何父节点 则该节点概率为其先验概率 否则 该节点概率为其在父节点条件下的后验概率 2020 4 19 知识管理与数据分析实验室 12 目标类型 二 贝叶斯网络定义 数学定义 贝叶斯网络B D P D表示一个有向无环图 是条件概率分布的集合 其中是D中节点Xi的父节点集合 在一个贝叶斯网络中 节点集合 则其联合概率分布P X 是此贝叶斯网络中所有条件分布的乘积 2020 4 19 知识管理与数据分析实验室 13 二 贝叶斯网络定义 这是一个最简单的包含3个节点的贝叶斯网络 其中 是节点A的概率分布 先验概率 与为节点B C的概率分布 后验概率 2020 4 19 知识管理与数据分析实验室 14 A B C 二 贝叶斯网络研究前景 贝叶斯网络的特性 贝叶斯网络本身是一种不定性因果关联模型 它将多元知识图解可视化 贴切的蕴含了网络节点变量之间的因果关系及条件相关关系 贝叶斯网络具有强大的不确定性问题的处理能力 它用条件概率表达各个信息要素之间的相关关系 能在有限的 不完整的 不确定的信息条件下进行知识学习和推理 贝叶斯网络能有效的进行多源信息表达与融合 可将故障诊断与维修决策相关的各种信息纳入到网络结构中 并按节点的方式统一进行处理与信息融合 2020 4 19 知识管理与数据分析实验室 15 二 贝叶斯网络研究前景 贝叶斯网络的缺陷研究如何根据数据和专家知识高效 准确的建立贝叶斯网络 是十多年来研究的热点之一 也是贝叶斯网络更加广泛 有效地用于实际问题领域的关键和焦点之一 目前对于这一类学习问题 主要有基于打分 搜索的学习方法和基于依赖分析的学习方法 但前者存在搜索空间巨大 可能收敛于局部最优解等问题 后者则存在节点之间的独立性或条件独立性判断困难 高阶条件独立性检验的结果不够可靠等问题 2020 4 19 知识管理与数据分析实验室 16 二 贝叶斯网络研究前景 贝叶斯网络与马尔科夫链马尔科夫链蒙特卡罗 MarkovChainMonteCarlo MCMC 方法是源于统计物理学和生物学的一类重要的随机抽样方法 该方法广泛应用于机器学习 统计和决策分析等领域的高维问题的推理和求积运算 MHS Metropolis HastingSampler 抽样算法作为MCMC方法中常用的抽样方法之一 通过构建一条马尔科夫链 模拟一个收敛于Boltzmann分布的系统 将MHS抽样算法引入贝叶斯网络 能够较好的解决进化学习方法中由于个体趋同而产生的早熟问题 保证算法的学习精度 2020 4 19 知识管理与数据分析实验室 17 二 贝叶斯网络研究前景 贝叶斯网络与马尔科夫链此外 针对其计算精度低 收敛速度较慢的不足 随机拟MCMC方法也具有一定的优越性 不过 该算法存在的收敛速度慢和收敛性判断困难等问题仍未能得到有效解决 因此 如何更有效地将MCMC方法用于贝叶斯网络的结构学习与推理学习成为近年来重要的研究方向之一 2020 4 19 知识管理与数据分析实验室 18 三 朴素贝叶斯引言 贝叶斯网络与朴素贝叶斯 2020 4 19 知识管理与数据分析实验室 19 三 朴素贝叶斯贝叶斯分类器 贝叶斯分类器是用于分类的贝叶斯网络 该网络中通常包含类节点C 其取值来自类集合 还包含一组节点 表示用于进行分类的特征属性 对于贝叶斯网络分类器 若某一待分类的样本D 其分类特征值为 则样本D属于类别Ci的概率 应满足 2020 4 19 知识管理与数据分析实验室 20 三 朴素贝叶斯贝叶斯分类器 由贝叶斯公式可以得到 其中 可由领域专家的经验获得 而和的计算较为困难 2020 4 19 知识管理与数据分析实验室 21 贝叶斯分类器的进一步简化如何进行 三 朴素贝叶斯贝叶斯分类器 贝叶斯网络分类器进行分类的两个阶段 2020 4 19 知识管理与数据分析实验室 22 两个阶段的时间复杂度均取决于特征值间的依赖程度 三 朴素贝叶斯贝叶斯分类器 根据对特征值间不同关联程度的假设 可以得出各种贝叶斯分类器 其中较典型 研究较深入的贝叶斯分类器主要有四种 分别是 NB Na veBayes TAN TreeAugmentedNa ve Bayes BAN BNAugmentedNa ve Bayes GBN GlobalBayesianNetworks 2020 4 19 知识管理与数据分析实验室 23 三 朴素贝叶斯引入 朴素贝叶斯 Na veBayes 算法是贝叶斯分类器中研究较多 使用较广的一种 在许多场合 朴素贝叶斯的分类算法可以与决策树和神经网络分类算法相媲美 朴素贝叶斯分类器的基础 假设一个指定类别中各个属性的取值是相互独立的 即在给定目标值的情况下 观察到联合的的概率正好是对每个单独属性的概率乘积 2020 4 19 知识管理与数据分析实验室 24 三 朴素贝叶斯方法 2020 4 19 知识管理与数据分析实验室 25 考虑到是一个取大的过程 则对于结果不产生影响 故可以看作系数a 则 原公式可以简化 贝叶斯分类器 朴素贝叶斯简化 三 朴素贝叶斯研究现状 朴素贝叶斯分类器由Duda和Hart于1937年提出 它是一个简单有效而且在实际使用中比较成功的分类器 现在 被广泛的运用在数据挖掘 模式识别 故障诊断等众多领域 朴素贝叶斯算法有很多优点 应用范围广泛 可以很好的扩展到超大规模问题 并且不需要通过搜索来寻找最大后验概率的朴素贝叶斯假设 可以轻松地应付有噪声的训练数据 并在适当的时候给出概率预测 2020 4 19 知识管理与数据分析实验室 26 三 朴素贝叶斯研究现状 朴素贝叶斯分类器假设一个指定类别中各属性的取值是相互独立的 这一假设可以帮助有效减少在构造贝叶斯分类器时所需要进行的计算量 不过 实际的应用领域中 各个属性相互独立的假设很难成立 这也从很大程度上影响了朴素贝叶斯分类器的分类能力 当前 半朴素贝叶斯分类器 相关属性删除 概率值条件 贝叶斯树以及懒惰贝叶斯规则方法 都是对朴素贝叶斯算法的改进与推广 并在不同的领域取得了显著的成果 2020 4 19 知识管理与数据分析实验室 27 四 算例系统控制中的应用 在信息技术迅速发展及其在军事领域广泛应用的条件下 防空作战环境变得愈加复杂 也给现代防空作战中的空情探测带来了严峻的挑战 由于受到自身性能 电子干扰等因素的影响 不同的空情雷达对同一空中目标的探测的准确度不同 从而影响了防控侦察预警信息的准确性 应用贝叶斯网络算法探讨计算不同雷达在探测同一目标的可信度 通过数据融合推断出空中目标的类型 是贝叶斯网络算法在系统可靠性领域的重要应用之一 2020 4 19 知识管理与数据分析实验室 28 四 算例系统控制中的应用 例4 1假设两个空情雷达探测同一目标 目标可能的类型 A 大型战机 B 小型机密密集编队 C 小型战绩 D 巡航导弹 在时刻t 一号空情雷达报告的条件概率表如表所示 2020 4 19 知识管理与数据分析实验室 29 实际类型 四 算例系统控制中的应用 根据战前分析 假定权威人员预测战场中在某个作战阶段各种空袭兵器运用的概率为 那么在一号空情雷达报告信息中 报告目标类型大型战机 小型机密集编队 小型战机 巡航导弹的概率分别为 P A P B P C P D 2020 4 19 知识管理与数据分析实验室 30 四 算例系统控制中的应用 根据贝叶斯公式 则一号空情雷达报告目标类型为A的条件下 实际目标类型为A B C D的条件概率分别为 2020 4 19 知识管理与数据分析实验室 31 表示传感器报告目标为类型A的条件下 实际目标为A的概率 表示实际目标类型为A的条件下 传感器报告目标类型为A的概率 P A 表示存在类型为A的目标的先验概率 表示所有传感器报告目标类型为A的概率之和 即 四 算例系统控制中的应用 同样可以计算出一号空情雷达报告类型分别为B C D的条件下 实际目标类型的条件概率 如下表所示 2020 4 19 知识管理与数据分析实验室 32 实际类型 四 算例系统控制中的应用 于是 一号空情雷达报告假设目标类型为A的可信度为 同理可以得到第一号传感器报告假设目标类型为B C D的可信度 即 2020 4 19 知识管理与数据分析实验室 33 为了提高探测的准确性 一般要设置一个可信度阈值 将计算出的可信度值与可信度阈值比较 看目标识别的可信度是否达到要求 假设 则以上的可信度值没有一个达到要求 因此需要重新进行识别 将以上计算的可信度值作为下一次计算的先验概率 四 算例系统控制中的应用 现略去计算步骤 可得到基于两个传感器报告的目标类型为A B C D的可信度为 同样假设 则可以知道B的可信度大于阈值 则可判定 空中目标类型为B 2020 4 19 知识管理与数据分析实验室 34 四 算例信息检索中的应用 贝叶斯网络检索模型可以计算术语与术语 术语与文档之间的条件概率 下图给出了一种贝叶斯网络检索模型 利用同义词对查询术语进行扩展 用于信息检索领域 2020 4 19 知识管理与数据分析实验室 35 Q T2 T3 T4 T5 R1 R2 R3 R4 R5 D1 T1 D2 四 算例信息检索中的应用 假设有文档集合d表示为 这些文档的索引术语集合r表示为 右图即为贝叶斯网络模型扩展的拓扑结构 其中Q被定义为查询术语节点 定义为文档节点 定义为索引术语节点 有一条指向被它索引的文档的弧 2020 4 19 知识管理与数据分析实验室 36 Q T2 T3 T4 T5 R1 R2 R3 R4 R5 D1 T1 D2 四 算例信息检索中的应用 用两个术语层来挖掘文档索引术语之间的关系 完全复制初始术语节点层r 得到另一个属于节点层t 对于查询术语Q 在索引术语层t查找他的同义词 则从Q到有一条弧 从指向的弧 就是从指向 其中总有从指向的弧 是在一定衡量方法 2020 4 19 知识管理与数据分析实验室 37 Q T2 T3 T4 T5 R1 R2 R3 R4 R5 D1 T1 D2 下与最相关的术语集合 四 算例信息检索中的应用 在确定了贝叶斯网络模型之后 通过计算索引术语与术语之间 索引术语与文档之间的条件概率与文档节点的后验概率 就能够获得全部文档节点的概率 并根据概率大小排序获得与查询节点最匹配的检索结果 2020 4 19 知识管理与数据分析实验室 38 四 算例信息检索中的应用 考虑一种更简单的情况 即在查询节点和文档节点以外 只有一层术语节点的简单贝叶斯网络检索模型 如右图所示 2020 4 19 知识管理与数据分析实验室 39 Q T2 T3 T4 T5 D1 T1 D2 D3 T6 四 算例信息检索中的应用 例4 2如图4 3所示 假设查询节点为Q 术语节点集合为 文档节点集合为 根据图中弧线所对应的关系 计算查询节点Q更接近于文档节点集合中的哪一个 要求查询节点更接近哪一个文档节点 即分别求 选择其中概率值最大的文档节点为所求 2020 4 19 知识管理与数据分析实验室 40 四 算例信息检索中的应用 根据朴素贝叶斯算法的原则 所有术语节点相互独立 且由图可知 除去查询节点层 所有术语节点均为根节点 所以定义每一个术语相关的先验概率 则不相关的概率 其中M为集合中术语的数目 本例中M 6 一般情况下 任意根术语节点相关的先验概率很小 且与索引术语节点集合的规模成反比 2020 4 19 知识管理与数据分析实验室 41 四 算例信息检索中的应用 对于文档节点可知 任意文档节点的父节点集合由该文档的所有索引术语节点组成 即 令为中每个术语变量取值 相关或不相关 后的一个组合 利用一般正则模型的概率函数 定义文档相关的条件概率为 2020 4 19 知识管理与数据分析实验室 42 四 算例信息检索中的应用 其中 为文档的索引术语的权重 且 这意味着中相关术语越多 的相关概率值就越大 关于权重的计算 本例不作介绍 仅给出相应数值如下表 2020 4 19 知识管理与数据分析实验室 43 四 算例信息检索中的应用 所以根据贝叶斯公式 可以得到下式 由于术语节点相互独立 根据条件独立性得 如果 则 否则 那么 上式可化简为 2020 4 19 知识管理与数据分析实验室 44 四 算例信息检索中的应用 2020 4 19 知识管理与数据分析实验室 45 四 算例信息检索中的应用 则 代入数值得 2020 4 19 知识管理与数据分析实验室 46 四 算例信息检索中的应用 同理 可见 即查询节点Q更接近文档节点D3 2020 4 19 知识管理与数据分析实验室 47 五 贝叶斯网络论文情况整理 2010年2月18日 选择检索 主题 中含有 Bayesiannetwork 中文为 贝叶斯网络 的论文 检索SCI数据库 返回结果2952篇 检索中国期刊全文数据库 返回结果1135篇 检索中国博士学位论文全文数据路 返回结果112篇 其中 大部分文章涉及工业控制 故障诊断 模式识别 数据挖掘等技术或领域 2020 4 19 知识管理与数据分析实验室 48 五 贝叶斯网络论文情况整理 通过考察论文的被引频次等相关因素 可以认为在贝叶斯网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论