贝叶斯网络结构学习总结.pdf

上传人：奇*** IP属地：河北上传时间：2020-01-16 格式：PDF 页数：13 大小：465.18KB 积分：12 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

贝叶斯网络结构学习总结贝叶斯网络结构学习总结一一贝叶斯网络贝叶斯网络结构结构学习学习的原理的原理从数据中学习贝叶斯网络结构就是对给定的数据集找到一个与数据集拟合最好的网络首先定义一个随机变量 h S 表示网络结构的不确定性并赋予先验概率分布 h p S 然后计算后验概率分布 h p SD 根据 Bayesian 定理有 hhhh p SDp SDp Dp Sp D Sp D 其中 p D是一个与结构无关的正规化常数 h p D S是边界似然于是确定网络结构的后验分布只需要为每一个可能的结构计算数据的边界似然在无约束多项分布参数独立采用 Dirichlet 先验和数据完整的前提下数据的边界似然正好等于每一个 i j 对的边界似然的乘积即 111 ii qr n ijijkijkh ijk ijijijk N p D S N 二二贝叶斯网络完整数据集下结构学习方法贝叶斯网络完整数据集下结构学习方法贝叶斯网络建模一般有三种方法 1 依靠专家建模 2 从数据中学习 3 从知识库中创建在实际建模过程中常常综合运用这些方法以专家知识为主导以数据库和知识库为辅助手段扬长避短发挥各自优势来保证建模的效率和准确性但是在不具备专家知识或知识库的前提下从数据中学习贝叶斯网络模型结构的研究显得尤为重要常用的结构学习方法主要有两类分别是基于依赖性测试的学习和基于搜索评分的学习第一类方法是基于依赖性测试的方法它是在给定数据集 D 中评估变量之间的条件独立性关系构建网络结构基于条件独立测试方法学习效率最好典型的算法包括三阶段分析算法 TPDA 基于依赖性测试的方法比较直观贴近贝叶斯网络的语义把条件独立性测试和网络结构的搜索分离开不足之处是对条件独立性测试产生的误差非常敏感且在某些情况下条件独立性测试的次数相对于变量的数目成指数级增长第二类方法是基于评分搜索的方法其原理是在所有节点的结构空间内按照一定的搜索策略及评分准则构建贝叶斯网络结构这种算法虽然能够搜索到精确的网络结构但是由于结构空间很大从所有可能的网络结构空间搜索最佳的贝叶斯网络结构被证明为NP hard问题所以一般需要使用启发式算法代表性算法有 K2 算法等基于搜索评分的方法是一种统计驱动的方法试图在准确性稀疏性鲁棒性等多个因素之间找个平衡点但由于搜索方法的先天弱点导致用搜索评分的方法不一定能找到最好的结构但是应用范围很广当观察到的数据足够充分且计算次数足够多时基于搜索评分的方法和基于依赖性测试的方法都可以学到正确的网络结构此外有人结合上述两种方法提出了一些混合算法这类算法首先利用独立性测试降低搜索空间的复杂度然后执行评分搜索找到最佳网络如稀疏候选算法 sparse candidate 及 MMHC max min hill climbing 算法等 1 基于依赖性基于依赖性测测试试结构学习方法结构学习方法基于依赖性测试的结构学习算法将贝叶斯网络看作是编码了变量间独立性关系的图结构它的核心思想是通过样本集 D 验证条件独立性 I Xi Xj C 是否成立若成立则在网络 S 中节点 Xi 和 Xj 被 C 有向分割节点 Xi 和 Xj 之间不存在边若不成立变量 Xi 和 Xj 是依赖的网络中节点 Xi 和 Xj 之间存在边然后利用节点集之间的条件独立性建造一个有向无环图以尽可能多地覆盖这些条件独立性常用的独立性检验的方法有 2 检验和基于互信息的检验方法基于依赖性测试的学习方法学习效率较高而且能够获得全局最优解但存在以下问题 1 判断两个节点是否独立或条件独立是困难的变量间条件独立性检验的次数是随着变量的个数的增加指数级增长的 2 高阶的条件独立性检验的结果不够可靠 1993 年 Sprites 等提出的SGS 算法是典型的以条件独立性测试确定拓扑结构的算法该算法从无向完全图出发如果相节点间存在无向分割集则删除它们间的边然后通过统计测试来确定剩余边的方向 2002 年 Cheng 将信息论与统计测试相结合使用相互信息代替了条件独立性测试经过 Drafting Thickening Thinning 三个步骤通过计算相互信息量来确定节点间的条件独立性从而构造出多连接有向图模型 2 基于评分搜索的结构学习方法基于评分搜索的结构学习方法贝叶斯网络基于评分搜索的结构学习方法主要包括两步模型选择和模型优化模型选择部分要制定模型选择准则即评分函数目前较常用的几个评分函数如下最优参数对数似然函数 CH 评分 BIC 评分等还有 MDL minimum description length AIC Akaike information criterion 评分函数 HVL holdout validation likelihood 评分验证数据似然度 CVL cross validation likelihood 评分交叉验证模型优化就是要根据模型选择准则即评分函数选择出评分最高的网络结构也就是搜索策略问题从所有可能的网络结构空间搜索最佳的贝叶斯网络结构被证明为 NP hard 问题所以一般使用启发式搜索算法主要有 K2 hill climbing 算法随机重复爬山法 random restart hill climbing 禁忌搜索 tabu search 模拟退火 simulated annealing 及遗传算法 genetic algorithm 等常用的评分函数介绍如下常用的评分函数介绍如下最优参数对数似然函数结构与相应的参数集合组成贝叶斯网络相对于数据最优的贝叶斯网应该使对数似然函数达到最大即 maxsup ll 在概念上寻找最优的贝叶斯网络的过程可以分为两步第一步寻找最优结构第二步寻找最优参数对任一网络结构定义 sup ll 作为网络结构的函数 l 称为优参对数似然函数最优结构应该使优参对数似然函数达到最大即 max ll 这就是最大优参似然准则家族 CH 评分设定 S 1 B D n i i pscore i pa s B表示网络结构 D 表示一组变量 12n XXX 的完整实例数据其中 11 ii qr ijijkijk i jk ijijijk N score i pa N 其中 ijk N是 D 中满足 i X k i j 的样本个数 ir ij ijk k 1 NN ir ij ijk k 1 在使用 CH 评分之前首先需要选定参数先验分布 s Bs p B 中超参数 ijk 通常这并非易事因为理论上我们需要对每一个可能的结构都提供参数先验分布然而结构数目众多无法一一罗列在实际中人们往往规定一个等价样本量和一个先验贝叶斯旺 s B 利用下式得到 s Bs p B 的超参数 ijk s Bii P Xk j ijk BIC 评分即贝叶斯信息准则是在大样本前提下对边缘似然函数的一种近似它有明确直观的意义而且使用方便是实际中最常用的评分函数 log log log 2 d PPm 这就是模型结构的 BIC 评分记为 BIC BIC 评分的第一项是模型的优参对数似然度它度量的是结构与数据的拟合程度第二项是一个关于模型复杂度的罚项若仅仅依据优参似然度来选择模型会选到最复杂的完全贝叶斯网络导致过度拟合由于附加了一个模型复杂度的罚项 BIC 有效地避免了过度拟合直观上基于 BIC 评分选择模型就是要选择既与数据拟合又比较简单的模型 MDL 评分它是最短描述长度 minimum description length 的简称这个准则的基本思想如下数据分析的目的是要找出蕴含在数据中的规律然后可以利用它们对数据进行压缩从而降低数据的编码描述长度所以用贝叶斯网分析数据是否成功可以用数据和模型的编码总长度来度量 AIC 评分它是 Akaike 信息准则的简称他假设数据是从一个概率分布 P X 中进行独立同分布抽样而得到的 AIC 评分的出发点是要找一个贝叶斯网 B 使得 B PX与 P X 之间的 KL 距离最短即 B B KL P PKL P PB 在一定光滑条件下做大样本近似可得如下结论即 B的结构应该满足 AICAIC 其中 log AICPd AIC 评分与 BIC 评分都是优参对数似然度加一个罚项因此都称为罚项似然度 MDL 也是罚项似然度 HVL 评分罚项的作用是防止过度拟合还有一种防止过度拟合的方法它的基本思想是把数据随机地分成训练数据 t 和验证数据 v 对于一个模型结构首先基于训练数据对其参数进行估计得到一个贝叶斯网 t 然后计算验证数据 v 对数似然度 log t vtv HVLP 这就是 HVL 评分函数 CVL 评分即交叉验证它的基本思想是多次计算模型的 HVL 评分而每次都按照不同方式将划分为 t 和 v 然后计算各次所得评分的平均值并将其作为模型的最后评分 CVL 评分比 HVL 评分更具鲁棒性但其计算复杂度也高出 HVL 评分数倍在大样本情况下 HVL 准则 CVL 准则都与 AIC 准则等价 3 典型算法介绍典型算法介绍三阶段算法三阶段算法第一阶段 Drafting 计算每对节点间的互信息建立完整的无向图第二阶段 Thickening 如果节点对不是 d 分割的话把这一点对加入到边集中第三阶段 Thinning 检察边集中的每个点对如果两个节点是 d 分割的则移走这条边 K2K2 算法算法 K2 算法用贪婪搜索处理模型选择问题先定义一种评价网络结构优劣的评分函数再从一个网络开始根据事先确定的最大父节点数目和节点次序选择分值最高的节点作为该节点的父节点 K2 算法使用后验概率作为评分函数 1 n si i p D Bscore i pa 其中 11 ii qr ijijkijk i jk ijijijk N score i pa N K2 算法伪代码 2 kX 输入 12 n XX XX 一组变量一个变量顺序设它与变量下标一致变量父亲节点个数的上界一组完整的数据输出一个贝叶斯网 1 12n XXX 由节点组成的无边图 2 for j 1 to n 3 j 4 oldjj VCH X 5 while true 6 ij jji 1 iV and 9 oldnew VV 10 jii X 11 在中加边 ij XX 12 else 13 break 14 end if 15 end while 16 end for 17 估计的参数 18 return K2 的出发点是一个包含所有节点但却没有边的无向图在搜索过程中 K2 按顺序逐个考察中的变量确定其父亲节点然后添加相应的边对某一变量 j X 假设 K2 已经找到了它的一些父亲节点 j 如果 j V 则把 i X添加为 j X的父节点否则停止为 j X寻找父亲节点 H Hillill climbing climbing 算法算法爬山法的目标是要找出评分最高的模型它从一个初始模型出发开始搜索初始模型一般设为无边模型在搜索的每一步它首先用搜索算子对当前模型进行局部修改得到一系列候选模型然后计算每个候选模型的评分并将最优候选模型与当前模型进行比较若最优候选模型的评分大则以它为下一个模型继续搜索否则就停止搜索并返回当前模型搜索算子有三个加边减边和转边加边和减边算子的使用有个前提就是不能在网络中形成有向圈爬山法可以使用任何评分函数不同的评分函数有不同的要求 CH 评分要求关于先验参数分布的超参数而 HVL 及 CVL 评分则要求把数据分成训练数据和验证数据因此需要处理的算法细节也有所不同爬山算法的伪代码如下 LearnBN HC X 0f 输入 X 一组变量一组关于 X 的完整数据 f 一个罚项似然度评分函数 0 一个初始贝叶斯网络结构输出一个贝叶斯网络 1 0 的参数的最大似然估计 2 oldScoref 3 while true 4 null null newScore 5 for 每个对做一次加边减边或转边而得到的模型结构 6 的参数的最大似然估计 7 tempScoref 8 if tempScore newScore 9 newScoretempScore 10 end if 11 end for 12 if newScore oldScore 13 oldScorenewScore 14 else 15 return 16 end if 17 end while 三三贝叶斯网贝叶斯网缺值数据缺值数据下下的结构学习的结构学习贝叶斯网络缺值数据下的结构学习算法主要有 SEM structure EM learning algorithm 算法它的基本思想是从某初始模型结构 0 和参数 0 出发开始迭代在进行了 t 次迭代得到了 tt 后第 t 1 次迭代由

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

贝叶斯网络结构学习总结.pdf

文档简介

温馨提示

最新文档

评论

贝叶斯网络结构学习总结.pdf

文档简介

温馨提示

最新文档

评论

相关文档