




已阅读5页,还剩26页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
因子分析中的贝叶斯网络方法的研究中文摘要 因子分析中的贝叶斯网络方法的研究 中文摘要 贝叶斯网络作为一种表示概率空间的模型,是对不确定问题模拟和 推理的一种有效的工具,它利用一组随机变量之间的条件独立关系减少 了对这组随机变量的联合概率分布进行表示时所需要的参数个数。其具 有根据信息的变化而变化的能力,可以综合数据和专家先验知识来识别 变量之间潜在的联系和相关程度。贝叶斯网络结构的学习就是寻找与已 知数据及先验知识最匹配的网络结构图形。贝叶斯网络在实际问题中有 广泛的应用,本文给出用贝叶斯网络方法进行因子分析的方法,并通过 实例分析证明贝叶斯网络方法得到的结果能优于或相当于传统的因子 分析方法的结果。同时由于其网络图形的形象性和直观性,贝叶斯网络 方法作为非线性的因子分析,与传统因子分析方法相比较,有更广泛的 应用,值得我们研究。文章最后对贝叶斯网络的分类进行深一步的讨论。 关键词:贝叶斯网络,m c m c 方法,互信息,结构学习 作者:王婷 指导老师:汪四水( 副教授) 因子分析中的贝叶斯网络方法的研究 a b s t r a c t f a c t o ra n a l y s i so fb a y e s i a nn e t w o r km e t h o d a b s t r a c t a sap r o b a b i l i t ym o d e l ,b a y e s i a nn e t w o r ki sa ne f f e c t i v et o o lf o rt h e u n c e r t a i n t yo ft h es i m u l a t i o na n dr e a s o n i n g ,w h i c hm a k eu s eo fc o n d i t i o n a l i n d e p e n d e n tr e l a t i o n s h i pa m o n gas e to fr a n d o mv a r i a b l e st o r e d u c et h e n u m b e ro ft h ep a r a m e t e r st h a ta r en e e d e df o rt h ej o i n tp r o b a b i l i t y w i t ht h e a b i l i t y o fc h a n g i n gw i t ht h en e wi n f o r m a t i o n ,b a y e s i a nn e t w o r kc a nb e i n t e g r a t e db yd a t aa n dp r i o rk n o w l e d g eo fe x p e r t s ,a n dt h e ni d e n t i f yp o t e n t i a l l i n k sa n dc o r r e l a t i o na m o n gv a r i a b l e s t h ep u r p o s eo ff i n d i n gb a y e s i a n n e t w o r ks t r u c t u r ei st os e e kt h es t r u c t u r et h a tm a t c h e sw i t hd a t aa n dp r i o r k n o w l e d g ew e l l b a y e s i a n n e t w o r ki s p r a c t i c a l i naw i d e r a n g e o f a p p l i c a t i o n s i nt h i sp a p e r ,b a y e s i a nn e t w o r km e t h o di sc o m p a r e dw i t ht h e t r a d i t i o n a lf a c t o ra n a l y s i s ,a n de x a m p l es h o w st h er e s u l to fb a y e s i a nn e t w o r k m e t h o dc a nb eb e t t e rt h a no re q u i v a l e n tt ot h et r a d i t i o n a lf a c t o ra n a l y s i s o n t h eo t h e rh a n d ,a sak i n do fn o n l i n e a rf a c t o ra n a l y s i s ,b a y e s i a nn e t w o r k m e t h o dh a sam u c hw i d e ra p p l i c a t i o n a n da tl a s tw eh a v ead e e pd i s c u s s i o n f o rt h ec l a s s i f i c a t i o n k e y w o r d s :b a y e s i a nn e t w o r k ;m c m cm e t h o d ;m u t u a li n f o r m a t i o n ; s t r u c t u r el e a r n i n g w r i t t e nb yw a n gt i n g s u p e r v i s e db ya s s o c i a t ep r o f w a n gs i s h u i 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 研究生签名:一量绉 1 3 期:丕堂坚出 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 研究生签名:至数一口期:丝竺堡:幺缓一 导师签名:乏勤旦挺一口 期:磁盘量 因子分析中的贝叶斯网络方法 第一章引言 第一章引言 贝叶斯网络是根据各个变量之间的概率关系,使用图论的方法表示变量集合的 联合概率分布的图形模型。自从贝叶斯网络被提出后,很多专家学者都对其产生浓 厚兴趣。2 0 世纪8 0 年代早期,贝叶斯网络被成功的应用于专家系统中对不定性知 识的表达;2 0 实际8 0 年代后期,贝叶斯推理得到了迅速的发展;进入2 0 世纪9 0 年代后,由于信息技术的飞速发展,研究人员已经开始直接从数据中学习并构建贝 叶斯网络结构。作为一种图形化表示的建模工具,贝叶斯网络具有如下优点: 1 ) 利用一组随机变量之间条件独立性关系,减少了系统描述的信息量,有效降 低了学习和推理的计算复杂度;同时借助反应这些条件独立关系的网络结构得到了 有效的概率推理方法。 2 ) 能够使先验知识和数据有机结合,同时有效避免对数据过度拟合。 3 ) 建立在经典概率统计理论之上,不但能够直观的表示因果联系,而且具备了 坚实的理论基础。 4 ) 可以图形化表示变量之间的联合概率,因此能够处理各种不确定性信息。 由于上述的优点,贝叶斯网络已经成为人工智能领域进行不确定性推理和建模 的一个有效工具。通过对不确定性关系进行建模和推理,贝叶斯网络在很多领域都 产生了很多成功的应用,如:医疗诊断、目标识别、启发式搜索和时间序列分析等, 这些应用大致可分为建立模型以辅助决策、实现特征融合以及进行分类这三方面的 数据分析。 贝叶斯网络的学习就是要找到一个最能够准确反映各个变量之间相互关系的贝 因子分析中的贝叶斯网络方法 第一章引言 叶斯网络模型,即根据先验知识和实例数据找到拟合得最好的网络结构。 1 1贝叶斯网络的概念 考虑以一组离散型随机变量x = x i ,x 2 ,x 。 ,1 1 1 ,作为节点的贝叶斯网络的 学习问题。 定义1 - 贝叶斯网络( b a y e s i a nn e t w o r k ) 贝叶斯网络可以表示为一个二元组b = ( g ,o ) ,其中: 1 ) g 是一个有向无环图( d a g ) ,其节点为:x = x l ,x 2 ,一,x 。) ,n 1 ,p q 是节点 x j 的父节点的集合。 2 ) = p ( x ,lp 口,) j 一x ,f = 1 ,行) 是一组条件概率的集合,称为网络参数。 一个贝叶斯网络b = ( g ,0 ) 确定了一个概率空间( q ,e 尸) ,其中: p ( x ) = 兀p ( x ii p a ,) ( 1 1 1 ) 式表示对任一变量t ,若给定其父节点p q ,则条件独立于其父节点之 外的其他任何节点。贝叶斯网络的有向弧表示直接的因果关系,因此贝叶斯网络能 够表达那些相关关系无法表示和处理的模式:另一方面,贝叶斯网络是联合概率分 布的图形表示方式,是概率信息的载体。 定义2 :完全潜在图( p o t e n t i a lg r a p h )表示由任意两个节点之间的无向边连接而 成的图形。 定义3 :若变量a ,b 和集合z 之间存在如下关系:p ( az ) = p ( aib ,z ) , 即在z 已知的条件下,变量b 的存在不会对变量a 造成影响,称为在给定变量集合 z 的条件下,a 与b 条件独立,记为i ( a 上biz ) 。 2 因子分析中的贝叶斯网络方法第一章引言 定义4 :相关性分割( d s e p a r a t i o n ) 设a 、b 、c 为有向图d 中两两不相交的节 点集,且a 、b 间的任意路径都被c 阻塞,则称a 、b 被c 相关性分割,c 称为a 、 b 的切割集。 在给定c 的情况下,a 、b 条件独立,记为i ( a 上bic ) 。 定义5 :独立性关系映射( i m a p )设g 为网络图形,m 表由已知概率关系表示 的模型。对于任意两两不相交的节点集彳,b ,c ,如果,( 么上bc ) g i ( a 上bc ) m , 则我们称g 为概率模型膨的独立性关系映射( i m a p ) 。其中i ( a 上bic ) g 表示网 络g 的条件独立性关系,i ( a 上bc ) m 表示概率模型m 的条件独立关系。完全图 是平凡的i - m a p ,因为完全图中不包含任何独立性关系。 定义6 :相关性关系映射( d m a p )对于任意两两不相交的节点集彳,召,c ,如 果d 口,召fc ) gj d ( a ,b io 肘,则我们称g 为概率模型m 的相关性关系映射( d - m a p ) 。其中d ( a ,bc ) g 表示网络g 的条件相关性关系,d ( a ,bc ) 肘表示概率模 型m 的相关性关系。空图是平凡的d m a p ,因为空图中不包含任何相关性关系。 定义7 :等价性映射( p m a p )如果g 既是m 的i - m a p ,又是m 的d m a p , 则称g 为m 的p - m a p ( p e r f e c tm a p ) 。 贝叶斯网络学习的最终目的是构造出概率模型m 的p m a p 。但是并不是所有的 模型都存在p m a p ,因此贝叶斯网络结构学习的算法是要尽可能多的表达出m 的条 件独立性,同时减少m 中不存在的条件独立性。在下面的讨论中,我们都认为概率 模型m 存在p m a p ,这个假设在大多数情况下是成立的。 因子分析中的贝叶斯网络方法 第一章引言 定理1 :如果g 是一个有向无环图( d a g ) ,u ,0 是g 中任意二个节点,那么总 能在v i 和之间添加一条弧,使得所得到的图形仍然是一个有向无环图( d a g ) 。 定理1 的证明: 假设在g 中添加由1 i 指向的弧_ 专后形成有向环,记为u , 1 ) j ,r ,v f ,其中r 表示构成此环路的所有其他的节点;又假设在添加由0 指向1 ,f 的弧 v f 之后也形成有向环,1 ,i ,t ,v ,则在原来的图g 中就会存在一个 有向环1 ,f ,t ,r ,v f ,这与g 是一个有向无环图( d a g ) 的前提是矛盾的。 这说明在和叶之间添加任意方向的弧之后都构成有向环的情况是不可能发生的。 由此命题得证。 1 2 贝叶斯方法求解网络结构 由贝叶斯公式,已知数据d = q ,皿,p m ) ,其中d ,= l ,则认为g l 比g 2 的可能 性要大。 1 3 贝叶斯网络的学习 一般情况下,当变量个数很少时,我们可以根据专家的经验知识来直接构造变 量之间的关系图。然而,当变量个数很多时,专家的知识有时不完全可靠,我们可 以利用数据库的更新来不断改善专家的初始网络。因此,我们可以分二步来构造贝 叶斯网络,首先根据专家的先验知识构建初始的贝叶斯网络;然后使用数据库中的 数据更新先验知识,对初始网络进行修正。因此,采用贝叶斯网络,容易将专家知 识融入贝叶斯网络的概率分布之中,提高知识发现的有效性与准确性。 先验贝叶斯网络是根据专家的先验知识构造的贝叶斯网络,而把先验贝叶斯网 络和实例数据相结合而得到的贝叶斯网络称为后验贝叶斯网络。由先验贝叶斯网络 到后验贝叶斯网络的这个过程称为贝叶斯网络的学习,即贝叶斯网络的学习是利用 数据对先验知识的修正。因此上次学习得到的后验贝叶斯网络可以用作下次的先验 贝叶斯网络。 因子分析中的贝叶斯网络方法第一章引言 贝叶斯网络b = ( g ,o ) 是由网络拓扑结构g 和概率分布p 两部分组成,因此 贝叶斯网络的学习包括两个方面:结构学习和参数学习。给定贝叶斯网络的结构, 利用实例数据来学习网络参数( 概率分布) 称为参数学习;若网络结构未知根据实 例数据和已知参数来构建合适的网络结构称作结构学习。结构学习和参数学习并不 是完全独立的,一方面节点之间的条件概率依赖于网络结构;另一方面网络结构直 接由联合概率分布来决定。 1 3 1 参数学习【2 】 即在给定贝叶斯网络的拓扑结构的情况下,确定各节点处的条件概率密度。设 变量集x = 五,x 2 ,x 。) ,其中五x 的值域( 1 ,# ,x ? ) ;d = ( d l ,d 2 ,见) 是 样本数据,乜为一事例;= p ( # jp a l 4 ,g ,孝) 为先验概率的参数变量,表示在 用户具有先验孝,网络结构为g 的假设,的父节点具有第歹个状态的前提下,变 量t 取第七个值的客观概率。 0 ,r t :1 ,尸臼,的值域为 p 口;,p 口? ,) , 七= l n g 一 g ,为p a ,所有可能状态的个数,记0 = u 0 ,) ,0 ,= u0 f ,0 口= u 0 独) 一 ,= l,= 1 。 七= 1 。 p ( xip ,g ,乎) 2g p ( _ jp a f ,幺,g ,孝) ( 1 3 1 ) 假设:1 ) 参数矢量相互独立,p ( o l g , s 0 2 碧反曰i g ,o( 1 3 2 ) p ( 谚lg ,9 = p ( 岛ig ,0 ( 1 3 3 ) 2 ) 参数服从d i r i c h l e t 分布, 7 p ( 乡,ig ,f ) :。f ,( 秒,i ;,;:,缸) :;箬曼! 生童秒一l ( 1 3 4 ) 是r ( 品) 因子分析中的贝叶斯网络方法第一章引言 参数先验分布:由( 1 3 2 ) ,( 1 3 3 ) 式, 1 1 吼 ng p ( ol g , 9 = i ,爿- i 州 - i p ( 矽g i g , o = h 闰爿h d 以岛l 嵋,弼:,吆) :垂。嶷,掣是t 。秒咖n 扛 。3 5 , 2 罂肄t 赢瞿- 秒咖独1 ( 1 3 5 ) 参数后验分布: 糟 竹 p ( o d ,g ,毋= h 例用h p ( e u id , g ,0 1 3 2 结构学习 ”儡 = 耳珥咖哪- + 1 ,弼:+ 一,吆+ ,) | = l | 2 l :枣1 垂1 三r 圣! 型k 垂1 秒+ ,耻 。3 6 ) f =,=, = v 。一 。理f ( 磊+ 咖) 是利用训练样本集d = 日,岛oo 巩) ,尽可能结合先验知识孝,确定最合适的 贝叶斯网络拓扑结构g 。在基于记分搜索的学习方法中,就是寻找使得得分为最佳 的贝叶斯网络模型,记为: g 卜a r gb e s t s c o r e ( g ,d ,f ) = p ( gid ,f ) , 结构学习有二种方式:一种是结构选择( m o d e ls e l e c t i n g ) ,即选择一个最好的 网络结构;另一种是选择性网络平均( s e l e c t i v em o d e la v e r a g i n g ) ,即选择合适数量的 网络,这些网络可以代表所有的网络结构。 由( 1 2 1 ) 式p ( gld ) = p ( dg ) p ( g ) p ( d ) ,结构学习就是选择使p ( gd ) 最 7 因子分析中的贝叶斯网络方法第一章引言 大的网络结构( 这是贝叶斯评分标准,还有其他一些评分标准) ;p ( d ) 是对结构学 习没有影响,可以忽略;p ( g ) 为先验结构概率;p ( dig ) 为结构似然。 先验结构概率p ( g i 孝) :对先验结构概率有两种处理方法,一种是假定所有网络 结构是等可能的,这样可以不用考虑先验结构;另一种是对不同的网络结构赋予不 同的先验结构概率,p ( g l 毋= c k 万,其中c 是正规常数,可以忽略不计,后是网 络结构惩罚因子0 p ( dig ) p ( g ) ,则根据2 ) 得到接受概率a ( g ,g7 ) = 1 ,故抽样得到的下一个网络结构一定具有较大的后验概 率,从而抽样结构序列有向具有较大后验概率模型靠近的趋势。 为了使m e t r o p o l i s h a s t i n g 方法对网络抽样,我们必须给出一个恰当的网络结构 的产生概率q ( g ,g ) 。由g 生成g 可选择以下三种操作:1 ) 删除一条弧;2 ) 弧的 反向;3 ) 添加一条弧,从而q ( g ,g ) = q ( g 7 ,g ) 。 先验概率p ( g ) 可用b i c 估计: l o g p ( g ) = 一1 2 l o g m z q ,( - 1 ) + c ( 2 4 1 ) 其中g f 为父节点的个数,巧为节点誓的状态数,显然网络结构越复杂,先验概率 p ( g ) 就越小。p ( d i g ) p ( d g ) 的计算由( 1 3 7 ) 式导出。 1 5 因子分析中的贝叶斯网络方法的研究第三章因子分析中贝叶斯网络方法 第三章因子分析中的贝叶斯网络方法 因子分析是多元统计中降维的一种方法,它是研究相关阵或协方差阵变量综合 为少数几个因子,以再现原始变量与因子之间的相关关系。因子分析的主要应用有 二个方面,一是将具有错综复杂关系的对象综合为少数几个因子;二是数据简化, 进行分类处理。因子分析还可以用于对变量或者样本的分类处理,可以根据因子分 析的得分值,在因子轴所构成的空间中把变量或者样本点画出来,形象直观的达到 分类的目的。目前的统计软件,如s a s ,s p s s 等都有相关的程序来解决此类问题。 我们也可以利用贝叶斯网络结构来做因子分析。 3 1 贝叶斯网络方法进行因子分析 在已知样本数据的条件下,我们可以利用贝叶斯网络进行因子分析,具体步骤 如下: ( 1 ) 定义评分函数,由( 2 1 3 ) 式可得,对v x f , 鼠刀旭c x ,p 口,= g q s 亍i 三兰 吴i 了是掣 ( 2 ) 利用关于变量因果关系的先验知识分析有关数据和变量之间的关系,然 后对节点预先进行排序。并决定变量之间的条件独立关系。 ( 3 )从空网络开始( 即节点之间无任何边相连接) ,根据事先确定的节点次 序,对每一节点按照评分函数选择使得评分函数最大的节点作为其父节点。 ( 4 ) 根据得出的各个节点及其相应的父节点,绘出贝叶斯网络图。 1 6 因子分析中的贝p t + 斯网络方法的研究第三章因子分析中贝叶斯网络方法 ( 5 ) 对贝叶斯网络图中的节点进行分类,若贝叶斯网络图被分为互不相连的 n 块小图形,其中n = l ,2 ,3 ,则我们可判定节点变量被直观的分为n 类。 例如:对三个节点考虑以下几种情况: o ooo 根据前面的归类方法,我们对以上构造好的贝叶斯网络图进行变量的归类: 对( a ) 图,我们将变量a 归类c 1 ;变量b 归类c 2 ;变量c 归类c 3 。 对( b ) 图,我们将变量a 与c 归类c i ;变量b 归类c 2 。 对( c ) 图,我们将变量a ,b ,c 都归为一类c l 中。 3 2 实例分析 已知贝叶斯网络图由以下六个变量组成,其中:h 表示s m o k i n gh i s t o r y ( 吸烟 史) ;b 表示b r o n c h i t i s ( 支气管炎) ;l 表示l u n gc a n c e r ( 肺癌) :f 表示f a t i g u e ( 疲 劳) ;c 表示c h e s tx r a y ( 肺部x 光) ;d 表示d r i n k i n g ( 饮酒) 这六个变量取值如下: 变量取值涵义变量取值涵义 h i = 1 有吸烟史z = 1有疲劳症状 hf h 2 = 0 无吸烟史 = 0 无疲劳症状 b l = i有支气管炎c l2 1 x 光呈阳性 bc 6 2 = 0 无支气管炎 c 2 = 0 x 光呈阴性 i i = 1 有肺癌 d l = 1 喜好喝酒 l d ,2 = 0 无肺癌 d 2 = 0 不喜好喝酒 1 7 因子分析中的贝叶斯网络方法的研究 第三章因子分析中贝叶斯网络方法 已知贝叶斯网络及其概率分布,以下图为例,用贝叶斯网络图抽样1 0 0 0 个数据样本: p ( 向) = 0 2 ,p ( d 1 ) = 0 5 p ( 岛1 ) = 0 2 5 ,p ( b 。i 红) = 0 0 5 p ( 1 li 魄) = o 0 0 3 ,p ( lh p = 0 0 0 0 0 5 p ( qi ) = 0 6 ,p ( c li 乞) = 0 0 2 p ( zi b l ,1 1 ) = 0 8 ,p ( fi b l ,1 2 ) = 0 2 5 p ( f6 2 ,厶) = 0 4 ,p ( fl 岛,乞) = 0 0 5 图( 1 ) 下面给出了10 0 0 个样本数据库的一部分及算法设计: 力r ( i = 1 ;i n ;i + + ) p a f = 矽; = s c o r e ( i ,p a j ) ; s e t p r o c e e d = t r u e ; w h i l e ( p ro c e e d & & l 尸口f l ) t h e n ; = 只。; p a ,= p a ,u z ) ; e s ep ro e e e d = f a l s e ; e n d ( w h i l e ) ; p ,i n tp a f ; e n d ( f o r ) 我们用前面的算法,根据样本数据,得出的贝叶斯网络图形如下: 1 8 因子分析中的贝叶斯网络方法的研究第三章因子分析中贝叶斯网络方法 图( 2 ) 与图( 1 ) 相比,我们发现变量b 与f 之间的边丢失,这可能是由于抽样的样 本数量过少导致的。但是,这不影响我们做出判断,由贝叶斯网络图我们可以直观 的将变量h ,b ,l ,f , c 归为一类c 1 ,而变量d 另归为一类c 2 。 3 3 与传统的因子分析方法的结果比对 3 3 1贝叶斯分类方法得出的分类结果与传统方法一致 我们利用s p s s 软件对样本数据进行因子分析,结果如下: r o t a t e d c o m p o n e n tm a t r i x c o m p o n e n t l2 ho 8 9 0 1 6 4 b0 5 6 80 4 9 9 l0 8 90 1 6 4 f0 7 3 40 0 8 5 1 9 因子分析中的贝叶斯网络方法的研究第三章因子分析中贝叶斯网络方法 c0 8 8 80 0 5 8 d0 1 5 50 8 4 9 可见利用s p s s 统计软件,同样可将h ,b ,l ,f , c ,d 归类为一类c1 ;d 归类为c 2 。 这与我们之前用贝叶斯网络方法来分类得出的结果是一致的。 3 3 2 与传统因子分析相比,贝叶斯网络图形更具有直观性 ( 1 ) 贝叶斯方法可以更直观的表示分类。 由图( 1 ) ,我们可以直观看出变量d 独立于任何其他变量,故d 单独归为一 类。 ( 2 ) 对于同属于某一类中的变量,贝叶斯方法可以直观表示变量之间的相互关系。 我们不仅可以直观的看出类c l 中的变量之间的相互联系,而且更能看出哪 些变量是直接相关的,那些变量是间接相关的。如图中,h 与b ,h 与l 之 间有着直接的关系,而h 与c 之间是经由l 间接相连的。 ( 3 ) 贝叶斯网络图中的箭头方向可以直观的表示变量之间的因果联系。 如:h ( 吸烟) 是导致b ( 支气管炎) 和l ( 肺癌) 发生的原因,而l ( 肺癌) 会导致病人f ( 疲劳) 和c ( x 光呈阳性) 。 3 3 3贝叶斯网络分类作为非线性因子分析,优于传统因子分析 ( 一) 传统的因子分析 对一个样本,观察p 个指标,n 个样本的数据库为: x :仁 l 兰 = b ,吃,其中_ : 2 0 “、1 而,i ;i = 1 , 2 ,p i x | l f ) 一 2 2 2 一屹; 靠 因子分析中的贝叶斯网络方法的研究 第三章因子分析中贝叶斯网络方法 因子分析就是将p 个观测指标综合成为m 个( m p ) 个新的综合指标( 公共因 f _ = a i l 石+ a 1 2 五+ + a i 。厶+ 毛 l 恐= 口2 l z + 口2 2 以+ + 口2 脚厶+ 乞 韵一卧_ 1 【= 口j p l 石+ 2 厶+ + 日册厶+ o 0 要求模型满足( 1 ) z ,六互不相关( f ,) ,且方差都为1 ,m p 。 ( 2 ) 厂与占互不相关。 ( 3 ) 毛,乞,占口互不相关,且方差表示如下,即: p ( 占) = 砰 称为x的公共因子,占称为x的特殊因子,矩阵彳=量 为因子载荷矩阵。因子模型用矩阵可表示为:( x = a ) ( 二) + ( 品) 。 ( 二) 贝叶斯网络方法和非线性因子分析 q 。、 口2 肌i :l 称 。l q p m ) 在传统因子分析模型中,可观测变量被表示为公共因子的线性组合,外加一个 误差项,但是由于在许多研究领域,存在公共因子之间的非线性关系,有必要把传 统的线性因子分析模型扩展到非线性的因子分析模型中。 对于非线性因子分析的具体表示如下:】,= + 灯( 孝) + 占,其中z 是截距向量, a 是( p x r ) 因子载荷矩阵,孝= ( 氧,邑,岛) r 是公共因子的随机向量,g p 。 占表示测量误差的随机向量。f ( 孝) = ( z ( 孝) ,z ( 善) ) 丁对应不同的方程 2 1 吃; 因子分析中的贝叶斯网络方法的研究 第三章因子分析中贝叶斯网络方法 石,q r 。在这个模型中善中的变量被看成基本的公共因子。 例如: a 丁l 7 2 f 3 f 4 +00 0 00 000 褂 l f 白1 如0 彘l + a , i 参乞,j 九1 f 瓯 万2 正 6 a 这里善= ( 舌,彘) 包含二个基本的公共因子,分别由可观测变量( ,x 2 ) 和 ( x 3 ,) 度量,两个基本的公共因子的交互作用项对观测变量) ,存在影响,他们之 间的非线性关系可由如下方程表示:y = 口+ 所缶+ 托己+ 儿磊托点+ f 。 对于贝叶斯网络图,由前图所示,设图中六个变量所服从的联合概率分布为p , 则: 对归类于c 1 中的五个变量h ,b ,l , f , c 服从的联合概率分布为 尸7 ( 日,b ,厶f ,c ) = p ( h ,b ,厶f ,c ,d ) d 对归类于c 2 中的变量d 所服从的概率分布 尸”( d ) = 尸( 日,b ,l ,f ,c ,d ) hb lfc 从而p 和p 作为可观测变量h ,b ,l ,f , c ,d 的公共因子,与可观测变量之间存在 非线性的关系。因此,与传统的因子分析方法相比,贝叶斯分类方法作为一种非线 性因子分析方法,可以用来解决非线性模型。 3 4 讨论 一、我们可以通过互信息来计算任意二个变量之间的相关程度,从而发掘出对我们 关心的某一变量有重大影响的因素。 如图( 2 ) ,考虑变量f ( 疲劳) ,我们通过计算互信息尥( f ,x ) ,其中 x ,b ,三) 来找到可能对f ( 疲劳) 产生较大影响的因素,根据( 2 2 2 ) 式,结合样 y 两吃b h 因子分析中的贝叶斯网络方法的研究第三章因子分析中贝叶斯网络方法 本数据,可得: ! 掷棚= 咿融g 需器 从而可计算出: m i ( 啪= 即,h ) l o g 老怒 = 尸c = 。,厅= 。,。g j 麦; 端+ 尸c 厂= 。,厅= t ,k ,g j 麦;端 + 尸c 厂= ,办= 。,。g i ; 端+ 尸c 厂= ,办= ,。g j 专;端 :0 7 5 1 0 9 旦+ 0 1 l o g 坠_ + 0 0 5 l o g 型! + 0 1 l o g q :! 。0 8 5 0 80 8 5 0 20 1 5 0 80 1 5 0 2 = 0 0 4 2 同理可计算出:m i ( f ,b ) = 0 0 1 9 8 7 ,m i ( f ,l ) = o 0 4 2 1 对以上变量与f 的互信息大小,可以得到对f 影响最大的因素为h 和l ,其 次是b 。 二、数据样本必然存在一定程度的误差,我们可以利用互信息来对归于一类的变量 进行更为细致的分类。 对比图( 1 ) 及图( 2 ) ,我们发现由于样本量不够大而引起的抽样误差,导致 变量b 与变量f 之间的连边丢失。更一般的情况,可能存在多出一条边或者连接到 其他变量之间的情况。为此,我们提出一种解决方法,即通过计算变量之间的互信 息大小,对归于一类中的变量进行进一步的分类。 实例分析中得出结论,h ,b ,l ,f , c 归为一类,d 归为另一类。下面我们计算 h ,b ,l ,f , c 之间的互信息,并按照大, j , j i l 页序排列: 因子分析中的贝叶斯网竺查鲨塑婴窒 箜三童里至坌堑史墨堕堑旦竺查鲨 _ 一 m ( l ,f ) = o 0 4 2 m ( b ,f ) = 0 0 1 9 8 m ( h ,b ) = o 0 1 3 3 7 7 m ( l ,c ) = 0 0 0 0 4 6 8 m i ( h ,三) = 0 0 0 0 4 0 2 根据互信息的大小,我们可以判断,若要对类c 1 中的变量进行进一步的分 类,我们可以依次去除变量h 与l ,l 与c 之间的连边,从而变量c 与类c 1 中的 其他变量无任何连边,我们可以将变量c 归类于c 3 中,实现对变量的细分。 因子分析中的贝叶斯网络方法的研究第四章结论和展望 第四章结论和展望 研究多变量之间的关系一直是个比较复杂的问题,贝叶斯网络作为网络图形可 以用来很好的探索多个变量之间的相互关系。 本文给出用贝叶斯网络方法进行因子分析的方法,并通过实例分析证明贝叶斯 网络方法得到的结果能优于或相当于传统的因子分析方法的结果。同时由于其网络 图形的形象性和直观性,贝叶斯网络方法作为非线性的因子分析,与传统因子分析 方法相比较,有更广泛的应用,值得我们研究。 现在对如何用数据来构建贝叶斯网络已有许多很便捷准确的解决方法,但由于 样本必然存在的误差可能导致网络图的偏差,使得某些变量关系被忽略,从而导致 一些有价值的信息丢失。因此如何优化贝叶斯网络图,对构建的网络进行进一步的 调整是我们以后要研究的课题。 因子分析中的贝叶斯网络方法的研究 参考文献 参考文献 【1 】d a v i dh e c k e r m a n b a y e s i a nn e t w o r k sf o rd a t am i n i n g j d a t am i n i n ga n d k n o w l e - d g ed i s c o v e r y , 1 9 9 7 ,1 :7 9 1 1 9 【2 】邱红兵,张宝学混合模型及其导出模型下估计量间的关系 j 】东北师大学报 ( 自然科学版) ,2 0 0 0 ,3 2 ( 3 ) :1 3 - 1 7 3 h e c k e r m a nd ,g e i g e rd ,c h i c k e r i n gd m l e a r n i n gb a y e s i a nn e t w o r k s :t h ec o m b i 。 n a t i o no f k n o w l e d g ea n ds t a t i s t i c a ld a t a j m a c h i n el e a r n i n g ,1 9 9 5 ,2 0 ,1 9 7 - 2 4 3 【4 】s u z u k ij ac o n s t r u c t i o no fb a y e s i a nn e t w o r k sf r o md a t a b a s e sb a s e d o na nm d l p r i n c i p l e c p r o c e e d i n go f t h e9 mc o n f e r e n c eo nu n i v e r s i t yi na r t i f i c i a li n t e l l i g e n c e w a s h i n g t o nd c 1 9 9 3 :2 6 6 2 7 3 【5 c o o p e rg ,h e r s k o v i t se ab a y e s i a nm e t h o df o rt h ei n d u c t i o no f p r o b a b i l i s t i c n e t w o r k sf r o md a t a j m a c h i n el e a r n i n g ,19 9 2 ,9 :3 0 9 3 4 7 【6 c h e n gj ,b e l lda ,l i uw a na l g o r i t h mf o rb a y e s i a n b e l i e fn e t w o r kc o n s t r u c t i o n f r o md a t a j a i & s t a t 9 7 ,f l o r i d a ,1 9 9 7 【7 】岳博,焦李成b a y e s 网络学习的m c m c 方法 j 】控制理论与应用, 2 0 0 3 :5 8 2 5 8 8 8 】s p i r t e seg l y m o u rc ,s c h e i n e sr a na l g o r i t h mf o rf a s tr e c o v e r yo fs p a r ec a u s a l g r a p h s j s o c i a ls c i e n c ec o m p u t e rr e v i e w ,1 9 9 1 ( 9 ) :6 2 - 7 2 9 9 b o u c k a e r trr b e l i e f n e t w o r k sc o n s t r u c t i o nu s i n gt h em i n i m u md e s c r i p t i o n l e n g t hp r i n c i p l e j l e c t u r en o t e s i nc o m p u t e rs c i e n c e ,1 9 9 3 ,7 4 7 :4 1 4 8 【1 0 刑永康,沈一栋,基于互信息和测度学习信度网络结构【j 重庆大学学报,2 0 0 1 , 2 6 因子分析中的贝叶斯网络方法 参考文献 2 4 ( 1 ) :7 8 - 8 2 【11 p e t e rc h e e s e m a n ,j o h ns t u t z ,b a y e s i a nc l a s s i f i c a t i o n ( a u t o c l a s s ) :t h e o r ya n d r e s u l t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 督察文员考试题及答案
- 数据分析基础模型与运用工具集
- (正式版)DB15∕T 3223-2023 《捕食螨防控设施蔬果叶螨技术规程》
- 德国警犬考试题及答案
- 农村区域农业种植项目合同书
- 大学单元考试题及答案
- 学术诚信承诺书实例(6篇)
- 企业质量管理体系建立工具包
- 《光的折射与全反射现象:物理光学基础教案》
- 特种设备安全培训
- 四川成都交易集团有限公司招聘笔试题库2025
- 2025年《资料员专业基础知识》考试题库及答案
- 2025年法规审查要点与合规操作实务方案
- 抑郁病诊断证明书
- 现状调查培训课件
- 初级社会工作实务全本课件
- 电气试验标准化作业指导书
- 养老机构行政值班查房记录表格
- 练习太极拳的三个阶段
- 华为供应商质量管理体系考察报告(全)
- 冶金工业清洁生产的主要途径(共82页).ppt
评论
0/150
提交评论