已阅读5页,还剩52页未读, 继续免费阅读
(计算机软件与理论专业论文)基于贝叶斯网络的数据挖掘方法及其基因表达分析应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着人类基因组计划的完成,在关注于结构和功能研究的后基因组时代,放眼于整个 全基因组的大规模生物数据,深入发掘其中蕴含的结构和功能信息,为生命科学提供更多 更有价值的知识,越来越成为科学家研究的重点。而最近兴起的微阵列以及基因芯片等技 术和实验手段,使人们可以同时观察成千上万条基因在某个生命现象中的表达情况,从而 将基因的活动状态比较完整地展现出来,使得人们能够从基因组整体水平上把握生命的某 些特征,这无疑为科学家进行大规模功能基因组分析提供了思路。通过对全基因组范围内 的基因的表达进行分析,人们可以预测未知基因的功能,发现基因之间的调控关系,进而 勾勒出全基因组的基因调控网络,基因表达分析已经成为生物信息学研究的一个重要方 向。 非确定性人工智能领域的概率图形模型贝1 1 - r 斯网络模型,其理论完整,易于处理 非确定性,并且表示直观,被越来越多的学者用于分析基因表达数据,从而构建基因调控 网络。对照着数据挖掘的不同方法和任务,事实上针对大量的基因表达数据的基因表达分 析也同样存在着种种特定的挖掘任务,而不仅仅是构建基因调控网络。尽管已经有各种不 同的数据挖掘和机器学习方法被用于进行各种不同的基因表达分析任务,由于基因表达数 据本身具有的独特的复杂性以及生命科学研究先验知识的不足,针对基因表达数据的分析 至今仍没有很成熟而较为统一可行的方法,不断有来自于不同研究领域的分析方法被引入 进来进行试验性研究。 既然基因的表达是由基因调控网络来指导和控制的,生物细胞的外在特征,包括表现 出各种病症、对刺激产生的反应等都是基因调控网络的某个侧面的反映,而贝叶斯网络又 是合适的建模基因调控网络这种基因表达本质特征的可计算模型,利用贝叶斯网络模型来 实施更多的基因表达挖掘任务有理由成为一个很好的尝试,目前从数据学习贝叶斯网络模 型的研究工作的进展也给这样的研究工作提供了基础。 本文以贝叶斯网络为主要研究对象,通过解剖该模型,分析将其应用于数据挖掘的优 势和可行性,并研究将其改造为针对不同挖掘目的挖掘不同知识模式的方法,这包括将其 改造为有监督、半监督和无监督的分类模型,和相关性分析模型,并利用实际的样本数据 进行了实验分析。在这些分析的基础之上,进而利用这些基于贝叶斯网络模型的不同挖掘 方法对真实的基因表达数据进行挖掘分析。本文的工作一方面在于拓展较成功的用于建模 基因调控网络的贝叶斯网络模型对基因表达数据进行更广泛的数据挖掘分析;另一方面在 于分析成功应于人工智能专家系统领域的贝叶斯网络统计图形模型,研究将其改造用于各 利嗷据挖掘分析任务的方法,并且同常用的决策树分类模型,以及传统的关联规则知识挖 掘模型进行了比较,指出了贝叶斯网络模型在这些知识挖掘方面的能力和相对优势。 关键字:贝叶斯网络数据挖掘基因表达分析生物信息学 a b s t r a c t w i t ht h ea c c o m p l i s h m e n to fh u m a ng e n o m ep r o j e e t ,i nw h i c hp l e n t yo fg e n o m es e q u e n c e s f o rh u m a n b e i n g sa n do t h e rm o d e lo r g a n i s m sw e r ea c c u m u l a t e da n dc o o r d i n a t e d ,h o w t om a k e t h eb e s to ft h e s eb i o l o g yd a t a ,f l l a h e re x p l o r eg e n o m es t r u c t u r e sa n df u n c t i o n si sb e c o m i n go n e o ft h em a i nt a s k si nt h en e wp o s t g e n o m ee r a m e a n w h i l e ,t h ea d v e n to fm i c r o a r r a ya n do t h e r r e l a t e db i o l o g yc h i pt e c h n o l o g i e sf o rl a r g e s c a l et r a n s c r i p t i o n a lp r o f i l i n g ,w h i c ha l l o ws c i e n t i s t s t om e a s u r et h ee x p r e s s i o nl e v e lo ft h o u s a n d so f g e n e ss i m u l t a n e o u s l yf r o mas i n g l es i m p l e ,h a s b r o u g h tan e wl i g h t t ot h el i f es c i e n c er e s e a r c hw i t ht h eh e l po ft h e s ee x p e r i m e n tt e c h n i q u e s , c o m p r e h e n s i v ea n de v e ng e n o m i c s c a l ea n a l y s i so nm a s so fg e n ee x p r e s s i o nd a t ai sh a v i n ga s i g n i f i c a n ti m p a c to nf u n c t i o n a lg e n o m i c s ,d u et og e n o m i e - s c a l eg e n ee x p r e s s i o na n a l y s i s , s c i e n t i s t sc a l lp r e d i c tt h ef u n c t i o n so fu n k n o w n g e n e s ,d i s c o v e r yg e n er e g u l a t i o np a t h w a y s ,a n d e v e nc o n s t r u c tg e n o m i eg e n er e g u l a t o r yn e t w o r k s g e n ee x p r e s s i o na n a l y s i sh a sb e c o m eav e r y i m p o r t a n t b r a n c ho fb i o i n f o r m a t i c sr e s e a r c h b e c a u s eo ft h ea b i l i t i e st oh a n d t e n n c e l t a i n t y a n d r e p r e s e n td e p e n d e n c yr e l a t i o n s h i p s , b a y e s i a nn e t w o r k s ,ak i n do f s t a t i s t i c sg r a p hm o d e l s a r en o wt h ef o c u sf o rag r o w i n gn u m b e ro f r e s e a r c h e r sc o n c e r n e dw i t hd i s c o v e r i n g n o v e li n t e r a c t i o n s ,i n f o r m a t i o nd e p e n d e n c i e sa n dg e n e r e g u l a t o r yn e t w o r k sf r o mg e n ee x p r e s s i o nd a t ao n g o i n gr e s e a r c ho nu s i n gb a y e s i a nn e t w o r k s t oc o n s t r u c tg e n er e g u l a t o r yn e t w o r k ss h o w st h ea b i l i t i e so fb a y e s i a nn e t w o r k st o a n a l y z e c o m p l e xg e n ee x p r e s s i o n d a t a i nf a c t ,b e s i d e sm o d e l i n gg e n er e g u l a t o r yn e t w o r k ,t h e r ee x i s tm o r eo t h e rd i f f e r e n tm i n i n g t a s k s i u s tl i k et h o s ea r et a l k e di nt h er e s e a r c hf i e l do fd a t am i n i n g d e s p i t ea l lk i n d so ft r i a l s 矗o md a t a m i n i n g 。m a c h i n el e a r n i n g ,a n de v e no t h e rm a r g i n a ld i s c i p l i n e s ,t h e r ea r es t i l l n o r e l a t i v e l ym a t u r em e f l l o d sf o rv a r i e t i e so fg e n ee x p r e s s i o nm i n i n ga n a l y s i s 。n o wt h a tt h e b a y e s i a nn e t w o r k i sak i n do fi d e a lm a t h e m a t i c a lm o d e lf o rg e n er e g u l a t o r yn e t w o r k sa n dg e n e s w o r kt h r o u g hg e n er e g u l a t o r yn e t w o r k s ,s e e k i n gm o r ed a t am i n i n ga p p l i c a t i o n so fb a y e s i a n n e t w o r k so ng e n ee x p r e s s i o na n a l y s i si sak i n do fr e a s o n a b l ee n d e a v o n t h i sd i s s e r t a t i o ni st r y i n gt oa n a t o m i z et h eb a y e s i a nn e t w o r km o d e l ,s t u d yt h ea p p r o a c h e s o fc u s t o m i z i n gt h em o d e lf o rv a r i e t i e so fd a t am i n i n gt a s k s ,a n dt h e nf i n do u tt h ef e a s i b i l i t i e so f t h e s ea p p r o a c h e s c o m p r e h e n s i v ee x p e r i m e n t ss h o wt h ea b i l i t i e so f b a y e s i a nn e t w o r k s u s e df o r s u p e r v i s e d ,s e m i s u p e r v i s e d ,a n de v e nu n s u p e r v i s e dc l a s s i f i c a t i o n s ,a n da l s oa s s o c i a t i o na n a l y s i s i ns o l i l ec i r c u m s t a n c e s ,t h e ye v e n p e r f o r m t h a nc o r r e s p o n d i n gt r a d i t i o n a lm e t h o d s + f u r t h e r m o r e ,t h e s ed a t am i n i n gm e t h o d sb a s e do nb a y e s i a nn e t w o r k sa r e e m p l o y e dt o c l a s s i f yg e n e s ,s a m p l e s ,a n dc o n s t r u c tg e n er e g u l a t o r yn e t w o r kf r o mr e a l - l i f eg e n ee x p r e s s i o n d a t a 。e x p e r i m e n t ss h o w t h a tt h e ya r eu s e f u la n dd e s e r v ef u t u r er e s e a r c h k e yw o r d :b a y e s i a nn e t w o r k d a t a m i n i n g g e n e e x p r e s s i o na n a l y s i s b i o i n f o r m a t i c s 南歼 举坝士学他论文第一嚣绪论 第一章绪论 。 藜闲袭达分耩薛生物莹怠学 随羞人类基因组计划的顺利完成,。科掌家已经获取了人类基因组的绝大部分序列以及 备种模式生物的大部分序列,然而,仅仅获得这些序列离人类发现自身复杂的生命过糨, 解读生命奥秘还相距甚远。随之而来的关注于结构和功能研究的后基因组时代,放眼于熬 个全熬囡组的大规模生物数据,深入发掘其中躺宙的结构和功能信息,为生命科学提供慰 多嬲商价值的知识,越来越成为科学家研究的煎点。生物信息学,综合生命科学、计算机 科学、数学、统计学、化学,甚至物理科学等广“泛的多种学科,越来越成为科学家认议生 命了解生命的必不可少的重要的手段。 后蕊因组时代,也称功能基因组时代,生物信息学的研究内容从序列研究转向结构和 功熊,以大舰摸基因组分析、蛋白质组分析以及各种数据的比较和整合为其主要内容 2 3 。 强静,蒺溷缱分掇豹主要磅究内容已经执结构簇因缝( s t r u c t u r a lg e n o m e ) 过渡到功熊蕊 嚣缀( f u n c t i o n a lg e n o m e ) 。这一瓣段鳇核心 壬务楚获褥全基霆鲤錾功憨表达灌,焉狻疆学 窳鞠滋法就是,终存在予人类鏊函缝上豹黪鹣舔因罄谱在目阔窝空蠡l 缍土震秀。露最邋兴 超的徽阵列( m i c r o a r r a y ) 技术以及基因芯片簿技术秘实验手段,使人们可以同时躐察成 千上万袈基因在某个生命现象中的表达情况,从而将基因的活动状态比较完整她麓现融 来,使得人们能够从基因组的整体水平上把攒生命的某些特征,这无疑为科学家避行大娥 横功能慕因组分析提供了思路 3 。通过对垒熬因组范围内的基因的表达进行分析,人们 可以预测未知基因的功能,发现基因之间的调控关系,进而勾勒出全基因组的基因调控网 络。糕因表达分析已经成为了生物信息学研究的个重要方向。 1 2 憝因调控网络 生物懿遗传信息以基嚣韵形式穗藏在缀聪内的d n a ( 或r n a ) 分子中。随着个体的 发育,d n a 分子麓有序遗耱萁所承载蟾遗传信惑,透过密鹤子一爱密羁予系统,转变成袋 自袋分子,捷行各静生理生纯功缝,完残生愈过罄。秘掌家荛这个酸d n a 妥蛋白袋弱避 稷豫为麓因表达( g e n ee x p r e s s i o n ) ,对这个过程豹谖节就豫为基因表达谖控( g e n e r e g u l a t i o n 或g e n ec o n t r 0 1 ) 。基因调控是现除段分子生物学研究的中心课题。要了解动撼锈 生长发育的规律、形态结构特征和生物学功能,就必须弄清楚基因表达调控的时间和空间 概念。 原核,主物中,营养状况( n u t r i t i o n a ls t a t u s ) 和环境因素( e n v i r o n m e n t a lf a c t o r ) 对錾围 表达勰着举足轻重的作用:而真核生物尤其是商等真核生物中,激素水平( h o r m o n el e v e l ) 和发商阶段( d e v e l o p m e n t a ls t a g e ) 是基因表达调控的最主要手段,则营养和环境圜鬃的影 响力大为下降。目前,原核生物基因的调控的研究已经相当彻底,但对真核生物基因的调 控的研究剐刚开始。对大多数真核细胞来说,熬因表达调控的最明显特征是能在特定时间 和特定的细胞中激活特定的基因,从而实现“预定”的、有序的、不可逆转的发育过程, 并使生物豹组织和器官在一定豹环境条件范溺肉缣撩正常功能。真孩生物基西表达的调羧 在时涎秘窆阔上的有序毪已吸弓| 了越亲越多瓣辩学家,是疆蘸篷赛上最嚣跃豹礤兖领域之 南开丈举瑕学位论文第一章缝论 n 纂因调控网络( g r n ,g e n er e g u l a t o r yn e t w o r k ,也称为g e n e t i cr e g u l a t o r yn e t w o r k ) 是主骤由细胞中相互作用的基因片段以及其它起调控作用的物质共同构成的调控网络,它 表援了缀憨中基因之闫鲶调控关系,指导黄基鞭到m r n a 瓣表达过程 3 4 3 5 。一方嚣, 生物学家希望不断魄勾耪出这撵静嘲络模型:一方面,他们也希望能够利褥一些数学方法 构建遂些模型,从而能够进行功能预测和测试。下图1 1 就难用贝叶斯网络模型表示出来 的关于酵母的部分拣因的调控网络示意图 1 0 。 图l _ l贝叶斯网络表示的基因调控网络 i o 到目前为止,已经有很多的数学模型被试豳用于建模基因调控网络, 3 6 利用差分不 等式( d i f f e r e n t i a le q u a t i o n s ) 来麓单的建模基因调控网络, 3 7 刹用只允许变量为二德的 奄尔溺络( b o o l e a nn e t w o r k ) 来建模基因灞控瀚终, 3 8 翻是嗣焉菠避了静一耱表示离 散分布系统的模型p e t r in e t 来表示基因调控网络, 1 0 用娥叶斯网络构谶基因调控网络, 成功的得出了许多有生物学意义的结论,从而引起了很多生物信息学家对贝叶斯网络的关 注, 4 0 则详细讨论了贝叶斯网络同布尔网络、h m m 以及其他的图形模型的联系,并指 塞了炙时簸霹终以及动态炙时裁瓣终稳建基嚣濮控两终所曼骞瞧优势。 1o o 3 3 认为,贝叶新网络相比于其它的模型,对于基因调控网络静构建有蕻独 特的优势: ( 1 ) 模型本身包含概率语义,这比较复合生物过程的不确定性特征,也能够适应允许 噪声程褒戆实验环境 1 0 ,适应瓣蘸对基因表达的测量的不精确性度量现状 4 羽: ( 2 ) 贝叶簸掰终结褥静霞暴语义关系侩恰哥嗣予表示蕊困之闻酶表达调控关系 3 3 】; ( 3 ) 贝叶斯网络建模方法允许引入隐含变赞,这弥补了观察数据的不足,同时对于基 因调控网络分析正好符合了除基因之外的其它调控影元素的存在 4 0 : ( 4 ) 有越来越多的从数据学习贝时斯网络的方法被发明如来 3 3 2 0 ,基于贝时款网 络豹辊器学习或蠢瓣谈发瑗方法不戮 | 筵太髓麓兴趣: ( 5 ) 贝叶斯网络模型可以引入时间动态特性,如h m m 、动态贝叶新黼络模型等,由 此它可以建模动态的生物过程 3 3 。 。3 燹多薛数据挖箍应嚣l 传统的基因表达分析方法是简单的并且是小规模的,可能借助于生物攀家一次或多次 针对蒹些个别基因的实验完成。缎霉实上,基豳的表达是相互影响的,为了更充分合理的 分褥蕊霆豹表这凌凝,辩学家零黉较全嚣静锋对整个基因缀敬表这送幸亍分糖。麓摹鲍爽犊 巍开丈学矮学位沧文篓一章绩论 生物酵母的全熬因组的基因有六千多条,人类全基因组的基因则有十万祭之多,这意味精 德稍翥簧不甄产生大璺躲数据:方蘸,科学豢希望镑对特定戆实验嚣豹,缮或予这嚣弱 实验手段,得到自己所需要的实验数据,并直接有针对性的进行分折,攀实上,生命活动 过程往往涉及到j l 乎整个基因缎的参与作用,即使是针对性很强的生物学实验也需要借鼢 子能够黼时采集全基因缝的萋戮活动状态的大娥模实验援术,印往是这稀有针对往的实验 产生的数据也是大量的;另一方面,恰恰是因为生命科学领域不满足于特定局部知识的获 取方式,著网时寄幕望于生物傣息学掇有的分掇鞠处理大量数攒或信息黥能力,棼望颈先 产生大髓的实验数据,群借助于各种信息处理披术,更多更快的挖掘出藏因表达规律,刚 刚完成的人类熬因组计划对人类基因组序列的测定过襁以及生物信息学的应运而生恰恰 应迁了生命科学醣究豹这第二条嚣爨。予是,这大量复杂豹数掇绘蒋统滤基因表达分橱方 法提出了挑战,它要求腰多能够处理大赞复杂数据的信息处理方法。而信息科学以及统计 学领域的很多方法恰恰具有这榉的能力,数据挖掘便是这样的一系列数掘处理方法和技 术。 数据挖掘( d a t am i n i n g ) 就是从大照的、不完全的、有噪声的、模糊的、随机的实际 应用数攫中,筑联隐含在其中款、人们事先不知遂豹、但又是漤在有用粒信息和知识的过 程。简单的讲,数据挖掘就是从大量的数据中发现知识模式的过程。按功能分,数据挖掘 的主要目标可以分为预言( p r e d i c a t i v e ) 和描述( d e s c r i p t i o n ) 两种。预苦就是希望找到数 据孛鹈蔡些交爨藏苔耩浚,稳搿它铜裁够鞭灞感兴趣鹣未翔雏交整或者这些交蘩酌未来敬 值趋势。而描述,则是找到人类可理解的描述这些数掘的模式或者规律。可以通过各种不 同的数据挖掘方法完戏各豺挖掘任务以达到这些目标,这包括下面的这些方法或任势 1 3 : ( 1 ) 分类( c l a s s i f i c a t i o n ) ,就是将数据集中的数据项映射到预先给定的多个类别中的 令或多个粪攫上。 ( 2 ) 聚类( c l u s t e r i n g ) ,一种很常见的描述型挖掘方法,就是确定出有限个类别或者 对象簇柬描述数据。这有限个类别或者鼹相互排斥的,或者是相互重叠的,或卷有其它熨 丰富静知识表瓣,琵魏菇次性的聚类或者类爨可蕊叠斡软聚类( 概率分粪或禳翻分类) 等。 聚类是媳型的无监督学习方法,不需要预先确定类别并给予己知类别的训练数据。 ( 3 ) 回妇( r e g r e s s i o n ) 分摄,其功能非常类似于分类,毽楚它是簿望预测感兴趣魏 连续变艇的取德。回归分析多用于针对时问序列数据的分析。 ( 4 ) 摘要( s u m m a r i z a t i o n ) ,主要是找到对数据集线子集的简单描述。这包括,对憋 个鼗餐祭静一鍪统计,概要趣列摇述,粒数据集躲可撬纯等。浚方法主瑟应蠲予交互式躲 探测性数据分析和自动的报告,土成等方丽。 ( 5 ) 楣关燃发现( d e p e n d e n c yd e r i v a t i o n ) ,主要是找到数据顼之嘲豹关联、功能、因 柒或者序列关系,这些关系表征着一个事件和其他事件发生的瓶律和联系。这种相关性可 能以规则的形式表示,也可能以图形的形式表现。常用的方法有,一系列的关联舰则发现 方法 搦经典翁a p r i o r i 算法) 秘基于统计蕊羧率嬲终揍鍪( 魏受时麓鼷络( b a y e s i a n n e t w o r k ) 模型建模时问序列特性的隐马尔可夫模型h m m ( h i d d e nm a r k o vm o d e l ) 等) 。 借撩数掘挖掘的思想,对照着数据挖掘的不同方法和任务,我们发现,针对大量的基 鞫表达数据兹基因表达分桥蠢同样存在着这些挖掘任务。眈如,经过缀多祥本静漤察,针 对基因进行聚类,我们如果发现一些基因归于同表达相似的基因簇,那么通过簇中已知 基因的功能我4 ( j n 班接溅那些来知茎毽躺功能 4 3 4 1 ,或者能够稳援慕函表达之趣粒稳 关性,对基因进行聚癸,从而发现参与不同生命活动过稳的基因:同样的,针对样本进行 聚类,我们可以发现新的疾病类别 4 :另外,聚类分析也可用于基因表达数据的降维和 第一章缝谚 可视化,或者预测新样本的类别 4 。我们也可以通过按照病人样本的表达特征或者对刺 激静反应分类瘸久稳样本,飙焉诊瑟箕瘸章主,这包括潮繇萁爱否有瘸袋者区分箱钕瘸清 4 7 4 9 4 。另外,我们也可能通过对基因袭达的分析,确定对生命过程影响重大的基 因 4 6 h 5 ,域者发现对特定的刺激有反应鑫句熬困等。另卦,发现嚣聪基因或糟多个基因 之间的调控影响关系,这更是纂因表达分析的个重委任务之一,而这恰恰是数据挖攒中 的相关性发现的任务,类似于关联规则这样的知识就是这样熬因表达调控关系的合适表 示。尽管已经寄各静不阉豹数撵挖掘秽规爨学习方法竣用于进行各静不曩静摹圆表这分辑 任务,但是至今仍没有很成熟而较为统的表达分析方法。 基因的表达是出基因调控嘲络来指导和控制的,生物细胞的外在特征,包括表现出各 种瘸瘢、对蒯激产生的反应等郝楚基因调控礴络豹菜令侧面的及淤,蕊然爱嘲0 舞网络爨菲 常适合于建模基因调控网络的数学模型,并且目前从数掘学习贝叶斯网络模型的研究也有 了擐大的发展,利用贝时赣网络摸型米实憨上蕊赝涉及到静多剥t 挖掘经务有理由藏为一个 很好的尝试。 1 4 本文的研究内容和结梅组织 尽管黠予蘩园表达分桥兹生4 舅信息学,我翻需要发瓒基因之闰鞠调控关系,毽是我们 不仅仅需要得到的是熬个复杂庞大的撼因调控网络,从上面的分析看出,我们有更多的表 达分析任务和表达分析应用,如按照蒸困的功能对基圆进行聚类从而颂测未知基因的功 能,分炎病人的样本觖而诊断瘸情,通过基因袋达聚类分祈发现新的疾病,发现两两基函 之间或多个基因之间的表达调控关系而不是构建整个庞大复杂的网络,发现对特定的病症 有突或毒筝臻豹蓥邃,这些都是我 f :嚣要挖掘窭来熬知识,对应予更多款数握挖撅任务,我 们需耍引入更多的不同目的的数据挖掘方法。既然来自于非确定性人工智能领域的统计图 形模型贝叶斯网络被认为是目前相对适合的建模基因调控网络冉勺数学模型,我们是否可以 发稼蘩予这秘可计算搂垄的雯广泛静数撵挖掇方法,荠希望嗣弼这些熊够完戒不同控藏任 务的数据挖掘方法来谶行基因表达分析呢? 这就是本文的研究内容。 本文解剖贝时斯网终模型,分析将其应用予数据挖掘静优势翻可行性,芽分别酶究终 其改遗为针对不同挖瓣目的挖狮不同知识模式的方法和能力,这包括将其改造为有监督、 半监黼和无监督的分类模型,以及相关性分析模型,并对实际的样本数据进行实验,同传 统的鞫应豹数攥挖撼方法送行了跑较分褥。遴秘以这些基于冤时鬏搂鹜为薹毒塞躲挖掘方法 对真实的基因袭达数攒进行实际的分析。 本文的章节是这样安排的。第二章,较具体的介绍贝p - j 。斯嘲络模型,这包括该模型的 基本蔗理,工作特性以及西前的主要研究内容和涉及到关键问越。第三章,刚怼分褫基子 贝叶斯网络模型改造成的贝叶斯分类模型,并进一步在分类模溅的基础上提出从无类别数 据学习豹方法,j 蓼l 望缉至l 能够灏时利蠲煮粪烈翻无类剐豹数据豹半夔蛰分类学习方法。谂 文还问数据挖箍领域常用的决策树分类模型进行比较分析。第四章,研究如何应用贝叶斯 网络进行相关性分析,同时还将贝叶斯网络所能挖掘到的这种相关性知识同传统的关联规 翊在捺述帮颓溅数据静麓力上避行院较。第五章,对囊实的基鞫表达数攥送行分桥。分嗣 针对不同的挖掘模型,对基因袭达数据进行不问目的的挖掘分析。最后是总结部分。 粥歼大学硕士学位论文 第二聿贝叶斯脚络模型 第= 章贝叶斯网络模型 数舞挖掇在从丈量数据发耀事凌客躐艘簿熬过程中存杰羲大量熬不凑定注,这死乎簿 现在数据挖掘从数据的采集到知识的表示的整个过程中。比如 1 5 】: 1 、数据往往是出于其他目的而产生的,同时数据的测量或收集手段等等的不精确性使 彳导数据本身是不精确的,如数据中存在着大量的i 噪音、存在着很多缺失,还有就是数据的 不一致蛙。 2 、为了娃瑾噪音数据、妖失数据或为h 算法需要经往要进行一些预处理,妇标准化、 离散化或模糊化等,这些预处理本身就存在潜不确定性,有的甚至还会引入人的主观武断 性等。 3 、计算推理或算法本身的不精确性,比如出于算法矬能或者可行性等考虑引入诸多假 设,这也造或了知识菱褒过程裾不确定性。 4 、知识获墩过程中可以引入先验知识,这些先验知t 鞋本身的不确定性以及先验知识的 表达方式无疑悬一;精确的。 5 、知识的袭示也存在着很多的不确定性,如规则的寝示是不精确。 事实上,在入类蕊知识露懑维李亍为串+ 不确定牲是鞠对兹,确定性才是绝对豹。缀搴 统计方法是处骥不确定性的稷好的手段。黼辩,数据挖粥方法也很大糕度上来源予概率统 计方法,同样作为数据分析方法的统计数据分析和数据挖掘存在着许多互相借鉴和利用的 地方。贝叶斯网络模型很好的结合了贝叶斯统计方法来处理不确定性。 2 1 贝翳斯攀游 贝叶斯推理提供了推理的种概率手段,即进行不确定性推理,贝叶斯学习则是以贝 时颊接理为理论基础躲辊嚣学习方法,它楚贝时颠嬲终援型用于数攘挖掇分辑的算法基 毒窭。下面我们褥单介绍员时黪学习的一些黪嵇理论。 2 1 1 贝叶斯慕本概念 在秘器学习中,逶零我稍感兴趣静是褒绘定调练数据d 时,确定缀浚空阔h 中豹豢娃 假设。所谓最佳假设,事实上隧学习西酶和归纳偏置的不同而有所不间,一种办法就是把 它定义为在给定数据d 以及假设空间片中不同的假设的先验概率等商关已知知识的情况 下的最有可能假设。贝叶斯理论则给出了一种量化这种可能性的方法。 我稍矮尹( 玲米表示没毒i ) i l 练数据蘸我们霹褒设女魏酝率佶诗,稔 窜缓设女嚣先骏凝攀 ( p r i o r p r o b a b i l i t y ) ,它反映了我们在对现商数据进行分析前对假设h 的主观认可穰度,如 果没有任何其他已有判断或者主观偏执,我们可以简j 1 1 l 的赋予每一个候选假、砹相同的先验 掇攀t 类似静,我们雳p ( d ) 衷示我们可2 观察妥潮练数攥。豹宠骏麟率,同时我f i 7 震蘩 件概率p ( d ) 液示在假设h 成立的情况下可能观察到数据d 的概率。在机器学习或者数据 挖掘闯廷中,我们更关注的最,在给定数据d 时自成立的概率,我们用袈件概率p d ) 表 南开大学硕十学位论文 第一章贝1 1 l 斯网络模型 示,称为假设h 的后验概率( p o s t e r i o rp r o b a b i l i t y ) ,它反映了在观察:n i ) t l 练数据d 后该假 设h 成立的置信度。为了能够定性甚至定量的分析先验概率以及后验概率,下面给出贝叶 斯法则( b a y e st h e o r e m ) 和全概率公式( t h e o r y o f t o t a ip r o b a b i l i t y ) ,这些公式提供了计算 后验概率的方法。 1 6 【贝叶斯法则】 p ( h :型掣 ( 21 ) 7 p f d l “ ( 2 1 ) 式称为贝叶斯法则,也被称为贝叶斯公式,它给出了从先验概率尸( ) 和p ( d ) , 以及p ( h | d ) 计算后验概率的方法,是贝叶斯学习方法的基础。 【全概率公式】 设 为假设空间h 中任意一个假设,我们有只功= l ,那么 p ( d ) = p ( d i 办) p ( 办) h e h ( 2 2 ) ( 2 ,2 ) 式称为全概率公式。它同时也给 : _ ;了客观计算先验概率j d ( d ) 的最理想的计算 方法。 在机器学习中,需要通过训练数据d 确定假设空间h 中的最佳假设,一种合情理的考 虑就是在假设空间h 中寻找在给定数据d 时可能性最大的假设h ( 或者可能是多个这样的 假设取其一) ,这样的假设称为极大后验( m a x i m u ma p o s t e r i o r ,m a p ) 假设,h 即: 制p = a r g m a x p ( h l d ) f l 一。p ( d l h ) p ( h ) = a r gm a x l - 。h e h p ( d )( 2 3 ) = a r g m a x p ( dlh ) p ( h ) 注意到,在某些情况下,如果认为每个假设 具有相同的先验,那么可以简单的只考 虑给定 时d 的似然度p ( d l ) ,这样的只使似然度p ( d i ) 最大化的假设,称为极大似然 ( m a x i m u m l i k l i h o o d ,m l ) 假设7 k ,即:,h = a r g m a x p ( d f ) 。 e h 南扦人学硕。卜学位论文第二章川1 1 f 蛳刚络模型 2 1 2 贝叶斯掌习 实际上,贝时斯学习方法就是基于对假设空间h 的先骏假设p ( a ) ,通过基于观察到的 数襁d 进行调练学习,筏戴m a p 假设皇。r 或者m l 假设# ,从而基于这样的一个或多个 假设做出可能最优的决策。即分别利用p ( v 1 d ) = p ( | r ) ,p ( i d ) = 尸( i ) 或 j ) ( | 圆= p l 办) 骰毒决策,这墨矿表示我们需要遴嚣瓣决策或表示袋条判定翔谈,绸 h 如新实例的类别臼勺判定,h 。表示我们通过从数据学习得到的多个假设之。 我们知道,搬嚣学习黔任务是飙特臻的洲缘摔倒中妇纳学习出一般性豹合理的可援广 的骰设,然露我们学习所蔽赖的调练样弼毕竟只是有限的所有实镶的部分,这种翔绒学 习事实上只能保证输出的假设能够同训练数攒相拟合。归纳学习的个基本的假定就是, 在没有更多可利用信息的情况下,认为对于来见到的实例墩好的假设就是与训练数据最佳 拟含的假设,这闸时也意味蓑疆求日i l 练样例袋不舍噪声或错误并且样例足够大。一方题受 袋子数据夔采集,一方瑟受骚予对于数援静处理蕤力,我们无法确信镑黠锯底无噪声并豆 样例足够大的数据集进行训练。事实上,针对这样有限训练数据集进行的归纳学习,我们 都需要预先给予不同形式的假定,即归纳偏鬻( i n d u c t i v e b i a s ) ,无偏的学习除了能够完美 的拟合训练数掘外,没有任何价值。奥坎姆剃刀( o c c a m sr a z o r ) 便是这样一个被留学家 争论了死夸整纪麓今仍寒论诞,讴是一壹为人饲广为遵筑魏羟续编嚣,它据窭“铙先选择 缀合数据的最简单的假设”f 1 6 l 。 实际上,贝叶斯学习方法有如下一些特性f 1 6 1 : 1 、观察到的每个训练样例可以增量地降低或升高某假设的估计概率。贝叶斯学习方法 不会像其 也报多算法那样在綦个瑕设与任榉捌都不一致时镪底否定浚假设,它给出了这 样翰假设仍然麓够获褥选器匏露能性,因为在其睡童的簸设豹估计概率部缀低对导致了浚馁 设的估计概率的掇升。 2 、先验知识成者归纳偏嚣可以很容易引入从而辅助最终决策。一方面,先验知识可以 有效的辅助进行正确决策,辩一方面,先验作为归纳偏置使得学习不至于过度拟台 ( o v e r f i t t i n g ) 铡练数蠢。 3 、贝叶斯方法可以以不确定的形式给出预测或者结论。事实上,这种不确定性表现为 概率形式。这在很多时候恰恰减少了彻底明确的结论所带来的武断。 4 、预测结论可以基于多介假蹬而并非只是个假设给出。这是通过概率加权来实现( 勺, 其理论菝摇刘是全凝率公式。这一跨蛙在我们无法难一确定最努豹缀设豹嬲娱最为有效。 5 、贝叶斯方法静计算复杂度往往都是较离的,但是这神方法仍然可以作为一个域优的 决锻标准来衡量戴它方法。 2 。1 3e m ( e x p e c t a t i o nm a x i m i z a t ;o n ) 算法 对于基于训练数据的归纳学习方法,数掇的质量以及对数据的处理严重影响了学习能 力以及最终结果。一方面,数据的采集也许魁片面的、部分的,在归纳学习过程中也许需 要引入并未观察到的隐含变量:方面,收集到的数据因为种种原因很有可能存在着缺失, 武嫒靛豫莓嚣为都分缺失豹交爨可能会影赡到学习姥力及络栗。翅望最大讫( e x p e c t a t i o n 南开夫学赣七学位论文 第一枣搬h 擐婀终模型 m a x i m i z a t i o n ,e m ) 算法 1 8 1 1 6 1 9 ,是,“泛用来处理存在隐含变量或者缺失等情况,针 对不完整数撼送行瓣静学习方法。e m 算法已被用予调练贝时戆网络、径囱蘩蕊数( r b f , r a d i a lb a s i sf u n c t i o n ) 网络,同时也是很多聚类算法的基础,并且还是广泛用于学习部分可 观察马尔可夫模型妁b a u m w e l c h 前向后向算法的基础1 6 1 。 实质上e m 算法楚莉蹋全概率公式把未或测到变量消去避丽再在假设空闻中寻找鼹佳 假设。这种方法在贝叶斯方法里面是常用的种消元方法。 令x 表承鼹察到豹数据,溉然理察到豹数握z 是不完整的,我们蠲z 表示完整的全毒末 数据z = x ,y ,即y 代表那些引入的珠观察到的隐含变量或者数据的缺失部分。e m 算法 垂荤要解决瓣阉题藏是,蔹提全镄数摄z 郡部分鼹察到瓣数据菇, 古诗出一缝攒述这些数握 分布的参数0 。 由此,为了建立未观察到的y 网已有数据x 之问的关系,我们可以把y 露 乍一个随机 变羹,其概率分布依赣于参数毋班及聪察到的数摇x 。朝我们有联合分布: h z l 扔= r 墨y i = 足y ii v , o ) p ( x i 国( 2 4 ) 下面,我们来看e m 算法如何处理引入杰垡来的未知随机变量j ,并进而找到m l 假设 或m a p 假设。 找到m l 假设,即找到秽使得似然函数p ( z i 护) = p ( x ,y i 口) 最大。然而,y 是一个随机 交量,繇像然函鼗尹暖l 国邈莛一个麓祝变量,我们无法壹接铮露这个避数优化。e m 算法 则是,莓先在当翦假定的参数毋的取馕护= 0 的帻况下,针对照枧变量y 求于导似然函数躲期 望o ( o j07 ) , o ( o | 口) = e p ( g l x , o ) i np ( z i 毋) 10 ,x 2 互p ,口,) i n p ( x ,yi 磐) 渺,x 】 = i n p ( x ,j ,io ) p ( yix ,o ) ( 2 5 ) y e ¥ 或= f i np ( x ,y fo ) p ( yf 石,护) d y y et 于是,消去了未知的随机变量h 然后直接对q ( 静l 臼) 进行优化,找到使得q ( 口f ) 最 大的参数+ 。算法反复迭代上面酾躺望( e x p e c t a t i o n ,e ) 步和最大化( m a x i m i z a l i o n 鹾) 步,壹至算法毂皴,帮缛曩参数f | 穹最终转谤扩。下嚣是e m 算法黪一毅攒逑: 1 ) 初始化步。给出参数0 的初始值扩。 2 ) e 步a 利用当前的参数值臼,以及观察到的数据,i - t - $ g q ( o l 1 。 俺歼大学硕士学位论文 第二章搬叶斯旧络模型 o ( o o ) = e e 湖z 。) i n p ( z 1 0 ) i 瓯x 】 ( 2 ,6 ) 3 ) m 步。黠关于乎豹函数逶行莒| | 己亿,我嚣霞该丞鼗最大诧戆参数移“。 “= a r g m a x o ( o o 。) 2 7 ) 8 4 ) 返回第2 ) 步,直到算法收敛或者酶代次数达到给定值。 类似的,对于寻找m a p 假设的情况,可以如法炮制。 显然,e m 算法同其他的最优化方法栉,存在只能收敛到局部极大值的局限性。事 实上,在m 步本身就是一个优化问题,可以借助于梯度下降、爬山搜索等最优化方法处理。 从e m 算法的设计过程看来,在e 步利用全概公式( 如( 2 8 ) 式) ,巧妙的消去了未 知的岔有不确定性的随机变量。我们同样的可以利用这种方法处理其它的不确定性问题。 p ( d ) = e p d ) p ( h x ,d ) 】_ p ( h lx ,d ) 尸( x d ) ( 2 。8 ) i ex 我稍在后蠹藏秘用e m 算法这季孛处遐来禳察变量鹃链力设诗出基于籀单贝n ”灏网络模 溅滂拳整餐分类算法。 2 ,2 贝时新网络 概率图形模型是概率统计理论间图论的结合,在非确定性人工智能领域发展迅速,它 们在处理非确定性和复杂性问题上的特性使得它们在机器学习领域发挥着越_ 泉越煎要的 作用。概率图形模型,用节点表示随机变墩,用节点之f 司的弧来表示变量之间的条件独立 性假设。而贝叶斯网络则是限定节点之间的弧是有向的一类概率图形模型,它们在过去成 功的用来表征专家系统中的非确定性专家知识。近年来由于从数据学习贝叶斯网络技术的 发展,贝叶斯网络模型不断的在数掘建模问题领域表现出了很强的能力和性能0 1 。因而 熬予贝叶斯网络的机器学习以及数据挖掘方法不断的引起人们的注意。 我们翘道,有很多的用于数据挖掇熬模型竣方法,包括决策掇、人工享率经网络以及叁 壤织黧等,也有缀多豹熟识发瑗技术,魏各秘分类、题 昱、聚类以及关联分撬较术,它嗣 在躲识发瑷遥莲上被广泛运爰。毽楚,鞠魄予这些方法或者蓑零,龙其莛遥些年熬蒜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论