(计算机应用技术专业论文)用于基因芯片和质谱数据分析的混合模型研究.pdf_第1页
(计算机应用技术专业论文)用于基因芯片和质谱数据分析的混合模型研究.pdf_第2页
(计算机应用技术专业论文)用于基因芯片和质谱数据分析的混合模型研究.pdf_第3页
(计算机应用技术专业论文)用于基因芯片和质谱数据分析的混合模型研究.pdf_第4页
(计算机应用技术专业论文)用于基因芯片和质谱数据分析的混合模型研究.pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(计算机应用技术专业论文)用于基因芯片和质谱数据分析的混合模型研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 用于基因芯片和质谱数据分析的 混合模型研究 计算机应用技术专业硕士研究生杨鹏翼 指导教师张自力教授 摘要 随着高通量生物技术的长足发展,基冈芯片和质谱技术逐渐取代传统方法成为对各种疾 病和生理特征进行准确比较和量化的重要手段。尽管其前景可观,这类高通量技术给数据分 析却带来众多挑战。其根本原囚是采用这些技术时,通常所产生的数据集都具有高特征项低 样本量的特征。冈此,要对数据样本进行准确分类,如何选取数据中的相关特征项成为数据 分析成败的关键。经过近十年来的不懈研究,许多运用于其它领域和许多直接针对这类数据 而设计的统计方法和算法被运用于解决进行数据关键特征选取的问题。然而,没有哪一种方 法是所谓的“最佳方法”。相反的,对于不同数据,各种方法的分析结果显现出不稳定性。对 于某种特定方法,分析效果时好时坏的情况在这类数据集的分析中时常发生。为了克服各种 分析算法的弱点并合并它们的优势,进行混合型算法研究成为这类数据分析的一种重要途径。 本文中,我们就如何进行基冈芯片和质谱数据分析的混合算法设计进行讨论。我们首先 给出一种基于多目标遗传算法和联盟分类算法的混合模型,并将其应用于基冈芯片数据的特 征基冈选取和样本分类中。最终通过对多组两类和多类别型基因芯片数据的分析实验,验证 了我们的多项假设和这种方法的有效性。在此基础上,我们进一步提出一种将聚类算法与上 述多目标遗传算法模型进行组合的混合算法。基于生物学中心法则,我们成功地将原来用于 基因芯片处理的数据分类概念运用丁质谱数据的分析,并运用两组高通量质谱分析产生的数 据集对所提出的基于聚类的混合模型进行了有效性的验证。实验结果表明,我们提出的混合 算法在基因芯片和质谱数据的分析上有其独特的优越性,能起到为后续的各种生物分析和验 证丁作提供重要指导的作用。 关键词:混合模型基因芯片质谱 一一 a b s t r a c t h y b r i ds y s t e md e s i g nf o rm i c r o a r r a ya n d m a s s s p e c t r o m e t r yd a t aa n a l y s i s m a s t e rc a n d i d a t eo f c 。m p u t e ra p p l i c a t i o nt e c l m 。1 0 9 y : p e n g y iy a n g s u p e r v i s o r :p r o z i l iz h a n g a b s t r a c t w i t ht h ed e v e l 叩m e n to ft h eh i 曲一t h r o u g h p u tt e c h l l o l o g i e s ,m i c r o a r r a ya n dm a s s s p e c t r o m e t r ) ,t e c l l 王1 0 i o g i e s a r en o wt a k i n g p l a c eo ft h et r a d i t i o n a lm e t h o d sa n d t r a n s t e m n g t h e w a yr e s e a r c h e sa r ed o n e o n ei m p o n a n t a p p l i c a t i o n o fs u c h t e c h n o l 0 9 1 e sl smh u m a nd i s e a s e ss t u d i e si nw h i c h m i c r o a r r a ya n dm a s ss p e c t r o m e t w a r eo n e nu t l l i z e dt oc o m p a r i n ga n d m e a s u “n gt h ed i 疗b r e n c eb e t u ,e e nd i s e a s e so rc e i r t a i n b l o l 0 9 1 c a 王 t r a l t sa n dn o 珊a l s a m p i e s d e s p i t ei t sg r e a tp r o m i s e ,s u c hk i n d o f t e c h n o l o g i e sc h a l l e n g e do u rd a t aa n a l y s i sa b i l i t y t h e c h a l l e n g eo r i g i n a t e sf r o mt h e n a t u r et h a tt h ed a t a s e t sg e n e r a t e db ys u c hh i g h t h r o u g h p u te x p e r i m e n t sa r eo r e nw i t h j a r g en u m b e ro ff e a t u r e sw h i i et h en u m b e ro fs a m p i e si s i i m i t e d t h e r e f o r e h o wt o s e i e c taf e a t u r es u b s e tw h i c hc a n y i e l dh i g hs a m p l ec l a s s i 6 c a t i o na c c u r a c yi so fg r e a t 1 m p o r t a n c e a r e rn e a r l yad e c a d eo fr e s e a r c h ,s e v e r a lm e t h o d sa n da l g o r i t h m sh a v e b e e ne m p l o y e da n dd e v e l o p e dt o t a c k l et h e s ep r o b l e m s y e t , l a r g en u m b e ro f e x p e n m e n t a lr e s u i t ss u g g e s t e dt h a tn om e t h o dc a n c o n s i s t e n t l yp e r f o n ns u p e r i o ro na n y d a t a s e t s t od i 脆r e n td a t a s e t sa n dd i 舵r e n t e x p e r i m e n ts t r a t e g i e s ,d i 虢r e n ta n a l y s i s m e t h o d sm a yp e r f o 蛐u n e v e l l l y i no r d e rt oc o m p e n s a t et h ed r a w b a c k so f e a c hm e t h o d s w m j em t e g r a t et h es t r e n g t h so ft h e m ,m ed e v e i o p m e n to fh y b r i d s y s t e mh a sb e e n i d e n t i n e da sa p r o m i s i n g 、v a y 1 nt h l st h e s i s ,w ed i s c u s sh o wt o d e v e l o pt h eh y b r i ds y s t e mf o rm i c r o a r r a ya n d m a s ss p e c t r o m e t r yd a l a s e t s a n a l y s i s f i r s t l y , w ep r o p o s eam u l t i o b i e c t i v e g e n e t i c a l g o “t l u l l ( m o g a ) b a s e de n s e m b l ec i a s s i 丘e rs y s t e mf 6 rt h ea n a l y s i so fm i c o a n a y d a t a s e t s i h ee x p e r i m e n tr e s u i t so fb o t hb i n a r y c l a s sd a t a s e t sa n dm u l t i c l a s sd a t a s e t s g e n e r a t e dt r o mv a r l o u sm i c o a r r a ys t u d i e sd e m o n s t r a t e dt h eu s e f u l n e s so ft h i s h v b r i d m e t h o d s e c o n d ly ,t h ea b o v eh y b r i ds y s t e mi s 向r c h e r i n t e g r a t e dw i t hm e 肛m e a j l c l u s t e r i n ga l g o r i t ,f o r m i n gac l u s t e r i n gb a s e df e a t u r es e l e c t i o nh y b r i ds y s t e m b a s e d i l l 两南人学硕士学位论文 o nt h ec e n t r a ld o g m ao fb i o l o g y ,w es u c c e s s m l l ya d o p t e dt h ei d e ai nm i c r o a r r a yd a t a a i l a l y s i si n t ot h ea n a l y s i so fm a s ss p e c t r o m e t r yd a t a t h ee x p e r i m e n to ft w ob e n c h m a r k m a s ss p e c t r o m e t r yd a t a s e t si l l u s t r a t e dt h ee 日e c t i v e n e s so ft h i sc l u s t e r i n gb a s e df ea t l 盱e s e l e c t i o nh y b r i ds y s t e m k e y w o r d s :h y b r i ds y s t e m ,m i c r o a r r a y ,m a s ss p e c t r o m e t r y 独创性声明 学位论文题目:盛i 壅璺垫! 垒壹区违羟王垦竺妇翌 ;险巡丑切 7 本人提交的学位论文是在导师指导下进行的研究工作及取得的研 究成果。论文中引用他人已经发表或出版过的研究成果,文中已加了 特别标注。对本研究及学位论文撰写曾做出贡献的老师、朋友、同仁 在文中作了明确说明并表示衷心感谢。 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院( 筹) 可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:耐不保密, 第一章引言 第一章引言弟一早,i 苗 1 1 基因芯片数据与质谱数据概述 1 1 1 基因芯片与质谱数据分析的意义 基因芯片和质谱技术作为目前最为有效的高通量生物个体与生物系统的分析 方法彻底改变了生物学研究的面貌和生物实验设计与进行的步骤。其中,所谓高 通量分析方法是指在某种分析技术的支持下,实现并行、快速和高效的生物样本 分析。通常,运用这类高通量技术的分析实验能为我们提供海量的生物数据,其 中包括各种与疾病相关的基因、蛋白质和生物代谢通路信息等等。 对这些数据的分析能给我们带来很多好处。首先,选取疾病相关的基因和蛋 白质能帮助我们缩小后续研究的范围,深入分析所定位的基因和蛋白与对应疾病 之间的关系。其次,分析这些基因和蛋白之间的相互作用和其形成的各类生物通 路能使我们更为深入的理解各种疾病的发病机制。再次,准确的样本分类能为我 们提供某一新个体对于某一特定疾病的易感性的评估,从而为对生物体进行基因 诊断打下基础。最后,对疾病数据样本的分类和分析可帮助我们分类和发现各种 疾病的不同亚型等等,从而为设计更有针对性的治疗药物和治疗方案提供指导。 1 1 2 基因芯片简介 在人体中,几乎每个细胞都含有一组完全相同的基因。这组基因由大约3 0 0 0 0 个独立的基因构成【l 】,我们通常称这组基因为人类基因组。类似的,这个概念可以 推广到自然界中所有的生物体。然而,在生命周期的某一时刻,通常只有一部分 基因被启动并且表达。而且,表达组份随不同的个体、不同的组织、不同的器官 和不同环境等因素而变化。这种不同个体之间的基因表达的变化与异同使我们进 行对不同条件下不同个体间的分类与辨别成为可能。然而,要全面确定与这些因 素紧密相关的所有基因,我们必须分析整个基因组在这些不同因素中的表达变化 与对比差异。 基因芯片技术对这种基因表达分析提供了最强有力的支持。这种技术可同时 分析几千以致几万个基因,其基本工作原理是衡量一组给定的m r n a 或c d n a 序 列在芯片模板上的杂交量。下面具体给出其实验原理的步骤。首先需要制备载有 采用荧光染色标记过的目标d n a 的芯片模板。每个目标d n a 都是研究者事先选 西南大学硕士学位论文 取并记录的靶标基因代表,其作用是一旦与之相匹配的基因表达,表达产生的 m r n a 就将与对应的目标d n a 结合。分析的第二步是将一组来自于细胞或组织的 样本序列杂交到先前制备的芯片模板上,杂交随d n a 序列互补地形成双螺旋结构 而发生。第三步是运用荧光染色标记的强弱来确定d n a 样本在每个模板点中的浓 度。每个模板点中杂交浓度的强弱代表着对应的这个基因的表达的强弱。最后一 步是运用激光扫描仪将荧光强度转化为数字并存储到计算机中。其中的数字则代 表对应基因的表达强度。这样待分析的特征基因的表达就被量化为一组计算机中 存储的实数。 基因芯片技术已被成功运用于不同组织、环境下基因表达的对比和量度分析。 在数目众多的运用中,一个关键的基因芯片运用是分析癌症和正常个体的基因表 达差异。这种对比分析通常称作t w o c h a r u l e l 或t 、v o c o l o r 基因芯片分析技术,而其 产生的数据集则称为b i n a r y c l a s s 数据集。图1 1 是这种基因芯片分析的示意图。 当来自于不同个体的同一个基因的表达量相同时,模板芯片上对应的点则被 染色为橙色。而当这一基因的表达量不等同时,模板芯片上对应的点则为绿色或 红色。如果对应的这个基因没有在两个不同个体中表达,则其颜色为黑色( 背景 色) 。这种“疾病”对应“正常? 的基因表达试验已在众多疾病研究中发挥了重要 作用【2 3 ,4 1 。 隰。j 隧| 图1 1t w o c h a n n ei 基因芯片示意图 此外,基因芯片技术也广泛运用于多类比较试验( 称作m u l t i 。c l a s ss t u d y ) 。这 种试验通常用于某种疾病的多种亚型分析【5 ,6 1 。 当激光强度转化为数字数据后,基因芯片数据可以数据矩阵形式表示如下: 2 第一章引言 s o ,z 叫p 1 s n ”z p f e 2 s 0 7 叩f e ,n 图1 2 基因芯片表达矩阵 上图中,矩阵中的每一个基因项通常称为这个基因芯片数据集的数据特征项 ( 称为f e a t u r e 或a t t m u t e ) ,而第一行表示的是每一个基因的i d 。第一列对应于样 本的i d ,而最后一列对应于样本所属的类别。其余部分则对应不同基因在不同样 本中的表达值。在t w o c h a n n e l 基因芯片分析中,最后一列通常可用布尔值表示( t r u e , f a l s e ) 。而在m u l t i c l a s s 分析中,最后一列通常用实数表示。 1 1 3 质谱简介 相似地,随着近几年来高通量蛋白组学的各种技术的长足发展,我们对组织 与个体的分类与辨别也可用基于质谱( m a s ss p e c t r o m e t r y m s ) 仪的蛋白表达分 析而实现。这种方法作为基因芯片的补充和扩展正逐渐受到重视并被广泛运用1 7 戤 9 1 。 蛋白质是承担生物体内实际功能的生物大分子,因此这类试验不但能为我们 提供更多对基因芯片分析的补充数据,而且也赋予了我们进行更直观的细胞和生 物表形( p h e n o t y p e ) 的分析能力。 用于这种质谱分析的技术主要是基于m a t r i x a s s i s t e d 或s u 哟c e e n l l a n c e d l a s e rd e s o r p t i o n i o n i z a t i o n ( s e l d i ) 的t i m e o f - f l i 曲t ( t o f ) 质谱分析技术,通常简称 为s e l d i t o fm s 。其基本实验流程如下图( 图】3 ) 所示。实验的第一步是对生 物体进行血清或血样提取,并将提取的血样中的蛋白通过双向电泳进行分离。第 二步中,将分离后的各个蛋白点从电泳胶中取出并将各个蛋白质序列进行打碎。 接下来将打碎后的肽段用质谱仪进行质量确定并同时确定其表达强度。最后将得 到的不同质量的肽段进行蛋白质数据库搜索以确定其所属蛋白。 s 泔谢 谢 鲋凡& & 0 口 0 c “ 以 圮 n 付 m棚嘞; 仇影。 p m 2 2 泣概篡; ( 1胍h 组;m 夭t t p 西南大学硕士学位论文 耕o i 割随蓦凌嚣范 蝌磬l 船蝴鞫杈t 粼 d l 壳嚣纨l 嚣k 萝旗 m ) 粥# s 辩骥肇g n f 黔勰豁器鼯翱 硝l 辙辅黼辫粥铲 e l 到皴黼f 心l l 斟f 鬻辑树 , 解黼抟 7 粕r “r j 鞲;磐 蛋 s e q u 蛳c e 如b d s e 虢酾霸黼 謦 够 热 喀镑铬鳓鬻黪痨爨学豳醪 “ 4 争蔷 e 涝 睡 芦 象:篡露扣 ,。嚣茬貂魏 翥缸f 嬲辩霉鞘 嚣 u n 踟n t 桶e dp f o c e j n e 譬t r 谢:艟df mg e l 印翰t n l df t a g r 能n 拓 o f s 1 0 羽m l n o a c k l ! s d e 豫t 1 l n en 协船 u s i 叼嬲脚晤锚 s p e c t l o m e 计 0 e 囊e r m 蜘ea m i n o a c l ds e q u e n e ea n i d c o 盯i p a f ew t 耋hs e q u e n c 謦d d 妇b 檄 图1 3 基于质谱仪的蛋白分析与量化示意图 这种质谱仪生成的数据集通常称为质核比数据。如图1 4 所示,类似于基因芯 片数据,s e l d i t o fm s 数据也同样由从几千至几万个的m a s s c h a r g e ( 州z ) r a t i o s 特征项组成10 1 ,样本量大约在几十到几百。每个州z 值( 称为i n t e n s 时) 反映与之 对应质量的肽链在所分析的组织或个体中的丰富程度【l l 】。 1 1 1 。;:l n ? :2 s n 7 7 妒把l z 1 lz 1 2 s o 仃印f e 2嘞 2 2 s a m 扰e ”。 m 12 图1 4 质谱数据矩阵 e 2 盘s s c f o s s t d c f n s s i d c f o s s t d 容易发现,虽然质谱数据和基因芯片数据的生物意义不同,但两者的数据结 构十分的相似。在后面章节中,我们将看到同样的数据挖掘和分析方法,只要稍 加修改,便可运用于这两类数据的分析。 4 肛h凯帆 m 7 7 z 7 第一章引言 1 2 高通量数据对数据分析带来的挑战 类似于基因芯片和高通量质谱仪这样的高通量技术的运用引发了生物数据的 指数性增长。生物数据的飞速增长给我们提供了阐释生命体生长变化的丰富信息, 但同时也对我们进行数据分析的各方面能力提出了更高的要求。促使我们寻找和 创造更为有效的统计学分析方法和数据分析算法。 对于基因芯片和高通量质谱数据,其数据分析的难点根源于这类数据本生所 固有的性质和特征。通常,高通量实验产生的基因芯片数据和质谱数据呈矩阵形, 这种矩阵形数据普遍含有大量的特征项,而与之相对应的数据样本量则非常小。 目前,a 衄m e t r i x 公司生产的基因芯片( g e n e c h i p ) 可容纳多于1 ,0 0 0 ,0 0 0 独立的 核苷酸探针,使我们能同时观测和分析3 3 ,0 0 0 个基因的表达量【l3 | 。基于质谱的 s e l d i t o fm s 数据也具有类似的属性。对于一个样本,质谱数据集中通常含有 大约2 0 ,o o o 个与之对应的毗特征项【1 4 】。而这两种数据的样本量则一般只有几十 到几百左右。这类数据的数据特征导致的分析困难被称作“c u r s e o f - d i m e n s i o n a l i t y ” 和“c u r s e o f - d a t a s e ts p a r s i t y ”【忆j 。在分析中最大的问题就是如何选取最为相关的数 据特征项并运用数据中有限的样本生成一个样本分类的准确模型。此外,基因芯 片和高通量质谱数据通常都含有大量的数据“噪音”和冗余项。如果不将数据集 中的这些数据噪音和冗余项去除掉,运用这样的数据集生成的样本分类模型的准 确度将会受到很大的影响。最后,生命体中的基因和蛋白很少独立工作,而是共 同作用以行使生物功能。也就是说,基因与蛋白通常形成一个功能团体或生物通 路( b i o l o g i c a lp a t h w a y ) 以行使一系列生物功能。这种基因与基因和蛋白与蛋白之 间的相互作用的特征使得对它们分析而产生的数据呈非线性关系。也就是说,数 据特征项问往往蕴含相互关联、相互交错的关系。因此,分析这两类数据时,采 用独立对待每个基因或蛋白的方法是不充分的,而考虑其数据项之问的相互关联 与作用的分析方法才是更为准确和完善的分析方法。, 对这类矩阵数据进行分析的第一步是运用适当的数据前期处理方法,包括数 据标准化处理和数据转换处理等等。这些步骤都是极为复杂和繁琐的,然而这些 处理的成功与否直接关系到最终分析结果的成功与否。目前数据前期处理与归依 化操作仍然是这类数据分析研究的热点之一bj 。除此之外,数据的“噪音”和缺 失项也需要特别的处理策略。处理这类数据的关键步骤是如何选取和疾病相关的 基因、蛋白以及它们所组成的生物通路并对数据实现准确的分类。 曲南人学硕士学位论文 1 3 论文的研究内容及贡献 目前,对基因芯片数据和质谱数据的分析方法可粗略地分为三类。首先是经 典的基于传统概率与数理统计的分析方法。这些方法中又包括基于不同统计公式 的数据特征选取方法,如卡方检验( z 2 s t a t i s t i c ) 、f 检验( ,s t a t i s t i c ) 和信息增量 ( i n f o 舯a t i o ng a i n ) 等等。这类算法通常称为f i l t e r 型特征选取算法,因为其工作 过程就是通过对数据集进行某种数据分布假设,并“过滤出其中最能区分数据 中不同类别样本的特征项。通常这类特征选取算法和分类算法的工作过程是相互 独立的。第二类方法是运用进几十年逐渐方展起来的机器学习算法进行数据分析。 其中包括各种进化型智能算法和各种样本分类算法。这类算法通常被称作a p p e r 型算法,因为在数据特征选取时包含运用样本分类算法进行数据样本分类的过程。 最后一类则是对上述两类算法进行组合的混合型算法。这类分析方法主要研究以 什么策略对各种算法进行组合以取长补短。目的是通过合理的组合策略以形成更 为有效和更为稳定的分析算法。 对于上述分类中的第一、二类分析方法,经过近十年的研究和发展,已有相 当数量的原来运用于其它领域的各种数据挖掘算法、特征提取算法和许多直接针 对基因芯片数据和质谱数据而设计的分析方法被运用到解决基因芯片和质谱数据 分析的各种问题中。遗憾的是,到目前为止没有任何一种分析方法被验证是最为 有效的。相反,不同方法在不同条件下对不同数据集进行分析时通常表现出不稳 定性。对于这种现象,许多研究者运用大量数据集对各种不同方法进行了许多系 统的全面的对比实验【6 8 ,8 1 ,8 2 ,8 3 1 。但是真正对各种方法进行混合以取长补短的研究 还处于起步阶段。虽然已有许多文章提出了一些对不同算法进行组合的方式,但 多数混合模型都还不是十分完善。其中,运用遗传算法或与之类似的进化算法与 不同分类算法组合以进行基因芯片和质谱数据分析的文章就有许多。但由于基因 芯片数据和质谱数据都具有大量的特征项而其样本量则十分有限,而这种只依靠 某中f i l t e r 算法和某一特定分类算法的特征选取和样本分类混合算法通常很难在可 接受的时问内和可接受的计算量上找到和数据本质特征相关的特征项。就算在分 析结果中存在真正与所分析的特征或疾病相关的特征项,由于这种混合策略过于 依赖于某一种特定的分类算法对数据特征进行选取,其所选择的特征项结果一般 都还含有大量的冗余和无关项,所以并不能保证其分析结果的有效性。 针对于上述问题,我们借鉴这个领域的相关工作和方法,首先提出一种基于 多目标遗传算法与联盟分类算法的混合模型以解决基因芯片数据分析中的特征基 因选取问题和数据样本分类问题。我们运用多个分类算法作为多目标遗传算法的 多个适应度函数,通过综合不同的评价结果对特征基因进行选取。这种方法的优 6 第一章引言 点在于所选择的特征基因不是只有在和某种特定样本分类算法组合时才能表现出 较好的样本分类效果,而是与任何分类算法组合时都能有较好的样本分类效果。 这使得所选择的特征基因在分析未见的新数据样本时具有更好的拓展性。从其生 物学含义上来讲,这些特征基因与所分析的数据样本表型( p h o n e t y p e ) 或某种特 定疾病之间通常有更高的相关性。这就为接下来的进行步生物分析提供的指导。 接下来,我们在提出的基于多目标遗传算法与联盟分类器的混合算法的基础 上,尝试对这个混合算法进行进一步组合。在分析步骤上,我们将基于传统的概 率统计学分析方法和提出的多目标遗传算法与联盟分类器的混合算法用肛m e a n 聚 类算法予以联合。这样做的目的是将通过n l t e r 算法预分析后的结果进行特征提取 和降噪、降冗余处理,以适应接下来的多目标遗传算法与联盟分类器算法的混合 模型处理。通过整合红m e a n 聚类算法,我们能降低接下来的m a p p e r 型混合算法 的处理时间,并为其提供一个低冗余的分类信息丰富的预处理数据集。我们将上 述混合方法运用于质谱数据的特征选取和样本分类,并在实验中验证其在选取于 所分析疾病相关的i i l z 生物标记和其所代表的生物代谢通路上的有效性。 1 4 论文的组织结构 本论文共分六章,具体如下: 第一章为全文的引言部分,主要对论文讨论的研究背景和研究对象进行介绍, 并概述论文的贡献及结构。 第二章对文章中后面章节中所要提到和运用的各种数据分析算法和理论进行 简单介绍。目的是使后面章节的问题陈述更为简明。 在第三章中,我们对基因芯片和质谱数据分析这一领域中的相关工作进行回 顾。其中包括基于传统的概率统计学分析方法、基于机器学习的分析方法和各种 混合型分析方法。 第四章中,我们提出一种多目标遗传算法与联盟分类算法的混合模型,并将其 运用于基因芯片数据分析。具体包括混合系统的提出与构建、实验设计和结果分 析等内容。 第五章中,在分析步骤上,我们将第四章中提出的多目标遗传算法混合模型与 传统概率统计学分析方法通过肛m e a n 聚类算法进行进一步联合,并运用于质谱数 据分析。在实验部分,我们对这种组合方式的有效性进行验证,并对分析结果进 行讨论。 第六章是对全文的总结与对未来工作的展望。在这章中,我们对文章中提出的 方法的不足之处进行讨论,并提出进一步研究的方向和待解决的问题。 7 砖南大学硕十学位论文 第二章相关理论 在本章中,我们首先对机器学习这一概念进行简要概述。然后对用于数据特 征选取和样本分类的主要算法进行较为详细的介绍。最后再对普遍用于分析结果 检验与评价的交叉检验算法进行介绍。本章的目的是为后面章节中将用到的各类 特征选取算法和分类算法提供理论铺垫,使后面章节的问题陈述更为简明。 2 1 机器学习概述 机器学习是指运用计算机提取数据的特征、模拟数据的模式,并用提取的这 种特征对新数据进行有效的分类或处理。形象的比喻来说,就是使计算机依靠对 训练数据的不断“学习”和总结“经验”自动的提高自己对新数据的判断和分析 能力【1 6 】。当计算机通过适当的训练算法和训练数据“训练”后,其能掌握数据的 模式和规律,并能对未来输入的具有同种模式的数据进行准确的分类。这个过程 通常被称为模式匹配或数据挖掘【1 7 】。用于模式匹配的算法可被粗略地分类为基于 人工智能、基因信息理论和基于概率统计学的方法。然而,这种分类从某种程度 上来说是较为任意和主观的,因为这些领域通常相互包含、相互融合,而机器学 习方法则吸取了各个领域的内容。 另一种更为常见和实用的分类方法是将这类算法分成指导性学习( s u p e i s e d l e a m i n g ) 算法和非指导性学习( u n s u p e r v i s e dl e a m i n g ) 算法。在使用指导性学习 算法进行数据学习分析时,进行训练的数据通常呈现为这样的模式: ( x ,m ) ,( x 。,此) ) ,其中,x 1 至砀是数据中的力个样本向量,并且每个样本数据 的所属类别是已知的。算法训练的目标是通过对训练数据的学习,识别一个未知 的函数( 或叫做模式) y = 厂( x ,) ,使其能对样本进行正确的分类。对于非指导性 学习算法,每个样本的所属类别不给出或由于各种原因不能提供。此时学习的目 标是将“相似 的样本进行聚类。样本的相似性可用多种方式定义,常见的有欧 几里得距离( e u c l i d e a nd i s t a n c e ) 、样本相关度( c o e m c i e n t ) 等。 在基因芯片数据和质谱数据分析中,机器学习和数据挖掘算法可被运用于提 取不同生物样本的模式和信息中。这能为我们提供关于疾病形成机制的信息,帮 助我们更全面的掌握导致发病的代谢通路。 下面我们对机器学习中运用到的主要算法和策略进行简要介绍。 第二章相关理论 2 2 特征选取 在分类中的一个关键性问题是如何选取最为关键的分类特征( f e a t u r e ) 。进行 特征选取的原因很多。下面结合其在生物数据分析中的运用作简要介绍。( a ) 进 行特征选取能有效减小数据的复杂度,从而降低其计算量和计算时间。这一点在 生物数据的分析中尤为重要。在基因芯片和质谱数据中,每个基因和r i l z 标记都 被作为一个数据特征,而数据中的特征项通常多达几千至几万,特征选取能有效 提高算法对数据的分析速度。( b ) 进行特征选取能降低数据中的冗余和数据噪音。 这样有助于提高分类模型的准确度。( c ) 当样本量与特征项的比值增大时,其生 成的分类模型的通用性相应提蒯1 7 j 。这样,训练后得到的分类模型在未来新数据 样本的分类中能具有更高的分类准确度。( d ) 最后,减小数据中的特征项能帮助 研究人员定位和疾病最为相关的基因或蛋白,为以后进一步的生物试验分析提供 导向。 由于特征选取在生物数据分析中的重要性和其潜在的巨大回报,许多特征选 取算法被相继提出。尽管这些算法彼此有或大或小的差异,我们可大体将它们分 为以下三类: f i l t e r 方法:这类特征选取算法不直接优化所选取的特征项对于所给分类算 法的分类准确度,而是依靠一些其它数据评估标准对数据特征进行选取。 这种特征选取算法和分类算法相互分离的形式使得对数据的特征选取和 样本分类分离为两个独立的步骤。一类广受关注的选取标准是运用m u t u a l i n f o m a t i o n ( m i ) 【1 8 ,1 9 ,2 0 ,2 。r e i i e 币也是一种常用的f i l t e r 算法【2 2 ,2 3 1 。另 一大类f i l t e r 特征选取算法运用传统的概率与统计方法并加以适当改进。 例如:,s t a t i s t i c 【3 】,z 2 s t a t i s t i c 【2 4 1 ,i n f o m a t i o ng a i n 【2 5 】等等。 w r a p p e r 方法:w r a p p e r 方法运用某一特征项或某一特征项组合在所给分类 算法中的分类效果来对这些数据特征项进行评估【2 6 | 。能有效提高所给分类 算法分类效果的特征项被视为“关键”项。不同于f i l t e r 方法,这种特征 选取方式将分类算法的分类准确度用作评价特征项的标准。因此,特征选 取和分类在很大程度上相互耦合。传统的m a p p e r 算法包括前向式选取法 和后向式选取法【2 7 】。更为精密和复杂的算法则是运用进化算法( e s ) 【2 8 】 和遗传算法( g a ) 【2 9 ,3 0 ,3 1 】等。 e m b e d d e d 方法:第三类特征选取算法通常称作“嵌入式”( e m b e d d e d ) 选 取算法。这类算法运用分类算法本身作为特征选取和分类器。这样分类算 法同时一兼两职,在分类数据的同时进行特征选取1 32 ,3 3 j 。这类算法的例子 包括i d 3 【3 4 1 、c 4 5 【3 5 1 等。但由于这类算法通常选取的特征只是适应与特定 9 西南人学硕十学位论文 分类算法本身,所选特征项没有前述两种算法的扩展性强,因此没不如前 述两类算法的运用广泛。 图2 1 给出了三类特征选取方法的示意图。 ( a ) f i t e r 方法( b ) w r a p p e r 方法( c ) e m b e d d e d 方法 图2 1 三类特征选取算法。 与w r a p p e r 类方法相比,f i l t e r 算法的速度通常比较快、可扩增性较强。然而, f i l t e r 算法也有许多不足之处。首先,f i l t e r 算法通常是确定式算法。这就意味着当 进行特征选取时,只能有一组固定的选取结果。然而,数据中也许存在其它的更 能有效提高分类算法准确度的特征组合。其次,这类算法通常忽略数据特征之间 的相关性,同时也忽略所选特征对于提高分类算法准确度的有用性【1 4 2 6 j 。然而, 分类算法的分类结果实际上可被用作重要的数据特征选取信息。忽略这些有用信 息对于数据特征选取是很大的损失。最后,f i l t e r 类特征选取算法选取的数据特征 之间通常具有很高的相关性( c o r r e l a t i o n ) 【3 6 】。因此,容易导致冗余数据和数据噪 音被带入到分类过程中,从而造成数据分类准确度下降、计算复杂性增加。 对于w r a p p e r 类特征选取算法,其优点在于选取的特征通常更能反映生物数据 的表形( p h e n o t y p e ) 。另外,这类算法在选取数据特征时与分类算法进行交互,从 而选取的数据特征更能有效提高分类准确度。然而,也正因为这种数据特征选取 与分类算法相关的特点使得这类算法可能生成过度匹配训练数据集的模型,而在 对测试数据分类时得到较差的分类结果。这一现象被称作“o v e rf i t t i n g i l4 。 值得注意的是,由于计算复杂度小,很多基于概率与数里统计的特征选取方法 可被用于数据前期处理。在许多基因芯片和质谱数据分析的试验中,这类基于概 率与数理统计的算法常被用于数据预处理以降低数据集的复杂度和冗余成分等 等。 2 3 分类算法 l o 分类算法的本质是一个模式匹配的函数。经过对训练数据的学习,分类算法 第二章相关理论 按照一定的方法估计其匹配函数的各个参数并最终生成一个适应于训练数据集的 固定参数的函数模型。这个模型可用于对新的未知样本的估计和分类。目前被广 泛运用与模式匹配的分类算法的种类十分繁多,下面我们根据本文中用到的分类 算法对决策树、支持向量机、人工神经网络、尼近邻算法、朴素贝叶斯算法和逻辑 回归算法进行简要介绍。 2 3 1 决策树 决策树是一类较早被运用到生物数据分类中的算法。虽然其分类效果和后来 出现的支持向量机算法等相比较低,但其快速高效的特点和其生成模型易于转换 为分类规则的特点使其长期被广泛运用在数据分类领域。决策树算法依靠选取数 据划分特征项对数据进行分类。生成的树型模型中每个内部节点作为数据样本的 测试点,而每条路径对应于其中的节点可能取的一个值。树的叶节点对应样本可 能属于的类别。最为常用的决策树算法有i d 3 【3 4 】和c 4 5 【”】。图2 2 是一个运用蛋 白质表达量对肿瘤和正常样本进行分类的决策树例子。 誉鬻。糍i 篱 澳啁攀 正常 低表达 图2 2 运用蛋白质表达量对肿瘤和正常样本进行分类的决策树 2 3 2 支持向量机 支持向量机是一类基于内核的算法。它于1 9 9 2 年被引入【3 7 3 8 1 ,并在此之后被 广泛的运用到许多模式识别和分类的问题中。支持向量机通过扩大分类的决策边 界来寻找一种最佳的分类方式。用二项分类问题作为例子,如图2 3 ,对支持向量 机生成模型优化的过程就是通过训练而寻找一个最大化的决策边界,? 。 两南火学硕+ 学位论文 图2 3 支持向量机算法用于生成二项分类模型 对于不可线性划分的数据,我们可采用非线性的分类内核将数据投射到一个 可将数据线性划分的高维空间( 图2 4 ) 。这种通过投射来划分本来不可线性分离 的数据特点使支持向量机对处理带有噪音的数据时显现出耐噪性和健壮性。 f ( ) _ _ _ 输入空间变换空间 图2 4 通过函数映射将线性不可分数据投放到一个线性可分的高维空间的例子 当运用支持向量机进行数据分类时的一个显著问题是其通常只能运用于二项 分类问题。虽然一对多( o v a ) 和一对一( o v o ) 的组合方法解决了支持向量机 的多类分类问题,但其计算复杂度通常是二项分类的许多倍,这使得其分类速度 十分缓慢。 2 3 3 人工神经网络 人工神经网络( a n n ) 作为机器学习中的一类经典算法被广泛运用于生物数 据的分析中。在众多神经网络算法中后向传播学习型算法最为常用【3 9 】。基于文章 【4 0 1 ,后向传播学习算法可以表示如下: 1 2 帚一早彳日天埋化 旷旷口篆q 其中口代表学习速率,e 2 代表学习过程中的误差的平方,q 表示从彳神经元到b 神经元的输出值。其中: 篆_ 2 瞅厶) 舢t h e 。u t p u t n e u r o n 篆= 篆饥,舳拙u r o n 2 3 4 七近邻算法 尼近邻算法通常通过计算样本之间的相似度以对数据中的样本进行分类。当我 们取定一个尼值时,一个新样本的分类取决于七个与之相似的样本中多数样本所属 的类别。通常尼值取较小的奇数值时( 如3 和5 等) 能得到较好的分类结果【4 。 样本之间的相似度可以定义为欧几里德距离、曼哈顿距离或皮尔森相关度等等。 以计算样本的欧几里德距离作为例子,假设每个样本具有门个特征项,其中某一 样本可表示为x : 。这样,两个样本之间的欧几里德距离可 运用下面的公式计算得到: d ( ,t ) = 这个算式的值越小,表示两个样本之间的相似度越高。在训练过程中,后近邻 算法实际上将所有计算得到的样本之间的距离存储起来,因此其学习速度是相当 快的。 2 3 5 朴素贝叶斯 贝叶斯分类算法是一类基于概率统计学的分类算法【4 9 】。其实现分类的原理是 通过对数据的分布统计而得到一种对未来新数据的估计概率方程,这个方程运用 学习过程中掌握的某一表现形态的数据样本出现在某一所属类的概率来预测新数 据样本属于这一类别的概率。对于一个新样本,类别中具有最大分布概率的一类 则作为这个新样本的所属类。这一推算过程可用概率公式描述如下: 1 3 矿南入。孑:帧十字何论文 三 】,卜m a x ( p ( 】,= 儿) i1 尸( 乃( x ) i 】,= y 七) ) - ,= l 其中尸( 】,= 儿) 和p ( 厂( x ) ll ,= 几) 都为训练过程中得到的数据分布的估计值。当需 要对一个新的样本: 进行分类时,只用将其每一特征项的 值填入上述公式。得到的y 值就时这个新样本最可能所属的数据类别。 2 3 6 逻辑回归 逻辑回归算法可被视为间于函数型分类算法和概率型分类算法之间的一类分 类算法。回归型算法通过学习训练数据来估计分类函数的一组参数。比如在线性 回归分类算法中,算法通过学习训练数据集来估计分类函数少= + q 五+ + 巳 中的参数c o ,q ,巳。而对于逻辑回归分类算法,我们估计的则是一条曲线方程组 的一组参数。这个方程组可描述如下【4 8 】: 其中: p ( 】厂= 1i 石( x ) ) = 1 1 + e x p ( c 。+ q z ( x ) ) ,= o e x p ( + c ,z ( x ) ) p ( 】厂= oi 石( x ) z ( x ) ) = 上巴一 l + e x p (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论