已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
型型坠- = 一l 剃l 燃剃 摘要 一一一 茎徽人学硕士学位论文 基于非负矩阵分解的癌症基冈表达谱数据的特征提取 a b s t r a c t a san e wt e c h n o l o g y , d n am i c r o a r r a yt e c h n o l o g yi sb e c o m i n ga ne f f e c t i v e w a yt o a n a l y z ec a n c e l g e n ee x p r e s s i o nd a t a m o r ea n dm o 他c a n c e re x p e r t sa r eu s i n gt h i st e c h n o l o g yt o a n a l y z et h ed i f f e r e n c eo fg e n ee x p r e s s i o nb e t w e e nn o r m a lt i s s u e sa n dc a n c e rt i s s u e s h o w e v e r , l a r g ed i m e n s i o na n ds m a l ls a m p l es i z ea r et w on o t a b l ef e a t u r e so fg e n ee x p r e s s i o nd a t a e a c h s a m p l er e c o r d se x r r e s s i o nl e v e lo fa l lm e a s u r a b l eg e n e si nt i s s u ec e l l s b u tm o s to ft h eg e n e sh a v e n o t h i n gt od ow i t hs a m p l ec a t e g o r i e sa n dt h u sh a v en oi n f o r m a t i o no fs a m p l ec a t e g o r i e s t h e s e n o i s eg e n e sc a nr e d u c et h ea c c u r a c yo fg e n ec l a s s i f i c a t i o n a sar e s u l t ,i ti sn e c e s s a r yt oe x t r a c t s t r u c t u r ea n df u n c t i o n a l i t ya b o u tg e n ef r o me x p e r i m e n t a ld a t ai no r d e rt of i n d g e n e st h a ta r e f u n c t i o n a l l yr e l a t e dt oe a c ho t h e ra n dd e l e t en o i s eg e n e s h o wt o e f f e c t i v e l ye x t r a c tg e n e c h a r a c t e r i s t i c sa n dl o w e rt h ed i m e n s i o no fg e n ee x p r e s s i o nd a t ai sk e yt ot h er e s e a r c ho f c a n c e r g e n ec l a s s i f i c a t i o n n o n - n e g a t i v em a t r i xf a c t o r i z a t i o nt h e o r yi su s e db yt h i st h e s i st oe x t r a c t f e a t u r e so fg e n ee x p r e s s i o nd a t aa n dc l a s s i f i c a t i o nb yc l a s s i f i e ri sa p p l i e dt ov a l i d a t et h ef e a s i b i l i t y a n de f f e c t i v e n e s so ft h i sa l g o r i t h m d e t a i lr e s e a r c hc o n t e n t sa n de x p e r i m e n t a lr e s u l t sa r ea s f o l l o w s : 1 af e a t u r ee x t r a c t i o na l g o r i t h mb a s e do nn o n n e g a t i v em a t r i xf a c t o r i z a t i o ni sp r o p o s e d t h e b a s i ci d e ao fn o n - n e g a t i v em a t r i xf a c t o r i z a t i o ni s r e f l e c t i n gt h ep o t e n t i a ls t r u c t u r eo fd a t ab y d e c o m p o s i n go n en o n n e g a t i v em a t r i xi n t ot h em u l t i p l i c a t i o no ft w o f i r s t l y , t h eg e n ee x p r e s s i o nd a t ai sf i l t e r e d s e c o n d l y , n o n - n e g a t i v em a t r i xi sc o n s t r u c t e da n d d e c o m p o s e di no r d e rt og e ts m a l ld i m e n s i o nv e c t o r st h a tc a nf u l l yc h a r a c t e r i z et h es a m p l e l a s t l y , s u p p o r tv e c t o rm a c h i n ei su s e dt oc a t e g o r i z et h ev e c t o r s e x p e r i m e n t a lr e s u l t sv a l i d a t et h e f e a s i b i l i t ya n de f f e c t i v e n e s so f t h i sa l g o r i t h m 2 af e a t u r ee x t r a c t i o na l g o r i t h mb a s e do nl o c a ln o n - n e g a t i v em a t r i xf a c t o r i z a t i o ni sp r o p o s e d a l s ob a s e do nn o n - n e g a t i v em a t r i xf a c t o r i z a t i o n ,t h i sa l g o r i t h mw o r k sb yr e s t r i c t i n gt h ei t e r a t i o n c o n d i t i o ni nt h r e ea s p e c t s f i r s t l y , t h eg e n ee x p r e s s i o nd a t ai sf i l t e r e d s e c o n d l y , l o c a ln o n - n e g a t i v em a t r i xi s c o n s t r u c t e da n dd e c o m p o s e di no r d e rt og e ts m a l ld i m e n s i o nv e c t o r st h a tc a nf u l l yc h a r a c t e r i z et h e s a m p l e l a s t l y , s u p p o r tv e c t o rm a c h i n ei su s e dt oc a t e g o r i z et h ev e c t o r s e x p e r i m e n t a lr e s u l t s v a l i d a t et h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h i sa l g o r i t h m i i 3 af e a t u r ee x t r a c t i o na l g o r i t h mb a s e do ns p a r s en o n - n e g a t i v em a t r i xf a c t o r i z a t i o ni s p r o p o s e d i ti s ak i n do fn o n - n e g a t i v em a t r i xf a c t o r i z a t i o na l g o r i t h mt h a ta d d ss p a r s e n e s s c o n s t r a i n t st oc o e f f i c i e n tm a t r i x c o m p a r e dw i t ht r a d i t i o n a ln o n - n e g a t i v em a t r i xf a c t o r i z a f i o m e t h o d i tc a nf i n ds t a b l ea n di n t u i t i o n i s t i cl o c a lf e a t u r e sb e t t e r a tt h es a m et i m e ,i tc a nf r e e l y c o n t r o ls p a r s e n e s so fm a t r i xa f t e rf a c t o r i z a t i o n t h ef e a t u r e so ft h i sa l g o r i t h ma r ef a s tc o n v e r g e n c e , l o wc o r r e l a t i o no f b a s em a t r i xa n dc o e f f i c i e n tm a t r i xa n ds oo n f i r s t l y , 。t h eg e n ee x p r e s s i o nd a t a i sf i l t e r e d s e c o n d l y , 。s p a r s en o i i - n e g a t i v em a t i xi s c o n s t r u c t e da n dd e c o m p o s e di no r d e rt og e ts m a l ld i m e n s i o nv e c t o r st h a tc a nf u l l yc h a r a c t e r i z et h e s a m p l e l a s t l y , s u p p o r tv e c t o rm a c h m ei su s e dt oc a t e g o r i z et h ev e c t o r s e x p e r i m e n t a lr e s u l t s v a l i d a t et h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h i sa l g o r i t h m k e y w o r d s :e x t r a c tf e a t u r e s ;g e n ee x p r e s s i o nd a t a ;n o n - n e g a t i v em a t r i xf a c t o r i z a t i o n ; l o c a ln o n - n e g a t i v em a t r i xf a c t o r i z a t i o n ;s p a r s en o n - n e g a t i v em a t r i xf a c t o r i z a t i o n i i i 安徽大学硕士学位论文 绪论 1 1 生物信息学理论 第一章绪论 1 1 1 生物信息学理论的发展 生物信息学【l 】是建立在生物学、计算机科学、数学、化学、物理学等多学科 基础之上的科学,它具有坚实的理论基础和广泛的应用前景,其研究的重点主要 体现在基因组学和蛋白质组学两方面,具体来说就是从核酸和蛋白质序列出发, 分析序列中表达的结构功能的生物信息。2 0 世纪8 0 年代初,生物信息学的概念 由华裔博士林华安提出,这使得他冠得了“生物信息学之父 的美誉。生物信息 学的概念自提出至今,运用计算机技术与生物技术相结合的手段推动了生物信息 学取得迅猛发展,许多科学家用生物信息学对未知病毒进行研究,可在很短的时 间内查明病毒的结构,如今生物信息学已经成为医学,农学等学科发展的巨大推 动力。 2 0 世纪6 0 - 7 0 年代是生物信息学的萌芽期。以d a y h o f f 的替换矩阵和 n e e l l e m a n w u n s c h 算法为代表,它们实际上组成了生物信息学的一个最基本的 内容和思路:序列比较,它们的出现代表了生物信息学的诞生,虽然“生物信息 学 一词很晚才出现。在生物信息学发展的初期,许多基础问题都困扰着生物学 家,因而限制了生物信息学的发展。实际上,这些基础问题的解决依赖计算方法 与计算工具的发展,因此生物信息学对计算方法与计算工具提出了挑战。这个时 期许多关键思想与技术相继出现,如第一个序列比对算法、蛋白质序列螺旋结构 的提出等等。到7 0 年代中期,生物学的许多领域获得了可喜的成绩,比如分子 进化过程、二级和三级蛋白质结构分析等。7 0 年代后期,计算机存储系统有了 很大的提升,更多的算法也被相继提出,这也方便了蛋白质序列和结构的存储和 分发。 2 0 世纪8 0 年代是生物信息学的形成期。这个时期计算机生物学正发展成为 一门独立的学科,这一时期开发出了许多高效的算法以应对信息的急剧膨胀,有 关计算生物学方面的文献大量涌现,如,序列分析、分子数据库、蛋白质结构预 测、分子进化等。在这一阶段,生物信息学作为一个新兴的学科已经形成,并确 安徽大学硕十学位论文基于非负矩阵分解的癌症基因表达谱数据的特征提取 立了自身学科的特征和地位。 2 0 世纪9 0 年代至今是生物信息学的高速发展时期,以基因组测序与分析为 代表,计算工具和生物科学技术有了飞跃发展。第一个复杂的基因预测软件成功 开发出来、蛋白质二级结构预测算法得到广泛使用、震撼世界的人类基因组计划 也已完成、功能基因组和蛋白质组的大量数据开始涌现。同时,生物芯片技术得 到了飞速发展,每次芯片实验都产出海量数据,数据库所存储的数据正以指数级 。速度增长,如果不对其进行处理就不会产生科学成果和经济价值。这意味着基因 组信息学时代来临,人类基因组的研究全面进入信息提取和数据分析阶段。 1 1 2 生物信息学的应用 新药的研剔2 】是一项高科技密集的大工程,光靠经验、化学方法和药理方法 进行药物研发是远远不够的,虽然靠传统方法产生了许多用于疾病治疗和预防药 品,传统药物的研制周期很长,而且耗资巨大。生物信息学的出现,为新药的研 制提供了一条崭新的途径,利用基因芯片技术可以有效地筛选药物的有效成分, 还可以分析用药前后的疾病细胞的基因表达差异。现代药物的开发将是基于信息 知识挖掘的过程,首先通过计算机进行合理的药物设计,了解药物分子和靶点相 互作用的情况,进行蛋白质结构计算,再利用计算机进行药物分子的结构预测, 最后进行实验和临床试验。这将使得新药的研制速度大大提高,成本大大降低, 利用生物信息学进行药物研究有着巨大的应用价值。 在与动植物良种繁育相关的基因数据库的建立上,生物信息学扮演重要的角 色。水稻基因工作框架图【3 】是迄今测定的最大的植物基因组,水稻与民生密切相 关,科学家可以根据测序得到的序列对水稻的产量、抗病虫害的性状,培育更加 优良的品种。随着各种生物基因组的破解,在建立的各种数据库中根据不同物种 间的进化距离和功能基因的同源性,就可以很容易就能找到与经济效益相关的家 畜、经济作物的基因,进而对它们进行优良改造。 肿瘤的基因表达谱数据挖掘【4 】也是生物信息学研究的一个重要内容,对其 进行深入研究有助于掌握完整的人类疾病相关基因组的结构和功能信息。从正常 人的基因中分离出d n a 与基因芯片进行杂交得到标准的基因表达谱,从患者的 基因中分离出d n a 与基因芯片进行杂交得到病变的基因表达谱,对这两种基因 2 安徽大学硕士学位论文 绪论 表达谱进行分析便可以得出病变的基因信息,通过基因表达谱对肿瘤的成功诊断 的实例表明,利用基因表达谱对肿瘤进行诊断将会大大增强临床治疗肿瘤的有效 性,基因表达谱数据挖掘可以帮助人们发现新的疾病亚型,提高复杂疾病诊断的 正确率。当人类全部基因的序列特征破解以后,医学家就可以根据基因来预测疾 病的发生发展,从而使人的寿命延长。 总的来说,生物信息学的发展具有美好的未来,前人的探索研究把我们带到 了一个全新的领域,在过去的十多年罩取得了丰硕的研究成果,继人类基因组测 序计划完成以后,生物信息学进入了后基因组时代,计算分子生物学的诞生更促 使了生物信息学的迅猛发展,在人类科研的道路中,更需生物信息学发挥效用。 1 2 基因表达谱 1 2 1 基因表达谱的获取与特点 基因芯片【5 】又称d n a 芯片,它的基本工作原理是利用碱基对之间的互补杂 交性能,通过对两个互补的d n a 分子杂交信号的监测来获取待测生物样本的基 因表达丰度。 在基于基因芯片的实验中,选取不同状态的样本,如正常样本和非正常样本, 其中一种为实验样本,另一种为参考样本。实验样本用红色荧光素( c y 5 ) 标记, 参考样本用绿荧光素( c y 3 ) 标记,然后将它们按照l :l 的比例混合与微阵列上 的探针序列进行杂交,用激光扫描杂交后的微阵列,获取对应的荧光强度图像, 红光与绿光强度的比值( c y 5 c y 3 ) 叫做基因在实验样本中的表达水平。如果样 点呈红色,说明实验样本表达丰度高,如果样点呈红色,说明参考样本表达丰度 高,如果样点呈黄色,则说明二者表达丰度相当,如果二者没有进行杂交反应, 则样点呈黑色。通过这种方法,就可获得来自不同样本的基因表达水平。 基因表达谱数据的一个显著特点是基因维数大,样本个数少,与疾病相关的 只有极少数基因,而基因表达谱的维数则是成千上万,所以基因表达谱数据中存 在大量的冗余信息,这些信息在病变样本和正常样本中的表达差异很小,他们对 于分类没有任何贡献,相反会使得搜索空间增大,算法运行时间加长,甚至会降 低算法的挖掘性能,影响最后的挖掘效果,因此在对基因表达谱数据进行分析之 前需剔除冗余信息,减低数据维数。虽然基于基因表达谱的数据挖掘算法经历了 安徽人学硕士学位论文基于非负矩阵分解的癌症基因表达谱数据的特征提取 长期的发展,但是仍然有很多挑战性的问题需要解决:( 1 ) 数据中含有大量的噪 声或异常值,比如实验过程中产生的噪声及异常值、在数据处理阶段带来的误差 和标记错误,因此如何设计鲁棒性强的去噪方法是首要面临的难题。( 2 ) 基因表 达数据规模庞大,需要设计计算复杂度和空间复杂度都较低的有效算法,以便从 大规模数据集中挖掘出有意义的知识。( 3 ) 维数灾难问题,生物学中的许多问题 都存在特征数量远大于参加实验的样本数量,特别是基因表达谱数据集,所需要 的分类运算规模随基因数量呈指数级增长,如何应对维数灾难问题是必须解决的 关键难点之一。( 4 ) 数据的非线性特点。由于数据具有非线性特点,所以如何把 经典的统计分析方法转变成非线性分析方法使得它能够处理非线性的数据集也 是一个关键的问题。 1 2 2 基因表达谱数据分析的研究现状 对基因表达谱数据进行深入分析和挖掘,获取生物学过程中潜在的信息,是 基因表达谱数据分析的根本内容。肿瘤基因分类是基因表达谱研究的重要方向, 然而,面对日益庞大、复杂的基因表达谱数据,如何快速、准确地识别肿瘤类型 就成为生物信息学领域的一个重要研究课题。近年来,科研人员主要在肿瘤信息 基因选择、特征提取和肿瘤识别方法领域展开了广泛的研究。 肿瘤的信息基因选择和特征提取方法的优劣是有效识别肿瘤的关键。信息基 因选择通过对单个基因进行重要性打分,然后排序选取出分值最高的前若干个基 因作为特征基因,用特征基因反映样本信息。如l ux i n g u o t 6 】采用最相似树聚类 ( c m s t ) 和改进的最优化自适应c m s t 法对基因表达谱数据中最具分类信息的 特征基因进行提取;李建更和阮晓钢等人【_ 7 】通过对肿瘤基因表达谱数据重复利用 偏最小二乘( p l s ) 方法提取主成分,再选择主成分中权值较大的基因作为分类 信息基因,得到较好分类效果。特征提取是通过线性变换或者非线性变换,挖掘 出蕴含在数据中的特征因子,以特征因子代表样本信息。如黄德双【8 】运用基于处 罚判决的独立分量分析( i c a ) 方法对肿瘤组织进行了分类,并对i c a 提取出的 结果作了解释;利用主成分分析( p c a ) 的一般化和非线性版本的核p c a t 9 】方法 对肿瘤表达谱数据降维也取得了较好的效果,将不同降维方法进行有效结合在肿 瘤基因表达谱数据分类上也有研究:用遗传算法( g a ) 选取发现好的基因子集, 4 安徽大学硕士学位论文 绪论 再通过支持向量机( s v m ) 对这些基因进行评估【1 0 1 ,取得了能够反映样本的特 征基因。 传统的肿瘤识别方法大致可分为两类:聚类和分类。聚类是一种非监督学习 方法,在数据样本的类别信息未知的情况下,仅依靠样本本身的数据特征实现类 型的识别,主要有层次聚类1 1 。1 2 1 、k 均值法【1 3 1 4 1 和自组织映射( s o m ) 1 1 5 - 1 6 1 等。 层次聚类是一种常用的传统聚类方法,将数据样本分成不同的层次,然后对 不同层次的样本采用划分聚类。层次聚类法的典型代表为:层次凝聚聚类( h a c ) + 。 和层次分裂聚类( h d c ) ,层次聚类由于简单易用很快得到推广,但这种方法鲁 棒性不强;k 均值法是模糊模式识别的一种方法,将所有样本数据随机分成k 类, 通过不断迭代修正类中心来优化聚类效果,该方法过分依赖初始类中心的选择, 同样具有不稳定和鲁棒性差的缺点。为克服这些缺点,学者将k 均值法与其它聚 类方法结合起来运用,如s u g i y a m 1 。7 】等人将k 均值法和自组织特征映射( s o f m ) 相结合,对酵母基因表达谱数据进行了聚类分析,s o m 是基于神经网络的方法, 由一系列处理单元组成,学习阶段不断修正处理单元的权重以改善聚类质量,但 是该方法需要大量的数据样本才能得到好的结果,而对肿瘤样本数量显然偏少; 近来,双聚类【1 8 】与子空间聚类算法在基因表达谱的分析已引起人们的重视。针对 高维基因表达谱数据含有大量局部信息,双聚类能同时在数据矩阵的行和列上进 行聚类分析,发现其局部信息。自从双聚类概念的提出,许多学者进行研究与改 进,如g e t z 1 9 1 提出了一种耦合双向迭代的双聚类算法,然而双聚类的寻找被认 为是维数灾难( n p ) 问题;子空间聚类是考虑到数据有时在全局没有明确的分 类,但是在局部空间有很好的聚集,c l i q u e ,e n c l u s t 2 0 】等算法的提出正是 基于此优点,但存在的问题是运算规模大,效率不高。 分类通过分析类别信息已知的数据样本以获取不同类的特征表示,来对待测 样本进行类别判定。肿瘤分类研究可以充分利用已知的样本信息,从而使特征的 选取与肿瘤识别数学模型的建立更具针对性,其代表性的方法有k 近邻法【2 1 1 ,贝 叶斯法【2 2 。2 3 1 ,决策树【2 4 之5 】以及神经网络方法:支持向量机( s v m ) 1 2 6 - 3 0 】和b p 网 络【3 1 】等。 k 近邻法是对待测样本最近的k 个已知类别样本计数,将待测样本归于计数 多的一类,可是有时分类结果过分依赖于k 值的选取,在处理高维数据时会陷入 5 安徽人学硕士学位论文基于非负矩阵分解的癌症基冈表达谱数据的特征提取 “维数陷阱”;贝叶斯方法假设各个基因相互独立、互不影响,但样本中的基因间 存在着复杂的调控关系,因此该方法很难实现肿瘤类型的准确分类;决策树理论 概念简单,运算效率高,可解释性强,其缺点是分类结果的精确性和稳定性较差; s v m 和b p 网络是利用训练样本调整各个处理单元的权值,构建一个最优预测 模型,再对待测样本测试其类别属性,但该类方法的运算复杂度高,不利于提高 算法的实时性。 随着研究工作的不断深入,研究者发掘出了更多更新的方法。例如一a l o k t 3 2 】 等人提出了改进的梯度线性判别分析法;m u n i 3 3 】等人提出利用样本协方差矩阵 的广义逆和经验贝叶斯估算精度矩阵;s h i t a l t 蚓等人提出了一种集成算法,更好 地提高分类精度;w a n g l 3 5 】等人采用独立分量分析进行肿瘤基因表达谱数据分类 的研究。 由此可见对基因表达谱进行深入分析研究和挖掘获取生物学过程潜在的信 息是基因表达谱数据分析的根本内容,因此肿瘤基因的特征提取与分类成为基因 表达谱的重要研究方向。对基因表达谱的分类问题的研究可以采用基于统计学习 的模式分类方法,分类主要经过预处理、特征提取和分类三个阶段。在预处理阶 段,主要任务是对基因表达谱进行初步处理,滤除干扰;在特征提取阶段,利用 各种算法获取基因表达谱的特征信息,并对特征信息进一步计算,用较少的数据 量刻画基因表达谱的本质特征,降低计算的复杂度、提高运行的速度;最后在分 类阶段,把提取到的特征值作为分类样本,输入到分类器中来得到分类结果。 输 入 f 特 | 征 分 【提 i 取 类 输 出 图1 - 1 基冈表达谱数据分析流程 f i g 1 - 1f l o wo fg e n ee x p r e s s i o np r o f i l e sc l a s s i f i c a t i o n 1 3 本文研究内容及组织结构 本文以非负矩阵分解理论为基础研究了基因表达谱的特征提取。 本文共计五章,第二、三、四章的内容为全文的重点。内容简介如下: 6 安徽大学硕士学位论文 绪论 第一章:绪论 生物信息学是生命科学与信息科学相互交叉而诞生的科学,是当今生命科学 和自然科学的重大前沿领域之一,同时也将是二十一世纪自然科学的核心研究领 域之一。本章首先介绍了生物信息学概念、发展及应用,然后介绍了基因表达谱 数据的获取、特点和特征提取的研究现状,最后介绍了本文的章节安排。 第二章:基于非负矩阵的基因表达谱数据的特征提取 基因表达谱的获取、预处理、特征提取、分类是基因表达谱四个主要研究阶 段。由于基因表达谱存在维数高、噪声大、样本数量小,给挖掘基因表达谱中蕴 含的有用信息带来了极大的困难,使得在肿瘤分类问题中基于基因表达谱的特征 提取与特征选择成为难题。本章先介绍了基因表达谱数据预处理、特征提取、分 类器等一些相关知识,然后介绍了非负矩阵分解的理论知识,并将其用在了肿瘤 基因表达谱数据的特征提取中,最后根据实验取得的结果做出分析与总结。 第三章:基于局部非负矩阵的基因表达谱数据的特征提取 从算法优化角度来看,非负矩阵分解是一种满足非负性约束下的优化问题。 在非负性约束的基础上,可将该方法进行改进和推广。非负矩阵分解只要求分解 的因子矩阵是在非负的情况下实现分解,若对分解的因子矩阵考虑更多的限制, 便可强化分解的结果。可以从三方面对非负矩阵分解的因子施加限制:一是要 求含有重要信息的成分被保留;二是要求一个基向量的各个成分不要被分解太 多,用来表示原始数据基向量的成分数目尽可能少;三是要求不同的基向量尽量 接近正交化;在对非负矩阵加以上述约束条件后,便可得到局部非负矩阵分解算 法,用此算法对白血病、前列腺癌基因表达谱数据进行分析取得了令人满意的实 验结果。 第四章:基于稀疏非负矩阵的基因表达谱数据的特征提取 稀疏非负矩阵分解方法是在非负矩阵分解方法上进行改进的一种方法。该算 法通过对系数矩阵添加稀疏性约束条件,与传统非负矩阵分解方法相比,它能更 好的发现直观且稳定的局部特征,并能自由地控制分解后的矩阵的稀疏度,稀疏 非负矩阵分解具有求解收敛速度快,基矩阵与系数矩阵相关性小等特点。该方法 在白血病实验中的分类准确率达到了1 0 0 ,在前列腺癌实验中的分类准确率达 到了9 2 ,表明将稀疏非负矩阵分解方法用于基因表达谱数据分类的研究是可行 7 安徽大学硕士学位论文 基于非负矩阵分解的癌症基冈表达谱数据的特征提取 和有效的。 第五章:总结与展望 本章对全文进行总结,结合现阶段的研究,给出了以后要进一步研究的若干 问题。 8 安徽大学硕:l 二学位论文基于局部非负矩阵分解的癌症基冈表达谱数据的特征提取 第二章基于非负矩阵分解的癌症基因表达谱 数据的特征提取 2 1 信息基因的初选 基因表达谱具有维数高、噪声大、兀余基因多等问题,在分类前需要采用各种 各样的方法对基因表达谱进行降维、去噪、剔除冗余信息等处理,除去那些不能用 来区分肿瘤组织与正常组织的基因,保留与肿瘤密切相关的基因,最大限度地提升 肿瘤样本的分类性能。基因表达谱中绝大多数基因的表达与肿瘤分类没有关系,这 使得对信息基因的选择带来了非常大的困难,采用单一的方法很难完成这一任务, 通常先使用基因排序法对原始基因集合进行初步筛选,按照某种记分准则对每个基 因进行记分,分值大小反映了基因的重要程度,再按基因得分大小降序排列基因, 选择排在前面的基因作为选择的结果,目的是尽可能多地去除无关基因。一般有以 下几种记分准则。 1 t 检验统计计量,其式为: 卜藤 其中,s ;,s ;分别为样本x 、y 的方差。 2 特征记分准则,其计分函数为: f s c ( g ,) = 3 修订的特征记分准则,其记分函数为: ( 2 - 1 ) ( 2 2 ) r f s c 幢,= 到籍阻1 等 , 4 k r u s h a l w a l l i s 和w i l c o x o n 秩和检验方法,k r u s h a l w a u i s 秩和检验方法适合 于多肿瘤亚型的分类问题,w i l c o x o n 秩和检验只适合于两类问题。 5 f i s h e r 判别,基因的记分准则表示为: 9 安徽大学硕:上学位论文基于非负矩阵分解的癌症基冈表达谱数据的特征提取 f d r ( g i ) = 器 ( 2 4 ) 以上各式中? 、和盯广、仃f 为第f 个基因在两类中的均值和方差。 2 2 特征选择与提取 基因表达谱的高维小样本的肿瘤分类问题一直是模式识别中的一个难以解决的 问题,如何从基因表达谱数据中提取出肿瘤基因分类特征信息以达到对基因表达谱 数据大幅度降低维数,是当前该研究领域的一个热点。针对基因表达谱数据有两种 方法可以降维:( 1 ) 特征提取方法;( 2 ) 特征选择方法。特征提取方法是从原始基 因空间中选择分类能力强基因子集,它能在不产生新的特征属性的前提下大幅度降 低原基因空间的维数,使得所选择的信息基因数量少、分类能力强,从而使得样本 分类的错误率减至最小;特征提取方法是在保持原基因空间内在结构不变的情况下, 通过对原基因空间进行某种形式的变换、寻找新的特征空间的过程,其目的是提取 尽可能少并且分类能力强的特征作为全部基因的代表,经过特征提取所获得的新的 特征空间与原来的特征空间差异很大,甚至完全不同,它只是间接反映基因信息。 进行特征选择与提取时有以下基本途径: 1 当特征数目d 给定以后,就可以从栉个原始特征中选择出d 个特征 x i , 工2 ,勤,满足: j ( x i ,石2 ,勤) = m a x j ( x , l ,五2 ,) 】 ( 2 5 ) 其中,x i 。,薯:,勃是任意d 个特征,由此在n 维特征空间中寻找d 维子空间。 2 使,取最大的目标下,对原n 维空间进行坐标变化,然后取予空间,即:对玎 个原始特征进行变换降维。设缸。,口:,口。) 是n 维特征空间e ”的一个基底,矢量x 是对象在e ”的一个观测,则x 可以表示为: x = x i o t f ( 2 6 ) i = 1 在缸。,口:,口。) 上工的各分量成为对象的一个特征。 直观上讲,在特征空间中,如果不同类模式相距较远,而同一类模式分布较近, 分类识别率就高。但是出于一些原因,选择与提取的特征可能并没有使模式明显地 l o 安徽大学硕+ :学位论文基于局部非负矩阵分解的癌症基因表达谱数据的特征提取 有上述分布特点。为节省资源及保证正确率,要用最少的特征达到较高的正确率。 为此,特征提取与选择的任务就是在得到若干具体特征之后,从这些原始特征中选 出数目最少、对分类识别最有效的特征子集,其目的是在最小维数特征空间中确保 同类模式点相距最近,而不同类模式点相距最远。 理论上应选择分类信息量最大的特征矢量。因为信息量最大的特征矢量接近理 想分类矢量,它们有最大的相关性,该矢量应该在类内具有相似的表达水平,在类 间表现出不同的表达水平值;再者,类内应该具有较小的方差,类间应该具有较大 的方差,即表达水平值在类内均值附近浮动不大,而在类间均值附近有大的浮动。 如图2 1 中所示的4 个特征矢量,四个图都是以两类问题为例。a 图是一个理想的 分类矢量,类内方差为零。b 图所示矢量不是很好的特征矢量,虽然其与理想分类 矢量间具有较好的相关性,但是其类内方差大、一致性差。c 图表达水平分布均匀, 基本不含分类信息,因为不同样本之间差异很小。d 图所示矢量类内一致性好,是 一个较为理想的特征矢量。 ab 11 0 8 0 6 0 4 善0 。2 nl l l l l l 样本 c 馨06ml l l _ 茹o 4 _ 到乏 _ 霉暮_ _ _ - _ _ i _ 12345678 样本序号 图2 - 1 四类基冈表达谱数据的特征矢量 f i g 2 1f o u rg e n ee x p r e s s i o nd a t av e c t o r 皿 876 5聘 安徽大学硕十学位论文基于非负矩阵分解的癌症基因表达谱数据的特征提取 2 3 分类器 为了对特征基因提取结果的合理性与正确性进行评估,必须将特征提取结果输 入分类器。自g o l u b 等人于1 9 9 9 年开创了基于基因表达谱数据肿瘤分类研究领域以 来,科学家们己陆续提出很多基于基因表达谱的肿瘤分类方法,许多分类算法已经 广泛应用于肿瘤分类问题的研究,使得这一领域很快成为生物信息学的一个研究热 点。按照不同的分类算法可以设计出不同的分类器,如贝叶斯、人工神经网络、自 组织映射和支持向量机等经典通用的分类器,他们能够根据已知的样本类别信息来 进行学习,以提取样本分类的知识,这些分类器都已成功地运用于基因表达谱分类 领域。基于这些分类器的实验结果表明,不同的分类器对同一种数据集的分类能力 是不同的,也很难说一个好的分类器对所有的数据集分类性能都很高。 贝叶斯分类器建立在先验概率与条件概率都已知的基础上。它的前提假设是类 条件独立,即一个变量对分类的作用独立于其它变量,贝叶斯网络是建立在贝叶斯 理论之上的一门技术,理论上贝叶斯分类与其它分类方法相比具有最小的误差率, 但实际情况并非如此,如先验概率信息无法获得,类条件独立性不满足等。贝叶斯 分类器的缺陷是:1 贝叶斯分类方法假设数据服从某种分布,但基因表达谱的分布 却是未知的;2 基因的表达值之间是相互关联的;一般认为,只有在独立性假设成 立或者在基因表达值相关性较小时贝叶斯方法能获得最优的分类效果。 人工神经网络有识别特征的能力,可以通过基因表达信息来区分未知阵列所表 达的细胞生化状况或疾病信息。人工神经网络最初是心理学家和神经生物学家在研 究神经元的计算法则时提出的一种模型,神经网络是一种相互连接的输入和输出单 元的集合,每个连接具有一个权重,神经网络通过调节其权重,使其能对输入的样 本进行合适的逼近,然后对测试样本实现正确的分类;神经网络的缺点是其数学解 释较复杂,而且从神经网络的输出结果中很难获得具有生物意义的解释,这对基因 表达谱的研究是不利的。 自组织映射聚类是一种基于神经网络的聚类模型,它是由若干个简单的拓扑结 构单元组成的节点构成,且节点中包含了其距离函数,自组织映射的思想是将高维 输入数据空间映射到一个低维的节点向量,可以减少样本的维度,自组织映射是一 1 2 安徽大学硕+ 学位论文基于局部非负矩阵分解的癌症基| 灭l 表达谱数据的特征提取 种非监督神经网络,它可以把多维数据映射在低维空间上的离散网络上,并能使得 输入数据映射在低维空间时保持拓扑一致性,自组织映射的缺点是易产生不均衡的 分类,若不相关的数据过多,感兴趣的数据较少时,分类准确性会降低。 支持向量机( s v m ) 是基于统计理论的一种机器学习方法,有较强的泛化能力, 是基于结构风险最小化准则,已成为一种新型的结构化学习方法,它能利用核函数 把输入模式不可分的数据映射到高维空向,构造最优分类超平面,把带有标记的两 类样本区别开来。s v m 能非常好地解决样本数量有限的高维模型构造问题,构造出 来的模型具有很好的预测性能;s v m 能够处理高维数据,分类精度高、抗噪能力强, 不用输入大量的参数,数据通过训练后支持向量的个数小,这一点对高维基因表达 谱数据来讲非常有效,s v m 广泛的应用体现了结构化学习方法的优势。 核( k e r n e l ) 是s v m 理论中一个非常重要的概念,它通常以符号k 表示,是一 种对称函数,满足m e r c e r 定理。这种核技术能够使得s v m 具有学习非线性关系的 能力,因为它可以实现在原特征空间上的非线性映射,一般可以通过下面两步建立 一个非线性学习机器:1 将原数据映射到一个新的特征空间,即对原数据进行非线 性变化;2 在变换特征空间中进行线性学习生成非线性分类器。但是,如果使用传 统机器学习方法会导致“过学习”与“维数灾难”,这是因为非线性学习过程有很大的 任意性,当引入核技术进行非线性关系学习的时候就能克服传统学习方法的缺陷, 使得上述过程将变得简单易行。 通过以上两步可使得原特征空间上的一个非线性映射:x f 获得非线性 关系函数: 厂( 工) = w f l o 舡) + 6 ( 2 - 7 ) i = 1 其中,( 形,b ) r ”r 是函数的控制参数;n 为非线性映射后的特征空间维数;b 是 分类阈值。设有一个训练集s :( ( 工。,y 。) ,( _ ,y ,) ) ( x ,y ) 7 ,则函数俐可以表示成 一个训练点集的线性组合: , 厂( 功= 口,y ,( ( t ) m ( 工) ) + 6 ( 2 8 ) 扣i 可以看出获得决策函数只使用了训练点与测试点间的内积。因此,若能计算在映 安徽大学硕士学位论文基于非负矩阵分解的癌症基闪表达谱数据的特征提取 射空间上的内积,就可以将上面建立非线性关系的两个步骤计算合并,这种内积可 以看作是原输入空间上的一个函数,这种计算方法被称作核技术,通过核技术只需 选择一个核函数: 后( 毛,功= ( ( 薯) ( x ) ( 2 - 9 ) 就可以很快构建学习非线性关系的s v m ,即: 厂( x ) = y ,k ( 薯,工) + 6 ( 2 一l o ) l = l s 为支持向量的个数。 s v m 的训练问题可转化成原最优化问题的w o l f e 对偶问题:超平面h : g ( x ) = w r x + b ,w 与日正交,它是日的法向量,日的位置由b 决定,任何一点石到 超平面h 的距离:,= g ( x ) l l w l l ,s v m 是从线性可分的情况下的最优分类面发展而 来的。针对两类问题,训练样本集为( x i , y i ) ,i = 1 ,2 ,刀,是训练样本,刀 是训练样本个数,输入样本薯的类别标记为乃 + l ,一1 。s v m 的出发点是寻找最 优分类超平面,最优分类面要求分类面能将两类模式正确分开,且两类间的分类边 际最大。设厅为分类面,q 和皿分别为各类中离分类面最近的样本且平行于分类 面的平面,日i 和之间的距离叫分类间隔,q 和皿上的训练点就被称作支持向量, 它们距离超平面最近,两个超平面q :缈x + b = l 和:缈x + b = - 1 间的间隔等 于2 | | 缈f | ,s v m 分类器能够构造这样的超平面,使最佳的超平面满足约束: 其中,常量c 是惩罚因子,它影响着分类模型的推广能力,体现了s v m 对训练集 中样本的信任度,如果c 无穷大,则所有约束条件都满足,但这样导致算法复杂度 高,因此c 的选择要结合实际;o l i 是拉格朗日乘子;k ( _ ,) 是核函数。根据判别 j 函数厂( 力= 口, 足( ,x ) + 6 的正负来判别一个测试样本x 的所属类别。 i = l 1 4 q 五 孢 o m k 一, y l 哪 乩 以 。滑 1 2 一 q 口 q m h l i = ; 三 、, r ,口、一 ( 竺,_ 叫讹。埘
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网吧光钎接入合同范本
- 街边旺铺出租合同范本
- 滚珠螺杆采购合同范本
- 酒店保洁托管合同范本
- 2025年初中三年级英语上学期词汇专项训练卷
- 衣柜安装承揽合同范本
- 连云港市集体合同范本
- 网约车合作协议书合同
- 租房合同伤亡补充协议
- 货车买卖租赁合同协议
- 2025年广东省继续教育公需课《人工智能赋能制造业高质量发展》满分答案
- 2026届浙江杭州市高三一模英语读后续写解析课件(含范文)
- 2025年考研英语二真题及答案解析(完整版)
- 2025-2026新版人教版8八年级数学上册(全册)教案设计
- Unit1HappyHolidaySectionB1a1d教学课件-人教版八年级英语上册
- 细菌性支气管肺炎的护理个案
- 地暖施工方案
- 车位过户网签合同范本
- 2025年医疗健康保健品营销策略
- 2025独家代理商合同协议书范本
- DB32T 5180-2025装配式钢筋骨架卡模体系应用技术标准
评论
0/150
提交评论