




已阅读5页,还剩52页未读, 继续免费阅读
(计算机应用技术专业论文)基于基因表达谱的数据挖掘方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于基因表达谱在分子水平上对肿瘤进行分析和研究,是当前 生物信息学研究的重要课题。本文将数据挖掘技术应用在基因表达 谱分类分析领域,对特征提取及肿瘤亚型识别问题进行了研究,取 得如下研究成果: 提出了基于神经网络和线性回归的肿瘤亚型分类方法。针对急 性白血病数据集,设计了三类信噪比指标,采用小波分析及线性回 归方法提取候选特征基因,基于b p 神经网络构建分类器,依据独立 测试结果确定特征基因。针对该数据集提取出5 个特征基因,其独 立测试准确率达到9 1 。本文同时使用决策树方法对该特征子集测 试,识别率达8 6 。 提出了基于g s n r 指标的特征基因选取及肿瘤亚型识别方法。 将数据挖掘方法g i n i 指数与传统指标“信噪比”r s n r ) 丰h 结合,构 建综合指标g s n r 剔除无关基因;采用b p 神经网络设计分类器; 使用s m 算法确定特征基因。针对急性白血病数据集,按三类肿瘤 亚型分类,提取出8 个特征基因,独立测试准确度达9 7 。实验结 果表明g s n r 指标具有良好的降噪能力和可伸缩性。 设计实现了基于g b 指标的基因表达谱分类方法。将g i n i 指数 与类加权b h a t t a c h a r y y a 距离相结合,构建g b 指标剔除无关基因; 基于支持向量机构建分类器;通过“两两冗余”后,依据后向搜索 算法选定最优特征子集。针对s r b c t 数据集提取出7 个特征基因, 采用s v m 分类器测试准确识别了数据集中所有样本,同时采用 a n n 、c b a 等方法对特征子集进行测试,取得满意的结果。该特征 子集分类性能优良,特征数量精简,优于同类实验。 关键词基因表达谱;特征选取;神经网络;支持向量机;g i n i 指数 a b s t r a c t t h er e s e a r c ho nc a n c e rb a s e do r g e n ee x p r e s s i o np r o f i l eh a sb e e na n i m p o r t a n tr e s e a r c ha r e ao fb i o i n f o r m a t i c s i nt h i sp a p e r , d a t am i n i n g t e c h n o l o g i e s a r e a p p l i e dt o t h i s a r e a ,c o n c e n t r a t i n go n f e a t u r es e t s e l e c t i o na n dc a n c e rs u b - t y p ec l a s s i f i c a t i o n ,a n ds o m en o v e la p p r o a c h e s a r ep r o p o s e d an e u r a ln e t w o r km e t h o df o rc a n c e rs u b - t y p ec l a s s i f i c a t i o nw i t h r e g r e s s i o ni sp r o p o s e dt oc a t e g o r i z ea c u t el e u k e m i ad a t a t h eo r i g i n a l d a t aa r ep r o c e s s e db ya nu p d a t e ds n ri n d e xp r e s e n t e dh e r e i n ,a n d s e v e r a lf e a t u r eg e n es e tc a n d i d a t e sa r es e l e c t e db yu s i n gr e g r e s s i o n m e t h o dw i t hw a v e l e t b u i l d i n gt h ec l a s s i f i e rb yu s i n gn e u r a ln e t w o r k ,t h e o p t i m a lf e a t u r es e tw i t hf i v eg e n e sa r ed e c i d e da n dt h ec l a s s i f i c a t i o ni s c o m p l e t e dw i t ha c c u r a c yo f9 1 t h ep r o p o s e dm e t h o da n dt h ef e a t u r e s e ta r ev e r i f i e db ym e a n so fd e c i s i o nt r e em e t h o d ,a n de m p i r i c a lr e s u l ti s 8 6 c a n c e rs u b t y p ec l a s s i f i c a t i o na n df e a t u r es e ts e l e c t i o nb a s e do n g s n ri n d e xa r ea l s op r o p o s e d b yc o m b i n i n gd a t am i n i n gm e t h o da n d s n ri n d e x ,t h ei r r e l e v a n tg e n e sa r ee l i m i n a t e df i r s t l y t h e nt h ec l a s s i f i e r i sb u i l db yu s i n gn e u r a ln e t w o r ka n dt h ef e a t u r eg e n e sa r es e l e c t e dw i t h s e a r c h i n ga p p r o a c h e sa n di n d e p e n d e n tt e s t ,ea p p l yt h i sn o v e lm e t h o d i nt h es u b t y p ec l a s s i f i c a t i o no fa c u t el e u k a e m i a ,a n dd e c i d eaf e a t u r es e t w i t h8f e a t u r eg e n e s t h ea c c u r a c yo f c l a s s i f i c a t i o ni s9 7 。n ee m p i r i c a l r e s u l t sp r o v e dt h a tg s n ri n d e xi sr o b u s ta n de x t e n s i b l e f i n a l l ya na l l - r o u n di n d e xc a l l e dg bi n d e x ,w h i c hc o m b i n e sg i n i i n d e xa n db h a t t a c h a r y y ad i s t a n c e ,i sp r o p o s e dt oe l i m i n a t et h ei r r e l e v a n t g e n e s ac l a s s i f i e ri s c o n s t r u c t e db a s e do ns v m t h e nt h eo p t i m u m f e a t u r es u b s e ti ss e l e c t e df r o mt h ef e a t u r eg e n e sw i t hb a c k w a r ds e l e c t i o n s e a r c hm e t h o da l g o r i t h ma n d i n d e p e n d e n tt e s t s ,ea p p l yt h i s n o v e l m e t h o di nt h es u b t y p ec l a s s i f i c a t i o no fs r b c t ,a n dd e c i d eam o r e c o m p a c ts e tw i t h7f e a t u r eg e n e s t h ea c c u r a c yo fc l a s s i f i c a t i o ni s1 0 0 w i t hs v mc l a s s i f i e r w ea l s ot e s t e dt h ef e a t u r e g e n e sw i t ho t h e r c l a s s i f i e r ss u c ha sa n na n dc b a ,a n dt h ee x p e r i m e n t a lr e s u l t sp r o v e w e l l c o m p a r e dw i t ht y p i c a la p p r o a c h e s ,t h i ss u b s e t ,w h i c hp r o v i d e s v a l u a b l er e f e r e n c e sf o rt h ed i a g n o s i sa n dc u r i n go fs r b c t ,h a sr e d u c e d t h en u m b e ro ff e a t u r eg e n e s k e yw o r d sg e n ee x p r e s s i o np r o f i l e f e a t u r cs e l e c t i o n ,n e u r a l n e t w o r k s ,s u p p o r tv e c t o rm a c h i n e ,g i n ii n d e x 原创性声明 本人声明,所呈交的学位论文是本人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我 共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签名:亟墨日期:丝! z 年三月卫日 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名:j 超导师签名垄垒日期:丝z 年月旦日 硕士学位论文第一章绪论 1 1 基因表达谱概述 1 1 1 基因表达的基本概念 第一章绪论 人类基因组计划绘制的人类基因组图谱表明,人类基因组由3 1 6 4 7 亿个 碱基对组成,共包含了3 万4 万个基因。基因表达( g e n ee x p r e s s i o n ) 的过 程分为两个阶段:转录( t r a n s c r i p t i o n ) 和翻译( t r a n s l a t i o n ) 。转录的过程是指 由d n a 单链按照碱基互补的原则复制出另一条r n a 单链的生物过程,生成 的单链r n a 称为信使r n a ( m r n a ) 。翻译的过程是指以转录过程产生的信 使r n a 为模板,依据三联密码子原则,形成氨基酸序列,合成蛋白质的复杂 过程。图1 1 表示了真核生物基因( e u k a r y o t i cg e n e ) 表达的过程。基因的表达 水平是指信使r n a 的表达水平,表征了基因转录的程度。 e x p r e t m i o nf r o m l i te u k a r y o t l eg e n e 图1 - 1 真核生物基因表达过程 基因表达水平的检测主要依赖于生物芯片技术【l - 2 1 ,其最突出特点是具有巨 大的高通量效应。基因芯片是一种最重要的生物芯片,又称d n a 探针微阵列 ( m i c r o a r r a y ) ,它在片基表面密集排列大量的基因探针,通过碱基互补配对识 硕十学位论文 第一章绪论 别,使与基因探针匹配的样品能被检测。基因芯片能够在同一时间内分析大量 的基因,实现生物基因信息的大规模检测。 1 1 1 2 基因表达谱数据的获取 在基于微阵列的实验中,首先选取来自不同状态的样本,其中一种称为实 验样本( e x p e r i m e n t a ls a m p l e s ) ,另外一种称为参考样本( r e f e r e n c es a m p l e ) ,在 反转录过程中,实验样本和参考样本r n a 分别用不同的红、绿荧光染料去染 色,并将它们混合,与微阵列上的探针序列进行杂交,经适当的洗脱步骤与激 光扫描仪对芯片进行扫描,获得对应于每种荧光的荧光强度图象,通过专用的 图象分析软件,可获得微阵列上每个点的红、绿荧光强度f c y 5 和c y 3 ) ,其比 值( c y s c y 3 ) 称为该基因在实验样本中的表达水平。在通常情况下,考虑c y 5 和 c y 3 的数值时,还应考虑相应的背景数值,如果微阵列上某个基因的c y s 或 c y 3 数值比相应的背景数值低,则该基因的表达水平无法确定,为了方便数据 处理,常以数值l 表示该基因的表达水平,或直接以空值( 即缺省值) 表示,在 做具体数据分析时,可通过降低维数办法来处理缺省值。另外,为了反映某个 基因表达水平在实验样本和参考样本中的倍数关系,可以对上述比值进行以2 为底的对数变换即以l o g ,( c y 5 c y 3 ,表示该基因的表达水平。显然,如此对数 值为l ,则表示该基因在实验样本中的表达水平比参考样本中的表达水平多一 倍;如此对数值为i ,则表示该基因在实验样本中的表达水平比参考样本中的 表达水平少一倍。如基因的表达水平无法确定,则以数值0 或空值表示。通过 微阵列实验,将最终获得基因表达矩阵( 以字母g = ,岛- 7 。表示,其中m 表 示基因个数,1 1 表示实验样本个数) ,这就是基因表达谱。 根据研究目的不同选取不同的组织样本,如不同亚型的肿瘤组织或肿瘤组 织和癌旁组织( 距离肿瘤一定距离的正常部分) 。一般情况下,一次单一基因芯 片实验构成基因表达矩阵的一列。基因表达谱一般具有样本数n 较小( 一般少于 一百个) ,维数m 较高( 基因数一般是几千个) 的特点,且数据集中含有较多噪 声数据。这些特点给数据的分类、聚类问题带来了一些挑战,矩阵规模的巨大 是组织样本分类问题所面临的一个最主要问题之一,另外,矩阵行数较之列数 大几个数量级,o v e r f i t t i n g 问题也就随之产生。 国际上最常用的基因表达矩阵文件格式一般以戗t 文件或d a t a 文件存 放,数据点之间用t a b 键分隔,这种格式的文件可以由任何标准表单软件创建 或导出,如m i c r o s o f te x c e l 、n o t p a d 等。国际常用基因表达谱数据文件格式如 表l l 所示。 2 硕士学位论文第一章绪论 表1 - 1 基本的基因表达矩阵文件格式 6 e n en a m e a l l b _ c e l l ) l l t _ c e l i ) a m l m 2 ,a m l t m l , 1 2 研究现状 近几年来,各国科学家们在基于基因表达谱的癌症诊断领域取得了许多研 究成果,已经对若干种不同类型的肿瘤相关基因的表达谱进行了深入的研究, 其中包括结肠癌( a l o n 等人【 ,1 9 9 9 年) 、白血病( g o l u b 等人【4 】,1 9 9 9 年) 、 小圆蓝细胞瘤( k h a n 等人嘲,2 0 0 1 年) 、前列腺癌( b u b e n d o r f 等人,1 9 9 9 年) 、 乳腺癌( p c r o u 等人嘲,2 0 0 0 年) 、淋巴癌( a l i z a d e h 等人1 7 1 ,2 0 0 0 年) ,恶性皮 肤瘤( b i t t n e r 等人【引,2 0 0 0 年) 等等。利用基因表达谱数据,基本上可以实现 肿瘤样本的分类和诊断,有的甚至已经寻找到用于癌症早期诊断的基因标记物 ( b i o m a r k e r ) 和用于研制新药的靶基因。但是目前的基因芯片技术和数据分析 精确度还没有达到实用化水平,结果的最终判定依旧依赖于专家,基因芯片实 验分析结果还只能作为专家的参考或辅助手段。 表1 2 列出了目前研究比较频繁的几种基因表达谱数据集。 表1 2 几种典型的基因表达谱数据集 在探索分析的过程中,生物信息学领域的学者们将各种成熟的模式识别技 术和信息处理方法运用于癌症诊断领域,取得了很大的成绩。模式识别方法可 以分为有监督和无监督两大类。有监督的识别方法是指通过对已知类别学习样 本进行训练从而构建分类器,再对未知样本进行分类的识别方法。分类分析是 一种大规模基因表达谱目前广泛使用的有监督学习方法,它是一种机器学习方 法。曾经尝试用于基因表达数据分类分析的方法主要有:人工神经网络【5 】、支 硕+ 学位论文第一章绪论 持向量机法( c o r t e s 、v a p n i k 等人【9 】,1 9 9 5 年) 、加权投票法【4 】、最近邻法( 李 颖新等人,2 0 0 0 年) 、线性判别式分析法( v a n d e g i n s t e 等人,1 9 9 8 年) 等等。 无监督模式识别是指不知道或是不需要知道样本的类别信息,对样本集合进行 聚类分析的识别方法,这方面的尝试包括:分级聚类法( e i s e n 等人,1 9 9 8 年) , k 均值法( t a v a z o i e e ta 1 ,1 9 9 9 ) ,自组织特征映射法( g o l u b 等人,1 9 9 9 年) 等等。 下面具体介绍国内外研究人员基于基因表达谱研究肿瘤分类方面的研究成 果。 m r r 癌症基因组研究中心g l o u b 博士领导的研究小组利用d n a 芯片所测 定急性白血病组织样本的基因表达谱进行了亚型分类研究【4 】。所用d n a 芯片上 有7 1 2 9 个基因,以这些基因在组织样本细胞中的基因表达水平作为分析的基 础。通过对2 7 个a l l 和1 1 个a m l 样本的分析,该小组首先利用统计学方 法对基因与样本类别的相关性进行了显著性检验,发现绝大多数基因与样本的 类型无关。通过利用选出的具有最大信噪比的5 0 个基因作为分类的特征基因, 采用加权投票的方法,对这3 8 个样本进行了“留一法”交叉校验。这样通过 “留一法”得到总的测试结果为:3 8 个样本中有3 6 个样本被j 下确分类。 利用加权投票模型,该小组研究人员对另外3 4 个a m l 和a l l 的独立 测试样本进行测试的结果表明,利用5 0 个特征基因,该模型准确鉴别出2 9 个 样本的亚型类别。总的说来,在7 2 个样本中共有6 5 个样本被准确识别。所 选择出的5 0 个特征基因中既包含已知的致癌基因,又包含了目前已知的与两 种不同白血病亚型判别紧密相关的基因。同时在这5 0 个基因中,还包含了一 些新的标识亚型的新基因,从而为急性白血病的生物研究提供了线索和借鉴。 g o l u b 等人的工作表明了基于基因表达谱进行肿瘤诊断的可能性和可行 性,提供了一种从生物信息学的角度研究肿瘤的新思路。他们的这一研究,也 引发了生物学界和信息领域的大量研究人员投入到肿瘤基因表达谱的分析和建 模中来,极大地推进了从信息学的角度,利用计算模型分析肿瘤的基因机理和 分子机制的研究。1 9 9 9 年,科学上刊登了( 3 0 l u b 等人的这一研究结果。 2 0 0 0 年,g u y o n 掣1 0 】在g o l u b 等人的研究基础上,使用支持向量机方法, 进一步精简了特征基因的数量,选出了8 个特征基因;2 0 0 2 年t i b s h i r a n i 等利 用收缩质心法选出了2 1 个特征基因;李颖新等【1 1 l 于2 0 0 5 年使用支持向量机选 出5 个特征基因。他们选出的特征基因均成功识别了急性白血病数据集中所有 样本。 2 0 0 1 年,k h a n 等人在自然上发表了他们针对小圆蓝细胞瘤s r b c t 的研究成果【5 】,在他们的研究中,使用基于c d n a 微阵列获得的8 8 个s r b c t 4 硕十学位论文第一章绪论 样本的基因表达谱,用主元分析法和人工神经网络从2 3 0 8 个基因中选出9 6 个基因,据此能够区分测试集上2 0 个盲样本的亚型。k h a n 等人使用的主元分 析法会丢失基因所包含的分类信息,而他使用的简单人工神经网络模型没有隐 含层,是线性的,不能学习基因中蕴含的非线性关系。另外,他们的特征选取 方法比较复杂,依赖于分类模型,选取的9 6 个基因的集合还比较大,很有必 要进一步寻找更小的基因集合,以便于进行生物学的研究和l 临床实践。 2 0 0 1 年,y e o 等人采用二类支持向量机( s u p p o r t v e c t o r m a c h i n e ,s v m ) 把 这个四类问题分解成多个二类问题,精简了特征基因,提取出8 0 个特征基因, 识别出测试集的2 0 个盲样本【1 2 】;2 0 0 2 年,斯坦福大学的t i b s h i r a n i 等采用基于 质心距离的近邻法选出了4 3 个特征基因,识别率达1 0 0 1 3 】。 虽然模式识别领域已有很多成熟的算法,但其性能大多都还达不到实用水 平,依旧存在很多不足和有待深入研究的问题。首先,数据处理的每一阶段都 会引入噪声,有时噪声点甚至完全掩盖数据点。这就使得数据的预处理和降噪 问题至关重要。另一方面,大量的研究工作集中在两类亚型的研究上,多类亚 型的研究近两年才被广泛重视和研究。除此之外,还有一些问题尚需考虑和研 究:各种算法是否可以进行整合,以得到性能更好的算法? 如何将成熟的数据 挖掘算法运用到基因表达谱数据的挖掘中来? 算法性能的好坏在很大程度上依 赖于数据本身的状况和初始条件的选择,有没有一个对各种质量的数据都适用 的通用方法? 算法只给出数学意义上或是信息学意义上的结果,是否可以开发 出一个不特别依赖于医学专家的实用诊断系统等等。 1 3 本论文的研究内容及意义 1 3 1 研究内容 本文从多类肿瘤亚型的分类问题出发,将数据挖掘方法应用到基因表达谱 的挖掘中来,迸一步提高挖掘的效率与准确性。本文主要研究基于基因表达谱 的特征基因提取与肿瘤亚型识别方法,分别建立了三种有效的肿瘤预测模型。 根据分类模型的不同,论文可以分为以下三个部分: 1 基于人工神经网络和线性回归方法的三类肿瘤亚型分类方法。提出了三 类问题信噪比指标进行数据降噪,采用小波分析及线性回归方法提取候选特征 基因子集,采用b p 神经网络建立分类器,最终依据候选特征基因子集的独立 测试准确率确定特征基因子集。针对急性白血病数据集,按三类肿瘤亚型分类, 从7 1 2 9 个基因中提取出5 个特征基因,其独立测试识别率达到9 0 以上。此外, 本文同时使用决策树方法对该特征基因子集进行分类测试,识别率达到8 6 。 s 硕十学位论文第一章绪论 实验结果表明该子集具有很好的分类效果,为急性白血病的诊断与分类提供了 有价值的参考信息。 2 基于g s n r 指标的特征基因选取及肿瘤亚型识别方法。引入数据挖掘 的精典算法g i n i 指数,将其与传统的基因表达谱降噪指标“信噪比”( s n r ) 指 标楣结合,构建综合指标g s n r 对数据进行降噪,然后采用b p 神经网络设计 复合分类器,最后使用s m 算法确定特征基因子集。针对急性白血病数据,按 三类肿瘤亚型分类,从7 1 2 9 个基因中选出8 个特征基因,其对独立测试集的预 测准确度达到9 7 。实验表明综合指数g s n r 对数据进行预处理具有良好的降 噪能力和可伸缩性。 3 基于g b 指标的分类特征基因选取及亚型识别方法。将g i n i 指数与类 加权b h a t t a c h a r y y a 距离相结合构建g b 指标,进行无关基因及噪声数据的剔除, 然后基于支持向量机构建多模分类器,采用e u c l i d e a n 距离进行“两两冗余”, 使用后向搜索算法测试特征子集,根据正确率选定最优特征子集。针对s r b c t 数据集提取了7 个特征基因,准确识别数据集中所有样本。与目前一些典型的 研究成果相比,该子集保证了优良的分类性能,同时大大降低了特征基因的数 量。 有关工作将在第二章至第四章中进行详细叙述。 1 3 2 研究意义 常规d n a 微阵列实验中,成千上万的基因被分析,被研究,如果能从中 找到少数“全能”的基因,并通过这些基因就可准确有效地分类鉴别癌组织, 就最为理想。因而,为了辨识用于肿瘤治疗的靶基因,在取得高分类准确率的 同时辨识小特征基因子集是非常重要的。本文致力于将数据挖掘的经典算法与 基因表达谱传统分析算法相结合,建立起有效的肿瘤预测和肿瘤分类模型,提 高特征基因的分类能力,进一步精简特征基因的数量,提高识别率,为肿瘤的 临床诊断提供一种客观、准确的方法及有效的参考信息。 1 4 论文组织结构 论文包括五章: 第一章是绪论,介绍了基因表达谱的概念和获取方法,国内外的研究现状, 以及本论文的研究内容及研究意义。 第二章至第四章论述了三种不同的分类方法,给出了相关的实验结果,并 从与以往同类实验结果的分析比较来评价这三种分类方法的性能。 6 硕十学位论文 第一章绪论 第二章论述了一种基于神经网络和线性回归的肿瘤亚型识别方法。首先介 绍了用于构建分类器的人工神经网络的基本原理,然后介绍了数据来源及分类 模型,最后给出了实验结果。以急性白血病数据为例,按三类肿瘤亚型分类, 提取出5 个特征基因,其独立测试准确率达到9 0 以上。 第三章论述了一种基于g s n r 指标的特征基因选取及肿瘤亚型识别方法。 介绍了分类模型的建立,并针对急性白血病数据,按三类肿瘤亚型分类,提取 了8 个特征基因,独立测试准确度达到9 7 。实验表明综合指数g s n r 对数据 进行预处理具有良好的降噪能力和可伸缩性。 第四章论述了一种基于g b 指标的基因表达谱分类分析方法。介绍了支持 向量机技术及分类模型的建立,并针对s r b c t 数据集选取了7 个特征基因, 准确识别了数据集中所有样本。与目前一些典型的研究成果相比,该子集分类 性能优良,特征基因数量得到了进一步精简。结果表明g b 指标具有良好的降 噪能力,同时表明了该分类模型的有效性与可行性。 第五章总结了本文工作,并进行了研究展望。 7 硕十学位论文第二章基丁神经网络和线性同门的肿瘤弧型识别 第二章基于神经网络和线性回归的肿瘤亚型识别 d n a 微阵列技术的出现使得人们可以获得全面的肿瘤基因表达数据,利 用这些基因表达数据实现肿瘤的分类,提取出特征基因子集是当前生物信息学 研究的一个重要课题【悼1 9 1 。人工神经网络是一种被广泛应用的分类技术,因此, 本章首先介绍神经网络的基本原理,然后详细论述了一种基于神经网络和线性 回归的肿瘤亚型识别方法。 2 1 神经网络原理 人工神经网络,简称a n n ( a r t i f i c i a ln e u r a ln e t w o r k ) ,或简称神经网络, 是采用大量简单的处理单元广泛连接起来构成的一种复杂的信息处理网络f 2 0 】。 其中的处理单元及其相互连接模式是借鉴人脑神经元的结构以及连接机制设计 的。这种网络具有与人脑相类似的学习记忆能力、知识概括能力和对输入信息 的特征抽取能力,是人脑的一种抽象、简化模型。 最早的神经网络模型应该是由m c c u l l o c ha n dp i t t s ( 1 9 4 3 年) 在分析神经 元的特点基础上提出的神经元的数学模型“m p 模型”,神经元的活动满足 “全或无( a 1 1 o r - n o n e ) ”的方式,神经元之间的联系方式只有兴奋性和抑制性 突触联系两种;神经元的物理组织不会随时问的改变而改变。自m p 模型发展 至今,人工神经网络已经出现了数十种模型,如感知器、自适应元件、h o p f i e l d 网络、白组织特征映射( s e l f - o r g a n i z i n gm a p ) 、b p 网络( b a c k p r o p a g a t i o n n e t w o r k ) ,以及概率神经网络( p r o b a b i l i s t i cn e u r a ln e t w o r k s ,p n n ) 等等。 下面首先介绍神经元的概念。神经元是构成神经网络的基本计算单元,是 一种有多个输入和一个输出的非线性单元,可以有反馈输入和阈值参数。图2 1 给出了第i 个神经元的一种基本结构示意图。 x 1 x 2 x n s j 图2 - 1 神经元结构图 神经元的输出y 和n 个输入信号x l , x 2 ,x n 的关系可以表示为: 硕十学位论文第二章基于神经网络莆i 线性回l 闩的肿瘤弧型识别 y i k w + s i y = i y j t ) 公式( 2 1 ) 公式( 2 - 2 ) 其中w f 为连接权值,屯为反馈信号。j 为传递函数,其可以根据输入输 出信号的特性进行选择。 常用的传递函数有线性传递函数、正线性传递函数、硬限幅传递函数、对 称的硬限幅传递函数、l o g - s i g m o i d 传递函数、t a n s i g r n o i d 传递函数、径向基 函数传递函数等等,图2 2 ( a ) 一( f ) 分别给出各个函数的波形图和示意图。 ( a ) 线性传递函数 ( ”正线性传递函数 口 ( c ) 硬了限幅传递函数 9 固 硕十学位论文第二章基丁:神经网络和线性【亓| ! 门的肿瘤证型识别 车玎 宏糟囝 篡妻陡o - s 多i 伽i 南斗石o - 8 3 3i + 0 8 3 3 ( f ) 径向基函数传递函数 图2 - 2 传递函数波形图扣示意图 连接模式是指神经元之间的连接关系,主要有单层、多层和循环连接模式。 前两种连接模式构成的都是前向网络。第三种是包含反馈的连接模式。前馈型 网络的输出只由当前输入、网络参数和结构决定,而循环网络的输出由当前输 入和先前的输出两者、以及网络参数和结构决定,因此有短期记忆的性质。 神经网络的训练应用神经网络对输入矢量进行模式识别前要对其进行训 练,又叫做学习。训练过程就是应用一系列输入矢量,通过某种算法逐步调整 权值和阈值的过程。通过训练或是学习,神经网络能够对一组输入矢量产生希 望的输出。训练后的网络即可以用来识别未知样本。 b p 神经网络是一种应用极其广泛的分类预测方法,b p 算法即误差反传训 练算法( e r r o rb a c kp r o p a g a t i o n ) ,是由r u m e l h a r t 等人组成的p d p 小组于1 9 8 5 年提出来的,它实现了m i n s k y 多层网络的设想 2 1 l 。图2 3 是一个典型的三层 0 硕十学位论文第二章基丁二神经网络和线性同归的肿瘤弧型识别 b p 网络。 艟入最隐毒瑶翡氆瑶 图2 - 3b p 神经网络结构图 b p 网络具有很强的自组织、自适应能力通过对有代表性例子的学习、训 练,能够掌握事物的本质特征,许多问题都可由它来解决。例如x o r 问题、t - c 匹配、对称性判断等。b p 网络是现在应用最为广泛的神经网络。它是前馈网络, 即所处理的信息逐层向前流动,而当学习权值时,却是根据理想输出与实际输 出的误差,由前向后逐层修改权值( 误差的后向传播) ,其训练步骤如下【2 1 之2 】: 1 首先赋予网络相邻层间节点的连接权值以及隐含层和输出层节点的阈值 为( 1 ,1 ) 之自j 的随机小量。 2 从网络输入层节点输入训练样本的特征矢量。 3 输入信息正同传猫过栏甲,经过s 型激沽幽数一, 1 ( x ) = i 0 + e 一。1 作用后,输出层节点k ( k = i ,2 ,h ) 得到输出矢量 胪礁撕+ 吼 式中 咖礁川) 公式( 2 3 ) 公式( 2 - - 4 ) 公式( 2 5 ) 为隐含层节点j ( j = 1 ,2 ,l ) 的输出矢量。吼、b 分别为输出节点k 和隐含层节 点j 的闽值,以为隐含层j 节点和输出层k 节点的连接权值,为输入层节点 i ( i = l 2 ,m ) 和隐含层j 节点的连接权值。而为输入层节点i 处的特征矢量。 4 计算网络输入矢量儿- 与0 1 1 练样本的目标矢量瓦的误差信号 五2 一五) 儿( 1 一儿) 公式( 2 6 ) 1 1 硕七学位论文第二章基丁神经网络利线性同门的肿瘤弧型识别 号 误差 5 将瓯从输出层向隐含层和输入层反向传播,计算引起的隐含层误差信 6 用瓯向减少误差方向调整权值且和阈值吼: 让* = 硅+ c 5 :y j l 妒= 9 t + d 6 其中c , d 为学习参数,一般取o 1 o 5 。 7 用乃向减少误差方向调整权值和阈值巳: = + c y , e i = 9 i + d 。y i 公式( 2 - 7 ) 公式( 2 - 8 ) 公式( 2 - 9 ) 公式( 2 1 0 ) 公式( 2 1 1 ) 8 对训练样本集中的每个样本往复学习上述过程,直至整个样本集的均方 e :i 1 m ( y 。一瓦) 2 v l f f i l 公式( 2 - 1 2 ) 达到某精度要求,即e 0 , 这样公式( 4 - 1 1 的线性约束条件变为: y ,【( w ) + 6 1 1 + 夤0 ,f = l ,h 左 式( 4 - 6 ) 此时优化问题变为: m i n 巾( 叨= i ( w ,聊+ c 喜缶 公式( 4 - 7 ) 约束条件为: 【( 形置) + 卅一l + 毒0 ,i = 1 2 ,月公式( 4 - 8 ) 式( 4 - 7 ) c p 的常数c 起着对错分样本的惩罚作用,实现的是学习机器泛化 能力和错分样本数目之间的折中。 转化为其对偶问题,此时求解最优分类面的问题变为求公式( 4 7 ) 的最大值, 只是约束条件变为: 窆y ,= 0 ,0 _ o r , - c , f - 1 , 2 ,棚 公式( 4 - 9 ) i ;l 在对这类约束问题的求解和分析中,库恩- 塔克条件( k a r u s h - k u h n - t u c h e r , 简称r , x t ) 起着重要的作用,k k t 条件为: f 若口l = o ,则鼻= o ,y ,( w 葺+ 6 ) l ; 若o q c ,则舅= o , y ,( w 五+ 6 ) l ; 公式( 4 - l o ) 【若口= e 则最= o ,y ;五十b ) l ; k k t 条件是最优解应满足的充要条件,所以目前提出的一些算法几乎都是 以是否违反k k t 条件作为迭代策略的准则。 以上都是在线性分界超平面的基础上进行的讨论,在很多问题中需要将其 推广到非线性分类超平面中。s v m 的非线性特性可以如下方式来解决,把输 入样本x 映射到高维特征空间( 可能是无穷维) h 中,并在h 中使用线性分类 器来完成分类,即将x 做变换巾:r ( 4 - h ,则| j i 面的分析同样适用。当在特征 空间h 中构造最优超平面时,训练算法使用空间中的点积,即仅仅使用 m ( x i ) m ( 1 i ) ,而没有使用单独的o ( x 1 ) 。因此,如果能够找到一个函数k 使得 k ( x i 幽产m ( x i ) m ( 1 i ) ,那么,在高维空自j 实际上只需进行内积运算,而这种内积运 算是可以用原空间中的函数来实现的,甚至没有必要知道m 的形式。根据泛函 硕+ 学位论文第四章基丁g b 指标的基因表达谱分类分析 的有关理论,只要一种核函数k ( x i ,x j ) 满足m e r c e r 条件,它就对应某一变换空 间中的内积。选择不同的内积函数k ,就形成不同类型的算法,常用的内核函 数有以下几种形式: ( 1 ) 多项式( p o l y n o m i a l ) 核函数:k ( x ,y ) = 【( x ,y ) + l r ( 2 ) 径向基函数( r b f ) 内核函数:t ( 五) ,) :e x p ( i 皂笋) ( 3 ) 两层神经网络( s i g m o i d ) 内核函数:i 似力= t a n h ( | h - y 一盯) 此外,也可以把线性s v m 看作是具有线性( l i n e a r ) 核的s v m ,并且 k ( x ,y ) = x _ ) ,。 4 2 问题描述与数据来源 4 2 1 问题描述 目前已公开发表的多类基因表达谱数据集有小圆蓝细胞( s r b c t ) 数据集 ( s 3 9 1 、多类别( m u l t i c l a s s ) 肿瘤数据集删、n c l 6 0 数据剿4 ”、淋巴瘤数据集【6 】 等。2 0 0 1 年,k h a n 等人采用线性神经网络对s r b c t 的四种亚型进行了诊断, 提取了9 6 个特征基因,对测试集的预测准确率达到1 0 0 i s l ;y e o 等人采用二 类支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 把这个四类问题分解成多个二类 问题,提取出了8 0 个特征基因,取得了同样的效果【1 2 】;2 0 0 2 年,斯坦福大学 的t i b s h i r a n i 等采用基于质心距离的近邻法选出了4 3 个特征基因,准确率同样 达到1 0 0 ”“。 图4 2 基于g b 指标的s v m 预测模型结构图 本文基于g b 指标建立$ v m 预测模型,针对s r b c t 数据集选取了7 个特 硕十学位论文第四章基tg b 指标的基冈表达谱分类分析 征基因,成功识别了数据集中所有样本。模型结构如图4 - 2 所示。该模型首先采 用g b 指标剔除无关基因,提取k 1 个特征基因,记为s , r ,= r ,1 ,t 为训练集, ,为独立测试集;采用四个二分类s v m 建立分类器,每个s v m 专门识别一种 亚型:然后通过e u c l i d e a n 距离对& 进行“两两冗余”,根据独立测试的结果选 取k 2 个特征基因,获得& ,= l i ;最后通过后向搜索算法对& ,中的特征子 集进行“留一检验”和“独立测试”,根据测试结果确定最优特征子集。 4 2 2 数据来源 小圆蓝细胞瘤( s r b c t ) 通常发生在儿童身上,存在四种亚型,分别是 e w s ( e w i n gs a r c o m a ) 、b l ( b u r k i t tl y m p h o m a ) 、n b ( n e u r o b l a s t o m a ) 和 r m s ( r h a b d o m y o s a r c o m a ) 。在显微镜下,这些亚型的肿瘤细胞看起来都非常相 似,在i 临床上极容易误诊。目i j 还没有一种单一的化学或者生物学测试方法能 够把这四种亚型准确区分开。本文采用了k h a n 等收集的s r b c t 数据集作为实 验数据【卯。数据集共有8 8 例样本,每例样本均含2 3 0 8 个基因的表达数据,其 中有2 9 例e w s ,1 1 例b l ,1 8 例n b ,2 5 例r m s ,另外有5 例非s r b c t 样 本。本研究的目的是对多类肿瘤亚型进行分类预测,因此将这5 例非s r b c t 样本排除,只对其余8 3 例样本进行分析。数据集的划分如表4 1 所示。 表4 - 1 样本划分情况表 肿瘤程型数据集训练集测试集 e w s 2 9 2 36 b l 1 1 83 n b1 81 26 r m s 2 52 0 5 合计8 36 32 0 查丝! 堕里墼塑墨塑塑坌鍪塑 i m a g ei d g e n ed e s c r i p t i o ne w s - t ib l - c $ n b - c ir m s - c 4 硕士学位论文 第四章基t - g b 指标的基因表达谱分类分析 表4 - 2 列出了s r b c t 数据集中的部分数据。图中第一列为基因的标号,第 - - y 0 为基因的描述,第三列开始每一列代表一个样本,样本的第一行标明了该 样本的类别。 数据来自:h t t p :r e s e a r c h n h g r i n i h g o v m i c r o a r r a y s u p p l e m e n t 。 4 3g b 指标的构建与无关基因的剔除 本文将g i n i 指数与基因的类加权b h a t t a e h a r y y a 距离相结合,构建综合性分类 信息指标一一g b 指标,作为衡量基因分类信息的标准。基因的b h a t t a c h a r y y a 距 离相对于信噪比,直接体现了贝叶斯分类器的分类错误率,具有更深厚理论基础, 同时,以各类样本占总样本的比例为加权系数,对基因在每个类别相对其余类别 的b h a t t a c h a r y y a 距离进行加权,可以更准确的计算出基因的分类信息量。g b 指 标可以理准确地从均值、方差及数据分布的不平等性三个方面考察基因的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中国铁建校园招聘面试经典题及答案
- 代购佣金合同
- 2025年高中学业水平考试模拟信息技术试卷试题(含答案详解)
- 农村畜牧饲养与疫病防控责任协议
- 2025年高等院校逻辑学考试真题及答案
- 2025年甘肃省武威市国家公务员公共基础知识模拟题(附答案)
- 2025年外事办公室翻译招聘面试(西班牙语)模拟题及答案
- 2025药店员工劳动合同协议书范例
- 公共交通站点与基础设施规划管理合同
- 叙事作文一件令我感动的事700字15篇
- 读书分享读书交流会《乡土中国》课件
- 《电子商务概论》(第3版)白东蕊主编 第一章电子商务概述课件
- 眼的生物化学讲义
- 全业务竞争挑战浙江公司社会渠道管理经验汇报
- 护理副高职称答辩5分钟简述范文
- GB/T 42195-2022老年人能力评估规范
- GB/T 4909.4-2009裸电线试验方法第4部分:扭转试验
- GB/T 15155-1994滤波器用压电陶瓷材料通用技术条件
- 做一名优秀教师课件
- 企业标准编写模板
- 商场开荒保洁计划书
评论
0/150
提交评论