(计算机应用技术专业论文)SELDI血清蛋白质谱肿瘤标志物挖掘方法研究.pdf_第1页
(计算机应用技术专业论文)SELDI血清蛋白质谱肿瘤标志物挖掘方法研究.pdf_第2页
(计算机应用技术专业论文)SELDI血清蛋白质谱肿瘤标志物挖掘方法研究.pdf_第3页
(计算机应用技术专业论文)SELDI血清蛋白质谱肿瘤标志物挖掘方法研究.pdf_第4页
(计算机应用技术专业论文)SELDI血清蛋白质谱肿瘤标志物挖掘方法研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(计算机应用技术专业论文)SELDI血清蛋白质谱肿瘤标志物挖掘方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕上学位论文摘要 摘要 一直以来,各类恶性肿瘤严重威胁着人类的生命健康。恶性肿瘤的早期发现、 早期诊断、早期治疗是提高大多数肿瘤患者治疗效果的关键。目前,表而增强激 光解吸电离一飞行时间质谱( s e l d i t o f m s ) 技术由于其高通量以及快速简便的 特点,已在蛋白质组学肿瘤临床研究中得到了普遍应用。 然而s e l d i t o f m s 技术的可靠性和可重复性仍显得相对不足,且其高通量 的技术特点势必产生海量的数据。如何从这些海量的数据中挖掘出具有样本类别 标识意义的肿瘤标志物,目前还缺乏一个统一的模型构建方法。本文在利用现有 s e l d i t o f m s 技术的基础上,提出了从s e l d i 血清蛋白质中提取具有良好敏感 性和特异性的肿瘤标志物挖掘方法。具体工作可以总结为以下几个方面: ( 1 ) 通过数据预处理方法从原始质谱数据中提取有效的蛋白峰簇。在具体的 预处理方法改进上,本文提出了分段小波阈值降噪方法和分子量动态校正方法, 使得从原始数据信号中获得的蛋白峰簇具有更高的可靠性和可重复性。 ( 2 ) 提出了遗传算法结合具体分类器的肿瘤标志物挖掘模型。一方面,本文 采用遗传算法搜寻最优的差异蛋白峰簇的组合,并且对基本遗传算法的具体参数 设置上进行了改进;另一方面,本文将支持向量机、神经网络、k 近邻法运用到 肿瘤标志物分类器的实现上,并且进行了比较。 ( 3 ) 运用上述预处理方法和肿瘤标志物挖掘模型,给出一个从大肠癌血清样 本中挖掘肿瘤标志物的具体实例。得到的肿瘤标准物有着较高的敏感性和特异 性,表明该肿瘤标志物挖掘方法具有良好的临床应用价值。 关键词: 蛋白质组学,s e l d i t o f m s ,数据预处理,遗传算法,支持向量机, 神经网络,k 近邻法 浙江大学硕士学位论文 a b s t r a c t a b s t r a c t i ti sw e l lk n o w nt h a tm a l i g n a n tt u m o r sh a v eb e e ns e r i o u s l yt h r e a t e n i n gh u m a n s l i f ea n dh e a l t h e a r l yd i a g n o s i sa n dp r e v e n t i o no nc a n c e r sp l a y sa l li m p o r t a n tr o l ei n t u m o rt h e r a p y a tp r e s e n t ,s u r f a c ee n h a n c e dl a s e rd e s o r p t i o n 1 0 n i z a t i o nt i m eo f f l i g h tm a s ss p e c t r o m e t r y ( s e l d i t o f - m s ) ,ah i g h t h r o u g h p u ta n df a s tt e c h n o l o g y , h a sb e e ng e n e r a l l yu s e di nc l i n i c a ld i a g n o s i so fc a n c e r s h o w e v e r ,t h er e l i a b i l i t ya n dt h er e p r o d u c i b i l i t yo fs e l d i - t o f m st e c h n o l o g y a r es t i l lr e l a t i v e l yd e f i c i e n c y m e a n w h i l e ,t h i sh i g h t h r o u g h p u tp r o t e o m i c st e c h n o l o g y c o u l dg e n e r a t em a s s i v ed a t a t h i st h e s i sp r o p o s e dak i n do ft u m o rm a r k e r sm i n i n g m e t h o dt oe x t r a c tt u m o rm a r k e r sw i t hh i g hs e n s i t i v i t ya n ds p e c i f i c i t yf r o ms e l d i s e r u mp r o t e i n c h i p s t h em a i nc o n t r i b u t i o n so f t h i sp a p e ra r el i s t e da sf o l l o w s : ( 1 ) a p p l i e dt h ed a t ap r e p r o c e s s i n gm e t h o dt oo b t a i nt h ee f f e c t i v ep r o t e i np e a k c l u s t e r s t h ei m p r o v e m e n t si n c l u d i n gs e c t i o nt h r e s h o l dw a v e l e td e n o i s i n gm e t h o da n d p r o t e i nm a s sd y n a m i cc a l i b r a t i o nm e t h o da r ep u tf o r w a r dt oo b t a i nm o r er e l i a b l ea n d r e p r o d u c i b l ep e a kc l u s t e r sf r o mo r i g i n a lp r o t e i n c h i p s ( 2 ) 。p r o p o s e dt h ed i a g n o s t i cm o d e la s s o c i a t i n gg e n e t i ca l g o r i t h m ( g a ) w i t h s p e c i f i cc l a s s i f i e r sf o rt u m o rm a r k e re x t r a c t i o n t h i sp a p e ra d o p t e dg e n e t i ca l g o r i t h m t os e a r c ht h e o p t i m a lc o m b i n a t i o no fd i s t i n c tp e a kc l u s t e r sa n dm a d es o m e i m p r o v e m e n to ns p e c i f i cp a r a m e t e rs e t t i n g s m o r e o v e r , s u p p o r tv e c t o rm a c h i n e s ( s v m ) ,a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) a n dkn e a r e s tn e i g h b o r h o o d ( k n n ) a r e i m p l e m e n t e da n di m p r o v e da st u m o rm a r k e r sc l a s s i f i e r s ( 3 ) g a v ea na p p l i c a t i o no fe x t r a c t i n gt u m o rm a r k e r sf r o mc o l o r e c t a lc a n c e rs e r u m s a m p l e su s i n gt h ed a t ap r e p r o c e s s i n gm e t h o da n dd i a g n o s t i cm o d e la b o v e t h e e x t r a c t e dr e s u l tw i t h h i g hs e n s i t i v i t ya n ds p e c i f i c i t ys h o w e dt h et u m o rm a r k e r s e x t r a c t i n gm e t h o d o l o g yh a sag r e a tv a l u eo fc l i n i c a lp r a c t i c e s k e y w o r d s :p r o t e o m i c s ,s e l d i - t o f m s ,d a t ap r e p r o c e s s i n g ,g a ,s v m ,a n n , k n n 浙江大学硕士学位论文图h 录 图目录 图2 1s e l d i t o f m s 系统结构图。7 图2 2s v m 最优分类面示意图11 图3 1 数据预处理流程图15 图3 2 典型的s e l d i 二维质谱图1 6 图3 3 硬闽值和软阈值降噪区别一l8 图3 4 不同阈值对应的噪声信号1 9 图3 51 0 个重复样本的热图和质谱图2 1 图3 - 6 不同阈值处理得到的蚩白峰2 2 图3 7 阈值为2 0 和1 2 0 降噪结果对比2 3 图3 8p r o t e i n c h i p 和分段闽值降噪结果对比2 5 图3 - 9 移动窗口最小值拟合均值滤波算法框图一2 6 图3 10 原始信号、摹线以及去基线后的信号2 7 图3 11 分子量校正前后对比图3 0 图3 1 2 蛋白峰寻找以及蛋白峰聚簇3 2 图3 1 3 丰度均一化f j i 后对比图3 5 图4 1 遗传算法结合具体分类器模型结构图4 0 图4 2 采用单一交叉变异概率与可变交叉变异概率的性能对比4 6 图4 3 小生境方法采用与否的结果对比图4 9 图4 4 三种训练算法性能对比图5 3 图4 5 训练样本矩阵压缩示意图5 5 图4 68 0 个样本的模型性能对比图5 8 图4 78 0 0 个样本的模型性能对比图5 8 图5 18 5 个样本的质谱图6 l 图5 2 数据预处理各个步骤执行结果6 2 图5 3g a 各代最优适应度和平均适应度6 4 图5 - 4 最终代种群中的最佳个体基因6 4 图5 54 个肿瘤标志物在热图中的位置6 5 i i i 浙江大学顾士学位论文表口录 表目录 表3 1s e l d lx m l 文件的标签16 表3 2 阈值向量分段降噪结果评估2 4 表4 1 特征向量过滤与否结果对比3 8 表4 2 种群生成策略对比4 5 表4 3 可变交叉变异概率取值表4 6 表4 4 采用欧式距离与加权欧式距离的结果对比5 6 表5 1 差异蛋白峰簇信息6 3 表5 - 2g a s v m 模型参数6 4 表5 3 肿瘤标志物信息6 5 表5 - 4g a s v m 模型的训练与测试结果6 6 i v 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成 果,也不包含为获得逝婆盘堂或其他教育机构的学位或证书而使用过的材料。与我一 同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 一魏藕吨铲期一憎岁月夕日 学位论文版权使用授权书 本学位论文作者完全了解迸鎏盘堂有权保留并向国家有关部门或机构送交本 论文的复印件和磁盘,允许论文被查阅和借阅。本人授权堑婆盘堂可以将学位论文的 全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:蒋l f 阵 导师签名:挑从 签字日期:p 。弦年乡月夕日 签字日期:w t 。年弓月夕日 浙江大学硕士学位论文第1 章绪论 第1 章绪论 1 1 研究的背景、目的和意义 一直以来,恶性肿瘤严重威胁着人类的生命健康。在我国,随着经济社会的 发展,人们生活水平、饮食营养、环境状况,特别是人口城市化、老龄化以及生 活方式的变化,使得我国城乡的恶性肿瘤死亡率已居于世界较高水平。尤其在城 市,恶性肿瘤已经成为了首位死因,且死亡率呈持续增长趋势,目前,恶性肿瘤 的死亡率比7 0 年代中期增加了8 3 1 ,比9 0 年代初期增加了2 2 5 。可见,恶 性肿瘤的诊断与防治已经成为当务之急。其中,恶性肿瘤的早期发现、早期诊断、 早期治疗是提高大多数恶性肿瘤患者治疗效果的关键。 目前常用于临床中的血清标志物往往是单一的肿瘤标志物,且大多数为特异 性较低的肿瘤相关标志物【1 1 。从病理上来看,肿瘤是一种多基因参与、多步骤发 展、内外环境交互作用下形成的复杂疾病,因此采用单一的肿瘤标志物通常难以 反映出肿瘤的全貌特征,而综合相对全面地反映肿瘤特征的多种肿瘤标志物信息 可以达到更好的诊断效果。考虑到蛋白质是生命活动的具体执行者和体现者,因 此需要在蛋白质组的水平上,深入探索恶性肿瘤发病机制,找出特异性、灵敏性 较高的肿瘤标志物。随着蛋白质组学的提出与发展,蛋白质组学在肿瘤方面的研 究与应用也越来越广泛。表面增强激光解吸电离一飞行时间质谱 ( s u r f a c e - e n h a n c e dl a s e rd e s o r p t i o n i o n i z a t i o nt i m e - o f - f l i g h tm a s ss p e c t r o m e t r y , s e l d i t o f m s ) 是近几年发展起来的一种全新的蛋白质组学研究手段【2 ,3 1 。与其他 蛋白质组学研究方法相比,该方法可以直接对临床样本进行检测,具有高通量检 测以及快速简便的技术平台的优势,在肿瘤的早期诊断以及防治中起着重大的推 动作用。 由于s e l d i t o f m s 是一种高通量的血清蛋白质谱方法,而高通量的特点会 导致生成数据的海量性。因此,需要采用数据挖掘的一些方法和技术从中过滤掉 不必要的数据信息,从而挖掘出可靠的、能够具有肿瘤识别意义的标志性蛋白峰 浙江大学硕士学位论文第1 章绪论 作为肿瘤标志物。 1 2 研究的主要内容以及创新 本研究以s e l d i t o f m s 质谱技术为基础,从解析后的s e l d i t o f m s 蛋 白质质谱数据筛选出可靠的,具有样本分类意义的肿瘤标志物。研究主要包括两 部分内容: ( 1 ) 对原始蛋白质质谱数据先进行数据预处理。通过噪声消除、去除基线漂 移、分子量校正、信噪比过滤、蛋白峰聚簇以及蛋白丰度均一化等一系列预处理 方法,从原始数据中去除数据中的噪声干扰,并且对有误差的数据进行了校正, 从而寻找出质量较好、可重复性较高的蛋白峰簇,为下一步的特征提取以及模型 建立做好准备。 ( 2 ) 通过分析遗传算法进行特征蛋白峰组合搜索的优势,将遗传算法运用到 肿瘤标志物挖掘中,提出了基于遗传算法结合具体分类器的肿瘤标志物挖掘模 型。在具体分类器的实现上,将支持向量机、神经网络以及k 近邻法三种分类器 运用其中,并且对三种分类器的性能进行分析与比较。 本文的研究内容具有如下方面的创新: 。( 1 ) 提出了一种基于小波降噪的分段硬阈值降噪方法,针对s e l d i t o f m s 原始数据中噪声信号非均匀分布的特点,有效地去除原始数据中的噪声数据,从 而克服了传统的单一阈值降噪仅能消除均匀分布噪声信号的不足。 ( 2 ) 提出了一种分子量动态校正的方法,使得分子量的校正可以自适应地进 行,克服了传统的内标分子量校正法需要事先知道特定校正分子量值的应用局限 性。 ( 3 1 提出了遗传算法结合具体分类器的方法用于建立肿瘤标志物挖掘模型。 此外,本研究对基本遗传算法的一些参数进行了优化,包括将小生境方法融入到 遗传算法中,从而使得遗传算法更容易搜寻到符合临床标准的肿瘤标志物。 2 浙江大学硕l 学位论文第l 章绪论 1 3 本文组织结构 本文的结构安排如下: 第一章介绍了研究背景、目的、意义,论文的主要研究内容以及创新。 第二章介绍了本文所用到的一些技术,包括蛋白质组学、s e l d i t o f m s 质谱技术以及文本所用到的数据挖掘的一些方法。 第三章详细介绍了数据预处理的一系列方法。 第四章详细阐述了基于遗传算法结合具体分类器的肿瘤标志物挖掘模型建 立过程。 第五章给出一个从大肠癌血清样本中挖掘肿瘤标志物的具体应用实例。 第六章总结与展望。对本文的研究工作进行了总结,并且提出了改进的措 施以及未来工作的发展方向。 浙江大学硕j :学位论文 第2 章相关技术介绍 第2 章相关技术介绍 随着9 0 年代基因计划的完成,以蛋白质为研究对象的蛋白质组学( p r o t e o m i c s l 已经显得越来越为重要。目前,蛋白质组学的发展已经推进了大量的对于复杂蛋 白质表现模式、蛋白间交互以及其转译变化的研究工作。其中,表面增强激光解 吸电离飞行时间质谱( s e l d i t o f m s ) 技术有着高通量以及快速简便的技术优 势,在肿瘤早期的诊断以及防治中有着重大的推动作用。 2 1 蛋白质组学简介 随着人类基因组计划的实施和推进,生命科学研究已经进入了后基因组时 代。在这个时代,生命科学的主要研究对象是功能基凶组学,包括结构基因组研 究和蛋白质组研究等等。传统的对单个蛋白质进行研究的方式已无法满足后基因 组时代的要求。这是因为:1 生命现象的发生往往是多因素影响的,必然涉及到 多个蛋白质;2 多个蛋白质的参与是交织成网络的,或平行发生,或呈级联冈果; 3 在执行生理功能时蛋白质的表现是多样的、动态的,并不像基因组那样基本固 定不变。要对生命的复杂活动有全面和深入的认识,必然要在整体、动态、网络 的水平上对蛋白质进行研究。因此在2 0 世纪9 0 年代中期,国际上诞生了一门新 兴学科一蛋白质组学。 蛋白质组学( p r o t e o m e ) 一词,由w i l l i a n 等【4 】于19 9 5 年首次提出。它源于蛋白 质( p r o t e i n ) 与基冈组( g e n o m e ) 两个词的杂合,意指“一种基因组所表达的全套蛋白 质”,即包括一种细胞乃至一种生物所表达的全部蛋白质。蛋白质组本质上指的 是在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平,翻译后的修饰, 蛋白与蛋白相互作用等,由此获得蛋白质水平上的关于疾病发生,细胞代谢等过 程的整体而全面的认识。 2 0 0 1 年的s c i e n c e 杂志已把蛋白质组学列为当前世界上的六大研究热点之 一,其“热度”仅次于干细胞研究,名列第二。由此可见蛋白质组学受关注的程 度。 4 浙江大学硕i :学位论文第2 章相关技术介绍 2 1 1 蛋白质组学的主要技术 现今蛋白质组学中研究的主要技术分为双向凝胶电泳技术( 2 d e ) 和质谱技术 ( m s ) 。 2 d e 技术产生于1 9 7 5 年是一项广泛应用于分离细胞、组织、或其他生物样 品中蛋白质混合物的技术。它根据蛋白质不同的特点分两相分离蛋白质。第一相 是等电聚焦( i e f ) 电泳,根据蛋白质等电点的不同进行分离;第二相是s d s 聚丙 烯酰胺凝胶电泳( s d s p a g e ) ,根据蛋白质的分子量不同进行分离。2 d e 技术是可 以溶解大量蛋白质并进行定量的方法,具有高通量、重复性好、敏感性较高等优 点,但该技术的蛋白表达水平差异较大,尤其是一些极大和极小丰度的蛋白不易 被检测到【5 ,6 】。此外,双向电泳技术普遍操作耗时长,要求技术条件比较高,仪器 也相对较昂贵。 质谱技术的基本原理是样品分子离子化后根据不同离子问的质荷比( m z ) 的 差异来分离并确定分子量。应用该原理,目前在三种技术被应用于蛋白质组学的 研究: 电子喷雾电离质谱检测技术( e l e c t r os p r a yi o n i z a t i o nm a s ss p e c t r o m e t r y , e s i - m s ) 基质辅助激光解吸电离飞行时间质谱技术r m a t r i xa s s i s t e dl a s e r d e s o r p t i o n i o n i z a t i o nt i m e - o f - f l i g h tm a s ss p e c t r o m e t r y ,m a l d i - t o f m s 、 表面增强激光解吸离子化飞行时间质谱技术( s u r f a c ee n h a n c e dl a s e r d e s o r p t i o n i o n i z a t i o nt i m e o f - f l i g h tm a s ss p e c t r o m e t r y ,s e l d i - t o f m s l 其中,e s i m s 技术可以较为精确地测出蛋白质等大分子的分子量,目前还 用于氨基酸肽序列、多糖序列鉴定等。但该技术灵敏度稍低,且系统复杂,操作 要求也相对较高,通常并不用于常规和高通量分析【7 1 。m a l d i t o f m s 技术具有 操作简便、分析速度较快、敏感度较高等特点,但该技术应用范围仅局限于鉴定 数据库中已知序列的蛋白质,且对样本的纯度质量要求较高【8 1 。而s e l d i t o f m s 技术集蛋白质芯片和质谱技术于一体,具有灵敏度高,样本要求低等特点,可同 时检测高分子量和低分子量蛋白质,实现了高效、快速、高通量的检测,为蛋白 浙江大学硕士学位论文第2 章相关技术介绍 质组学的研究提供了更为行之有效的方法。 2 1 2 蛋白质组学在肿瘤研究中的应用 利用蛋白质组学的研究方法对肿瘤及正常或良性病变的差异表达蛋白质进 行鉴定、定量、表征、筛选与痛相关的蛋白标记,已成为目前应用较广泛的方法。 蛋白质组学的研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机理 的阐明及攻克提供理论根据和解决途径。随着恶性肿瘤发病率的显著提高,恶性 肿瘤的早期诊断及早期治疗已经成为现阶段亟待解决的问题。肿瘤在其不同的发 病阶段,即使在没有任何症状的早期,在蛋白质水平方面就已经发生了变化,而 这些被认为在早期发生的蛋白质变化都有可能成为临床早期的诊断指标。肿瘤标 志物( t u m o rm a r k e r s ) 就是指肿瘤自分泌产生或肿瘤与宿主机体相互作用产生的, 存在于体液、组织或细胞内的标志着新牛物出现的物质。通过测定其含量可辅助 肿瘤诊断、指导治疗、监测复发或转移、判断预后。因此,肿瘤标志物的成功筛 选成为恶性肿瘤早期发现及早期诊断的关键。 2 2s e l d i t o f m s 技术简介 表面增强激光解吸电离光谱技术是由2 0 0 2 年诺贝尔化学奖得主田中耕一 ( t a n a k a ) 发明,由美国的h u t c h e n s 和y i p 完善,并由美国赛弗吉( c i p h e r g e n ) 公司 研制特殊芯片并生产以及投入使用。其在临床实验诊断学中的主要工作原理是利 用蛋白质芯片( p r o t e i n c h i p ) 和表面增强激光解吸离子化飞行时间质谱仪对体液中 各种蛋白质,包括疾病早期最微小基因表达产物如低分子量蛋白质、多肽等进行 动态、全景分析,获得待检标本中各种蛋白的含量及其分子量等信息,绘制成蛋 白质指纹图谱,再通过计算机软件将正常人、亚健康状态人群、良性疾病和癌症 病人的指纹图谱库对照,比较分析差异,就能快速、敏感和特异地发现和捕获新 的与疾病相关的蛋白。 2 2 1s e l d i t o f m s 系统结构 s e l d i t o f m s 的系统结构图如图2 1 所示。整个系统丰要由以下三个部分 6 淅学学位电文第2 $ 相关技术舟镕 | | 一 图2 - is e l d l t o f - m s 系统结构图 ( 1 ) 蛋白质芯片,又称蛋白质撕t j ( p r o t e i nm i c r o a r m y ) 。它是质谱技术的载 体。将制备好的蛋白质样品固定于经化学修饰的玻片或硅片等载体上,蛋白质与 载体表面结合同时仍保留蛋白质的理化性质和生物活性,可以高教她大规模获 取生物体中蛋白质的信息。目前常用的s e l d i 蛋白质芯片分为化学胞谱芯片以 及生物芯片。 ( 2 ) 激光吸收离子化质谱设备,即s e l d ! t o r - m s 系统芯片阅读器。芯片上 的蛋白在特定激光照射下发生解离,带电粒子通过电场时被加速,检测仪记录飞 行时间。粒子的质量越小,相对所带电荷越多,质荷比m z 越小,飞行时间越短, 被最先检测到;反之粒子的质量越大,相对所带电荷越少,质荷比m z 越大,飞 行时间越长,则后被检测到。测到的信号由高速模拟数字转化器转换并被记录。 ( 3 ) 数据分析处理软件系统,目前主要有c i r , h e r g e ns o i t w a r e 和b i o m a r k e r p a t t e r ns o t = t w a r e 等。其主要功能包括数据库的建立、内部信息及外部信息的校准、 数据处理和分析。借助软件控制分析系统可以使整个过程变得自动化,简便化。 通过对已知两组或多组实验数据进行差异性分析,从而寻找原始数据中有鉴别意 义的质谱图。 浙江大学硕1 1 二学位论文第2 章相关技术介绍 2 2 2s e l d i - t o f m s 的优势与缺陷 日前s e l d i t o f m s 技术在医学方面的应用相当广泛,已经开始用于临床疾 病的诊断和疗效j i i 测,而这些疾病之中又以恶性肿瘤被研究得最多。利用该技术 用于肿瘤研究已经发现了一系列新的肿瘤特异性标志物,使得对恶性肿瘤的诊断 敏感性和特异性都取得了极大的提高。其中,胃癌、肺癌、胰腺癌、肝癌和乳腺 癌等众多恶性肿瘤临床诊断结果标明,运用s e l d i t o f m s 技术找到的肿瘤标志 物均具有较高的敏感性和特异性。 然而s e l d i t o f m s 与其他高通量技术一样,其实验的可靠性和可重复性经 常引发国内外研究者的质疑。一是因为s e l d i 仪器设备的精密性和要求操作的相 对专业性,使得具体实验操作过程中,由于客观或者人为因素造成实验条件的微 小变化都会可能得到不同的实验结果。二是由于处理方法的各异,导致不同研究 者对同一研究对象处理得到的蛋白质谱峰显示出不一致性,使得实验结果的可重 复性相对不足。因此,为了使实验能够产生高质量的蛋白质谱峰,保证实验的可 靠性和可重复性,提出高精度,具有相对严格意义的数据标准化处理方法显得尤 为重要。 2 3 数据挖掘技术 s e l d i t o f m s 高通量的血清蛋白质质谱法决定其产生数据的海量性。因而 如何从海量数据中可靠地提取与识别肿瘤标志物就成为s e l d i t o f m s 技术能 否继续广泛应用以及深入研究的关键。因此,往往需要利用数据挖掘的方法从海 量的数据中搜寻出具有样本类别标识能力的特征蛋白质谱峰作为肿瘤标志物。 数据挖掘( d a t am i n i n g ) ,是从指从大量数据中挖掘并发现有效的、新颖的、 潜在的、有用的、最终可理解的知识的过程【l o 】。它是- - f - j 涉及面很广的交叉学科, 包括机器学习、数理统计、神经网络、遗传算法、数据库、模式识别、粗糙集、 模糊数学等相关技术。作为- - f - j 兴盛已久的学科和技术,数据挖掘有着极强的应 用背景和应用目标,已广泛用于客户关系管理、市场营销、欺诈检测、银行、科 研、电信、医疗、保险、电子商务、网络等。 8 浙江大学硕l 二学位论文第2 章相关技术介绍 目前采用数据挖掘方法以解决蛋白质质谱法产生海量数据分析问题的算法 研究有:k - n e a r e s tn e i g h b o r s ( k n n ) 方法 j1 1 、贝叶斯快速傅立叶变换法【1 2 1 、判别分 析、人工神经网络【1 3 】、主成分分析和聚类分析【1 4 】等等。虽然方法众多,但缺少一 套比较抽象与统一的建模方法以及评估方法来提取与验证各类肿瘤血清蛋白中 的肿瘤标志物。在实际应用中,目前罔内外在s e l d i 数据处理上使用最多的还是 决策树算法,由b i o m a r k e rp a t t e r n ss o f t w a r e ( b p s ) 1 5 】实现。该方法在分析高通量数 据时非常繁琐,且效率低下,分析所耗费的时间往往会远大于实验样本形成的时 间。因此,数据挖掘方法的选取与实现直接影响到肿瘤标志物提取的精确性与适 用性。 本文运用了遗传算法这种全局的搜索算法作为肿瘤标志物的搜索技术,并运 用了支持向量机、神经网络、k 近邻法这三种分类器来评价肿瘤标志物的样本类 别识别能力。 2 3 1 遗传算法简介 遗传算法( g e n e t i ca l g o r i t h m ,简称g a ) ,在2 0 世纪6 0 年代由美国m i c h i g a n 大学的h o l l a n d 教授首次提出【1 8 】,7 0 年代d ej o n g 基于遗传算法的思想在计算机 上进行了大量的纯数值函数优化计算实验 1 9 1 。8 0 年代,g o i d b e r g 对一系列研究工 作进行归纳总结,提出了遗传算法的基本框架【2 0 】。9 0 年代,遗传算法进入发展高 潮阶段,在科学计算、工程技术和社会经济中都有着火量的运用。 从算法的起源来看,遗传算法是根据达尔文的自然选择学说和孟德尔的遗传 变异学说而建立的,模仿自然界生物进化机制而发展起来的一种鲁棒的、自适应 的、开放性的随机全局搜索和优化方法。它将生物进化的原理和机制引入到实际 问题的求解过程之中。问题中的解群体称之为叫种群( p o p u l a t i o n ) 。其中一个具体 的解称之为个体( i n d i v i d u a l ) ,通常由位串编码构成。用适应度( f i t n e s s ) 来评价每个 个体的优劣程度。 遗传算法通过一系列遗传操作产生问题的最优个体解。常见的遗传操作包括 选择、交叉和变异三个过程,其具体算子如下: 9 浙江大学硕i :学位论文 第2 章相关技术介绍 ( 1 ) 选择算子 选择( s e l e c t i o n ) ,又称复锘l j ( r e p r o d u c t i o n ) ,是指将一个种群中适应度高的优 良个体被复制到下一代中。适应度高的个体往往被称作为精英个体( e l i t e i n d i v i d u a l ) 。遗传算法通过选择操作体现这一思想,使得适应度高的个体在下一代 群体中生存的几率较大,体现出“优胜劣汰,适者生存”的进化原则。 ( 2 ) 交叉算子 交叉( c r o s s o v e r ) ,又称重组( r e c o m b i n a t i o n ) ,是遗传算法中产生新个体的主 要操作,其思路为按一定的概率( 被称为交叉概率,p 。) 从种群中选择两个个体作 为父染色体,交换这两个个体的某个或某些基因,从而产生新的个体。它是模仿 自然界生物进化过程中,两个同源染色体通过交配重组,从而形成新的染色体的 过程。 ( 3 ) 变异算子 变异( m u t a t i o n ) ,是指以一个较小的概率( 被称为变异概率,p 。) 对染色体串上 的某个或几个基因位进行改变,从而产生新的个体。它是模仿生物在自然进化中, 细胞分裂复制环节有可能因为一些偶然因素而造成复制差错,导致某些基因发生 变异的过程。在遗传算法中采用变异算子,可以改善遗传算法的局部搜索能力, 维持群体的多样性。 2 3 2 支持向量机 支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是在2 0 世纪9 0 年代i 由v a p n i k 等人 根据统计学习理论提出的一种机器学习方法 2 3 - 2 5 。它建立在结构风险最小化原则 ( s t r u c t u r a lr i s km i n i m i z a t i o ni n d u c t i v ep r i n c i p l e ) 基础之上【2 6 】,具有很强的学习能力 和泛化性能,能够较好地解决小样本、高维数、非线性等问题。其基本思想可由 下面的图2 2 中两类线性可分的问题来说明。 1 0 浙江大学硕l :学位论文第2 章相关技术介绍 图2 2s v m 最优分类面不意图 在图2 - 2 q b ,空心点和实心点分别代表两类样本,h 为分类超平面,h 1 ,h 2 分别代表各类中离分类面最近的样本且h l ,h 2 与h 互相平行,h l 与h 2 之间的距离 称为分类间隔( m a 曙i n ) 。所谓最优分类面就是要构造一个分类平i l i i u ,使其不但能 够将两类样本分开,而且要使分类间隔最大。 记大小为工的训练样本集为( x ,y ,) ,薯r d ,” + 1 ,- 1 ) ,f = 1 , 2 ,三。其 中只为+ l 表示样本t 属于第一类,以为一1 表示样本x ,属于第二类。支持向量机 的目的在于寻找分类超平面h : w7 1 x + ,= 0 ( 2 1 ) 使得样本集满足: y ,( w 7 薯+ ,) 一1 0 ,= 1 , 2 ,l ( 2 2 ) 同时分类间隔可以表示为: 肌= m m i n 钏嗡,4 - r a 圹i n 嗡掣= 赢 亿3 , 要使分类间隔p ( w ,) 最大,则需要使l lw | | 最小。利用l a g r a n g e 乘子以及对 偶原理,该问题的求解便可转化为对偶的约束二次优化问题,如式( 2 4 ) 所示。 浙江大学硕士学位论文第2 章相关技术介绍 m a x m i z e ( 口) = 口,一去口,口j y ,y i = 1 ,1 = 1 s u b j e c tt o口,”= 0 ( 2 4 ) i = 1 w h e r e 口,0i = 1 , 2 , 式( 2 4 ) 中口,是拉格朗日乘子。对于非支持向量的样本其口,均为零。只有当x , 为支持向量时,它所对应的口i 才大于零。 2 3 3 神经网络 神经网络是人工神经网络( a r t i f i c i a ln e u r a ln e t w o r k ,a n y ) 的简称,它是模仿 生物学上人脑神经网络的结构和功能,以及若干基本特性的某种理论抽象、简化 和模拟而构成的一种分布式信息处理结构。由于它吸收了生物神经网络的许多优 点,因此具有分布式信息存储、自学习和自适应性、较强的容错性等特点。 神经网络的初始研究可追溯到2 0 世纪4 0 年代,曾一度由于被证明感知器的 局限性而陷入低潮,直到2 0 世纪8 0 年代才再度掀起研究热潮。目前,神经网络 在诸多领域如模式识别与图像处理、控制与优化、预测与管理、通信等得到了广 泛的应用。 在一个神经网络中,基本的组成单元称为人工神经元。它是对生物神经元的 简化和模拟,如同生物神经元一样,有多个输入,一个或多个输出,每个输入有 各自的连接权值。 b p 神经网络就是由上述的一个个神经元通过某种传递函数连接起来的一个 网络结构。其结构一般分为三层:输入层、输出层和隐含层,隐含层的个数为一 个或者多个。每一层可包含一个或多个神经元,每个神经元与前一层相连。b p 网络的学习过程包括前向传播过程( f o r w a r dp h a s e ) 和反向传播过程( b a c k w a r d p h a s e ) i 丙部分。给定网络一个输入,由输入层传到隐含层,经隐含层单元逐层处 理后再输送到输出层,产生一个输出响应,这称为前向传播;如果输出响应不满 足期单输出模式,则将误差沿原来通路从输出层到输入层反向逐层传递,并修正 各层的连接权值,直到误差达到指定范围之内,该过程称为反向传播。 1 2 浙江大学硕士学位论文 第2 章相关技术介绍 经典的b p 算法中往往通过梯度下降算法对行网络权值进行修正。然而在实 际应用中,梯度下降算法往往存在因固定学习速率造成收敛速度慢、因误差曲面 存在许多局部极小值而不容易收敛至全局最小值、过度拟合和训练不足问题等 等,因此,往往采用改进的算法,比如采用启发式学习方法,包括带动量项的b p 算法,变化学习率的b p 算法等等。此外还可采用l e v e n b e r g m a r q u a r d t 方法,它 是梯度下降和g a u s s - n e w t o n 方法的结合,集g a u s s - n e w t o n 方法的局部收敛特性 和梯度下降的全局特性于一体,可以使得学习时间更短,收敛速度更快 2 8 , 2 9 。 2 3 4k 近邻法 近邻法( n e a r e s tn e i g h b o r h o o d ) 最早由c o v e r 和h a r t 于19 6 8 年提出。其核心 思想为在判别一个未知类别的样本时,计算该样本x 到所有训练样本的距离,与x 距离最近的训练样本类别即为x 所属的样本类别。记有c 个类别w 。,w 2 c w c ,每 类事先标明类别的样本为m 个,i = 1 , 2 ,c 。规定一个未知样本x 与某个类别w , 的判别函数表示为: z ( x ) = m i ni ix x ,l l k = 1 , 2 ,m ( 2 5 ) 式( 2 5 ) 中x l 表示w ,类共m 个样本中的第七个样本。这样,一个未知样本x 所 属类别的决策规则为:若, ) = m i n f , ( x ) ,f = 1 , 2 ,c ,则x w ,。 而k 近邻法( kn e a r e s tn e i g h b o r h o o d ,k n n ) 是n n 的推广,它在分类时选出 样本z 的k 个最近邻,看这k 个近邻中的多数属于哪一类,就将x 归属到那一类。 定义判别函数为,( x ) = k ,f = 9 2 ,c ,其中k ,表示七个最近邻中属于嵋类的样 本个数。决策规则为:若( x ) = m a x k ,f = 1 9 2 ,c ,则x w ,。 理论证明,k 近邻法对一个具体问题的分类的错误率为在贝叶斯错误率的一 倍与两倍之间 3 2 】,即:p e ,加,】胁。 尸【口r 阳r 】删 2 p e r r o r s 缈, 。 k n n 算法实 现简单,且当样本个数趋于无穷时分类效果接近最优等特点,使得其成为模式 识别的重要方法之一【3 l 】。 浙江大学硕士学位论文第2 章相关技术介绍 2 4 本章小结 本章简要地介绍了蛋白质组学的起源、发展以及常见的几种技术。其中对表 面增强激光解吸离子化飞行时间质谱技术( s e l d i t o f m s ) 进行了详细地介绍, 包括其系统结构,优势与缺陷。本章还介绍了目前数据挖掘技术在该领域的研究 与应用,且对本文所采用的遗传算法、支持向量机、神经网络和k 近邻法进行了 介绍。针对目前s e l d i t o f m s 质谱数据分析尚存在的缺陷,本研究通过一系列 数据预处理方法,得出可靠性和可重复性较好的蛋白质谱峰簇。此外,还采用数 据挖掘方法,建立了采用遗传算法结合具体分类器的肿瘤标志物挖掘模型,不仅 保证了肿瘤标志物提取的精确度,而且使得操作具有良好的适用性和高效性。数 据预处理以及肿瘤标志物挖掘模型建立的具体步骤将分别在本文的第三章和第 四章详细介绍。 1 4 浙江大学硕l 学位论文第3 章数据预处理 第3 章数据预处理 数据预处理( d a t ap r e p r o c e s s i n g ) 也称做数据标准化( d a mn o r m a l i z a t i o n ) ,是肿 瘤标志物分类挖掘中至关重要的一步。原始蛋白质质谱数据的预处理结果直接影 响着最终肿瘤标志物提取的准确率。经过p b s i i 表面增强激光解吸电离一飞行时 间质谱s e l d i t o f m s 质谱仪以及相应的数据提取软件p r o t e i n c h i ps o f t w a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论