(分析化学专业论文)离散小波变换分析蛋白质序列相似性.pdf_第1页
(分析化学专业论文)离散小波变换分析蛋白质序列相似性.pdf_第2页
(分析化学专业论文)离散小波变换分析蛋白质序列相似性.pdf_第3页
(分析化学专业论文)离散小波变换分析蛋白质序列相似性.pdf_第4页
(分析化学专业论文)离散小波变换分析蛋白质序列相似性.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

四川大学硕士学位论文 中文摘要 离散小波变换分析蛋白质序列相似性 化学计量学专业 研究生王克龙指导教师李梦龙 作为分子生物学分析的基本工具,生物序列分析在后基因组时代的生物信息 学中起着举足轻重的作用。对于蛋白质序列分析,关键在于有效地发现相似的序 列片断、特定的结构功能域和低相似性的同源序列。发现相似度较低的同源蛋 白质序列是生物序列分析的一大难题,小波变换在发现这种弱同源性的蛋白质序 列中有其独特的优势,尤其是发现氨基酸残基一致性低于2 5 的同源序列。小波 分析有它的很多不确定性,比如选取何种小波,分解几层等都对分析结果有很大 影响。为了规范本方法,本文主要讨论了用离散小波变换分析蛋白质序列相似性 的方法中五个关键因素,包括代替模型、小波、分解层数、比较方法、相似性的 度量。比较三个代替模型后发现,考虑了蛋白质的物理化学性质的三个主要方面 侧链组成、极性、分子体积这三个因素的代替模型( c 沙v 模型) 要优于其它两 个。我们通过c - p - v 模型代替后,对4 6 种小波做了比较,以确定何种小波更适合 于本方法,同时,确定了分解层数。我们发现本方法的结果受蛋白质序列长度影 响较大而与蛋白质序列的相似度无关。为了消除序列长度带来的影响,我们设计 了切片比较的方法,大大提高了长序列中相似性的发现率。为了评价用本方法分 析蛋白质序列相似性时序列的相似程度,我们设计了s 这一评价标准,并且成功 地应用于蛋白质序列数据库查询方法的辅助分析。 关键词:离散小波变换蛋白质序列分析代替模型相似性度量 四川大学硬士学位论文 英文摘要 a n a l y z i n gs i m i l a r i t y o f p r o t e i ns e q u e n c e s w i t h d i s c r e t e 舫v e l e tt r a n s f o r m m a j o r :c h e m o m e t r i c s g r a d u a t es t u d e n t :惭h 培k e i o n g a b s t r a c t t of i n dt h ef u n c t i o n a ls i m i l a t yo f p r o t e i n s w i t hl o w i d e n t i t yi sah i n g eo f p r o t e i ns e q u e n c ea n a l y s i s w a v e l e tt r a n s f o r ms h o w st h ea d v a n t a g ei n f i n d i n g t h eh o m o l o g yp r o t e i n sw i t hl o ws i m l l a d t y , e s p e c i a l l yw h o s e i d e n t i t y i si o w e rt h a n2 5 1 no r d e rt os t a n d a r d i z et h i sm e t h o d 。f i v e f a c t o r so fa n a l y z i n gt h es i m i l a r i t yo fp r o t e i ns e q u e n c e sw i t hd i s c r e t e w a v e l e tt r a n s f o r m ( d v 盯) w e r ed i s c u s s e d - i n c l u d i n gt h es u b s t i t u t i o n m o d e l jt h ew a v e l e t s ,t h ed e c o m p o s i t i o nl e v e l s ,t h ec o m p a d n gm e t h o d , a n dt h ee v a l u a t i o no fs i m i l a d t y ( i ) i nt h i s p a p er ,t h r e e s u b s t i t u t i o n m o d e l sw e r ec o m p a r e d ( i i ) t h eb e r e rw a v e l e t sa n dt h ed e c o m p o s i t i o n l e v e l f i t t i n g f o r a n a l y z i n gp r o t e i ns e q u e n c e sw e r es t u d i e d ( i i i jt h e i e n g t ho fs e q u e n c e sa f f e c t st h er e s u l tm o r et h a nt h ed e g r e eo fi d e n t i t y w h e n u s i n gd v v 下t oa n a l y z et h es i m i l a r i t yo f t w o p r o t e i ns e q u e n c e s t o m i n i m i z et h ee f f e c t so ft h e s e q u e n c el e n g t h ,t h es e g m e n t a t i o n c o m p a r i n g m e t h o dw a s d e s i g n e d t h e r e s u l t si n d i c a t et h a tt h e s e g m e n t a t i o ns t r a t e g y h a s g r e a t l yi m p r o v e d t h e p e r f o r m a n c e o f a n a l y z i n gt h el o n gp r o t e i ns e q u e n c e s ( i v ) an e we v a l u a t i o n s w a s d 四川大学硕士学位论文 d e s i g n e d t om e a s u r et h e s i m i l a d t y o f s e q u e n c e s ,w h i c h w a s s u c c e s s f u l l yu s e d a sas u p p l e m e n ti np r o t e i ns e q u e n c e a n a l y s i s k e y w o r d s :d i s c r e t e w a v e l e t t r a n s f o r m p r o t e i ns e q u e n c e a n a l y s i s s u b s t i t u t i o nm o d e l s i m i l a r i t ye v a l u a t i o n 5 四j i i 大学硕士学位论文 第一部分前言 1 1 生物信息学和生物序列分析 1 1 1 生物信息学的产生背景 生物信息学( b i o i n f o r m a t i c s ) 是当今生命科学和自然科学的重大前沿领 域之一,同时也将是2 l 世纪自然科学的核心领域和最具活力的领域之一。过去 十年d n a 测序技术的飞速发展,测序的自动化引起生物大分子序列数据库的 数据量急剧增长,最具代表性的是人类基因组测序工作的成就。1 9 5 3 年,沃森 和克里克建立了d n a 双螺旋结构,并于4 月2 5 日在自然杂志发表了文章核 酸的分子结构脱氧核糖核酸的一个结构模型”( 1 ) 。d n a 双螺旋结构模型的 建立,标志着人类在揭示生命遗传奥秘方面迈出了具有里程碑意义的一步,并 为人类认识自身提供了可能。自从1 9 9 0 年美国启动人类基因组计划以来,人与 模式生物基因组的测序工作进展极为迅速。至2 0 0 0 年6 月2 6 日,被誉为生命 “阿波罗登月计划”的人类基因组计划,经过美、英、日、法、德和中国科学家 的艰苦努力,约3 0 亿碱基对的测序已经完成,完成了工作草图,这是人类科学 史上一个里程碑式的事件。2 0 0 3 年4 月1 4 日,人类基因组计划项目负责人弗 朗西斯柯林斯牌士宣布,人类基因组序列图绘制成功,人类基因组计划的目 标全部实现。这标志着后基因组时代的到来。 截止到2 0 0 4 年2 月,仅登录在美国国家生物技术信息中心( n c b i ) 的o e n b a n k 数据库中的d n a 序列总量已达到3 2 ,5 4 9 ,4 0 0 条序列记录,大约3 7 ,8 9 3 ,8 4 4 ,7 3 3 个碱基( 2 ) 。近年来的增长统计见图1 1 。 其它几个重要的数据库如欧洲分子生物学试验室( e 船l e u r o p e a n m o l e c u l a rb i o l o g yl a b o r a t o r y ) 的核酸序列数据库( 3 ) 和d d b j ( d n ad a t a b a n k o fj a p a n ) ( 4 ) 数据库中的数据量也呈指数增长。 生物学数据的积累并不仅仅表现在d n a 序列方面与其同步的还有蛋白质 的序列,即氨基酸序列的增长。截止2 0 0 4 年5 月8 日,蛋白质序列数据库s w i s s 一 6 四川大学硕:学位论文 p r o t ( r e l e a s e4 3 3 ) ( 5 ) 中存放了8 4 9 1 种生物的t 5 | 0 4 7 条序列。要研究蛋白 质的功能离不丌对蛋白质的结构数据的解析,蛋白质结构数据库p d b ( p r o t e i n d a t ab a a k ) ( 6 ) 中的数据量近年来也增长迅猛,自1 9 7 2 的仅有2 条到2 0 0 4 年5 月4 号已经增加到2 5 3 4 3 条。 g r o w t ho fg e n b a n k f i g 1 t h es t a t i s t i c so f t h e g r o w t ho f g e n b a n k ( 7 j 现有的各类生物数据库构成了一个生物学数据的海洋。这些数据的急速积 四川i 大学硕士学位论文 累在人类科学研究历史中是空前的。这些革命性的成果得益于计算机技术在过 去十多年来突飞猛进的发展,然而,数据并不等于信息和知识,但却是信息和知 识的源泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相 比人类相关知识的增长( 粗略地用每年所发表的生物、医学论文数来代表) 却 十分缓慢。一方面是巨量的数据,另一方面是我们在医学、药物、农业和环保 等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高其生活 质量。这就构成了一个极大的矛盾,它要求人们迅速提升对数据搜集、管理、 处理、分析、释读的能力以及建立新的理论把生物学数据和生命活动功能联系 起来( 8 ) 。其中的一系列处理过程,需要依靠信息科学、数学和具有强大数据 处理功能的计算机技术,只有使用计算机技术才有可能应付爆炸式增长的生物 信息数据处理需要。8 0 年代中期以来,计算机结合信息技术在生物信息处理中 的广泛应用孕育了生物信息学这一新兴学科。 四川大学硕士学位论文 112 生物信息学的概念 什么是生物信息学呢? 生物信息学这一术语在不同场合下被赋予不同含 义。1 9 9 5 年,美国人类基因组计划实旌5 年后的总结报告中明确提出了生物信息 学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、 分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的 各种工具,来阐明和理解大量数据所包含的生物学意义( 9 ) 。狭义上,就基因组 数据分析这一角度来看,生物信息学主要指核酸和蛋白质序列数据的计算机处 理和分析。生物信息学手册中的解释为:生物信息学是一个词典里还没有的英 文新词b i o i n f o r m a t i c s 的直接翻译,这是计算机网络大发展和各种生物数据库 迅猛增长形势下如何组织数据、并从数据中提取生物学知识的一门学问( 1 0 ) 。 四j i i 大学硕士学垃论丈 1 1 3 生物信息学的研究内容 生物信息学的中心任务是从浩如烟海的序列数据中提取理性知识。生物信 息学家所面临的任务不仅是解决高效率的数据储存手段,而且要开发有效的数 据分析工具,因为只有利用新的有效的数据分析工具,才能将序列信息转换成 生物化学和生理学知识,才能弄清它们所蕴涵的结构和功能信息,进而彻底了 解它们所代表的生物学意义。揭示序列数据所代表的生物学意义是一门深奥的 科学,其难度不亚于破译一部天书。打个比方,如果说把蛋白质比做组成这“天 书”的句子,把序列模体( m o t i f ) 看成是单词,那么组成蛋白质的基本元素氨 基酸就是字母。研究生物信息学的意义就在于掌握这部“天书”中组成各个“句 子”的“单词”和破译其“语法”句法”,实现在将来某一天设计自然界不存 在的全新蛋白质,重新书写人类自身的“新天书”。具体一点讲就是可以通过基 因组d n a 序列信息分析,破译隐藏在d n a 序列中的遗传语文规律;归纳整理与 基因组遗传语文信息释放及其调控相关的转录谱和蛋白质谱的数据,从而可以 认识和把握代谢、发育、分化、进化的规律。 从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容, 大致包括以下几个方面: 1 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和 生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系 统;生物信息的在线服务;生物信息可视化和专家系统。 2 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际e s t 数据库( d b e s t ) 和各自实验室测定的相应数据,经过大规模并行计算发 现新基因和新s n p s 以及各种功能位点;基因组中非编码区的信息结构分 析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整 基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、 基因组结构的演化、基因组空间结构与d n a 折叠的关系以及基因组信息 与生物进化关系等生物学的重大问题。 四川大学硕士学位论文 3 功能基因组相关信息分析。包括与大规模基因表达谱分析相关的算法、 软件研究,基因表达调控网络的研究:与基因组信息相关的核酸、蛋白 质空间结构的预测和模拟,以及蛋白质功能预测的研究。 4 生物大分子结构模拟和药物设计。包括r n a ( 核糖核酸) 的结构模拟和反义 r n a 的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复 合蛋白质以及连接肽的设计:生物活性分子的电子结构计算和设计:纳 米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结 构的药物设计:基于d n a 结构的药物设计等。 5 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与 测序需要的软件、数据库以及若干数据库工具,诸如电子网络等远程通 讯工具;改进现有的理论分析方法,如统计方法、模式识别方法、隐马 尔科夫过程方法、分维方法、神经网络方法、复杂性分析方法、密码学 方法、多序列比较方法等;创建一切适用于基因组信息分析的新方法、 新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格 的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术, 用于解释基因组的信息,探索d n a 序列及其空间结构信息的新表征;发 展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子 空间结构模拟、电子结构模拟和药物设计的新方法与新技术。 6 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列 信息检测技术和基于序列信息选择表达载体、引物的技术。建立与动植 物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库 ( 1 】) 。 四川大学硕士学位论文 114 生物信息学及生物序列分析的现状 在过去十几年里,生物信息学已经成为生命科学研究中不可分割的个重 要组成部分。现今生物信息学的重要作用就是通过高通量的实验技术解码基因 组学、蛋白质组学、代澍组学、转录组学等的数据,另外还担负着重新组织传 统的生物学数据的功能。在过去一段时间人们研究的重点是基于序列分析的方 法来研究单个基因和蛋白质个体。这一段时间里发展出了很多基因预测、蛋白 质结构预测、蛋白质功能预测的方法。对于大量生物学数据的研究也从开始时 单纯的构建数据库记录原始数据发展到对生物序列按照特征信息归类整理,构 建基于特定结构或功能特征的二次数据库。随着更多物种的全基因组测序工作 的不断完成,把细胞或生物体作为一个系统研究已经不仅仅是生物信息学提出 的概念了人们也建立了相应的试验方法。 ( 一) 人类基因纽计划 人类基因组计划在过去十几年中带来的影响不仅仅在于产生了大规模的序 列数据,它同时促进了实验技术和序列分析方法的发展,并且产生了多样化的 分子生物学数据。 基因组测序的基本步骤包括: 步骤l 一选择物种。 步骤2 一从细胞分离d n a ,获得大量高质量的样品。 步骤3 一把经纯化的d n a 随机切割成大小合适的重叠的片段。 步骡4 一把d n a 片段插入载体中,这就可以无限扩增( “克隆”) 。 步骤5 一测出每一d n a 片段的碱基顺序。 步骤6 一确定片段阆的重叠,把序列组装成最终的基因组序列。 人类基因组计划带动试验技术的改进体现在d n a 测序的速度上。2 0 世纪8 0 年代,那些作坊式的实验室每天只能测5 0 0 个碱基。后来l r e o yh o o d 等改进了 s a n g e r 测序法,同时发明了自动测序仪使测序实现了自动化。他们的第一台测 序仪每天能测1 5 ,0 0 0 个碱基。1 9 9 8 年h u n k a p i l l e r 小组发明了一种新的测序 仪a b l 3 7 0 0d n a 分析仪,它比以往的测序仪更快、更自动化。测序的自动化推 四川大学硕士学位论文 动了人类基因组计划的神速发展,研究人员仅用了1 5 个月就测完了人类基因组 序列的9 0 。而且技术革命引发了下列戏剧性的增长:在过去的十年里,每1 8 个月全世界的测序总量翻一番,而测序成本则减少一半。每五年,测序增加和 测序成本降低速度以一个数量级计。从2 0 世纪8 0 年代到2 0 0l 年测序成本已经 从每个碱基l o 美元以上降低到约l o 美分( 1 2 ) 。 自动测序技术在产生各种高通量的分子生物学数据上所起到的作用有目共 睹,这些数据包括表达序列标签( e x p r e s s e d s e q u e n c et a g s ,简称e s t s ) 、单 核苷酸多态现象( s i n g l e n u c l e o t i d ep o l y m o r p h i s m s ,简称s n p s ) 以及其它的 数据( 1 3 ) 。 为了系统地研究基因表达时间、表达组织等有关功能方面的特征,人们设 计了基因芯片( d n ac h i p ) 来收集基因表达信息。基因芯片又称寡核苷酸芯片 或d n a 芯片,是通过把大量的d 片断以可寻址的方式,高密度地固定到一块 指甲大小的玻璃片或硅片上,利用核酸碱基之间的配对,用来进行样品d 高 通量、并行的分析信息的工具。d n a 芯片用于肿瘤研究是芯片成功应用的例证。 随着人类基因组计划的完成,科学家们逐渐将注意力转向蛋白质研究,出现了 蛋白质组学( p r o t e o m i c s ) 这一概念。其研究领域包括蛋白质定位、蛋白质相 互作用、蛋白质结构和功能的研究。与基因芯片相对应,人们开发出了蛋白质 芯片( p r o t e i nc h i p ) 。用此芯片可以检测到细胞对药物治疗反应时其蛋白质 数量的变化,或识别出具有酶催化特性的蛋白质( 1 2 ) 。通常人们采用质谱( m s ) 来研究蛋白质间的相互作用,多维质谱可以直接提供蛋白质序列信息( 1 4 ) 。 ( 二) 生物数据库及序列分析工具的发展 在实验技术飞速发展,积累了大量的不同分子生物学数据的同时,信息技 术也在过去十年迅猛发展,其中,最重要的当属互联网技术。可以说生物信息 学的发展是随着互联网的飞速普及而高速发展的。l o 年前我们很难想象可以通 过电脑和互联网我们就可以任意获取分布于世界各地的数据资源,更无法想象 如果现在没有互联网我们的生活会是什么样子。正是这令人难以置信的网络技 术进步,使全世界科学家可以很方便地提交自己的数据,查询获取其他研究组 的数据,从而实现了信息共享。 互联网在生物信息学中实现的最重要的两个功能是数据的共享( 包括提交 四川i 大学硕士学位论文 数据和检索数据) 以及软件工具的交流( 主要是一些生物学分析工其软件的共 享) 。生物信息学的最著名和可操作性最强的两个系统是e n t r e z ( 由美国建立) 和s r s ( s e q u e n c er e t r i e v a ls y s t e m ) ( 由e m s lt h e o r ee t z o l d 建立) 。 作为n c b i 的数据库检索查询系统,e n t r e z 是基于w e b 界面的综合生物信息 数据库检索系统。利用e n t r e z 系统,用户不仅可以方便地检索g e n b a n k 的核酸 数据,还可以检索来自g e n b a n k 和其它数据库的蛋白质序列数据、保守区域数 据库、基因组图谱数据、基因表达和杂交数据库、来自分子模型数据库( 删d b ) 的蛋白质三维结构数据、种群序列数据集、书籍、以及由p u b m e d 获得m e d l i n e 的文献数据。e n t r e z 提供了方便实用的检索服务,所有操作都可以在网络浏览 器上完成。用户可以利用e n t r e z 界面上提供的限制条件( l i m i t s ) 、索引 ( p r e v i e w i n d e x ) 、检索历史( h i s t o r y ) 、剪贴板( c i i p b o a r d ) 和细节( d e t a i l ) 等选项来实现复杂的检索查询工作。对于检索获得的记录,用户可以选择需要 显示的数据,保存查询结果,甚至以图形方式观看检索获得的序列。 s r s 检索系统在欧洲的许多网站被广泛使用。s r s 是一个具有弹性的系统, 可应用于大量不同的数据库。这意味着使用s r s 的数据库在各个站点可能略有 差异,而这种差异是由数据库管理者所决定的。序列般可通过记录号( 如来自 l 篇发表的论文) 或是该序列注释中的一些信息进行检索。s r s 的优势是可以使 你通过普通的终端去检索大范围的数据库,并通过d r 栏链接到在其它数据库。 当前一些重要的生物信息学工具软件主要用于生物序列分析。例如,在n c b i 的网站上发布的工具有三大类:数据挖掘工具、序列分析工具、3 - d 结构演示和 相似性搜索工具。 从生物信息学数据库的构建和生物信息学工具的发展过程我们可以看出, 当今的生物信息学已经从最初对基本的生物学数据收集整理及储存发展到了对 原始数据进行基于生物学知识进行分类,通过提取特征生物学信息构建二级数 据库的时代,发展趋势如图1 2 。 4 四川i 大学硕士学位论文 f i g 1 2a v i e wo f b i o i n f o n n a t i c sp a s t ,p r e s e n ta n d f u t u r e ( 1 3 ) 在最初期由收集整理的基础生物学数据构建出的数据库称为一级数据库 ( p r i m a r yd a t a b a s e ) ,其数据都直接来源于实验获得的原始数据,只经过简单 的归类整理和注释。国际上著名的一级核酸数据库有g e n b a n k 数据库( 构建于 1 9 8 2 年1 2 月) 、e m b l 核酸库( 构建予1 9 8 2 年6 月) 和d d b j 库( 构建于1 9 8 7 年7 月) 等;蛋白质序列数据库有s w i s s - p r o t ( 构建于1 9 8 2 年) 、p i r ( 构建于 1 9 8 8 年) 等;蛋白质结构数据库有p d 8 ( 构建于1 9 7 1 年) 等。 随着这些一级结构数据库的完善和数据量的增加,人们通过对序列的特征 信息迸一步挖掘提取,构建了二级数据库。二级数据库是在一级数据库、实验 数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进 一步整理,比如p r o s i t e 数据库( 1 5 ) 、蛋白质结构分类数据库( s c o p ) ( 1 6 ) 和 蛋白质家族数据库( p f a m ) ( 1 7 ) 。 p r o s i t e 数据库收集了有显著生物学意义的蛋白质位点和序列模式,并能根 据这些位点和模式快速和可靠地鉴别个未知功能的蛋白质序列应该属于哪一 个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性 很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过 四川大学硕士学位论文 p r o s i t e 的搜索找到隐含的功能模体( m o t i f ) ,因此是序列分析的有效工具。 p r o s i t e 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合 的残基、二硫键的半肮氨酸、与小分子或其它蛋白质结合的区域等;除了序列 模式之外,p r o s i t e 还包括由多序列比对构建的轮廓( p r o f i l e ) ,能更敏感地 发现序列与轮廓( p r o f i l e ) 的相似性。 s c o p 数据库详细描述了己知的蛋白质结构之间的关系。分类基于若干层次: 家族,描述相近的进化关系;超家族,描述远同源的进化关系;折叠子( f o l d ) , 描述空间几何结构的关系:折叠类,所有折叠子被归于全n 、全d 、a b 、n + 口和多结构域等几个大类。s c o p 还提供一个非冗余的a s t r a i l 序列库,这个 数据库通常被用来评估各种序列比对算法。此外,s c o p 还提供一个p d b i s l 中 介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的 已知结构序列。 p f a r o 数据库是通过多序列比对方法和隐马氏模型( h i d d e nm a r k o vm o d e s , 删s ) ( 1 8 ) 来提取出特征蛋白质家族和蛋白质结构域的信息并分类的。对于数 据库中的每一个家族,查询者可以看到该家族蛋白质序列多序列比对结果,可 以观看蛋白质域的构建情况,可以检查物种的分类,可以链接到其他数据库, 并且可以查看己知的蛋白质结构。 当人们意识到只研究单纯某一种功能并不能揭示生物体功能的本质后,研 究重点就从对孤立的体系比如某种特定功能,发展到对系统的研究。这就产生 了分子相互作用的数据库及相应的网络分析方法。如京都基因和基因组百科全 书( k e g g ) ( t 9 ) 和蛋白质相互作用数据库( d i p ) ( 2 0 ) , k e g g 是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组 信息存储在g e n e s 数据库里,包括完整和部分测序的基因组序列;更高级的功 能信息存储在p a t h w a y 数据库里,包括图解的细胞生化过程如代谢、膜转运、 信号传递、细胞周期,还包括同系保守的子通路等信息;k e g g 的另一个数据库 是l i g a n d ,包含关于化学物质、酶分子、酶反应等信息。k e g g 提供了j a v a 的 图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它各种 工具,包括序列比较、图形比较和通路计算的工具来搜索和比较储存在数据库 中的不同类型的网络。图1 3 显示了一组在基因组中位置相关的基因对应于代 谢途径中的个功能单元,在k e g ( 3 中通过一种网络比较即基因组一通路比较来 1 6 四川大学碗:l 学位论文 发现。生物个体水平的巨大生物化学网络可以被看作是一种环境系统。代谢是 最基本的生化反应网络,产生能量来驱动各种细胞过程,降解和合成许多不同 分子( 2 1 ) 。 f i g 1 3g e n o m e p a t h w a yc o m p a r a t i v e ns h o w st h ec o r r e l a t i o no ft h eg e n ea tt h ep h y s i c a l p o s i t i o no f g e n o m e a n dt h ep r o d u c t i o no f g e n ea s s o c i a t e dw i t ht h em e t a b o l i cp a t h w a y 图1 4 表示了代谢网络中的核心部分:糖酵解、三羧酸循环和戊糖磷酸途径( 2 1 ) 。 d i p 收集了由实验验证的蛋白质一蛋白质相互作用信息。数据库包括蛋自质 的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据 蛋自质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询d i p 数据库。 佃j i i 大学硕士学位论空 f i g 1 4t h ec o r eo ft h em e t a b o ( ( cn e t w o r k t h en u m b e ro ft h ec i r c l ed e n o t e st h e a t o m i c i t yo ft h a tc o m p o u n d ( 三) 从序列到高通量的数据分析 在近1 0 年来的发展过程中最重大的突破当属数据库的快速查询方法f a s t a 和b l a s t 的产生( 2 2 2 4 ) 。f a s t a 是第一个被广泛应用的序列比对和搜索工具 包,包含若干个独立的程序,最新的版本为f a s t a 3 。f a s t a 为了提高序列搜索 的速度,能够先建立序列片段的“字典”,查询序列首先会在字典里搜索可能 的匹配序列,字典中的序列长度由k t u p 参数控制,缺省的k t u p = 2 。f a s t a 的结 果报告中会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对 的统计学显著性评估e 值。 b l a s t 是现在应用最广泛的序列相似性搜索工具,比f a s t a 有更多改进,速 度更快,并建立在严格的统计学基础之上。n c b i 提供了基于w e b 的b l a s t 服务, 用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上 进行搜索,从电子邮件中获得序列搜索的结果。b l a s t 包含五个程序和若干个相 应的数据库,分别针对不同的查询序列和要搜索的数据库类型。b l a s t 的最新版 四川大学硕士学位论文 本是2 2 8 ,2 0 0 4 年2 月1 0 日发布。p s i b l a s t 的特色是每次用轮廓( p r o f i l e ) 搜索数据库后再利用搜索的结果重新构建轮廓( p r o f i i e ) ,然后用新的轮廓 ( p r o f i l e ) 再次搜索数据库,如此反复直至没有新的结果产生为止。p s i b l a s t 先用带空位的b l a s t 搜索数据库,将获得的序列通过多序列比对来构建第一个 轮廓( p r o f i l e ) 。p s i b l a s t 自然地拓展了b l a s t 方法,能寻找蛋白质序列中 的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功 能相似的相关蛋白,甚至可以与一些结构比对方法,如t h r e a d i n g 相媲美。 ( 四) 从分子到高层次的功能研究 自9 0 年代后期以来各种类型的高通量的实验数据源源不断地产生了。这些 数据的应用研究大大扩展了生物信息学的范畴,而且有助于分析包含各种细胞 生命过程的更高层次的功能机理。值得注意的是一个寡核苷酸芯片( 2 5 ) 或者 一个包含基因组里每条基因的e d n a 芯片( 2 6 ) 都是很有效的工具。它们可以 测量不同的条件下整个细胞或组织的基因表达过程。除了在序列上相似和染色 体相近阻外,两个基因也可以通过其表达特征的相似性联系起来,可能是在特 定的时刻表达,也可能是其他控制条件相似。互调控基因簇可以通过基因表达 数据来识别,这些表达的基因簇可以用来确定导致某个生理过程的可能的基因 组数目。复杂的基因表达数据同时刺激了信息技术的应用,包括自组织图( 2 7 ) 和支持向量机( 2 8 ) 在内的很多信息学工具都被移植过来,用于提取生物学内 在的特征。 蛋白质- 蛋白质的相互作用是另外一种类型的实验数据。高通量的双杂交系 统分析已经完成了对酵母基应编码的所有蛋白质对的分析( 2 9 ,3 0 ) ;酵母中纯 化的蛋白质杂合体的组成也已通过质谱被系统地确定了( 3 1 , 3 2 ) 。这些数据集 为现有的基因组提供了蛋白质另外一个层面的信息( 蛋白质相互作用) 和转录 组( 表达的相似性) 数据集。所有这些数据集都可以看作是二进关系的集合, 我们可以通过它进行整体的分析从而得到更精确的生物学特性。当酵母的不同 数据集来综合到一起后,可能会有更具生物学意义的发现( 3 3 ,3 4 ) ,因为人 们对数据的解释经常会有很多失误,将这些数据应用于更高层次上时也就导致 经常会产生更高的出错概率,因而人们需要提出更严格的基准。 近来,人们对于生物功能的表述并没有统一的术语。蛋白质功能的术语走 四川大学硕士学位论文 向统一的第一步是基因本体论( g e n eo n t o l o g y ) 的提出( 3 5 ) 。它的提出使人 们可以更好地比较和描述生物学功能特征。基因本体论联盟( g e n eo n t o l o g y c o n s o r t i u m ) 把当前积累的而且还在动态地增长的知识归结为三个系统术语学范 畴:单个蛋白质的分子功能、某个蛋白质参与的生物过程和蛋白质功能实现的 细胞组成。 为了从基因组信息更多地了解细胞的生命过程,人们创建了通路数据库来 从系统的角度研究细胞过程,k e g g 就是很好的例子。大部分数据库着眼于分 子性质包括序列,3 d 结构,模体和基因表达。这些数据库通过存储相互作用的 分子网络来把握复杂的细胞活动过程的属性如新陈代谢、信号转换、和细胞循 环。通常这些联系被经过运算后以通路图的形式显示出来。如图1 3 ,图1 4 。 时至今日,生物信息学已经成为- f 3 实践的学科,它满足了基因组学中大 规模数据成果和生物学中其它高通量的领域在信息技术方面的需要。但由于数 据将要向知识转化,经验规则也最终要归结到根本法则生物信息学肯定会发 展成一门更基础的学科。 四川i 大学硕士学位论文 1 2 小波变换的方法用于生物信息学和生物序列分析 小波变换在生物信息学中的三个主要方向包括基因组序列分析、蛋白质结 构研究和基园表达数据分析都有应用,而且产生了很好的结果( 3 6 ) 。 1 2 1 小波变换在基因组序列分析中的应用 在基因组序列分析中,一些成果表明小波变换可以发现d n a 序列的特征模 式。a u d i t 等人分析序列的弯曲特性( 3 7 ,3 8 ) ;并证明了实际观察到的真核基 因中的小片段存在很大范围的相关性这一现象决定子核小体的模式,这种相关 性在真菌染色体中则不存在。l i b 和y a n n u c c i ( 3 9 ) 指出先用g ,c = l 和a ,t = 0 ( 或0 1 ) 编码细菌基因序列,然后用小波分解可以确定病原性岛的位置( 4 0 ) 。 文省云( 音译) 和张春霆完成了用小波多尺度分辨分析确定人类基因组的等容 线边界的工作( 4 1 ) 。他们指出结合z 曲线法,小波变换可以得到与试验很吻和 的结果,而且同基于窗口的分析方法比较,这个方法可以在确定等容线边界时 有更高的分辨率。同传统的熵分割方法相比,它更直观,而虽运算量更小。 四川大学硕士学位论文 122 小波变换在蛋白质序列分析中的应用 在夤白质结构研究中,小波变换已经应用于结构研究的方方面面,包括蛋 白质一级序列进化研究( 4 2 ,4 3 ) 、二级结构( 4 4 ) 和三级结构( 4 5 4 8 ) 鉴定 及功能预测( 4 9 ,5 0 ) 、精细化x 射线晶体结构( 5 【,5 2 ) 、药物设计及可视化 等( 5 3 ) 。m a n d e l l 等人( 4 6 ,4 7 ) 指出氨基酸序列的疏水特征的小波分解相位图 与其二级结构相关并且可以用来给蛋白质分类。同时他们研究了整个序列疏水 性的变化趋势从中得出通道、孔隙和受体方面的信息。近来m u r r a y 等人( 4 5 ) 用 离散小波变换分析疏水性和各种重复的蛋白质模体的相对可及表面积。李扩斌 ( 音译) 等( 4 9 ) 人结合聚类方法先把已知能引起过敏的蛋白质序列聚类,多序 列比对后用小波分解从每一类结果中确定其模体,并用该模体训练隐马氏模型。 对于不含明显的过敏原模体的蛋白质则保存到一个小数据库中。待预测蛋白质 只需要和该隐马氏模型比较,如果不符合,再从过敏原蛋白质的数据库序列比 较即可确定待预测蛋白是否为引起过敏的蛋白质。他们在整个s w i s s p r o t 数据 库中预测到2 0 0 0 种可能的过敏原。 四川大学硕士学位论文 1 23 小波变换在基因芯片数据分析中的应用 基因芯片技术可以让我们分析成百上千条基因的表达模式,耍从这一技术 中提取出有用的信息离不开统计学。因此,人们建立了基因芯片数据分析评估 以期在基因芯片数据分析领域提供一个全球统一的评价标准。k 1 e v e c z ( 5 4 ) 用 小波分解和滤噪技术分析基因芯片数据发现,无论是与细胞循环有关的还是无 关的大多数酵母基因,它们的表达都呈波动震荡趋势。作者发现了两个主要的 周期,一个是4 0 分钟左右,另一个是8 0 分钟左右而且推测表达芯片的一部 分噪声是由于基因的动态震荡表达产生。 基因芯片分析也得益于数据压缩技术。当很有效的统计方法提出以后,人 们通常保持完整的微阵列图像以供再次分析。基于小波的技术现在成为新的压 缩标准:上升算法策略是j p e g 2 0 0 0 标准的基础。以前的j p e g 压缩算法需要按 8 * 8 的正方形工作:小波的优越性在于它们可以调整到适应于图像的尺寸和图像 的不同区域。j g r n s t e n 等( 5 5 ) 提出了一种微阵列图像压缩技术,称为 c o m p r e s t i m a r i o n ,具有有损的或无损的数据编码结构。作者讨论了基 于有损压缩数据的最优统计学评价,并且确定了一个上限,界定了由于数据压 缩造成的信息丢失可以达到的最小化限度。m y a s n i k o v a 等人( 5 6 ) 用一套胚胎中 的标记了的抗体来量度这种表达后用小波分析基因表达模式。作者们从零散的 数据得到了一套详细的形态发生场基因表达图。近年来,e f r o n 等人( 5 7 ) 提出 错误发现率这一思想( t h e f a l s ed i s c o v e r yr a t e ,f d r ) 在分析微阵列数 据时是一种非常有效的推论方法。f d r 是多元比较中一个相对较新的重要思想 ( 5 8 ) 。当模型数据稀疏时,f d r 会选择产生具有很大样本适应性的估计量。f d r 的一个特性就是应用于小波滤噪的门限值确定。在应用于小波滤噪门限时,f d r 是小波系数的比例,这个比例是重构过程中被错误地包含进去的系数同所有被 包含的系数比。本方法可能促进小波在微阵列数据分析中的其他应用。 蹬川大半硕士学位论文 1 3 参考文献 1 2 l o 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 2 0 2 l w a t s o n ,j d a n dc r i c k f ,hc ( 1 9 5 3 ) ? 怡t g e e , i7 l ,7 3 7 7 3 8 b e n s o n ,d a ,k a r s c h m i z r a c h i i l i p m a n dj o s t e l l ,j a n dw h e e l e r 0l ( 2 0 0 4 ) ,v e c l e i ca c i d sr e s 3 2 ,d 2 3 - d 2 6 k u l i k o v a ,t e ta 1 ( 2 0 0 4 ) ,忆c l e l ca c i 出r e s 3 2 ,d 2 7 一d 3 0 m i y a z a k i ,s ,s u g a w a r a ,h ,i k e o ,k ,g o j o b o r i ,t a n dt a t e n o ,y ( 2 0 0 4 ) n u c l e i c a c i 出r e s ,3 2 d 3 l 一0 3 4 b o e c k m a n n ,b ,e ta 1 ( 2 0 0 3 ) 。v u c l e i ca c i 出r e s ,3 1 3 6 5 3 7 0 b e r m a e hm ,g e s t b r o o k ,j ,f e n g ,z g i l l i l a n d g ,b h a t ,t n ,w e i s s i g h s h i u d y a l o v ,i n a n db o u r n e ,p e ( 2 0 0 0 ) ? u c - l e i ca c i 如r e s ,2 8 。2 3 5 2 4 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论