(计算机应用技术专业论文)蛋白质序列模式发现算法.pdf_第1页
(计算机应用技术专业论文)蛋白质序列模式发现算法.pdf_第2页
(计算机应用技术专业论文)蛋白质序列模式发现算法.pdf_第3页
(计算机应用技术专业论文)蛋白质序列模式发现算法.pdf_第4页
(计算机应用技术专业论文)蛋白质序列模式发现算法.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 现代生物信息学是采用计算机技术和信息论方法研究生命科学中各种生物信 息的表述、采集、储存、传递、检索、分析和解读的科学。是现代生命科学与信 息科学、计算机科学、数学、统计学、物理学、化学等学科相互渗透和高度交叉 形成的学科。 随着生物数据量呈指数级增长,产生了新的交叉学科计算生物学,由此 给数据挖掘、机器学习和统计学等领域带来了新的挑战。计算生物学的研究内容 之一就是从蛋白质序列预测蛋白质结构,从计算机技术角度看,这是一个分类预 测问题。而如何为分类问题建立一个有效并且高效的预测模型一直以来是数据挖 掘领域,机器学习和统计学领域研究的热点。 序列比对是生物信息学研究的一个基本方法,寻求更快更灵敏的序列比对算 法一直是生物信息学研究的热点。本文给出了生物序列比对问题的定义,综述了 目前常用的各类比对算法,并对每一类算法的优缺点以及应用范围进行了分析, 最后指出序列比对算法目前存在的问题以及未来的发展方向。 在蛋白质序列的比对研究中,拥有相似模式的蛋白质常常具有相似的功能。 通过已知的蛋白质序列模式可以方便我们对新的蛋白质序列的功能结构进行研究 和确认。本文尝试在p r a t t 算法的基础上引入模糊序列查找方法。能够更好的从互 不相关的蛋白质序列集合中找出最具代表性的蛋白质模式。 本文的主要工作如下:本文细致地研究了当今国际上各种序列比对算法,系 统地阐述了最具代表性的比对算法s m i t h - w a t e r m a n 、b l a s t 、f a s t a 、并具体 地分析了它们的优缺点。对基于模式驱动的蛋白质模式发现算法一p r a t t 做了详 细的分析,并从p r o s i t e 数据库中选取了不同的几种蛋白质序列进行实验证明。 在p r a t t 算法的基础上引入模糊的序列查询方法,对p r a t t 算法进行优化,并进行实 验论证,并得到结果。最后通过对实验结果比较,分析对算法的优缺点做进一步 的总结。 关键词:蛋白质序列模式,模式驱动算法,模糊查询 a b s tr a c t b 1 0 i n f o r m a t i c s ,as c i e n c ed e v e l o p e db yt h ei n t e r a c t i o no fm o d e r nb i o l o g y , m a m 锄a t i c s ,i n f o r m a t i c s ,c o m p u t e rs c i e n c e , s t a t i s t i c s ,p h y s i c sa n dc h e m i s t r y , 咖d i 髓 m ec o l l e c t i o n , s t o r a g e ,t r a n s f e r , s e a r c h , a n a l y s i sa n dt r a n s l a t i o no fv a r i o u s b i o l o g i c a l i n f o r m a t i o n e x p o n e n t i a l l ye x p l o d i n gb i o i n f o r m a t i o nd a t ah a sb r o u g h tan e w m u l t i d i s c i p l i n a r v r e s 翎c ha r e a c o m p u t a t i o n a lb i o l o g y , a n ds u b s e q u e n t l yn e w c h a l l e n g e sc o m et ot i l e 船伽c nc o m m u n i t yo nd a t am i n i n g , m a c h i n el e a r n i n ga n ds t a t i s t i c a ll e a r n i n g 0 n eo f m a j o rr e s e a r c hi s s u e si nc o m p u t a t i o n a lb i o l o g yi so np r o t e i ns t r u c t u r ep r e d i c t i o nb a s e d o np r o t e i ns e q u e n c e f r o mt h ep e r s p e c t i v eo fc o m p u t e r s c i e n c e ,t h i si sac l a s s i f i c a t i o n p r e d i c t i o ni s s u e h o wt ob u i l de f f e c t i v ea n de f f i c i e n tm o d e l sf o rc l a s s i f i c a t i o np r o b l 啪s 1 sah o ts p o tf o rr e s e a r c h e so nd a t am i n i n g , m a c h i n e l e a r n i n ga n ds t a t i s t i c a l1 e a n l i n g s e q u e n c ea l i g n m e n ti sab a s i ca n di m p o r t a n tt o o li nb i o i n f o r m a t i c s t h er e s e 砌i o f fas t a n ds e n s i t i v eb i o l o g ys e q u e n c ea l i g n m e n ta l g o r i t h m i sac u r r e n th o tt o p i co f b i o i n f o r m a t i c s t h i sp a p e ri n t r o d u c e sad e f i n i t i o no f s e q u e n c ea j i 粤蚰铋t ;嬲w e l l 蠲t 量l e r e s e a r c ha d v a n c eo fa l i g n m e n ta l g o r i t h m sa tp r e s e n t , a n dd e s c r i b e st h ea d v 柚t a g ea n d l i i l l i to ft h ea l g o r i t h m sa n da p p l i c a b l ef i e l d s l a s t l y , t h ep r o b l e m s 锄矗d e v e l o p m e n t d i r e c t i o n sa r ep o i n t e do u t c o n c e r n i n gt h ep r o b l e mo f p r o t e i ns t r u c t u r e ,o f t e nt w o s e q u e n c e sm a ts h a r cs i m i l a r s u b s t r i n g sh a v es i m i l a rf u n c t i o n a l p r o p e r t i e s l e a r n i n go ft h ec h a r a c t 砸s t i c s 锄d 删1 e so fa l lu n k n o w n p r o t e i ni sm u c he a s i e ri fi t sl i k e l yf u n c t i o n a lp r o p e r t i e sc a l lb e p r 础c t e db yf i n d i n gt h es u b s t r i n g sa l r e a d yk n o w nf r o mo t h e rp r o t e i ns e q u e n c e s 1 1 1 e s e q u e n c ep a t t e r ns e a r c ha l g o r i t h mp r o p o s e di nt h i sp a p e rs e a r c h e sf o rs i m i l a rm a t c h e s b 咖蚴ap a t t e r na n das e q u e n c eb yu s i n gf u z z yl o g i ca n dc a l c u l a t e s t h ed e g r e eo f & 彻i a n 够f r o mas e q u e n c ei n f e r e n c es t e p t h er e s u l ts h o w st h a tt h ep r o p o s e da 1 9 0 咖1 i i l i sc a p a b l eo fi d e n t i f y i n gs e q u e n c e st h a th a v ea s i m i l a rp a t t e r nc 0 m p a 川t 0t h e i rf a m i l y p r o t e i nm o t i f s t h em a i nw o r k sa r ea sf o l l o w s : i i 垒望! ! ! 兰! ! ! 一一 _ _ - _ - _ _ _ _ _ _ _ _ _ _ _ _ _ - _ l _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ - - - _ - _ _ l _ _ - _ _ _ - - - _ _ _ _ _ _ _ _ _ _ _ _ _ _ - _ - - _ 一一一 一 i nt h i sp a p p e r , w ed e s c r i b ee x i s i t i n ga l i g m e n ta l g o r i t h m s ,s u c h 鹤s m i t h - w a t e r m a n , b l a s t f a s t a ,a n de x p o s ep o t e n t i a ls t r e n g t h sa n dw e a k n e s s e so ft h em o s tw i d e l y u s e da l i g n m e n tp a c k a g e s m a k ead e t a i l e da n a l y s i so ft h ep r a t ta l g o r i t h m s ,a n dm a k et e s tb yu s i n gt h r e e d i f f e r e n tp r o t e i nd a t a b a s ed a t af r o mp r o s i t ep r o t e i nd a t a b a s e d e t a i l e di n t r o d u c et h es e q u e n c ep a t t e r ns e a r c ha l g o r i t h mp r o p o s e di nt h i sp a p e r s e a r c h e sf o rs i m i l a rm a t c h e sb e t w e e nap a t t e r na n das e q u e n c eb yu s i n gf u z z yl o g i ca n d c a l c u l a t e st h ed e g r e eo fs i m i l a r i t yf r o mas e q u e n c ei n f e r e n c es t e p a n dm a k e s a x r l et e s t 鹤p r a t ta l g r i t h m s l a s t l y , w ec o m p a r ea n da n a l y s i st h et e s td a t e ,e x p o s ep o t e n t i a ls t r e n g t h sa n d w e a k n e s s e so ft h ea l i g n m e n t k e y w o r d s :p r o t e i ns e q u e n c e sp a t t e r n ,p a t t e r nd r i v e n ,f u z z ys e q u e n c es e a r c h i n g i i i 图目录 图目录 图2 1 氨基酸通式6 图2 2 海明距离1 3 图2 3 序列比较矩阵标记图1 3 图2 4 相同子串矩阵标记图1 4 图2 5 反向序列矩阵标记图1 4 图2 - 6 多个相同连续子序列矩阵标记图1 4 图2 7 序列a g c a c a c a 和a c a c a c t a 的两种比较结果以及对应的字符编辑 操作15 图2 8 核酸打分矩阵一l8 图2 9p a m 2 5 0 矩阵2 2 图2 1 0b l o s u m 6 2 矩阵2 3 图4 1 两两比较的方法的扩展形式3 4 图4 2p r a t t 算法的流程3 6 图5 1 模糊近似序列匹配算法步骤一4 3 图5 2 序列c t g a c a g 的事件确定以及事件分布矩阵4 4 图5 3t g 的模糊成员关系4 4 图5 4 事件间隔的模糊关系图4 5 图5 5 模式p = a t ( 汇a 的事件总数模糊隶属度4 5 图5 - 6 采用了模糊查询方法的p r a t t 算法流程一4 6 图5 7p r o s i t e 数据库中通配符自由度分布图4 7 v i i 表目录 表目录 表2 - 12 0 种标准氨基酸的英文简写7 表2 2 扩展的遗传学字母表或i u p a c 编码l1 表2 3 遗传密码矩阵1 9 表2 4 蛋白质疏水矩阵19 表4 1 实验数据信息4 1 表4 2 实验结果4 l 表5 1 实验结果4 7 v l l i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特另u d i :i 以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:生盘云日期:刎j 年箩月阳 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名:兰殳丢导师签名:芏越 日期:2 川年j - - j 弓嘲 第一章绪论 1 1 课题背景 第一章绪论 自上世纪5 0 年代,微生物学、生物化学技术的发展对生命科学研究发挥了重 要的推动作用。随后建立起分子生物学技术,使得人们可以对生命系统中遗传信 息的传递、存储和表达能进行操作、改造与利用。时至今日,随着计算机技术的 引入,大规模、高通量测序与生物信息的存储与管理,使得人类基因组计划能够 在新世纪伊始就顺利完成、并可以在全世界范围进行信息的共享与交流,生物信 息学技术的快速发展对生命科学研究的巨大推动作用已初见端倪,正方兴未艾i l l 。 生物信息学或者说生物信息学技术在中国的兴起始于上世纪后期对蛋白质结 构功能的分析和理性改造,即在某些项目中所谓的蛋白质工程,盛于近十余年来 基因组,特别是人类基因组和功能基因的研究和应用。随着在“组学 基础上的 系统生物学的迅速发展,生物信息技术学的研究水平和应用范围正在走向新的高 度和广度。 生物信息学是一门计算机辅助的数据管理科学。目前,世界上科技界、企业界 和国家、国际研究机构都在从事生物信息学的研究和发展。生物信息学被认为是 现代和未来生物技术的基石。 1 2 国内外研究现状 生物信息学一般涉及基因和蛋白质序列以及结构、功能信息的大规模数据库, 它存储新的序列,当任何序列需要与已知序列作比较时可通过远程计算机存取进 行检索。 生物信息学是一个相当年轻的领域。是自动化蛋白质和d n a 测序从7 0 年代中 期起成为可能的结果,也是8 0 年代中后期计算机开始成为远程存耿的中央存储器 的结果。 电子科技大学硕士学位论文 在美国,d n a 序列和p r o p h e t 的s t a d e n 软件包就是早期研究开发的突出例子。 它被誉为生命科学研究的国家计算资源,专门满足各个学科的生命科学家对数据 管理和分析的需要。该系统是一个集成的图解定向环境,其功能包括:数据的操作 和分析、制图、分子结构和生物模拟模型,蛋白质和核酸序列的存储和比较口1 。 8 0 年代后期,美国i n t e l l 卜g e n e t i c s 公司的p c g e n e 软件包问世。其特定基 因序列转译成蛋白质结构的能力以及其次级结构预测性和数据库比较,预示着科 学家们所需的若干早期软件包版本即将到来口1 。 9 0 年代初出现了a m o sb a i r o c h 公司的p r o s i t e 。它是蛋白质序列和结构相关 性的最合适数据库之一。该系统得到s e q a n a l r e e ( 它着重于序列分析和比较) 的补 充。1 9 9 1 年,b a i r o c h 公司对推出目前著名的s w i s s - p r o t 蛋白质序列数据库的第 一个全喷式版本。与此同时,在科学家们和大型研究中心,如美国卫生研究院( n i h ) , 欧洲分子生物学实验室( e m b l ) 和其它中心的推动下,在新数据库、存取与分析数 据的软件方面,全世界出现了蓬勃发展的局面。9 0 年代初还开发出蛋白质组学定 向的数据库,如s w i s s - 2 dp a g e 。它包括了有关来自各种健康和疾病组织的蛋白质 二维聚丙烯酰胺凝胶电泳( 2 d p a g e ) 图的数据h 1 。 网络工具( 如9 0 年代初、中期的g o p h e r 和w a i s ) 和网络服务( 如e x p a s y ) 的发 展,预示着英特网( i n t e r n e t ) 的建立( 它是远程通讯的基本工具) ,从而引起生物 信息学领域的起飞。 在英特网上免费使用的生物信息工具的种类很多。据欧洲生物信息学研究所 ( e b i ) b i o c a t 目录称,生物信息工具约有5 0 0 多种。随着从事生命科学的软件开发 者或具有软件开发才能的生命科学家们继续不断地更新和生产出有用的新应用, 生物信息工具的数量仍在继续不断地增加。 对那些来自测序和功能分析项目的生物信息进行收集、存储、分类、分析和 分配的能力是现代生物技术的基础,所以企业和提供资金的机构同样结合在一起, 以前所未有的方式相互帮助,而科学家们则普遍而认真地完成各项任务。这是因为 人们深信生物信息学能力的真j 下长远价值不在于工具的多少,而在于知识的转化, 生物信息学转变为更好的疗法。因此,人们共同努力使生物信息学工具成为标准 2 第一章绪论 的和尽可能容易使用的工具,类似于标准的计算机操作系统的开发嘲。 1 3 课题目标和意义 生物信息学是2 0 世纪分子生物学和计算机科学交叉结合产生的新学科。这个 新学科的焦点是使用计算机数据库和计算机算法来分析蛋白质,基因和构成生命 体的全部脱氧核糖核酸( 基因组) 。生物学的一个主要挑战就是弄清楚那些由基因 组测序计划、蛋白质组和其他大规模分子生物学手段产生的大量序列和结构数据 的意义。生物信息学工具包括计算机程序,可以用来帮助揭示与大分子结构和功 能、生化途径、疾病发生以及进化相关的生物学问题所内含的基本机制。 根据美国国立卫生研究院( n a t i o n a li n s t i t u t e so fh e a l t h ,n i h ) 的定义, 生物信息学是“研究、开发或者应用计算机工具和方法来扩展对生物学、医学、 行为科学和卫生数据的使用,包括获取、存储、组织、分析和可视化这些数据。 相关的学科计算生物学是“开发和应用数据分析和理论方法、数学建模和计 算模拟技术来研究生物、行为和社会系统 。 生物信息学领域的第一个角度:细胞。随着分子序列的出现,生物学已经发 生变化,生物信息学随之出现而成为一门学科。数据库用来存储数量巨大的d n a 序列。相对应的基因表达( r n a ) 和蛋白质的数据库也已经建立。生物信息学的一 个主要任务就是研究分钟序列数据以获得对一系列生物学问题的认识。 生物信息学的第二个角度:生物体。把我们的眼光从细胞层次扩展到生物体 层次,我们可以把单个的基因组认为是包括了众多基因的基因集合,这些基因被 表达成r n a 及蛋白质产物。因此,对单个生物体来说,生物信息学工具可以应用 于描述发育过程中发生的变化、生物体各个区域的不同变化和一系列生理及病理 状态下的变化。 生物信息学的的三个角度:生命之树。生物信息学的研究范围涵盖地球上的 所有生物,包括细菌,古细菌和真核生物。对所有的物种,收集和分析分子序列 数据库使我们可以描述组成该物种全部d n a 集合( 基因组) 。我们可以迸一步研究 物种间和物种内各成员间的变化,然后推演出地球上生命的进化史。 3 电子科技大学硕士学位论文 当生物信息学集中于分析分子序列时,基因组学和功能基因组学是两个紧密 相关的学科。基因组学的目标是测定和分析物种的全部d n a 序列,也就是基因组。 d n a 编码基因,能转录表达成r n a ,然后翻译成蛋白质。功能基因组学描述了如何 利用基因组范围的实验来研究基因和蛋白质的功能晦叫。 1 4 将来的发展 生物信息学的未来很难预测。值得注意的应用之一是,大规模测序实验室所 获得的序列的自动化处理。这种能力是很必要的,因为在人类基因组计划完成后大 规模测序仍将继续进行。 生物信息学的另一个应用是流行病学,它与传统的序列比较领域不同。据最 近一篇文章介绍,生物信息学工具有助于把统计遗传学方法、序列信息、群体的基 因变异性和流行病学数据集成在一个综合环境里。了解疾病易感性是一个多因子 事件,而群体中序列流行特征对这个多因子事件产生重大影响。流行病学和生物 信息学之间吻合是一个在未来仍继续存在的自然事件。 最后,值得重视的发展是生物信息学的分支学科一称为分子或生物计算学。 它着重于利用基因作为信息存储、操作和检索“装置,这种装置可用于完成计算 任务。最近一篇有趣的文章介绍了一种理论概要,分子计算可用于数据编码的目 的。在这里,纯计算机科学和生物信息学紧密地结合在一起。这是一个将继续引 起人们极大关注的领域n 蚰。 1 5 论文组织 在蛋白质序列的比对研究中,拥有相似模式的蛋白质常常具有相似的功能。 通过已知的蛋白质序列模式可以方便我们对新的蛋白质序列的功能结构进行研究 和确认。我们在p r a t t 算法的基础上引入模糊序列查找方法。能够更好的从互不 相关的蛋白质序列集合中找出最具代表性的蛋白质模式。 本文的主要工作如下:本文细致地研究了当今国际上各种序列比对算法,系统 4 第一章绪论 地阐述了最具代表性的比对算法s m i t h - w a t e r m a n ,b l a s t ,f a s t a ,并具体地分析了 各算法的优缺点。对基于模式驱动的蛋白质模式发现算法叫r a t t 做了详细的分 析,并从p r o s i t e 数据库中选取了不同的几种蛋白质序列进行实验证明。在p r a t t 算法的基础上引入模糊的序列查询方法,实现p r a t t 算法的优化,并进行实验论 证,并得到结果。最后对实验结果比较,分析对算法的优缺点做进一步的总结。 本文在第一章对生物信息学的概念做了简单介绍。然后结合国内外现状,提 出序列比对的概念及应用,给出了本论文的研究内容及研究意义。 第二章详细介绍了生物信息学中的相关基础知识。介绍了对蛋白质的机构, 组成,功能等。在此基础上提出了序列比对的概念。并通过蛋白质的生物特性介 绍蛋白质序列比对的原理,基本规则,与一般普通序列比对的区别等等。 第三章细致地研究了当今国际上各种序列比对算法,系统地阐述了最具代表 性的比对算法s m it h - w a t e r m a n ,b l a s t ,f a s t a ,并具体地分析了各算法的优缺点。 第四章为本论文的重点章节之一,详细介绍了基于模式驱动的蛋白质序列模 式发现算法p r a t t 。并对算法实际运行的实验数据和结果做了分析介绍。 第五章也是本论文的重点章节之一,在第四章提出的p r a t t 算法的基础上, 提出模糊查询方法,并将该方法引入p r a t t 算法的查询过程之中。然后对优化后 的算法进行实验验证,并对结果进行比较分析。 第六章总结了全文的工作,并对下一步的工作进行了展望。 5 电子科技大学硕士学位论文 第二章相关理论基础 2 1 生物信息学的生物学基础 2 1 1 蛋白质的结构和功能 蛋白质最重要的生物学功能就是作为酶( e n z y m e ) , 催化体内的各种新陈代谢 过程,同时,它还是有机体的重要结构成分。有些蛋白质具有激素功能,参与代 谢调节,还有些蛋白质作为具有免疫功能的抗体参与免疫反应【l 。 蛋白质的功能主要有以下几个方面:( 1 ) 酶的催化作用( 2 ) 物质运载和贮存作用。 ( 3 ) 营养存贮作用( 4 ) 运动协调作用( 5 ) 机械支持作用( 6 ) 免疫保护作用( 7 ) 信号接受与 传导作用( 8 ) 生长和分化的控制作用【i 。 一种蛋白质的功能固然重要,但是,在某一个具体的生物反应过程中,往往 有多种蛋白质参与。进一步地说,生命活动是众多蛋白质同时作用的结果,相互 作用的蛋白质系统成为所有生命活动的基础。 2 1 2 蛋白质的分子组成 组成蛋白质的主要元素有碳( 5 0 - 5 5 ) 、氢( 6 一8 ) 、氧( 1 9 一2 4 ) 、 氮( 1 3 - 1 9 ) 和硫,某些蛋白质还含有少量磷、铁、铜、碘、锌等。各种蛋白 质含氮量较为接近,平均值为1 6 ,据此,可通过测定样品总氮量推算样品中蛋 白质的量【1 1 1 。 氨基酸是蛋白质的基本结构单位,自然界中的氨基酸种类很多,但参与蛋白 质组成的常见氨基酸只有2 0 种。这2 0 种氨基酸,除脯氨酸外,均可用图2 1 的通 式表示。其中r 代表侧链基团,与侧链相连的中心碳原子称为a 碳( a l p h ac a r b o n ) 原子【1 2 1 。 n i - h i h 一一c o o h o i j r 一 图2 1 氨基酸通式 6 第二章相关理论基础 由通式可见,氨基酸在结构上的共同点是与羧基( - c o o h ) 相邻的0 【氨基酸。 各种0 【氨基酸的区别在于侧链r 基团不同,r 基团的特异性使不同氨基酸显示出 不同的理化性质,进而决定了氨基酸在蛋白质分子的空间结构中可能的位置。2 0 种标准氨基酸的英文简写见表【1 2 】。 表2 i2 0 种标准氨基酸的英文简写 氨基酸名称英文缩写简写氨基酸名称英文缩写简写 甘氨酸 g l y g丝氨酸 s e rs 丙氨酸 a l aa 苏氨酸 t h rt 缬氨酸 v a lv 天冬酰胺 a s nn 异亮氨酸i l ei谷酰胺g l nq 亮氨酸 l e ul 酪氨酸t y r y 苯丙氨酸 p h ef 组氨酸 h i sh 脯氨酸p r op天冬氨酸 a s p d 甲硫氨酸 m e tm 谷氨酸 g l ue 色氨酸 t r p w 赖氨酸l y s k 半胱氨酸 c y s c精氨酸a r g r 2 1 3 蛋白质的结构层次 为了表示蛋白质的不同组织层次,经常使用一级结构和空间结构( 二、三、 四级结构) 等术语对其分子结构进行阐述。一级结构就是氨基酸顺序以及二硫桥 的位置,如果后者存在的话。因此,一级结构是关于蛋白质中共价键连接的全部 情况。二级结构涉及按线性顺序来说,相互接近的氨基酸残基之间的空间关系。 这些空间关系中有的是很有规则的,产生了周期性的结构,如0 【螺旋、d 折叠就 是典型的二级结构实例。三级结构是关于蛋白质中多肽链的空间走向,它涉及那 些按线性顺序来说相隔较远的氨基酸残基之间的空间关系。必须注意,二级结构 与三级结构之间的分界线是人为规定的。包含一条以上多肽链的蛋白质在结构上 表现出一个新的层次,即四级结构。四级结构涉及这些多肽链结合在一起的方式。 在这样的蛋白质中每一条多肽链称为亚基。另外一个常用的术语是结构域 ( d o m a i n ) ,它代表蛋白质结构中的功能单位。很多蛋白质折叠成具有质量从1 0 7 电子科技大学硕士学位论文 到2 0 k d a l 的结构域,较大蛋白质的几个结构域通常由多肽链中较易变动的区域所 连接【12 1 。 对于蛋白质各结构层次之间的关系而言,一级结构是最基本的,一级结构决 定其它各层次的高级结构。 2 1 4 蛋白质结构与功能关系 一般来说,蛋白质的生物学功能取决于它的高级结构,而高级结构又取决于 一级结构,即蛋白质的氨基酸顺序。通过分析比较蛋白质的一级结构,可以判断 哪些氨基酸残基对保持蛋白质的空间构象和生物学功能是必需的,哪些是可以取 代的;而通过分析比较蛋白质的空间结构,可以判断哪些结构域是与蛋白质的功 能紧密联系的,对蛋白质发挥正常的功能是必不可少的,哪些空间结构部分是可 以变化的。当然,对于同一个蛋白质,在不同的条件下可能处于不同的构象,因 而具有不同的功能。 2 2 序列分析与相似性搜索概述 在现代生物学研究中,测定一条序列或从数据库中检索获得一条序列是相对 容易的事情。所以,对序列的分析与相似性搜索就成为分钟生物学家和化学家经 常需要处理和解决的问题。对生物学工作者来说,得到某一序列后,必须要回答 这一系列问题:这条无标点的连续字符串表示的“生物序列 中包含了什么信息? 是否存在类似的序列? 在多少种生物中存在这种序列? 它的编码序列如何? 它属 于哪一个蛋白质家族? 这个蛋白质家族有没有一致的结构? 序列的进化关系如 何? 能否查看到相应的结构? 根据现代生物学的观点,生物序列是在长期进化中产生的,序列之间想物种 之间一样是具有,亲缘,关系的。通过序列分析过程得到的相似性序列有可能就 是同源序列,而同源序列( 属于某一家族) 在今后过程中常常是保守的,保守的 序列对应了保守的结构,保守的结构又对应了保守的功能。所以,通过序列相似 性分析就可以预测某一序列的结构与功能,进而可以知道功能组分的分离、分析 或鉴定。 对于无“标点 标注的生物序列信息( 核酸序列或蛋白质序列) ,序列之间的 比对分析( s e q u e n c ef l i g n m e n t ) 是常常做、首先做或者只能做的工作,通过分析其 序列间的相似程度,找到保守位点,从而预测保守位点功能。序列比较的基本操 第二章相关理论基础 作是比对( a l i g n ) 。两条序列的比对( a l i g n m e n t ) 是指这两条序列中各个字符的一 种一一对应关系,或字符对比排列。序列的比对是一种关于序列相似性的定性描 述,它反映在什么部位两条序列相似,在什么部位两条序列存在差别。最优比对 揭示两条序列的最大相似程度,指出序列之间的根本差异。基于序列比对的方法, 在互联网的生物信息数据库中大规模寻找已知序列的相似序列,以及对应的结构、 基因组和相关文献的过程,叫做序列的相似性搜索( s e q u e n c es i m i l a r i t ys e a r c h i n g ) 。 在数据库中进行大规模搜索的目的常常是寻找到同源序列,完成对目的序列的功 能注释,或者判断序列是否属于某一家族,预测序列的结构与功能。 2 3 序列比对 序列分析与序列相似性搜索常用的方法是进行序列比对( s e q u e n c ea l i g n m e n t ) , 又称序列联配,通过将两个或多个核酸或者蛋白质序列进行比对,显示出其中相 似性的结构区域,这是进一步相似性分析的基础。而通过比较未知序列与已知序 列的一致性或相似性,可以预测未知序列的功能。 序列最常见的比对分析说核酸序列之间或者蛋白质序列之间的两两比对,通 过比较两个序列之间的相似区域和保守位点,寻找二者可能的进化关系。进一步 的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化功能的序列模式。 此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架:把 蛋白质序列与具有三维信息的蛋白质结构相比对( 空间比对分析) ,从而获得蛋白 质折叠类型信息等。 序列比对还是数据库搜索算法的基础,将查询序列与整个数据库所有序列进 行比对,从数据库中获得与其最相似序列,能够快速获得大量有价值的参考信息, 对于进一步分析其结果和功能会有很大帮助。近年来,随着生物信息学数据库的 大量积累和生物学知识的整理,通过比对方法可以有效的分析和预测一些新发现 基因的功能。 2 3 1 序列比对的原理 序列比对是将同源序列位点上的匹配位点( 相同或相似残基) 与不匹配位点 ( 不相似的残基) 按照一定的记分规则转化成序列间相似性或差异性的数值来进 行比较,相似性最大时的比对结果具有最多的匹配位点,从数学角度讲,就应该 是最有的比对结果;但利用数学模型或算法的出最优结果在多大程度上反映序列 9 电子科技大学硕士学位论文 之间的相似性以及它们的生物学特征之间的关系,取决于将生物学问题简化为数 学问题的过程,而这个过程也常常是生物信息处理最难解决的问题。生物学问题 是复杂的,过度简化( 还原) 将丢掉生物学的信息与规律,所以在生物信息学分 析中一定要注意相关原理和方法的学习,注意各种算法使用过程的假设条件以及 转换过程中信息丢失等问题【1 3 】- f 1 6 1 。 序列比对的目标是寻找进化过程中的同源序列,但是必须指出的是序列比对 得到的相似性( s i m i l a r i t y ) 与进化过程中序列的同源性( h o m o l o g y ) 是两个不同的 概念。相似性是指序列比对过程中用来描述检测序列和目标序列之间相同d n a 碱 基或氨基残基顺序所占比例的高低,是指一种很直接数量关系的描述。序列的同 源性是指从两个基因或蛋白质序列具有共同祖先的结论,属于因果性判断。序列 之间的相似程度是可以量化的参数,如两序列相似性为5 0 以上;而序列是否同 源需要有进化事实的验证。相当序列的同源性而言,相似性概念的含义更加广泛。 读者必须注意的问题是:序列的相似与序列的同源之间不是因果关系,即因为进 化是一个长期不断发生变化的过程,所以相似性序列不一定是同源序列。而同源 序列也不一定过度相似。然而,序列之间具有足够的相似性,就推n - - 者可能有 共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失和序列重组等 遗传变异过程分别演化而来。生物信息学分析过程就是通过序列的比对分析,基 于统计分析搜索相关数据库,找出目标序列的相似性序列,分析预测是否具有“同 源性 ,从而指导实验设计,这就是通常生物信息学方法对现代生物学发展能够发 现巨大作用的意义所在。 序列对比产生的分值到底多大程度上反映两个序列之间的亲缘关系,经验证 性的结论是蛋白质序列之间的氨基酸一致性超过3 0 ,它们就很可能是同源的; 而要定量化研究须利用统计学方法加以分析。统计分析的主要思想是把具有相同 长度的随机序列进行比对,将所得分值与最初的比对分值相比,看看比对结果是 否具有显著性。相关参数e 代表随机比对分值不低于实际比对分值的概率。对于 严格的比对,必须e 值低于一定阀值才能说明比对结果具有足够的统计显著性, 这样就排除了由于偶然的因素产生高比对得分的可能【1 7 】。 2 3 2 字母表和序列 在生物分子信息处理过程中,将生物分子序列抽象为字符串,其中的字符取 自特定的字母表。字母表是一组符号或字符,字母表中的元素组成序列。一些重 1 0 第二章相关理论基础 要的字母表有【1 8 】: ( 1 ) 4 字符d n a 字母表 a ,c ,gt ; ( 2 ) 扩展的遗传学字母表或i u p a c 编码( 见表2 3 ) ; 表2 - 2 扩展的遗传学字母表或i u p a c 编码 符号含义 说明 gg 鸟嘌呤 aa 腺嘌呤 tt 胸腺嘧啶 cc 胞嘧啶 rgo ra嘿呤 yto rc 嘧啶 mao rc 氨基 k go rt酮基 sgo rc 强氢键( 3 个氢键) 鬻ao rt 弱氢键( 2 个氢键) hao rco rt 非g bgo tto rc非a vgo rco ra 非t ( 非u ) dgo rao rt 非c ngo rao rto rc任意碱基 ( 3 ) 单字母氨基酸编码( 见表2 1 ) ; ( 4 ) 上述字母表形成的子集。 一般认为,子序列与计算机算法中子串的概念相当。但是,严格地讲,子序 列与子串的概念是有区别的:子串是子序列,而子序列不一定是子串。可以通过 选取s 中的某些字符( 或删除s 中的某些字符) 而形成s 的子序列,例如m 是 a t a t a t 的子序列。而s 的子串则是由s 中相继的字符所组成,例如t a c 是a g t a c a 的子串,但不是t t g a c 的子串。如果t 是s 的子串,则称s 是t 的超串。子串也 可以称为连续子序列。 序列比较可以分为四种基本情况,具体任务和应用说明如下【1 9 1 : ( 1 ) 假设有两条长度相近的、来自同一个字母表的序列,它们之间非常相似, 仅仅是有一些细微的差别,例如字符的插入、字符的删除和字符替换,要求找出 这两条序列的差别。这种操作实际应用比较多,例如,有两个实验室同时测定某 个基因的d n a 序列,其结果可能不一样,需要通过序列比较来比较实验结果。 电子科技大学硕士学位论文 ( 2 ) 假设有两条序列,要求判断是否有一条序列的前缀与另一条序列的后缀 相似,如果是,则分别取出前缀和后缀。该操作常用于大规模d n a 测序中序列片 段的组装。 ( 3 ) 假设有两条序列,要求判断其中的一条序列是否是另一条序列的子序列。 这种操作常用于搜索特定的序列模式。 ( 4 ) 假设有两条序列,要求判断这两条序列中是否有非常相似的子序列。这 种操作可用于分析保守序列。 当然,进行序列比较时,往往还需要说明是采取全局比较,还是采取局部比 较。全局比较是比较两条完整的序列,而局部比较是找出最大相似的子序列。 2 3 3 编辑距离( e ditdis t a n c e ) 观察这样两条d n a 序列:g c a t g a c g a a t c a g 和t a t g a c a a a c a g c 。一 眼看上去,这两条序列并没有什么相似之处,然而如果将第二条序列错移一位, 并对比排列起来以后,就可以发现它们的相似性。 g c a t g a cg a a t c a g i l i lil i t a t g a c a a a c a g c 如果进一步在第二条序列中加上一条短横线,就会发现原来这两条序列有更 多的相似之处。 g c a t g a cg a a t c a g l li iil ii il t a t g a c 一舀aac a g c 上面是两条序列相似性的一种定性表示方法,为了说明两条序列的相似程度, 还需要定量计算。有两种方法可用于量化两条序列的相似程度:一为相似度,它 是两条序列的函数,其值越大,表示两条序列越相似:与相似度对应的另一个概 念是两条序列之间的距离,距离越大,则两条序列的相似度就越小。在大多数情 况下,相似度和距离可以交互使用,并且距离越大,相似度越小,反之亦然。但 一般而言,相似度使用得较多,并且灵活多变。 最简单的距离就是海明( h a m m i n g ) 距离。对于两条长度相等的序列,海明 距离等于对应位置字符不同的个数。例如,图2 2 是3 组序列海明距离的计算结果。 1 2 第二章相关理论基础 si t = a ata g c a aa g c a c a c a t a aa c a t aa c a c a c t a 6 图2 2 海明距离 使用距离来计算不够灵活,这是因为序列可能具有不同的长度,两条序列中 各位置上的字符并不一定是真正的对应关系。例如,在d n a 复制的过程中,可能 会发生像删除或插入一个碱基这样的错误,虽然两条序列的其他部分相同,但由 于位置的移动导致海明距离的失真。实际上,在许多情况下,直接运用海明距离 来衡量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论