




已阅读5页,还剩50页未读, 继续免费阅读
(生物医学工程专业论文)基于网络的蛋白质rna结合位点预测数据库.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
a b s t r a c t t h e s i st i t l e :aw 曲b a s e dp r e d i c t i o nd a t a b a o fr n ab i n d i n gs i t e si na m i n oa c i ds e q a e e b y s v m g r a d u a t es t u d e n tn a m e :z h a n g ,y i m i n g s u p e r v i s o r n a m e :l u , z u h o n g ( p r o f e s s 0 0 s c h o o ln a m e :s o u t h e a s tu n i v e r s i t y p r o m i n - r n ai n t c a a c t i o n sa t ee s s e n t i a l l yi m p o r t a n ti naw i d er a n g eo fb i o l o g i c a lp r o c e s s e s f o r e x a m p l e , i na d d i t i o n t ot h e i ri m p o r t a n c ei np r o t e i ns y n t h e s i s ,m r n ap r o c e s s i n g , a n dv i r a l r e p l i c a t i o n ,p r o t e i n - r n ai n t e r a c t i o n sh a v er e c e n t l yb e e ns h o w nt op l a yc r i t i c a lr o l e si nc e l l u l a r d e f e n s ea n dd e v e l o p m e n t a lr e g u l a t i o n b e c a u s eo ft h ei m p o r t a n c eo fk n a - p r o t e i ni n t e r a c t i o n si nb i o l o g i c a lr e g u l a t i o na n dt h e c o n s i d e r a b l ee f f o r tr e q u i r e dt oi d e n t i f yr n ab i n d i n gr e s i d u e st h r o u g hb i o p h y s i c a la n a l y s e so f r n a - p r o t e i nc o m p l e x e so ri nv i t r ob i n d i n gs t u d i e s ,t h e r ei sa l lu r g e n tn e e df o rc o m p u t a t i o n a l m e t h o d st oi d e n t i f yr n ab i n d i n gs i t e sb a s e do np r k m r ya m i n oa c i ds e q u e n c ea l o n e h o w e v e r , i t i ss t i l lc h a l l e n g i n gt op r e d i c td n ao rr n ab i n d i n gr e s i d u e sd i r e e t l yf r o ma m i n oa d ds e q u e n c e d a t a , w h i c ha i br a p i , a ya c c u m u l a t i n gf r o mm a n ys p e c i e s m a c h i n el e a r n i n gt e d m i q u c so f f e ra n a t t r a c t i v ea p p r o a c ht oc o n s t r u c t i o no fc l a s s i f i e r sf o rt h i st a s k , u s i n gd a t as e t so fe x p e r i m e n t a l l y w e l l - c h a r a c t e r i z e dr n a - 掣- o t e i nc o m p l e x e s i nt h ep r e s e n tw o r k ,s u p p o r tv e c t o rm a c h i n e s ( s v m s ) a 托t r a i n e du s i n gt h r e es i m p l es e q u e n c ef e a t u r e sf o rt h ep r e d i c t i o no fr n a - b i n d i n gr e s i d u e s , i n c l u d i n gt h es i d ec h a i np k av a l u e , h y d r o p h o b i c i t yi n d e xa n dm o l e c u l a rm n s so fa l la m i n oa c i d w h e nc o m p a r e dw i t hp r e v i o u ss t u d i e s ,t h es v mm o d e la p p c a mt ob em o r ea c c u r a t e ,a n d r n a - b i n d i n g r e s i d u e so a nb ep r e d i c t e da t6 6 2 8 s e n s i t i v i t ya n d6 9 8 4 o u rw e bb a s e ds e c o n d a r yd a t a b a s e ( w w w b i o i n f s e u e d u c n p r a d i c t i o n d a t a b a s e ) p r e s e n t sa n i n t e r a c t i v ei n t e r f a c ef o ru s e r st oq u e r yi n f o r m a t i o nr e g a r d i n gr n ab i n d i n gs i t e sp r e d i c t i o ni n h u m a np r o t e i n ,a n da l s oa l l o w sb s e l 3t oo b t a i na m i n oa c i d q l l c n c ea n n o t a t e dw i t hh e a d e r , a c e s s i o nd a t e ,c o m p o u n d , a u t h o rl i s t , r e s o l u t i o n ,e x p e r i m e n tt y p e ( i fn o tx - r a y ) a n dc r y s t a lu n i t c e l lp a r a m e t e r sf r o mt h ec r y s t ir e c o r d k e y w o r d :b i o i n f o r m a t i c s ,s v mm o d e l ,p r o t e i nr n ab i n d i n g , s e c o n d a r yd a t a b a s e l i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:缝:! 釜日期:竺! :当矿 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论 文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名: 取二! 迓 导师签名:日期: 第一章生物信息学基础 第一章生物信息学基础 生物信息学是在数学、计算机科学和生命科学的基础上形成的一门新型交叉学科,是指 为理解各种数据的生物学意义,运用数学、计算机科学与生物学手段进行生物信息的收集、 加工、储存、传播、分析与解析的科学“。2 1 。 生物信息学是内涵( 图1 1 ) 非常丰富的学科,其核心是基因组信息学,包括基因组信 息的获取、处理、存储、分配和解释。基因组信息学的关键是“读馕”基因组的核苷酸顺序, 即全部基因在染色体上的确切位置以及各d n a 片段的功能;同时在发现了新基因信息之后进 行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的 调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的 诊断、治疗内在规律。它的研究目标是揭示”基因组信息结构的复杂性及遗传语言的根本规 律,解释生命的遗传语言。生物信息学已经成为整个生命科学发展的重要组成部分,成为 了生命科学研究的前沿”1 。 9 9 图1 1 生物信息学的组成 1 1 生物信息学的发展h 羽 早在1 9t 日= 纪,人们就已经知道蛋白质在生命活动中的作用。1 8 8 3 年c u r t i u s 首先提出 东南人学硕士学位论文 蛋白质线性一级结构的假设。1 9 3 3 年,t i s e l i u s 首次通过电泳将溶液中的蛋白质分离出来。 在2 0 世纪5 0 年代前后,已经通过实验测定一些蛋白质的序列,如1 9 4 7 年测出短杆菌的五肽 结构,1 9 5 1 年重构胰岛素的3 0 个氨基酸。几乎同一时期,科学家认识到d n a 是遗传物质。 1 9 4 9 年,发现了d n a 链中a - t 、g = c 的规律,1 9 5 1 年。p a u l i n g 和c o r e y 提出蛋白质的a 螺旋和b 折叠结构,1 9 5 3i g w a t s o n 和c r i c k 根据f r a n k l i n 和w i l k i n s 得到的x - 射线衍射数 据提出d n a 的双螺旋结构模型,它揭开了分子生物学研究的序幕。在其后的2 0 年中,科学 家们逐步地认识了从d n a 到蛋白质的编码,掌握了三联密码子的本质。1 9 6 1 年,j a c o b 和 h o n o d 发现大肠杆菌的l a c 操纵子中存在调控元件,证实非编码序列并不是垃圾序列。1 9 6 2 年,k h e s i n 等人发现噬菌体中的基因转录表达具有定时调节机制。6 0 年代出现通用的核酸 测序技术,7 0 年代中期开始进行基因组规模的测序工作。 早在2 0 世纪5 0 年代,生物信息学就已经开始孕育,1 9 5 6 年在美国田纳西州的g a t l i n b u r g 召开了首次“生物学中的信息理论研讨会”。在2 0 世纪6 0 年代,一些计算生物学家 开始进行相关研究,虽然当时没有具体地提出生物信息学的概念,但是做了许多生物信息搜 集和分析方面的工作。在这个时期,生物大分子携带信息成为分子生物学的重要理论,生物 分子信息在概念上将计算生物学和计算机科学联系起来。大量的生物分子序列成为丰富的信 息源。科学家们开始应用计算方法分析这些信息。相关或者同源蛋白质序列之间的相似性首 先引起人们的注意,1 9 6 2 年,z u c h e r k a n d l 和p a u l i n g 研究了序列变化与进化之间的关系, 开创了一个新的领域分子进化( m o l e c u l a re v o l u t i o n ) 。随后,通过序列比较确定序 列的功能及序列分类关系成为序列分析的主要工作。氨基酸序列的收集是这个时期的一个重 要工作,1 9 6 7 年,d a y b o f f 研制出蛋白质序列图集,该图集后来演变为著名的蛋白质信息 源p i r 。2 0 世纪6 0 年代是生物信息学形成雏形的阶段 然而就生物信息学发展而言,它却是一门相当年轻的学科,一般认为,生物信息学的真 正开端是2 0 世纪7 0 年代。从7 0 年代到8 0 年代初期,随着生物化学技术的发展,产生出大 量的序列数据,而在这个阶段数学统计方法和计算机技术都得到较快的发展,于是促使一部 分计算机科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。他们 开始研究生物分子序列,研究如何根据序列推测结构和功能。这时,生物信息学开始崭露头 角。 从7 0 年代初期到8 0 年代初期,出现了一系列著名的序列比较方法,其中n e e d l e m a n 和 w u n s c h 于1 9 7 0 年提出的序列比对算法是对生物信息学发展最重要的贡献。同年,g i b b s 和 m c i n t y r e 发表的矩阵打点作图法也是进行序列比较的一个著名方法,该方法可用于寻找序 列中的重复片断,从而推测其功能。d a y h o f f 提出的基于点突变模型的p a m 矩阵是第一个广 泛使用的氨基酸相似性的打分矩阵,它大大地提高了序列比较算法的性能。s c i e n c e 期刊于 1 9 8 0 年第2 0 9 卷发表了关于计算分子生物学的综述。1 9 8 1 年s m i t h 和w a t e r m a n 提出了著 名的公共子序列识别算法,同年,d o o l i t t l e 提出关于序列模式的概念。1 9 8 3 年,w i l b u r 和 l i p m a n 发表了数据库相似序列搜索算法。1 9 8 5 年,出现快速的蛋白质序列搜索算法 2 第一章生物信息学基础 f a s t p f a s t n ,1 9 8 8 年,p e a r s o n 和l i p m a n 发表了著名的序列比较算法f a s t a 。1 9 9 0 年, 快速相似序列搜索算法b l a s t 问世,1 9 9 7 年,b l a s t 的改进版本p s i - b l a s t 投入实际应用 在2 0 世纪7 0 年代,还不断涌现出许多生物信息分析方法。1 9 7 2 年,g a t l i n 将信息论 引入序列分析,证实自然的生物分子序列是高度非随机的。1 9 7 7 年,出现了将d n a 序列翻 译成蛋白质序列的算法。1 9 7 5 年,继第一批r n a ( t r n a ) 序列的发表之后,p i p a s 和m c g a h o n 首先提出运用计算机技术预测r n a 二级结构。1 9 7 8 年,g i n g e r a s 等人研制出核酸序列中限 制性酶切位点的识别软件。 2 0 世纪8 0 年代以后,出现一批生物信息服务机构和生物信息数据库。1 9 8 2 年核酸数 据库g e n b a n k 第3 版公开发行。1 9 8 6 年,日本核酸序列数据库d d b j 诞生。1 9 8 6 年,出现蛋 白质数据库s w i s s p r o t 。1 9 8 8 年,美国国家卫生研究所和美国国家图书馆成立国家生物技 术信息中心n c b i 。同年,成立欧洲分子生物学网络( e m b n e t ) ,该网络专门发布各种生物数 据库。 在2 0 世纪9 0 年代后,科学家们开始大规模的基因组研究。1 9 8 6 年,出现基因组学 ( 6 e n o m i c s ) 概念,即研究基因组的作图、测序和分析1 9 9 0 年。国际人类基因组计划启 动,该计划被誉为生命科学的“阿波罗登月计划”1 9 9 3 年,成立s a n g e r 中心,该中心专 门从事基因组研究。1 9 9 5 年,第一个细菌基因组被完全测序,1 9 9 6 年,酵母基因组被完全 测序。1 9 9 6 年,a f f y l e t r i x 生产出第一块d n a 芯片。1 9 9 8 年,第一个多细胞生物线虫 的基因组被完全测序。1 9 9 9 年,果蝇的基因组被完全测序。1 9 9 9 年年底,国际人类基因组 计划联合研究小组宣布人类第一次获得一对完整人染色体第2 2 对染色体的遗传序列。 2 0 0 0 年6 月2 4 日,人类基因组计划协作组的6 个国家研究机构在全球同一时间宣布已完成 人类基因组的工作框架图。与此同时,生物信息学在人类基因组计划的促动之下迅速发展。 图1 2 描绘了从1 9 7 3 年以来生物医学文献数据库p u b m e d 中搜集的与生物信息学相关 论文的历年统计结果。这张图从有关生物信息学论文数量的变化说明了何时是生物信息学的 形成初期,何时是生物信息学的迅速发展期。 强 篓 蒜 蚤 薹 星 描 嚣美麓若甚爿爿器兰嚣嚣蓉簟鏊薯器蔫凄兰$ 薯孟暮番昌磊毒8 年傍 3 鏊 墨 电 莲 每 苫 盂 姑 舷戥戳粕撕慨莒荟戳粕挑慨 2 l l l l l o 0 o o 0 姗跚舢姗姗伽姗姗姗。 东南大学硕士学位论文 图1 2p u b m e d 中与生物信息学相关论文统计。1 无论从理论上来讲还是从实际情况来看,生物信息学的实质就是利用计算机科学和技 术来解决生物学问题。生物信息学的诞生是生物学对大量数据处理和分析的需求而引发,是 历史的必然。作为一门交叉学科,生物信息学的发展依赖于计算机科学技术和生物技术的发 展,而生物信息学的研究成果又促进了生物学特别是分子生物学的发展。 1 2 生物信息学的研究内容n h 阳 从目前生物信息学的研究情况来看,国际上公认的生物信息学的研究内容,大致包括以 下几个方面: ( 1 ) 生物信息的收集、存储、管理与提供。包括建立国际基本生物信息库和生物信息传 输的国际联网系统:建立生物信息数据质量的评估与检测系统:生物信息的在线服务:生物信 息可视化和专家系统。 ( 2 ) 基因组序列信息的提取和分析。包括基因的发现与鉴定,如利用国际e s t 数据库 ( d b e s t ) 和各自实验室测定的相应数据,经过大规模并行计算发现新基因和新s n p s 以及各 种功能位点:基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学 功能:进行模式生物完整基因组的信息结构分析和比较研究:利用生物信息研究遗传密码起 源、基因组结构的演化、基因组空问结构与d n a 折叠的关系以及基因组信息与生物进化关系 等生物学的重大问题。 ( 3 ) 功能基因组相关信息分析。包括与大规模基冈表达谱分析相关的算法、软件研究, 基冈表达调控网络的研究:与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及 蛋白质功能预测的研究。 ( 4 ) 生物大分子结构模拟和药物设计。包括r n a ( 核糖核酸) 的结构模拟和反义r n a 的分子 设计:蛋白质空问结构模拟和分子设计:具有不同功能域的复合蛋白质以及连接肤的设计:生 物活性分子的电子结构计算和设计:纳米生物材料的模拟与设计:基于酶和功能蛋白质结构, 细胞表面受体结构的药物设计:基于d n a 结构的药物设计等。 ( 5 ) 生物信息分析的技术与方法研究。包括发展有效的能支持大尺度作图与测序需要的 软件、数据库以及若干数据库工具,诸如电子网络等远程通讯工具:改进现有的理论分析方 法,如统计方法、模式识别方法、隐马尔科夫过程方法、分维方法、神经网络方法、复杂 性分析方法、密码学方法、多序列比较方法等:创建一切适于基因组信息分析的新方法、 新技术。包括引入复杂系统分析技术,信息系统分析技术等:建立严格的多序列比较方法: 4 第一章生物信息学基础 发展与应用密码学方法以及其他算法和分析技术,用于解释基因组的信息,探索d n a 序列及 其空间结构信息的新表征:发展研究基因组完整信息结构和信息网络的研究方法等:发展生 物大分子空间结构模拟,电子结构模拟和药物设计的新方法与新技术。 ( 6 ) 应用与发展研究。汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技 术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与 大分子设计和药物设计相关的数据库。 5 东南大学硕士学位论文 第二章生物信息数据库 2 1 生物信息学数据库的发展现状n l 伽 国际上已建立起许多公共生物分子数据库,包括基因图谱数据库、核酸序列数据库、蛋 白质序列数据库、生物大分子结构数据库等。这些数据库由专门的机构建立和维护,他们负 责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员 提供大量有用的信息,最大限度地满足他们研究和应用的需要,为生物信息学研究服务 建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足 分子生物学及相关领域研究人员迅速获得最新实验数据的要求。生物分子信息分析已经成为 分子生物学研究必备的一种方法。如果说理论分析和算法模拟是生物信息学实验方法的话, 那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。数据库 及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工 具 生物数据库的发展,最初多是把原始数据组织在约定格式的纯文本文件中,并没有引用 很多数据库技术。数据流量急剧增大之后,人们不得不把生物数据库的进一步发展纳入现代 数据库技术的主流,例如采用关系数据库和符合标准查询语言( s t a n d a r dq u e r yl a n g u a g e 简称s q l ) 的协议。大的生物信息中心,如g s d b 使用s y b a s e 公司的技术,而e b i 使用o r a c l e 数 据库技术。 迄今为止,生物学数据库总数已达5 0 0 个以上。在d n a 序列方面有g e n b a n k ,e m b l 和d d b j 等。在蛋白质一级结构方面有s w i s s p r o t ,p i r 和m i p s 等。在蛋白质和其它生物大分子的结构 方面有p d b 等。在蛋白质结构分类方面有s c o p 和c a t h 等。 生物分子数据库目前的发展状况有几个明显的特征: ( i ) 生物分子数据库最突出的特征就是数据库的更新速度不断加快,数据量呈指数增长趋 势。例如,核酸序列数据的年增长幅度为1 0 0 。 ( 2 ) 数据库使用频率增长更快。据统计,数据库的平均使用频率每年增长幅度为接近5 0 0 。 ( 3 ) 数据库的复杂程度不断增加。数据库中除了基本数据之外,还包括火量注释、参考文 献等信息,例如在s w i s s p r o t 数据库中注释项涉及蛋白质的功能、结构域和活性位 点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性、与该蛋白质关联的 疾病、序列变化等。 ( 4 ) 数据库网络化。几乎所有的数据库都可以在国际互联网上访问,并且公共数据库之间 相互链接,使用户可以迅速得剑人量的相关生物分子信息。有的系统则将多个生物分 子数据库整合在一起,形成集成的数据库系统。 6 第二章生物信息数据库 ( 5 ) 面向应用。首先,各个数据库服务器除了提供数据之外。还提供许多分析工具,如核 酸数据库提供的序列搜索、基因识别程序等,生物大分子结构数据库提供的结构比较 程序、结构模拟程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的 二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。 ( 6 ) 先进的软硬件配置。从计算机硬件上来看,许多数据库服务器己从工作站升级到大型 服务器,使数据库能够高效地管理数据和为用户服务,并在专门的硬件上( 如并行机) 运行服务程序。而在系统软件方面,使用大型数据库管理系统,面向对象的数据库管 理方法正在逐步取代旧的模式,数据库服务广泛采用服务器客户式结构。 2 2 一级数据库,二级数据库 基因组数据库来自基因组作图,序列数据库来自序列测定,结构数据库来自x - 衍射和核 磁共振结构测定。这些数据库是分子生物信息学的基本数据资源,通常称为基本数据库 ( p r i m a r yd a t a b a s e ) ,初始数据库,也称一级数据库。根据生命科学不同研究领域的实际需 要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、 注释,构建具有特殊生物学意义和专门用途的二级数据库( s e c o n d a r yd a t a b a s e ) ,是数据库 开发的有效途径。近年来,世界各国的生物学家和计算机科学家合作,已经开发了几百个二 级数据库和复合数据库,也称专门数据库、专业数据库、专用数据库。 一般而言,一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类 整理和注释:二级数据库是在一级数据库、实验数据和理论分析的墓础上针对特定目标衍生 而来,是对生物学知识和信息的进一步整理。一级数据库的数据库量大,更新速度快,用户 面广。通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例 如,欧洲生物信息学研究所使用o r a c l e 数据库软件管理、维护核酸数据库啪l 。而基因组数 据库6 d b 的管理、运行则基于s y b a s e 数据库系统,即使是安装其镜象。也需要有s y b a s e 支撑。 o r a c l e 和s y b a s e 均为流行的数据库管理商业软件。而二级数据库的容量则要小得多,更新速 度也不象一级数据库那样快,甚至可以不需要大型商业数据库软件的支撑。许多二级数据库 的开发基于w e b 浏览器,使用超文本语言h t m l 和j a v a 程序编写的图形界面,有的还带有搜索 程序。这类针对不同问题开发的二级数据库的最大特点是使用方便,特别适用于计算机使用 经验并不丰富的生物学家。 2 3 常见生物信息学数据库 7 东南大学硕士学位论文 2 3 1 核酸序列数据库 核酸序列是了解生物体结构、功能,发育和进化的出发点。国际上权威的核酸序列数据 库有三个,分别是美国生物技术信息中心( n c b i ) 的g e n b a n k “”1 ( h t t p :n c b i n l n n i h g o v w e b g e n b a n k i n d e x h t m l ) ,欧洲分子生物学实验室的e 缸b l - b a n k ”( 简称咖l , h t t p :v n n v e b i a c u k e m b l i n d e x h t m l ) ,日本遗传研究所的肋b j 。1 。“1 ( h t t p :m d d b j n i g a c j p ) 。三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有 所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的d 凇和r n a 序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通 过各种方式将核酸序列数据提交给这兰个数据库系统。数据库中的每条记录代表一个单独、 连续、附有注释的d n a 或r n a 片段。由于d n a 测序能力的极大提高,d n a 序列增长的速度也非 常快。图2 1 是g e n b a n k 数据库中近几年数据量的统计,这张图反应了d n a 序列数据迅速增长 的趋势。 序 列 敏 一 韭 往 : 百 万 图2 1 核酸序列数据的增长趋势“ 2 3 2 基因组数据库 碱 基 莪 一 蕈 往 : 苜 万 基因组数据库g d b ( h t t p :w w w g d b o r g ) t 1 9 9 0 年建立于美i j l j o h n sh o p k i n s 大学, 该数据库中的内容主要是人类基冈组计划所得到的图谱数据。g d b 的目的是为科学家提供一 8 第二章生物信息数据库 部关于人类基因组的百科全书。虽然g d b 着重于基因图谱,但是随着人类基因组计划的顺利 发展,人类基因组计划己从作图阶段发展到测序阶段,并进入到功能分析阶段,因而g d b 的 内容也不断拓宽。目前正在扩展序列水平的基因组信息的表示。 收集和维护基因组信息的工作量非常大,许多研究小组和学会被邀请提供他们的实验 数据,或对数据库中的数据进行注释,或为各个数据建立到其它相关数据库的连接。 目前g d b 包含对下述三种对象的描述: ( 1 ) 人类基因组区域,包括基因、克隆、p c r 标记物、断点、细胞遗传学标记、易碎位点、 e s t 、综合区域、c o n t i g s 、重复等: ( 2 ) 人类基因组图谱,包含细胞遗传学图谱,连接图谱、辐射混合图谱、c o n t i g 图谱、集 成图谱,所有这些图谱都可以被直观地显示出来; ( 3 ) 人类基因组中的变化,包括基因突变和基因多态性。加上等位基因频率数据。除g d b 之 外,还有其它模式生物基因组数据库,如鼠基因组数据库蛳d ( h t t p :硼t i n f o r m a t i c s j a x o r g ) 、酵母基因组数据库s 6 d ( h t t p :g e o o m e - s t a n f o r d e d u s a c c h a r o m y c e s ) 等。 2 3 3 蛋白质序列数据库 p i r ”( p r o t e i ni n f o r m a t i o nr e s o u r c e ,h t t p :p ir _ g e o r g e t o w n e d u ) 是美国华盛 顿的乔治城大学全国生物医学研究基金会( n b r f ) 日本东京理科大学的日本国际蛋白质信息 数据库( j a p a n e s ei n t e r n a t i o n a lp r o t e i ni n f o r m a t i o nd a t a b a s e 简称j i p i d ) 和德国的慕 尼黑蛋白质序列信息中心( m u n i c hi n f o r m a t i o nc e n t e rf o rp r o t e i ns e q u e n c e s 简称m i p s ) 共同收集信息和维护的蛋白质序列数据库。另一个著名的蛋白质序列数据库就是 s w i s s p r o t 。( h t t p :u s e x p a s y o r g s p r o t s p r o t t o p h t m l ) 这个数据库其实包括两 大部分一部分是由专家进行人工校对和标识建立的s w i s s p r 0 r r 这部分数据库也是典型的专 家库质量和可靠性非常高两另外一部分是t r e 吼这一部分数据是通过e 独l 的数据用计算 机方法寅接翻译的数据量很大作为s w i s s p r o t 的补充该数据库由瑞士生物信息学研究 所( s ib ,s w i s si n s t i t u t eo fb i o i n f o r m a t i c s ) 和欧洲生物信息学研究所e b i 共同维护的。 2 3 4 生物大分子结构数据库 目前,国际上著名的生物大分子结构数据库是美国b r o o k h a v e n 实验室的大分子结构数 9 东南大学硕+ 学位论文 据库p d b “”( h t t p :, n m r c s b o r g p d b ) 。p d b 中含有通过实验( x 射线晶体衍射,核磁 共振n m r ) 测定的生物大分子的三维结构,其中主要是蛋白质的三维结构,还包括核酸、糖 类和其它复合物的三维结构。截_ l 1 :2 0 0 1 年8 月,p d b 数据库已含有约1 6 0 0 0 个结构。对于 每一个结构,包含名称,参考文献、序列、一级结构、二级结构和原子坐标等信息。 p d b 中的每条记录有两种序列信息,一种是显式序列信息( e x p l i c i ts e q u e n c e ) ,一 种是隐式序列信息( i m p l i c i ts e q u e n c e ) 。在p d b 文件中,以关键字s e q r e s 作为显式序列标 记,以该关键字打头的每一行都是关于序列的信息。对于氨基酸残基,采用三字符的表示方 式,这点与其它序列数据库不一样;对于核酸序列,数据库中的序列方向为3 端n 5 端。 p i ) b 的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。在实际应 用中,p d b 数据库应与结构模型显示软件结合起来。因为p d b 的主要信息是三维结构,如果 直接将三维结构信息以文本的形式返回给用户,那么用户难以分析这些结构信息,实用的方 法是通过分子模型化软件以图形方式显示三维结构。这样的软件在i n t e r n e t 网上有许多, 如r a s l o l 、c h e m v i e w 等,这些软件能够以各种各样的模型显示生物大分子的三维结构,如 结构骨架模型、棒状模型、球棒模型、空间填充模型、带状模型等等。此外,在p d b 中还说 明蛋白质某些特定部位的二级结构类型,如a 螺旋和b 折叠。 图2 2 给出p d b 一个蛋白质的有关信息( 不包括原子坐标,只包含注释) 。p d b 和它的 一些镜像站点提供由每个p d b 记录的所有文本信息索引的文本查询程序,可按一些专门的查 询项目( 如提交数据、作者姓名、结构表达) 进行检索。 第二章生物信息数据库 e y d r o l a s e 1 1 一f e b 一9 7l a d z t g e5 0 l j t i 锑s t k u c t u r eo ft h es e c o b _ 。* 硼:t zd o m a i xo f 2t i s s u ef a c t o rp a t h w a yi i b i t o r ,峨3 0s t r d c t u r e $ m o l 一d :l ; 2m o l e c u l e :t i s s u ef a c i o ap t 聪矗y 蕊i b z z 锄 c o ! 拜r 对oeb 1 0 l o g i c 舡张i z ;m 瑚e 瞳 s o 口r c em o li d :1 : s 0 明t c 7 残p r s s z o 翦s y s :e m 翻擅s m i d :p m g 髓y 譬d se y 壕o z 五s z 搿e 1 3 i 工o r 。c o a 亩越i o 鼙 e x 0 z a 酥3 es 豫口c z 口魁s a c l e o rh j m ,b 口r 6 e r :粥l p 。h o q b o h s r v n a z 12 5 一f 珏一 8l a o z 0 砸 配埘丑冀3 斟m g e r i m g ,l p 讲日鼙s 。量。明蠛强d :瑚。 8 彰蜢童譬ir e f 髓哐眦1 曼黜镰r x1a 订em :s :渤si ! r 蜀蠕姓lr i z l5 z r 玎c t 啊疆la 5 p i c z 5o f 蜀k i o rx 础:嚣i t i 伽 列强a r x9 9 95 a 砸眦 a 到蠕r k9 9 9l a d zs 鄹p 1 0 l e l 1 1 1 赫口fi ka t a 蝎l z s z a e m 粼9 9 91 a d z潞p 1 0 4 l a 3 3 0 4 抖。ti wa :0 m sl z s t b 娶强甜【9 9 9t 髓f :r s ? k z l 瑾r s :d u e s 磊艇埒o tp a r zo 暑:艇t f i 臻z 葛i i r 列强r k9 9 9s e o 程- h c ea 口ta r e 玎t 斛:h ep f 强gp e p :引疆c l 鼎z l 珏v e c t o r d b r 髓l a d zl7 15 w sp 15 6 4 6 工f ih 锄t a 辩1 1 2l e 2 s e c a d vi a d za s pl5 w 5p 1 0 ez z 卫1 1 2e x g i 蜘e r e d s e q a d vl a d zt ! a 2s 鹩p 1 0 ei l e1 1 3 n s :n r e d $ e q r e s17 l 五s p mz o sa s pa s pa 3 pa s pl y s i z gl y sp r oa s p 抛 s z 翟e s 27 1c y sp 艟l 0s l 0g l 口a s p r og l y i l ec y sa r 0g i yz y r s e c a e $37 li z e 撇a 袅g 讯p 旺z ¥ra s ka 5 精缸封:髁l ¥sg 强c y 5 s e :托547 ls i 嚣a r g 现挹l y sr y rg l y 乩ye y s 让咎g l ya 璺l 脏ra 三对 $ e q p x s57 la s np b z6 l uz 班ll e gg l u 。王一孽c y 5i j s 五s hi l ec y sg z 盯 5 e 乞r e s7 la 5 pg i jp r oa g hg l yp 醒 l1a s p1 2mi 55 22m3 tm3 55 33 址u5 ,i l k5 31 la2a r g2 9a s n3 3o 2矗26 埘3 8p 艟4 2 一l 拉p 旺 2org2 9 i 0 0 0:0 0 01 o o9 0 0 0 ,o 0 09 0 。o o pl1 1 0 0 0 0 0 0o 。0 0 0 0 0 00 。0 0 0 0 0 0o 0 0 0 0 0 o 0 0 0 0 0 0l 。0 0 0 0 0 00 0 0 0 0 0 0o 0 0 0 0 0 0 0 0 0 0 0 00 e 0 0 0 0 0l 。0 0 0 0 0 00 0 0 0 0 0 1 0 0 0 0 0 0 o 。0 0 0 0 0 0 0 0 0 0 0 0 00 。0 0 0 0 0 图2 2p d b 文件 警急 裂翼| l 1 l 2 3 l强乏i磁器盱器强瓤越皇i l l l y i i i a勉璧l醒懿懿浊瓣瓣 东南大学硕士学位论文 第三章机器学习与蛋白质r n a 结合位点预 测方法 3 1 研究背景 很多种蛋白质在与d n a 或r n a 的相互作用中发挥着重要的功能。比如,转录因子在与启动子 里的特定的d n 基序相结合的过程中可以实现对转录过程激活或抑制。蛋白质与p , n a 的相互作用 在核糖体和真核生物的剪接体的组装和功能的实现中发挥着重要作用。因此,识别能与i ) n a 或烈a 相互作用的氨基酸残基对于理解很多生物学过程很有帮助。” 对于结构数据的分析可以为理解蛋白质与核酸的相互作用的机制提供很多重要信息。在原子 水平中,这种相互作用牵扯到了复杂的氨基酸残基和核酸之间的氢键,范德华力的间接连接和相 互作用。我们同时发现与d n a 或r n h 结合的残基的组成偏向于极性的氨基酸( 例如,精氨酸和丝 氨酸) ,但是酸性和疏水的氨基酸例如白氨酸和谷氨酸在相互作用的表面上低表达。因此, 对于结构分析所得到的信息被用于预测已知的蛋白质结构中刚a 的结合残基。”“ 理解蛋白质识别特定烈 的分子机制对于分析这些细胞之间相互作用的功能和应用是非常 有用的。烈a 和蛋白质的相互作用不仅在蛋白质的合成,m r n a 的加工,病毒的复制中起到重要作 用,近期还发现在细胞的防御和发展性调控中意义重大。 运用基于r n a 结合蛋白质序列分析,结合影响r n a 结合的特意性和亲和性的突变的功能性特 征,目前至少有9 类的r n a 结合蛋白质家族可以被识别。相反的,实验室能确定的r n a 结合蛋白质 和础峨复合体的数量相对比较少且有很强的偏向性( 在p r o t e i nd a t ab a n k ( p d b ) 的数据中,核糖 蛋白质占所有- p 讣a 结合蛋白质的5 0 以上) 。然而,有不少对于烈a 蛋白质复合物的计算分析产生了 碰怛和蛋白质相结合的数据库,并且为核糖核甘酸与氨基酸的相互作用过程提供了重要的生物物 理学意义。 3 2 主要研究方法和挑战晰们 因为r 和蛋白质相互作用在生物学调控中的重要性,并且在体外通过生物物理学方法研究 和分析尉蛆蛋白质复合物从而识别山r n a 在蛋白质上的结合位点的方法需要耗费人量精力,所以急 切的需要种仅仅基于原始氨基酸序列就能识别r n a 蛋白质结合位点的计算方法。 最近,有研究利用人工神经网络的方法通过对序列信息以及氨基酸残基溶解性的训练来预测 d n 卜结合残基。人r 神经网络的方法可以达至t j 4 0 3 的敏感性和8 1 8 9 6 的特异性。另一种方法革命 性的引进了特异位点得分矩阵( p s s m ) 可以提升预测的准确度,它的表现可以达n 6 8 2 9 6 的敏感 1 2 第三章机器学习与蛋白质r n a 结合位点预测方法 性和6 6 o 的特异性。p s s m 的方法主要是利用p s i b i a s t 程序把要预测的序列在非常大的参考数据 库中进行搜索比对。由于p s s m 方法需要的计算量非常巨大,所以可能不太适用于在线预测系统。 并且,p s s m 方法也不能对在参考数据库中没有同源的序列进行预测。 机器学习技术,利用实验中确定的r n a 蛋白质复合物的数据,正好可以为我们提供一个这种 分类的方式。最近有3 篇文章报道用支持向量机的方法来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目文件管理试题及答案
- 2025年四川教师考试试题及答案
- 柳桉木坐凳施工方案
- 设计服务方案表格范本
- 2025年上海歌剧院第二季度工作人员公开招聘模拟试卷及答案详解(名校卷)
- 厨房门槛石施工方案
- 山里铺沥青路面施工方案
- 江门台山市教育系统下属事业单位招聘考试真题2024
- 施工方案编审批分别是谁
- 2025湖南农产品批发市场交货仓库储存合同
- 皮带机安全知识培训
- 零星维修工程施工组织设计方案方案
- 2025年汽车驾驶员(技师)考试试题及答案(含答案)
- 2025大连国际机场招聘25人笔试历年参考题库附带答案详解
- 2025年浙江铁塔招聘笔试备考题库(带答案详解)
- 2025年上海市(秋季)高考语文真题详解
- 《秘书文档管理第三版》课件第七章
- 电力工程电缆设计课件
- 施工班组驻地管理制度
- 城投公司成本控制管理制度
- 中国磷化工行业市场规模及发展前景研究报告(智研咨询)
评论
0/150
提交评论