数据挖掘在植物蛋白质组学研究中的应用_第1页
数据挖掘在植物蛋白质组学研究中的应用_第2页
数据挖掘在植物蛋白质组学研究中的应用_第3页
数据挖掘在植物蛋白质组学研究中的应用_第4页
数据挖掘在植物蛋白质组学研究中的应用_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘在植物蛋白质组学研究中的应用摘要:数据挖掘是一个崭新的计算机应用领域,是一种从数据库中提取预测性信息的新技术。本文在介绍植物蛋白质组学研究背景的前提下,阐述了数据挖掘的原理、方法及其在植物蛋白质组学研究中取得的进展,分析了现有数据挖掘技术存在的问题,提出当前应该在确保数据质量的前提下,重视数据挖掘中系统数据分析和归纳的能力。关键词:蛋白质组;植物蛋白质组学;数据挖掘;数据分析2000 年 6 月人类基因组工作框架图的完成,标志着生命科学的研究进入了后基因组时代。此时生命科学的研究重心开始从揭示生命的所有遗传信息,逐渐转移到对生命功能的整体性研究上。蛋白质组学这一新兴学科应运而生。蛋白质组学的定义是:“对一个组织、细胞、或亚细胞组分中蛋白质群的系统分析” 1。在蛋白质组学的研究中,植物蛋白质组学的研究仍处于起步阶段。如何结合生物信息学技术,对植物蛋白质组进行系统、高效的研究,是后基因组时代功能基因组学研究的重点领域。其中特别是如何结合最新的数据挖掘技术,对提取的大量数据进行分析、综合、归纳和判断,以此来发现蛋白质组中隐藏的关系和规则,提出预测性的建议,成为了研究中的热点。1 植物蛋白质组学研究的现状11 植物蛋白质组学的概念、意义以及产生背景蛋白质组(proteome)这一概念,最早由 Wilkins 等(1994)提出,与基因组概念有着内在的联系和区别 2。蛋白质组学从总体上对生命的功能载体蛋白质进行研究。蛋白质组学研究目前已迅速地在全球范围内展开。总的来说可以分为两方面,也就是蛋白质组学发展的两条路线。1 作为数据库,即从细胞或组织的整体水平研究蛋白质表达的量化谱。由于蛋白质组的高度动态变化,一个蛋白质组的数据库必须包括诸多因素,例如细胞表型、状态和所使用的分析软件,翻译后修饰的量和度,亚细胞定位,以及与其它蛋白的相互作用等。2 作为生物学研究的方法,或者称为功能蛋白质组学。即分析不同状态的系统与正常的蛋白质组,进行定量比较,得到某状态的特征性蛋白。通过这种方法可以帮助人们理解复杂的生物过程 3,4 。近年来,由于双向电泳技术、蛋白质检测及定量、指纹图谱和利用质谱仪(MS) 测定蛋白质序列,增加了蛋白质组学分析的敏感度及效能,蛋白质组学作为生理和遗传研究的新工具,已渗透到植物特异性组织和器官的生理过程,对生物和非生物因素的胁迫反应。尤其是在由环境因子引起基因表达的变化及叶绿体膜蛋白结构等方面取得了长足进展。生物信息学及各种基因分离方法的改进,将有助于新基因的鉴定、分离。迄今,实验室鉴定的大多数蛋白赋予了生物学功能。然而,人们更期望基于基因组学研究发现未知功能的蛋白结构,利用结构和功能的相关性方法发现蛋白未知的功能,并阐明目标蛋白质在信号转导途径中的位置,揭示植物抗病的机理。对不同生物的蛋白质组进行比较性研究,则可为研究植物的分子进化途径、探讨植物的起源等问题提供线索。蛋白质组数据库还将可能成为农药设计的路标。12 植物蛋白质组学研究中的技术方法蛋白质组学研究中的技术方法包括:双向聚丙烯酰胺凝胶电泳(2D-2PAGE),质谱分析技术(Massspectrometry,MS),双向高效柱层析,蛋白质芯片,酵母双杂交系统和数据库搜索引擎等。其中,数据库搜索和生物信息学在植物蛋白质组学研究中得到了越来越多的运用。许多研究实验室都已经开发出了一些搜索引擎,其中一些已经商业化。13 植物蛋白质组学的研究现状植物基因组学的研究主要集中在拟南芥(Ara2bidopsis thaliana)和水稻(Oryza sativa)两种模式植物上。2000 年 12 月,美、英等国科学家宣布测出拟南芥基因组的完整序列(The Arabidopsis Genome Initiative ,2000),这是人类首次全部破译高等植物的基因序列。 2002 年是水稻基因组学研究取得重大成就的一年,首先中国的科学家和Syngenta 公司的科学家分别发表籼稻和粳稻基因组“工作框架图” ,继后日本和中国的科学家又分别公布了粳稻第 1 号和第 4 号染色体的全序列以及籼稻粳稻基因的“精细结构图” ,被认为是基因组学研究的又一个重要里程碑。基因组密码的破译,拉开了生命科学研究的序幕,但是,要真正揭示生命活动的奥秘,基因组研究本身又无能为力。因为,基因组仅仅是遗传密码和遗传信息的载体,在生命活动的不同过程中恒定不变,不能反映有机体在生命活动过程中基因表达的时空关系和网络调控。在后基因组时代,研究重心转移到基因功能的解析,即利用结构基因组所提供的信息和高通量的实验手段在转录组和蛋白质组水平上系统地分析基因的功能。4 前景和展望 蛋白质组学提供了一系列能够在蛋白质水平上大规模地直接研究基因功能的强有力的工具。特别是利用多种质谱法对凝胶电泳分离的蛋白质进行研究,是通过生化途径研究蛋白质功能的重大突破。对蛋白质组的研究将继续在大规模、灵敏度和完整性等方面进行改进。在目前情况下,翻译后的修饰还不能进行大规模的研究。但对于特定的类别如磷酸化,已经开始形成一套普遍的研究方法。我们可以预计,蛋白质组学将不再仅仅是用二维凝胶电泳来监测蛋白质的表达。在不久的将来,蛋白质组学将提供大量的蛋白质间相互作用的数据,这可能是蛋白质组学对生命科学所造成的最重要,也是最直接的影响。目前,少数物种的基因组序列测定已经完成,这使许多蛋白质组的研究策略成为可能。基因组研究的进展也会直接促进大规模的蛋白质组研究。 蛋白质组学是一门新兴的学科,才刚刚起步,目前仍然存在着一些技术上的挑战和缺陷。主要有以下几个方面1)蛋白质的动态分辨率问题。以现有的技术,细胞内的低拷贝数蛋白质很难被检测到。如果把蛋白质组分解为几个亚蛋白质组(Sub-proteome)将提高动态分辨率。将质谱技术与原理不同的其它分离技术(例如多向色谱法) 相结合,也会大大提高分辨率。 2)蛋白质组的纯化问题。为了得到有意义的结果及提高分辨率,制备纯的蛋白质组(95%99%) 是必要的。由于质谱技术的高敏感性,如果蛋白质组被污染,将会导致蛋白质组被错误地注释。因此,保证蛋白质组纯度的步骤是必需的。 3)蛋白质组定量的问题。许多蛋白质组学的检测技术都不是定量的(例如质谱技术) ,或者只在一定范围内定量(例如银染和考马斯亮蓝染色)。这就使定量地研究蛋白质表达的正调节或负调节变得很困难。目前已有几项技术用来改进这种状况。例如在 SDS-PAGE 胶上用荧光染料来检测蛋白质,以及在蛋白质片段化并用 MS 技术分析之前先做标记(如同位素亲合标记)。 4)疏水性膜蛋白的分离、显形及鉴定的问题。众所周知,疏水性膜蛋白比亲水性蛋白质更难操作。膜蛋白更易于聚集在管壁上,由于蛋白质组的研究经常是在纳摩尔甚至飞摩尔水平进行,这种特性将会导致巨大的损失,或完全丢失。另外,-螺旋跨膜蛋白在变性的 2D-PAGE 胶上不能很好地溶解或根本就不溶解。如果要分离这些蛋白质,需要有机溶剂分馏法或者反相 HPLC 等技术的辅助。 蛋白质组学如与其它功能基因组学的工具相结合,将发挥更大的作用。例如把 DNA 微阵列与蛋白质组分析相结合,将会确定基因调控是在转录水平还是在翻译水平或蛋白质积累水平进行的。把反向遗传学及正向遗传学与蛋白质组学相结合,将更深入地研究基因的功能。 不同植物的亚蛋白质组 2D-PAGE 参考图谱将来可能会成为构成和理解植物蛋白质组的中心工具。现在已经有一些亚蛋白质组数据库可以得到。这些参考图谱对随后的蛋白质差异表达和翻译后修饰有很大帮助。大多数蛋白质都会与其它蛋白质有瞬时的或稳定的相互作用。而研究这些相互作用将会更深入地理解基因的功能。因此,蛋白质间相互作用的数据库对于植物蛋白质组学界,甚至植物学界来说都是非常有用的工具。 随着研究的不断进展和深入,在完善现有的研究手段的同时,还必须发展一些新的研究技术。同时加强国际间的学术合作及资料交流,建立全球共享的数据库系统,最终揭示基因组的结构与功能。我们相信,随着蛋白质组研究的深入发展,在阐明诸如生长、发育、进化及代谢调控等生命活动的规律等方面会有重大突破。蛋白质三维结构是预测时最复杂和最困难的预测技术。序列差异较大的蛋白质序列也可能折叠成类似的三维构象。由于蛋白质的折叠过程并不十分清晰,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作用的三维结构预测方法。即与已知结构的序列比较,同源模建,threading 算法和折叠识别方法。 2.6.2 生物信息学与蛋白质功能 生物信息学发展到今天,不仅可以对蛋白质组数据进行分析和预测,而且可以对已知或者未知的基因产物进行功能上全面的分析和预测。生物信息学最常用的分析方法是模式识别。主要是利用存在于蛋白质序列结构中的某些特殊的特征模体来识别相关蛋白质性质。换而言之,就是从新的蛋白序列中发现标志性的序列或者结构,以此建立模式,然后在已经建立好的已知蛋白质数据库中,搜集与此相似的模式,来确定未知蛋白质的归属,从而预测它的功能18。 许多基因是在特定时期和条件下被激活,才能表达出来,在正常人工模拟的环境下根本无法表达。类似于这样的未知蛋白质也需要通过生物信息学的方法计算分析预测,以获得它的功能信息。 3.结束语 蛋白质组学为直接在蛋白质水平上大规模研究基因功能提供了有力工具。利用质谱技术研究凝胶分离的蛋白质对蛋白质功能研究具有重要作用。蛋白质鉴定将在高通量、高灵敏度、完整性等方面进一步完善;分析手段将向自动化、微量化、平行化方向发展。21 世纪将是一个整体细胞生物

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论