【基金标书】2010CB912700-蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用_第1页
【基金标书】2010CB912700-蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用_第2页
【基金标书】2010CB912700-蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用_第3页
【基金标书】2010CB912700-蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用_第4页
【基金标书】2010CB912700-蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目名称: 蛋白质组海量质谱数据的解析及其在人类基因组注释中的应用 首席科学家: 刘斯奇 中国科学院北京基因组研究所 起止年限: 2010 年 1 月 8 月 依托部门: 中国科学院 一、研究内容 关键科学问题 本项目将以我国蛋白质组学界产生的海量 S 质谱数据为基本分析材料, 重点放在解析这些数据中的新的蛋白质编码基因和蛋白质组定量信息。我们将运用计算化学、工程方法学、生物信息学、质谱学和生物分析化学等研究手段深入探讨如何准确地将 何利用这些肽段补充和修订基因组的蛋白质编码基因,如何发掘这些肽段所赋予的定量信息,并建立兼有定性和定量信息的新型蛋白质表达谱。简言之, 本项目拟解决的关键科学问题是, 如何 发掘高精度 主要研究内容 1. 海量质谱数据的深度解析技术研究 从高精度 过新一代蛋白质数据库搜索引擎技术、 因组数据库搜索技术三个途径来实现海量质谱数据的深度解析,具体研究: 通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程; 研究新一代蛋白质鉴定 搜索引擎,提高鉴定可信度、灵敏度和速度; 综合利用实验、仪器和计算手段发展肽序列 利用基因组数据库搜索进一步提高质谱数据解析率。 2高精度 补充和修订 采用 一步反转肽段信息至基因组,试图补充和修订基因组的蛋白质编码基因,具体研究: 构建综合性蛋白质序列数据库; 建立基于肽段信息注释基因组的方法流程; 利用 3 基于高精度质谱数据的蛋白质 表达谱 定量计算方法的研究及应用 以鉴定的肽段频率为基础,发展兼顾准确度与规模化的非标记定量蛋白质学方法,同时开发以多肽质谱数据为基础的蛋白质编码基因的可视化标识技术,实现蛋白质表达谱的定量化,具体研究: 蛋白质表达谱定量算法研究; 蛋白质组表达谱定量分析及可视化研究; 建立以基因为中心的定量蛋白质数据库及分析平台。 4 基于质谱数据的预测结论的实验验证研究 运用质谱 学 、生物化学、分子生物学和免疫学等手段系统验证基于 时为生物信息学的理论模型提供严格设计和控制的实验数据 ,具体研究: 建立先进的 现和验证新的蛋白编码基因,并提供相应的定量蛋白质组信息; 利用先进的质谱技术平台获取高精度 建立通用技术平台从核酸和蛋白质水平上验证通过 建立通用技术平台从不同技术角度上验证定量蛋白质组。 二、预期目标 1总体目标 本项目研究的总体目标是,发掘 拓生物信息学在质谱数据分析中的研究领域,促进高精度质谱数据在基因组学和蛋白质组学的应 用。本项目将通过高精度 e 利用这些信息补充和修订基因组蛋白质编码基因;将采用肽段频率为定量蛋白质组计算的基本数据,通过蛋白质定量参数、数学模型和可视化标示等技术来建立定量蛋白质表达谱,并阐明其生物学意义。通过本项目的执行,我们将显著提高 体回答若干相关的生物学问题,拓展生物信息学应用于蛋白质组学的思路和方法。因此,本项目将促进我国在蛋白质组学、基因组学和生物信息学交叉领域的研究。 2五年目标 1)发展一套针对 高精度 2)显著提高海量 入揭示高精度质谱数据所蕴含的物理化学和生物学意义; 3)提升 我国在质谱 信号解析和蛋白质组生物信息学 研究 方面 的水平。 4)在国际主流杂志发表论文 30篇左右,并争取 国际知名科学期刊发表 10篇论文。申请发明专利 5 10项。 5)造就一支生物信息学和蛋白质组领域中的高水平的科研队伍,培养一批博士研究生 (10,硕士研究生 (20,博士后研究人员 (5 10人 )。 三、研究方案 1. 总体 学术思路 在蛋白质组学诞生的短短几年内,这个学科已经取得了重大进展:蛋白质表达谱的建立,修饰蛋白质的测定,和蛋白质相互作用的分析等。但是,作为一门年轻的学科,蛋白质组的分析技术还远未成熟。其中一个主要的原因是人们在蛋白质鉴定和定量分析上仍遭遇较大的技术困难。近年来,高精度质谱仪的出现给蛋白质组学发展创造了一个新的发展契机。如何深入解析高精度 摆在蛋白质组生物信息学面前的重要课题。本项目立足于我国蛋白质组学界已产生的海量 用一系列的计算化学和生物 信息学的方法,试图发展一套针对高精度 以此为基础集中解决两个在基因组学和蛋白质组学亟需解决的问题,即利用肽段信息补充和修订基因组蛋白质编码基因和以肽段频率为基础计算定量蛋白质表达谱。本研究项目需要生物信息学、蛋白质组学和基因组学各交叉学科团队的通力合作,而她产生的科研成果又将施惠于各个研究领域。 2. 技术途径 本项目的技术途径包括海量 物信息软件的设计和应用、以及实验验证等 3个层面的多种途径。 1) 海量 S 数据的产生技术 : 谱在蛋白质组测定中的应用,多维高效液相层析,高效蛋白质提取技术平台, C 串联分析技术,多重蛋白质酶消化技术等。 2) 生物信息软件的设计和应用技术 : 样品处理和仪器操作流程控制,S 谱图的计算机识别,蛋白质搜索引擎, 析软件,各种数据库的构建技术等。 3) 实验验证技术 : 稳定同位素标记定量技术,化学修饰辅助蛋白质末端序列测定技术 , 因克隆,重组蛋白质制备技术,单克隆抗 体制备, 5 本项目研究已具备了较好的技术平台支撑,承担单位拥有 2个国家重点实验室, 3个部级重点实验室,项目所需的绝大部分实验仪器和实验手段均已具备,各承担单位间有着长期的良好合作关系和基础。本项目具有丰富的前期工作积累与相关研究成果及多学科背景的研究队伍,已经建立起成熟的研究手段和方法,有能力完成所计划的研究任务。 3. 创新性和特色 本项目的创新之处集中表现在:一整套针对于高精度 S 数据的分析策略以及相应的数据库和计算方法;利用 e 补充或修订基因组蛋白质编码基因;建立兼有定性和定量数据的蛋白质表达谱;和 项目的特色在于:问题明确、方法新颖、课题间环环相扣。我们立足于 建立高精度串连质谱数据解析的分析策略、数据库和算法,着眼于这些研究成果在具体生物学问题上的应用,结论于实验科学对理论分析结果的严格验证。同时, 我们将最大程度地发挥 “集体效应 ”优势,整合我国在生物信息学、蛋白质学和基因组学优秀团队,根据各团队的专长来展开相关研究。 4. 取得重大突破的可行性分析 本项目瞄准了当前蛋白质 组学研究的热点和重点,试图揭示高精度 项目执行过程中,我们有信心在 段信息对基因组蛋白质编码基因的补充和修订、质谱谱图在定量蛋白质组中应用、定量蛋白质组的图形标示技术等方面取得突破。我们的信心植根于: 1) 本项目计划解决的几个问题在国际间仍然悬而未决,我们和其他的竞争者正处在同一起跑线上; 2)参与本项目的各个团队在相关的领域处在先进水平,某些课题已取得了进展; 3)在我国政府的支持下,在过去几年中我国蛋白质学界已积累了海量的 论在数据的质量还是数量上,我国的 S 数据库领先于其他国家; 4)参与的团队与国际优秀的蛋白质组学家形成了较好的合作关系,尤其在 同时,项目首席科学家和课题组长在科研项目的组织和协调方面具有丰富的经验,均承担完成多项国内或国外的重要科研项目。本项目计划是基于研究团队的研究基础和前期工作而提出的,在本项目的申报过程中,项目专家组及研究骨干多次研讨,围绕本研究计划拟解决的重大科技问题,制定了合理可行的研究方案和技术路线。相信通过学科交叉、集成多种研究方法,我们研究团队 完全有可能在本领域取得突破性进展。 5. 课题设置 课题设置思路 本项目拟在高精度 用各种数据分析手段,从基因组蛋白质编码基因和蛋白质组定量两个生物学问题着手,深入地了解和认识S 数据所蕴含的肽段信息的生物学意义,为蛋白质组的功能性研究提供新的方法和思路。 本项目将设置四个课题,分别为, 1) 海量质谱数据的深度解析技术研究; 2)高精度 S 数据对基因组蛋白质编码基因的补充和修订; 3) 基于高精度白质表达谱定量计算方法的研究及应用; 4)基于质谱数据的预测结论的 实验验证研究。建立质谱数据的统计数学模型分析有赖于实验数据的精度和重现性。目前的质谱数据广泛存在两个基本问题,一是缺乏不同的质谱仪所产生的质谱图谱的共享标准,二是谱图解读和肽段判断的标准没有达到共识。因此,我们把质谱数据分析的标准化放在本项目头等重要的位置。在深度解析 S 数据的基础上,我们设定两个课题组具体研究如何发掘 S 信号所蕴含的生物信息,即补充和修订基因组蛋白质编码基因 及 定量表达蛋白质组。前者注重于剖析 S 数据,通过 法直接分析 与数据库搜索获得息,然后建立 以此数据库为基点开展基因组的相关研究;后者则集中于研究 图建立基于非标记性肽段频率的蛋白质定量判据,并应用于估算蛋白质定量表达谱,同时还要开发具备定性和定量信息的蛋白质表达谱的可视化标示方法。本项目聚焦于如何运用生物信息学方法处理高精度S 数据,抽象和演绎出蛋白质组相关的生物学信息。与传统的生物信息学研究项目不同的是,我们还充分意识到,生物信息学的理论分析离不开对蛋白质或肽段化学性质的知识水平和实验数据的支 持,为此设定了第四课题组,专职与生物信息课题相配合,对理论预测的结果进行实验验证,同时也通过方法学的探索为生物信息理论分析提供具有针对性的实验数据,特别是高精度的 课题的关联 本项目的四个课题中,一个课题注重 蛋白质生物信息学研究提供可靠的肽段信息和计算工具;两个课题集中于肽段信息在具体生物学问题中应用研究;另一个课题则从实验技术层面上对生物信息学的预测结果进行系统的验证,并为理论分析提供和补充相应的实验数据。本项目的各个课题之间既存在学术逻辑上必然联系,又有研究 内容上的互为补充,还有研究成果的相互验证。这样如图一所示,四个课题之间形成了较为完整的研究关联网络,在不同的层次和角度上共同发掘高精度 图一:课题设置及各子课题之间的相关性 课 题 1. 海量质谱数据的深度解析技术研究 课题背景 海量质谱数据的解析是蛋白质组研究的基础,而自动化的数据分析软件是海量质谱数据解析的基本工具。蛋白质组过去十年的研究历程,主要依靠蛋白质鉴定两大商业软件 实现海量质谱数据的基本解析,其最大的问题在于:仅仅有 10%左右的质谱数据可以得到肽鉴定结果,其余数据无法解析,因而其中所蕴涵的信息无法利用。 造成这种局面的原因是多方面的。首先,对于分子生物学的规律,比如基因水平上的基因预测、基因突变、可变剪接 及 蛋白质水平上的氨基酸突变、翻译后修饰等,目前还没有完整、准确的认识。其次,对于包括样品制备和质谱仪操作在内的质谱数据生成过程的设计和规范化控制缺乏系统的研究,加上质谱仪的分辨率和准确度不足,造成原始数据质量不高。再次,数据分析方法和软件发展滞后,表 现在两大商业软件核心鉴定算法多年来没有大的改进,鉴定可信度评价方法没有达到共识和规范化,鉴定灵敏度研究长期缺乏关注,而鉴定速度不够高则直接限制了对于海量质谱数据的全面探索性分析,比如非特异酶切、可变翻译后修饰的鉴定。 近年来 ,质谱 技术 发展迅速,高精度质谱仪 (如 配以基于电子的离子裂解新方式 (如电子捕获裂解 子转运裂解 已经开始在国内外和本项目申请单位安装和应用,因此质谱数据质量近期将会大大提高。同时,由于认识到基于数据库搜索的质谱数据解析与蛋白质鉴定本质上是一种特殊的信息检索,而信息检索领域的搜索引擎技术经过 了 十多年的成功发展,因此,海量质谱数据的专用搜索引擎设计可以从中获得充分的借鉴,数据分析的速度和质量有望大大提高。本项目申请单位在过去几年中参加过人类肝脏蛋白质组表达谱的完整实验和数据分析,对于海量质谱数据的解析积累了比较丰富的一手经验,而独立自主开发蛋白质鉴定软件系统 都为深度解析海量质谱数据提供了希望。 深度解析海量质谱数据,首先要在严格对照实验的条件下认识质谱数据的规律,特别是质谱数据有多大比例可以解析,有多 大比例可以得到可信的肽鉴定结果,在这个基础上设计 新一代搜索引擎并确立合理的解析率指标。新一代搜索引擎的设计,立足于在现有蛋白质数据库的基础上充分解析质谱数据 ,从而把现有蛋白质数据库中没有包含的新肽段的鉴定限定在未鉴定的质谱数据上,这是对基因组注释最可能有意义的地方。新肽段的鉴定分为两种途径,一是不依赖蛋白质数据库,直接从串联质谱图中提取肽段完整序列或者序列片段,即所谓的 术;二是将搜索数据库的范围从蛋白质组扩展到基因组,获得更多的肽段序列来达到鉴定更多质谱数据的目的。通过新一代蛋白质数据库搜索 引擎技术、 因组数据库搜索技术三个途径来实现海量质谱数据的深度解析,提高解析率,并进一步利用控制实验来验证。 研究目标 本课题的研究目标是发展海量 著提高数据解析率。具体分为四点: 一) 通过严格的对照实验确定质谱数据可解析率,优化和规范实验操作流程; 二)研究新一代蛋白质鉴定搜索引擎,提高鉴定可信度、灵敏度和速度; 三)综合利用实验、仪器和计算手段发展肽序列 四)利用基因组数据库搜索进一步提高质谱数据解析率。 研究内容 一)通过严格的对照 实验确定质谱数据可解析率,优化和规范实验操作流程 %无鉴定结果的 基因组数据库中不存在的新蛋白质或蛋白质剪切体,或可能存在的错误的注释信息等。所以,确定无鉴定结果的S 质谱数据的产生原因并发掘其隐含信息极其必要和迫切。此外,在蛋白质表达谱中所普遍采用的 白质鉴定 覆盖率 往往很低,其原因也需要探索。 计划以高纯度标准蛋白质为样本,在优化和规范化实验操作流程的基础上,获取蛋白酶切肽段 确每一张串联质谱图归属,分析图谱鉴定或未鉴定原因。合成若干类,每类若干条具有代表性理化性质肽段,分析其单独质谱行为和在复杂体系中的质谱行为和鉴定成功率,找出未鉴定原因,为发展新的数据分析算法 /软件和检索工具提供依据。同时研究实验设计、样品处理和仪器操作流程对于质谱数据质量及其解析的影响,在此基础上优化和规范实验操作流程。 更具体地,计划选取高纯度标注蛋白质若干种作为初步研究分析对象。其中蛋白选取将主要考虑蛋白分子量、酶切肽段理化性质等因素。采用 先分别对单个蛋白进行质谱数据采 集,并将全部串联图谱进行多搜索引擎检索和手工平行分析,以确定全部图谱的身份和发现方法及其比例。目前考虑到可能的原因包括:非肽段信号、未知修饰、碎片信息过差、非规则酶切肽段、混合碎片、非数据库包含序列、检索算法问题、未知因素等。在整合产生这些结果原因的基础上初步设计相应检索分析软件。之后将标准蛋白混合,用于检验分析效果,并进行调整。进一步选取简单模式生物标本,如 ,采用软件自动分析结合手工分析,完成全部串联图谱身份分析,并再次调整分析策略和软件。 二)研究新一代蛋白质鉴定搜索引擎 , 提 高鉴定可信度、灵敏度和速度 基于蛋白质序列库搜索的蛋白质鉴定软件,本质上是一个信息检索系统,其核心是搜索引擎。现有的蛋白质鉴定搜索引擎,在质谱数据分析上面临着很多挑战和困难,比如质谱图解析率低、鉴定结果可信度低、数据库搜索速度慢,等。除了由于我们对肽段离子碎裂和串联质谱图生成机制的认识有限之外,很重要的原因在于,目前广泛应用的蛋白质鉴定搜索引擎没有及时集成新方法和新技术,从预处理到打分排序 和 可信度评价都普遍存在缺陷,比如没有深入挖掘肽 有利用机器学习和搜索引擎的新技术。为此,我们将开展如下方 面的研究。 1) 提高蛋白质鉴定搜索引擎的可信度 通过对数据进行深入的分析,考察随机匹配产生的原因,在此基础上提取特征,对随机匹配的搜库结果进行分类处理,建立理论性比较强的模型;整合搜索引擎提供的多个匹配打分参数,建立适当的数学模型,为每个非冗余鉴定肽段赋予一个适当的判别分值,实现肽段水平的可信度控制;利用随机数据库搜索等对单个搜索引擎和数据集肽段可信度控制结果,构建合适的算法模型,实现对不同搜索引擎、不同数据集数据的整合;考虑基于图谱计数的半定量、蛋白质序列长度、数据库大小、蛋白质的酶切肽段和鉴定肽段等信息构建 基于超几何分布的蛋白质鉴定可信度评估概率模型。 2) 提高蛋白质鉴定搜索引擎的灵敏度 融合多种信息源,提取和筛选有效的肽谱匹配特征,基于机器学习技术,将肽打分函数构造问题,转化为排序学习或者分类问题,通过迭代搜索或者迭代打分,动态地、自适应地更新肽打分函数,从而使之能够更好地适应不同特点的质谱数据,在保证足够可信度的条件下,显著提高肽鉴定的灵敏度和谱图的解析率。对串联质谱数据进行聚类研究,揭示谱图间的相互关系,建立谱图数据的内部结构。通过限制性谱图聚类识别冗余谱图,生成代表谱,改善谱图的质量,提高谱图解析的精度。 通过非限制性聚类识别相关谱图,发现含有修饰、氨基酸突变的谱图、以及由非特异酶切肽段产生的谱图,以进一步提高谱图解析率。 3) 提高蛋白质鉴定搜索引擎的速度 采用高效的数据索引技术及与之相配合的高效搜索流程设计,以加速候选肽查询的过程。优化肽谱匹配打分算法的实现,使之适应多种翻译后修饰以及非限定修饰、非特异性酶切等带来的候选肽规模膨胀问题。采用以序列标签手段为主,对数据库候选肽进行过滤的方式,突破传统的搜索引擎框架。通过实际典型数据的运行时间测量,确定搜索引擎流程模块的运行热点,研究任务级并行的静态和动态负载均衡算 法,在此基础上进一步研究算法级负载均衡算法,将鉴定流程中的热点模块分配到多个节点进行运算,以进一步提高蛋白质搜索引擎的速度,实现 1 2个量级的加速。 三)综合利用实验、仪器和计算手段发展肽序列 蛋白质鉴定从头测序算法的主要思想是只利用串联质谱中的谱峰信息推断肽段序列。 数据库信息不完整的情况下而, 可以处理的数据通常为 裂方式下的高质量谱图,而且,常情况下,对于质量比较好的 用从头测序算法仅可以得到约 30%的正确鉴定结果。 随着质谱仪精度的逐渐提高,利用高精度谱图的一系列优势,提高鉴定序列的准确性,越来越受到人们的关注。另外,利用同一肽段不同碎裂方式等方法产生的多张谱图的内在联系进行从头测序的方法也逐渐成为蛋白质鉴定问题中的研究热点。利用特殊化学修饰,如磺酸化修饰等,可以为 供更丰富的技术路线。为此,本课题将与课题 4密切合作开展如下方面的研究。 1) 利用高精度 e 利用课题 4 提供的 精度质谱数据,可以更有效地进行从头测序。首先,高度精确的母离子及碎片离子质量使得不同氨基酸残基的区分度更好,提高了氨基酸残基识别的可靠性;利用离子峰同位素模式的差异,可以进一步区分质量相似的氨基酸,如谷氨酸与赖氨酸等。其次,低精度质谱仪下不同离子类型的碎片质量可能重叠的现象,在高精度情况下可能性大大降低,从而可以进一步提高从头测序算法的精度。此外,利用高精度的有效离子峰,可以计算出离子的理论氨基酸组成,从而更有效地过滤候选肽序列。 2) 利用谱图相关性信息进行 电子捕获裂解 子转运裂解 是蛋白质或多肽在质谱仪中的不同碎裂方式,通常 裂方式可以更好地保存完整的修饰信息,而且碎裂谱峰有较好的连续性,与 用课题 4提供的同一肽段的 裂形成的谱图,我们可以利用不同谱图间的谱峰信息相互验证,区分有效峰与噪音峰,进而将不同碎裂方式下的谱峰进行聚合,可以提高谱图的信噪比;通过不同碎裂方式下相关离子的质量差值,可以识别谱峰所属的离子类型;结合基于谱峰图的从头测序方法,不仅可以提高鉴 定肽段的置信度,而且可以鉴定到单一碎裂方式下难以鉴定到的肽段。 3) 利用化学修饰方法辅助 近年来很多研究都通过各种化学小分子修饰策略来辅助肽段的裂解与质谱测序。例如,通过磺酸化修饰在肽段上引入磺酸基,不仅可以提高肽段的碎裂效率,还可以抑制其它离子的产生,得到以 S/用嘧啶化合物修饰多肽羧基可以有效增强修饰谱谱峰的信号强度。因此,利用课题4提供的高清晰串联质谱数据,基于谱峰图的方法进行从头测序,不仅可以更准确地挑选有效峰,而且减少了单个谱峰匹配多种可能离子类型 的风险,从而提高从头测序算法的精度。 四)利用基因组数据库搜索进一步提高质谱数据解析率 基于蛋白质数据库搜索的质谱数据解析与蛋白质鉴定方法的成败,强烈依赖蛋白质数据库是否完整,如果不存在相应的条目,即使是质量很好的谱图,也无法得到鉴定。因此,在常规鉴定方法的基础上扩大搜索范围,对更全面的 成为提高质谱鉴定率的另一种有效方法。 目前存在各种不同的基因组学相关的数据库:原始 基因组数据,信息 最全面,但数据量巨大,没有可变剪接信息,所以目前一般只进行原核生物的直接搜索;表达序列标签 ,是指从不同组织来源的 确定是转录水平的数据,且基本覆盖整个基因组;可变剪接数据库,通过选取有可变剪接注释的肽序列,进行搜索、序列比对、筛选和分类构建而成,可以看作基因组数据库和蛋白质数据库的桥梁。 针对不同层次的数据库,可以对质谱数据进行多步骤、多策略的迭代搜索:先对常规蛋白质数据库进行搜索鉴定;没有得到解释的质谱数据再利用 和可变剪接数据库进行搜索;对于仍然无法解释的质谱,采用直接搜索六个开放阅读框翻译的氨基酸序 列的方法进行鉴定;或通过谱图解析得到肽片段信息,再对基因进行序列比对。最终鉴定出常规方法无法解释的谱图数据。 基因库搜索面临的主要挑战包括:如何构建面向多层次海量基因数据库的数据结构?如何加快鉴定速度,应对剧烈膨胀的数据库搜索量?如何有效估计和控制谱图解析的错误率?为此本课题将与课题 2密切合作开展如下方面的研究。 1)构建多层次的、相互关联的、海量的基因组 基因组数据非常庞大复杂,如何有效设计数据结构予以存储和表达,是非常关键的问题。本项目的课题 2将构建一个基于基因组序列的,比当前公共蛋白质数据库包含序列种类更多、数量更大的蛋白质数据库;而我们将通过设计索引数据格式和读取接口,解决海量规模数据库的存储和快速检索问题。借鉴现有成熟的蛋白质和肽数据索引技术方案,设计合理的数据结构,便于系统内数据的读取、存储、压缩、表达,查询和关联。 2)提高蛋白质鉴定引擎的搜索速度 基因组或 据库相对于传统的蛋白质数据库,规模扩大了不止一个数量级,面临着搜索速度上的挑战。除了利用各种常规思路对搜素引擎进行加速外,重点利用基因和蛋白质数据之间的关联关系,将常规蛋白数据库搜索或者蛋 白质映射到对应的核酸序列上,然后枚举出该基因区域经过突变、可变剪接、翻译等种种变化得到的所有可能的氨基酸序列,对没有得到鉴定结果的谱图进行二次搜索,既可能提高谱图解析率,同时又可以大大减小基因组数据库产生的候选肽规模,从而加速鉴定。 3) 研究搜索结果可靠性问题,有效估计和控制谱图解析的错误率。 数据库规模的扩大,不仅仅带来速度问题:基因组数据或 据库远大于蛋白质数据库, 同时含有 一定的测序误差,发生随机匹配的概率更大;并且因为预测错误的开放阅读框和低质量的 列 ,以及串联质谱数据本身带有的噪音和复杂 性,将导致更多错误的随机匹配。 因此 需要深入分析传统方式下随机误匹配产生的原因,构建模型提取特征,进一步建立完善的估计检验算法 。 课题承担单位: 中国科学院计算技术研究所 课题参加单位:复旦大学 课题负责人 : 贺思敏 科研骨干: 孙瑞祥、 赵屹、张扬 经费比例: 23% 课题 2. 高精度 S 数据对基因组蛋白质编码基因的补充和修订 课题背景: 基因组 但是,解读基因组中所富含的遗传秘密和生物功能信息的研究工作还刚刚开始。 根据 2007年 在 发表的研究表明,人类基因组中的蛋白质编码基因数量可能会少于 24,500;而 究所的研究指出,人类基因数据库如 括了许多任意出现的而非蛋白质编码区域的开放阅读框,实际上人类基因组中的蛋白质编码基因数目可能只有 20,500 左右。 2007年康奈尔大学的研究人员发表在 过利用超级计算机比较人类、小鼠、大鼠和鸡的基因组部分,发现了 300个之前没有确定的人类基因,还确定了几百个已知基因的范围。这意味着,有许多基因会在目前的生物 分析方法下被漏掉。传统的基因注释方法对广泛表达基因的发现非常有效,却会遗漏只在特定器官表达或在胚胎发育早期表达的基因。传统上,开放阅读框( 一些原则正在受到大量实验数据的挑战,尤其是对于内含子的可变剪切丰富的真核生物基因组而言,基因组的注释的缺陷尤其明显。例如,即使是研究较透彻的模式生物果蝇,大概 30%的转录本都没有被注释。通过比对人的 基因组,产生了约 62000 个不相重叠的聚类,但大多数都不包含 端区域,提示了仅依靠测序 组是不切实际的。普遍使用的基因预测软件 对小鼠和人的 5%和 10%;在哺乳动物基因预测方面表现最好的 人的 8%的正确率。 近年来,高精度质谱仪( 发展以及肽段解析技术的进步为基因组的蛋白质编码注释开辟了新的研究方向。采用 先,肽段反映的是基因最终表达的产物,它比 次,大规模 得传统的一个基因 一个 次测序的观念受到冲击,利用 术分析 能极大地丰富肽段信息。 蛋白质组基因组学是近几年诞生的一门用蛋白质组信息解构基因组的新兴学科。 S 质谱实验辅助基因组注释已经在多种物种中(原核生物,酵母,植物和人等)使用,涉及到基因组注释的多个研究内容,如:确认预测基因、发现新基因、判断假基因、证实可变剪切等。 此外, 串联质谱数据还和基因预测算法整合,提高了基因预测准确率。然而必须认识到,蛋白质组基因组学领域还存在很多技术上的挑战,目前研究还大多局限于低等生物,结果局限 在对基因组注释的补充与修订,离全基因组水平基因注释还相距很远。据估计约 40人类基因存在可变剪切,但 从一千八百万张 S 质谱里只找到了 40多个可变 剪切 。造成这样结果的原因主要有: 1)质谱鉴定肽段的过程一般利用数据库搜索法,只有数据库中存在的蛋白质才可能被预测到; 2)肽段和蛋白质的鉴定有一定的假阳性,错误率随着数据库的增大而增大; 3)只有 10% 20%的质谱能匹配到肽段,绝大多数的质谱都没有被解读。课题 1已就这些问题提出了一系列解决方案,着重 解决 公共蛋白质数据库局限性问题以及肽段鉴定 算法覆盖率和重复率低的问题。本课题将密切与课题 1 合作,利用课题 1 剖析 过 法直接分析和改善数据库搜索效率以获得尽可能多的肽段序列信息,然后建立 于此数据库进一步开展补充和修订基因组蛋白质编码基因的研究工作。 研究目标 一) 构建综合性蛋白质序列数据库; 二) 建立基于肽段信息注释基因组的方法流程; 三) 利用 研究内容 一) 蛋白质序列数据库的构建 为适应蛋白质数据库搜索鉴定,构建一个基于基因组 序列的,比当前公共蛋白质数据库包含序列种类更多、数量更大的蛋白质数据库,能使我们更有效地利用高通量蛋白质组学质谱数据。在这个方面,我们和课题 1既有密切合作,又有各自专攻方向。课题 1通过设计索引数据格式和读取接口,提高蛋白质鉴定引擎的搜索速度,有效估计和控制谱图解析的错误率以解决海量规模数据库的存储和快速检索问题,而本课题组则 从如下几个方面提供构建综合数据库的策略: 1) 整合现有的蛋白质公共数据库 当前蛋白质序列公共数据库,如 白质数据库, 白质数据库,以及 等囊括了绝大多数已知蛋白质的序列信息。整理这些数据库中的人类蛋白质数据,包括不同库间数据进行相互补充和验证、通过 一蛋白质编号、使用 而构建一个含有绝大多数已知人类蛋白质序列的数据集合。 2) 使用 “六位移码翻译 ”方法得到全基因组 使用 “六位移码翻译 ”方法从基因序列中寻找潜在的 最大范围地覆盖所有基因可能的转录本。从 序列信息。潜在的 始位点开始于每一个染色体的第一个碱基,每翻译到终止密码子时即为 终止位点。下一个因组中不明确的碱基使用随机方式以一种碱基代替。这种方法应用于基因组 “六位移码翻译 ”。每一个 标示出基因组的坐标与方向,便于将肽段信息匹配到基因组上。从每一个染色体得到的氨基酸序列以 式保存。 3) 构建可变剪切数据库 可变剪切是单个基因编码众多蛋白质亚型的重要机制。通过多种方法构建可变剪切数据库对于验证已 有的及发现新的可变剪切方式、发现新 新基因具有重要意义。我们整合已有的(如 据库)和预测软件(如“预测的外显子与内含子信息,构建含有基因多种可变剪切模型的数据库。具体步骤包括: 1)将基因(正链)的同一个转录本内的已知与预测的外显子按 5至 3顺序排列后,依次按顺序选取外显子序列拼合组成所有可能的剪切方式; 2)对于每一种拼接结果,截取拼接点左右各 90个碱基序列(如果外显子碱基数少于 90,则取其全部序列,截取过程中保留拼接点位置信息),从该序列 5端每次移动一个碱基共移 动三次分别按通用密码子翻译成含有近 60 个氨基酸的肽段序列; 3)去除不连续的无意义的蛋白质序列; 4)位于反链上的基因将其转录本反转成相应的正链碱基序列后按照前三个步骤构建可变剪切序列。 为了应对 述三个数据库还会与一个将靶序列打乱( 成的 “诱饵 ”( 相结合,生成最终用于搜索的大型数据库。任何一个在靶序列库和诱饵序列库中同时出现的 8氨基酸以上的序列都会被重新打乱( 以保证靶序列与诱饵序列之间的重合度最小,方便后续鉴定结果假阳性率( 估算。 二)建立基于肽段信息注释基因组的方法流程 通过 法直接分析和改善数据库搜索效率,我们将尽可能从高精度 S 数据获得丰富的肽段序列,并建立 S 对应的肽段数据库。以此数据库为基点可通过与对应的蛋白质信息联配( 基因组上,将这些肽段延伸成开放阅读框( 最终生成一个 “蛋白质组基因组学图谱 ”( 这些基于肽段序列的基因组注释方法学将主要包括下列七个方面: 1) 鉴定已知蛋白质的 诊断( 段 结合完全匹配文本搜索和本地序列联配方法(如 可鉴定出映射到已知编码区域的基因内诊断肽段。由这种方法无法鉴定的肽段,运用 用 它们亲本( 因的蛋白质产物进行联配,只考虑 100%匹配的鉴定结果。 2) 分类已知基因内的新诊断肽段 将不能联配于任 意 已知蛋白质的基因内诊断肽段联配到从 因组网站上获得的人类 , 用步长 12。新肽段完全包含在已注释外显子之内定义为 肽段与已注释外显子部分重叠分类为而完全未处于已注释外显子中的肽段定义为 3) 定义新编码区域 对诊断肽段 码区域两侧延伸 1000 碱基对由 配到接受匹配重叠于肽段编码区域且 E 值小于 1结果。新编码区域的相应基因位置来自于从重叠 4) 鉴定蛋白质结构域( 分类为 诊断肽段以 配到他们的亲本基因。可能包含新肽段的相应蛋白质 随后被计算确定。每个蛋白质序列使用 数据库中挑出重叠到新肽段区域的蛋白质结构域。包括新 些理论蛋白质也由 析,并与原始蛋白质相比较,以额外氨基酸残基的存在确定引入蛋白质结构域的变化。 5) 校正开放阅读框 在当前基因模型之外发现的新肽段中,当有些新肽段位于已知的基因座( ,这些与基因座的编码区域重合的肽段将位于一个新阅读框内。为了(至少在一定程度上)证实这些被错误 预测的基因的存在,我们用几个特征筛选这些新肽段:位于已知阅读框外的新肽段要多次出现,超出阅读框外的氨基酸个数至少为 3,与已知数据库中的序列没有冲突。 6) 分析基因的可变剪切 可采用两种策略,筛选跨越基因组上剪切位点边界的肽段,对已知的基因可变剪切模式进行注释或发现基因的新剪切方式: 1)利用整合的现有的蛋白质公共数据库与使用 “六位移码翻译 ”方法得到全基因组 据集,将高通量质谱鉴定到的肽段以无间隙( no 式匹配到这些蛋 白质序列。将匹配到的蛋白质重新比对到基因组后得到这些肽段在基因组上的位置信息。 2)直接利用构建的 “可变剪切库 ”及其保留的可变剪切位置信息,合并入一个竞争性数据库。筛除最佳匹配出现在竞争性数据库中的肽段,筛出跨越可变剪切位点的肽段。 7) 整合肽段开发新的基因预测算法 将质谱鉴定到的肽段用 法对齐到基因组序列上。根据肽段在基因组上的位置为每个核苷酸指派状态,用隐马尔可夫方法建立基因预测模型,并估计模型参数。用此模型与传统的基因预测方法(如: 合进行基因 预测,包括:启动子, 5端非翻译区,外显子,内含子, 3端非翻译区,基因间区域。 三)利用 1) 线虫蛋白质组数据对其基因组蛋白质编码基因的补充和修订 我们将以线虫( C. 例建立以蛋白质组学质谱数据解读基因组的方法流程。线虫拥有多细胞生物中最小的基因组,是基因组研究最完整的高等真核生物之一,而且其基因组包含外显子、内含子、可变剪切等类似于人类基因组的复杂结构。线虫的蛋白质组学质谱鉴定数据丰富,已从文献入口下载五套,分别来自 2009 ;7(3): 2008 8(10):16602008 2;374(1):49J 2006 (9):24482003, 2 (1): 23同时,我们也将和课题 4合作,利用 图获取高精度 因此,线虫是建立用蛋白质组信息注释基因组方 法的最佳模型之一。 我们将整合多套蛋白质组学数据,特别是结合 据和肽段对基因组的注释技术,把鉴定的肽段通过蛋白质信息联配到线虫基因组上,开展 预测基因、发现新基因、判断假基因、证实可变剪切等分析 。 2) 人体肝脏蛋白质组数据对人类基因组蛋白质编码基因的补充和修订 中国人体肝脏蛋白质组数据库是当前世界上最大的人类组织蛋白质组的数据库,拥有超过 3千万个高质量的 们将与课题 1和课题 4合作发掘其中所蕴含的肽段信息,特别是关注那些不曾被基因组所注释的肽段,然后采用 肽段信息注释基因组的 分析流程,试 图补充或修订人类基因组的蛋白质编码基因。 课题承担单位:上海生物信息技术研究中心 课题参加单位: 中国科学院北京基因组研究所 课题负责人 : 石瑜 科研骨干:谢鹭、 武钧、 任艳 经费比例: 23% 课题 课题背景 生物机体中蛋白质丰度以及修饰状态与其生物功能有着密切的联系。就定量的计算方式而言,蛋白质组的定量分析分为相对和绝对定量两大类,就实验方法而言,又分为有标记定量和无标记定量。相对定量蛋白质组学也称比较蛋白质组学,是指对不同生理病理状态下细胞、 组织或体液蛋白质表达量的相对变化进行比较分析,从而发现表征生物差异的蛋白质。绝对定量蛋白质组学是测定某一蛋白质组中每种蛋白质的绝对量或浓度,对研究蛋白质相互作用网络、疾病诊断和监测等都具有重要意义。随着实验技术的进步,利用质谱数据的逐渐成为蛋白质组定量分析的主流方法。在质谱定量分析中,稳定同位素标记技术通过代谢、化学标记方法在肽段上引入质量标签( 以区分不同状态的样品,是比较成熟的定量方法。但是,它需要比较复杂的标记实验完成样品处理,较难避免标记化学反应的不完全, 而且不同质量标签标记的肽 段信号同时出现在一张质谱图中,限制了定量的动态范围。与之相比,无标记定量不需要额外的实验设计来引入质量标签,利用一次或多次独立实验中质谱的物理信号(离子流色谱峰( 积、母离子信号强度( 图谱计数( 者带有搜库分值校正的图谱计数等)来表征肽段的表达丰度,从而推算蛋白质表达丰度,动态范围比较宽,既可实现相对定量,也能计算绝对定量,因之是发展速度很快的一种定量技术。 值得指出的是 ,无标记定量数据分析研究工作还刚刚兴起。无论从算法工具还是就应用报道而言,其研究工作远远少于同位素标记的定量蛋白质组研究。我们认为,在这个领域中有三个问题需要给与优先关注。 1) 蛋白质表达谱定量算法动态范围、准确程度等方面的分析、比较和优化:虽然肽段计数定量方法在定量分析中已经取得了初步的应用,但目前的方法还缺少能够在组织器官样品中大规模应用的验证。很多文献提出了肽段计数定量指标的校正方法,也有很多研究指出,肽段计数定量的动态范围和精度都不如离子流色谱峰面积,并且很多研究是针对差异比较的,绝对定量或者半定量的准 确性问题怎样分析还是需要探索的问题。此外,低丰度蛋白质的定量可能是困扰很多定量方法的重要问题。在对表达谱数据进行规模化定量分析之前,需要设计标准实验,对各种定量计算方法进行分析、比较和优化,验证方法的定量精度、动态范围,找出影响该定量指标计算的重要因素,改进和优化,甚至重新设计新的定量方法。在确定定量方法后,还需要探索性研究肽段的质谱分析效率问题,肽段定量分析的基质效应和离子抑制效应问题,利用标准实验数据构建肽段分析效率预测模型,构建绝对定量的校正曲线,以实现更为精确的绝对定量。 2) 质谱数据库建设及分析平台

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论