




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目名称:全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制首席科学家:王俊 深圳华大基因研究院起止年限:2011.1至2015.8依托部门:深圳市科技局二、预期目标本项目的总体目标: 全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制项目旨在集中顶尖基因组中心的测序和数据分析能力,基于新一代测序技术平台,通过对 400 个人类个体黄种人低深度全基因组重测序并结合少数个体和家系高深度测序的方法,绘制一张黄种人的人类遗传变异图谱,建立起一套基于重测序技术构建重大疾病分子标记集的研究思路和技术路线,极大加速人类常见复杂疾病的研究。本计划目标包括检测基因组非基因区内几乎所有在人群中的出现频率不低于 1 %的单核苷酸变异,基因区内几乎所有出现频率不低于0.5 %的单核苷酸变异,以及全基因组上的拷贝数变异、结构性变异等大片段变异。这一数据资源将完全成为一个开放的公共资源,为各种疾病的关联分析提供详细的基础数据;为解释人类重大疾病发病机理、开展个性化预测、预防和治疗打下基础。此外,该项目还将加深人类群体遗传学的理解,促进人类进化历史研究。五年预期目标: 在本项目中,我们将针对不少于 400 个亚洲个体,共计不少于 3Tb 的全基因组重测序数据,完成东亚代表人群频度低至 1的高分辨图谱,同时绘制包括拷贝数变异、倒位变化的遗传变异图谱。设计可用于全基因组扫描的精细至 1频度的基因分型芯片。建立起一套针对大规模重测序数据、低频度变异分析和结构性变异的分析流程和方法。预计将申请 5 个以上软件著作权,发表 10 篇以上 SCI 文章,其中包括 Nature、Science 级别文章,培养20名研究生和一支年轻的、国际一流团队(百人以上),其中30名技术骨干。1.制定规范化的大规模样品收集流程,表型定义清楚、收集方法规范统一、个人信息记录完整且保密。为今后类似的大规模样品收集工作提供典范。 2.在目前已有测序生产平台的基础上,能够以较高的产量和稳定的质量,日产 200Gb 数据,产出适用于不同研究目的的各类测序数据。 3.建立完善的数据质量控制系统,定义规范的数据格式,提供针对超大规模数据采集、传输、存储、分析的高性能计算解决方案。 4.开发识别基因组变异的生物信息学工具并完成相应变异多态性的检出,包括SNPs、CNV(拷贝数变异)、插入、删除以及其它结构性变异。由于在人类单体型计划(HapMap)已经识别了许多常见的 SNPs,该计划将重点挖掘在人群中发生频率较低的稀有多态性和基因组的结构变异, 并估计各种变异的等位基因型的频率,确定稳定遗传的单体型结构,以及各变异之间的连锁遗传(LD)模式,最终提供更有代表性、更全面的 SNP 集合,供基因分型芯片的探针设计作参考。 5.通过千人基因组计划研究和分析结果,完善现有公共数据库中人类基因组的参考序列。 6.为个体间、群体间的基因组变异研究提供支持。进一步揭示人类基因组突变和遗传重组发生的内在机理。 7.提供大规模群体个人基因组重测序数据展示方案,构建公众可免费访问的数据库,提出具有可扩展性的大规模数据共享方案。三、研究方案1)总体思路: 人类基因组计划和人类单体型计划的完成,构建了第一代人类基因组遗传多态性图谱, 并推动了基因分型技术的发展,为全基因组关联分析奠定了数据基础,极大地推动了复杂常见疾病的基因组学研究。然而,由于当前遗传多态性标记的密度较低,全基因组关联性分析仍然只能解决一小部分与疾病相关联的多态性位点,且所找到的目标区域范围较大,需要大量额外验证工作。唯有通过对更大的样本群体进行大量全基因组测序工作,进行科学探索,发现新的在人群中更加稀有的遗传多态性标记,构建高密度人类基因组遗传多态性精细图谱,才能突破当前复杂疾病研究的瓶颈。自2006 年开始的测序技术革命使得基因组测序成本大幅降低,使得对大量人类个体进行测序并大规模发现遗传多态性位点成为可能。通过模拟计算证明,对亚洲人随机选取不少于400个样本,这样的样本容量可以保证90%以上在人群中频率为0.5%1%的多态性位点的出现。如果对每个样本进行4倍基因组深度测序,在考虑测序错误率,序列比对错误率及分布均匀性等实际因素的情况下,仍然能够准确发现在人群中频率为1%的多态性位点;在基因区所能有效检测到的最低频率甚至可达0.5%。在基本的群体基因组学结构的假定下,预期将发现至少1500 万例以上的单核甘酸多态性位点和 100 万例以上的插入删除多态性位点。这一精度可以大幅提高遗传多态性标记的密度,将当前分子标记密度从每一千碱基一个提高到每 200bp 一个,从而发现与疾病关联性更强,风险更高的稀有位点,极大降低了医学基因组学研究的成本和技术门槛,对复杂疾病研究具有重大的推动作用。通过对多个个体大量测序,还将发现大量基因组结构性变异,而这些结构性变异的特征和意义目前研究刚刚起步,属于未知领域。利用当前的测序技术,可从预计在进一步深入探索疾病关联多态性位点的同时,还将首次获得基因组结构性多态特征及其与疾病之间的关系。 此外,通过对亚洲人族群的群体基因组学研究,对人类进化生物学和群体遗传学的理解也有着重大的作用。2)技术途径: 3)可行性分析: 在测序技术获得历史性突破的 2008 年,国际千人基因组计划顺时而生,我国作为发起国之一,将在其中承担黄种人的测序和数据分析工作。经过本课题小组参与的前期先导实验的工作,证实了整个项目在数据产出,数据同步,数据分析及实现最终目标的可行性。另一方面,2008 年 11 月,本课题小组在世界著名的 Nature 杂志上,以封面文章的形式发表了第一个亚洲人基因组的重测序和数据分析工作,发现了超过 300 万 SNP 位点 13 万插入删除位点及 2682 例结构性变异位点,也进一步证实了使用这一技术对人类个体进行测序并检出多态性的可行性。通过第一个亚洲人基因组重测序项目(即“炎黄一号”)的顺利开展,目前我们课题组已经建立了一套针对新一代测序仪的数据产生、数据分析平台。高通量的数据产出能力确保了该项目所需数据能够顺利产生,强大的数据分析能力为Tb 级别的数据处理和分析提供了保障。先期发表的炎黄一号数据库也将作为数据展示的模型,添加入新的数据,成为一个中国人群基因组数据的展示平台,共各国科学家共享。4) 创新点: 本项目最大的创新之处在于利用新一代测序技术高速发展的契机,推出了针对中国人群的全基因组重测序计划,研究成果将极大的提升我国在国际基因组学研究领域的地位、深入理解和保护我国丰富的遗传资源、并为针对中国人群的疾病相关研究提供基础数据。这一重大研究从规模和深度上都是史无前例的,是科研工作者对人类基因组学研究最大的一次努力。1.高通量的测序平台。以日产 200Gb 碱基的速度,产生不少于 3000Gb 的 400 个个体全基因组重测序数据,这在整个基因组学历史上都是前所未有的创举。 2.高标准的数据质量控制和校正系统。自主搭建专门的信息化管理系统,用于所有测序数据的电子信息化管理和质量控制。及时反馈测序质量和结果,并记录备查。 3.高性能的大规模存储、计算平台。针对大规模测序数据,我们将专门定制一套解决方案,用于数据的传输、存储、分析等。具有专业性、可扩展性、可管理性等特点。 4.高水平的生物信息学分析。针对新的数据类型,我们将自主开发在数据处理和分析过程中所涉及到的所有分析方法和流程。包括质量控制、序列比对、SNP 检出、SV 检出、CNV 检出、indel检出等。 5.全面、详尽的新一代人类遗传多态性图谱。通过数据分析,预计将发现超过 1500 万例SNP 位点,500万例插入删除位点,100万例结构性变异多态性位点。这一遗传多态性图谱的密度较之前的人类单体型计划提高了10倍,将极大促进基因组医学的研究。课题设置课题1、中国(东亚)人群样品收集和大规模数据产出研究内容:1、收集需要的样本数,达到不少于 400 份纯正的黄种人样品。1)通过国际协商,制定统一的样品采集标准与流程。2)以规范化的操作采集样品,保存个人信息并匿名处理,保存样品。2、共需产出不少于3000Gb 符合质量标准的测序数据。1)文库制备。根据需求,将分别构建不同插入片段长度的文库,包括 200500bp,25kb 等。2)cluster 生成及上机测序。根据需求,对不同样品分别进行从 35bp single-end 测序到 100bp paired-end 测序。预期目标:完成 400个样品的收集工作。产出3Tb 基因组重测序数据。承担单位:深圳华大基因研究院课题负责人:李瑞强学术骨干:田埂、赵姣、李卓经费比例:32%课题2、多个体全基因组重测序数据生物信息分析方法开发研究内容:1)全基因组短序列比对软件开发。实现将不同长度、不同插入片段的短序列比对到参考基因组上的功能。 2)全基因组序列组装软件开发。实现独立于参考基因组,直接对特定数据进行组装的功能。 3)全基因组多态性检出软件开发。基于比对和组装结果,生成一致序列。综合考虑测序深度、测序质量、正反向信息等,实现多态性位点(SNP、SV、CNV、indel)检出。预期目标:开发多个体全基因组数据的比对软件、多态性识别软件、组装软件。承担单位:深圳华大基因研究院课题负责人:李英睿学术骨干:高扬、朱红梅、秦楠经费比例:27%课题3、生物信息学和群体遗传学分析研究内容:1、负责 3000Gb 以上个人基因组数据的处理和分析工作。包括利用自主开发完成的软件实现比对、多态性位点检出、相位分析、多态性位点注释、群体遗传学分析等。 2、针对生物信息学数据分析的特点,定制高性能计算机解决方案,事先大规模重测序数据的管理、展示与共享。 1)数据传输、存储与分析。解决 1018数量级数据传输可能存在的高 I/O 问题,设计高效的数据存储、备份方案,便于数据分析和计算。 2)数据展示。将个人基因组数据以数据库的形式存储、以 web 页面的方式展示给用户,供用户查询和下载。 3)数据共享。制定适用于大型合作项目的数据质控、共享、同步方案。预期目标:完成不少于3Tb 数据的基因组比对、多态性检出工作。完成群体遗传学分析。提供超大规模数据的传输、展示与共享的解决方案。承担单位:深圳华大基因研究院课题负责人:王俊学术骨干:杨国华、樊伟、方林经费比例:41%各课题间相互关系本项目的开展将完全由深圳华大基因研究院的团队完成。课题设置分为三个主要部分:样品收集和数据产出、生物信息方法开发、数据分析以及数据管理和展示。总负责人:王俊。子课题一是整个课题的材料准备和数据产出部分。产生的不少于 3000Gb 多个体全基因组重测序将用于构建高分辨率的中国(东亚)人群遗传变异图谱。目前世界上没有现成的软件和流程可用于处理如此大规模的数据,子课题二的设置主要是针对本项目中所产生的数据,开发相应的软件和分析方法,为子课题三提供分析流程。子课题三是对子课题一、二所产生的数据和分析方法的综合应用。运用子课题二中开发的分析流程分析子课题一产出的大规模数据,并完成数据展示、共享工作。四、年度计划研究内容预期目标第一年1) 开展样品的收集和细胞系的构建工作;2) 基因分型亲子鉴定;3) 开展已构建细胞系样品的各种目标插入片段长度的基因组文库构建并测序;4) Exome文库的构建工作,并进行重测序。5) 构建各种目标插入片段长度的文库,并产出开发基因组比对软件所需的测试数据;6) 构建fosmid/BAC文库,并产出测序数据;7) 开发基于全基因组重测序数据的比对软件;8) 全基因组鸟枪法组装软件的开发;9) 开发fosmid-to-fosmid/BAC-to -BAC组装软件。10) 计算机基础设施的构建和优化,搭建与合作者之间的高速信息通道。1) 完成不少于400例样品的收集和细胞系的构建;2) 完成基于基因分型的亲子鉴定;3) 完成大片段文库制备技术的研发以及不少于0.5T高质量基因组文库重测序数据的产出;4) 完成Exome捕获文库制备技术的研发测序数据的产出;5) 完成软件测试所需的各种目标插入长度片段的文库的构建,完成不少于350G的测序数据的产出;6) 完成fomid/BAC文库的构建,以及不少于1.2T的fosmid/BAC文库测序数据的产出;7) 完成基因组比对软件的开发;8) 完成全基因组鸟枪法组装软件的原型;9) 完成fosmid-to-fosmid/BAC- to-BAC组装软件的原型;10)完成计算集群基础架构和设施建设;11)完成网络部署,搭建高速信息通道;12)培养6-9名技术骨干第二年1) 构建基因组各种目标插入片段长度的基因组文库;2) Exome文库建立并测序;3) 全基因组鸟枪法组装软件的开发;4) 开发fosmid-to-fosmid/BACto -BAC组装软件。5) 构建基因组学综合数据库,保证数据分析结果的持续性收集,形成基因组研究的重要数据参考 6) 400个亚洲人基因组数据入库1) 完成不少于1.1T高质量基因组文库重测序数据的产出;2) 完成不少于100G的Exome捕获文库测序数据的产出;3) 完成全基因组鸟枪法组装软件的开发;4) 完成fosmid-to-fosmid/BACto -BAC组装软件的开发;5) 初步形成综合基因组数据库框架;6) 完成400个亚洲个人基因组数据的入库;7) 培养5-10名骨干人才;8) 前两年完成2-4篇SCI论文的发表以及2-3个软件著作权的申请。第三年1) 构建基因组各种目标插入片段长度的基因组文库2) Exome文库建立并测序;3) 开发SNP检出软件4) 开发indel检出软件5) 开发 SV检出软件6) 数据优化存储、可视化分析平台的建设1) 完成不少于1.0T高质量重测序数据的产出;2) 不少于200G的Exome捕获文库测序数据的产出;3) 完成SNP检出软件的开发4) 完成indel检出软件的开发5) 完成SV检出软件的开发6) 优化数据存储方案;7) 完成功能完备的基因组浏览器;8) 完成个人基因组数据的在线管理和可视化分析平台;9) 培养7-10名骨干人才。第四年1) 根据产出数据,进一步完善各种建库技术,并进行流程化标准化;2) 根据大规模数据分析结果,进一步进行多态性检出软件的优化3) 大规模多态性分析标准流程的建立4) 对新发现的SV和indel进行PCR测序验证5) 产出各种大规模多态性数据,包括SNP、indel,以及SV。6) 优化查询效率和任务调度;7) 开展群体遗传学分析1) 完善大片段文库制备与exome捕获文库制备技术的标准流程。2) 完善多态性数据检出软件与流程;3) 完成大规模多态性分析标准流程的建立;4) 完成新检出SV和indel的PCR测序验证;5) 完成大规模多态性数据的检出6) 完成查询效率和任务调度的优化;7) 初步完成亚洲人群连锁遗传图谱的构建;8) 培养7-9名技术骨干。第五年1) 群体遗传学分析;2) 数据整理与总结;3) 技术总结、财务总结;4) 文章的撰写与发表。1) 完成大规模多态性数据的功能注释和其它分析;2) 完成多态性分析标准流程的建立;3) 完善亚洲人群体遗传学分析,完成进化和选择等生物学问题的分析;4) 完成课题技术总结和财务总结;5) 后三年完成6-8篇SCI文章的撰写和发表以及3-5个软件著作权的申请。一、研究内容拟解决的关键科学问题包括: 1.高质量、大规模样品收集。 作为大型国际合作项目,样品收集的规范性奠定了后期所有研究的基础。只有严格、统一、规范的样品收集流程和标准,才能保证最后分析结果的有效性,代表性和可靠性。为了保证数据分析的清晰,全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制需要收集大量人类家系,通过家系回溯确保其遗传背景对相应族群的代表性(Fst1%)。如此大规模、高标准、多方协作的样品收集工作,是前所未有的。2.超高通量测序策略的制订和数据产出。 整个全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制项目预计将产生至少3Tb 的基因组序列,对测序通量和质量提出了挑战。由于多方面数据分析的不同需求,需要以最合理的测序策略进行数据产出。DNA 样品将构建成不同片段长度的文库,从 200500bp,25kbp 不等;不同的文库将用于产生从 35bp Single-end 到 100bp Paired-end不等的测序片段,以满足单核甘酸多态性检出,结构性变异检出等各种类型数据分析的需要。3.大规模数据采集、传输、处理、存储、展示。测序技术的突破带来数据量的急速增长,使得多个体全基因组重测序成为可能,但同时也给数据的存储、处理、分析、展示带来了巨大的挑战。全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制将产生的巨大生物学数据量对当前计算机科学造成了重大挑战。在先前的研究中,我们通过“炎黄计划”,完成了对第一个亚洲人基因组的测序和分析,建立起一套针对新一代测序数据的全基因组重测序分析流程。在本项目中,我们将以这套流程为基础,从单个个体的数据扩展到更大规模的多个体全基因组重测序数据。一方面,力图解决每天200Gbp数据产出的采集、传输、处理、存储的问题,另一方面,构建用户友好的展示界面。4.单核苷酸多态性(SNP)在群体中的检出。在群体中以全基因组重测序为技术手段检测基因组多态性的重要目的之一就是检出在群体中发生频率不足 1%的 SNP。以目前的测序手段,这与测序错误在同一数量级。我们计划通过最大似然估计, 利用不同碱基类型测序深度以及测序质量的分析来区分低频 SNP 与测序错误,并通过基因组的连锁不平衡信息(LD,Linkage Disequiblium)估计 SNP碱基型频率,进一步优化 SNP 分析结果。5.短序列比对中插入删除多态性(indel)的检出。目前的群体遗传学分析方法,对于 indel 的利用并不十分充分,主要是由于基于之前的基因分型数据无法开发出高效准确的 indel 检出方法。 针对此项目中将产生的多个体全基因组重测序方法,我们预计将采用局部组装的方法解决这一难题,建立起基于短序列比对的 indel 检出方法和流程。6.结构性变异多态性(SV)的检出。结构多态性由于其发生机制复杂,难以重现等原因,成为多态性检出的又一难点,难以直接通过比对得到结论,目前尚无现成的方法、流程。与传统的基因分型方法不同,针对 1012 级别的数据量,采用新一代大规模高通量测序技术的全基因组双向重测序方法,原则上能够检出并确认包括 CNV、片段插入/缺失、片段重复、倒位、易位等在内的所有类型的复杂基因组结构多态。然而人类基因组中存在诸多的不确定性,因此本子课题将重点解决此关键问题,并在研究课题过程中探索理论基础牢固、实用性强的生物信息学方法。7.群体遗传学分析。进一步开发针对多个体重测序数据的群体遗传学分析方法,探索能够代表中国人群的遗传多态性特征的变异位点。长期以来,人类的历史发展一直是人们热衷于讨论的一个话题。由于技术的限制,先前关于群体结构、进化的讨论,通常只能基于基因组的部分区域、小规模人群等小规模数据。但是在人类发展、进化的长河上,基因组中处处在发生着变化,加之各类群体迁移等因素,使得研究群体结构与进化成为一项非常复杂的课题。通过本课题的研究,我们将从具有统计效力的大规模群体中得到代表黄种人基因组的全部多态性信息,加之同期开展的国际千人基因组项目还将产生其他种群的 800 个个体的全基因组多态性数据,使人们第一次掌握了大量人类群体结构变迁、进化的数据,必将为此类研究带来新的突破。8.筛选新一代疾病关联分析的分子标记。研究个人基因组的最终目标是造福于人类健康。在大规模测序出现之前,已经有大量基于全基因组芯片和大规模群体的关联分析,并产出了许多重要研究成果,寻找到数百个与疾病的发生、发展密切相关的基因或者基因组区域。基因组与疾病息息相关已是一个不争的事实。本课题产生的全基因组重测序数据、全基因组多态性数据,将提供给人们一份最为丰富的遗传图谱,将人与人之间基因组种种细微差异尽收其中。一方面,将对之前基于芯片数据关联分析得到的疾病相关位点做出验证。另一方面,全基因组测序的方法还将覆盖到许多之前没有检出的多态性位点和多态性类型,而这类数据与疾病的关联,之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024学年南京市九年级语文上学期期中考试卷附答案解析
- 斜拉桥上部结构主梁施工方案
- 宪法九版习题及答案 第8章 人民法院与人民检察院在线练习
- 高一功的说课课件
- 砂石场砂石资源采购合同执行监督与考核
- 停薪留职期间员工培训及技能提升服务合同
- 乡村振兴私募股权投资基金委托管理协议
- 人力资源外包合同修订及绩效管理与激励协议
- 成人开放大学咨询服务合同
- 职业教育实训教学安全管理规定
- 2025年下半年安徽省港航集团有限公司所属企业社会公开招聘22名考试参考试题及答案解析
- 2025福建厦门市公安局同安分局招聘警务辅助人员50人笔试备考试题及答案解析
- Britax宝得适百代适儿童汽车安全座椅推车婴童用品全线产品介绍
- 10kV高压开关柜验收规范标准详
- 英才学院《机械工程测试技术》课件07振动的测试
- 焊材入库、发放与回收记录模板
- 生药学-绪论-第一章
- 2019版外研社高中英语选择性必修二单词默写表
- 第一讲 ASPEN Plus使用入门课件
- 铁路客运英语中专学习教案
- 手术部位感染的预防与控制
评论
0/150
提交评论