千年基因外显子组测序应用手册_第1页
千年基因外显子组测序应用手册_第2页
千年基因外显子组测序应用手册_第3页
千年基因外显子组测序应用手册_第4页
千年基因外显子组测序应用手册_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 MACROGEN Macrogen Europe TGACGTA ACTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGAC

2、AATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA01卷 首 语 高通量测序的数据质量是信息分析和实验

3、验证的基础,其准确性将直接影响实验结果的可靠性、项目的完成时间及科研成果的及时发布。不可靠的实验结果可能导致文章发表时无法通过审核或更严重者出现退稿现象,这将对研究人员的学术声誉及后期基金项目的申请造成不利的影响。 低质量的测序数据将严重影响后期的信息分析。在基因组组装中,低质量的测序数据会导致组装结果太短,组装的准确性太低,从而无法得到全长、准确的基因组信息。错误的组装信息在后期实验中无法得到验证,并影响后续的功能基因挖掘及遗传育种分析。在重测序及外显子组测序中,错误的碱基会引起很大的假阳性变异,一则导致项目的可用数据减少,二则形成大量的噪声数据,候选的变异位点过多,无法得到明确的实验结论并

4、大幅增加实验验证及功能研究的工作量;假阴性的检测结果将导致有价值的相关变异信息的遗漏,因此无法达到实验目的。在转录组测序中,低质量的数据会造成组装的准确度降低,从而引起基因上的假阳性变异,并形成较多假阳性的新转录本,最终导致不能得到明确的研究结论。 为保证测序结果的准确性,千年基因始终坚持以最高的质量服务于研究人员,其质量优势源于上市公司的信誉、丰富的项目经验及Illumina 的官方认证!我们郑重承诺: 严格使用Illumina 原厂测序试剂; 信息分析的参数可向合作伙伴公开,随时接受监督和验证; 如因千年基因的责任导致项目失败,将免费为合作伙伴重做或全额退款。千年基因 TGACGTA A

5、CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTG

6、ACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA 02关于千年基因Macrogen 集团由首尔大学于1997年成立,总部位于韩国首尔,是世界领先的生物技术研发与应用企业,

7、目前已在中国、美国、日本、欧洲等成立了多家分部,并与来自全球一百多个国家的万余家科研单位保持着长期的合作。2000年,Macrogen 成为首家在韩国创业板(Kosdaq 上市的生物医药企业。2011年,Macrogen 成功跻身于全球新能源企业500强。Macrogen 中国分部千年基因于2009年在深圳成立,主要致力于为研究人员提供全球最高质量的高通量测序、生物信息分析及相关技术支持,目前已与国内近百家科研单位建立了广泛合作。MACROGEN Macrogen Europe TGACGTA ACTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTG

8、GCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCC

9、A TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA03千年基因的测序质量为何最高?1. 17年上市公司的信誉 千年基因 TGACGTA ACTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGG

10、CACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACA

11、AT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA 04 千年基因的测序质量高在哪里?1. 最高的碱基质量碱基质量值是衡量测序质量的重要指标,质量值(Q 越高代表碱基被测错的概率(P 越小,其计算公式为Q=-10 lgP 。其中,Q20和Q30分别代表碱基被测错的概率为1%和1。对于HiSeq 2000

12、平台,千年基因平均99%碱基准确度达到Q20,可保证大于85%碱基准确度达到Q30。2. 最高的测序覆盖率覆盖率是指被测到的碱基占总的待测序区域的比率,覆盖率随数据量升高而提高,在相同的数据量下,覆盖率主要受测序试剂、实验操作和GC bias 等因素影响。高覆盖率是评价基因组组装完整性的重要依据,同时也为变异检测的准确性提供数据基础。千年基因严格使用Illumina 原厂试剂,在相同的数据量下可提供最高的测序覆盖率。3. 最高的测序均一性覆盖深度是指总测序量与待测目标区域大小的比值,由于测序试剂、实验操作和GC bias 等因素影响,所有待测区域的覆盖深度并不完全一致,即测序的不均一性。变异检

13、测时单条read 检测出的变异信息很可能由测序错误导致,可靠性较低,因此通常选取覆盖深度大于10的reads 进行分析。目前已发表的外显子组文章中约80%-90%的外显子区域覆盖度达到10以上,千年基因严格使用Illumina 原厂试剂,约90%的外显子区域覆盖度达到10以上,保证最高的测序均一性。4. 最小的文库方差较大的文库方差将导致PE 测序产生的一对reads 间距离误差较大,信息分析软件很可能将它们误认为是两条独立的read ,这将影响组装结果的准确性和变异分析结果的可靠性。千年基因严格控制建库流程,可保证最小的文库方差。Macrogen Europe TGACGTA ACTGACA

14、AT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT

15、TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA05 5. 最低的duplicate rate 文库制备或外显子捕获过程会因PCR 扩增引入完全一致的DNA 片段,即测序结果中的du

16、plicate reads ,duplicate reads 的比率将影响测序深度的统计和变异的可靠性分析。千年基因严格控制实验流程,可获得最低的duplicate reads 比例。平均clean data 占raw data 约90%以上,相同的测序数据量下可获得最高的有效数据量。科研成果举例 Macrogen 研究院主要致力于医药学基因组研究,并在此领域取得了大量科研成果。2000年,完成了韩国人基因组指纹图谱的构建;2004年,基因工程鼠的研究结果发表于Nature ;2005年,运动发酵单胞菌基因组项目成果发表于Nature ;2009年,第一个韩国人基因组图谱以其高度注释的结果发表

17、于Nature ;2010年,亚洲人基因组CNV 的研究结果发表于Nature Genetics ;2011年,人类基因组和转录组多样性的研究发表于Nature Genetics ;2011年,肺癌相关的基因融合研究发表于Genome Research ;2012年,肺癌的深入研究结果发表于Genome Research 。合作伙伴举例 千年基因在国内已与中国科学院、中国农业科学院、中国热带农业科学院、中国林业科学研究院、中国医学科学院、山东省农业科学院、山东省海洋水产研究所、广东省农业科学院、广东省生态环境与土壤研究所、辽宁省农业科学院、福建省亚热带植物研究所、上海市农业科学院、北京大学、清

18、华大学、北京师范大学、中国农业大学、中国科学技术大学、上海交通大学、复旦大学、同济大学、中山大学、华南理工大学、华南师范大学、汕头大学、西安交通大学、华中农业大学、山东农业大学、云南农业大学、浙江海洋学院、湖南师范大学、北京协和医院、广东省人民医院、中山眼科中心、南方医科大学、广东药学院、四川省人民医院、华西医院、第三军医大学、新华医院、胸科医院、中山医院、湘雅医院、武汉同济医院、国家计生委科学技术研究所、汕头国际眼科中心、香港大学、香港中文大学、香港科技大学等单位建立了广泛的合作,测序质量得到了合作伙伴的高度认可和一致好评。 TGACGTA ACTGACAAT TTGGCCAT GACGTA

19、AT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT

20、GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA 06来自上海新华医院:外显子组测序结果已通过实验验证完毕,SNP 的准确率达到100%,非常满意!来自清华大学:我的样本之前做了转基因,你们的测序和分析结果正好和我们之

21、前用传统测序预估的结果完全吻合,可以直接用于写文章了。来自广东省农科院:一般情况下只能用clean data 进行转录组组装,而你们的raw data 就可以直接进行组装,且组装结果非常好,可见你们的数据质量和可用数据量非常高!来自中国医学科学院:你们的效率太高了,不到一个月就完成了所有的外显子组测序和分析,非常及时!来自华西医院:很放心把项目交给你们,因为各方面的问题都能帮我们想到。同时也非常感谢你们对所有问题的详细解答,让我们感到你们对待每一位客户的重视和诚意!来自中国科学院:你们的敬业态度让我印象深刻,期望下次的合作!Macrogen Europe TGACGTA ACTGACAAT T

22、TGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGG

23、CCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA07外显子组测序技术简介.08技术优势.08应用举例.09方案设计.10捕获平台.12项目流程.13案例解析.21Macrogen 参与发表文

24、章举例.25附录一.26附录二. (27TGACGTA ACTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT T

25、GGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA 08技术简介随着社会生活水平的提高,人类健康问题也越来越多地受

26、到社会各界的关注。传统的遗传疾病研究模式是采用显带分析、核型分析、FISH 、遗传标记、PCR-DNA 测序等传统实验方法来寻找与疾病相关的DNA 变异,这些方法各有各的特点,但都存在效率低、工作量大、分辨率低等一系列的限制。新一代高通量测序技术的出现,为遗传疾病的研究提供了全新的思路。2009年,基因组定向捕获工具的出现使外显子组测序成为可能。2009年9月,第一篇关于外显子组测序的原理验证文章于Nature 杂志发表。来自华盛顿大学的Jay Shendure 通过对四名Freeman-Sheldon 综合征患者的外显子组测序,找到已知的致病基因MYH3。随后,该团队将这种技术应用于米勒综合

27、征的研究,通过对患者编码区序列的捕获及深度测序,鉴定出单个候选基因DHODH ,并经Sanger 测序验证其他患者中也存在该基因的突变。外显子组的序列仅占全基因组序列的1%左右,但大多数与疾病相关的变异位于外显子区。通过外显子组测序可鉴定约8万个变异,全基因组测序可鉴定300万个变异,因此与全基因组测序相比,外显子组测序不仅费用较低,数据阐释也更为简单。外显子组测序技术以其经济有效的优势广泛应用于孟德尔遗传病、罕见综合征及复杂疾病的研究,并于2010年被Science 杂志评为十大突破之一。近两年外显子组研究相关的SCI 文章已发表千余篇,已对数百种疾病展开了深入研究,研究结果推动了人类医学的

28、研究。技术优势直接对蛋白编码序列进行测序,找出影响蛋白结构的变异。高深度测序,可发现常见变异及频率低于1%的罕见变异。针对外显子组区域测序,约占基因组的1%,有效降低费用、周期、工作量。M c o n A Macrogen Europe Macrogen Asia TGACGTA A CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAAT

29、TTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCT

30、G ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA09 应用举例疾病 遗传模式 致病基因 Freeman-Sheldon 综合征 AD MYH3 Kabuki 综合征 AD MLL2 Schinzel-Giedion 综合征 AR SETBP1 Sensenbrenner 综合征 AR WDR35 Fowler 综合征 AR FLVCR2 Perrault 综合征 AR HSD17B4 Hajdu-Cheney 综合征 AD NOTCH2 成骨不全 AR SERPINF1 米勒综合

31、征 AR DHODH Brown-Viale tt o-van Laere 综合征 AR C20orf54 血磷酸脂酶过多智力迟钝综合征 AR PIGV 家族性-脂蛋白过少血症 AD ANGPTL3 色素性视网膜炎 AR DHDDS 非综合征性耳聋 AR GPSM2 原发性淋巴管性水肿 AD GJC2 肌萎缩性侧索硬化 AD VCP 非综合征的智力迟钝 AR TECR Van Den Ende-Gupta 综合征 AR SCARF2 自身免疫性淋巴组织增生症(ALPS AR FADD 小脑共济失调 AD TGM6 逆向性痤疮 AD NCSTNTGACGTA ACTGACAAT TTGGCCAT

32、 GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GA

33、CGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA方案设计相比传统测序,外显子组测序能够迅速的获得所有外显子区域的遗传信息,在大幅提升效率的同时显著降低了研究成本;相比全基因组测序,外显子组测序能够在缩短实

34、验周期、减少数据分析量及实验投入的基础上有针对性的得到大部分全基因组测序所能得到的信息。基于外显子组测序良好的性价比,该方法目前在国际上已经被广泛应用于遗传病和癌症研究。1. 单基因疾病研究方案首先需要按照疾病表型对家系成员进行严格筛查,明确其患病情况并进行该疾病研究的背景调查。在找出该疾病已经有一些研究背景和相关的致病基因报道,可通过传统PCR 测序方法对已知的疾病相关变异进行验证和初筛;确认所研究的样本中未发现相关的基因变异,那么可挑选一个或数个相同疾病家系的核心成员成员进行外显子组测序。每个家系中的患病个体选取3-5个样本,正常个体选取1-2名作为对照进行研究。按照疾病模型(AD ,AR

35、 等及样品的家系信息对测序得到的结果进行分析,以缩小候选变异的范围,经过多种注释、筛选后过滤掉对功能无影响的变异及公共数据库中的常见变异,再使用传统PCR 测序进行样本扩大化验证及相关的功能研究,最终确定疾病相关变异。单基因遗传病研究举例:a. 家系图:b. 分析思路:隐性纯合突变致病:两个患者共享相同的纯合突变,父母为杂合携带者。复合杂合突变致病:两个患者具有相同的突变,即在一个基因内有两个不同的杂合变异, 而父母分别为这两个杂合突变的携带者。显性模式(新生突变:找两个患者共有的杂合突变,而父母不带有该突变。Macrogen EuropeMacrogen AsiaTGACGTA A CTGA

36、CAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAA

37、T TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCAc. 分析结果示意:若样本为散发样本,由于样本间没有血缘关系,遗传背景相差较大,测序得到的结果也较难分析。为了更为准确地得到有价值

38、的结果,使用散发样本进行外显子组测序要求的样本数目比家系样本要多一些。一般建议至少做30个患病个体样本以上的平行测序分析。对大量患病个体的测序数据进行多样本分析,从而确定候选疾病相关变异,再用传统PCR 测序在其他的相同疾病患病个体和正常人群中做进一步验证。2. 复杂疾病及癌症的研究方案对于复杂疾病,首先应该选择具有遗传性较高的病例作为研究对象,一般需要满足以下几个特点:a. 与疾病相关;b. 高度遗传;c. 在患者中表现较早,表型一致,高外显率;d. 疾病的发病机制相似。整体的研究思路一般是通过适量样本的外显子测序(患病和健康个体各50例找到与疾病高度关联的低频突变,然后根据这一结果订制合适

39、的芯片,在大样本里进行大规模验证。从而获得精确度更高的疾病相关变异位点。接着可以针对这些位点进行生物学功能研究,从而得到有意义的结果,开发出疾病诊断及治疗的相关产品等。 选取遗传性较高的样本(case+control外显子测序多样本分析,筛选相关性较高的低频变异设计芯片进行大规模样品的验证生物学功能研究变异总数:112,491剩余:27,845剩余:14,061剩余:842结果:隐形纯合:2复合杂合:2新生突变:21外显子区域筛选非同义变异筛选疾病模式筛选数据库过滤TGACGTA ACTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TG

40、ACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACG

41、TAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA 在各种环境因素的作用下,机体某些体细胞染色体上发生的变异破坏或改变了某些重要的生物学过程,体细胞可能会因此异常增生而转变为肿瘤细胞。由于肿瘤细胞具有异质性,同一块肿瘤组织里可能含有不同时期的肿瘤细胞以及正常体细胞,因此它的基因变异情

42、况相对其遗传疾病来说更为复杂。对于肿瘤组织的外显子组测序研究,其最关键的步骤在于样本的选取。目前最常见的情况是分别取同一癌症患者的癌组织和癌旁组织进行比较,样本数目建议至少20对以上。测序后成对的样本进行分析后再进行不同病人间的多样本分析,以此来发掘肿瘤相关的基因变异。由于肿瘤产生的原因包括基因突变,基因表达水平变异,表观遗传变异等多个方面,在利用NGS 研究肿瘤的时候,通常会使用多种实验方法相结合的方法,例如转录组测序、全基因组测序、甲基化测序等,相互进行印证,多数据整合分析可以进一步的提高数据的可靠性。捕获平台千年基因可提供目前主流的捕获平台,各平台的特点如下。Macrogen Europ

43、e TGACGTA A CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG

44、GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAATTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA项目流程1. 样本检测Macrogen 拥有通过ISO9001 & ISO13485 & CLIA

45、国际质量标准认证的大型基因组学实验室,为了严格保证测序质量,检测合格后方可进行建库实验。用于建库的DNA 样品标准为样品浓度大于60ng/l ,体积大于20l ,OD260/OD280为1.7-2.0。通过以下三种方式进行样本检测:采用荧光定量的方法对DNA 样品进行定量; NanoDrop 检测OD260/OD280;凝胶电泳检测DNA 的状态,是包含蛋白质、RNA 污染及是否存在DNA 降解。 TGACGTA ACTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC

46、ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGC

47、ACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA2. 建库应用TruSeq DNA Sample Prep Kits 进行文库制备,起始DNA 量为1 .2g 。通过超声或雾化将DNA 样品随机打断成200-300 bp 。通过末端修复将DNA 片段两端变为平末端,5加磷酸基团。DNA 片段3加A 。通过TA 连接将接头序列(60bp 加到片段两端

48、。经过一轮扩增后成为完整的可测序的片段文库。Macrogen EuropeTGACGTA A CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG C

49、ACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA153. 捕获以Illumi

50、na 的捕获平台为例,应用TruSeq Exome Enrichment Kit 捕获外显子组及旁翼区,部分UTR 及miRNA ,总捕获范围为62M 。样品文库变性成单链DNA 。加入与目标区域特异的生物素标记DNA 探针(95mer 进行液相杂交。加入可与生物素化探针结合的链霉亲和素磁珠,富集目标区域。与链霉亲和素磁珠结合的生物素化DNA 片段通过磁性从溶液中脱离。富集的DNA 片段随后从磁珠上洗脱,并杂交进行第二次富集反应。 TGACGTA ACTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT G

51、ACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGG

52、CCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA164. 测序捕获得到的DNA 序列可于Illumina 的任一测序仪中进行测序,以HiSeq 2000为例,每run 可运行两张owcell ,每个owcell 包括8个lane ,100 PE 模式下每run 运行约11天,数据产出600G 。捕获样品经桥式PCR

53、 后,置于owcell 中进行测序,外显子组样本一般建议测序125X ,便足够进行遗传疾病分析,如肿瘤样本可根据情况适度增加测序深度。5. 质控作为Illumina Genome Network 全球三家成员之一,Macrogen 严格使用Illumina 原厂试剂,遵循Illumina Genome Network 管理,是Illumina 全球最高测序质量的代表。平均大于99% 碱基准确度达Q20,保证大于85% 碱基准确度达Q30,平均clean data 占raw data 90% 以上。对于外显子组项目,约90%的外显子区域覆盖度达到10 以上,保证最高的测序均一性。a . 原始数据

54、HiSeq 2000平台产出的原始数据为Fastq 格式,以下是对该格式的详细说明:对于以上Fastq 序列,第一行以开头,后面是read 的ID 以及其他信息;第二行代表read 的序列;第三行一般以“+”表示;第四行代表read 的质量信息,与第二行的碱基序列相对应。其中,为了便于计算机进行存储,质量值以字符来表示,每个字符所代表的ASCII 码减去33即为该碱基对应的质量值。根据相应的公式(Q=-10lgP ,即可计算每个碱基被测错的概率,其中Q20代表碱基被测错的概率为1%,Q30代表碱基被测错的概率为1。 TGACGTA A CTGACAAT TTGGCCAT GACGTAAT GG

55、CACCTG ACTGACAA TTTGGCCA TGACGTAA TGGCACCT GACTGACA ATTTGGCC ATGACGTA ATGGCACC TGACTGAC AATTTGGC CATGACGT AATGGCAC CTGACTGA CAATTTGG CCATGACG TAATGGCA CCTGACTG ACAATTTG GCCATGAC GTAATGGC ACCTGACT GACAATTT GGCCATGA CGTAATGG CACCTGAC TGACAATT TGGCCATG ACGTAATG GCACCTGA CTGACAAT TTGGCCAT GACGTAAT GGCAC

56、CTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA TGACGTAA CTGACAAT TTGGCCAT GACGTAAT GGCACCTG ACTGACAA TTTGGCCA17将以上Fastq 序列的质量信息转换成相应的质量值,结果如下。在该read 中,只有一个碱基的质量值为28,其余碱基的质量值均大于30。b. 质量评估下图是千年基因测序数据的质量评估结果,横坐标表示碱基的质量值,纵坐标表示大于该质量值的碱基所占百分比。其中几乎所有碱基的质量值在20以上,90%以上碱基的质量值在30以上。变异检

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论