基因组测序的原理与方法[高教课堂]_第1页
基因组测序的原理与方法[高教课堂]_第2页
基因组测序的原理与方法[高教课堂]_第3页
基因组测序的原理与方法[高教课堂]_第4页
基因组测序的原理与方法[高教课堂]_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大规模基因组测序的大规模基因组测序的 原理与方法原理与方法 胡松年 1教育教学 元素周期表的发现奠定了二 十世纪物理、化学研究和发展的 基础 元素周期表 “基因组序列图”将奠定二十一世纪生 命科学研究和生物产业发展的基础! “基因组”-生命科学的“元素周期表 ” 人体解剖图奠定了现 代医学发展的基础 2教育教学 生命的奥秘蕴藏于 “四字天书”之 中 GCTTCTTCCTCATTTTCTCTTGCCGCCACCATGCCGCCACCA TCATTTTCTCTTGCCGCCACCATGCTTCTTCCTCATTTTCTCT CCACCATGCCGCCACCACGCCACCATGCTTCTTCCTC

2、ATCTC GCTTTCTTGCCGCCACCATGCCGCCACCGCTTCTTCCtTCTCT 3教育教学 基因组学的基础理论研究基因组学的基础理论研究 基因组学是要揭示下述四种整合体系的相互关系基因组学是要揭示下述四种整合体系的相互关系: 基因组作为信息载体基因组作为信息载体 (碱基对、重复序列的整(碱基对、重复序列的整 体守恒与局部不平衡的关系)体守恒与局部不平衡的关系) 基因组作为遗传物质的整合体基因组作为遗传物质的整合体 (基因作为功能和基因作为功能和 结构单位与遗传学机制的关系结构单位与遗传学机制的关系) 基因组作为生物化学分子的整合体基因组作为生物化学分子的整合体 (基因产物作

3、基因产物作 为功能分子与分子、细胞机制的关系)为功能分子与分子、细胞机制的关系) 物种进化的整合体物种进化的整合体 (物种在地理与大气环境中的物种在地理与大气环境中的 自然选择)自然选择) 4教育教学 5教育教学 6教育教学 7教育教学 测序设备的 垄断和高速度换代 199020052020 Year 20152010 20001995 Mb1000 Mb4000 ABI373 ABI377 ABI3130 ABI3730 ABI3730 xl GA-I GA-II Less Than 5 yrs HiSeq1000/2000 Mb4500 ABI3700 ABI3700 xl SOLiD S

4、OLiD2 SOLiD3 5500 xl SOLiD ABI3130 xl GA-IIx 5500 SOLiD 8教育教学 测序设备发展现状 第一代(稳定需求)第一代(稳定需求) ABi 3130 xL 3730 xL 3500 xL 第三代(即将面市)第三代(即将面市) Helicos Biosciences Helicos Genetic Analysis System Pacific Biosciences RSSystem 第二代(高速发展)第二代(高速发展) Roche Genome Sequencer FLX System GS Junior System Illumina Gen

5、ome Analyzer IIx MiSeq HiSeq 1000 HiSeq 2000 Life Technologies (ABi) 5500 SOLiD System 5500 xL SOLiD System Ion Torrent PGM DanaherMotion Polonator G.007 Complete Genomics 无锡艾吉因生物信息技术有限公司无锡艾吉因生物信息技术有限公司 AG-100 深圳华因康基因科技有限公司深圳华因康基因科技有限公司 Pstar-1 中科院北京基因组所中科院北京基因组所/ /半导体所半导体所 BIGIS-1 BIGIS-4 9教育教学 10教

6、育教学 11教育教学 反应所需物质:反应所需物质:DNA模板、引物、模板、引物、DNA聚合聚合 酶、酶、dNTP、缓冲液、缓冲液 每个循环包括:每个循环包括:变性(变性(90)、退火()、退火(54 )、延伸()、延伸(72 ) 12教育教学 13教育教学 14教育教学 ATGCCGTAGGCCTAGC TAGGCCTAGCTCGGA ATGCCGTAGGCCTAGCTCGG A 基因组基因组DNA BAC文库文库 根据物理图谱根据物理图谱 正确定位的正确定位的 BAC 或或contig 用于霰弹法测用于霰弹法测 序的候选克隆序的候选克隆 用于霰弹法测序用于霰弹法测序 的亚克隆的亚克隆 测序并

7、组装测序并组装 完整的基因完整的基因 组序列组序列 逐步克隆法(逐步克隆法(Clone by Clone) 全基因组霰弹法全基因组霰弹法 (Whole Genome Shot-gun) 基因组基因组DNA 霰弹法克隆霰弹法克隆 测序并进行测序并进行 全基因组序全基因组序 列组装列组装 完整的基因完整的基因 组序列组序列 15教育教学 16教育教学 BAC by BAC Whole Genome Shotgun the sequencing of the human genome is likely to be the only large sequencing project carried

8、to completion by the methods described in this issue. Maynard V. Olson , The maps: Clone by clone by clone , Nature 409, 816 - 818 (2001) 17教育教学 “Working Draft” (90%; 4X) Finished Genome (99.99%; 8X) Gap1 Gap2 Chromosome 工作草稿(框架图)与完成图 18教育教学 BAC by BAC 19教育教学 The sequence of the human genome C. Vent

9、er et al. Science 16 Feb. 291: 1304 1351, 2001 20教育教学 人类基因组计划研究的主要成果和进展表现在这人类基因组计划研究的主要成果和进展表现在这“四张图四张图”上上 遗传图谱遗传图谱 又称为连锁图谱(又称为连锁图谱(linkage maplinkage map),指),指 基因或基因或DNADNA标志在染色体上的相对位置标志在染色体上的相对位置 与遗传距离与遗传距离 物理图谱物理图谱 以定位的以定位的DNADNA标记序列如标记序列如STSSTS作为路标,作为路标, 以以DNADNA实际长度即实际长度即bp、kb、Mb为图距的为图距的 基因组图谱。

10、基因组图谱。 转录图谱转录图谱 利用利用EST(expressed sequence tags 表达表达 序列标签)作为标记所构建的分子遗传序列标签)作为标记所构建的分子遗传 图谱图谱 序列图谱序列图谱 通过基因组测序得到的,以通过基因组测序得到的,以A A、T T、G G、C C 为标记单位的基因组为标记单位的基因组DNADNA序列序列 21教育教学 物理图谱的构建物理图谱的构建 大片段克隆的筛选大片段克隆的筛选 霰弹法测序与霰弹法测序与“工作框架图工作框架图”的构建的构建 序列的全组装与序列的全组装与“完成图完成图”构建构建 22教育教学 物理图谱的制作物理图谱的制作 23教育教学 物理图

11、谱物理图谱是以特异的是以特异的DNADNA序列为标志所展示的染色体图。序列为标志所展示的染色体图。 标志之间的距离或图距以物理距离如碱基对(标志之间的距离或图距以物理距离如碱基对(base pairbase pair;bpbp, Kb , Mb)Kb , Mb)表示。最精细的物理图是核苷酸顺序图,最粗略的物表示。最精细的物理图是核苷酸顺序图,最粗略的物 理图是染色体组型图。理图是染色体组型图。 STSSTS图谱图谱是最基本和最为有用的染色体物理图谱之一,是最基本和最为有用的染色体物理图谱之一,STSSTS (Sequence Tagged Site)Sequence Tagged Site)本

12、身是随机地从人类基因组上选择本身是随机地从人类基因组上选择 出来的长度在出来的长度在200200300bp300bp左右的特异性短序列(每个左右的特异性短序列(每个STSSTS在基在基 因组中是唯一的,因组中是唯一的,STSSTS图谱就是以图谱就是以STSSTS为路标(平均每为路标(平均每100Kb100Kb一一 个),将个),将DNADNA克隆片段有序地定位到基因组上。克隆片段有序地定位到基因组上。 STS的来源的来源 随机基因组序列随机基因组序列 表达基因序列,如表达基因序列,如EST 遗传标记序列,如微卫星标记遗传标记序列,如微卫星标记 有关有关STSSTS的信息可在基因组数据库的信息可

13、在基因组数据库GDBGDB中找到中找到 http:/gdbwww. gdb. org 24教育教学 q确定各确定各STS序列及其序列及其 在基因组中的位置在基因组中的位置 q大插入片段基因组文大插入片段基因组文 库的构建(库的构建(BAC文库文库) q 以特定以特定STS为标记为标记筛筛 选选并定位克隆并定位克隆 q含有含有STS的克隆在基的克隆在基 因组中排序因组中排序 基因组数据库(GDB)中至少含有 24568 个STS路标信息 25教育教学 作为载体的基本要求 能在宿主细胞中进行独立的复制能在宿主细胞中进行独立的复制 具有多克隆位点,可插入外源具有多克隆位点,可插入外源 DNADNA片

14、段片段 有合适的筛选标记,如抗药性有合适的筛选标记,如抗药性 大小合适,易于分离纯化大小合适,易于分离纯化 拷贝数多拷贝数多 文库的概念文库的概念 含有某种生物体全部基因的随机片段的重组含有某种生物体全部基因的随机片段的重组DNADNA克隆群体克隆群体 载体:载体:能携带外源能携带外源DNADNA进入宿主细胞进入宿主细胞 的工具,常用的载体有质粒载体、噬的工具,常用的载体有质粒载体、噬 菌体载体、细菌人工染色体等菌体载体、细菌人工染色体等 宿主:宿主:能容纳外源能容纳外源DNADNA片段的生物体,片段的生物体, 常用的有大肠杆菌、酵母等常用的有大肠杆菌、酵母等 26教育教学 NotI、SacI

15、脉冲场凝胶电 泳得200Kb左 右的大片段 DNA 纯化后与载体 连接 电转化,将连接 产物导入大肠杆 菌感受态细胞 插有外源DNA片段的BAC载体 在含有氯霉素 的固体培养基 中培养 每一个菌落为带有相同 外源DNA片段的单克隆 27教育教学 BAC克隆的筛选克隆的筛选 “STS-PCR反反 应池应池”方案方案筛筛 选种子克隆选种子克隆 特定的特定的STS标标 记记 相互间具有重叠片段的 BAC克隆根据STS信息组装 成contig,并定位于基因组上 Contig 每一个菌落为带有相同 外源DNA片段的单克隆 28教育教学 29教育教学 Regional mapping 30教育教学 Reg

16、ional mapping 31教育教学 Minimal tiling path selected for sequencing. Regional mapping 32教育教学 stSG50796stSG50796 WI-21858WI-21858 WI-20982WI-20982 SGC-34652SGC-34652 EST325005EST325005 Bda37h09Bda37h09sts-N34454sts-N34454 stSG-22642stSG-22642stSG22463stSG22463IB262IB262 SGC-100057SGC-100057SGC-11218SGC-

17、11218SGC-77734SGC-77734 SGC-12613SGC-12613 SGC-79997SGC-79997D3S4170D3S4170WI-13469WI-13469SGC-104744SGC-104744WI-7400WI-7400 SGC-82788SGC-82788sts-N30615sts-N30615SGC-106678SGC-106678WI-3006WI-3006D3S4125D3S4125 stSG31571stSG31571SGC-86097SGC-86097SGC-104738SGC-104738 sts-T03421sts-T03421 stSG81116

18、stSG81116DM1-2b11sDM1-2b11s A004Q43A004Q43WI-10858WI-10858SGC-15279SGC-15279stSG3143stSG3143WI-8499WI-8499 D3S3525D3S3525D3S3630D3S3630 SGC-11976 SGC-11976 WI-6116WI-6116WI-2053WI-2053SGC-84074SGC-84074SGC-77858SGC-77858D3S3706D3S3706SGC-102094SGC-102094 WI-13611WI-13611NRU18-13sNRU18-13sWI-21921WI-

19、21921CHLC.GATA44a05CHLC.GATA44a05D3S1304D3S1304sts-T58150sts-T58150SGC-82964SGC-82964 WI-1341WI-1341D3S3591D3S3591 605m01229 e21279b12299n03198p1741l18233p0137i04324k11163m22 Beijing CenterMapped on 3p by sequence from other center114k09204c23728k15429p24499n06399k19106b10129j10113l1013f06 600o17322

20、f0976o22263j0830m15320c08250a15294h24140b10137g22 South centerMapped on 3p by fingerprint from other center265o10717m12762o12156h01324k15283k15572b0261i09534j21 166f03 497i24497i24121d03121d03211k13 161d20274o146i21116k05255k15812i02 North centerMapped not on 3p by fish1120h22566o1463o01757o16 26f10

21、26f10 453a03 586c02483g20507d0625c11344o05 Mapped not on 3p by fish260k16263p03341o12560g03772p01344l093d22489o22794g03 Beijing and South 306h05621c18438g1582o03181f22622p03320k0124b16 57d0657d06 470 e10 STS markers 385a18416n08785a0797c16 25f0125f01167p17167p17 277d17669 e03194c09 Beijing and North

22、210b1795 e11 101a04101a0499d1099d10 487j12590a20156b21 End certified 710 e0410h06 508a20508a20173f11173f117m247m24 211b19291p2144l14 44l14481o07 Phase 3Phase 3731 e12731 e12811m11811m11372k09 194d21245a06 16k1516k15318i14318i14529b17 53 e12542k24 Mapped not on 3p by sequence from NCBI392m07319i18 45

23、4f24 238a09238a09 264h03157 e16350a17 Mapped on 3p by fish673f20453f03489d19194i05 ? ?Sequenced BACs without mapping information 93a0193a01360 e14 244g03329a02 611h22611h2270b0570b05 135 e1674 e04124l0821j23 21j23 IB1403IB1403 SGC-12699SGC-12699 sts-F21241sts-F21241WI- 6061WI- 6061 stSG16459stSG1645

24、9WI-6949WI-6949 stSG15038stSG15038 sts-M91858sts-M91858WI-17502WI-17502 WI-7625WI-7625WI-7071WI-7071 AB000410AB000410sts-F21841sts-F21841sts-L15409sts-L15409A004Z22A004Z22stSG31652stSG31652 WI-16427WI-16427stSG43815stSG43815A007593A007593WI-11598WI-11598A008O42A008O42D3S4194D3S4194stSG4279stSG4279WI

25、-14394WI-14394 sts-N95054sts-N95054stSG32055stSG32055stSG15465stSG15465WI-11041WI-11041stSG47554stSG47554stSG3350stSG3350D3S3589D3S3589SGC-12045SGC-12045D3S1263D3S1263stSG47397stSG47397 SGC-84455SGC-84455 D3S3610D3S3610 SGC-10790SGC-10790D3S3691D3S3691A002R42A002R42stSG50845stSG50845stSG2582stSG2582

26、WI-31307WI-31307A004X28A004X28D3S3601D3S3601A001T39A001T39stSG62586stSG62586WI-15608WI-15608sts-H83694sts-H83694stSG47347stSG47347WI-5650WI-5650WI-20823WI-20823 202a21 105k13334l221087o20593j10169k17309m10813n23 83m12 19 e08 203c04481h17356a0713b04449 e2125o17715i04 642 e22298m15224p21267l16407i0248

27、8o087f24481b18 128a05380o24474f16327h1716m03470i10 398j1558i13 424h06325l061016h17134k10299h13 220d10220d10 126l04900o22 18f03 58b17 1022p15193k15586c12588p09 173m24572m14 1082a181082a18266 e23 275j11 270i10270i10333a02 34l0634l06ctb-159n23ctb-159n23 168l03ctc-237n12 ctc-237n12382a21ctc-371o18ctc-37

28、1o18126l09 163d23 AC055767AC055767767c01 502k05502k05 326o24ctb-140o19 ctb-140o19 415k13224m20 167k17167k17 219m19219m19 266j06438j01627c01 659g04659g04 AC007791AC007791263i01263i01596j09 996c06338p06 338p06606c06606c06 ctc-243a06ctc-243a06ctc-371o18ctc-371o18 357l24 94a1494a14380a2270i1170i11 citb-

29、243a06citb-243a06 af176815ctb-177n07 ctb-177n07115g03115g03109j15 781a02412a07 412a07 429f16 1020a11ctb-187p01 ctb-187p01 622i12 402p1145b16 439f04105h19 3pter Beijing Map 33教育教学 BAC Pooling Protocol 1,152 (plates) X 384 (wells/plate) X 1 (BAC/well) = 442,368 BAC 48X8 (板) X 384 ( 孔/板 ) X 1 ( BAC/孔 )

30、 = 147,456 BAC Each BAC clone contain 150 Kbp human insert 147,456 BAC clones 对全基因组的覆盖率: 147,456 BAC clones X 150 Kbp = 7.3728 The genome DNA 3,000,000 Kbp 34教育教学 共共48个个 每组每组 8 个个 每每8个个96孔板组成孔板组成1个个superpool,384个个96孔板组成孔板组成48个个superpools 48 superpools 35教育教学 Column poolsColumn pools Row poolsRow poo

31、ls 1 2 3 4 5 6 7 8 9 10 11 12 第八板第八板 第二板第二板 Plate poolsPlate pools 第一板第一板 plate pools,row pools,column pools的构成的构成 36教育教学 1 2 3 4 5 6 7 8 9 10 11 12 超级池(超级池(8个个96孔板,孔板, 共共768个克隆)个克隆) 板池(板池(96个克隆)个克隆) 行池(12个克隆) 列池(列池(8个克隆)个克隆) 大大减少筛选的工作量,降低成本,所得筛选结果准确可靠大大减少筛选的工作量,降低成本,所得筛选结果准确可靠 28 VS 768 37教育教学 shee

32、t of superpools, plate pools, row pools, column pools 38教育教学 一一 BAC Screening 前前48个样品为引物个样品为引物OGG1.51对对superpool(sp)的筛选结果的筛选结果 后后48个样品为引物个样品为引物OGG1.52对对superpool(sp)的筛选结果的筛选结果 39教育教学 引物引物OGG1.52对应对应sp#27,34,45的的plate,row,column pools的筛选结果的筛选结果 40教育教学 BAC clone 确定确定 (+为阳性克隆为阳性克隆) 41教育教学 引物引物OGG1.52的的

33、Colony-PCR 42教育教学 STSSTS的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分的密度尚未达到绘制高精度物理图谱的要求,且在基因组中的分 布不均匀,造成很多区域没有阳性克隆覆盖布不均匀,造成很多区域没有阳性克隆覆盖, ,形成空洞。因此需用指纹图形成空洞。因此需用指纹图 谱(谱(FPCFPC法)或末端序列(法)或末端序列(Walking by End Sequence)Walking by End Sequence)步移等手段对种子步移等手段对种子 克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延克隆进行延伸,形成连续克隆群。利用延伸方法筛选得到的克隆称为延

34、 伸克隆。伸克隆。 Contig 1 Contig 2 重叠序列重叠序列重叠序列重叠序列 延伸引物延伸引物 筛选到的延伸克隆筛选到的延伸克隆 43教育教学 20 kb 300 bp Molecular weight marker every 5th lane - BAC clones 在96深孔 板中培养 - Hind III 完全酶切 - 1% 琼脂糖凝胶电泳 指指 纹纹 图图 谱谱 法法 (Walking by Fingerprinting database) 挑取靠近空洞的种子克隆,酶切构建 其指纹图谱,在FPC数据库中进行比对, 搜索含有此克隆的重叠克隆群信息,从 中确定覆盖空洞区域的

35、克隆,达到延伸 目的。 44教育教学 Hind III 完 全酶切 Hind III 完 全酶切 FPC数据库数据库 中比对中比对 Clone AClone BClone C C AB 45教育教学 contig搭建中克隆的错位搭建中克隆的错位 46教育教学 末端序列步行法末端序列步行法 (Walking by End Sequence) 挑取靠近空洞的种子克隆进行末端测序,然后在基因组数据库中进行比对, 确定专一性的序列片段作为新的STS路标。最后设计新路标的PCR引物,按照 STSPCR“反应池”方案筛选新的克隆,达到延伸的目的 。 克隆克隆350A18350A18序列输入序列输入 end

36、 sequence databaseend sequence database的查询结果的查询结果 47教育教学 四、四、Clone Identification 1、STS-PCR 2、BAC end sequencing 3、Fingerprinting 4、FISH 48教育教学 CK2 CK1 CK2 CK1 13f06 267l16 481o07 250a15 204c23 340j13 对对1515个克隆进行个克隆进行HindIIIHindIII酶切后电泳结果酶切后电泳结果 49教育教学 50教育教学 “工作框架图工作框架图”绘制绘制 根据序列与STS database进行blas

37、tn比较结果,将克隆定位末端序的比较, 判定延伸在contig外的一端序列。并可及时进行walking,筛选新的克隆 51教育教学 霰弹法测序组装与Finishing 52教育教学 工作流程图工作流程图 53教育教学 Shotgun Sequencing I :RANDOM PHASE 54教育教学 Shotgun Sequencing II:ASSEMBLY 55教育教学 Shotgun Sequencing III: FINISHING 56教育教学 Shotgun Sequencing III: FINISHING 57教育教学 Shotgun Sequencing III: FINIS

38、HING 58教育教学 Shotgun Sequencing III: FINISHING 59教育教学 Shotgun Sequencing III: FINISHING 60教育教学 Consed软件显示序列组装结果界面软件显示序列组装结果界面 1、Filling “intraclone gaps” 61教育教学 BAC-453F3s finishing Sp6 Sp6 Sp6 1kb. Insert size. The size of the clone-insert from which a clone-end pair is taken. Contig. The result of

39、joining an overlapping collection of sequence reads. Scaffold. The result of connecting non-overlapping contigs by using pair-end reads. N50 size. As applied to contigs or scaffolds, that size above which 50% of the assembled sequence can be found. 76教育教学 Genome assembly strategy Contig assembly Sca

40、fffolding Internal gap closing http:/ 77教育教学 Recent whole genome sequencing projects Table. Basic information of Rrecently sequenced genomes. Organis m Genome size strategyCoverage ContigScafffolds #N50MaxTotal#N50MaxTotal Human3.0GbSolexa45x2.76M1.5Kb18.8Kb2.18GbNRNRNRNR Apple742.3 Mb Sangr+ 454 4.

41、4x+ 12.5x 122,14616,171NR603.9Mb1,629102KbNR598.3 Castor320MbSanger4.59x54,00021.1kb190kb324Mb25,828496.5kb4.7Mb350.6Mb Grapevin e 500Mb Sangr+ 454 7x+4.2x58,61118.2Kb238kb531Mb2,0931.33Mb7.8Mb421Mb Panda2.4GbSolexa74x200,60436,728434,6352.25Gb81,4961.22Mb6.05Mb2.30Gb Straberry220Mb 454+sole xa+soli

42、d 24.5x+6. 4x+6.4x 16,48728,072215,349202Mb3,2631.44Mb4.1Mb214Mb Cacoo430Mb 454+san ger+sole xa 16.7x+ 44x 25,91219.8kb190Kb291.44,792473.8Kb3415Kb326.9Mb Tomato900Mb 454+san ger+sole xa+solid 31x+3.6x +82x+ 140 x 110,87255.7kbNR763Mb3,7614.45MbNR782Mb Potato840Mb 454+sole xa+solid 11x+106x +0.2x 11

43、1,18731KbNR683Mb66,301387KbNR727Mb 78教育教学 79教育教学 Flowchart of the WGS de novo assembly Genomic DNA DNA fragmentation, construct fragmented libraries Generate sequencing reads using 454 technology Sequencing error correction Output contigs Fill in intra-scaffold gaps and get the final scaffolds Genom

44、ic DNA DNA fragmentation, construct paired- end libraries with variant insert sizes Generate sequencing reads using Illumina GA technology Sequencing pre- process Output contigs and mini scaffolds Solexa part 454 part Hybrid assembly and scffolding 80教育教学 454 reads process Raw reads Kmer evaluation

45、Q20, remove adaptor,trim Sequencing pre-process Newbler assembly Assembled reads Unassembled reads Unigene coverage Kmer evaluationSolexa mapping Nr/Nt blast Contig status Assembl y Hybrid scaffolding 81教育教学 Solexa reads process Raw reads Kmer evaluation Sequencing pre-process Soap assemblyAssembled

46、 reads Unassembled reads Unigene coverage Kmer evaluationSolexa mapping Nr/Nt blast Contig status Assembl y Mapping to 454 contig Hybrid scaffolding Cov /Comp 82教育教学 long reads assembly contigs short reads A + C B scaffolding A + B C scaffolds Fix gap Hybrid assembly 83教育教学 EST Unigene Scaf AScaf CS

47、caf BScaf D New Scaf A B CD EST based Assembly in short reads of NGS: Constructe BIGer Scaffording 84教育教学 Raw sequencing reads pre-processing I Significance and purpose uSequencing library quality control uSequencing bias analysis I.Inherited prosperities on certain second generation sequencer II. G

48、enome sequencing black hole effect III.Transcriptome sampling and quantification bias uReady for mapping uReady for de novo assembly 85教育教学 Raw sequencing reads pre-processing II Sequencing reads numbers Duplicates detection, regional distribution analysis and trimming Adapter detection and trimming

49、 Reads quality analysis and low quality reads filter Average quality density distribution Average quality positional distribution regional distribution F-R correlation GC content-quality correlation Insert length distribution Pipeline 86教育教学 raw data pre-process 87教育教学 Image analysis and basecalling

50、 GOAT pipeline (OLB1.6), CASAVA 88教育教学 Quality Control GERALD Summary.htm Lane Lane Yield (kbases) Clusters (raw) Clusters (PF) 1st Cycle Int(PF) % intensity after 20 cycles (PF) %PF Clusters % Align (PF) Alignment Score (PF) %Error Rate (PF) 1526305 97464 +/- 4878 87676 +/- 9219 75 +/- 21 86.17 +/-

51、 5.25 89.76 +/- 5.95 99.06 +/- 0.25 102.41 +/- 1.62 1.30 +/- 0.22 89教育教学 Fastq and Quality Solexa reads of the Fastq format s_1_1_sequence.txt HWI-EAS724_0001:8:32:374:374#0/1 GAGCTGTATATGAATAATAGTTCGTTTTTCATTATCCAAGATGGATCGGTATAAAGTCTGCTAAAATAAAGGTACAACG +HWI-EAS724_0001:8:32:374:374#0/1 fcfcfggdfg

52、gggfggggcggggggggfgggggcgggfWgggggggggfgcggdgcgcggggfacbbbbgcgggggd s_1_2_sequence.txt HWI-EAS724_0001:8:32:374:374#0/2 TACCGTTAATAGCAGTAATATCATAATAGTAATAGCATCATAACGGTAGTCCCATAAAAGTGTGTCAGTAGTAGTAGTA +HWI-EAS724_0001:8:32:374:374#0/2 ggggfgggggd_adcggggeggfggeggegfgeececdegggggfegcfegggegggfgacacedb

53、d_cYb Illumina 1.3 format encodes a Phred quality score from 0 to 40 using ASCII 64 to 104 error probability (p): # for solexa: p = 0.01, Q = 19; p = 0,05, Q = 12.8, p = 0.10, Q = 9.5; # for phred: p = 0.01, Q = 20; p = 0,05, Q = 13, p = 0.10, Q = 10;90教育教学 Data assessment I Read quality distributio

54、n 91教育教学 Low Quality High Quality Trim: 3 end trim if QN 30) 60 Assessment: Distance Distrubition between two Low quality (Q20 ? 98教育教学 Lane data usage in different solexa library - Fiter duplication reads 99教育教学 Average Reads per StartPoint 100教育教学 Read Correction Correct Illumina GA short reads Km

55、er = 17 Genome Size Prediction: M = N * ( L-K+1)/L N = Total Length (bp) /Genome size L= Average Rads Length (bp) M 101教育教学 Genome size estimation using Kmer Before estimating the genome size, we set a hypothesis: the k-mer we picked out from the genome can ergodic the whole genome sequence.Accordin

56、g to the Lander waterman algorithm, the algorithm should be represented as: G= Knum / Kdepth Here, G is the genome size, Knum is the total number of k-mer and Kdepth is the expected depth of the k-mer. If we obtain the expected depth of k-mer, we can calculate the genome size. Because the distributi

57、on of k-mer frequency yields to Poisson distribution, we can consider the peak of the k- mer distribution curve as the expected depth of k-mer and calculate the genome size. Note: A total of 15,437,084,746 Kmers, the peak value on the right figure is 8, so the genome size is estimated as: 15,437,084,746/8=1.93G 102教育教学 High Quality Read Rate after preprocess Assembly: Raw data VS preprocessed Data ? 103教育教学 Q

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论