基因组分析及相关网络分析平台

上传人：纵*** IP属地：湖北上传时间：2022-03-22 格式：PPT 页数：181 大小：18.08MB 积分：30 举报 版权申诉

已阅读5页，还剩176页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基因组分析及相关网络分析平台基因组分析及相关网络分析平台l第一节第一节基因结构分析及相关网络分析基因结构分析及相关网络分析平台平台l第二节第二节核酸序列组装和基因定位分析核酸序列组装和基因定位分析及相关网络分析平台及相关网络分析平台l第三节第三节新基因的发现及功能预测及相新基因的发现及功能预测及相关网络分析平台关网络分析平台1 1、基因是一段与多肽链或功能、基因是一段与多肽链或功能RNARNA产生有关的产生有关的DNADNA片段，包括编码区前的引导序列、编码区后的尾部片段，包括编码区前的引导序列、编码区后的尾部序列、编码区内的插入序列和编码区序列。序列、编码区内的插入序列和编码区序列。2

2、 2、基因是编码一条多肽链或功能、基因是编码一条多肽链或功能RNA(RNA(如如rRNArRNA、tRNAtRNA) )所必需的全部核苷酸序列，是所必需的全部核苷酸序列，是DNADNA分子链上特分子链上特定区域。定区域。3 3、基因是遗传信息的一种独立单位。、基因是遗传信息的一种独立单位。基因的概念随着科学的发展而不断发展，迄今为止，仍有各种说法。基因的概念随着科学的发展而不断发展，迄今为止，仍有各种说法。Today when we speak of a gene for some malady, a regulatory gene, Today when we speak of a gene

3、 for some malady, a regulatory gene, a structural gene, or a gene frequency, it is entirely possible a structural gene, or a gene frequency, it is entirely possible that we are deploying different gene concepts even though we are that we are deploying different gene concepts even though we are using

4、 the same term.using the same term. 3.2 基因，基因组基因，基因组Gene, Genome 1). 基因的概念从分子生物学角度看，基因是负载特定遗传信息的DNA分子片段，在一定条件下能表达这种遗传信息，产生特定的生理功能。2). 基因的分类按基因功能分类：(1). 结构基因可转录形成mRNA，进而转译成多肽链，构成蛋白质。(2). 调控基因可以调节控制结构基因表达的基因。3). 基因组：表示一个生物物种所有基因的总和，是指导一个物种的结构与功能的所有遗传信息的总和。原核生物原核生物(prokaryote)(prokaryote)：由原由原核细胞构成的单细

5、胞生物核细胞构成的单细胞生物 DNADNA分子无分子无核膜核膜包裹，遗传信包裹，遗传信息量小；息量小；细胞小，直径为细胞小，直径为0.2100.210 m m，有细胞壁；有细胞壁；细胞内无细胞器，没有明显细胞内无细胞器，没有明显的核结构。的核结构。1、原核生物基因组一般比真核生物基因组小、原核生物基因组一般比真核生物基因组小得多得多 E. coli的的基因组基因组(4.6Mb)约为酵母基因组约为酵母基因组(12.1Mb)的的2/52、绝大部分原核生物基因组由一个单一的环、绝大部分原核生物基因组由一个单一的环状状DNA分子组成分子组成3、原核生物的基因通常比真核生物的少、原核生物的基因通常比

6、真核生物的少E. coli：4000多个基因，人：多个基因，人：30000个个4、原核生物的基因绝大多数是连续基因，不、原核生物的基因绝大多数是连续基因，不含间隔的内含子；基因组结构紧密，重复序列含间隔的内含子；基因组结构紧密，重复序列远少于真核生物的基因组。远少于真核生物的基因组。双链环状双链环状DNA分子，全基因组长为分子，全基因组长为4,600kb；目前已经定位的基因有目前已经定位的基因有4,289个；个；非编码区占的比例约为非编码区占的比例约为11.4%。原核生物基因组的许多信息都是为了维持细胞的基本功能，原核生物基因组的许多信息都是为了维持细胞的基本功能，如构造和复制如构造和复

7、制DNA，产生新蛋白质，以及获得和存储能量。，产生新蛋白质，以及获得和存储能量。完全测序的细菌和古细菌的基因组数据表明，其中完全测序的细菌和古细菌的基因组数据表明，其中85到到88的核酸序列与基因的编码直接相关。的核酸序列与基因的编码直接相关。例如，在例如，在E.coli中总共有中总共有4,289个基因，平均编码长度个基因，平均编码长度约约为为950bp，而基因之，而基因之间的平均间隔长度只有间的平均间隔长度只有120bp。与真核基因结构相比较，原核基因的结构相对简单。原核基与真核基因结构相比较，原核基因的结构相对简单。原核基因为连续基因，其编码区是一个完整的因为连续基因，其编码区是一个完整的

8、DNA 片段。但原核基片段。但原核基因的转录起始、翻译起始的调控机制比较复杂。因的转录起始、翻译起始的调控机制比较复杂。完整的基因结构从基因的完整的基因结构从基因的5-端启动子区域开始，到端启动子区域开始，到3-端终止区结束。端终止区结束。基因的转录开始位置由转录起始位点确定，转录过程直至遇到转录终基因的转录开始位置由转录起始位点确定，转录过程直至遇到转录终止位点结束，转录的内容包括止位点结束，转录的内容包括5UTR、开放阅读框以及、开放阅读框以及3UTR。基因翻译的准确起止位置由起始密码子和终止密码子决定，翻译的对基因翻译的准确起止位置由起始密码子和终止密码子决定，翻译的对象即为介于这

9、两者之间的开放阅读框。象即为介于这两者之间的开放阅读框。启动子启动子 (promoter)：Pribnow区区或或-10区区Sextama或或35区区转录起点转录起点发卡结构发卡结构rU.dA区区原核生物基因组的操纵子与基因群结构原核生物基因组的操纵子与基因群结构操纵子（操纵子（operator):operator): 每条每条mRNA的蛋白质编码区由连续的、不交叉的、称作可读的蛋白质编码区由连续的、不交叉的、称作可读框的密码子串组成，每个框的密码子串组成，每个ORF对应一个蛋白质，其起始和终止对应一个蛋白质，其起始和终止子都位于子都位于mRNA内部，即内部，即ORF的终止子不同于的终止子不同

10、于mRNA的终止子。的终止子。绝大部分原核生物蛋白质的长度绝大部分原核生物蛋白质的长度大于大于60个氨基酸；个氨基酸；（E. coli：蛋：蛋白质编码区域平均长度为白质编码区域平均长度为316.8个密码子，个密码子，不到不到1.8%的基因的长度小于的基因的长度小于60个密码子）个密码子）长长ORF表明该区域可能对应于一表明该区域可能对应于一个原核生物基因的编码序列个原核生物基因的编码序列原核生物的基因结构原核生物的基因结构TranscriptionInitiation MotifCoding ORFTranslationInitiation MotifUpstream regionTexts

11、from coding/noncoding regions in DNA sequenceGTGAGGGATCGTGGGCATATTTCACAAACTTACTTTTAAAACCATACAACGAAGAAGCGGCCATAATGAACGACTCTTTACAGAATACGGATCTCATTTCACACTTCTCACATCCATTTTAGTTGGAAACACATGAAAGTGAGACCATCAGTTAAACCAATCTGCGAAAAATGTAAAGTTATTTCGCAGAAAAGGAAAAGTAATGGTGATCTGTGAAAATCCAAAGCATAAACAAAAACAAGGATAAGGTTATAT

12、AAATGAAAAGATTTCTGATTGGCGCAGGCGTCGCAGCGGTGATTTTATCAGGTTTGGTTTATTGCGGACCATCAAACCCACTCACAGGAAATGAAAGTCGCTGAGAAAATGATTGGATAAGAGATTATTGATGAAAATCAGCCGGATTCTATTGGCAGCAGTGATTTTAAGTAGTGTATTTTTCAATAACTTATTTGCAAAGTGATCATAATACTGAAATTAAAGTTGCTGCAGATCGGGTAGGGGCATAGGTGAGTTTGTATGAAATTGAAGTCTAAACTATTACTCTCTTGTCTGGCT

13、CTAAGCACTGTGGTTCGTGGCAACAACTATTGCAAATGCACCTACACACCAAATTGAAGTTGCACAACGAGGAATGATTTAAAGCCCTCTCGATGGAAAAGATCCCTTGCTTCGCGGAGGAATTGATTATAGGCCTCTCTATCCTGGGGCCGCAAATATTCAAAGTCGAAATGAATGTCACGGAAGCCATATCTTCTGGCATTCTCGACTAGCACGGGACATATGATGGCTTGCAGGTCTTTTAAAGAGACAGCGGCGGTTTGTGACAAGTCAATCAGAAATCCTTCACCCGAGCGCTGC

14、CGGCTGTTCATTTTCCGAAATGCTTCTATGTCTTTTTCATTCTGACGCCTGAAATATGGTCCGCGTGAAGATGTGTATCAAATACGTGAGTAATCGTTGCACCCTTCCCCTTCGCAAAATCTATAAAGAAATTCACCATACGTGTCGCATCAATAATTGCTGCTTCACCATTTGAAAAGCCAAAAATGATCGACACAGCTATGAAATCGGAGAAGAAATCATGCTTCCGAGTGAAACACGCATGGGCAGAAGGGCCAGCTTTTTTGATTTTTTTAAACTGCGCCCTTTCAAAATGGGGAT

15、TTTGATATATGTAATATGTATGAATTCTTGATTGATGATCGTATCATCAGTTATTTCAATTGCCTCAACGTCAAACTCTTGTTGCAGCGCTTTGACAAACCTTTTTACATTTCCTGTTTTACTCTCATATGTAATTAACAATGTCCCTATGAAAATACTGCCCTCTGTCCCGATCACCTCCGCCCGGATGTCATGTCCGTATGGAGAGGTTCTGCTTGCCTCGACGTCCCCCGCTGCGCCCGAGTCAAATTCAATATACGTCAGCTGAStart codonStop codonATGGTGTTGTA

16、ATAGTGAProtein coding genesNoncoding sequences ：由大约由大约30亿亿bp组成，分为组成，分为24条线性条线性DNA分分子子(55250Mb)，分别包含在分别包含在24条不同的染色体中条不同的染色体中(22条常染色体和条常染色体和2条性染条性染色体色体X、Y) ：长为长为16,569bp的环状的环状DNA分子，分子，位于产生能量的细胞器位于产生能量的细胞器线粒体中线粒体中多数真核生物基因表现为多拷贝多数真核生物基因表现为多拷贝(某些基因多次重复某些基因多次重复)，称为，称为基因家族基因家族（gene family）；真核生物的基因多拷贝为大量

17、产生真核生物的基因多拷贝为大量产生RNA、蛋白质所需要；或者可以在不蛋白质所需要；或者可以在不同组织、不同发育阶段被表达；同组织、不同发育阶段被表达；基因家族产生的推测：进化过程中的基因加倍；基因家族产生的推测：进化过程中的基因加倍；由于突变导致失去功能的基因拷贝叫由于突变导致失去功能的基因拷贝叫假基因（假基因（pseudogene）。假基因假基因：与功能性基因密切相关的：与功能性基因密切相关的DNA系列，但由于缺失、插入和无义突变失去阅系列，但由于缺失、插入和无义突变失去阅读框架而不能编码蛋白质产物。有些人类假基因可以转录但不能翻译成蛋白质。读框架而不能编码蛋白质产物。有些人类假基因可以

18、转录但不能翻译成蛋白质。假基因的两种类型：假基因的两种类型：（1）、由于一种基因的加倍而不能表达，但保留原来亲本基因的外显子及内含子；）、由于一种基因的加倍而不能表达，但保留原来亲本基因的外显子及内含子；（2）、仅含有亲本基因的外显子，源于）、仅含有亲本基因的外显子，源于mRNA并通过逆转录而重新整合进基因组并通过逆转录而重新整合进基因组的。的。l低重复序列低重复序列: :在基因组中只有一个或几个拷贝，占在基因组中只有一个或几个拷贝，占DNADNA总量总量的的40408080。结构基因基本上属于。结构基因基本上属于。l中度重复序列中度重复序列: :这类序列的重复数在这类序列的重复数在10101

19、 1 -10 -104 4 之间之间, ,占占DNADNA总量的总量的10104040，各种，各种rRNArRNA, , tRNAtRNA以及某些结构基因以及某些结构基因（如组蛋白基因）。（如组蛋白基因）。l高度重复序列高度重复序列：卫星：卫星DNADNA，由，由6 6100100个碱基组成，占个碱基组成，占DNADNA总总量的量的10106060，在，在DNADNA链上串联重复高达数百万次，卫链上串联重复高达数百万次，卫星星DNADNA是不转录的。是不转录的。目前的一些认识：目前的一些认识：l（1 1）、）、GCGC含量低，含量低，ATAT含量高。（含量高。（ATAT的氢键弱）；的氢键弱）；

20、l（2 2）、）、33端和端和55端有直接重复序列的存在。有利于形成端有直接重复序列的存在。有利于形成环状结构。环状结构。重复重复DNA序列是多数真核生物基因组的主要成分序列是多数真核生物基因组的主要成分真核生物的基因一般为真核生物的基因一般为断裂基因断裂基因(interrupted gene)，由内含子和外显子由内含子和外显子组成，编码区被内含子分隔成若干段；组成，编码区被内含子分隔成若干段；内含子外显子结构的意义：提供编码区进行重组的机会，产生新基因，内含子外显子结构的意义：提供编码区进行重组的机会，产生新基因，有利于真核生物的进化。有利于真核生物的进化。Intergenic regi

21、onGeneExonIntron人类第人类第21号染色体的号染色体的Contig 3部分部分(长长3,450,497bp)基因基因“TRPC7”的总长为的总长为62,668bp，其中编码部分总长为，其中编码部分总长为3,345bp，由由25个个外显子组成，长度范围外显子组成，长度范围48354bp。增强子GC区CAAT区11040 3020TATA+1mRNA转录起始位点Py A Py(1)、启动子（启动子（promoter）(2)、增强子（增强子（enhancer）(3)、负性调节元件负性调节元件(4)、LCR（Locus control regions）（）（基因座基因座调控区）调控区）(

22、5)、转录因子转录因子(6)、与转录终止有关的序列：与转录终止有关的序列：(7)、mRNA的剪接的剪接（1 1）、人类细胞核基因组中编码序列不到）、人类细胞核基因组中编码序列不到2 2，约，约含含3 3万左右不同的基因，且有近万左右不同的基因，且有近1/31/3为多拷贝；为多拷贝；（2 2）、结构基因大多含有插入序列。即大部分基因）、结构基因大多含有插入序列。即大部分基因为断裂基因（为断裂基因（interrupted geneinterrupted gene）；）；（3 3）、）、外显子外显子(exon)(exon)一般不长于一般不长于800bp800bp，内含子内含子(intron)(int

23、ron)则在则在30bp30bp数十数十kbkb不等；不等；（4 4）、）、mRNAmRNA剪接位点（剪接位点（Splice sitesSplice sites）的识别信号：的识别信号：每个外显子和内含子接头区都有一段高度保守序列每个外显子和内含子接头区都有一段高度保守序列（consensus sequenceconsensus sequence），），即内含子即内含子55端大多数是端大多数是GTGT（称为称为donor sitedonor site）开始，开始，33端大多数是端大多数是AGAG（称称为为acceptor siteacceptor site）结束，称为结束，称为GTGTAGAG

24、法则；法则；人类基因组结构的特点人类基因组结构的特点（5）、尽管拥有相同的一套基因组，不同的分化细）、尽管拥有相同的一套基因组，不同的分化细胞中所表达的基因也不同，每个细胞只表达一部分基胞中所表达的基因也不同，每个细胞只表达一部分基因因（例如：人脑细胞的基因表达百分比最高，为（例如：人脑细胞的基因表达百分比最高，为22）；）；（6）、转录在细胞核内进行，翻译在细胞质核糖体）、转录在细胞核内进行，翻译在细胞质核糖体中进行，二者在时间空间上是分开的。中进行，二者在时间空间上是分开的。DNADNA的编码序列首先通过转录合成的编码序列首先通过转录合成mRNA(message RNA)mRNA(mess

25、age RNA)；在；在mRNAmRNA中，每中，每3 3个核苷酸翻译成蛋白质中的个核苷酸翻译成蛋白质中的1 1个氨基酸。把这个氨基酸。把这3 3个个核苷酸称为遗传密码或三联体密码核苷酸称为遗传密码或三联体密码(triplet code)(triplet code)，每个三每个三联码称为密码子联码称为密码子(codon)(codon)。G. Gamow(1954)，4种核苷酸种核苷酸20种氨基酸：种氨基酸：二联码二联码氨基酸？氨基酸？42=1620四联码四联码氨基酸？氨基酸？寻找确定每种氨基酸的具体密码寻找确定每种氨基酸的具体密码19601964：三个重要实验：三个重要实验确定出每种氨基酸的具

26、体密码。确定出每种氨基酸的具体密码。大自然做任何事情，都是采用最简单的形式。大自然做任何事情，都是采用最简单的形式。64 codons20 amino acids：同一个氨基酸有同一个氨基酸有1个或个或1个以上密码子个以上密码子3种氨基酸种氨基酸6 codons (Leu, Ser, Arg)5种种氨基酸氨基酸4 codons (Val, Pro, Ala, Gly, Thr)1种种氨基酸氨基酸3 codons (Ile, STOP)9种氨基酸种氨基酸2 codons (Phe, Tyr, His, Gln, Asn, Lys, Asp, Glu, Cys)2种种氨基酸氨基酸1 codons

27、(Met, Trp)同义密码子同义密码子(synonymous codon)：对应于同一氨基酸对应于同一氨基酸的密码子的密码子1 1、普遍性：对大多数病毒、原核生物、真菌、植物、动物都普遍性：对大多数病毒、原核生物、真菌、植物、动物都适用；适用；2 2、特殊性：、特殊性：支原体：支原体：UGA UGA 色氨酸色氨酸( (TrpTrp) ) 嗜热四膜虫：嗜热四膜虫：UAA UAA 谷氨酰胺谷氨酰胺( (GlnGln) ) 线粒体：与核线粒体：与核DNADNA编码的氨基酸有部分差异编码的氨基酸有部分差异l为什么要进行基因寻找？为什么要进行基因寻找？基因组序列基因组序列信息的获得信息的获得基因寻找

28、基因寻找同源序列搜索同源序列搜索基因功能注释基因功能注释增强子GC区CAAT区11040 3020TATA+1mRNA转录起始位点Py A Py输入序列输入序列l注意输入序列输入序列lCpGCpG岛（岛（CpGCpG islands islands）是短的、分散的，）是短的、分散的，非甲基化的核酸序列，它常出现在持家基非甲基化的核酸序列，它常出现在持家基因和受调节表达的基因因和受调节表达的基因55端。端。 CpGCpG岛定义岛定义为长度超过为长度超过200bp200bp，P P（CGCG）0.60.6* *P(C)P(C)* *P(G)P(G)值，且值，且GCGC含量大于含量大于50%50%的

29、序列区域。对的序列区域。对CpGCpG岛的识别，有助于转录起始信号的识别。岛的识别，有助于转录起始信号的识别。CpG islands revealing http:/r.it/cgi-bin/wwwcpg.pl输入序列输入序列CpGPlot will produce a parameter report along with a graph depicting the Obs/Exp, %CG and Putative Islands plots.CpGReport will produce an EMBL formated report with a Feature Table that c

30、ontains a Key for each island found along with location/qualifiers that depict the position of the island, its size, the total sum of C+Gs in the island, the %CG and the observed/expected value max for it. At the bottom of each report the total number of islands found is printed or a No islands foun

31、d text. Isochore plots GC content over a sequence. It is intended for large sequences such as complete chromosomes or large genomic contigs, although interesting results can also be obtained from shorter sequences. This sets the minimum average observed to expected ratio of C plus G to CpG in a set

32、of 10 windows that are required before a CpG island is reported CpGReportCpGPlot5ATGCTGCATGC3TACGACGTACGATGGGATATAGGCCTTAGTACCCTATATCCGGAATCCACAGCTCC3GTGTGCAGG5TranscriptionInitiation siteInitiationcodon StopcodonTranscriptionInitiation siteOpen reading Frame (ORF)5-GCUGCAUGCAUGGGAUAUAGGCCUUAGCACACG

33、U-3Initiationcodon StopcodonTranslated (coding) region5-Untranslated region3-Untranslated regionTranscriptionTranslationfMet-Gly-Tyr-Arg-ProGCCACC(ATG)CATGGG(ATG)AAAAAA(ATG)CGGGGT(ATG)强Kozak同源序列弱Kozak同源序列高等真核生物高等真核生物酵母酵母输入序列输入序列填入要求结果返回填入要求结果返回到的到的Email地址地址使用标准密码子使用标准密码子输出序列类型是输出序列类型是起始和终止密码子起始和终止密

34、码子之间的核苷酸序列之间的核苷酸序列输入的基因组序列输入的基因组序列是环形的是环形的FXYD5 FXYD5 mRNAgenomic sequenceFXYD5 mRNA mousegenomic sequence human核苷酸序列分析从已知基因的功能推测剪切机制从已知基因的功能推测剪切机制在序列上高度相似的在序列上高度相似的mRNA/cDNA/EST序列序列相匹配的基因组序列相匹配的基因组序列序列比对序列比对对分布位置进行分析对分布位置进行分析cDNA/mRNA/EST 序列比对序列比对收集序列收集序列核苷酸序列分析核苷酸序列分析核苷酸序列分析序列在线提交形式：序列在线提交形式：界面中有两

35、个窗口：界面中有两个窗口：上方窗口用于输入基因组序列（直接粘贴序列或用上方窗口用于输入基因组序列（直接粘贴序列或用Genbank ID/AC号）号）下方窗口用于输入下方窗口用于输入cDNA/mRNA序列（直接粘贴序列或用序列（直接粘贴序列或用Genbank ID/AC号）号）可同时输入多条可同时输入多条cDNA/mRNA序列与同一条基因组序列进行序列与同一条基因组序列进行分析主要选项主要选项/参数参数输入基因组序列输入基因组序列Z83819输入输入5条序列条序列判断用于分析的序列间的差异，判断用于分析的序列间的差异，并调整比对参数并调整比对参数不受默认内含子长度限制，不受默认内含子长度限制

36、，默认长度：内部内含子默认长度：内部内含子为为35kb, 末端内含子为末端内含子为100kb比对阈值比对阈值选择物种选择物种输出格式输出格式核苷酸序列分析输出结果输出结果第一条序列为基因组序列第一条序列为基因组序列浅蓝色为浅蓝色为mRNA/cDNA序列序列橘黄色为外显子橘黄色为外显子外显子对应于外显子对应于基因组上的基因组上的起始起始/ /结束位置结束位置外显子对应于外显子对应于mRNA/cDNA上的上的起始起始/结束位置结束位置外显子外显子长度长度一致性一致性百分比百分比错配和错配和gap序列联配结果序列联配结果外显子外显子序号序号核苷酸序列分析AF127763，AF166326，AF166

37、327和AF166328 核苷酸序列分析核苷酸序列分析CpG岛分析NoNo调控序列所在位置Cister结果：881- 896 CCAAT881- 896 CCAAT908- 923 CCAAT908- 923 CCAAT转录终止信号GetOrfGenScan735 - 773 735 - 773 964 - 1020 964 - 1020 10541054 - 1146 - 1146 1112 - 1156 1112 - 1156 1341 - 1625 1341 - 1625 10541054-1490-1490(1054-1145, 1268-1490 )(1054-1145, 1268-

38、1490 )CCTAGTCCAGACGCCATGGGT比对分析（Blastx，Blastn，Blastp）Blastx结果： gamma gamma globinglobin：1054-11461054-11461266-1493 1266-1493 Human gene 5HSA004013: -10001000http:/r.it/webgene/genebuilder.html核苷酸序列分析 Sequence assembly Sequence manipulation Homology comparison Multiple alignmentGene structure analys

39、is Primer/Oligo analysis Restriction analysis Codons analysis核苷酸序列分析http:/r.it/cgi-bin/wwwrepeat.pl输入序列输入序列查找重复序列查找重复序列同源体搜索同源体搜索基因模式识别基因模式识别启动子预测启动子预测转录终止位点预测转录终止位点预测装配外显子和翻译编码区装配外显子和翻译编码区重复序列的存在会干扰比对结果，并且几乎不重复序列的存在会干扰比对结果，并且几乎不会覆盖启动子或外显子编码区会覆盖启动子或外显子编码区将序列以将序列以6框翻译，并作为氨基酸序列在蛋白框翻译，并作为氨基酸序列在蛋白质数据

40、库中搜索，一旦发现同源序列，则可从质数据库中搜索，一旦发现同源序列，则可从同源序列已知的功能中推断新基因的功能。同源序列已知的功能中推断新基因的功能。发现潜在的转录结合位点和启动子信号，可以发现潜在的转录结合位点和启动子信号，可以帮助理解待测序列的功能意义帮助理解待测序列的功能意义若蛋白数据库中没有发现同源体，就可通过编若蛋白数据库中没有发现同源体，就可通过编码统计学原理和潜在的功能位点如剪接信号、码统计学原理和潜在的功能位点如剪接信号、起始密码子来预测基因结构起始密码子来预测基因结构对于真核基因，需要先除去其中的内含子区域，对于真核基因，需要先除去其中的内含子区域，再把分割的外显子拼接

41、在一起，翻译成蛋白质。再把分割的外显子拼接在一起，翻译成蛋白质。当研究的序列可能含有多个基因时，确定基因当研究的序列可能含有多个基因时，确定基因模型何时转录终止至关重要模型何时转录终止至关重要表达序列标签表达序列标签（Expressed Sequence tags ）是从已建好的cDNA库中随机取出一个克隆，从5末端或3末端对插入的cDNA片段进行一轮单向自动测序，所获得的约60-500bp的一段cDNA序列。体内：翻译体外研究：反转录连接，转化ESTs的来源的来源上世纪80年代，对cDNA序列进行大规模测序的想法就曾提出，但对此一直存在争论，有人认为这种方法能发现成千上万的新基因；而反

42、对者则认为cDNA序列缺少重要的基因调控区域的信息。90年代初Craig Venter 提出了EST的概念，并测定了609条人脑组织的EST，宣布了cDNA大规模测序的时代的开始 (Adams et al., 1991)。 1993年前ESTs数据收录于GenBank，EBI和DDBJ。 1993年NCBI(National Center of Biotechnology Information)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。02468101214161820总EST条目（million）19931995199719992001时间（年）dbEST中数据量

43、的增长中数据量的增长根据不同的实验目的选择不同的测序方向： 55端端 5上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好，大部分EST计划都是选用5端进行测序的，而且从5端测序有利于将EST拼接成较长的基因序列。 33端端 3端mRNA有一20200bp的plyA结构，同时靠近plyA又有特异性的非编码区，所以从3端测得EST含有编码的信息较少但研究也表明，10的mRNA3端有重复序列，这可以作为SSR标记；非编码区有品种的特异性，可以作为STS标记两端测序两端测序获得更全面的信息。1. 去除低质量的序列（Phred）2. 应用BLAST、Repe

44、atMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列载体序列重复序列重复序列污染序列污染序列 (如核糖体如核糖体RNA、细菌或其它物种的基因组细菌或其它物种的基因组DNA等等)3. 去除其中的镶嵌克隆。4. 最后去除长度小于100bp的序列。ESTs的聚类和拼接的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用：聚类作用：v 产生较长的一致性序列(consensus sequence)，用于注释。v 降低数据的冗

45、余，纠正错误数据。v 可以用于检测选择性剪切。ESTs聚类的数据库主要有三个：聚类的数据库主要有三个：v UniGene ()v TIGR Gene Indices ()v STACK (EST clustering tutorial, httP:/www.sanbi.ac.za)不严格不严格的和严格的聚类的和严格的聚类 (loose and stringent clustering) loose clustering 产生的一致性序列比较长产生的一致性序列比较长表达基因表达基因ESTs数据的覆盖率高数据的覆盖率高含有同一基因不同的转录形式，如各种选择性剪接体含有同一基因不同的转录形式，如

46、各种选择性剪接体每一类中可能包含旁系同源基因每一类中可能包含旁系同源基因(paralogous expressed gene)的转的转录本录本序列的保真度低序列的保真度低 stringent clustering 产生的一致性序列比较短产生的一致性序列比较短表达基因表达基因ESTs数据的覆盖率低数据的覆盖率低因此所含有的同一基因的不同转录形式少因此所含有的同一基因的不同转录形式少序列保真度高序列保真度高有参照的和无参照的聚类有参照的和无参照的聚类 (Supervised and unsupervised clustering) Supervised clustering 根据已知的参

47、考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 Unsupervised clustering 没有根据参考序列进行分类。 Phrap (/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu Huang ，) TIGR_Assember (/software/assembler/)利用cDNA克隆的信息和5,3端Reads的信息，不同的Cluster可以连接在一起。l直接利用基因序列电子定位基因直接利用基因序列电子定位基因l利用同源序列电子定位基因利用同源

48、序列电子定位基因AF111847AF111847 脑脓肿相关新基因脑脓肿相关新基因RBAG2-3 的电的电子克隆及其功能预测子克隆及其功能预测已知编码区序列（已知编码区序列（CDS）与与EST数据库比较数据库比较寻找感兴趣的寻找感兴趣的EST（可能同源但不是相同基因）（可能同源但不是相同基因）所选所选EST与与GenEmble等数等数据库比较据库比较基因定位、结构、功能检测基因定位、结构、功能检测分析分析找出未克隆的找出未克隆的EST再与再与dbEST、dbSTS、dbHGs和和Unigene等数据库比较搜索等数据库比较搜索重叠群、定位信息等重叠群、定位信息等设计引物进行设计引物进行PCR反应反应文库克隆基因文库克隆基因将抑癌基因将抑癌基因p33ING1p33ING1的的CDSCDS（885bp885bp）与）与dbESTdbEST数据库比较数据库比较将此将此ESTEST与与GenEmbleGenEmble数据数据库比较库比较与与dbSTSdbSTS、UniGeneUniGene比较比较根据根据AA204672AA204672序列序列设计探针进行设计探针进行cDNAcDNA文库筛选文库筛选发现此发现此EST代表未克隆基因代表未克隆基因获得一

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基因组分析及相关网络分析平台

文档简介

温馨提示

最新文档

评论

基因组分析及相关网络分析平台

文档简介

温馨提示

最新文档

评论

相关文档