表达序列标签EST概要_第1页
表达序列标签EST概要_第2页
表达序列标签EST概要_第3页
表达序列标签EST概要_第4页
表达序列标签EST概要_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、表达序列标签EST概要cDNA文库摘要:随着EST研究的开展、深入,以及相关研究技术和分析手段的不断改进并 走向成熟,EST数据资源不断丰富,而其本身又具备独特的优势和多方面的利用 价值。本文介绍了 EST序列的获取、加工、储存、分配、分析和释读的相关研究。 关键词:EST cDNA文库生物信息学从事对生物信息的获取、加工、储存、分配、分析和释读,并综 合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含义的目的。 随着人类基因组计划在世界范围内的开展,生物信息学作为一门热门交叉学科, 不断地完善和发展起来作为一种强有力的工具,它在帮助我们对巨量的生物信息 进行归纳和理解,从而揭示生

2、命的奥妙的过程中发挥了重要的作用。然而信息的 爆炸增长,面对复杂和庞大的数据库,如何有效地地获取我们所需要的信息,充 分利用这些已有的数据资源,加速基因克隆研究已成为一个富有挑战性的课题。 表达序列标签的广泛应用,为大规模进行基因克隆和表达分析提供了强大的动力, 也为生物信息学功能的充分发挥提供了广阔的空问表达序列标签(EST,Expressed Sequence Tag)是指从一个随机选择的cDNA 克隆进行5端和3端单一次测序获得的短的cDNA部分序列,代表了一个完整 基因的一小部分。Adams等人在1991年提出了 EST技术,宣布了 cDNA大规模 测序时代的开始。随着大规模的测序,E

3、ST数据呈指数级增长。到了 1995年中, GenBank里ESTs的数量已超过非ESTs的数量;2000年6月,将近460万的ESTs 已占了 GenBank里所有序列的62%。ESTs序列不止来源于人类,NCBI的dbEST (EST database)中已包含了超过250种生物来源的ESTs,包括小鼠、大鼠、秀丽 线虫和黄果蝇等。除此之外,也有许多商业性的机构保存了一些属于机构内部不 公开的ESTs序列。EST序列的制备EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此EST也 能说明该组织中各基因的表达水平。下面是制备EST序列的过程:(1)构建cDNA文库mRNA可以

4、反映细胞中基因的表达情况,但RNA不能直接被克隆。从感兴 趣的组织或细胞株分离、纯化mRNA,再将mRNA反转录成cDNA,并与合适的 载体连接,转化受体细胞后获得cDNA文库。随着技术的成熟和构建文库所需要 的试剂(盒)的商品化,构建cDNA已经不再是十分困难的工作,甚至还可以从公司直接订购特异组织的cDNA文库。对于EST研究来说,根据研究目的的不同, 可以将cDNA文库分为三种类型,即未处理文库、均一化文库(normalized)和扣 除文库(subtracted)。未处理文库是指在文库构建完成后未经任何处理直接用来 测序的cDNA文库,该种文库主要适应于获得全部信息的EST研究,即不但

5、获得 文库内所表达的基因类型,而且还需要研究表达基因的丰余度和特异组织基因表 Cell or tissuePick individual clonesSequence the 5 and 3 ends of cDNA insertDeposit theEST sequences Cell or tissuePick individual clonesSequence the 5 and 3 ends of cDNA insertDeposit theEST sequencesdbEST图1: ETS的制备Clone cDNA mio a vector to make a cDNA librar

6、y达的全部信息。扣除型文库是指在构建文库时经过一轮杂交去除重复拷贝和冗余 序列,所获得的cDNA为组织特异表达类型,扣除文库对于组织特异表达基因表达 谱的构建和新基因的发现是非常有帮助的。均一化文库是指在文库构建完成之后 发现有过多的污染序列或某一持家基因(house keeping gene)的比例比较高,在 大规模EST序列测定之前,可以用污染序列或特异持家基因(如核糖体蛋白基因) 的探针进行一轮或两轮的杂交筛选,以去除污染或冗余序列。选取cDNA克隆测序现在的大规模自动测序基本上都是基于Sanger的“DNA双脱氧链末端终止测 序法”进行的。具体过程是:先从文库中随机挑取大量克隆,在体外

7、变性为单 链后,利用多克隆位点接头两侧序列设计载体通用引物进行一次性自动化测序, 可以测出400-600bp的序列。由于是一次性测序,所以具有较高的错误率。测序技术推进科学研究的发展,高通量测序技术等的出现,为快速获得大量 的EST序列提供了可能,且降低了研究的成本。Simpson及其同事研发了一种新的 获得高通量 ESTs 的方法 ORESTES(open reading frame expressed sequenced tags), 这种方法主要是获得中心编码区的序列信息。EST制备中的错误一个典型的EST序列是短的mRNA的部分序列,一次性测序决定了 ESTs具有 较高的出错率,特别是

8、两段的序列出错的概率显著高于中间部分(图2)。在EST 的前或后20%或50-100bp的碱基读取质量较低。Phred分值可用于检测序列的质 量,Phred分值为20表示该碱基出现错读的概率为1/100,而Phred分值为30表59I1-Em=Enb paJLIA5059I1-Em=Enb paJLIA403020W0 Q W 203040506-708090100图2: EST片段质量分析示该碱基发生错读的概率为1/1000。因此可以根据后续研究的需要及Phred值对 序列进行筛选。在EST制备过程中还存在较严重的序列冗余、DNA污染等问题,如 基因组DNA的污染、载体序列的污染、接头序列、

9、嵌合克隆序列的污染等。优化 文库的构建及序列测定过程中的模板制备和测序条件以减少污染和序列错误率的 出现。ESTs数据库1993 年 NCBI(National Center of Biotechnology Information)建立了一个 专门的EST数据库dbEST来保存和收集所有的EST数据。由于计算机和网络的普 及,公开的EST数据库越来越多,内容也越来越全面,这就大大推进了基因组研 究的进程。目前向全世界生物科学工作者提供EST数据的网站有:NCBI,EBI,SIB, Infobiogen,SANBI,MIPS,TIGR,DDBJ 等。TIGRTIGR Gene Indices

10、( HYPERLINK /tgi/)%e6%98%af- /tgi/)是- -种种属 特异性的数据库集合,它采用了一种高度精确的“方法”分析ESTs数据,试图识 别这些大量ESTs数据所代表的基因,并提供与这些基因相关的信息。UniGeneUniGene( HYPERLINK http:/WWW.N/UniGene)%e6%98%af%e4%b8%80%e7%a7%8d%e8%83%bd%e5%b0%86 WWW.N/UniGene)是一种能将 GenBank 中的 ESTs 序 列自动地分成按基因归类的非冗余性数据的实验系统。每一个UniGene的cluster 代表了唯一的基因序列,同时包

11、含了如组织表达类型和图谱位置的相关信息。STACKStack( HYPERLINK http:/www.sanbi.ac.za/Dbases http:/www.sanbi.ac.za/Dbases. html)是一种识别发育以及病理状 态中表达的转录变异体并将其可视化的工具。来源于公共数据库中大量的不同表 达状态的人类转录本数据经过组织并且重构,形成了 STACK的数据统。因为转录 本表达状态的多样性,包括发育状态、病理相关状态、表达的组织特异性和表达 转录本的异构形式,要求聚类算法能够全面识别同一基因的各种表达形式。EST序列分析一个单独的EST序列所含有的生物信息非常有限,但借助计算机工

12、具对一系 列的ESTs进行分析可以有效地挖掘EST中的信息。EST作为主流的基因纽学研究 方法和技术的一种,其技术路线已经逐渐趋于成熟。经过研究机构和专家的多年 的摸索,EST序列已经形成了一定的研究路线,其流程图如图3所示:EST 序列的预处理(Pre-Processing)预处理可以降低EST数据的噪音污染,获得高质量的EST序列,有助于提高 后续分析的准确率和效率。在EST序列中普遍存在着载体污染,然后将ESTs和非 冗余载体数据库(如UniVec、EMVEC等)进行比对,确定并去除载体的污染。低 复杂性的片段如SSRs、LTRs、SINEs等会影响序列组装的准确性,应用NCBI的DUS

13、T图3: EST序列处理流程工具可检测EST数据中的复杂性低的区域。Poly(A)也会影响EST序列的质量,在 分析之前应将多聚A尾切除保留6-10nt的腺嘌吟。EST聚类与组装EST聚类是把属于同一基因的EST聚类成一簇,以减少数据冗余程度,提 高表达序列的数据质量。在对EST序列数据进行聚类分析时,聚类分为不严格的 聚类(loose clustering)和严格的聚类(stringent clustering)。严格的聚类方 法是分析高品质的EST序列,生成的序列较短,其精度较高,但是表达基因EST 数据的覆盖率低。不严格的聚类还分析较低品质的序列,对表达基因EST数据的 覆盖率高,生成的

14、序列长、精度低,含有同一基因不同的转录形式。其主要缺点 是可能包含旁系同源基因的转录本,信噪比低,序列可靠性低stackPACK采用的 是不严格的聚类方法,TIGR采用的是严格的聚类方法,而UniGene介于二者之间。 在聚类分析时是常犯两类错误,第一类错误是来自同一个基因转录本的EST序列 不能形成簇,第二类错误是源自不同基因的EST序列错误的拼成了一簇。数据库同源性搜索通过ESTs组装成共有序列(consensus sequence),使用数据库同源性搜索分 析其可能的功能,可以为下游的研究提供参考。NCBI可以提供多种序列相似性搜 索的程序,BLASTN是在核算数据库中比对待检EST序列

15、,BLASTX是在蛋白质数据 库中比对待检EST序列。BLASTX可以讲待检的EST序列按六种阅读框进行翻译, 并在蛋白数据库中进行比对。使用RPS-BLAST搜索CDD (Conserved Domain Database)数据库和 COG (Cluster of Orthologous Groups)数据库可以分析潜 在的蛋白结构域。MuSeqBox可以对ESTs序列进行高通量分析,可同时对上千条的 比对结果进行注释。ESTs还可与相同物种或临近物种的基因组序列进行比对,在 基因组作图及发现新基因的中发挥了重要作用,常用的程序有BLAT、GMAP、MGALIGN 等。基因分析的结果大致有三

16、种:第一是已知基因,是研究对象为人类已鉴定和 了解的基因;第二是以前未经鉴定的新基因;第三是未知基因,这部分基因之间 无同种或异种基因的匹配。新基因和未知基因将进一步用于生物学研究。ESTs序列的概念性翻译应用准确而强大的蛋白翻译工具,将EST数据和以蛋白质为中心的注释相联 系起来,有利于分析蛋白的结构域和模体,为进一步研究蛋白的互作、定位等提 供参考。首先查找EST中的蛋白编码区或开放阅读框,目前已经有了很多相关的 软件,如OrfPredictor等。ESTScan和DECODER不仅可以从低品质的EST序列中 检测并提取编码序列或部分cDNA序列,还可以提供感念翻译功能。预测的蛋白 序列可

17、以利用BLASTP工具在蛋白质数据库中进行比对。对EST序列进化ORF预测 和概念翻译常用工具参考表1。表1: EST常用ORF预测和概念翻译工具NameNameDECODER 13 DI DECODER 13 DI AN A-EST 65 Diogenes ESTScanZ 61 OrfPredictor 61 Tafetldwitjfiera r tetrihS pc bi.u penn.e du. (u pon rtquesT from the author)http: a nai/SF&.ccfb; u mn .e du & io,genes index, himihtip; w w

18、w.ch embneL.or.j. software. ESTScan2. him Ihttps: fungalgeronie.cancordiaa OrfPredicwr.liEmlhttps: fu nga igenome.-cancordia ,ca looIs. Ta rget Identifi enhiml功能注释获得预测的蛋白后,应用综合工具与非冗余的蛋白序列、模体、家族数据库 进行比对,分析、预测其行使的功能,如Interproscan就可以进行上述分析。蛋 白子序列在基因功能预测时具有更高的准确性,特别是在进行多序列比对、进化 树分析、蛋白质质量指纹图谱的绘制、结构域分析时具有

19、明显的优势。ESTs序列的应用发现新基因ESTs已经被广泛的运用在发现新基因上,GenBank中ESTs的数量已远远超过 其它核甘酸序列,且其不断的快速增长使其得到广大研究者的青睐。利用ESTs寻 找新基因的方法,包含了搜寻与ESTs同种系中基因家族里新的基因;寻找不同种 系但功能却相同的基因;搜寻不同剪接方式方式的基因。但要查找选择性剪接的 转录本,还有较大的问题需要克服。例如,如何去分辨一个因为选择性剪接发生 所生成的新序列。序列多态性分析EST聚类分析时也可检查和分析DNA序列的变异频率或转录序列的多样性等。 单核苷酸多态性(SNPs)是基因变异最丰富的形式,可以将序列的变异和遗传性表 型结合在一起,以促进对于基因的定位克隆和生物进化的研究。有研究就表明EST 的聚类分析可以促进SNP的发现,而这要归功于ESTs的校正、鉴别序列差异、或 是从错度碱基中证实多态性的技术的发展。绘制遗传图谱ESTs也常利用STSs (sequence-tagged sites)来绘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论