EST 表达序列标签_第1页
EST 表达序列标签_第2页
EST 表达序列标签_第3页
EST 表达序列标签_第4页
EST 表达序列标签_第5页
已阅读5页,还剩73页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但对此一直存在争论,有人认为这种方法能发现成千上万的新基因;而反对者则认为cDNA序列缺少重要的基因调控区域的信息。90年代初Graig Venter 提出了EST的概念,并测定了609条人脑组织的EST,宣布了cDNA大规模测序的时代的开始 (Adams et al., 1991)。ESTs的来源的来源ESTs与基因识别与基因识别ESTs应用应用1:ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguski et al., 1994). 在同一

2、物种中搜寻基因家族的新成员在同一物种中搜寻基因家族的新成员(paralogs)。 在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同的基因(orthologs)。 已知基因的不同剪切模式的搜寻。已知基因的不同剪切模式的搜寻。【注:不过很难确【注:不过很难确定一个新的序列是由于交替剪切产生的或是由于定一个新的序列是由于交替剪切产生的或是由于cDNA文文库中污染了基因组库中污染了基因组DNA序列序列(Wolfsberg et al., 1997)】ESTs应用应用2:ESTs与基因图谱的绘制与基因图谱的绘制 EST可以借助于序列标签位可以借助于序列标签位点点(sequence-tagged s

3、ites)用于基因图谱的构建用于基因图谱的构建. STS本本身是从人类基因组中随机选身是从人类基因组中随机选择出来的长度在择出来的长度在200-300bp左左右的经右的经PCR检测的基因组中检测的基因组中唯一的一段序列。来自唯一的一段序列。来自mRNA的的3非翻译区的非翻译区的ESTs更适合做为更适合做为STSs,用于基因,用于基因图谱的绘制。图谱的绘制。ESTs用于基因图谱绘制的优点:用于基因图谱绘制的优点:由于没有内含子的存在,因此在由于没有内含子的存在,因此在cDNA及基因组模板中其及基因组模板中其PCR产产物的大小相物的大小相 同;同;与编码区具有很强的保守性不同,与编码区具有很强的保

4、守性不同,3UTRs序列的保守性较差,序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。成员分开。 (James Sikela等,等,1991年)。年)。GeneMap 96 定位了定位了16,000个基于基因的个基于基因的STS(Schuler et al., 1996); GeneMap 98 定位了定位了30,000个基于基因的个基于基因的STS(Deloukas et al., 1998),而且基因图谱随着,而且基因图谱随着STS的定位正在不断的更新中。的定位正在不断的更新中。ESTs应用应用3:

5、ESTs与基因预测与基因预测由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数,大于90的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3 非翻译区很有效。ESTs应用应用4:ESTs与与SNPs来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999;

6、Marth et al., 1999; Picoult-Newberg et al., 1999) 。 应注意注意区别真正的SNPs和由于测序错误( ESTs为单向测序得来,错误率可达2)而引起的本身不存在的SNPs。解决这一问题可以通过: 提高ESTs分析的准确性。 对所发现的SNPs进行实验验证进行实验验证。ESTs应用应用5:ESTs与大规模分析基因表达水平与大规模分析基因表达水平因为因为EST序列是从某以特定的组织的序列是从某以特定的组织的cDNA文库中随机测序而得到,所以文库中随机测序而得到,所以可以利用未经标准化和差减杂交的可以利用未经标准化和差减杂交的cDNA文库文库EST分析特

7、定组织的基因表分析特定组织的基因表达谱。标准化的达谱。标准化的cDNA文库和经过差减杂交的文库和经过差减杂交的cDNA文库则不能反应基因文库则不能反应基因表达的水平。表达的水平。 CGAP 为研究癌症的分子机理,美国国家癌症研究所为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析的癌症基因组解析计划计划(Cancer Genome Anatomy Project , CGAP)构建了很多正常的或是构建了很多正常的或是癌症前期的和癌症后期的组织的癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的文库,并进行了大规模的EST测序,测序,其中大部分的文库未经标准化或差减杂交处理。

8、其中大部分的文库未经标准化或差减杂交处理。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异网站提供了多种工具用以分析不同文库间基因表达的差异, 如:如: Digital Gene Expression Displayer (DGED) cDNA xProfiler 基因表达系列分析基因表达系列分析(SAGE) 基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescu et al., 1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-14个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表

9、达丰度。 DNA微阵列或基因芯片的研究微阵列或基因芯片的研究 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3EST (Duggan et al., 1999),所以EST序列的分析有助于芯片探针的设计。ESTs数据的不足数据的不足 ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得。 由于只是一轮测序结果,出错率达2%-5%; 有时有载体序列和核外mRNA来源的cDNA污染或是基因组 DNA的污染; 有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。一、cDNA文库构建 非标准

10、化的非标准化的cDNA文库的构建。文库的构建。 经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNA文库。文库。 OligoT cDNA文库。文库。 随机引物随机引物cDNA文库文库。cDNA第一链合成详见详见分子克隆分子克隆p. 873详见详见分子克隆分子克隆p. 872cDNA扣除杂交 扣除杂交技术最早应用是在扣除杂交技术最早应用是在20世纪世纪80年代初,当时的目的是为了构建年代初,当时的目的是为了构建 非洲爪蟾非洲爪蟾的胚囊的胚囊 cDNA文库文库和制备差异表达基因的特和制备差异表达基因的特异探针异探针。差异表达的基因通过检测样本。差异表达的基因通过检测样本cDNA(tester)

11、和和过量的对照样本过量的对照样本mRNA (driver)的相互杂交而得到。在检测样本的相互杂交而得到。在检测样本cDNA (tester)和对和对照样本照样本mRNA (driver)同时表达的基因会形成同时表达的基因会形成mRNA/cDNA 杂交分子,而检测样本杂交分子,而检测样本特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离,特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离,分离得到的单链分子是检测样本特异表达的基因。差异表达的分离得到的单链分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克可以直接被克隆或通过隆或通过cDNA文库筛

12、选而得到。文库筛选而得到。 这个方法后来又得到改进,包括用生物素标记这个方法后来又得到改进,包括用生物素标记和和oligo(dT)30-latex标记标记cDNA,以增加单双链分子的分离效率。后来,通过,以增加单双链分子的分离效率。后来,通过PCR选择性选择性cDNA扩增技术被应用到扣除杂交中,以克服以往扣除杂交中需要大量起始扩增技术被应用到扣除杂交中,以克服以往扣除杂交中需要大量起始mRNA的缺点,并可以同时提高基因克隆地效率的缺点,并可以同时提高基因克隆地效率 。 扣除技术的进一步成熟是在扣除技术的进一步成熟是在1996年,年,Gurskaya 等等(1996) 和和Diatchenko

13、等等(1996) 同时发表了关于扣除杂交的改进方法,其主要的技术方法类似,这个技术叫同时发表了关于扣除杂交的改进方法,其主要的技术方法类似,这个技术叫抑制性扣除杂交技术(抑制性扣除杂交技术(Suppression Subtractive Hybridization,SSH) 。SSH的原理与基本过程原理:原理:SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR,是利用链内退火优于链间退火,比链间退火更稳定,从而使非目的系列片段两端反向重复系列在退火时产生类似于“锅柄”的结构,无法与引物配对,选择性地抑制了非目的基因片段的扩增。同时,该方法运用了杂交二级动力学原理,即丰度高

14、的单链cDNA在退火时产生同源杂交的速度要快于丰度低的单链cDNA,从而使原来在丰度上有差别的单链cDNA相对含量达到基本一致。基本过程:基本过程:分别抽提待测样本(tester)和 对照样本(driver)的mRNA,反转录成cDNA,用RsaI或HaeIII酶切,以产生大小适当的平头末端cDNA片段,将tester cDNA分成均等的两份,各自接上两种接头,与过量的driver cDNA变性后退火杂交,第一次杂交后有4种产物:a是单链tester cDNA,b是自身退火的tester cDNA双链,c是tester 和diver的异源双链,d是driver cDNA。第一次杂交的目的是实现

15、tester单链 cDNA均一化(normalization),即使原来有丰度差别的单链cDNA的相对含量达到基本一致,由于tester cDNA中与driver cDNA序列相似的片段大都 和driver形成异源双链分子c,使tester cDNA中的差异表达基因的目标cDNA得到大量富集,第一次杂交后,合并两份杂交产物,再加上新的变性driver单链,再次退火杂交,此时,只有第一次杂交后经均等化和扣除的单链tester cDNA和driver cDNA一起形成各种双链分子,这次杂交进一步富集了差异表达基因的cDNA,产生了一种新的双链分子e,它的两个5端有两个不同的接头,正由于这两上不同的

16、接头,使其在以后的PCR中被有效地扩增。SSH技术流程技术流程二、序列测定及数据分析二、序列测定及数据分析测序方向的选择测序方向的选择根据不同的实验目的选择不同的测序方向: 55端端 5上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好,大部分EST计划都是选用5端进行测序的,而且从5端测序有利于将EST拼接成较长的基因序列。 33端端 3端mRNA有一20200bp的plyA结构,同时靠近plyA又有特异性的非编码区,所以从3端测得EST含有编码的信息较少但研究也表明,10的mRNA3端有重复序列,这可以作为SSR标记;非编码区有品种的特异性,可以作为

17、STS标记 两端测序两端测序 获得更全面的信息。序列前处理序列前处理 (pre-processing)1. 去除低质量的序列(Phred)2. 应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列载体序列 重复序列重复序列 污染序列污染序列 (如核糖体如核糖体RNA、细菌或其它物种的基因、细菌或其它物种的基因组组DNA等等)3. 去除其中的镶嵌克隆。4. 最后去除长度小于100bp的序列。镶嵌克隆的识别镶嵌克隆的识别 Back-to-back poly(A)+ tails. Linker-t

18、o-linker in middle of the sequence. Blastn/Blastx search.ESTs的聚类和拼接的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:聚类作用: 产生较长的一致性序列(consensus sequence) ,用于注释。 降低数据的冗余,纠正错误数据。 可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:聚类的数据库主要有三个: UniGene () TIGR Gene Indices () STACK 不严格不严格的和严格的聚类的和严格的

19、聚类 (loose and stringent clustering) loose clustering 产生的一致性序列比较长产生的一致性序列比较长 表达基因表达基因ESTs数据的覆盖率高数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪接体含有同一基因不同的转录形式,如各种选择性剪接体 每一类中可能包含旁系同源基因每一类中可能包含旁系同源基因(paralogous expressed gene)的转的转录本录本 序列的保真度低序列的保真度低 stringent clustering 产生的一致性序列比较短产生的一致性序列比较短 表达基因表达基因ESTs数据的覆盖率低数据的覆盖率低

20、因此所含有的同一基因的不同转录形式少因此所含有的同一基因的不同转录形式少 序列保真度高序列保真度高有参照的和无参照的聚类有参照的和无参照的聚类 (Supervised and unsupervised clustering) Supervised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 Unsupervised clustering 没有根据参考序列进行分类。聚类的算法聚类的算法 基于基于BLAST和和FASTA的脚本的脚本(BLASTN and FASTAbased scripts) BLASTN和FASTA算法的本身目的在于寻找序列间的局部

21、相似性或同源性,这与聚类的目的不同,即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合BLAST和FASTA查找的结果,采用解释性语言(如Perl)编写的脚本,具备了3方面的功能,即运行查找过程、解析(Parsing)查找的结果和按照用户定义的标准判断两个序列是否为一类。 基于字的聚类基于字的聚类(Wordbased clustering) 基于字的聚类省略了所有的比对过程,其核心在于识别并计算序列间有多少长度为n的字(word)能够匹配,而且并未采用有关克隆的来源及注释信息,代表性的算法是d2_cluster。该算法为一种凝聚性(agglomerative)的聚类算法(即每一类从单一的序列开始,通过一系列的合并形成最后的类),它可以被描述为最小联接聚类(minimal linkage clustering)。即,假设两条序列A和B,如果二者存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论