版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章第三章 DNADNA序列分析序列分析可读框预测和可读框预测和基因标注基因标注序列拼接序列拼接与组装与组装结果上传到数结果上传到数据库据库碱基读取载体标识与去除载体标识与去除测序仪中原始数测序仪中原始数据的采样与分析据的采样与分析大规模基因序列测定大规模基因序列测定生物信息学的内容生物信息学的内容基因预测基因预测DNADNA序列中编码区的鉴定序列中编码区的鉴定 预测方法的依据预测方法的依据: : 编码统计学:编码区序列同非编码区序列相比,有编码统计学:编码区序列同非编码区序列相比,有不同的特点,存在一些非随机的特点不同的特点,存在一些非随机的特点 GC GC 含量含量 密码子偏倚性密码子偏
2、倚性 (CODON FREQUENCY)(CODON FREQUENCY) 第三个碱基组成第三个碱基组成 基因结构基因结构/ /统计学方法统计学方法 比较比较/ /同源性同源性生物信息学的内容生物信息学的内容生物信息学的内容生物信息学的内容DNA RNARNA 蛋白质蛋白质基因的表达基因的表达 RNARNA聚合酶是由多个肽链聚合酶是由多个肽链构成的蛋白质,能识别并与构成的蛋白质,能识别并与调控序列中的结合位点结合调控序列中的结合位点结合, ,催化转录形成催化转录形成RNARNA。mRNA科学工作者分离得到了某科学工作者分离得到了某原核生物原核生物基因,基因,并将其解离成两条单链。现让其中一条链
3、并将其解离成两条单链。现让其中一条链与由该基因转录而来的信使与由该基因转录而来的信使RNARNA杂交配对,杂交配对,结果如图所示。结果如图所示。信使信使RNA基因的一条链基因的一条链将一个随机均匀分布的将一个随机均匀分布的DNA序列翻译成氨基酸序列翻译成氨基酸序列,则在氨基酸序列中上述序列,则在氨基酸序列中上述3种氨基酸出现的种氨基酸出现的比例应该为比例应该为6:4:1例如,亮氨酸、丙氨酸、色氨酸分别有例如,亮氨酸、丙氨酸、色氨酸分别有6个、个、4个和个和1个密码子个密码子但是在真实的氨基酸序列中,上述比例并不但是在真实的氨基酸序列中,上述比例并不正确正确这说明这说明DNA的编码区域并非随机的
4、编码区域并非随机一个典型的真核细胞基因结构示意图一个典型的真核细胞基因结构示意图非编码区非编码区非编码区非编码区编码区编码区与与RNARNA聚合酶聚合酶结合位点结合位点外显子外显子内含子内含子1 12 23 34 45 5非编码区非编码区非编码区非编码区编码区编码区与与RNARNA聚合酶聚合酶结合位点结合位点外显子外显子内含子内含子1 12 23 34 45 5加加 工工转转 录录mRNAmRNA前体前体成熟成熟mRNAmRNA加加 工工一个典型的真核细胞基因结构示意图一个典型的真核细胞基因结构示意图非编码区非编码区非编码区非编码区编码区编码区与与RNARNA聚合酶聚合酶结合位点结合位点外显子
5、外显子内含子内含子1 12 23 34 45 5猜想猜想: :为什么成熟信使为什么成熟信使RNARNA比编码区比编码区( (单链单链) )碱基数量要少碱基数量要少? ? 成熟信使成熟信使RNA对应基因的一条链对应基因的一条链真核生物基因的有关实验真核生物基因的有关实验(1)(1)内含子改变内含子改变(2)(2)非编码区改变,非编码区改变,mRNAmRNA遗传密码不变遗传密码不变(3)(3)外显子改变,转录成不同密码子决定同一种外显子改变,转录成不同密码子决定同一种 氨基酸氨基酸(4)(4)蛋白质氨基酸序列不同,也可能完成相同功能蛋白质氨基酸序列不同,也可能完成相同功能(5)(5)突变后突变后,
6、 ,基因变为隐性基因变为隐性12345非编码区非编码区非编码区非编码区编码区编码区3.4.1 基因识别基本思路基因识别基本思路 找出基因两端的功能区域找出基因两端的功能区域:转录启动区转录启动区 终止区终止区 在启动区下游位置寻找翻译起始密码子在启动区下游位置寻找翻译起始密码子 识别转录剪切位点识别转录剪切位点剪切给体位点剪切给体位点剪切接受体位点剪切接受体位点iiiExpObsRSCU iiisynaaExp(5-66) (5-65) 密码子使用倾向密码子使用倾向4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikij
7、kkikijkkikiFfFfFfjiIF(5-67)双联密码统计度量双联密码统计度量输入是一系列反映功能位点信号特征和序列编码统计特征的参数输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段输出就是对一段DNA序列是否是编码区域的判别结果序列是否是编码区域的判别结果神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性性/gorf/gorf.html碱基组成碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建
8、立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。 表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。 表1 九种完整DNA序列的碱基组成 表2 人类胎儿球蛋白基因不同区段的碱基组成 碱基相邻频率碱基相邻频率 分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积例:例:鸡血红蛋白鸡血红蛋白链的链的mRNA编码
9、区的编码区的438个碱基个碱基图1 鸡球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860) 表3 图1鸡球蛋白基因序列的相邻碱基分布 在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。 表4 64种可能的碱基
10、三联体密码子及相应的氨基酸数(据图1序列) 相邻碱基之间的关联将导致更远碱基相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计之间的关联,这些关联延伸距离的估计可以从马尔科夫链可以从马尔科夫链(Markov chain)理论理论得到得到(Javare和和Giddings,1989)三同向重复序列分析三同向重复序列分析 除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给
11、一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种不同的字码按:计算字码值。这些值的取值范围为1到4k例如:5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。 序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和1
12、5均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。 表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983) 四、四、RNARNA二级结构预测二级结构预测 尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说,这一结果的生物学意义生物学意义究竟有多大,还是一个未知数。即使有此局限性,二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能
13、形成稳定折叠结构的区段。 3.4.5 从序列中寻找基因从序列中寻找基因 1.1.基因及基因区域预测基因及基因区域预测 基因按其功能可分为结构基因结构基因和调控基因调控基因:结构基因可被转录形成mRNA,并进而转译成多肽链;调控基因是指某些可调节控制结构基因表达的基因。在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开。断裂基因被转录成前
14、体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列,但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。 一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是不连续的,被非编码区(内含子)隔断。 所谓基因区域预测基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,即外显子部分。 不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识,预测出可能的完整基因。 基因区域的预测是一个
15、活跃的研究领域,先后有一大批预测算法和相应程序被提出和应用,其中有的方法对编码序列的预测准确率高达90%以上,而且在敏感性和特异性之间取得了很好的平衡。预测方法中,最早是通过序列核苷酸频率、密码子等特性进预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预测行预测(如最长如最长ORF法等法等),随着各类数据库的建立和完善,随着各类数据库的建立和完善,通过相似性列线比对也可以预测可能的基因。同时,一批新通过相似性列线比对也可以预测可能的基因。同时,一批新方法也被提了出来,如隐马尔可夫模型方法也被提了出来,如隐马尔可夫模型(Hidden Markov Model,HMM)、动态规划法、动态规划
16、法(dynamic programming)、法则、法则系统系统(ruled-based system)、语言学、语言学(linguistic)方法、线性判方法、线性判别分析别分析(Linear Discriminant Analysis,LDA)、决策树、决策树(decision tree)、拼接列线、拼接列线(spliced alingment)、博利叶分析、博利叶分析(Fourier analysis)等。等。 下表列出了下表列出了claverie(1997)对部分程序预测基因区域能力的比对部分程序预测基因区域能力的比较结果,表中同时列出了相应算法和程序的网址。较结果,表中同时列出了相应
17、算法和程序的网址。目前基因区域预测的各种算法均存在以下2个问题(1)目前算法对基因中的非编码区和基因间序列非编码区和基因间序列不加任何区别,所以预测出的基因仍然是不完全的,对5和3非编译区(UTR,untranslated region)的预测基本上还是空白;(2)目前大多数算法都是基于已知基因序列基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列,而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练,由于训练所用的序列毕竟是有限的,所以对那些与学习过的基因结构不太相似的基因,这些算法的预测效果就要大打折扣了要解决以上两个问题,需要对基因结构进行更深入的研究,寻找隐藏在基因不
18、同结构中的内在统计规律。 2发现基因的一般过程发现基因的一般过程 从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次第一步:获取第一步:获取DNA目标序列目标序列 如果你已有目标序列,可直接进入第2步; 可通过PubMed查找你感兴趣的资料;通过GenBank或EMBL等数据库查找目标序列第二步:查找ORF并将目标序列翻译成蛋白质序列 利用相应工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并将DNA序列翻译成蛋白质序列 第三步:在数据库
19、中进行序列搜索第三步:在数据库中进行序列搜索 可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。第四步:进行目标序列与搜索得到的相似序第四步:进行目标序列与搜索得到的相似序列的整体序列比对列的整体序列比对(global alignment) 虽然第三步已进行局部比对比对(local alignment)分析,但整体列线有助于进一步加深目标序列的认识。第五步:查找基因家族第五步:查找基因家族 进行多序列比对(multiple sequence alignment)和获得比对区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Sw
20、itzerland)等服务器上进行。第六步:查找目标序列中的特定模序第六步:查找目标序列中的特定模序 分别在Procite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索; 对蛋白质序列进行统计分析和有关预测第七步:预测目标序列结构第七步:预测目标序列结构 可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。第八步:获取相关蛋白质的功能信息第八步:获取相关蛋白质的功能信息 为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用
21、PubMed进行搜索。第九步:把目标序列输入第九步:把目标序列输入“提醒提醒”服务器服务器 如果有与目标序列相似的新序列数据输入数据库,提醒(alert)服务会向你发出通知。可选用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服务器。3解读序列解读序列(making sense of the sequence)大致有2条途径可以发现基因:(1)基于同源性的方法,包括已知mRNA序列的应用;(2)基因家族和特殊序列间的比较。 最初的方法包括利用各种计算机手段分析外显子和其它序列信号,如酶切位点。六、基于编码区特性:最长六、基于编码区特性:最长OR
22、F法法 基因区域或蛋白质编码区的识别,特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。将每条链按6个读框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现。预测基因组的全部编码区或称为开放阅读框的预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类方法概括来说也可以分为三类: :一类是基于编码区所具有的独特信号一类是基于编码区所具有的独特信号,如始起密码子、终止密码子等;二是基于编码区的碱基组成不同于非编码区二是基于编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼
23、并密码子使用频率不同等原因造成的;三是通过同源性比较搜寻蛋白质库或三是通过同源性比较搜寻蛋白质库或dbEST库寻找库寻找编码区编码区。前二类方法主要是利用编码区的特性来寻找,下面对这二类方法做简单描述。最长最长ORFORF法:法:在细菌基因组中,蛋白质编码基因从起始密码ATG到终止密码平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因。 利用编码区与非编码区密码子选用频率的差利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子
24、则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group 研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。哺乳动物基因组DNA中CpGCpG岛岛的特点是特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现,几乎所有的管家基因(House-
25、Keeping gene)及约占40%的组织特异性基因的5末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。另外,AT含量也可以作为编码区的批示指标之一。http:/www.bio- DNA序列CpG岛判别3.5.2表达序列标签(表达序列标签(的概念及功能的概念及功能 1.ESTs的来源的来源 上世纪80年代,对cDNA序列进行大规模测序的想法就曾提出,但对此一直存在争论,有人认为这种方法能发现成千上万的新基因;而反对者则认为cDNA序列缺少重要的基因调控区域的信息。90年代初Graig Venter 提
26、出了EST的概念,并测定了609条人脑组织的EST,宣布了cDNA大规模测序的时代的开始 (Adams et al., 1991)。 93年前年前ESTs数据收录于数据收录于GenBank, EBI和和DDBJ。 1993年年NCBI(National Center of Biotechnology Information)建立了一个专门的建立了一个专门的EST数据库数据库dbEST来保存和来保存和收集所有的收集所有的EST数据。数据。02468101214161820总EST条目(million)19931995199719992001时间(年)dbEST中数据量的增长中数据量的增长表达序列
27、标签(表达序列标签(expressed sequence tags,ESTs)是从cDNA文库中生成的一些很短的序列(60-500bp),它们代表在特定组织或发育阶段表达的基因,有时可代表特定的cDNA。EST可能是编码的,也可能不是。5 3ESTCDSUTR EST与与cDNA的关系图的关系图 从已建好的cDNA库中随机取出一个克隆,从5末端或3末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。构建cDNA文库DNA测序信息处理和管理去除载体序列、宿主序列和 聚类分析、拼接 数据库查询重复序列生物信息学分析3.EST分析的实验流程分析的实验流程 4.
28、ESTs4.ESTs与基因识别与基因识别 ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因新的基因(Boguski et al., 1994). 在同一物种中搜寻基因家族的新成员在同一物种中搜寻基因家族的新成员(paralogs)(paralogs)。 在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同的基因(orthologs)(orthologs)。 已知基因的不同剪切模式的搜寻。已知基因的不同剪切模式的搜寻。【注:不过很难确定一个新的序列是由于交替剪切产生的或是【注:不过很难确定一个新的序列是由于交替
29、剪切产生的或是由于由于cDNAcDNA文库中污染了基因组文库中污染了基因组DNADNA序列序列(Wolfsberg et al., (Wolfsberg et al., 1997)1997)】5. ESTs与基因图谱的绘制与基因图谱的绘制 EST可以借助于序列标签位点序列标签位点(sequence-tagged sites)用于基因图谱的构建。 STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。6.ESTs6.ESTs与基因预测与基因预测 由于EST来源于cDNA
30、,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数,大于90的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3 非翻译区很有效。7.ESTs7.ESTs与与SNPs(SNPs(单核苷酸多态性单核苷酸多态性 ) 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth
31、 et al., 1999; Picoult-Newberg et al., 1999) 。 应注意注意区别真正的SNPs和由于测序错误( ESTs为单向测序得来,错误率可达2)而引起的本身不存在的SNPs。解决这一问题可以通过: 提高ESTs分析的准确性。 对所发现的SNPs进行实验验证进行实验验证。8.8.利用利用ESTsESTs大规模分析基因表达水平大规模分析基因表达水平 因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。
32、反转录反转录酶切酶切连接连接测序测序单条测序对单条测序对3040条条EST测序测序分析分析由于采样量大大提高,可对低表达基因进行分析:由于采样量大大提高,可对低表达基因进行分析:基因表达量分析、寻找新基因等等基因表达量分析、寻找新基因等等.Clone反转录(可选)反转录(可选)读取光密度读取光密度聚类分析(非同源功能注释)聚类分析(非同源功能注释)标记标记杂交杂交反转录反转录EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01 表达量矩阵G1,G3,G5G2,G4G6,G9利用EST,SAGE分析结果制作芯片(研究已发现的(研究已发现的基因)基因)
33、连接,连接,转化转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片原位合成 ESTSAGEMicroarrayGeneChip发现新基因发现新基因是是否否有序列有序列是(可直接进行可变剪切的分析)否否否主要问题主要问题采样量实验过程重复性成本高 ESTs很短,没有给出完整的表达序列; 低丰度表达基因不易获得。 由于只是一轮测序结果,出错率达2%-5%; 有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染; 有时出现镶嵌克隆; 序列的冗余,导致所需要处理的数据量很大。体内:翻译体外研究:反转录连接,转化 非标准化的非标准化的cDN
34、A文库的构建。文库的构建。 经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNA文库。文库。 OligoT cDNA文库。文库。 随机引物随机引物cDNA文库。文库。For subtraction of cDNA libraries the procedure is similar to normalization, except that the PCR products arise from a different library (whose genes are to be subtracted from the original library)Reference: Bonaldo
35、, M.F., et.al, 1996. Normalization and subtraction: Two approaches to facilitate gene discovery. Genome Res. 6: 791-806. 扣除杂交技术扣除杂交技术最早应用是在20世纪80年代初,当时的目的是为了构建 非洲爪蟾的胚囊 cDNA文库和制备差异表达基因的特异探针。差异表达的基因通过检测样本cDNA(tester)和过量的对照样本mRNA (driver)的相互杂交而得到。在检测样本cDNA (tester)和对照样本mRNA (driver)同时表达的基因会形成mRNA/cDNA
36、杂交分子,而检测样本特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离,分离得到的单链分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克隆或通过cDNA文库筛选而得到。原理:原理:SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR,是利用链内退火优于链间退火,比链间退火更稳定,从而使非目的系列片段两端反向重复系列在退火时产生类似于“锅柄”的结构,无法与引物配对,选择性地抑制了非目的基因片段的扩增。同时,该方法运用了杂交二级动力学原理,即丰度高的单链cDNA在退火时产生同源杂交的速度要快于丰度低的单链cDNA,从而使原来在丰度上有差别的单链cD
37、NA相对含量达到基本一致。 根据不同的实验目的选择不同的测序方向:55端端 5上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好,大部分EST计划都是选用5端进行测序的,而且从5端测序有利于将EST拼接成较长的基因序列。1. 去除低质量的序列(Phred)2. 应用BLAST、RepeatMasker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列载体序列 重复序列重复序列 污染序列污染序列 (如核糖体如核糖体RNA、细菌或其它物种的、细菌或其它物种的基因组基因组DNA等等)3. 去除其
38、中的镶嵌克隆。4. 最后去除长度小于100bp的序列。 Back-to-back poly(A)+ tails. Linker-to-linker in middle of the sequence. Blastn/Blastx search.ESTs的聚类和拼接的聚类和拼接 聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用:聚类作用:v 产生较长的一致性序列(consensus sequence) ,用于注释。v 降低数据的冗余,纠正错误数据。v 可以用于检测选择性剪切。不严格不严格的和严格的聚类的和严
39、格的聚类 (loose and stringent clustering) loose clustering 产生的一致性序列比较长产生的一致性序列比较长 表达基因表达基因ESTs数据的覆盖率高数据的覆盖率高 含有同一基因不同的转录形式,如各种选择性剪含有同一基因不同的转录形式,如各种选择性剪接体接体 每一类中可能包含旁系同源基因每一类中可能包含旁系同源基因(paralogous expressed gene)的转录本的转录本 序列的保真度低序列的保真度低有参照的和无参照的聚类有参照的和无参照的聚类 (Supervised and unsupervised clustering) Superv
40、ised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 Unsupervised clustering 没有根据参考序列进行分类。聚类的算法聚类的算法 基于基于BLAST和和FASTA的脚本的脚本(BLASTN and FASTAbased scripts) BLASTN和FASTA算法的本身目的在于寻找序列间的局部相似性或同源性,这与聚类的目的不同,即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合BLAST和FASTA查找的结果,采用解释性语言(如Perl)编写的脚本,具备了3方面的功能,即运行查找过程、解析(Parsi
41、ng)查找的结果和按照用户定义的标准判断两个序列是否为一类。 Phrap (/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu Huang ,) TIGR assembler(http:/nbc11.biologie.uni-kl.de/framed/left/menu/auto/right/tigr_assembler/) d2_cluster (http:/www.sanbi.ac.za/)利用cDNA克隆的信息和5,3端Reads的信息,不同的Cluster可以连接在一起。 Unigene
42、结合有指导的和无指导的方法,而且在聚类过程中使用了不同水平的严格度,聚类的算法为megablast,数据库不产生一致性序列。 TIGR Gene Index用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FASTA的FLAST, 该法得到的一致性序列较短,交替剪切得到的不同的基因属于不同的索引。 STACK 用不严格的和无指导的聚类方法,聚类的算法为d2_cluster,产生较长的一致性序列,同一索引中含有不同的剪切方法得到的基因。TIGR-THCUniGeneSTACK注释:注释: 序列联配 Blastn, Blastx 蛋白质功能域搜索(二结构比对) Pfam Interp
43、ro基因功能分类基因功能分类 手工分类手工分类 大部分以大部分以Adams 95Adams 95年的文章中的采用分类体系为标准。年的文章中的采用分类体系为标准。【Adams. MD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】 计算机批量处理计算机批量处理 利用标准基因词汇体系Gene Ontology,进行近似的分
44、类。 (GO的组织结构:定向无环图的组织结构:定向无环图( directed acyclic graphs DAGs)各大数据库中基因或基因产物与各大数据库中基因或基因产物与GO术语的对照术语的对照 比较基因组学分析 基因表达谱分析 新基因研究 基因可变剪切分析 实验验证 MicroArray GeneChip RTPCR Northen bloting家猪脑组织家猪脑组织EST分析分析文库与序列质量检验聚类和重叠群分析ORF的寻找功能分类和注释表达谱分析交替剪接分析分析过程分析过程序列长度和质量处理序列长度和质量处理v序列长度:无统一标准,一般认为100bp以上的 EST即可代表足够表达基因信息污染序列去除,包括载体序列、细菌基因组序列(Crossmatch)重复序列的屏蔽(RepeatMasker)低质量区去除(Q20)扔掉100bp以下的序列0100200300400500600700800900050100150200250300350400450Sequence Length DistributionSequence Length(step=4)Sequence Number15202530354045
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年南充科技职业学院单招职业适应性测试题库含答案详解(精练)
- 2026年南京科技职业学院单招综合素质考试题库含答案详解(研优卷)
- 2026年共青科技职业学院单招职业适应性考试题库附参考答案详解(夺分金卷)
- 2026年内蒙古商贸职业学院单招职业倾向性考试题库带答案详解(培优)
- 2026年南昌应用技术师范学院单招职业技能测试题库带答案详解(能力提升)
- 2026年北京戏曲艺术职业学院单招职业倾向性考试题库附答案详解(b卷)
- 2026年心理学高级研究与实践应用能力测试题目
- 2026年英语四级考试词汇及语法考点模拟试题
- 2026年医学高级职称考试题库临床诊断与治疗方案
- 2026年运动训练与康复师资格认证考试题库
- 《人工智能语言与伦理》章节测试题及答案
- 2025年中国20%噻唑锌悬浮剂数据监测研究报告
- 传播与策划课件
- 猪肉儿童营养食品创新创业项目商业计划书
- 项目整体实施方案(3篇)
- 工程部门员工职责培训
- 2025至2030年中国干葡萄酒行业发展研究报告
- 重症的生理病理
- 北京市建设工程施工现场安全生产标准化管理图集(2019版)
- ICP-MS在水质监测中的应用
- DZ/T 0462.8-2023 矿产资源“三率”指标要求 第8部分:硫铁矿、磷、硼、天然碱、钠硝石(正式版)
评论
0/150
提交评论