第三章DNA序列分析-2008-10-9

上传人：1*** IP属地：湖北上传时间：2021-12-13 格式：PPT 页数：192 大小：6.46MB 积分：30 举报 版权申诉

已阅读5页，还剩187页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第三章第三章 DNADNA序列分析序列分析n3.1.1 序列分析的意义序列分析的意义3.1.2 3.1.2 序列分析的内容序列分析的内容3.1.3 DNA3.1.3 DNA序列分析的目标任务序列分析的目标任务基因与基因组分析技术路线基因与基因组分析技术路线可读框预测和可读框预测和基因标注基因标注序列拼接序列拼接与组装与组装结果上传到数结果上传到数据库据库碱基读取载体标识与去除载体标识与去除测序仪中原始数测序仪中原始数据的采样与分析据的采样与分析大规模基因序列测定大规模基因序列测定生物信息学的内容生物信息学的内容基因预测基因预测DNADNA序列中编码区的鉴定序列中编码区的鉴定预测方法的依据预测

2、方法的依据: : 编码统计学：编码区序列同非编码区序列相比，有编码统计学：编码区序列同非编码区序列相比，有不同的特点，存在一些非随机的特点不同的特点，存在一些非随机的特点 GC GC 含量含量密码子偏倚性密码子偏倚性 (CODON FREQUENCY)(CODON FREQUENCY) 第三个碱基组成第三个碱基组成基因结构基因结构/ /统计学方法统计学方法比较比较/ /同源性同源性生物信息学的内容生物信息学的内容生物信息学的内容生物信息学的内容n什么是基因什么是基因? ?n基因是基因是有遗传效应的有遗传效应的DNADNA片断片断，是决定生是决定生物性状的基本单位。物性状的基本单位。n每个

3、每个DNADNA分子上有很多个基因，每个基因分子上有很多个基因，每个基因可以含有可以含有成百上千个脱氧核苷酸成百上千个脱氧核苷酸。n不同基因中脱氧核苷酸的不同基因中脱氧核苷酸的排列顺序不同排列顺序不同，因此不同的基因含有不同的遗传信息。因此不同的基因含有不同的遗传信息。n基因的功能：基因的功能：n基因能够基因能够储存、传递和表达储存、传递和表达遗传信息，也都遗传信息，也都可能发生可能发生突变突变，从而决定生物体的性状。，从而决定生物体的性状。n基因如何决定生物性状基因如何决定生物性状? ? n通过通过转录、翻译转录、翻译，控制合成具有一定氨基酸，控制合成具有一定氨基酸顺序的蛋白质，从而控制生物

4、的性状。顺序的蛋白质，从而控制生物的性状。DNA RNARNA 蛋白质蛋白质基因的表达基因的表达 RNARNA聚合酶是由多个肽链聚合酶是由多个肽链构成的蛋白质，能识别并与构成的蛋白质，能识别并与调控序列中的结合位点结合调控序列中的结合位点结合, ,催化转录形成催化转录形成RNARNA。mRNA科学工作者分离得到了某科学工作者分离得到了某原核生物原核生物基因，基因，并将其解离成两条单链。现让其中一条链并将其解离成两条单链。现让其中一条链与由该基因转录而来的信使与由该基因转录而来的信使RNARNA杂交配对，杂交配对，结果如图所示。结果如图所示。信使信使RNA基因的一条链基因的一条链将一个随机均匀分

5、布的将一个随机均匀分布的DNA序列翻译成氨基酸序列翻译成氨基酸序列，则在氨基酸序列中上述序列，则在氨基酸序列中上述3种氨基酸出现的种氨基酸出现的比例应该为比例应该为6:4:1例如，亮氨酸、丙氨酸、色氨酸分别有例如，亮氨酸、丙氨酸、色氨酸分别有6个、个、4个和个和1个密码子个密码子但是在真实的氨基酸序列中，上述比例并不但是在真实的氨基酸序列中，上述比例并不正确正确这说明这说明DNA的编码区域并非随机的编码区域并非随机一个典型的真核细胞基因结构示意图一个典型的真核细胞基因结构示意图非编码区非编码区非编码区非编码区编码区编码区与与RNARNA聚合酶聚合酶结合位点结合位点外显子外显子内含子内含子1 1

6、2 23 34 45 5非编码区非编码区非编码区非编码区编码区编码区与与RNARNA聚合酶聚合酶结合位点结合位点外显子外显子内含子内含子1 12 23 34 45 5加加工工转转录录mRNAmRNA前体前体成熟成熟mRNAmRNA加加工工一个典型的真核细胞基因结构示意图一个典型的真核细胞基因结构示意图非编码区非编码区非编码区非编码区编码区编码区与与RNARNA聚合酶聚合酶结合位点结合位点外显子外显子内含子内含子1 12 23 34 45 5猜想猜想: :为什么成熟信使为什么成熟信使RNARNA比编码区比编码区( (单链单链) )碱基数量要少碱基数量要少? ? 成熟信使成熟信使RNA对应基

7、因的一条链对应基因的一条链真核生物基因的有关实验真核生物基因的有关实验(1)(1)内含子改变内含子改变(2)(2)非编码区改变，非编码区改变，mRNAmRNA遗传密码不变遗传密码不变(3)(3)外显子改变，转录成不同密码子决定同一种外显子改变，转录成不同密码子决定同一种氨基酸氨基酸(4)(4)蛋白质蛋白质氨基酸序列氨基酸序列不同，也可能完成相同功能不同，也可能完成相同功能(5)(5)突变后突变后, ,基因变为隐性基因变为隐性12345非编码区非编码区非编码区非编码区编码区编码区n如人如人血红蛋白的血红蛋白的珠蛋白基因有珠蛋白基因有17001700个碱基对，个碱基对，含有含有3 3个外显子和

8、个外显子和2 2个内含子，编码个内含子，编码146146个氨基酸。个氨基酸。n一种凝血因子基因有一种凝血因子基因有186000186000碱基对，含有碱基对，含有2626个外个外显子和显子和2525个内含子，编码个内含子，编码25522552个氨基酸。个氨基酸。n计算人的计算人的珠蛋白和凝血因子基因中外显子的碱基珠蛋白和凝血因子基因中外显子的碱基对在整个基因碱基对中所占的比例：对在整个基因碱基对中所占的比例： (146(1463)3 = 26%100% = 26%n(2552(25523)3)186000186000100% = 4%100% = 4%3.4.1 基

9、因识别基本思路基因识别基本思路找出基因两端的功能区域找出基因两端的功能区域:转录启动区转录启动区终止区终止区在启动区下游位置寻找翻译起始密码子在启动区下游位置寻找翻译起始密码子识别转录剪切位点识别转录剪切位点剪切给体位点剪切给体位点剪切接受体位点剪切接受体位点iiiExpObsRSCU iiisynaaExp（5-66）（5-65）密码子使用倾向密码子使用倾向4,.,8 , 5 , 25,.,7, 4, 16,.,6, 3 , 06)/ln()/ln()/ln(max),(jkkikijkkikijkkikiFfFfFfjiIF（5-67）双联密码统计度量双联密码统计度量输入是一系

10、列反映功能位点信号特征和序列编码统计特征的参数输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段输出就是对一段DNA序列是否是编码区域的判别结果序列是否是编码区域的判别结果神经网络具有非线性映射能力，能够发现输入和输出之间的高阶相关神经网络具有非线性映射能力，能够发现输入和输出之间的高阶相关性性/gorf/gorf.html碱基组成碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的，但几乎所有的研究都证明碱基是以不同频率分布的。表1包含了9个完整DNA分子序列

11、的资料，表2的数据来自两个胎儿球蛋白基因(Gr和Ar)，每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”，基因间区域是指两个基因间的其余序列。表1 九种完整DNA序列的碱基组成表2 人类胎儿球蛋白基因不同区段的碱基组成碱基相邻频率碱基相邻频率分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积例：例：鸡血红蛋白鸡血红蛋白链的链的mRNA编码区的编码区的438个碱基个碱基图1 鸡球蛋白基因编码区的DNA序列 (GenBank：CHKHB

12、BM，记录号J00860) 表3 图1鸡球蛋白基因序列的相邻碱基分布在编码区，存在某种约束来限制DNA序列编码氨基酸。在密码子水平上，这一约束与碱基相邻频率有关。表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小，难以作出有力的统计结论，但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表4还清楚地表明，由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型，因而对第3位置上碱基的约束要比第 2位碱基小得多。表4 64种可能的碱基三联体密码子及相应的氨基酸数（据图1序列）相邻碱基之间的关联将导致更远碱基相邻碱基之间的关联将

13、导致更远碱基之间的关联，这些关联延伸距离的估计之间的关联，这些关联延伸距离的估计可以从马尔科夫链可以从马尔科夫链(Markov chain)理论理论得到得到(Javare和和Giddings，1989)三同向重复序列分析三同向重复序列分析除了分析整个序列碱基关联程度的特征外，我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种

14、不同的字码按：计算字码值。这些值的取值范围为1到4k例如：5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如，在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49

15、的序列有重复；以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983) 四、四、RNARNA二级结构预测二级结构预测尽管现有一些RNA折叠程序可以预测RNA二级结构，但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区，但对给定的RNA分子来说，这一结果的生物学意义生物学意义究竟有多大，还是一个未知数。即使有此局限性，二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。 3.4.5 从序列中寻找基因从序列中寻找基因 1.1.基因及基因区域预

16、测基因及基因区域预测基因按其功能可分为结构基因结构基因和调控基因调控基因：结构基因可被转录形成mRNA，并进而转译成多肽链；调控基因是指某些可调节控制结构基因表达的基因。在DNA链上，由蛋白质合成的起始密码开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列，除了细菌和病毒的DNA中ORF是连续的，包括人类在内的真核生物的大部分结构基因为断裂基因，即其编码序列在DNA分子上是不连续的，或被插入序列隔开。断裂基因被转录成前体mRNA，经过剪切过程，切除其中非编码序列(即内含子)，再将编码序列(即外显子)连接形成成熟m

17、RNA，并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列，但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。一种典型的真核蛋白质编码基因的结构示意图。其编码序列（外显子）是不连续的，被非编码区（内含子）隔断。所谓基因区域预测基因区域预测，一般是指预测DNA序列中编码蛋白质的部分，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识，预测出可能的完整基因。基因区域的预测是一个活跃的研究领域，先后有一大批预测算法和相应程序被提出和应用，其中有的方法对编码序列的预测准确率高

18、达90%以上，而且在敏感性和特异性之间取得了很好的平衡。预测方法中，最早是通过序列核苷酸频率、密码子等特性进预测方法中，最早是通过序列核苷酸频率、密码子等特性进行预测行预测(如最长如最长ORF法等法等)，随着各类数据库的建立和完善，随着各类数据库的建立和完善，通过相似性列线比对也可以预测可能的基因。同时，一批新通过相似性列线比对也可以预测可能的基因。同时，一批新方法也被提了出来，如隐马尔可夫模型方法也被提了出来，如隐马尔可夫模型(Hidden Markov Model,HMM)、动态规划法、动态规划法(dynamic programming)、法则、法则系统系统(ruled-based sys

19、tem)、语言学、语言学(linguistic)方法、线性判方法、线性判别分析别分析(Linear Discriminant Analysis,LDA)、决策树、决策树(decision tree)、拼接列线、拼接列线(spliced alingment)、博利叶分析、博利叶分析(Fourier analysis)等。等。下表列出了下表列出了claverie(1997)对部分程序预测基因区域能力的比对部分程序预测基因区域能力的比较结果，表中同时列出了相应算法和程序的网址。较结果，表中同时列出了相应算法和程序的网址。目前基因区域预测的各种算法均存在以下2个问题（1）目前算法对基因中的非编码区和

20、基因间序列非编码区和基因间序列不加任何区别，所以预测出的基因仍然是不完全的，对5和3非编译区（UTR，untranslated region）的预测基本上还是空白；（2）目前大多数算法都是基于已知基因序列基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列，而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练，由于训练所用的序列毕竟是有限的，所以对那些与学习过的基因结构不太相似的基因，这些算法的预测效果就要大打折扣了要解决以上两个问题，需要对基因结构进行更深入的研究，寻找隐藏在基因不同结构中的内在统计规律。 2发现基因的一般过程发现基因的一般过程从序列中发现基因可以理解为基因

21、区域预测和基因功能预测2个层次第一步：获取第一步：获取DNA目标序列目标序列如果你已有目标序列，可直接进入第2步；可通过PubMed查找你感兴趣的资料；通过GenBank或EMBL等数据库查找目标序列第二步：查找ORF并将目标序列翻译成蛋白质序列利用相应工具，如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等，查找ORF并将DNA序列翻译成蛋白质序列第三步：在数据库中进行序列搜索第三步：在数据库中进行序列搜索可以利用BLAST进行ORF核苷酸序列和ORF翻译

22、的蛋白质序列搜索。第四步：进行目标序列与搜索得到的相似序第四步：进行目标序列与搜索得到的相似序列的整体序列比对列的整体序列比对(global alignment) 虽然第三步已进行局部比对比对(local alignment)分析，但整体列线有助于进一步加深目标序列的认识。第五步：查找基因家族第五步：查找基因家族进行多序列比对(multiple sequence alignment)和获得比对区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行。第六步：查找目标序列中的特定模序第六步：查找目标序列中的特定

23、模序分别在Procite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索；对蛋白质序列进行统计分析和有关预测第七步：预测目标序列结构第七步：预测目标序列结构可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构。第八步：获取相关蛋白质的功能信息第八步：获取相关蛋白质的功能信息为了了解目标序列的功能，收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索。第九步：把目标序列输入第九步：把目标序列输入“提醒提醒”服务器服务器如果

24、有与目标序列相似的新序列数据输入数据库，提醒(alert)服务会向你发出通知。可选用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服务器。3解读序列解读序列(making sense of the sequence)大致有2条途径可以发现基因：(1)基于同源性的方法，包括已知mRNA序列的应用；(2)基因家族和特殊序列间的比较。最初的方法包括利用各种计算机手段分析外显子和其它序列信号，如酶切位点。六、基于编码区特性：最长六、基于编码区特性：最长ORF法法基因区域或蛋白质编码区的识别，特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实

25、现完全自动化。将每条链按6个读框全部翻译出来，然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现。预测基因组的全部编码区或称为开放阅读框的预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类方法概括来说也可以分为三类: :一类是基于编码区所具有的独特信号一类是基于编码区所具有的独特信号，如始起密码子、终止密码子等；二是基于编码区的碱基组成不同于非编码区二是基于编码区的碱基组成不同于非编码区，这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的；三是通过同源性比较搜寻蛋白质库或三是通过同源性比较搜寻蛋白质库

26、或dbEST库寻找库寻找编码区编码区。前二类方法主要是利用编码区的特性来寻找，下面对这二类方法做简单描述。最长最长ORFORF法：法：在细菌基因组中，蛋白质编码基因从起始密码ATG到终止密码平均有100bp，而300bp长度以上的ORF平均每36Kb才出现一次，所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因。利用编码区与非编码区密码子选用频率的差利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法：异进行编码区的统计学鉴别方法：由于内含子的进化不受约束，而外显子则受到选择压力，因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法，如

27、GCG(Genetic Computer Group 研制，一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法。CpG岛岛(CpG island)CpG岛哺乳动物基因组DNA中CpGCpG岛岛的特点是特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%，即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现，几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因

28、的5末端含有CpG岛，其序列可能包括基因转录的启动子及第一个外显子。因此，在大规模DNA测序计划中，每发现一个CpG岛，则预示可能在此存在基因。另外，AT含量也可以作为编码区的批示指标之一。http:/www.bio- DNA序列CpG岛判别是指与mRNA序列互补的DNA，它是从生物组织中提取mRNA后，通过反转录得到的单链DNA产物。由于在制作cDNA时通常是将特定组织中的所有mRNA都进行了反转录，生成的cDNA有多条，因此将特定组织来源的多条cDNA组成的集合称作3.5.2表达序列标签（表达序列标签（的概念及功能的概念及功能 1.ESTs的来源的来源上世纪80年代，对cDNA序列进行大

29、规模测序的想法就曾提出，但对此一直存在争论，有人认为这种方法能发现成千上万的新基因；而反对者则认为cDNA序列缺少重要的基因调控区域的信息。90年代初Graig Venter 提出了EST的概念，并测定了609条人脑组织的EST，宣布了cDNA大规模测序的时代的开始 (Adams et al., 1991)。 93年前年前ESTs数据收录于数据收录于GenBank， EBI和和DDBJ。 1993年年NCBI(National Center of Biotechnology Information)建立了一个专门的建立了一个专门的EST数据库数据库dbEST来保存和来保存和收集所有的收集所有的

30、EST数据。数据。02468101214161820总EST条目（million）19931995199719992001时间（年）dbEST中数据量的增长中数据量的增长表达序列标签（表达序列标签（表达序列标签（表达序列标签（expressed sequence tags,ESTs）是从cDNA文库中生成的一些很短的序列（60-500bp），它们代表在特定组织或发育阶段表达的基因，有时可代表特定的cDNA。EST可能是编码的，也可能不是。5 3ESTCDSUTR EST与与cDNA的关系图的关系图从已建好的cDNA库中随机取出一个克隆，从5末端或3末端对插入的cDNA片段进行一轮单向自动测序

31、，所获得的约60-500bp的一段cDNA序列。构建cDNA文库DNA测序信息处理和管理去除载体序列、宿主序列和聚类分析、拼接数据库查询重复序列生物信息学分析3.EST分析的实验流程分析的实验流程 4.ESTs4.ESTs与基因识别与基因识别 ESTs已经被广泛的应用于基因识别，因为ESTs的数目比GenBank中其它的核苷酸序列多，研究人员更容易在EST库中搜寻到新的基因新的基因(Boguski et al., 1994). 在同一物种中搜寻基因家族的新成员在同一物种中搜寻基因家族的新成员(paralogs(paralogs) )。在不同物种间搜寻功能相同的基因在不同物种间搜寻功能相同

32、的基因(orthologs(orthologs) )。已知基因的不同剪切模式的搜寻。已知基因的不同剪切模式的搜寻。【注：不过很难确定一个新的序列是由于交替剪切产生的或是【注：不过很难确定一个新的序列是由于交替剪切产生的或是由于由于cDNAcDNA文库中污染了基因组文库中污染了基因组DNADNA序列序列(Wolfsberg(Wolfsberg et al., et al., 1997)1997)】5. ESTs与基因图谱的绘制与基因图谱的绘制 EST可以借助于序列标签位点序列标签位点(sequence-tagged sites)用于基因图谱的构建。 STS本身是从人类基因组中随机选择出来的长度

33、在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3非翻译区的ESTs更适合做为STSs，用于基因图谱的绘制。n其优点主要包括：其优点主要包括：n 由于没有内含子的存在，因此在cDNA及基因组模板中其PCR产物的大小相同；n 与编码区具有很强的保守性不同，3UTRs序列的保守性较差，因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。（James Sikela等，1991年）nGeneMap 96 定位了16,000个基于基因的STS(Schuler et al., 1996)；GeneMap 98 定位了30,000个基于基因的STS(Delouk

34、as et al., 1998)，而且基因图谱随着STS的定位正在不断的更新中。6.ESTs6.ESTs与基因预测与基因预测由于EST来源于cDNA，因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数，大于90的已经注释的基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以做为其它基因预测算法的补充，因为它们对预测基因的交替剪切和3 非翻译区很有效。7.ESTs7.ESTs与与SNPsSNPs( (单核苷酸多态性单核苷酸多态性 ) 来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的

35、许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。应注意注意区别真正的SNPs和由于测序错误( ESTs为单向测序得来，错误率可达2)而引起的本身不存在的SNPs。解决这一问题可以通过：提高ESTs分析的准确性。对所发现的SNPs进行实验验证进行实验验证。8.8.利用利用ESTsESTs大规模分析基因表达水平大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到，所

36、以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。 CGAPn 为研究癌症的分子机理，美国国家癌症研究所NCI的癌症基因组解析计划(Cancer Genome Anatomy Project , CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库，并进行了大规模的EST测序，其中大部分的文库未经标准化或差减杂交处理。nCGAP网站提供了多种工具用以分析不同文库间基因表达的差异, 如：n Digital Gene Expression Displayer (DGED)n cD

37、NA xProfiler 基因表达系列分析基因表达系列分析(Serial Analysis of Gene Expression, SAGE)n 基因表达系列分析是一种用于定量，高通量基因表达分析的实验方法(Velculescu et al., 1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签（约9-14个碱基对），这些短的序列被连接、克隆和测序，特定的序列标签的出现次数就反应了对应的基因的表达丰度。 DNA微阵列或基因芯片的研究微阵列或基因芯片的研究n 高密度寡核苷酸cDNA 芯片或cDNA微阵列是一种新的大规模检测基因表达的技术，具有高通量分析的优点。在许多情况

38、下，cDNA芯片的探针来源于3EST (Duggan et al., 1999)，所以EST序列的分析有助于芯片探针的设计。反转录反转录酶切酶切连接连接测序测序单条测序对单条测序对3040条条EST测序测序分析分析由于采样量大大提高，可对低表达基因进行分析：由于采样量大大提高，可对低表达基因进行分析：基因表达量分析、寻找新基因等等基因表达量分析、寻找新基因等等.Clone反转录（可选）反转录（可选）读取光密度读取光密度聚类分析（非同源功能注释）聚类分析（非同源功能注释）标记标记杂交杂交反转录反转录EST分析分析.Gene Chip0.1 0.06 0.05 0.04 0 0 0.07 0.01

39、表达量矩阵G1,G3,G5G2,G4G6,G9利用EST，SAGE分析结果制作芯片（研究已发现的（研究已发现的基因）基因）连接，连接，转化转化 Rice genome-wide DNA chip (60,000+预测基因) 果蝇基因芯片原位合成 ESTSAGEMicroarrayGeneChip发现新基因发现新基因是是否否有序列有序列是（可直接进行可变剪切的分析）否否否主要问题主要问题采样量实验过程重复性成本高 ESTs很短，没有给出完整的表达序列；低丰度表达基因不易获得。由于只是一轮测序结果，出错率达2%-5%；有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染；

40、有时出现镶嵌克隆；序列的冗余，导致所需要处理的数据量很大。体内：翻译体外研究：反转录连接，转化非标准化的非标准化的cDNA文库的构建。文库的构建。经标准化或扣除杂交处理的经标准化或扣除杂交处理的cDNA文库。文库。 OligoT cDNA文库。文库。随机引物随机引物cDNA文库。文库。For subtraction of cDNA libraries the procedure is similar to normalization, except that the PCR products arise from a different library (whose genes are

41、 to be subtracted from the original library)Reference: Bonaldo, M.F., et.al, 1996. Normalization and subtraction: Two approaches to facilitate gene discovery. Genome Res. 6: 791-806. 扣除杂交技术扣除杂交技术最早应用是在20世纪80年代初，当时的目的是为了构建非洲爪蟾的胚囊 cDNA文库和制备差异表达基因的特异探针。差异表达的基因通过检测样本cDNA(tester)和过量的对照样本mRNA (driver)的相互

42、杂交而得到。在检测样本cDNA (tester)和对照样本mRNA (driver)同时表达的基因会形成mRNA/cDNA 杂交分子，而检测样本特异表达的基因则保持单链状态。单链分子和双链分子通过羟磷灰石层析而分离，分离得到的单链分子是检测样本特异表达的基因。差异表达的cDNA可以直接被克隆或通过cDNA文库筛选而得到。这个方法后来又得到改进，包括用生物素标记和oligo(dT)30-latex标记cDNA，以增加单双链分子的分离效率。后来，通过PCR选择性cDNA扩增技术被应用到扣除杂交中，以克服以往扣除杂交中需要大量起始mRNA的缺点，并可以同时提高基因克隆地效率。扣除技术的进一步成

43、熟是在1996年，Gurskaya 等(1996) 和Diatchenko 等(1996) 同时发表了关于扣除杂交的改进方法，其主要的技术方法类似，这个技术叫抑制性扣除杂交技术（Suppression Subtractive Hybridization，SSH）。原理：原理：SSH的基本原理是以抑制PCR为基础的DNA扣除杂交方法。所谓抑制PCR，是利用链内退火优于链间退火，比链间退火更稳定，从而使非目的系列片段两端反向重复系列在退火时产生类似于“锅柄”的结构，无法与引物配对，选择性地抑制了非目的基因片段的扩增。同时，该方法运用了杂交二级动力学原理，即丰度高的单链cDNA在退火时产生同源杂交

44、的速度要快于丰度低的单链cDNA，从而使原来在丰度上有差别的单链cDNA相对含量达到基本一致。基本过程：基本过程：分别抽提代测样本(tester）和对照样本（driver)的mRNA，反转录成cDNA，用RsaI或HaeIII酶切，以产生大小适当的平头末端cDNA片段，将tester cDNA分成均等的两份，各自接上两种接头，与过量的driver cDNA变性后退火杂交，第一次杂交后有4种产物：a是单链tester cDNA，b是自身退火的tester cDNA双链，c是tester 和diver的异源双链，d是driver cDNA。第一次杂交的目的是实现tester单链 cDNA均一化(

45、normalization),即使原来有丰度差别的单链cDNA的相对含量达到基本一致，由于tester cDNA中与driver cDNA序列相似的片段大都和driver形成异源双链分子c，使tester cDNA中的差异表达基因的目标cDNA得到大量富集，第一次杂交后，合并两份杂交产物，再加上新的变性driver单链，再次退火杂交，此时，只有第一次杂交后经均等化和扣除的单链tester cDNA和driver cDNA一起形成各种双链分子，这次杂交进一步富集了差异表达基因的cDNA，产生了一种新的双链分子e，它的两个5端有两个不同的接头，正由于这两上不同的接头，使其在以后的PCR中被有效地

46、扩增。根据不同的实验目的选择不同的测序方向：55端端 5上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5端EST较好，大部分EST计划都是选用5端进行测序的，而且从5端测序有利于将EST拼接成较长的基因序列。n 3端端n 3端mRNA有一20200bp的plyA结构，同时靠近plyA又有特异性的非编码区，所以从3端测得EST含有编码的信息较少但研究也表明，10的mRNA3端有重复序列，这可以作为SSR标记；非编码区有品种的特异性，可以作为STS标记n 两端测序两端测序n 获得更全面的信息。1. 去除低质量的序列（Phred）2. 应用BLAST、RepeatMa

47、sker或Crossmatch遮蔽数据组中不属于表达的基因的赝象序列(artifactual sequences)。载体序列载体序列重复序列重复序列污染序列污染序列 (如核糖体如核糖体RNA、细菌或其它物种的、细菌或其它物种的基因组基因组DNA等等)3. 去除其中的镶嵌克隆。4. 最后去除长度小于100bp的序列。 Back-to-back poly(A)+ tails. Linker-to-linker in middle of the sequence. Blastn/Blastx search.ESTs的聚类和拼接的聚类和拼接聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部

48、分(overlapping)的ESTs整合至单一的簇(cluster)中。聚类作用：聚类作用：v 产生较长的一致性序列(consensus sequence) ，用于注释。v 降低数据的冗余，纠正错误数据。v 可以用于检测选择性剪切。nESTs聚类的数据库主要有三个：聚类的数据库主要有三个：n UniGene ()n TIGR Gene Indices ()n STACK 不严格不严格的和严格的聚类的和严格的聚类 (loose and stringent clustering) loose clustering 产生的一致性序列比较长产生的一致性序列比较长表达基因表达基因ESTs数据的覆盖率

49、高数据的覆盖率高含有同一基因不同的转录形式，如各种选择性剪含有同一基因不同的转录形式，如各种选择性剪接体接体每一类中可能包含旁系同源基因每一类中可能包含旁系同源基因(paralogous expressed gene)的转录本的转录本序列的保真度低序列的保真度低 stringent clusteringn 产生的一致性序列比较短产生的一致性序列比较短n 表达基因表达基因ESTs数据的覆盖率低数据的覆盖率低n 因此所含有的同一基因的不同转录形式少因此所含有的同一基因的不同转录形式少n 序列保真度高序列保真度高有参照的和无参照的聚类有参照的和无参照的聚类 (Supervised and un

50、supervised clustering) Supervised clustering 根据已知的参考序列(如全长mRNA、已拼接好的一致性序列) 聚类。 Unsupervised clustering 没有根据参考序列进行分类。聚类的算法聚类的算法基于基于BLAST和和FASTA的脚本的脚本(BLASTN and FASTAbased scripts) BLASTN和FASTA算法的本身目的在于寻找序列间的局部相似性或同源性，这与聚类的目的不同，即通过两个序列是否具有一致性的重叠或连续的比对来判断二者是否能归成一类。结合BLAST和FASTA查找的结果，采用解释性语言(如Perl)编写的

51、脚本，具备了3方面的功能，即运行查找过程、解析(Parsing)查找的结果和按照用户定义的标准判断两个序列是否为一类。基于字的聚类基于字的聚类(Wordbased clustering) 基于字的聚类省略了所有的比对过程，其核心在于识别并计算序列间有多少长度为n的字(word)能够匹配，而且并未采用有关克隆的来源及注释信息，代表性的算法是d2_cluster。该算法为一种凝聚性(agglomerative)的聚类算法(即每一类从单一的序列开始，通过一系列的合并形成最后的类)，它可以被描述为最小联接聚类(minimal linkage clustering)。即，假设两条序列A和B，如果二者存

52、在一定水平的相似，那么将A、B归于一类；即便二者并没有任何相似性，若存在序列C，而且C同时与A、B都有足够的相似性，那么也将A、B归于一类。类和类之间的联接标准是识别两个序列在一定大小窗口中相同的碱基数。 Phrap (/UWGC/analysistools/Phrap.cfm) CAP3(Xiaoqiu Huang ，) TIGR assembler(http:/nbc11.biologie.uni-kl.de/framed/left/menu/auto/right/tigr_assembler/) d2_cluster (htt

53、p:/www.sanbi.ac.za/)利用cDNA克隆的信息和5,3端Reads的信息，不同的Cluster可以连接在一起。 Unigene 结合有指导的和无指导的方法，而且在聚类过程中使用了不同水平的严格度，聚类的算法为megablast,数据库不产生一致性序列。 TIGR Gene Index用的是有严格的和有指导的聚类方法,聚类的算法为类似于BLAST和FASTA的FLAST，该法得到的一致性序列较短，交替剪切得到的不同的基因属于不同的索引。 STACK 用不严格的和无指导的聚类方法，聚类的算法为d2_cluster,产生较长的一致性序列，同一索引中含有不同的剪切方法得到的基因。TI

54、GR-THCUniGeneSTACK注释：注释：序列联配 Blastn， Blastx 蛋白质功能域搜索(二结构比对) Pfam Interpro基因功能分类基因功能分类手工分类手工分类大部分以大部分以Adams 95Adams 95年的文章中的采用分类体系为标准。年的文章中的采用分类体系为标准。【Adams. MD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】计算机批量处理计算机批量处理利用标准基因词汇体系Gene Ontology，进行近似的分类。 (GO的组织结构：定向无环图的组织结构：定向无环图（ directed acyclic graphs DAGs）各大数据库中基因或基因产物与各大数据库中基因或基因产物与GO术语的对照术语的对照比较基因组学分析基因表达谱分析新基因研究基因可变剪切分析实验验证 MicroArray GeneChip RTPCR Northen blotin

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第三章DNA序列分析-2008-10-9

文档简介

温馨提示

最新文档

评论

第三章DNA序列分析-2008-10-9

文档简介

温馨提示

最新文档

评论

相关文档