生物信息学复习题及答案陶士珩_第1页
生物信息学复习题及答案陶士珩_第2页
生物信息学复习题及答案陶士珩_第3页
生物信息学复习题及答案陶士珩_第4页
生物信息学复习题及答案陶士珩_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 生物信息学复习题及答案(陶士) 珩 生物信息学复习题 一、 名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根 树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(c

2、odon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、 问答题 1)生物信息学与计算生物学有什么区别与联系? 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI维护的数据库。 5)序列的相似性与同

3、源性有什么区别与联系? 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么? 7)简述BLAST搜索的算法。 8)什么是物种的标记序列? 9)什么是多序列比对过程的三个步骤? 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么? 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。 17)试述DNA序列分析的流程及代表性

4、分析工具。 18)如何用BLAST发现新基因? 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分? 22)试述PSI-BLAST 搜索的5个步骤。 三、 操作与计算题 1) 如何获取访问号为U49845的genbank文件?解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 检索系统,对核酸数据搜索,输入如下信息,将获得什Entrez利用 )2 么结果: 。AF114696:AF114714ACCN工具在结果呈现上有什么BLAST2

5、相比使用BLAST套件搜索数据库, 3) 优点?格式的多序列比MEGE MEGA2如何将其它多序列比对格式文件转化为4) 对文件? ?什么简约信息位点Pi5) 以下软件的主要用途是什么?) 6finder, ORF View, Genscan, RepeatMasker, CpGPlot, Splice neural network promoter prediction. ,空= 0= +1,失配得分 7) 为下面的序列比对确定比对得分:匹配得分 。位得分= -1TGTACGGCTATA TA TC - -CGCCT 8)UPGM重建系统发生树,距离矩阵如下物ABCDB9C811D12151

6、0E1518135画个物种棵不同的无根个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸,3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是2?有大于2个替换的树吗? 10)如何将所研究的蛋白质与其他相关蛋白质做结构比对。 答案部分 一、名词解释: 生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 二级数据库:在一级数据库、实验数据和理论分析的

7、基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。P11,第2段。 FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表示一个新文件的开始,其他无特殊要求。 genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。P13,第2段。 Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接

8、的数据库多,使用方便,能够进行交叉索引等特点。P83-85。 :基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序BLAST 列与数据库中的每个序列做相似性比较。P94 查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98,第1段。 打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29,第2段。 空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中

9、断现象,这些中断的位点称为空位。P29,第2段。 空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37,倒数第2段。 E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。P100,第一段。 点矩阵(dot ma

10、trix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。P39-41。 多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。P48,需要概括。 分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。P112-113 系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基

11、因之间的进化关系。P112,第一段。 进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。P113,最后一段。 系统发育图:P114 直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。P28,P146 旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上的可能发生了改变。P28,P147 外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。P120 有根树:能够确定所有分析物种的共同祖先的进化树。P113 除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距

12、离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。P119 邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对算UPGMA整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服 法要求进化速率保持恒定的缺陷。P118。 最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。P120 最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。P122

13、一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。P121 自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。P122 开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。P131 密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。P133 基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子

14、与外显子边界,调控区,预测基因组序列中包含的基因。P134-145 简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。P121,第2行 结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。P158 模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。P161,最后一行 PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的

15、可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。P30-31 BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。P34 折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。P162 TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些

16、序列尚未集成到SWISS-PROT数据库中。P21 PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。P22 MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数具有许多附加MMDB相比,对于数据库中的每一个生物大分子结构,P

17、DB据。与 的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。? SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一 个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。P23 PROSI

18、TE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 P22 RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。? PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。P97 Gene On

19、tology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。 表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。P97 比较基因组学:P148 二、问答题 1绪论 1) 生物信息学的发展经历了那几个阶段 2) 生物信息学步入后基因组时代后,其发展方向有哪几个方面。 1)请列举3个以上Entrez系统可以检索的数据库。 答:P83 2)序列的相似性与同源性有什么区别与联系? 答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列

20、所代表的物种具有共同的祖先,强调进化上的亲缘关系。P147 3)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么? 答:blastn是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;Tblastn将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx只在特殊情况下使用,

21、它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P97 搜索的算法思想。BLAST)简述4 答:BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的 序列是那些在整 体上具有最高分的序列,即

22、,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P95 5)什么是物种的标记序列? 答:指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。 6)什么是多序列全局比对的累进算法? 答:第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。P52 7)简述构建进化树的步骤,每一步列举1-2种使用的软件或统计学方法。 答:(1)多序列比对:Clustal W (2)校对比对结果:BIOEDIT

23、 (3)建树:MEGA (4)评估系统发育信号和进化树的牢固度:自举法(Bootstrap)P114 8)简述除权配对法(UPGMA)的算法思想。 答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。P119 9)简述邻接法(NJ)构树的算法思想。 答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个

24、序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P117 10)简述最大简约法(MP)的算法思想。P68 答:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P120 11)简述最大似然法(ML)的算法思想。P69 答:是一种基于离散特征的进化树算法。该法首先选择一个合适的进

25、化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P122 12)UPGMA构树法不精确的原因是什么?P69 答:由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一 行。4段,前2倒数第P119,致时,得到的进化树相对来说不准确的。 种,解释3在MEGA2软件中,提供了哪些碱基替换距离模型,试列举其中13) 其含义。Jukes-Cantor 、No.of differences 、p-distance答:碱基替换模型包括,Tamura 、T ajima-

26、Nei distance、Kimur 2-parameter distancedistance、Tamura-Nei distance 、3-parameter distance表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸 p-distance: 位点数除已经比对的总位点数就可以得到的替换速率是一致的,然后给出两个序列核 A T C G Jukes-Cantor:模型假设 苷酸替换数的最大似然估计:模型考虑到了转换很颠换队多重击中的影响,但假设整Kimura 2-parameter 钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的个序列中4 序列分析的内容及代表性分析工具

27、。项DNA14)列举5RepeatMasker )寻找重复元件:(1答: BLASTn 2()同源性检索确定是否存在已知基因: Genscan 3)从头开始方法预测基因: (TRES/DRAGON PROMOTOR FINDER 4)分析各种调控序列: ( CpGPlot P130,表格 (5) CpG岛:LOCUSgenbank文件的的genbank文件?解释如下15)如何获取访问号为U49845 行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 U49845输入(3)Entrez检索系统,(2)选择核酸数据库,(答:1)访问

28、NCBI的 序列访问号开始检索。 名称,前三个字母代表物种名第一项是LOCUS 第二项是序列长度 第三项是序列分子类型 第四项是分子为线性的 分类码第五项是GenBank P13 第六项是最后修订日期 Entrez检索系统对核酸数据搜索,输入如下信息,将获得什么结果:16)利用P35 AF114696:AF114714ACCN。 AF114714之间的连续编号的序列。答:获得序列访问号AF114696到 格式的多序列比对文件?MEGA2如何将其它多序列比对格式文件转化为MEGE17)Text File Editor and Format Coverter )选择,(2答:(1)选择菜单file

29、格式)获得转换后的MEGA工具,(3)调入需要转换的序列和相应的格式,(4 的文件并保存。,空位得分= 0)为下面的序列比对确定比对得分:匹配得分= +1,失配得分18 = -1。TGTACGGCTATA TC - -CGCCT -TA 答: TT 1 GC 0 T- -1 -1 A- CC 1 GG 1 GC 0 CC 1 TT 1 A- -1 TT1AA1+1+1=4-+1+1+0+1+1最后得1+0-) 重建系统发生树,距离矩阵如下:19) 用UPGM DC物AB9BC811121510D5E131518 答:Newic格式表示的树图AD) 分析过程: )两条序列间的最小距离是(1d,所

30、以物种D和E聚到一组,如下图。DEDE DE ,如下表。其他物种E (2) 计算新的距离矩阵,其中复合物种(DE)替换D和,DE和)之间距离的平均值决定与新物种组之间的距离由它们与组中两个物种( 如=1/2(12+15)=13.5+=1/AADCA物BB9811C11.516.5DE13.5类。如下图AA 第二次聚类之间,组成 DEAC (AC)(D )将物种合并,计算新的矩阵,如下表,最后一次聚类(AC)B(3) 将A和C )的共同祖先之间。AC)和(BDE的分支点放在(AC B 物种 10 AC 12.5 DE 16.5 DEABC (AC)B 个物种在某位置上的核苷酸分别是420) 画出4.个物种的3棵不同的无根树这棵可, T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸. 3有几棵树的替换能的无根树中有几棵是一样简约的(因为他们有最小替换数)? 2个替换的树吗树是2?,有大于 答C(CA(T(C(TB (TD (CB (TA (T(T)(TC (CD (CA (TC (C(T(TB (TD (C 2棵一样简约,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论