EXAM-Review-Outline-OF-Bioinatics.doc_第1页
EXAM-Review-Outline-OF-Bioinatics.doc_第2页
EXAM-Review-Outline-OF-Bioinatics.doc_第3页
EXAM-Review-Outline-OF-Bioinatics.doc_第4页
EXAM-Review-Outline-OF-Bioinatics.doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学一、名词解释1. NCBI:美国国家生物技术信息中心。2. EBI:欧洲生物信息中心。3. 同源:在进化上起源相同的两段核苷酸序列,特别是功能较重要的保守区段或基因。4. 直系同源:两个不同的物种由于种分化而产生的相似序列。5. 并系同源:同一物种由于基因重复而产生的相似序列。(旁系同源基因是指同一基因组中,由于始祖基因的加倍而横向产生的几个同源基因。)6. 异同源:由于染色体的横向转移而产生的相似序列。7. 全局对位:对序列从头到尾进行比较,试图使尽可能多的字符在同一序列中匹配,全局比对适用于相似度较高且长度相近的序列。8. 局部对位:寻找序列中相似度最高的区域,也就是匹配密度最高的部分,局部对位适用于在某些部位相似度较高,而其他部位差异较大的序列。9. 序列比对:是在两条或多条序列中寻找按照相同次序比对的一连串的单个字符或字符模块的过程。10. 两条序列比对:通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的进化关系。11. 多重序列对位:将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和概型。12. 马尔科夫链:是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。13. 马尔科夫模型:在一个系统中,从一个状态到另一个状态的一系列变化与之前变化的历史无关。14. 隐马尔科夫模型HMM:是有马尔科夫链发展扩充而来的一种随机模型,可以被理解为一个双随机过程,一个是系统状态变化的随机过程,另一个是由状态决定输出的随机过程。15. E-value:E值或期望值是序列比对中代表随机匹配可能性的一个数值,代表了由随机匹配概率而造成的相似性的概率,即目的片段与搜索获得的片段为随机配对的可能性,它的数值越接近于零,此两个片段为随机配对的可能性就越小。16. P-value:从某一总体中随机抽样,形成一个抽样分布,根据随机试验中某一抽样事件属于该分布的概率范围,可计算这一随机事件属于该分布的概率,即误差造成的概率,一般用P值表示。P值愈小,随机误差造成的概率愈小。17. 进化树:在研究生物进化和系统发育过程中,常用一种树状分支图来概括各种生物之间的亲缘关系,这种表征物种或序列进化关系的树状分支图称为系统发育树。18. 分析系统树:根据大分子序列相似性数值构建的系统发育树。19. 物种树:表示物种进化历史的树图。20. 基因树:基于单个基因构建的系统发育树。21. 分子进化钟:分子进化钟假说认为生物分子进化过程中普遍存在这种有规律的钟,即分子进化速率近似恒定。这样便可根据已知年代的核酸样品计算出序列变化率和进化时间之间的关系,从而推断物种间的分歧时间和特异的进化事件发生的时间。22. 有根树:系统发育树的一种,树根代表进化史上最早的共同祖先。所有的序列都来自于一个共同的祖先,该序列在现在的状态下观察不到且是进化历程上出现最早的,把这条序列定义为树根,从根节点到其他节点都只有唯一的途径,每个节点只产生两个分支,枝长代表分歧年代或进化关系,这样的系统发育树成为有根数。23. 无根树:系统发育树的一种,找不到共同祖先的树根。只显示各相关基因间的进化关系但没有明确揭示出最早祖先序列的系统发育树。24. 基因组:指一个生物体、细胞或病毒的整套基因。25. 基因组学:以基因组分析为手段,研究基因组的构成、时序表达模式和功能,并提供有关生物物种及其细胞功能的进化信息。26. 基因预测:预测DNA序列中编码蛋白质的部分,即外显子部分。27. 功能基因组学:利用结构基因组学研究所得到的各种来源的信息,建立与发展各种技术和实验模型,来测定基因及基因组非编码序列的生物学功能。28. 比较基因组学:通过比较来研究基因组的科学;通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴定,可以为研究生物进化和分离人类遗传病的候选基因,以及预测新的基因功能提供依据。29. 生物信息学:利用计算机技术作为研究手段和工具对生物学数据进行管理和分析。30. 表达序列标签EST:是从cDNA文库中生成的一些很短的序列,长300-500bp,它们代表在特定组织或发育阶段表达的基因。31. 基因芯片:是生物芯片的一种,又称DNA微距阵,是由大量DNA或寡核苷酸探针密集排列所形成的探针阵列,它的基本工作原理就是通过杂交检测信息。32. PAM:PAM矩阵给出了进化过程中同源蛋白质一个氨基酸被另一个氨基酸替换的概率,一个PAM就是一个进化的变异单位,即1%的氨基酸改变。氨基酸替换可以用一个马尔科夫模型表示,将PAM1自乘N次,可以得到矩阵PAMN。因而,PAM250矩阵代表了25亿年中250%的预期变化水平。33. 系统发育分析:就是根据特征或距离数据确定基因、物种起源和发生关系的方法,分析的结果通常以系统发育树的形式直接地呈现出来。二、判断题1. 序列的同源性越高,亲缘关系越近。2. 在序列比对时,假如第一个空位罚10分,延伸一个罚1分,这种罚分方法叫做线性罚分。线性罚分和仿射罚分的区别。上述罚分规则属于仿射罚分。3. 所谓分子钟,就是指所有蛋白质在整个进化过程中,进化速度大体稳定。分子钟是指同一种蛋白在不同物种间的替换数与所研究物种间的分歧年代数接近正线性关系,我们将这种分子水平的恒速变异成为分子钟,并不是指所有蛋白质。4. 所谓信息位点,就是存在核苷酸差异的位点。信息为点指由位点产生的图表数目可以把一棵树与其他树区分开来的位点,如果一个位点是信息为点,那么它至少有两种不同的核苷酸,并且每一种核苷酸至少出现两次。5. 分类单元数相同时,可能的有根树要比无根树多。只有当分类单元数为2的时候,有根数和无根树才一样多。三、简答题1. 如何利用Dot-plot方法发现基因的内含子和外显子?将基因的原序列,包括外显子和内含子,与基因的cDNA序列采用点阵方法比对,将出现一系列不连续的折线。由于cDNA只有外显子,断线部分为内含子。2. 如何利用Dot-plot方法发现序列的重复序列和逆向重复序列?序列自身比对,与主对角线平行的线段为重复区域,与主对角线垂直的为反向重复部分。3. 如何利用Dot-plot方法降低噪音?从点阵中过滤掉随机匹配可以明显地降低点阵图的噪声。过滤是指通过一个滑动窗口来比较两条序列。滑动窗口需要设定两个参数,窗口大小和阈值。窗口大小设置是每次检查的相邻核苷酸的数目,阈值是指在这些相邻核苷酸中需要完全匹配的最小字符数。由于DNA的核苷酸只有4种,而组成蛋白质的氨基酸有20种,所以点阵法进行DNA比对时,噪音过滤一般要选取较大的窗口,窗口为15,阈值为10;蛋白质选取2或3为窗口大小,阈值为2可以突出匹配区域。4. 在考虑蛋白质序列对位得分矩阵时,如何由PAM1得到PAM250?请解释这一过程的生物进化意义。PAM矩阵给出了进化过程中同源蛋白质一个氨基酸被另一个氨基酸替换的概率,一个PAM就是一个进化的变异单位,即1%的氨基酸改变。氨基酸替换可以用一个马尔科夫模型表示,将PAM1自乘N次,可以得到矩阵PAMN。因而,PAM250矩阵代表了25亿年中250%的预期变化水平。5. 在讨论序列对位Gap的罚分时,多采用线性罚分模型与Affine penalty Gap罚分模型,介绍这两个模型并比较它们之间的差异。线性罚分模型是个固定的罚分,无论有多少个连续的空格,每个空格所罚的分值相同,即多个空位的罚分是多倍的一个空位罚分。例如:一个空位为-5分,那么2个空位为-10分,依次类推。仿射罚分,起始空位罚分大,延伸空位罚分小的罚分方法,由两部分组成,一是较大的空位引入罚分,另一部分是较小的罚分。可由方程W=g+r(x-1)计算。6. 有根树和无根树的区别有哪些?有根树是系统发育树的一种,树根代表进化史上最早的共同祖先;无根树也是系统发育树的一种,找不到共同祖先的树根。区别主要有两点:在序列数相同的条件下,有根数的数量远高于无根树的数量,这将导致有根数出错的概率明显高于无根树;有根数能给出一个确定的祖先,而无根树只能确定序列相对亲缘关系的远近,不能给出序列的共同祖先。7. 试述如何利用Bootstrap方法检验系统发育树的可靠性。对于一组序列,若采用不同的方法进行系统发育树分析的结果相同或相近,则获得的系统发育树可靠,若结果差异较大,则要做更深入的分析,判断哪一种结果更可靠,通常采用Bootstrap方法,对构建的系统发育树进行经验型检验。Bootstrap方法即数值重复抽样法。例如,对一组序列进行多序列比对,随机选择垂直列,组成一组新的序列样本,对该组序列进行发育树构建,采取相同方法,以此类推,可得到许多随机产生的不同样本,再分别根据不同的取样进行系统发育分析,比较各个样本生成的系统树结构的相似度,确定最佳树形。8. 分子钟假说分子进化钟:分子进化钟认为生物分子进化过程中普遍存在这种有规律的钟,即分子进化速率近似恒定。这样便可根据已知年代的核酸样品计算出序列变化率和进化事件之间的关系,从而推断物种间的分歧时间和特异的进化时间发生的时间。该假说的主要缺点是,假定了分子进化是匀速进行,并以此为基础进行系统进化树的构建。事实上,该假说并不是无条件成立的,物种进化速率与许多因素有关,譬如群体的有效容量、群体的交配方式、时代间隔的长短、自然选择力度、环境条件改变速率等等。一旦匀速进化的假说不成立,据此构建的系统进化树与实际进化树之间将产生误差。9. 序列同源和相似的区别。相似性与同源性是两个不同的概念,相互之间并没有直接的等同关系。相似只是描述性的词汇,并不代表实质性的同源。相似的不一定是同源的,因为在进化的过程中,来源不同的基因或序列由于不同的独立突变而“趋同”并不罕见。同源一般表现为相似,但同源并不一定比非同源的相似程度高。功能相似或相同也不一定必然同源,非同源基因的代谢功能替换已经有不少证据。其他表型相似也不一定反应了同源,不同基因的不同突变就有可能产生“表型模拟”。10. 同源概念间的区别联系。直系同源:两个不同的物种由于种分化而产生的相似序列。直系同源的条件是:进化上起源于一个始祖基因并垂直传递的同源基因;分布于两种或两种以上物种的基因组;功能高度保守乃至近乎相同,甚至于在近缘物种之间可以相互替换;结构相似;组织特异性与亚细胞分布相似。并系同源:同一物种由于基因重复而产生的相似序列。直系与旁系的共性是同源,都源于各自的始祖基因。其区别在于:在进化起源上,直系同源是强调在不同基因组中的垂直传递,并系同源是在同一基因组中的横向加倍;在功能上,直系同源要求功能高度相似,而并系同源在定义上对功能没有严格要求,可能相似,但也可能不相似,甚至没有功能。11. 蛋白质的得分矩阵等价矩阵:最简单的一种打分矩阵,它对所有匹配给相同的得分,所有的错配得分也相同。遗传密码矩阵:通过计算一个氨基酸残基转变到另一个氨基酸残基所需的碱基变化的最小数目而得到。疏水矩阵:根据氨基酸替换前后疏水性的变化而得到的得分矩阵。Dayhoff氨基酸替换矩阵(PAM)Dayhoff和她的同事们研究了71个相关蛋白质家族,序列相似度大于85%的蛋白质序列中的1572个突变,他们首先用相似序列构建系统树,统计每种氨基酸替换为其他氨基酸的次数,同时还计算了不同氨基酸的相对突变力。模块氨基酸替换矩阵BLOSUM,通过统计相似蛋白质序列的替换率而得到,依据观察到的2000多个保守的氨基酸模块中实际发生的替换建立起来,这些模块是从包含500多个保守的氨基酸模块库中提炼出来的。蛋白质家族由具备相同生化功能的蛋白质所组成,每个蛋白质家族中都有保守的连续氨基酸模块,这些模块可作为蛋白质家族成员识别的标志。12. 核酸得分矩阵等价矩阵,BLAST矩阵,转换-颠换矩阵,核酸的PAM矩阵。四、综合题1. 最大简约法,极大似然法,距离法的原理和主要区别。1) 最大简约法就是通过最小化序列中产生可观测变异所需要的步数来构建进化树,因而又称最小进化法。最大简约法对所有可能的拓扑结构进行计算,并计算出所需替换数最小的那个拓扑结构作为最优树。这种方法特别适用于数量少且非常相似的序列,这种算法不是特别复杂,但它确保找到最优的树,因为它穷尽了与分析序列相关的所有树,因此这种算法非常耗时。流程:找出信息为点,计算支持该树形的突变数,选最小突变数为最简约的树。2) 距离法是首先获得一组序列中两两间的差异,然后根据差异数值构建系统发育树。距离法是考察所有序列两两比对结果,计算出序列两两之间的进化距离,从而构建一个距离矩阵,并借助距离矩阵,利用一定的聚类算法,计算出最优的进化树。距离法适用于多序列比对,也适用于构建系统发育树。包括Fitch-Margoliash法、邻接法和非加权算术平均组对法。流程:进行序列比对,计算两两之间的距离,构建距离矩阵,根据距离矩阵采用不同的方法构建系统发育树。3) 最大简约法和距离法的主要区别:最大简约法只能给出一个最优树形,而无法知道各枝长度,而距离法除了给出最优树形外,还可以计算出各枝长度;最大简约法适用于序列数目少,且序列间相似性较高的序列,而距离法适用于相似度高、相似性清晰可辨的序列。4) 极大似然法与最大简约法相似,该方法通过概率计算来找到最能反映一组序列中变异的进化树,需要对多序列比对结果的每一个垂直列进行分析。流程:假定系统树的结构,选择分枝长度以使产生特定系统发育树的似然值最大化,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论