




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学复习题二、问答题1)生物信息学的发展经历了哪几个阶段BIOINFORMATICSHASGONETHROUGHWHATARETHESTAGES答生物信息学的发展经历了3个阶段。第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。2)生物信息学步入后基因组时代后,其发展方向有哪几个方面。BIOINFORMATICSINTOTHEPOSTGENOMICERA,ITSDEVELOPMENTDIRECTIONWHICHASPECTS答生物信息学步入后基因组时代后,其发展方向主要有各种生物基因组测序及新基因的发现;单核苷酸多态性(SNP)分析;基因组非编码区信息结构与分析;比较基因组学和生物进化研究;蛋白质结构和功能的研究。3)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上ENTREZ系统可以检索的数据库。(NCBI维护的数据库)NCBI的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则的标准化。维护的主要数据库包括答PUBMED、核酸序列数据库GENBANK、PROW、三维蛋白质结构分子模型数据库MMDB。4)序列的相似性与同源性有什么区别与联系SEQUENCESIMILARITYANDHOMOLOGYWHATISTHEDIFFERENCEWITHTHECONTACT答相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。P1475)BLAST套件的BLASTN、BLASTP、BLASTX、TBLASTN和TBLASTX子工具的用途什么答BLASTN是将给定的核酸序列与核酸数据库中的序列进行比较;BLASTP是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;BLASTX将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和EST很有用;TBLASTN将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;TBLASTX只在特殊情况下使用,它将DNA被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P976)简述BLAST搜索的算法思想。BLASTSEARCHALGORITHMOUTLINEDIDEAS答BLAST是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”WORD”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的HSP双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的序列是那些在整体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P957)什么是物种的标记序列WHATISASPECIESMARKERSEQUENCES答指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。8)什么是多序列全局比对的累进算法(三个步骤)WHATISMOREPROGRESSIVESEQUENCEGLOBALALIGNMENTALGORITHMTHREESTEPS答第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产生出最终的多序列比对结果。P529)简述构建进化树的步骤,每一步列举12种使用的软件或统计学方法。PHYLOGENETICTREEWASCONSTRUCTEDOUTLINEDSTEPS,EACHSTEPLISTED12KINDSOFSOFTWAREORSTATISTICALMETHODS答(1)多序列比对CLUSTALW(2)校对比对结果BIOEDIT(3)建树MEGA(4)评估系统发育信号和进化树的牢固度自举法(BOOTSTRAP)P11410)简述除权配对法(UPGMA)的算法思想。DESCRIPTIONSEXPAIRINGMETHODUPGMAALGORITHMFORTHOUGHT答通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。P11911)简述邻接法(NJ)构树的算法思想。DESCRIPTIONADJACENCYNJMETHODCONFIGURATIONTREEALGORITHMIDEAS答邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P11712)简述最大简约法(MP)的算法思想。P68DESCRIPTIONSMAXIMUMPARSIMONYMPALGORITHMIDEAS答是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如DNA不同位点进化速率不同)而对其进行不同的加权处理。P12013)简述最大似然法(ML)的算法思想。P69DESCRIPTIONSMAXIMUMLIKELIHOODMLALGORITHMIDEAS答是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P12214)UPGMA构树法不精确的原因是什么P69UPGMAMETHODPAPYRIFERAWHATISTHECAUSEINACCURATE答由个于UPGMA假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。P119,倒数第2段,前4行。15在MEGA2软件中,提供了哪些碱基替换距离模型,试列举其中3种,解释其含义。INMEGA2SOFTWARE,WHICHPROVIDESABASESUBSTITUTIONSDISTANCEMODEL,INWHICHTHREEKINDSCITETOEXPLAINTHEIRMEANING答碱基替换模型包括,NOOFDIFFERENCES、PDISTANCE、JUKESCANTORDISTANCE、TAJIMANEIDISTANCE、KIMUR2PARAMETERDISTANCE、TAMURA3PARAMETERDISTANCE、TAMURANEIDISTANCEPDISTANCE表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到JUKESCANTOR模型假设ATCG的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计KIMURA2PARAMETER模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的16)列举5项DNA序列分析的内容及代表性分析工具。ENUMERATEFIVEDNASEQUENCEANALYSISOFTHECONTENTANDREPRESENTATIVENESSANALYSISTOOLS答(1)寻找重复元件REPEATMASKER(2)同源性检索确定是否存在已知基因BLASTN(3)从头开始方法预测基因GENSCAN(4)分析各种调控序列TRES/DRAGONPROMOTORFINDER5CPG岛CPGPLOTP130,表格代表性工具ORFFINDER、BLASTN、TBLASTX、BLASTX、GENEWISE17)如何用BLAST发现新基因HOWTODISCOVERNEWGENESUSINGBLAST答从一个一直蛋白质序列开始,通过TBLASTN工具搜索一个DNA数据库,可以找到相应的匹配,如与DNA编码的已知蛋白质的匹配或者与DNA编码的相关蛋白质的匹配。然后通过BLASTX或BLASTP在蛋白质数据库中搜索DNA或蛋白质序列来“确定”一个新基因。18)试述SCOP蛋白质分类方案SHISHUSCOPPROTEINCLASSIFICATIONSCHEME答SCOP将PDB数据库中的蛋白质按传统分类方法分成型、型、/型、型,并将多结构域蛋白、膜蛋白和细胞表面蛋白、N蛋白单独分类,一共分成7种类型,并在此基础上,按折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族,SCOP数据库按照种属名称将它们分成若干子类,一直到蛋白质分子的亚基。19)试述SWISSPROT中的数据来源。SHISHUSWISSPROTDATASOURCE答(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。20)TREMBL哪两个部分TREMBLWHICHTWOPARTS答(1)SPTREMBLSWISSPROTTREMBL包含最终将要集成到SWISSPROT的数据,所有的SPTREMBL序列都已被赋予SWISSPROT的登录号。(2)REMTREMBLREMAININGTREMBL包括所有不准备放入SWISSPROT的数据,因此这部分数据都没有登录号。21)试述PSIBLAST搜索的5个步骤。SHISHUPSIBLASTSEARCHOFFIVESTEPS答1选择待查序列(QUERY)和蛋白质数据库;2PSIBLAST构建一个多序列比对,然后创建一个序列表谱(PROFILE)又称特定位置打分矩阵(PSSM);3PSSM被用作QUERY搜索数据库4PSIBLAST估计统计学意义EVALUES5重复3和4,直到没有新的序列发现。22)列举5种常用的系统发育分析软件PHYLIP、PAUP、MEGA、PAML、TREEVIEW。ENUMERATEFIVEKINDSOFCOMMONLYUSEDPHYLOGENETICANALYSISSOFTWAREPHYLIP,PAUP,MEGA,PAML,TREEVIEW三操作与计算题1如何获取访问号为U49845的GENBANK文件解释如下GENBANK文件的LOCUS行提供的信息LOCUSSCU498455028BPDNALINEARPLN21JUN1999答(1)访问NCBI的ENTREZ检索系统,(2)选择核酸数据库,(3)输入U49845序列访问号开始检索。第一项是LOCUS名称,前三个字母代表物种名第二项是序列长度第三项是序列分子类型第四项是分子为线性的第五项是GENBANK分类码第六项是最后修订日期P132利用ENTREZ检索系统对核酸数据搜索,输入如下信息,将获得什么结果AF114696AF114714ACCN。P35答获得序列访问号AF114696到AF114714之间的连续编号的序列。3相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上有什么优点答BLAST2序列分析工具,它能进行两条序列的精确比对,同时给出两序列的图形化比对结果和文本形式的联配结果。4MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件答(1)选择菜单FILE,(2)选择TEXTFILEEDITORANDFORMATCOVERTER工具,(3)调入需要转换的序列和相应的格式,(4)获得转换后的MEGA格式的文件并保存。5什么简约信息位点PI答指基于DNA或蛋白质序列,应用最大简约法构建系统发育树时,如果某个位点的状态存在两种或两种以上,每种状态出现两次或两次以上,这样的位点称简约信息位点。6以下软件的主要用途是什么THEMAINPURPOSEOFTHEFOLLOWINGSOFTWAREISWHATREPEATMASKER,CPGPLOT,SPLICEVIEW,GENSCAN,ORFFINDER,NEURALNETWORKPROMOTERPREDICTION答REPEATMASKER是对重复序列进行分析的软件GPGPLOT用来查找一条DNA序列中CPG岛,使用GARDINEGARDEN和FROMMER描述的方法SPLICEVIEW是对一段序列进行剪接位点的分析即其中的受体和供体位点GENSCAN是一种从头分析工具ORFFINDER是用来分析序列ORF的工具NEURALNETWORKPROMOTERPREDICTION神经网络启动子预测是另外一种分析启动子的方法7为下面的序列比对确定比对得分匹配得分1,失配得分0,空位得分1。7INORDERTODETERMINETHEFOLLOWINGSEQUENCEALIGNMENTALIGNMENTSCOREMATCHINGSCORE1,MISMATCHSCORE0,VACANCYSCORE1TGTACGGCTATATCCGCCTTA答TT1GC0T1A1CC1GG1GC0CC1TT1A1TT1AA1最后得分10(1)(1)11011(1)1148用UPGMA重建系统发生树,距离矩阵如下PHYLOGENETICTREESWERERECONSTRUCTEDUSINGUPGMA,DISTANCEMATRIXASFOLLOWS物种ABCDB9C811D121510E1518135答用NEWICK格式表示的树图(AC)B)(DE)。分析过程(1)两条序列间的最小距离是DDE,所以物种D和E聚到一组,如下图。2计算新的距离矩阵,其中复合物种(DE)替换D和E,如下表。其他物种与新物种组之间的距离由它们与组中两个物种(D和E)之间距离的平均值决定,如,D(DE)A1/2(DADDAE)1/21215135物种ABCB9C811DE135165115第二次聚类在A和C之间,组成AC类。如下图,DEDEDEAC3将A和C合并,计算新的矩阵,如下表,最后一次聚类(AC)B)将物种B的分支点放在(AC)和(DE)的共同祖先之间。物种BACAC10DE1651259画出4个物种的3棵不同的无根树这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列,标出最可能的候选核苷酸3棵可能的无根树中有几棵是一样简约的因为他们有最小替换数有几棵树的替换树是2,有大于2个替换的树吗DRAWFOURSPECIESTHREEDIFFERENTUNROOTEDTREETHESEFOURSPECIESOFTHENUCLEOTIDEATACERTAINPOSITIONARET,T,C,ANDC,FOREACHINTERNALNODEINTHEANCESTRALSEQUENCEDEDUCED,MARKEDMOSTLIKELYCANDIDATENUCLEOTIDES3POSSIBLEUNROOTEDTREEISTHESAMEASINTHESIMPLETREESBECAUSETHEYHAVEAMINIMUMNUMBEROFREPLACEMENTSREPLACEMENTOFAFEWTREESTREE2,THEREAREMORETHANTWOTREESREPLACEIT答DCBTADCBTCADCATBTCTT2棵一样简约,替换树为2;2棵;没有。10试述蛋白质三维结构预测的三类方法DESCRIBETHETHREETYPESOFPROTEINSTRUCTUREPREDICTIONMETHODS(1)同源建模,对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型,序列相似性低于30的蛋白质难以得到理想的结构模型;(2)在已知结模板的序列一致率小于25时,使用折叠识别方法进行预测;(3)在找不到已知结构的蛋白质模板时使用从头预测的方法。P178181ACDEDEACACBDEB11简述BLAST中E值和P值的意义BRIEFBLASTEVALUEANDPVALUESINTHEMEANING答E期望值EVALUE这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著性值E值小于该值10,则该比对结果将被检出,换句话说,比较低的E值将使搜索的匹配要求更严格,结果报告中随机产生的匹配序列减少。P值表示比对结果得到的分数值的可信度。一般说来,P值越接近于零,则比对结果的可信度越大;相反,P值越大,则比对结果来自随机匹配的可能性越大。12举例说明蛋白质序列、结构和功能的关系。EXAMPLEPROTEINSEQUENCE,STRUCTUREANDFUNCTIONRELATIONSHIPS答蛋白质的一级结构即氨基酸序列决定其高级结构和功能。通过比较同源蛋白质的氨基酸序列的差异可以研究不同物种亲缘关系和进化。亲缘关系越远,同源蛋白质氨基酸序列差异就越大。基因突变引起某个功能蛋白的某一个或几个氨基酸残基发生了遗传性替代,从而导致整个分子的三维结构发生改变,功能部分或全部丧失。一级结构的部分切除与部分蛋白质的激活具有密切关系。蛋白质多种多样的生物功能是以其化学组成和极其复杂的结构为基础的,不仅需要一定的空间构象,蛋白质的空间构象取决于其一级结构和周围环境。蛋白质的生物学功能是蛋白质分子天然构象所具有的的属性或所表现的性质。例如胰岛素。首先合成前胰岛素原,前胰岛素原含信号肽,在内质网中,信号肽被信号肽酶切除成为胰岛素原;随即在高尔基体切除A、B链之间的一段氨基酸(称为C肽),形成胰岛素。不同种属的胰岛素有24氨基酸残基的位置始终不变A、B链上6个CYS不变,其余18个氨基酸多数为非极性侧链,对高级结构起稳定作用。6个CYS的位置始终不变,说明不同种属的胰岛分子中A、B链之间有共同的连接方式,三对二硫键对维持高级结构起着稳定作用。请阐述生物信息学研究的主要内容。THEMAINCONTENTSOFBIOINFORMATICSRESEARCH生物信息学作为一门新的交叉学科,其研究范畴是以基因组DNA序列的信息分析作为出发点,分析基因组结构,寻找或发现新基因,分析基因调控信息,并在此基础上研究基因的功能,研究基因的产物即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于靶分子结构的药物分子设计和蛋白质分子改性设计提供依据。当前,生物信息学已在理论生物学领域占有了核心的地位。生物信息学主要有以下几个方面的研究内容。(1)生物分子数据的收集与管理;(2)数据库搜索及序列比较;(3)基因组序列分析;(4)基因表达数据的分析和处理;(5)蛋白质结构预测。从生物分子数据的收集和管理到数据库搜索,从基因组序列和基因表达数据分析到蛋白质结构与功能的研究形成生物信息学研究的主线,进一步的工作还包括药物分子设计和蛋白质设计。简述分子生物学中的“中心法则”。ABRIEFDESCRIPTIONOFTHE“CENTRALDOGMA“INMOLECULARBIOLOGYDNA是遗传物质,是携带遗传信息的载体。信息从基因的核苷酸序列中被提取出,用来指导蛋白质合成的过程对地球上的所有生物都是相同的,分子生物学家称之为中心法则CENTRALDOGMA。“中心法则”的核心DNA分子中的遗传信息转录(TRANSCRIPTION)到RNA分子中(即RNA聚合酶以DNA为模板合成RNA),再由RNA翻译(TRANSLATION)生成体内各种蛋白质,行使特定的生物功能。国际上有哪几个著名的核酸序列数据库THETHREEWELLKNOWNINTERNATIONALNUCLEOTIDESEQUENCEDATABASE核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GENBANKHTTP/WWWNCBINLMNIHGOV/WEB/GENBANK/INDEXHTML,欧洲分子生物学实验室的EMBLBANK(简称EMBL,HTTP/WWWEBIACUK/EMBL/INDEXHTML,日本遗传研究所的DDBJHTTP/WWWDDBJNIGACJP/)。三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。数据库中的每条记录代表一个单独、连续、附有注释的DNA或RNA片段。简述ALIGNMENT基本原理。THEBASICPRINCIPLESOFALIGNMENT两条序列的比对(ALIGNMENT)是指这两条序列中各个字符的一种一一对应关系,或字符对比排列。序列的比对是一种关于序列相似性的定性描述,它反映在什么部位两条序列相似,在什么部位两条序列存在差别。最优比对揭示两条序列的最大相似程度,指出序列之间的根本差异。对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除字符,使得两条序列达到一样的长度,并使两条序列中相同的字符尽可能地一一对应。设两条序列分别是S和T,在S或T中插入空位符号,使S和T达到一样的长度。在进行序列比对时,可根据实际情况选用代价函数或得分函数。两条序列S和T的比对的得分(或代价)等于将S转化为T所用的所有编辑操作的得分(或代价)总和,S和T的最优比对是所有可能的比对中得分最高(或代价最小)的一个比对,S和T的真实距离应该是在得分函数P值(或代价函数W值)最优时的距离。请简要介绍基因组序列分析步骤。THESTEPSOFGENOMESEQUENCEANALYSIS基因组序列分析步骤一般如下(1)发现重复元素。这是重要的一步,因为重复元素会给DNA序列分析带来许多问题。所以,一般先寻找并屏蔽重复的和低复杂性的序列,然后寻找基因以及与其相关的调控区域。(2)数据库搜索。通过数据库搜索,发现相似序列或者同源序列,根据相似序列具有相似结构及相似功能的原理,通过类比,得到关于待分析序列的初步信息,指导进一步的详细序列分析。(3)分析功能位点。其主要目的是识别DNA序列上存在的序列信号,具体地说,就是特殊的片段。这些片段与基因及调控信息有关,如转录剪切位点、启动子、起始密码子等。对于基因识别问题来说,信号识别有助于确定基因所在的区域。(4)序列组成统计分析。蛋白质编码区域与非编码区域在DNA序列组成上具有明显不同的统计特征,编码序列具有三联周期性,编码区域多联核苷酸出现频率与非编码区域不同。因而,可以通过统计分析预测基因的编码区域,预测一段DNA序列成为编码区域的可能性,寻找可能的基因外显子。(5)综合分析。综合数据库搜索、功能位点分析、序列组成分析等的阶段性结果,检查这些结果的相容性,经过整理,最终得到一致性的分析结果。请简要介绍基因识别及主要原理。THEGENERECOGNITIONANDMAINMETHODS由于DNA测序技术的迅速发展,我们已经得到一些完整的基因组序列,有效地解决基因识别问题显得越来越迫切。基因识别中的一个关键问题是预测编码区域。所谓编码区域预测,一般是指预测DNA序列中编码蛋白质的部分,即基因的外显子部分。而基因识别的最终目标是预测完整的基因结构,正确地识别出一个基因的所有外显子及其边界。识别DNA序列中蛋白质编码区域的方法主要有两类。一类是基于特征信号的识别。真核基因外显子(编码区域)具有一些特别的序列信号,如内部的外显子被剪切接受体位点和给体位点所界定,5端的外显子一定是在核心启动子(例如TATA盒)的下游,而3端的外显子的下游包含多聚信号和终止编码。根据这些序列特征信号确定外显子的边界,从而达到识别编码区域的目的。然而没有一个算法在预测基因时仅仅检测这些信号,因为这些信号的强度太弱,它们缺乏统计的显著性。另一类是基于统计度量的方法,对编码区进行统计特性分析。通过统计而获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用,而另一些则较少使用。这样就使得编码区的序列呈现出可察觉的统计特异性,即“密码子偏好性”。利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。基因识别方法又可以分成两大类,即从头算方法(或基于统计的方法)和基于同源序列比较的方法。从头算方法根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域。基于同源的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。请阐述基因组测序技术及其发展。THEGENOMESEQUENCINGTECHNOLOGIESANDTHEIRDEVELOPMENTDNA测序(DNASEQUENCING)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥嘌呤的(G)排列方式。一、传统的DNA测序技术SANGER测序法SANGER双脱氧链终止法是SANGER于1975年发明的。测序过程需要先做一个聚合酶连锁反应(PCR)。PCR过程中,DNA分子可能随机的被加入到正在合成中的DNA片段里。由于双脱氧核糖核酸多脱了一个氧原子,一旦它被加入到DNA链上,这个DNA链就不能继续增加长度。最终的结果是获得所有可能获得的、不同长度的DNA片段。目前最普遍最先进的方法,是将双脱氧核糖核酸进行不同荧光标记。将PCR反应获得的总DNA通过毛细管电泳分离,跑到最末端的DNA就可以在激光的作用下发出荧光。由于DDATP,DDGTP,DDCTP,DDTTP(4种双脱氧核糖核酸)荧光标记不同,计算机可以自动根据颜色判断该位置上碱基究竟是A,T,G,C中的哪一个。SANGERDNA测序技术经过了30年的不断发展与完善,现在已经可以对长达1,000BP的DNA片段进行测序了,而且对每一个碱基的读取准确率高达99999。二、第二代测序技术高速发展的高通量测序技术第二代测序技术主要是基于焦磷酸测序法。焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,在每一轮测序反应中,只加入一种DNTP,若该DNTP与模板配对,聚合酶就可以将其掺入到引物链中并释放出等摩尔数的焦磷酸基团(PPI)。PPI可最终转化为可见光信号,并转化为一个峰值。每个峰值的高度与反应中掺入的核苷酸数目成正比。3、第三代测序技术则是基于纳米孔的单分子读取技术这种方法读取数据更快、有望大大降低测序成本,改变个人医疗的前景。第三代测序技术的基本原理是在纳米孔中配置纳米电极,用电测方法测量一个DNA的核酸碱基排列。阐述利用生物分子数据进行系统发生分析基本原理THEBASICPRINCIPLEOFPHYLOGENETICANALYSISUSINGBIOLOGICALMOLECULARDATA在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。根据核酸和蛋白质的序列信息,可以推断物种之间的系统发生关系。其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么,这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个序列越相似,那么它们之间的进化距离就可能越小。为了便于分析,一般假设序列变化的速率相对恒定。请阐述分子系统发生分析过程。THEPROCEDURESOFMOLECULARPHYLOGENETICANALYSIS分子系统发生分析主要分成三个步骤(1)分子序列或特征数据的分析;(2)系统发生树的构造;(3)结果的检验。其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据。系统发生树的构建方法很多种。根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类。一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离,依据一定的原则及算法构建系统发生树。另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如DNA序列中的特定位点的核苷酸。建树时,着重分析分类单位或序列间每个特征(如核苷酸位点)的进化关系等。通过某种算法构造好一棵系统发生树之后,需要对树的合理性和可靠性进行分析。对于若干条序列,如果利用多种不同的分析方法进行系统发生分析,并且得到相似的进化关系,那么分析结果具有较高的可信度。简述蛋白质二级结构预测最近邻方法的基本思想和算法的执行过程。THEBASICIDEAANDIMPLEMENTATIONOFTHENEARESTNEIGHBORALGORITHMFORPROTEINSECONDARYSTRUCTUREPREDICTION最邻近方法(NEARESTNEIGHBORINGMETHODS)在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口扫描已知结构的训练序列,通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U与上述训练片段相比较,找出50个最相似的训练片段。假设这些相似片段中心残基各种二级结构的出现频率分别为FA、FB和FC,用它们预测片段U中心残基的二级结构,可以取频率最高的构象态作为U中心残基的二级结构,或者直接以FA、FB和FC反映U中心残基各种构象态可能的分布。请阐述用于蛋白质二级结构预测的CHOUFASMAN方法。THECHOUFASMANMETHODFORPROTEINSECONDARYSTRUCTUREPREDICTIONCHOUFASMAN方法是一种基于单个氨基酸残基统计的经验参数方法,由CHOU和FASMAN在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。在统计得出氨基酸残基倾向性因子的基础上,CHOU和FASMAN提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。请简要介绍用于蛋白质空间结构预测的同源建模方法。THEHOMOLOGYMODELINGMETHODFORPROTEINSPATIALSTRUCTUREPREDICTION同源模型化方法是蛋白质三维结构预测的主要方法。对蛋白质数据库PDB分析可以得到这样的结论任何一对蛋白质,如果两者的序列等同部分超过30,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠片层区域的一些细节部分有所不同。同源模型化方法的主要思想是对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。利用同源模型化方法建立结构模型的过程包括下述6个步骤(1)搜索结构模型的模板;2)序列比对;(3)建立骨架;(4)构建目标蛋白质的侧链;(5)构建目标蛋白质的环区;(6)优化模型。简答题1生物信息学数据库的组成包括哪些部分数据库有哪些类型BIOINFORMATICSDATABASECONSISTSOFWHATPARTSWHATTYPEOFDATABASE答生物信息学数据库的组成包括一级数据库和二级数据库。数据库的类型包括核算和蛋白质一级结构序列数据库、基因组数据库、生物大分子三维空间结构数据库、以上述3类数据库和文献资料为基础构建的二次数据库。2简要介绍GENBANK中的DNA序列格式。BRIEFINTRODUCTIONOFDNASEQUENCESINGENBANKFORMAT答GENBANK中的DNA序列格式可以分成三个部分,第一部分为描述符,从第一行LOCUS行到ORIGIN行,包含了关于整个记录的信息;第二部分为特性表,从FEATURES行开始,包含了注释这一纪录的特性,是条目的核心,中间使用一批关键字;第三部分是核苷酸序列的本身。3简要介绍FASTA序列格式答在生物信息学中,FASTA格式(又称为PEARSON格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。4生物信息学的基本方法有哪些WHATARETHEBASICMETHODSOFBIOINFORMATICS答1建立生物数据库核苷酸顺序数据库GENBANK、PROTEINDATABANKPDB、氨基酸顺序数据库SWISSPRO、酵母基因组数据库YEASTS、美国种质保藏中心ATCC、美国专利局数据库USPO等;2数据库检索如BLAST等;3序列分析序列对位排列、同源比较、进化分析等;4统计模型如隐马尔可夫模型HIDDENMARKOVMODEL,HMM基因识别、药物设计;最大似然模型MAXIMUNLIKELIHOODMODEL,ML、最大简约法MAXIMUNPARSIMONY,MP分子进化分析等;5算法如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络ARTIFICIALNEURALNETWORK等。5生物信息学的目标和任务BIOINFORMATICSOBJECTIVESANDTASKS答收集和管理生物分子数据;数据分析和挖掘;开发分析工具和实用软件生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具。6生物信息学主要研究内容。BIOINFORMATICSMAINCONTENT答(1)生物分子数据的收集与管理;(2)数据库搜索及序列比较;(3)基因组序列分析;(4)基因表达数据的分析与处理;(5)蛋白质结构预测。7为什么要构建生物分子数据库。WHYBUILDADATABASEOFBIOLOGICALMOLECULES答(1)生物分子数据高速增长(2)分子生物学及相关领域研究人员迅速获得最新实验数据。8预测基因的一般步骤是什么THEGENERALSTEPSPREDICTEDGENESWHAT1在DNA序列中索索重复序列2对序列做同源性检索3构建基因模型4揭示潜在基因的启动子信号与转录因子结合位点5POLYA位点的预测6装配外显子和翻译编码区7分析弱相似性序列,通过实验和蛋白质二级结构及功能模体来验证预测结果的真实性。9生物信息学所用的方法和技术。BIOINFORMATICSMETHODSANDTECHNIQUESUSED答(1)数学统计方法;(2)动态规划方法;(3)机器学习与模式识别技术;(4)数据库技术及数据挖掘;(5)人工神经网络技术;(6)专家系统;(7)分子模型化技术;(8)量子力学和分子力学计算;(9)生物分子的计算机模拟;(10)因特网(INTERNET)技术。10国际上权威的核酸序列数据库有那些THEINTERNATIONALAUTHORITYOFTHENUCLEICACIDSEQUENCEDATABASESARETHOSE答(1)欧洲分子生物学实验室的EMBL。(2)美国生物技术信息中心的GENBANK。(3)日本遗传研究所的DDBJ。11生物信息学在基因芯片中的应用有哪些BIOINFORMATICSAPPLICATIONSINGENECHIPWHAT答(1)确定芯片检测目标。(2)芯片设计。(3)实验数据管理与分析。12生物信息学分析的数据对象主要有哪几种这些数据之间存在着什么关系BIOINFORMATICSANALYSISOFTHEDATAOBJECT,WHICHHASSEVERALMAJORTHESEDATARELATIONSHIPEXISTSBETWEENWHAT答其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能。生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计。13基因芯片对于生物分子信息检测的作用和意义MICROARRAYFORDETECTIONOFBIOMOLECULESROLEANDSIGNIFICANCEOFTHEINFORMATION答在生命科学领域中,基因芯片为分子生物学、生物医学等研究提供了强有力的手段。利用基因芯片技术,可研究生命体系中不同部位、不同生长发育阶段的基因表达,比较不同个体或物种之间的基因表达,比较正常和疾病状态下基因及其表达的差异。基因芯片技术也有助于研究不同层次的多基因协同作用的生命过程,发现新的基因功能,研究生物体在进化、发育、遗传过程中的规律。14在基因组序列分析方面,科学家关注哪些信息SEQUENCEANALYSISOFTHEGENOME,SCIENTISTSCONCERNEDABOUTWHATINFORMATION答就人类基因组而言,编码区域在人类基因组所占的比例不超过3。其余97是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(MOBILEELEMENT)及其遗留物、伪基因(PSEUDOGENE)等。15为什么要进行序列片段组装在进行序列片段组装时会遇到哪些问题答大规模基因组测序得到待测序列的一系列序列片段,这些序列片段覆盖待测序列,序列片段之间也存在着相互覆盖或者重叠。遇到的问题碱基标识错误;不知道片段的方向;存在重复区域;缺少覆盖。16序列分析的任务和目的分别是什么WHYTHESEQUENCEFRAGMENTASSEMBLYDURINGTHESEQUENCEFRAGMENTSASSEMBLEDWHATPROBLEMSWILLBEENCOUNTERED答任务(1)发现序列之间的相似性;(2)辨别序列之间的差异。目的(1)相似序列相似的结构,相似的功能(2)判别序列之间的同源性(3)推测序列之间的进化关系17PCR引物设计有哪些原则WHATPRIMERDESIGNPRINCIPLES1引物应用核酸系列保守区内设计并具有特异性。2产物不能形成二级结构。3引物长度一般在1530碱基之间。4GC含量在4060之间。5碱基要随机分布。6引物自身不能有连续4个碱基的互补。7引物之间不能有连续4个碱基的互补。8引物5端可以修饰。9引物3端不可修饰。10引物3端要避开密码子的第3位。18生物分子数据类型有哪些WHATTYPESOFBIOMOLECULARDATA答案DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据、19基因识别GENEIDENTIFICATION答案基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。简答题1生物信息学研究意义BIOINFORMATICSRESEARCHSIGNIFICANCE答(1)认识生物本质。了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。(2)改变生物学的研究方式。改变传统研究方式,引进现代信息学方法(3)在医学上的重要意义。为疾病的诊断和治疗提供依据,为设计新药提供依据2DNA双螺旋结构模型的意义DNADOUBLEHELIXMODELOFMEANING答(1为合理解释遗传物质的各种功能、解释生物的遗传和变异、揭示自然界色彩纷纭的生命现象奠定了理论基础;(2揭示了生命世界多样性和生命本质的一致性的辨正统一;(3现代生命科学的里程碑。3什么是序列比对及其基本分类WHATISTHESEQUENCEALIGNMENTITSBASICCLASSIFICATION答序列比对SEQUENCEALIGNMENT是通过在序列中搜索一系列单个性状或性状模式来比较2个(双序列比对)或更多(多重序列比对)序列的方法。序列比对的分类A、双序列比对两条序列的比对。B、多序列比对三条或以上序列的比对1、序列比对(ALIGNMENT)是如何实现的SEQUENCEALIGNMENTALIGNMENTISHOWTOACHIEVE通过插入间隔(GAP)的方法使不同长度的序列对齐(长度一致)优化的序列排列应使间隔的数目达到最小,同时使相似性区域的长度达到最大2、序列分析可以用来做什么SEQUENCEANALYSISCANBEUSEDTODOWHAT核酸序列相似性,调控位点,转录起始、转录终止位点,翻译起始、密码子,终止位点,外显子,内含子(可变剪切位点),酶切位点,RNAI;蛋白质序列相似性,结构域,亚细胞定位,表达谱(也可以是核酸分析内容)对于编码序列的分析遗传密码20种氨基酸及密码偏好、转录起始终止;5URT和3UTR;酶切位点;亚细胞定位分析;二级结构和结构域分析,以及根据结构域和蛋白家族预测蛋白的功能;表达谱分析对于表达调控信息的分析基因在染色体上的定位;翻译起始位点、剪切位点转录调控元件(原核、真核);甲基化修饰位点(CPGISLAND)、MIRNA基因表观遗传学5、分子生物学数据库有哪些类型各有何特点WHATTYPESOFMOLECULARBIOLOGYDATABASESWHATARETHECHARACTERISTICS基因组数据库基因组测序核酸序列数据库核酸序列测定一次数据库蛋白质序列数据库蛋白质序列测定。生物大分子蛋白质三维结构数据库X衍射和核磁共振特点数量少,容量大,更新快二次数据库上述四类数据库和文献资料为基础构建特点数量多,容量小,更新慢6、简述NCBIENTREZ系统的功能。FUNCTIONOFTHESYSTEM高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。7、简述NCBIBLAST的功能和种类。FUNCTIONANDTYPES序
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 浙江省诸暨市荣怀小学2024-2025学年六年级上学期期末考试语文试题
- 汉字对话课件
- 网红经济现状与未来趋势分析
- 2025年农村土地转让协议模板
- 2024年秋新北师大版数学一年级上册教学课件 第二单元 5以内数加与减 第5课时 可爱的小猫
- 水表井安全知识培训课件记录
- 燃气设备紧急故障应急方案
- 混凝土施工过程中的温差控制技术方案
- 建筑工程项目施工现场物流与仓储方案
- 消防疏散指示标志设置方案
- 医院安保课件
- 文印员考试题库及答案
- 2025年涂料行业研究报告及未来发展趋势预测
- 2025年部编版新教材语文九年级上册教学计划(含进度表)
- 2025河北唐山某国有企业单位招聘劳务派遣工作人员44人笔试参考题库附带答案详解(10套)
- 留疆战士考试题库及答案
- 班主任与家长沟通课件
- 2025年安庆怀宁县事业单位招聘考试试题【答案】
- 预防残疾知识讲座课件
- 浪漫七夕领证活动方案
- 大型活动策划组织与执行合同
评论
0/150
提交评论