生物信息复习资料.doc

上传人：乐*** IP属地：江苏上传时间：2020-03-21 格式：DOC 页数：8 大小：57.50KB 积分：12 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

生物信息名词解释1、相似性：描述序列相关性的量，同源蛋白质总在三维结构上有显著的相似性。2、一致性：描述序列相关性的量，两序列同源时，他们的氨基酸或者核苷酸里通常具有显著的一致性。3、生物信息学：20世纪分子生物学与计算机学交叉产生的新学科，用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸（基因组）。4、蛋白质组学：对高通量蛋白质数据库进行分析的生物信息学工具与方法。能够大范围的为蛋白质制定功能，确定蛋白质在哪个特殊生理条件下会出现，确定蛋白质之间的作用。5、比较基因学：利用生物在进化上的亲缘关系，给予基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达家里和物种进化，来比较他们与人类之间的相似与相异，即比较基因组学。6、同源（直系/旁系）：两条序列之间有一个共同的祖先，那么他们就是同源的，直系同源序列是不同物种内的同源序列，来自物种形成的共同祖先基因；旁系同源基因是通过类似基因复制的机制产生的同源序列。7、 Blast：基本局部比对搜索工具，NCBI用来将一个蛋白质或DNA序列和各种数据库中其他序列进行比对的主要工具，是研究一个蛋白质或基因的最基本方法之一。8、家族（family）：一组金华市相关的共享一个或多个结构域/重复域的蛋白为一个家族。9、结构域（模块）/domain（module）：蛋白质中能折叠成特定三维结构的一段区域。10、模体（指纹）/motif（fingerprint）：蛋白质序列中较短的保守区域，通常指按一定模式排列的氨基酸残基，通常决定一个家族。11、重复：重复区并不但年度折叠成一个球状的结构域，还包括一些短的重复模体序列。12、PBD数据库：蛋白质和其他大分子结构的仓库，复制搜集蛋白质的结构信息，收录大量蛋白质三维结构文件，记录有原始结构数据，包括院子坐标，配基的化学结构和晶体结构的描述，通过评估模型质量和它们与实验数据的吻合程度来证实结构，目前拥有超过20000个结构记录。13、多序列比对：一组可以部分或整体对齐的蛋白质或核酸序列。相同或相似的氨基酸残基排列在同一列上，这些残基在进化上是同源的，对于关系很近的一组序列很容易产生多序列比对。14、生物信息学数据库：是便于生物学数据的高速积累以及各种生物学信息方便获取的数据库。15、TIGR基因索引：是按数十个物种特异性数据库组织起来的一套EST数据。16、微阵列：有一块固定支持物和附着其上以规则的网格形式排列的序列已知的DNA组成。17、同源性预测：一个基因组被测序后，那些有潜在可能是编码蛋白质的序列被找了出来，如果这些序列中有与EC提供的列表中酶同源的序列，我们可以假设它们与同源酶具有相同或相似的功能。18、隐马模型：是序列比对的一个有力工具，它是一个描述每个位点AA残基出现概率的概率模型。填空1、生物信息学发展经历了哪几个时期：萌芽期、形成期、高速发展期、后基因组时代。2、生物信息学领域的三个视角：细胞、单个生物体、生命之树。3、专门BLAST比对的网站有哪些分类及举例：NCBI、ENSEMBL、TIGB。4、 BLAST搜索的策略：将搜索限制在一个物种、更改打分矩阵来找很远的同源关系、更改空位罚分。5、从Unigene获取信息的方法：电子RNA印记法、cDNA文库的电子扣除。6、细胞通路数据库有哪些：ECOCYC/METACYE数据库、KEGG数据库、DRAGON数据库。7、基因表达的步骤：转录、RNA加工、mRNA转运、RNA监控。8、基因表达的研究对象：mRNA。9、多重比对数据库资源有：Pfam、SMART、保守结构域数据库、BLOCKS、PRINTSPROSITE、综合的多重比对资源、PopSet、多序列比对编辑：手工与自动。简答题1、序列比对的定义和意义基因和蛋白质的相关性分析是又序列比对来完成的，完成基因组测序后，寻找物种内和物种间蛋白质的相关性对我们理解生命来说越来越重要。2、生物信息学数据库的类型GenBank、DDBJ、EBI，还包括：（1）提供人类基因组和其他基因组注视的数据库；（2）存储特定基因或蛋白质的核酸或蛋白质序列数据库；（3）有一系列数据库记录了共享某种性质的序列和信息；（4）有上百个数据库存储了和人类疾病相关的疾病相关基因突变的序列信息；（5）许多数据库是针对特别的物种而设计；（6）一些数据库记录了特殊类型的核酸或蛋白质或者和这些大分子有关的某种性质的数据；（7）有些数据库存储的核酸或蛋白质序列不是公开的；（8）问下数据库存储了生物学研究的参考信息和文献，部分还提供了全文的链接；（9）结构数据库记录了蛋白质和其他大分子的结构信息3、蛋白质与DNA比对哪个更有意义？蛋白质（1） DNA序列的许多改变不会改变对应的氨基酸；（2）氨基酸的相似理化性质在比对时可以用同一打分系统来描述其相关性，在这方面DNA提供的信息较少；（3）蛋白质序列比对能确定来自各物种的同源序列（10亿年），DNA序列在一般情况下最多回溯到6亿年前；（4）分析一个核苷酸编码序列时很容易将DNA换成蛋白质。4、什么时候需要使用DNA比对？在确认给定DNA序列和DNA数据库中的序列一致性，在搜索多态性时，在分析所克隆的cDNA片段的一致性时，或者在其他许多情况下，核苷酸的比较就显得重要。5、 PAM Blosum矩阵及其关系（1） Blosum矩阵是大多数BLAST算法的缺省矩阵，其取代频率对一致性62%的蛋白质对检测仅有微弱打分的比对特别有用；（2） PAM与Blosum都在打分系统中使用对数比值；（3） PAM是基于近相关蛋白家族数据的，并假设高度相关蛋白的取代概率，可以外推远相关蛋白的概率；（4） Blosum是基于实际观察到的远相关蛋白比对；（5）高值Blosum和低值PAM适合于研究高度保守的蛋白，低值Blosum和高值PAM适合于检测远相关蛋白。6、 Needleman-Wunsch算法的原理能参赛蛋白质和DNA最优化必会，允许引入间隙。该算法结果是最优化的，但没有穷举所有可能的比对。（1）设置一个矩阵，在一个二维矩阵中比较两条序列；（2）给矩阵打分，确定一个最佳比对；（3）确定最佳比对。矩阵赋值完后可以通过一回溯方法确定比对。最佳路径是通过最佳子路径得到的。总目标是沿矩阵对角线找的一条获得最大分值的路径，这条露酒确定最佳比对。7、 Smith-waterman两种算法的原理两条蛋白质和DNA序列部分比对的最严格算法，比对的是蛋白质的结构域而不是整条序列。与全局比对相似，两条蛋白质排在一个矩阵中，沿着对角线搜索最佳路径，但中间某点开始比对不存在罚分情况，比对不需要延至序列两端。8、 Fasta算法的四个步骤（1）生成一个查询表，包括数据库中最短的氨基酸和核苷酸片段，片段长度有参数KTUP决定，对于一个给定的KTUP值产生10个最高分值的片段；（2）对这10个匹配区域重新打分，允许有保守性替换，打分中使用打分矩阵；（3）属于统一蛋白质的高分值区域连在一起；（4）在高分值序列上执行全局或局部比对，优化查询序列和数据库匹配序列的比对。9、 Blast算法步骤（1）选择比对工具：蛋白质用BLASTP，DNA用BLASTN；（2）输入序列或者它们的ACCESSION NUMBERS；（3）选择参数：打分矩阵，改变间隙产生和延长的罚分，改变奖励和罚分值，期望值，过滤和截断值等等；（4）点击ALIGN，选择了合适的打分矩阵和间隙罚分，只有一个比对返回。10、显著性检验的指标（1）敏感性：搜索算法发现真阳性的能力，为真阳性和假阴性的和；（2）特异性：搜索算法发现不显著相关序列的能力，为真阴性初一真阴性与假阳性的和。11、Blast的应用（意义与作用）确定特定蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列；确定哪些蛋白质和基因在特定物种中出现；确定一个DNA或蛋白质序列的身份；发现新基因；确定一个特定基因或者蛋白质有哪些已经发现了的变种；研究可能存在多种剪接方式的表达序列标签；寻找对于一个蛋白质的功能和结构起关键作用的氨基酸残基。12、Blast搜索步骤选择一个序列，粘贴到BLAST的输入框中。选择一个程序。选择一个用于搜索的数据库。为搜索和输出格式选择可选参数。，后点击，得到结果。13、BLAST的算法组成列表：编辑高于域值的字段（W=3）列表，查询序列得出字段，与查询匹配的字段列表。扫描：在书库中扫描与编辑列表匹配的记录。延伸：向两端延伸匹配序列，直到分数下降。14、e值及特点表示期望值，即在一次数据库搜索中随机条件下期望发生的得分等于或优于S的不同比对的数目。提供一个对于BLAST搜索中假阳性结果的估计。E=Kmne-*s。特点：随着S的增加呈指数下降。比对一个随机的氨基酸对的期望分数必须是负的。数据库的大型以及查询序列长度将影响某个特定比对随机发生的可能性。15、原始分与比特分比较原始分数是又所选择的代替矩阵和空位罚分参数计算得到，比特分是又原始分数通过用描述指定的打分系统的统计变量进行归一化处理后得到的，16、e值与P值的关系P值和E值是反映比对显著性的两种不同的方式，P=1-e-E，但是BLAST结果只列出E值而不是P值。17、怎样评估结果的显著性E值比对情况期望值是不是显著；两个蛋白质是不是具有近似的大小；两个蛋白质是否有共同的模体或信号序列；两个蛋白质是不是一个合理的多序列比对的一部分；两个蛋白质是否有一个相似的生物学功能；两个蛋白质是否具有相似的三维结构。18、评价结果过多或过少的处理过多：在Limit by entrez query窗口输入Refseq;利用生物体的种类对数据库反馈结果做出限制；利用序列的一部分进行搜索；调整打分矩阵使其更恰当地体现你的QUERY和数据库匹配项之间的相似度；调整期望值。过少：去掉ENTREZ限制；提高期望值；尝试更高PAM值或更低SLOSUM值的打分矩阵。19、基因组的BLAST分析可以解决哪些问题运用比对相似的工具快速地搜索基因组DNA序列；寻找远缘相关的蛋白质；模式识别BLAST：判断这个电子属于哪个家族；发现新基因。20、位点特异性显著比较的5个步骤常规的BLASTP在目标数据库中进行比对搜索；从结果中构建多序列比对，为每个比对建立一个专门的搜索矩阵；用得到的定点评分矩阵再一次搜索原来的数据库；比对后用缺少比对的参数检验每个匹配的统计显著性；重复2到4步，一般重复5次，当新结果不再出现或者程序明确指出不会有新结果出现时，可以停止比对循环。21、PIS-blast错误问题及解决方法出现错误的最主要问题在于不断找到一些无关的假阳性序列，特别是蛋白质含有高度偏好性氨基酸组成的时候这个问题可能更严重。解决方法：运用一个过滤算法将偏好性氨基酸区域去除掉；将阈值从默认设置调整为一个较低的值；能用肉眼来检查每一次PIS-blast循环。22、怎样通过BLAST发现新的基因用一个已知序列的蛋白质开始TBLAST比对，搜索一个DNA数据库；检查结果：寻找与已知蛋白质，相关蛋白质的DNA序列匹配，非显著序列的匹配；进行BLASTX NR或BLASTP NR比对；用你新发现的DNA或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个新的基因或蛋白质。23、基因表达调控的几种基本方式组织部位的差别；不同的发育阶段；对环境信号的动态响应；处于疾病状态；基因活性。24、基因表达的研究方法通过产生表达序列标记构建CDNA文库，并可在UNIGENE中进行电子比较；基因表达序列分析是另一种可比较转录产物丰度的技术，也可以做电子方式的研究；复杂的CDNA混合物可以被放射性或荧光标记，并在含有CDNA或对于数千个基因的寡核苷酸的DNA微阵列上杂交。25、用CDNA文库解释基因表达数据的缺陷选择建立什么文库有研究者决定，所以可能会较多偏向较熟悉的组织，较少偏向不寻常组织；一个文库被测序的程度影响其对原细胞或组织内容的代表能力；有一种偏离来源文库的构建；EST一般仅在双链中的一条链上被测序，而不是对2条单链都测序，所以相对完全测序，出错率更高；嵌合序列可能污染CDNA文库。26、基因表达序列分析（Sage）定义及过程定义：通过测量感兴趣的组织中大量转录产物，实现对基因表达的定量测量。从转录3端分离出长911BP的DNA序列作为标签，测序后赋予该基因。过程：从感兴趣样本中分离RNA，用生物素化的聚脱氧胸苷引物转化成CDNA；用限制性酶消化总体转录产物，得到一些短片段，转录产物的3端被束缚在链霉素抗生物素蛋白的微珠上；将两种接头各自添加到CDNA上，经特殊的限制性酶切释放出带有接头的CDNA短片段（即“标签”）；将标签连接起来，克隆后测序。每个标签都可能对应于一个基因。27、TIGR基因索引内容及特点内容：TIGR对EST序列的分析方法注重于将其聚集成所谓假设一致性序列的具有唯一性的基因，通过强调聚类和集合，生成和基因对应的一套一致性序列。特点：对于用UniGene数据不容易处理的问题，TIGR可能更合适；TIGR真核基因直系同源数据库由通过TC序列的两两比对得到的直系同源基因组成，可以对数十种生物中的同源基因进行比较；可以通过blastn和tblastn访问。28、微阵列原理及步骤原理：RNA常常被转换成cDNA做荧光或放射性标记后在阵列上杂交，杂交过程中，由来自生物样本的RNA分值转换得到的cDNA将选择性地和微阵列表面上响应的核酸杂交。步骤：微阵列的实验设计；RNA的制备和探针制备；将标记后的样本和DNA微阵列杂交；图像分析；数据分析；生物学证实；微阵列数据库；深入分析。29、微阵列优缺点优点：快速，详细、灵活。缺点：费用高、RNA的意义不清楚、质量控制的不确定性。30、蛋白质的理化性质有哪些分子量、等电点、氨基酸的组成成分、糖基化位点、磷酸化位点、酪氨酸硫化位点、沉降系数、分子半径、跨膜区结构域、氨基酸模体等。31、基因本体（GO）的三个组成部分分值功能：指单个基因产物分子所执行的任务；生物过程：指基因产物所联系的一个大的生物功能或者是说它们要完成的一个大的生物目标；细胞组分：指一个蛋白质的亚细胞定位。32、蛋白质的细胞定位蛋白质的基本性质之一。mRNA通过核糖体被翻译成蛋白质，一定蛋白质的翻译在细胞质中完成而另一些会被插入内质网膜上或质膜上，插入过程可能和翻译同时进行，也可能翻译后进行，随后通过第2条途径转移到高尔基体，再进一步定位到细胞内各个细胞器中或细胞表面。但是很多蛋白质不能被单一确定在细胞一个固定位置上，蛋白质都有合适的定位以为其一级结构中固有的定位信息。33、蛋白质的功能蛋白质功能的定义是它们在细胞中所起的作用，以不同的方式与细胞环境接触以促进细胞生长和行使它们的功能：每个蛋白质都有生化功能，生化功能和蛋白质分值功能的内在含义是一致的。通常利用搜索同源蛋白质的方法来预测一个蛋白质的功能。在结构的基础上预测一个蛋白质的功能。所有蛋白质都在其他蛋白质或分子存在的环境下行使功能。很多蛋白质只在一个生化路径的某一步起作用。很多蛋白质执行功能的过程充当一个很大的生物过程的一部分；还可以在蛋白质组的水平上来考虑一个蛋白质的功能。34、蛋白质组学定义及原理定义：对高通量蛋白质数据进行分析的生物信息学工具和方法。原理：每个蛋白质的生化性质都不相同，它们因为自身大小、所带电荷或疏水性等造成的与各种树脂的亲和力也不相同。35、蛋白质组学（四种方法的优缺点及原理）二维凝胶电泳：分离出来的成分可以通过直接蛋白质测序或质谱技术来确定其性质。但不能对多个样品进行并行的高质量处理，只能检测到含量较高的蛋白质，需要很强专业技术。亲和层析和质谱：有选择地对蛋白质进行测序，分离和检测由多个蛋白质组成的基因，建立在实验假设之上，易包括造成假阴性和假阳性结果。酵母双杂交系统：检测蛋白质蛋白质互相作用的一种方法，有很强的通用性。存在很多与假阴性和假阳性的结果的相关问题。ROSETTASTONE方法：分析已知序列，预测可能存在的蛋白质蛋白质互相作用。建立在假设基础上，有较多假阴性和假阳性结果。二维凝胶电泳原理：蛋白质或者核酸因为带电荷，所以将他们放在电场中时他们会做迁移运动，变性的蛋白质通过惰化和多空化处理的丙烯酰胺凝胶网格时，他们的迁移速度和他们的大小近似成反比关系。亲和层析和质谱原理：配体会结合在柱子的网格上，这种结合是化学性的。酵母双杂交系统原理：蛋白质间存在互相作用。Rosetta Stone方法原理：一些编码在一个基因组不同基因中的蛋白质对，在另外一个基因组中却融合成了一个蛋白。36、典型结构生物学与结构基因组学的比较典型结构生物学：基于一直的功能或活性对蛋白质进行纯化，产量足够的时候结晶后测其结构，然后反过来进一步研究其生化特性与作用机理；产量不足则将相应CDNA克隆，表达足够的重组蛋白进而纯化以供结构分析。结构基因组学：从基因组DNA出发预测蛋白质编码区，通过表达或计算机模拟得到蛋白质，用X射线晶体衍射或核磁共振获得三维构象或计算机预测三维构象，基于结构特征确定该蛋白质生化过程中的作用。37、蛋白质结构的基本原理一般指从一级结构到二级结构，初级阶段指多肽链中线性的氨基酸残疾序列，二级结构按初级结构由一定的方式折叠组装而成，如螺旋，折叠，无规则卷曲，三级结构域在三维空间按一定的方式排列而成，四级结构是由几条有三级结构的肽链组成。38、确定蛋白质三级结构的方法通过实验方法：主要是核磁共振和X射线晶体学技术；比较同源建模方法：将目标蛋白质序列与一个或几个已知结构的同源蛋白质进行比较，从而预测目标结构；从头预测方法：仅通过物理学原理来预测目标结构。39、蛋白质折叠数据库（结构分类数据库）SOCP：基于一种分级分类系统提供对蛋白质结构和进化关系的综合描述。分类为：类、折叠子、超家族、家族、蛋白质结构域、单个PDB蛋白结构记录。CATH：DALI结构域字典的数字式分类系统对所有的PDB结构进行了分类，通过对所有的PDB中所有的蛋白质结构进行综合比较后构建的折叠空间图谱，按照不同的层次将这些结构进行类聚，每一个结构域都有一个分类编号，通过关键词进行查询。FSSP：基于蛋白质结构比对的折叠分类，将PDB中所有结构进行比较后保存所有长度大于30个残基的结构。40、蛋白质结构的生物信息学方法同源建模定折叠类型并选定模板；将目标与模板对其；建立模型；评估模型。从头预测由自由能全局最小化判断对蛋白质进行模拟折叠，并不与已知的蛋白质结构进行比较。设蛋白质天然构象位于全局能量最小点；寻找自由能最小的三级结构；建立模型；评估模型。41、同源建模与从头预测的使用比较当目标序列月某个已知结构蛋白具有同源迹象时，同源建模是最有效的方法。当同源性不足时可以用从头预测的方法进行结构预测。42、Feng-dodittle的渐进比对的算法过程最常用的渐进比对，需要先对所有序列进行两两比对的分值，然后从关系最近的一对序列开始逐步加入其他序列：所有系列进行两两比对；利用相似度矩阵产生辅助向导树，反映所有蛋白序列间的进化关系；根据向导树的位置关系建立多重比对。43、多序列比对网上资源的获取方式通过许多序列比对数据库，用关键词或任意序列进行搜索查询以及序列或新序列；用手动方式对输入的一种蛋白质或核酸序列产生多序列比对。44、人类基因组计划的主要结论1）目前所知人类基因的数目约为21,000个。这个数目远远低于以前的估计值。2）人类的基因数与某些动物和植物的基因数大致相同，并且与一些更简单的生物线虫和果蝇基因数相差不大3）人类蛋白质组比无脊椎动物蛋白质组复杂得多4）根据最初的报告，223个人类基因是通过水平基因转移(lateral gene transfer)从细菌中获得的。5）人类基因组中98% 以上的部分不编码基因。而且，

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

生物信息复习资料.doc

文档简介

温馨提示

最新文档

评论

生物信息复习资料.doc

文档简介

温馨提示

最新文档

评论

相关文档