已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 生物信息学导论1、什么是生物信息学?学习生物信息学一般需要哪几个方面的基础?研究对象?研究内容?答:生物信息学(Bioinformatics) 是一门交叉学科,它综合运用数理科学和信息科学中的理论和方法,以计算机为工具对生物学实验数据进行收集、加工、储存、传播、检索和分析,以揭示数据所蕴含的生物学意义。基础:数学、信息学、计算机科学研究对象:核酸、蛋白质等生物大分子数据库。研究内容:开发数据库和工具来存储、管理、使用生物学数据,开发算法、软件来对生物学数据进行分析和解释,出版生物信息学文献、书籍、资料第二章 生物信息学数据库1、数据库分类,一级数据库,二级数据库答:数据库的分类:一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释1、核酸序列数据库2、蛋白质序列数据库3、生物大分子结构数据库4、基因组数据库二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的三大核酸序列数据库:美国生物技术信息中心的GenBank ,欧洲生物信息学研究所的EMBL ,日本国立遗传研究所的DDBJ 2、Entrez检索系统, 常用的数据库有哪些,有什么用途? Entrez是NCBI开发的综合数据库检索工具| GenBank: 核酸序列数据| RefSeq:Reference Sequence (参考序列数据)| Genome:基因组数据| Gene: 为每个基因建立一个文本描述条目| UniGene: 归纳每一个基因的EST, mRNA, 蛋白质序列| GEO: 基因表达数据| SNP: SNP位点数据库| Structure: 记录大分子三维结构数据第三章 Blast与数据库搜索1、序列similarity和序列homology有何区别和联系?(1)相似性(similarity):是一种数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。(2)同源性(homology):这是质的判断,指从一些数据中推断出的两个基因或蛋白质序列是否具有共同的祖先。序列相似性比较:r 将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性r 常用的程序包有BLAST、FASTA等序列同源性分析:r 将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。2、什么是Blast,BLAST的基本原理是什么?,有哪几种Blast,其查询和比对的序列是什么?BLAST: Basic Local Alignment Search Tool是一种基于局部双序列比对的数据库相似性搜索工具BLAST的算法:BLAST先找出某些“种子”,即探测序列和数据库序列间非常短的匹配的片段对,它们的比对得分至少是T,然后向两端不带空格地扩展这些种子,并使用替换矩阵计算得分,直到达到最大可能得分。程序并不持续地对种子进行扩展,当得分低于某个既定的阈值时便停止。程序名探测序列数据库类型方法Blastp 蛋白质 蛋白质 用蛋白质探测序列搜索蛋白质序列数据库Blastn 核酸 核酸 用核酸探测序列搜索核酸序列数据库Blastx 核酸 蛋白质 用核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库tBlastn 蛋白质 核酸 用蛋白质探测序列搜索核酸序列数据库,核酸序列按6条链翻译成蛋白质tBlastx 核酸 核酸 将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列的数据库3、序列相似度聚类的含义?序列相似度聚类定义:设P为包含n条序列的序列数据集(核酸或蛋白质),序列相似度聚类是指寻找P上的划分P1, P2, Pk,使属于同一划分的序列间的相似性尽量大,而属于不同划分的符号序列间相似性尽量小。第四章 多序列比对1.什么是多序列比对? ClustalX的基本原理步骤?Muscle基本原理和步骤?多序列比对结果编辑软件CINEMA多序列比对(Multiple Sequence Alignment, MSA)可表示为一张表,表中每一行代表一个序列,每一列代表一个残基(或碱基)的位置,序列排列满足下列规则:| 每一条序列所有字符的相对位置保持不变| 同一列上的字符尽可能的相同或相似Clustal X的步骤:1.使用动态规划法构造每个序列的配对比对,包括Clustal W在内的许多比对算法在这一步使用距离矩阵而不是相似性矩阵来描述序列间的关联性;第二,由距离矩阵构造一颗指导树,树的两个主要特征是拓扑结构和分支长度,它一般并不当作是种系树,只反映了参与比对的多个序列如何相关联,用来确定向正在进行的多序列比对中加入新序列的次序;第三,以计分最高的配对比对作为多序列比对的种子,根据指导树逐渐向多序列比对中加入序列。MUSCLE的三个步骤:首先,使用渐进多序列比对产生一个初始结果,其中含有根据每对序列的相似性计分构造的一颗指导树;其次,重新计算相似性计分,据此改进指导树并再用渐进多序列比对产生一个更新的结果,这一过程迭代地进行;再次,算法根据新计算的计分值是否增加而决定是接受还是拒绝新产生的比对结果。CINEMA(Color Interactive Editor for Multiple Alignments):一种多序列比对结果编辑软件r 特点:拖放式编辑,多motif的选择与操作,显示蛋白质结构第五章 分子进化与系统发育分析1.何谓分子钟?有何实际应用意义?答:分子钟指DNA或蛋白质序列的进化速率随时间或进化谱系保持恒定。实际意义:进化时间的估计。2.直系同源和旁系同源的含义?答:Ortholog (直系同源物):两个基因通过物种形成的事件而产生,或者两个物种中的同一基因,一般具有相同的功能Paralog (旁系同源物):两个基因在同一物种中,通过至少一次基因复制的事件而产生3.分子进化有哪两层含义?答:1.分子进化是对不同生命进化树的分支的基因和蛋白质的变化来进行研究。 2.从分子水平上说,进化是对突变进行选择的过程。4.何谓分子进化的中性理论?答:1. 分子进化速率的恒定性。 2. 分子进化的保守性。 3. 进化过程中,对分子功能不损害或损害轻的突变较之损害严重的突变容易发生。 4. 具有新功能的基因一般起源于基因重复。 5. 在分子水平上所看到大部分进化是对自然选择既非有利也非不利的中性突变,且由于随机漂变使之在群体中固定。 5.分子进化中性学说的中心论点: 在生物分子层次上的进化改变不是由自然选择作用于有利突变而引起的,而是由选择中性或非常接近中性的突变的随机固定造成的。6.构建系统发育树的主要步骤?答:1. 选择序列进行分析。 2多系列比对。 3. 建树。 4. 可靠性分析。第六章 基因组测序与注释1.经典的DNA测序方法有哪几种,其测序的原理?答:1. Sanger双脱氧链终止法(Sanger和Coulson1977) 基本原理: 在合成与单链DNA互补的多核苷酸链过程中加入双脱氧核苷酸,使合成的互补链在不同位置随机终止反应,产生只差一个核苷酸的DNA分子,最后通过电泳来读取待测DNA分子的顺序。 2. Maxam-Gilbert DNA化学降解法 (Maxam和Gilbert,1977)基本原理:在选定的核苷酸碱基中引入化学基团,再用化合物处理,使DNA分子在被修饰的位置降解。 3. 自动化测序基本原理 与链终止法测序原理相同,只是用不同的荧光色彩标记ddNTP,如ddATP标记红色荧光,ddCTP标记蓝色荧光, ddGTP标记黄色荧光, ddTTP标记绿色荧光.由于每种ddNTP带有各自特定的荧光颜色,而简化为由1个泳道同时判读4种碱基。2.新一代测序技术有哪几种?答:1、 Pyrosequencing技术,或者称为焦磷酸测序技术。 2、 Sequencing by Synthesis (SBS):基于合成的测序法。 3、 Sequencing by Ligation (SBL):基于连接的测序法 3.人类基因组测序主要有哪两种策略?答:1. 作图测序与序列组装 先将染色体打成比较大的片段(几十-几百Kb), 利用分子标记将这些大片段排成重叠的克隆群(Contig), 分别测序后拼装. 这种策略叫基于克隆群(contig-based)的策略,也叫作图测序、指导测序或分级鸟枪法测序。 2. 随机测序与序列组装 随机测序也称”鸟枪法”. 序列组装原理:直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸. 优点:不需预先了解任何基因组的情况.两种策略的比较:鸟枪法策略 指导测序策略不需背景信息 构建克隆群 (遗传、物理图谱)时间短 需要几年的时间 需要大型计算机得到的是草图(Draft) 得到精细图谱第七章 基因组序列分析与DNAStar软件包的使用1碱基含量,GC含量,序列logo图的含义,密码子使用偏嗜性,开放阅读框GC含量可作为一个物种的特征,在微生物分类学中常常把GC含量作为分类参数之一。 Sequence Logo是一种用图形来表示同源基因的motif中每一列残基信息的方法密码子偏好:各个物种中,编码同一氨基酸的不同同义密码子的频率非常不一致; 密码子使用的偏嗜性是物种的特征。对基因组中某些基因的密码子偏嗜性进行统计分析,有可能揭示微生物基因组中通过水平转移而获得的基因。 开放阅读框(ORF, open reading frame)是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。(P86,指从5端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。)ORF识别:检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的编码序列,而其内部不包含启动子或终止子。原核基因识别主要是识别开放阅读框。2.DNAstar软件包含哪些软件,各自的功能?EditSeq : 能迅速、正确地输入并且修改DNA或蛋白质序列的工具。GeneQuest :发现和注释DNA序列中的基因,并能分析生物学所关心DNA的其他特征:包括开放阅读框、拼接点连接,转录因子结合位点、重复序列、限制性内切酶酶切位点等。SeqBuilder :editing nucleic and amino acid sequences. Also used to view sequences in a variety of ways.MegAlign :提供6种比对方法进行DNA和蛋白质序列比对和多序列比对。PrimerSelect :能够设计PCR、测序和杂交试验所使用的引物和探针。Protean :可以使用多种方法分析、预测蛋白质结构,并以图形化的方式展示出来。SeqMan :将成千上万个序列装配成重叠群。3.EditSeq和GeneQuest含义?类似功能第八章蛋白质序列分析与结构预测1.结构域、家族、模体的含义?结构域(domain):蛋白质中能折叠成特定三维结构的一段区域,也称为模块(module)、折叠子(fold)家族(family):在进化上相关的共享一个或多个结构域的蛋白质为一个家族模体(motif):蛋白质序列中较短的保守区域,通常为按一定的模式排列的氨基酸残基也称为指纹(figureprint)2、蛋白质结构测定的实验方法主要有哪两种?X-Ray Crystallography Nuclear Magnetic Resonance (NMR) 3、常用蛋白质可视化的软件有哪些?RasMol:读取PDB格式文件,显示生物大分子三维结构图像的软件;系统的要求很低,应用广,可由Unix、Windows及Macintosh 平台支持运行。Cn3D:含义为:“See in 3-D”,是一个生物分子的三维结构、序列以及序列比对结果的可视化工具。读取MMDB数据库的数据文件提供丰富的查看功能Swiss PDBViewer4、氨基酸组成和二肽含量计算氨基酸含量统计:氨基酸i在长度为N的序列中的含量氨基酸对(二肽)含量统计:残基i和残基j 构成的残基对ij在序列中的含量5、疏水图的画法详见PPT1 Sum amino acid hydrophobicity values in a given window2 Plot the value in the middle of the window3 Shift the window one position6、ProtParam、ProtScale、Compute pI/Mw的主要用途?ProtParam计算蛋白质氨基酸组成、等电点、分子量等ProtScale分析蛋白质的亲水性或疏水性Compute pI/Mw 计算蛋白质的等电点和分子量7、二级结构预测的Chou-Fasman方法思想预测三种主要的二级结构:alpha-helix, beta-sheet,Coil训练数据:15个已知构象的蛋白质结构,共2473个氨基酸残基定义一个蛋白质构象参数(protein conformational parameters):不同氨基酸残基在不同二级结构中的重要性P, P, PcJudge rule:-helix(1)Search the helix core along the sequence. If at least 4 residues in the sequential 6 are prefer -helix ( pi1), find a helix core. (2) Extend the core, until the average preference score of this segment is less than 1. (3)Similar method to judge the -sheet. 8、三级结构预测的三类方法,重点同源模拟Homology modeling (HM, 同源建模)Fold Recognition (FR, 折叠识别)Ab initio method (从头计算) Homology modeling概念:对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。依据:任何一对蛋白质,如果两者的序列等同部分超过30%,则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。假设待预测三维结构的蛋白质为U(Unknown),利用同源模型化方法建立结构模型的过程包括下述步骤:(1)搜索结构模型的模板(T)(2)序列比对(3)以T的骨架作为模板,建立U的骨架(4)对U侧链建模,构建侧链和环区(5)优化模型预测结果准确率:对于具有60%等同的序列,用上述方法所建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。Fold Recognition有很多蛋白质具有相似的空间结构,但它们的序列等同部分小于25%,即远程同源。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。实验发现:蛋白质折叠的类型有限计算要求:能量函数模版库(template library)预测过程将给定序列与每一个模板的序列匹配,打分将模板连接起来优化模型:能量函数Ab initio methodr 从头预测方法:仅根据序列本身来预测其结构r 从头预测方法一般由下列3个部分组成:(1)一种蛋白质几何的表示方法由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理(2)一种势函数及其参数通过对已知结构的蛋白质进行统计分析确定势函数中的各个参数(3)一种构象空间搜索技术构象空间搜索和势函数的建立是从头预测方法的关键方法特点工具同源建模法( Homology/Comparativemodelling )基于序列同源比对,对于序列相似度30的序列模拟比较有效,最常用的方法SWISS-MODELCPHmodels串线法/折叠识别法 (Threading/Fold recognition)“穿”入已知的各种蛋白质折叠骨架内,适于对蛋
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淇河鲫在低氧环境下的抗氧化防护机制与溶菌酶活性响应研究
- 液相色谱-质谱脂质组学:解锁肺癌研究新密码
- 涪陵区农户视角下耕地规模经营:经济效益剖析与最适规模探寻
- 涉外LNG项目风险管理的困境与突破-以某海油工程公司为例
- 消费者视角下企业声誉与非财务绩效的深度关联研究
- 走出去中心泰国国别研究指南 2026 上海市浦东新区企业走出去综
- 娱乐项目管理与市场推广手册
- 妊娠期结核病合并妊娠期妊娠期高血压疾病的降压治疗
- 2026吕梁市中考语文考前冲刺卷含答案
- 2026台州市中考历史压轴题专练含答案
- 2026贵州省农业发展集团有限责任公司招录(第一批)岗位65人备考题库及完整答案详解
- 2026广岩国际投资有限责任公司招聘14人备考题库及答案详解(网校专用)
- 西南名校联盟2026届3+3+3高三4月联考化学试卷+答案
- 2026乙醇行业市场深度分析及竞争格局与投资价值研究报告
- (2026年版)发热伴血小板减少综合征防控方案解读课件
- 2026年上半年教师资格证中学历史真题单套试卷
- 2026江西赣州市政公用集团社会招聘39人备考题库含答案详解(精练)
- 现实中的变量课件2025-2026学年北师大版数学七年级下册
- 5.2做自强不息的中国人 课 件(共20张)统编版道德与法治七年级下册
- 危险作业安全操作规范手册
- 高处作业安全培训2026年培训课件
评论
0/150
提交评论