福建农林大学生物信息学复习材料.doc_第1页
福建农林大学生物信息学复习材料.doc_第2页
福建农林大学生物信息学复习材料.doc_第3页
福建农林大学生物信息学复习材料.doc_第4页
福建农林大学生物信息学复习材料.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概念生物信息学 狭义:分子生物信息学,用信息技术存储、分析基因组、蛋白质组序列。 广义:指生物科学与信息科学与计算机科学、物理学、化学交汇融合的交叉学科。 信息:指能够消除人们不确定性的东西 。信息可以计算Score:衡量匹配结果的质量,是相对的(与选取的计分依据有关),越高越好E值:expectation value 评估相似性,是绝对的,越低越好P值:P 0 表示越显著结果越可信,P 结果随机产生的可能性越大) 是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率,低P值表明重要的匹配,这些匹配可能会有生物学意义重复序列:真核生物的基因组中具有多数反复存在的DNA 顺序组成(一般不参与编码) 用Repeatmasker软件查找重复序列序列谱:由多序列对比结果的全部信息构造的序列特征表,表中列出每一个位点氨基酸残基的替代.插入,缺失等情况双序列比对:通过一定的算法对两个DNA或蛋白质的序列进行比较,找出两者之间最大相似性的方法。 工具是用程序来编写完成算法。记分矩阵:为了反映两个序列比对结果而预先设定的分值矩阵。取代矩阵:PAM、BLOSUM稀疏矩阵:只有相同的为1,其余的为0,大多数矩阵单元的值为0。DP(动态规划):按某种条件舍去那些不可能得到最有结果的局部解。 全局比对:对给定序列全长进行比较的方式,在待比较两个序列中引入间隔,使得对序列的全场都得到比较。 局部比对:对序列进行比较时,更注重局域的最佳匹配比对工具:Blast、FASTA、Smith-watermanBLAST (Basic Local Alignment Search Tool)ORF:一个起始密码子和终止密码子之间的序列称为开放阅读框。1. 生物信息学研究内容分为哪三个部分?四个分支1 核酸与基因组信息学: (1)测序与拼接 (2)基因识别与注释 (3)SNP(单核苷酸多态性)分析 (4)非编码区信息分析(5)比较基因组学2 蛋白质组信息学: (1)蛋白质结构模拟 (2)蛋白质功能预测(3)基因表达到蛋白质产物信息分析3 代谢调控网络4 生物进化分析 数据库、算法、算法工具分析生物学数据2. 生物信息学中两种最基本研究方法?主要的不同点1 模式识别(数据)-同原序列、异源序列2 结构模拟预测(计算)-结构:chou.Fasman;;物理化学;算法 工具3. 计算机里的专业术语5 TCP-传输控制协议 IP - - -互联网协议 DNS-域名服务器 LAN-局域网WAN-广域网http-超文本传输协议ftp-文件传输协议Telnet-在UNIX平台上远程连接间的协议1. DNA数据库的类型1 常规数据库:从全基因组单基因序列2 特定数据库:模式生物基因组数据库;另一类则与特殊党的测序技术有关2. 最主要三个DNA数据库:EMBL、Genbank、DDBJ3. 数据库的搜索方法、各自的特点GenBank-Entrez(集成检索系统)EMBL-SRS (序列检索系统)Entrez特点: 使用简便,把不同类型的DB有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一数据库 数据库和应用程序结合在一起。 EBI的SRS系统 SRS可以将不同文本格式的数据库真和成为统一的模式。4. Entrez集成了哪些数据库PubMed:生物医学文献 核苷酸序列数据库(Genbank)蛋白质序列数据库 Structure:三维大分子结构Genome:全基因组 PopSet:人口研究的数据集OMIM:在线人类孟德尔遗传 UniSTS:标记和映射数据5. GenBank EMBL 之间对应关系及一条记录的含义GenBank :locus definition accession version titleEMBL : ID DE AC SV RT序列名称 序列简单说明 序列编号 序列版本号 题目GenBank: keywords source organism reference authorsEMBL: KW OS OC RN RA关键词 序列来源物种名称 种属 相关文献编号 著者PubMed:生物医学文献(PubMed)核苷酸序列数据库(Genbank)蛋白质序列数据库Structure:三维大分子结构Genome:全基因组PopSet:人口研究的数据集OMIM:在线人类孟德尔遗传UniSTS:标记和映射数据SNP:单核苷酸多态性CDD:保守结构域第三章1. 蛋白质序列数据库类型1 序列数据库:PIR(最早提出的蛋白质数据库),SWISS-PROT(更好用),NCBI2 模式和结构域数据库:PROSITE(二级),PFAM3 结构数据库:PDB(三级)4 结构分类数据库:SCOP,CATH,FSSP(四级)2. 序列数据库记录的特点1 Pir蛋白质信息资源(蛋白质序列)2 SWISS-PROT有注解的蛋白质序列数据库3. SWISS-PORT记录的格式 看书,给出的每一行要能看懂ID:序列名称和氨基酸残基数目AC:序列编号(收录号、登录号)DT:提交到数据库的时间及最近修改时间DE:描述行,对蛋白质的简单说明GN:编码蛋白质的基因名称OS:物种来源OC:分类学中的位置RN:基本注释信息CC: 按主题进行区分Function:描述功能PTM:说明修饰后的翻译Tissue specificity: 说明组织专一性Subcellular location: 说明亚细胞定位Similarity: 说明与该蛋白质具有相似性或相关的某个蛋白质家族DR:提供与其它生物信息学数据库的链接KW:关键词FT:特征表。包括跨膜螺旋等超二级结构单元、配体结合位点、翻译后修饰位点 等。每一行都有一关键词、特征序列氨 基酸残基的位置及注释信息的性质。SQ:蛋白质序列4. 序列谱表达的意思序列谱:由多序列对比结果的全部信息构造的序列特征表,表中列出每一个位点氨基酸残基的替代.插入,缺失等情况5. P序列的模式特征6. 蛋白质结构数据库PDB-用什么方法保存蛋白质结构信息PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。7. 蛋白质结构分类数据库、为什么蛋白质结构能够分类1 相似的二级结构元件装配2 多肽链的拓扑单位3 由固有的的物理和化学性质产生规律4 折叠是蛋白质的功能、结构和进化的单位8. 蛋白质结构域根据二级结构形式不同可以分为哪几类 全a型,全beta型,a/beta交替,a与beta混合型第4章 序列比对1. 双序列比对、算法与工具的关系 双序列比对:通过一定的算法对两个DNA或蛋白质的序列进行比较,找出两者之间最大相似性的方法。 工具是用程序来编写完成算法。2. 用那三个词描述序列比对的结果。相似性、同一性、同源性3. 相似性、同一性、同源性三个词之间什么关系 同源性是指在来源上的同一性; 相似性是指功能或特点上的趋同性; 一致性是指简单一致度。相似性和同一性都是量的概念,同源性是质的概念。4. 序列的格式(规范的模式)、三种格式各自的特点序列格式第1行第2行第3行第4行Pir名称(以P1、N1开头)注释行序列开始*表示结束FASTA注释行(无限长)序列GDE%注释行(无限长)序列5. 序列比对方法的优点及存在的问题优点:从已知信息获得未知信息最有效的方法缺点:无法确定祖先;有些保守只是时间上的反应,不是结构和功能的保守6. 序列计分的依据(记分矩阵)、用Blast比对怎么判断匹配,不匹配,插入和缺少7. 什么叫记分的矩阵?取代矩阵、稀疏矩阵两种的意义记分矩阵:为了反映两个序列比对结果而预先设定的分值矩阵。取代矩阵:PAM、BLOSUM稀疏矩阵:只有相同的为1,其余的为0,大多数矩阵单元的值为0。8. PAM、BLOSUM的区别1 来源不同,PAM基于全局比对,BLOSUM基于局部比对2 BLOSUM每个都是计算的,进化距离近;PAM是推导得到的,适用于进化距离较近的 两条序列3 统一性,PAM是由高到低,BLOSUM是由低到高4 默认值,PAM是62、80;BLOSUN是2509. 什么叫动态规划(用于全局、局部)、全局和局部的区别在哪里?三个常用的局部比对工具之间的联系 DP(动态规划):按某种条件舍去那些不可能得到最有结果的局部解。 全局比对:对给定序列全长进行比较的方式,在待比较两个序列中引入间隔,使得对序列的全场都得到比较。 局部比对:对序列进行比较时,更注重局域的最佳匹配比对工具:Blast、FASTA、Smith-waterman10. 动态规划找到两个最佳对位的三个步骤 建立记分矩阵、回溯路径矩阵、选择最优路径11. Blast英文全称是什么及以下不同工具 BLAST (Basic Local Alignment Search Tool)程序名查询序列数据库搜索方法Blastn核酸核酸直接比较核酸序列的同源性Blastp蛋白质蛋白质直接比对蛋白序列的同源性Blastx核酸蛋白质先将核酸序列翻译成蛋白序列,再与蛋白库比对Tblastn蛋白质核酸将库中的核酸序列翻译成蛋白序列,比对蛋白序列的同源性TBlastx核酸核酸将库中的核酸序列和所查的核酸序列都翻译成蛋白序列,然后比对蛋白序列12. Blast结果分为两部分展示:图形+序列(看得懂结果)13. 空位罚分 第五章基因查找1. 原核生物基因结构的特征1 基因聚集在一起,形成基因簇(操纵元、调控元)2 启动子上游-35、-10有两个box(控制聚合酶转录的开始、控制转录的频率)3 有两种终止方式 依赖和不依赖2. 真核生物基因结构的特征1 基因并不集中在操纵子;2 真核生物基因不连续,在编码区(外显子)之间穿插非编码的内含子(“插入序列”)。3 重复序列:一般不是编码序列4 启动子:一般与转录起始位点有关5 增强子 6 TATAbox、CAATbox7 不同的剪切方式3. 重复序列分为哪几个类型(怎么查找,为什么要查找)1 单拷贝2 低度重复2-103 中度重复100万以下4 高度重复4. ORF查找、为什么有6个对话框?怎么确定哪个是基因的对话框? ORF:一个起始密码子和终止密

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论