版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章 生物信息学在蛋白质工程中的应用 生物信息学(Bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学数据的获取、存储、加工、检索、分析与可视化,达到揭示数据所蕴含的生物学意义的目的。一、什么是生物信息学生物信息学的研究对象:蛋白质、基因生物信息学的研究工具:计算机程序生物信息学的主要研究内容:1、生物信息的收集、存储、管理和提供2、基因组序列信息的提取和分析3、功能基因组相关信息分析4、生物大分子结构模拟和药物设计5、生物信息分析的技术与方法研究生物信息学在蛋白质工程中的应用: 1、蛋白质序列分析 2、蛋白质结构预测 3、蛋白质功
2、能预测 4、蛋白质分子设计二、蛋白质研究常用的数据库 一次数据库:直接来源于实验获得的原始数据,只进行简单的归类整理和注释,如:Genebank、 EMBL、DDBJ等核酸数据库,和SWISS-PROT、PIR等蛋白数据库以及PDB等结构数据库。 二次数据库:针对不同研究内容在一次数据库、实验数据和理论分析的基础上进行进一步分析和整理,如人类基因组图谱库、转录因子和结合位点库TRANSFAC、蛋白结构家族分类库SCOP等。EMBL、GenBank和DDBJ是国际上三大主要核酸和蛋白质序列数据库。GenBank:1982年美国国立卫生研究院(NIH)、美国国立医学图书馆(NLM)、美国国家生物技
3、术信息中心(National Center for Biotechlogy Information, NCBI)等机构建立的核酸序列数据库,是一个公共数据库,提供所有公开发表的核酸和蛋白质序列、参考文献及其生物学注释等信息。常用核酸序列数据库 GenBank存储的数据类型基因组DNA数据库 染色体、大片段DNA(BAC或YAC)、基因、序列标签位点(STS)cDNA数据库 表达序列标签(EST)蛋白质数据库 非冗余数据库(nonredundant database)GSS 基因组测序序列随机的“经过单次测序”的基因组测序序列;粘粒/BAC/YAC序列外显子定位的基因组序列Alu聚合酶链反应序列
4、EST cDNA克隆的一部分序列(300-800bp)。 EST序列通常是随机选出cDNA克隆并对其中一条链进行快速测序。UniGene 一个基因的数据库条目,包含了所有这个基因对应的EST。参考序列(RefSeq) 给出了一个对应于基因或蛋白质的索引号码,对应于最稳定、最被人承认的序列。 GenBank中对应于某个基因的索引号可能有上百个,但是对应于一个基因的RefSeq记录只有一个,或者在存在可变剪切的情况下对应不止一个。EMBL是由欧洲分子生物学实验室(European Molecular Biology Laboratory)于1982年创建的,目前由欧洲生物信息学研究所负责管理。DD
5、BJ是DNA Data Base of Japan的简称,创建于1986年,由日本国家遗传学研究所负责管理。 1988年,GenBank、EMBL与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。常用蛋白质数据库 SWISS-PROT SWISS-PROT是经过注释的蛋白质序列数据库,其中所有条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。由欧洲生物信息学研究所(EBI)维护。
6、数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等。注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体等信息。TrEMBLTrEMBL是一个计算机注释的蛋白质数据库,作为SWISS-PROT数据库的补充。该数据库主要包含从EMBL/Genbank/DDBJ核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列 。PIR 1984年,“蛋白质信息资源”(Protein Information Resource,PI
7、R)计划正式启动,蛋白质序列数据库PIR也因此而诞生。其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。分为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释; 而PIR4中则既未验证,也无注释。除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。 UniProt(Universa
8、l Protein Resource)(1)UniProt Knowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)数据库,该数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋白质序列的历史。PROSITE 蛋白质家族保守区域和功能位点数据库,收录蛋白质家族中同源序列多重比对所确定的保守性区域,如酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或
9、其它蛋白质结合的区域等。 PROSITE数据库收集了几乎所有蛋白质模体,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能模体,因此是序列分析的有效工具。MOTIF:短的相邻或相近的一组保守氨基酸序列。PRINTS: 多个保守的序列模式,作为识别蛋白质家族的特征BLOCKS:若干蛋白质序列中高度保守的序列片段,通常不含空位Pfam和SMART 结构域:独立的结构、功能、折叠和进化单元 蛋白质家族:进化上
10、相关的蛋白质,共享一个或多个结构域。Pfam 同时收集了序列多重比对和蛋白质家族数据。 提供了:注释、种子比对、profile HMM、完全比对。 包含手工编辑、多重比对的PfamA和注释质量、程度更差的PfamB。 SMART 简单分子构架研究工具, 搜索所得的结构域具有更详尽的注释,包含功能类型、三维结构、分类信息等。CDD 保守结构域数据库 NCBI的一个工具,允许基于序列或文本方式对Pfam和SMART进行查询。 可确定目标序列中的保守结构域PDB(Protein Date Bank)收集来源于X光晶体衍射和核磁共振(NMR)的蛋白质结构数据,经过整理和确认后存档而成。记录:原子坐标、
11、配基的化学结构和晶体结构的描述等。MMDB(Molecular Modeling Database)MMDB是NCBI生物信息数据库继承系统Entrez的组成部分,只收录通过X射线晶体衍射和核磁共振实验测定的生物大分子结构数据,增加了大分子的生物学功能及产生机制、分子进化历史、生物大分子之间关系等附加信息,还具有生物大分子结构模型展示、结构分析和结构比较等功能。SCOP、CATH和DaliSCOP:基于一种分级分类系统,提供对蛋白质结构和进化关系的综合描述。 类、折叠子,超家族、家族、蛋白质结构域、单个PDB蛋白结构。CATH:关于所有已知蛋白结构域的分类系统。 类、构架、拓扑、同源超家族。D
12、ali:对PDB中所有蛋白质结构进行综合比较后进行分类。可进行基于结构信息的序列比对。 超二级结构模体、折叠类型、功能家族、序列家族。FSSP 基于蛋白质结构比对的折叠分类。 将PDB中大于30个残基的结构划分为一系列的“代表集合”,每一“代表集合”结构的序列相似性不大于25%,然后对每一代表集合内的折叠进行分类。实际上是折叠子列表。EntrezEntrez 是整合的、基于文字的搜索和提取系统,包含NCBI中的主要数据库PubMed, 核酸和蛋白序列数据库、蛋白质结构数据库、基因组数据库、分类数据库以及其它。 三、蛋白质序列分析和结构预测 蛋白质序列比对 蛋白质基本性质分析 蛋白质结构预测蛋白
13、质序列比对: 蛋白质比对比核酸比对具有更丰富的信息。 通过比较两个或多个蛋白质序列的比较,寻找序列之间共同的保守区域、位点,从而探索导致它们产生共同功能的序列模式 把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息 如果两条序列有一个共同的祖先,那么它们是同源的 碱性、酸性、羟基化和疏水性类似的残基为相似残基 一致性表示相同残基的含量 相似百分比是相同和相似匹配之和BLAST 局部比对搜索工具 用来确定一条查询序列和一个数据库中所有序列的匹配程度。蛋白质基本性质分析: 利用生物信息学软件可直接预测蛋白质的许多基本性质,如氨基酸组成、分子量(MW)、等电点(pI)、疏水性、
14、电荷分布、信号肽、跨膜区及结构功能域分析等。美国国家生物技术信息中心(NCBI)主要工作开发数据库计算生物学研究开发用于分析基因组数据的软件工具发布生物医学信息通过NCBI提取蛋白序列EXPASY 蛋白质专家分析系统 获取蛋白质序列和相关数据 分析和处理通过ExPASy提取蛋白序列PROSITEPFAM和SMARTCDDPDB/MMDBCATH/SCOPDALIBLAST多重比对工具ClustalW蛋白质序列分析QuestionsDoes the structure of SRp20 resolved?PDB or NCBI/structureWhy is the structure of t
15、he RS domain not resolved?NCBI/pubmedWhat are other information of SRp20?NCBI/Entrez or Expasy/UniProtKBWhat is the sequence of SRp20?NCBI/protein or Expasy/UniProtKBWhat are the sequence pattern and profile of SRp20?Expasy/Pattern and profile searches/Smart or InterProIs there any homologue of SRp2
16、0 e.g. in Trypanosoma brucei?NCBI/blastWhat are the sequence pattern and profile of the protein?Expasy/Pattern and profile searches/SmartWhat are the primary sequence characteristics of the protein?Expasy/primary structure ananlysis/ProtParamWhat are the secondary structure characteristics of the pr
17、otein?Expasy/secondary structure prediction/PSIpredWhat could be the tertiary structure of the protein?Expasy/tertiary structure prediction/SWISS-MODELAssignmentMCDSALTAQA NDLRIYQVMV ESFVNGDDAI GHGTGYGTSH HKGDLQGIID SLDYIESLGM NAIWLTPIFD SIPVEGQDHW ADRLDATGYF TSNYFAVDPR FGTMEQAKEL VEKAHEKGLY VFFDGVF
18、GHH KDNVVPSPEG RLPVGENNPV SYPESLAFYQ EVATFWIEEL KIDGWRLDQA YQVPTEAWTA IRASVDEASK SVTYVNSEGE AVNPLGYMVA EIWNNENYIK ETGYGAEGEP ALCSAFDFPV RYRVVETFAA NENGIGNKGG KWLDEGMNLH RLYPSHAQPN LMLGNHDLVR FGDLLQRGNI ASPEQAEYWE RHKAALSFQA AYSGPITLYY GEEIGDELEG YAQKVEQDCA VQGLCDDHVA RTSANIDGLT VNLNEKQRDL KQYVSQLMTL RAAHPALSRG ERTNIVANET VYIDHKQADD DALIYMVSTT ADQDTVELKA SDIASDGQLV DLLTGKVHSA INGEYQISLA PFEAKFLLIE TPSASGLTKV
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年仓储物流信息化解决方案指南
- 汽轮机装配调试工节假日后复工安全考核试卷含答案
- xlsx焊工考试题库1500题及答案2025
- 2025年投资管理投资银行业务试题及答案
- 仓储公司货架安全管理制度
- 2025年大学(会计学)政府与非营利组织会计实训试题及答案
- 2025年大学(环境设计)环境创意综合测试题及答案
- 四川电力面试题目及答案解析(2025版)
- 2025年河北专升本医学检验技术专业真题及答案
- 2025年新四川省安全员c证考核考试题及答案
- 2026年年长租公寓市场分析
- 生态环境监测数据分析报告
- 2025年下半年四川成都温江兴蓉西城市运营集团有限公司第二次招聘人力资源部副部长等岗位5人考试参考试题及答案解析
- 煤炭装卸施工方案(3篇)
- 安徽省蚌埠市2024-2025学年高二上学期期末考试 物理 含解析
- 八年级历史上册小论文观点及范文
- 重庆康德卷2025-2026学年高一数学第一学期期末达标检测试题含解析
- 浙江省杭州市萧山区2024-2025学年六年级上学期语文期末试卷(含答案)
- 设备隐患排查培训
- 2025至2030磷酸二氢钠行业产业运行态势及投资规划深度研究报告
- 国家事业单位招聘2025中国农业科学院植物保护研究所招聘12人笔试历年参考题库附带答案详解
评论
0/150
提交评论