基因组研究功能基因分析_第1页
基因组研究功能基因分析_第2页
基因组研究功能基因分析_第3页
基因组研究功能基因分析_第4页
基因组研究功能基因分析_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

11梅艳珍南京师范大学生命科学学院基因组学研究——功能基因分析现代生物学实验技术当前第1页\共有82页\编于星期三\2点2要求:掌握常用的序列比对工具能构建进化树能够预测蛋白质的二级结构、疏水区、跨膜区等能够进行简单的同源建模分析了解KEGG数据库的检索当前第2页\共有82页\编于星期三\2点3序列比对——BLAST应用当前第3页\共有82页\编于星期三\2点4

同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具有共同祖先的结论,属于质的判断。A和B的关系上,是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%都是不科学的。相似性(similarity):是指一种直接的数量关系,如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80%,或者4/5。生物序列的同源性序列间相似性越高,它们是同源序列的可能性就更高当前第4页\共有82页\编于星期三\2点5Blast程序评价序列相似性的两个数据Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高,则Score值越大。Evalue:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。我们在获得一个Blast结果时需要看这两个指标。如果Blast获得的目标序列的Score值越高并且E-value越低表明结果越可信,反之越不可信.当前第5页\共有82页\编于星期三\2点6主要的BLAST程序(功能)当前第6页\共有82页\编于星期三\2点71.登陆blast主页组装的基因组序列库基本blast特定的BLAST所有的BLAST基因数据库当前第7页\共有82页\编于星期三\2点88核酸数据库中比对核酸序列蛋白质数据库中比对蛋白质序列蛋白质数据库中比对核酸序列蛋白质数据库中比对核酸序列核酸数据库中比对蛋白质序列当前第8页\共有82页\编于星期三\2点9Fasta格式文件当前第9页\共有82页\编于星期三\2点1010什么是fasta格式?怎么建立?新建一个txt文本文件,命名如:bph.txtFasta的格式:>序列名称序列当前第10页\共有82页\编于星期三\2点11当前第11页\共有82页\编于星期三\2点12121.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索当前第12页\共有82页\编于星期三\2点1313去冗余GenBank编码序列PDB+SwissProt+PIR+PRF当前第13页\共有82页\编于星期三\2点14

常用的检索数据库

14当前第14页\共有82页\编于星期三\2点15以下列蛋白序列为例,进行BLAST搜索:>P1MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA当前第15页\共有82页\编于星期三\2点16当前第16页\共有82页\编于星期三\2点17当前第17页\共有82页\编于星期三\2点1818基因名来源物种一致程度,登录号当前第18页\共有82页\编于星期三\2点19所选序列下载序列当前第19页\共有82页\编于星期三\2点20Cluster比对当前第20页\共有82页\编于星期三\2点21Clustalx的工作界面

(多序列比对模式)当前第21页\共有82页\编于星期三\2点22Clustal的工作原理Clustal输入多个序列快速的序列两两比对,计算序列间的距离,获得一个距离矩阵。邻接法(NJ)构建一个树根据进化树,渐进比对多个序列。当前第22页\共有82页\编于星期三\2点23Clustalx的输出结果.aln格式文件这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。.dnd格式文件引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应,因此应该用.aln格式文件专门做进化分析。当前第23页\共有82页\编于星期三\2点24多序列比对实例输入文件的格式(fasta):>KCC2_YEASTNYIFGRTLGAGSFGVVRQARKLSTN……>DMK_HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….>KPRO_MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……>DAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……>1CSNHYKVGRRIGEGSFGVIFEGTNLLNN……不留空格当前第24页\共有82页\编于星期三\2点25第一步:输入序列文件。当前第25页\共有82页\编于星期三\2点26当前第26页\共有82页\编于星期三\2点27当前第27页\共有82页\编于星期三\2点28建议用treeview打开outtree,然后可以编辑当前第28页\共有82页\编于星期三\2点29当前第29页\共有82页\编于星期三\2点30建树软件-mega当前第30页\共有82页\编于星期三\2点31MEGA5可以识别fasta格式文件将重命名为17-RNASE1.fasta建树软件-mega当前第31页\共有82页\编于星期三\2点32当前第32页\共有82页\编于星期三\2点33ClustalW参数设置当前第33页\共有82页\编于星期三\2点34多序列联配后结果当前第34页\共有82页\编于星期三\2点35以.meg格式保存结果当前第35页\共有82页\编于星期三\2点36回到MEGA主窗口打开所保存的文件(.meg)当前第36页\共有82页\编于星期三\2点37点击按钮打开文件窗口当前第37页\共有82页\编于星期三\2点38显示保守位点显示变异位点当前第38页\共有82页\编于星期三\2点39回到MEGA主窗口构建进化树当前打开的文件选择邻接法建树当前第39页\共有82页\编于星期三\2点40选择Bootstrap检验当前第40页\共有82页\编于星期三\2点41当前第41页\共有82页\编于星期三\2点42蛋白质二级结构预测当前第42页\共有82页\编于星期三\2点43蛋白质结构为什么如此重要的?氨基酸序列只有折叠成特定的空间结构才具有相应的活性和相应的生物学功能DNA序列蛋白质序列蛋白质结构转录&翻译折叠当前第43页\共有82页\编于星期三\2点44为什么要研究蛋白质结构?生物体中许多重要的功能由蛋白质完成分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分分析蛋白质结构有助于药物设计研究有助于了解蛋白质相互作用,这对于生物学、医学和药学都是非常重要当前第44页\共有82页\编于星期三\2点45蛋白质二级结构α-helix(30-35%)

α-螺旋β-sheet/β-strand(20-25%)

β-折叠Coil(40-50%)无规则卷曲Loop环β-turnβ-转角当前第45页\共有82页\编于星期三\2点4646蛋白质3D结构α螺旋Β折叠环或转角转角或卷曲当前第46页\共有82页\编于星期三\2点47当前第47页\共有82页\编于星期三\2点48JPred预测结果α螺旋β折叠当前第48页\共有82页\编于星期三\2点49二级结构预测网站PHDJPREDpbio.dundee.ac.uk/~www-jpred/PSIPREDNNPREDICT/~nomi/nnpredict.htmlChouandFassman当前第49页\共有82页\编于星期三\2点50预测蛋白质的理化性质当前第50页\共有82页\编于星期三\2点51部分预测工具ComputepI/Mw(ExPASy)计算蛋白序列的等电点和分子量TGREASE计算蛋白质序列疏水性工具TMHMM蛋白质跨膜区预测More…当前第51页\共有82页\编于星期三\2点52等电点,分子量预测工具当前第52页\共有82页\编于星期三\2点53当前第53页\共有82页\编于星期三\2点54当前第54页\共有82页\编于星期三\2点55TGREASE疏水性参数高正值的氨基酸具有更大的疏水性而低负值的氨基酸具有更强的亲水性当前第55页\共有82页\编于星期三\2点56当前第56页\共有82页\编于星期三\2点57蛋白质跨膜区预测(TMHMM)当前第57页\共有82页\编于星期三\2点58当前第58页\共有82页\编于星期三\2点59当前第59页\共有82页\编于星期三\2点60信号肽分析当前第60页\共有82页\编于星期三\2点61SignalP软件2.0版()对信号肽分析。当前第61页\共有82页\编于星期三\2点62信号肽的作用一般是帮助蛋白质穿膜用的,跟蛋白质的细胞定位有关系。当前第62页\共有82页\编于星期三\2点63同源建模蛋白质三维结构预测当前第63页\共有82页\编于星期三\2点643D预测是可能的,因为:序列信息决定三级结构序列相似性(>30%)倾向于结构相似性3D预测是必须的,因为:DNA序列蛋白质序列空间结构当前第64页\共有82页\编于星期三\2点65当前第65页\共有82页\编于星期三\2点66当前第66页\共有82页\编于星期三\2点67蛋白质结构预测方法:同源建模法(Comparativehomologymodeling)依据蛋白序列与已经结构蛋白比对信息构建3D模型折叠识别法(Threadingfoldrecognition)寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型从头预测法(Abinitio/denovomethods)根据序列本身来从头预测蛋白质结构当前第67页\共有82页\编于星期三\2点68同源建模基本原理:1、一个蛋白质的结构由其氨基酸序列唯一的决定。由一级结构,在理论上,足以获取其二级、三级结构。2、三级结构的保守型远远大于一级结构的保守型。应用限制:模板蛋白和目标蛋白的序列一致性需要大于30%当前第68页\共有82页\编于星期三\2点69SWISS-MODELSWISS-MODEL:网址非专业人士应用最为广泛的一个在线建模服务器。特点:简单、自动化、对学术团队免费。Automatedmode:自动模式,可以称为是最傻瓜的方式提交自己的氨基酸序列+邮箱即可适用:一致性较高时当前第69页\共有82页\编于星期三\2点70当前第70页\共有82页\编于星期三\2点71邮箱模型命名氨基酸序列当前第71页\共有82页\编于星期三\2点72当前第72页\共有82页\编于星期三\2点73KEGG数据库当前第73页\共有82页\编于星期三\2点74当前第74页\共有82页\编于星期三\2点75特点KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。与其他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论