生物信息学考查作业.ppt_第1页
生物信息学考查作业.ppt_第2页
生物信息学考查作业.ppt_第3页
生物信息学考查作业.ppt_第4页
生物信息学考查作业.ppt_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

郜刚生物信息与分子分析讲义 2009年3月 dotmacher http pro genomics purdue edu emboss C annuumAF208832MLTDFVRGVDCPHAEAVTCGQIQVGVVNCLPYLQNRGPLGRCCGVIKDLLKLCKTPHERRKSCKCVKTAANTIKGIDFGKAAGLSGVCGVKIPFEISPSVDCSKVK S sogarandinumABH03042MEMVSKIACFVLLCMVVVAPHAEALTCGQVTSSLAPCFPYLMNRGPLGGCCGGVKSLLGQAQTTADRQTACTCLKSAASSFTGLDLGKAAGLPSACSVNIPYKISPSTDCSKVQ S lycopersicumCAJ19706MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQ S lycopersicumCAJ19705MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLRNCCDGVKGLLGQAKTTVDRQAACTCLKSAASSFTGLNLGKAAALPNTCSVNIPYKISPSTDCSKVQ N tabacumAAM74206MEMVSKIACFVVLCMVVVAPHAEALTCGQVQSSLAPCVPYLLGRGPLGGCCGGVKRLLGAARTPADRKTACNCLKSAANTFKGIDMGNAARLPGTCGVNIPYKISPSTDCSKVQ S lycopersicumAAB42069MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQ N tabacumQ42952MEIAGKIACFVVLCMVVAAPCAEAITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQ N tabacumQ03461MEMVGKIACFVVLCMVVVAPHAEALSCGQVQSGLAPCLPYLQGRGPLGSCCGGVKGLLGAAKSLSDRKTACTCLKSAANAIKGIDMGKAAGLPGACGVNIPYKISPSTDCSKVQ S lycopersicumP27056MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKNLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQ S chilenseQ3YMR2MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQAACACLKSAASSFTDLDLGKAASLPSTCNVNIPYKISPSTDCSKVQ S pennelliiO24037MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKGLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQ S pennelliiO24038MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQTACTCLKSAASSFTGLDLGKAASLPSTCSVNIPYKISPSTDCSKVQ S lycopersicumP93224MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQ C annuumAAF23460MEMVGKIACVVLLCMVVVAPHAEALTCGQVQSRMTPCLPYLTGSGPLGRCCGGVKGLLGAAKTPADRKTVCSCLKSAAGSIGGINVRKAAGLPNMCGVNIPYQISPSTDCTKVQ C annuumAAF23459MDMFGKIACFVLLCMVVVAPSAEALSCSQVTSGLAPCLPYLQGRGPLGGCCSGVKDLLAAAKTPADRKTACTCMKSTANSIKGIDAGKAASIPATCGVNIPYKISPSTDCTKVE StLTPb3ABU49732MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVSIPYKISPSTDCSKVQ StLTPa1ABU49731MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAVGLPGVCGVSIPYKISPSTDCSKVQ StLTPb1ABU49730MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQ StLTPf10ABU49729MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGSGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQ StLTPa7ABU49727MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGSGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQ C annuumAAX20049MEGIGKIACFVLLCMVVVAPHAEALNCGQVTSAMAPCVPYLMGRGPLGGCCGGVKGLMGAAKTPADRKTACTCLKSAANSMKGIDAGKAAGLPAACGVNIPYKISPSTDCSKVQ S tuberosumAAM82607MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGRGPIGGCCGGIKGLLGAAKTPADRKTACTCLKSAASAIKGINVGKAAGIPRLCGVNIPYKISPSTDCSKVR S tuberosumAAM82606MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGRGPIGGCCGGIKGLLGAAKTPADRKTACTCLKSAASAIKGINVGKAAGIPRVCGVNIPYKISPSTDCSKVR N tabacumBAA03044MEMVGKIACFVVLCMVVVAPHAEALSCGQVQSGLAPCLPYLQGRGPLGSCCGGVKGLLGAAKSLSDRKTACTCLKSAANAIKGIDMGKAAGLPGACGVNIPYKISPSTDCSKVQ S chacoenseABE11609MEIVSKIACFVLLCMVVVAPHAEAALTCGQVTSSLFSCLPYLRNTGPLGDCCSGVKKLKGQAQTTADRQTACNCLKSTAGSIKGLNFGKAASLPSTCSVNIPYEISPSTDCSKVQ N attenuataAAS13435MAKVALLVVVCMAAVAVMLTPHADAAISCGQVVASLSPCISYVRQGGAIPAPCCSGIKSLNNQATSTPDRQTACNCIKSAAAAINGINYSLAGSLPSKCGVNLPYKISPSIDCSTVH N glaucaAAT68265MAKVALLVVVCMVAVAVMLTPHADAAISCGQVVTSLTPCINYVRQGGDIPTACCSGIKTLNSQATSTPDRQTACNCIKSAAGSISGINFGLASSLPGKCGVNLPYKISPSID C annuumAAX08122MEMVGKIACVVLLCMVVVAPHAEALTCGQVQSRMTPCLPYLTGSGPLGRCCGGVKGLLGAAKTPADRKTVCTCLKSAAGSIGGINVRKAAGLPNMCGVNIPYQISPSADCTKVQ N glaucaAAT68264MAKVALFVVVCMAAVAVMLTPHADAAIFCGRVVSSLIPCINYVIKGGAIPAPCCNGIKSLNNQATSTPDRQTACNCIKSAAASIKGINFSHAGSLPGKCGVNLPYKISPSIDCSTVQ N glaucaAAT68263MAKVALLVVVCMVAVAVMLTPHADAAISCGQVVTSLTPCINYVRQGGAIPAACCSGIKTLNSQATSTPDRQTACNCIKSAARSISGINFGLASSLPGKCGVNLPYKISPSIDCSTVQ N glaucaAAT68262MAKVALLVVVCMAAVSVMLTPHADAAISCGQVVSSLTPCISYVTKGGAIPAPCCNGIESLNNQATSTPDRQTACNCIKSAAASIKGINFSLAGSLPGKCGVNLPYKISPSIDCSTVQ N glaucaAAF28385MAKVALLVVVCMAAVAVMLTPQADAAISCGQVVSSLTPCISYVTKGGAIPAPCCSGIKSLNNQATSTPDRQTACNCIKSAVGSISGINFGLASSLPGKCGVNLPYKISPSIDCSTVQ C annuumAAD18029MKMFGKIACLLILCVVLIAPHAEAVTCGQIQVGVVNCLPYLQNRGPLGRCCGVIKDLLKLCKTPHERRKSCRCVKTAANTIKGIDFGKTAGLSGVCGVKIPSEISPSVDCSKVK S pennelliiAAB07487MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQTACTCLKSAASSFTGLDLGKAASLPSTCSVNIPYKISPSTDCSKVQ S pennelliiAAB07486MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKGLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQ N tabacumAAA21438MARFLVFLALALVIISKKGALGAPPSCPTVTTQLAPCLSYIQGGGDPSVPCCTGINNIYELAKTKEDRVAICNCLKTAFTHAGNVNPTLVAQLPKKCGISFNMPPIDKNYDCNTISMY N tabacumAAA21437MARFLALALVVIALSNDALGAPPSCQTVTTQLAPCLSYIQNRVKGGGNPSVPCCTGINNIYELAKTKEDRVAICNCLKNAFIHAGNVNPTLVAELPKKCGISFNMPPIDKNYDCNTISMY S chilenseAAZ22829MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQAACACLKSAASSFTDLDLGKAASLPSTCNVNIPYKISPSTDCSKVQ N tabacumAAT45202IKLAHSKMAKVALLVVVCMAAVAVMLTPHADADISCGQVVASLSPCISYVRQGGAIPAPCCSGINSLNNQATSTPDRQTACNCIKSAAAGISGINFSLAGSLPSKCGVNLPYKISPSIDCSTVQ C annuumAAR83849MEMVSKIACLVVLCMVVAAPHAEALTCGQVAGDLAACLPYLQGSGPLGSCCGGVRALLGAAKTPADRKTACTCLKSAANAIKGINLSKAAGLPTACGVNIPYKISPSTDCSTVQ S tuberosumBAC23052MKTASKLAVLTVLVLLLVEAHISVAVTCSAIQLSPCLGAITSNSAPSTLCCSRIREQKPCLCTYLKNPTLRNYVNSPGAKKVARTCGVPYPKC N tabacumAAF65316MARFLALALVVIALSNDALGAPPSCQTVTTQLAPCLSYIQNRVKGGGNPSVPCCTGINNIYELAKTKEDRVAICNCLKNAFIHAGNVNPTLVAELPKKCGISFNMPPIDKNYDCNT S lycopersicumCAA80273MTSRTLVMLILVITYNSIAVKGSNGHPCSSTFFSALIQLIPCRASVVPFSSVPPSEACCASIKALGQPCLCVLINGPPISGVDRNMAVQLPEKCTANFEQCEFGK S lycopersicumQ43495MASVKSSSSSSSSSFISLLLLILLVIVLQSQVIECQPQQSCTASLTGLNVCAPFLVPGSPTASTECCNAVQSINHDCMCNTMRIAAQIPAQCNLPPLSCSAN S lycopersicumCAA78466MASVKSSSSSSSSSFISLLLLILLVIVLQSQVIECQPQQSCTASLTGLNVCAPFLVPGSPTASTECCNAVQSINHDCMCNTMRIAAQIPAQCNLPPLSCSAN N tabacum1T12AITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQ N tabacumCAA44267MEIAGKIACFVVLCMVVAAPCAEAITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQ S lycopersicumCAA39512MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKNLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQ 作业分解 1 现有10条基因 全班分成10组 每组做1条基因 每组4个人 每组16道题 每人完成4道不同的题2 要求 按照提供的geneaccessionnumber完成 1 核酸序列的基本分析 要求运用BioEdit分析该核酸序列的分子质量 碱基组成 碱基分布 酶切 简要过程2 碱基同源性分析 网站如下 http www ncbi nlm nih gov BLAST 程序 参数 结果 简要过程3 开放性阅读框分析 利用NCBI的ORFFinder程序对man做开放性阅读框分析 网址如下 http www ncbi nlm nih gov projects gorf orfig cgi要求 参数 结果 简要过程4 蛋白质序列的结构功能域分析 要求用简单模块构架搜索工具SMART对上述ORF蛋白质序列进行结构功能域分析 网址如下 http smart embl heidelberg de 要求结果 参数 简要过程5 氨基酸同源分析 要求运用NCBI的BLAST程序对此蛋白质序列进行分析 要求 参数 结果 过程6 同源物种分析 要求根据上述分析列出该蛋白质的同源物种至少5个 要求名称 学名7 蛋白质一级序列的基本分析 要求运用BioEdit对该基因编码的蛋白质基本信息如分子量 等电点 氨基酸组成等作出分析 8 信号肽预测 要求利用signalp预测 分析结果 写出简要过程 网址如下 http www cbs dtu dk services SignalP 9 疏水性 溶解能力和motif分析 要求利用ExPASy分析氨基酸序列的疏水性 网址http us expasy org cgi bin protscale pl 通过发邮件的方式利用PredictProtein服务器氨基酸序列分析其蛋白质溶解能力和PROSITEmotif 描述结果 过程简述 网址http cubic bioc columbia edu pp submit def html10 磷酸化位点分析 要求利用NetPhos2 0Server做磷酸化位点分析 网址 http www cbs dtu dk services NetPhos 要求参数 结果 过程简述11 跨膜区分析 要求用TMHMMServer进行蛋白序列跨膜区分析 网址 http www cbs dtu dk services TMHMM 要求参数 结果 过程简述12 亚细胞定位 要求通过WoLFPSORT工具基于其氨基酸序列预测蛋白质亚细胞定位点 网址 http wolfpsort seq cbrc jp 要求参数 结果 过程简述13 二硫键分析 要求运用SCRATCHProteinPredictor分析二硫键并简述过程 结果 网址http www ics uci edu baldig scratch index html14 二级结构预测 要求运用PBILLYON GERLAND信息库对蛋白质序列进行二级结构预测 简述过程 结果 网址http npsa pbil ibcp fr cgi bin npsa automat pl page NPSA npsa hnn html15 蛋白质的3D结构预测 http www cbs dtu dk services CPHmodels 描述结果 用Cn3D等结果显示 16 选择与其同源的5条蛋白质 最好是不同的物种 构建其进化树MolecularEvolutionaryGeneticsAnalysis软件MEGA 说明结果 nnpredictnnpredict算法使用了一个双层 前馈神经网络去给每个氨基酸分配预测的类型 Kneller等 1990 在预测时 服务器使用FASTA格式的文件 其中有单字符或三字符的序列以及蛋白质的折叠类 或 残基被分为几类 螺旋 H 叠片 E 或其它 若无法对某残基给出预测 则会标上问号 这说明无法做出可信的分配 若没有关于折叠类的信息 预测也能在不定折叠类的情况下进行 而且这是缺省的工作方式 据报道 对于最佳实例的预测 nnpredict的准确率超过了65 序列通过向nnpredict celeste ucsf edu发送电子邮件或是填写网上的表提交给nnpredict PredictProteinPredictProtein Rost等 1994 在预测中应用了略为不同的方法 首先 蛋白质序列被作为查询序列在SWISS PROT库中搜索相似的序列 当相似的序列被找到后 一个名为MaxHom的算法被用来进行一次基于特征简图的多序列比对 Sander和Schneider 1991 MaxHom用迭代的方法来构造比对 当第一次搜索SWISS PROT后 所有找到的序列与查询序列进行比对 并构造出一个比对后的特征简图 然后 这个简图又被用来在SWISS PROT中搜索新的相似序列 由MaxHom产生的多序列比对随后被置入一个神经网络 用一套称为PHD Rost 1996 的方法进行预测 PHD这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型 它还对序列上每个位点的预测可信度给予统计分析 该方法的平均准确率超过72 最佳残基预测准确率达90 以上 向PredictProtein提交数据可以通过电子邮件 也可以在网上提交 上交序列的时候可以有几种选择 序列可以是单个字母的氨基酸代码 也可以带SWISS PORT标识符 另外 FASTA格式的多序列比对或PIR比对也可以被提交 以进行二级结构预测 输入的序列发送给predictprotein embl heidelberg de 输出结果内容很多并包含大量有关信息 其中有MaxHom搜索结果 并包括多序列比对的结果 它可以用于例如基于特征简图的搜索或物种谱系分析等进一步研究 如果提交的序列在PDB库中有已知同源蛋白 则其PDB标识号也会输出返回 随后是方法本身信息 最后是实际预测结果 输出结果还可以被用户自己来指定 与nnp

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论