生物信息学作4业_第1页
生物信息学作4业_第2页
生物信息学作4业_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学操作练习(一)数据库搜索与序列比对2013/3/27布置,一周内完成,结果存为单个word文件,文件名统一为“学号-姓名-01.doc”,上传网络教学平台或邮箱“”。(一)现有如下序列:MALAGAPAGGPCAPALEALLGAGALRLLDSSQIVIISAAQDASAPPAPTGPAAPAAGPCDPDLLLFATPQAPRPTPSAPRPALGRPPVKRRLDLETDHQYLAESSGPARGRGRHPGKGVKSPGEKSRYETSLNLTTKRFLELLSHSADGVVDLNWAAEVLKVQKRRIYDITNVLEGIQLIAKKSKNHIQWLGSHTTVGVGGRLEGLTQDLRQLQESEQQLDHLMNICTTQLRLLSEDTDSQRLAYVTCQDLRSIADPAEQMVMVIKAPPETQLQAVDSSENFQISLKSKQGPIDVFLCPEETVGGISPGKTPSQEVTSEEENRATDSATIVSPPPSSPPSSLTTDPSQSLLSLEQEPLLSRMGSLRAPVDEDRLSPLVAADSLLEHVREDFSGLLPEEFISLSPPHEALDYHFGLEEGEGIRDLFDCDFGDLTPLDF要求: (1) 用NCBI BlastP比对(使用默认参数) 搜索,以确定该蛋白质的名称、序列号、物种来源等基本信息; (2) 通过BLAST寻找其在小鼠(Mus musculus)中相似度最高的同源蛋白,提供比对结果;(3) 通过比对Pfam数据库,推断该蛋白属于何种蛋白质家族,可能的功能是什么?(4) 多重比对练习:已知拟南芥(Arabidopsis thaliana) 转录因子E2F家族包含6个成员,分别为E2Fa (又名E2F3), E2Fb(又名E2F1), E2Fc, E2Fd, E2Fe, E2Ff,请通过Entrez查寻其蛋白质序列信息,并将结果保存为FASTA格式;建立上述蛋白的多重比对FASTA文件;用ClustalW或ClustaX进行多重比对,将结果保存下来以便进一步分析。(二)按要求对以下序列进行比对分析 (命名为 “query.fasta”).GCATGCTGGCTCCTTTGGGATCGATCCGTCCGGTTCTTCTCCGGCCGGCCACCTCTCGAAGGTGACGCTGTCGCCGACGAGCCACCGACATCCGACCGACAGCCCCCGACAGCGCTCCTACGCGGTGCCGACATGACACCGACACCGCAGGTCGGACGACGGGGGCTCAGGCGCGACGGGCGCGGATCACGACGGCCGTACCGCCGCGACGGCGAGCACCGCCGCGCCGCCGAGGAGTGGCCGAAGGAGTGAAGATCGGTTACGGACCGTAAAGGAGTACCTGGCGCACCGGCGCGTTGTCGCATCGTCGTCCCGGCCGGTGGCGGAGCATGCCACCCATGCTGTCCGGTCTTCTGGCCAGATTGGTCAAACTGCTGCTCGGGCGCCACGGCAGTGCGCTGCACTGGAGGGCCGCGGGTGCCGCGACGGTCCTCCTGGTGATCGTCCTCCTCGCGGGCTCGTACTTGGCCGTCCTGGCTGAGCGCGGCGCACCGGGCGCGCAGCTGATCACGTATCCGCGGGCGCTGTGGTGGTCCGTGGAGACCGCGACGACCGTCGGCTACGGCGACCTGTACCCCGTGACTCTGTGGGGCCGGCTCGTGGCCGTGGTGGTGATGGTCGCCGGGATCACCTCCTTCGGTCTGGTGACCGCCGCGCTGGCCACCTGGTTCGTCGGCCGGGAACAAGAGCGCCGGGGCCACTTCGTGCGCCACTCCGAGAAGGCCGCCGAGGAGGCGTACACGCGGACGACCCGGGCGCTGCACGAGCGTTTCGACCGTTTGGAGCGAATGCTCGACGACAACCGCCGGTGACTCCGCCGGTGACCGCCCGAGCGAGGCCGCACCGATGAGTCTGCGGCGGTTGTGCGGTCTACCCGTCGACGAAGGGAGCGCACCATGCGCAAGATCATCATTTGCACGTTCCTGACGCTGGACGGCGTCATGCAGGCGCCGGGCGGCCCGGACGAGGACGCCGAGAGCGGCTTCGAACACGGCGGCTGGCAGAAGCCGGTGGACGACGACGAGGTCGGCACGGCCATCGCCGGCTGGTACGAGGACTCCGACGCCATGCTCCTCGGCCGCAAGACCTACGACATCTTCGCGTCGTACTGGCCGACCGCCGACCCCGACAACCCGTTCA CCCATCGGATGAACAGCATGC(1) 用NCBI BlastX (核酸蛋白质数据库),推断该基因组序列最有可能编码的蛋白质是什么?长度多少?其登录号(accession number) 是多少?(2) 请标出以上所得的蛋白质对应的query核酸编码序列的起止位置。(3) 以该蛋白序列为模板,用BlastP 搜索,将最大命中数(Max target sequences) 设为1000: (a) 若使用默认的non-redundant protein (nr) database,默认参数不变,Blast 输出多少条序列?结果最末位的序列的E值为多少?(b) 若换用SwissProt 蛋白质数据库,其他默认参数不变,Blast 输出多少条序列?结果最末位的序列的E值为多少?(4) 若想获得与该蛋白相关的空间结构信息,该如何操作,试对结果做简单统计。统计内容应包括多少个物种,每条序列的相似度(identity%, similarity%)如何。(5) 对(4)操作获得的序列进行多重比对,给出结果。Query 330 MPPMlsgllarlvklllGRHGSALHWRaagaatvllvivllaGSYLAVLAERGAPGAQLI 509 MPPMLSGLLARLVKLLLGRHGSALHW AAGAATVLLVIVLLAGSYLAVLAERGAPGAQLISbjct 1 MPPMLSGLLARLVKLLLGRHGSALHWAAAGAATVLLVIVLLAGSYLAVLAERGAPGAQLI 60Query 510 TYPRALWWSVETATTVGYGDLYPVTLWGRLVAVVVMVAGITSFGLVTAALATWFVGREQE 689 TYP ALWWSVETATTVGYGDLYPVTLWGR VAVVVMVAGITSFGLVTAALATWFVGREQESbjct 61 TYPAALWWSVETATTVGYGDLYPV

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论