生物信息技术第三次作业.doc_第1页
生物信息技术第三次作业.doc_第2页
生物信息技术第三次作业.doc_第3页
生物信息技术第三次作业.doc_第4页
生物信息技术第三次作业.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

实用生物信息技术课程第3次作业UniProt数据库检索及数据条目注释信息1. UniProt蛋白质序列数据库1) 参阅Swiss-Prot和TrEMBL统计报表(Release Statistics),列表说明这两个子库的总数据量,以及不同蛋白质证据(Protein Existence)的数据条目数。数据库子库总数据量Protein Existence数据条目数蛋白水平证据转录水平证据同源性推断预测不确定Swiss-Prot5427828208762272380832157051886TrEMBL542474682201393131313573938397202040 2) 列表说明Swiss-Prot和TrEMBL中数据条目数列前10位的物种,包括中文名、英文名和拉丁文学名。 表1 Swiss-Prot中数据条目数列前10位的物种Swiss-Prot中文名英文名拉丁文学名1智人HumanHomo sapiens2小家鼠MouseMus musculus3拟南芥Mouse-ear cressArabidopsis thaliana4大鼠RatRattus norvegicus 5酿酒酵母Bakers yeastSaccharomyces cerevisiae6牛BovineBos taurus7裂殖酵母Fission yeastSchizosaccharomyces pombe8大肠杆菌strain K12Escherichia coli9枯草杆菌strain 168Bacillus subtilis10盘基网柄菌Slime moldDictyostelium discoideumTrEMBL中文名英文名拉丁文学名1人类免疫缺陷病毒HIVHuman immunodeficiency virus 12未培养细菌Uncultured bacteriauncultured bacterium3智人HumanHomo sapiens 4小麦WheatTriticum aestivum5粳稻RiceOryza sativa subsp. japonica6丙型肝炎病毒HCVHepatitis C virus7乙型肝炎病毒HBVHepatitis B virus8大豆SoybeanGlycine max9宏基因组mine drainage metagenomemine drainage metagenome10二棱大麦Two-rowed barleyHordeum vulgare var. distichum 表2 TrEMBL中数据条目数列前10位的物种3) 列表说明以下已基本完成基因组测序的重要模式生物数据条目数总数N、已审阅序列条目数Nr、具有蛋白质证据的序列条目数Np、在参考序列数据库RefSeq中具有mRNA序列的序列条目数Nm、在蛋白质结构数据库PDB中具有结构的序列条目数Nb。物种拉丁文学名英文名NNrNpNmNb人Homo sapiensHuman1364952027014233136275211小鼠Mus musculusMouse 7347916658820874721465大鼠Rattus norvegicusRat 33577788734072918534鸡Allus domestiausChicken 237292257705481174非洲爪蟾Xenopus laevisAfrican clawed frog16014338257849159斑马鱼Danio rerioZebrafish55756291639330664黑腹果蝇Drosophila melanogasterDrosophila melanogaster39998322019741910351秀丽线虫Caenorhabditis elegansCaenorhabditis elegans26657346114891475115酿酒酵母Saccharomyces cerevisiaeBakers yeast792767807532252521098大肠杆菌K12Escherichia coliStrain K12156605970275327481319拟南芥Arabidopsis thalianaMouse-ear cress532701266512934135995071粳稻Oryza sativa subsp kengJaponica 籼稻Oryza sativa indicaIndica 玉米Zea maysMaize 6287773834720334棉花Gossypium sppCotton 571425210322. 序列条目注释信息1) 以人血红蛋白alpha亚基为例,说明一般注释信息(General Annotation)主要包括哪些内容。亚基结构:两个alpha亚基和两个beta亚基的四聚体组成成熟的血红蛋白A;2个alpha亚基和2个deltal亚基的四聚体组成成熟的血红蛋白A2;2个alpha亚基和2个epsilon亚基的四聚体组成胚胎早期的的血红蛋白Gower-2;2个alpha亚基和2个gamma亚基的四聚体组成胎儿期的血红蛋白F。组织特性:血液红细胞。转录以后修饰:起始的甲硫氨酸在各种thionville中没有裂开,并且进行乙酰化。涉及的人类疾病贫血(HEIBAN)MIM:140700】:细胞非球形的Dacie类型1的溶血性贫血。脾脏切除后,几乎没有好转,红细胞中的嗜碱性的夹杂物被证明为海因茨小体。脾脏切除前分散或点状的嗜碱性粒细胞明显。大多数情况下可能是血红蛋白病的实例。血红蛋白呈现热不稳定性。海因茨小体也观察到与Ivemark综合征(无脾与心血管异常)和还原型谷胱甘肽过氧化物酶的缺乏。注释:这类病可能是由于突变效应在基因中的表达。 Alpha-地中海贫血(A-THAL)MIM:604131:地中海贫血的一种形式。地中海贫血是常见的单基因疾病,主要在发生地中海和东南亚人口。alpha-地中海贫血的标志是一个失衡globin-chain生产成的人HbA分子。 链水平的产物的范围可以从没有到几乎正常的水平。删除两个 -珠蛋白基因的副本导致(0)-地中海贫血,也称为纯合子的地中海贫血。由于没有完整的链,主要的胎儿血红蛋白四聚物的gamma链(Bart血红蛋白),基本上没有携带氧的能力。这将导致胎儿组织氧饥饿导致产前杀伤力或早期新生儿死亡。两个基因导致的损失轻微alpha-地中海贫血,也称为杂合的alpha-地中海贫血。 影响个人小红细胞和心肌梗死。假如四分之三的Alpha珠蛋白基因起作用,人基本就没有症状。很少的alpha-地中海贫血类型是由于突变引起的(非删除的alpha-地中海贫血)血红蛋白H病(HBH)MIM:613978:一种alpha-thalassemia由于损失三个基因。 这将导致高水平的四聚物的四种链(血红蛋白H),导致严重和致命的贫血。治疗,大多数病人死在童年或者青春期的早期阶段。注释:这类病可能是由于突变效应在基因中的表达。其他信息:使血液呈现红色。序列相似性:属于珠蛋白家族。2) 以人血红蛋白alpha亚基为例,说明序列特征注释信息(Sequence Annotation)主要包括哪些内容。序列特征注释信息(Sequence Annotation)包括一些重要序列信息的发生位点、序列长度、具体说明、图示以及特征识别。具体重要序列信息包括分子处理如起始氨基酸的去除,重要位点如金属结合位点,氨基酸修饰位点如糖基化,自然突变位点,实验水平的一些信息,以及序列的二级结构。3) 以人血红蛋白alpha亚基为例,说明数据库交叉链接(Cross Reference)主要包括哪些数据库。序列数据库:Genbank EMBL DDBJ PIR Uni Gene RefSeq3D结构数据库:PDB ProteinModelPortal SMR ModBase MobiDB蛋白质相互作用数据库:BioGrid DIP IntAct MINT STRING化学库:ChEMBL DrugBankPTM数据库:PhosphoSite 二维凝胶数据库:SWISS-2DPAGE UCD-2DPAGE DOSAC-COBS-2DPAGE REPRODUCTION-2DPAGE蛋白质组数据库:PRIDE PaxDb Peptide Atlas协议和材料数据库:DNASU StructuralBiologyKnowledgebase基因组注释数据库:Emsemble KEGG UCSC GeneID物种特异数据库:CTD GeneCards HGNC HPA MIM分子系统数据库:InParanoid KO OMA TreeFam酶和通路数据库:Reactome 基因表达数据库:Bgee CleanEx Array Genevestigator家族和结构域数据库:Gene3D InterPro PANTHER Pfam PRINTS其他:EvolutionaryTrace Genewiki NextBio ChiTaRS PRO3. 数据库检索1) 写出从UniProt数据库中检索已审阅的人珠蛋白(globin)家族12个亚基的步骤。列表说明这12个珠蛋白的登录号、蛋白质名称、和序列长度。其中与血红蛋白alpha亚基差异最大的序列是哪个?相同位点百分比?与血红蛋白beta亚基差异最小的序列是哪个?差异位点共多少个?在UniProtKB中利用高级检索,依次增加Organism:human、ProteinFamily:globin两个限定条件后,选中reviewed的序列,即可出现库中已审阅的人珠蛋白家族的12个亚基。登录号蛋白名称序列长度P02008血红蛋白亚基142P69905血红蛋白亚基142P68871血红蛋白亚基147P02042血红蛋白亚基147P69891血红蛋白-1亚基147P69892血红蛋白-2亚基147P02144肌红蛋白154Q8WWM9细胞珠蛋白190Q9NPG2神经珠蛋白151P09105血红蛋白-1亚基142P02100血红蛋白亚基147Q6B0K9血红蛋白亚基141与血红蛋白alpha亚基差异最大的序列是神经珠蛋白,相同位点百分比为22%。与血红蛋白beta亚基差异最小的序列是血红蛋白亚基,差异位点共10个。2) 写出从UniProt数据库中检索以下序列条目的步骤和结果:拟南芥序列条目总数,其中已审阅条目数,已审阅序列中具有蛋白质证据全长序列条目数,上述序列中膜蛋白总数、注释为跨膜蛋白数且具有信号肽的序列数。1,在UniProtKB数据库搜索栏中选择advanced search ,然后根据organism:Arabidopsis thaliana得到拟南芥序列条目总数为53221。2,在results里点击reviewed,得到已审阅的条目数为12720。3,在results里点击complete proteome set,并在field中选择ProteinExistence,再选择Evidence at protein level,得到已审阅序列中具有蛋白质证据全长序列的条目数为4407。4,在field中选择SubcellularLocation,在Term中输入membrane,搜索后得到膜蛋白总数为1292。5,在field中选择sequence annotation,在topic中选择transmembrane,得到蛋白数为837。6,在field中选择sequence annotation,在topic中选择signal peptide,得到蛋白数为112。4. 利用高级检索功能,从UniProt数据库中检索你课题相关或最感兴趣的蛋白质,阅读其一般注释信息、序列特征注释信息,相关文献,并通过数据库交叉链接,总结该蛋白质的研究进展。玉米ARF-1:玉米生长素应答因子1,属于小GTP酶超家族,一般位于高尔基体装饰完成,控制调节种子的发芽。蛋白序列长度为181,在第一个氨基酸发生甲基化,有24-31、67-71和126-129三个核酸结合区域。1996.2.1发布在Uniprot数据库,2013.9.18完成修正。生长素是植物生长过程中必不可缺的一类激素,在植物生长发育的各个阶段都起到重要作用。近年来,对植物中的ARF基因不论是信号途径的转导还是表达机制的研究都成为热点问题。全面的分析ARF家族基因,对于ARF基因的分子克隆和分子进化的研究具有重要指导意义。通过ARF基因序列的整合比对分析可知典型的ARF基因含有三个结构域,分别为N末端DNA结合域(DBD)、中间核心区域(MR)、C末端二聚化结构域(CTD)(结构域III和IV)。参考水稻ARF基因家族的命名方法,对玉米的ARF基因家族进行了命名,分别为ZmARF1-ZmARF35。 有研究通过构建系统进化树分析了ARF类型基因的进化关系,结果显示这些基因主要分布于四个分枝,而与拟南芥、杨树、葡萄和水稻的ARF基因家族进行比较分析发现玉米与水稻同源性最高,这表明ARF类型基因的进化可能是伴随着单/双子叶植物差异分离进化而发生的。并确定35个ARF基因分散的分布在玉米的十条染色体上,5号染色体上最多,有6个基因;2、7、8、9号染色体最少,各有1个基因,没有出现明显的基因簇现象,与其他物种的染色体定位具有相同特性。 对玉米ARF类型基因的结构进行分析,同属一个进化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论