




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学数据库及在线分析工具SeeQZIFF,一、数据库(Database),用于收集、整理、储存、加工、发布和检索数据的系统。,生物类的数据库种类很多(序列、结构、生物分子互作、其他),投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中,数据库记录通常包括两部分,原始数据对这些数据进行的生物学意义的注释,一个数据库通常链接了多个相关数据库,核苷酸数据库水稻抗病相关基因OsDR8DQ176424,(一)数据库工具,建立纯文本数据库,GenBank数据库、EMBL核苷酸数据库,数据库工具,SQL(结构化查询语言)是世界上流行的和标准化的数据库语言能够快速灵活存储记录文件和图像下载网址,Access,SQL,Oracle,AceDB数据库工具,AceDB:AC.elegansDataBase(线虫数据库)被广泛应用的管理和提供基因组数据的工具数据形式丰富,新陈代谢途径,(二)各种生物数据库,1、核苷酸数据库,DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接来源于实验数据大量氨基酸序列,主要是非实验来源数据codingsequence(CDS),EXON,INTRON,CDS(codingsequence),ORF(openreadingframe),数据库种类很多,三大核苷酸数据库,GenBank、EMBL核苷酸数据库、DDBJ,(1)GenBank/,美国NCBI的数据库,有部分蛋白质序列数据每天更新,每年发行六版release/genbank/gbrel.txtRelease172(2009.6.15),106,073,709entries105,277,306,080bases,来源于260,000多个物种大约12的序列来源于人(Homosapiens),GrowthofGenBank,Locusname(位点名)Accessionnumber(注册号或登陆号)GI(GenInfoidentifier)NID(NucleotideID),每个序列有一个flatfile每条序列有三个专有的编号或标识(identifier),LOCUSline,Samplerecord/Sitemap/samplerecord.html,ThedivisionsofGenBank,ThedivisionsofGenBank,(2)dbEST(DatabaseofExpressedSequenceTags)/dbEST/index.html,GenBank的二级数据库5端或3端的cDNA序列(EST)200-500bp“Single-passread”sequenceGenBank中60以上的序列是EST,(3)UniGene数据库/UniGene/,NCBI的另一个核苷酸数据库来源于同一基因的非重复EST组成基因序列群,人、大鼠、小鼠、斑马鱼、牛、蛙等拟南芥、水稻、小麦、大麦、玉米等共计100多个物种,UniGene主页输入关键词检索,(4)dbSTS(DatabaseofSequenceTaggedSites)/dbSTS/index.html,GenBank的二级数据库UniSTS短序列(200-500bp),仅在基因组中出现一次已定位于染色体上如何找到一个STS检索:GenBank主页选择UniSTS后输入关键词,检索到的条目,每一条目详细内容,点击“mv”查看染色体定位,(5)dbGSS(DatabaseofGenomeSurveySequences)/dbGSS/index.html,GenBank的二级数据库基因组短序列cosmid/BAC/YAC外源插入片段的末端序列AluPCR序列,(6)HTG(High-ThroughputGenomicSequences)/HTGS/,GenBank的二级数据库尚未完成测序的重叠群(2kb)的序列新序列的增加速度很快,Phase0,Phase1,Phase2,Phase3,逐步克隆法clone-by-clonereliablebutslow,andthemappingstepcanbeespeciallytime-consuming,鸟枪法shotgunpotentiallyveryfast,butitcanbeextremelydifficulttoputtogethersomanytinypiecesofsequenceallatonce.,水稻基因组全基因组大小:430Mb;每个Reads读长450bp;故覆盖每个水稻基因组所需反应:100万;覆盖水稻基因组8X,需要800万反应;每个反应的测序成本为19元,800万反应总共需15200万人民币;人力费800万人民币。,中国水稻基因组计划的经费预算,(7)基因组数据库/sites/entrez?db=genome,NCBI的另一个数据库测序完成和正在测序物种基因组序列、遗传图、物理图等序列收集在GenBank已经完成测序的基因组(截止2009年2月)GenomeProjectStatistics,(8)dbSNP(DatabaseofSingleNucleotidePolymorphisms)单核苷酸多态性数据库/sites/entrez?db=snp,NCBI的数据库,创建于1998.9约每300bp有一个SNP数据种类,SNPInsertion/deletion(Indel)Deletion/insertion/substitution(DIS),发现致病基因、进化分析,dbSNP主页输入关键词,检索到的条目,每一条目详细内容,标准碱基多意代码,(9)EMBL(EuropeanMolecularBiologyLaboratory)NucleotideSequenceDatabase,EBI(EuropeanBioinformaticsInstitute)管理主要是欧洲国家产生的DNA和RNA序列序列数据文档格式与GenBank不同,数据库主页http:/www.ebi.ac.uk/embl输入关键词,检索到的条目,每一条目详细内容,(10)DDBJ(DNADataBankofJapan),主要是日本产生的DNA和RNA序列,数据库主页http:/www.ddbj.nig.ac.jp/Welcome-e.html输入关键词,检索到的条目,每一条目详细内容,发表文章要提供Accessionnumber,(11)EPD(EukaryoticPromoterDatabase)http:/www.epd.isb-sib.ch/,由WeizmannInstituteofScienceinRehovot(Israel)开创4809条真核生物启动子序列(2009.2)人类基因组中的启动子大约19万个同一个基因具有多个启动子,2、蛋白质数据库,(1)SWISS-PROT,由EBI和瑞士创办有详细注释的序列,数据来源于实验与44个数据库相互参照(cross-reference),数据库主页http:/www.ebi.ac.uk/swissprot/点击SRS,在查询网页输入关键词,检索到的条目,(2)TrEMBL(TranslationofEMBL),EBI的数据库提交到EMBL核苷酸数据库中所有CDS的氨基酸序列,SWISS-PROT和TrEMBL数据库合并UniProt(UniversalProteinResource),检索方法与检索SWISS-PROT相同查询结果和数据格式,(3)PIR(ProteinInformationResource),由NationalBiomedicalResearchFoundation创办蛋白质家族分类蛋白质整合信息,(4)PRF(ProteinResearchFoundation)http:/www.prf.or.jp/en/os.html,由日本的ProteinResearchFoundation创办已发表在杂志上的蛋白质序列修饰位点、SS键等两月更新一次,(6)Prosite/prosite,蛋白质家族结构域,3、结构数据库,(1)PDB(ProteinDataBank),由BrookhavenNationalLaboratories创办,蛋白质核酸其它,57,103个结构图(2009.2),可通过BLAST系统检索,X射线衍射图、核磁共振(NMR)光谱图和电镜图(文字和三维结构图),(2)SWISS-3DIMAGEhttp:/www.expasy.ch/sw3d/,蛋白质的平面和立体图,来源于实验结果理论模型,4、酶和代谢数据库,(1)KEGG(KyotoEncyclopediaofGenesandGenomes),各种代谢、遗传等路径图可检索参于各种路径的基因,KEGG主页http:/www.genome.ad.jp/kegg/点击“PATHWAY”,“PATHWAY”网页点击任何代谢路径,如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis),检索GeneticInformationProcessing,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何遗传信息路径,如Proteinexport路径,可以查看参加这一路径蛋白质的信息,检索EnvironmentalInformationProcessing,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何EnvironmentalInformationProcessing路径,如MAPKsignalingpathway路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,检索CellularProcesses,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何CellularProcesses路径,如Cellcycle路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,(2)PKR(ProteinKinaseResource)PKR/PKR1.htm,多种检索内容,已知蛋白激酶的序列比较蛋白激酶分类蛋白激酶的三维结构其它参考资料,5、物种分类数据库,物种分类,界(Kingdom)门(Phylum)纲(Class)目(Order)科(Family)属(Genus)种(Species),每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。每一分类等级上可加设总级(Super-),如总纲、总目、总科等。,动物界(Animal)脊索动物门(Chordata)脊椎动物亚门(Vertebrata)哺乳纲(Mammalia)啮齿目(Rodentia)鼠科(Muridae)小家鼠属(Mus)小家鼠种(musculus),举例:,Mouse:MusmusculusHuman:HomosapiensArabidopsis:Arabidopsisthaliana,Taxonomy/Taxonomy/taxonomyhome.html,拟南芥系谱(lineage)各个物种的系谱树,在NCBIEntrezTaxonomyHomepage网页点击“tree”,在“tree”网页点击任一物种名,如“Eukaryota”,真核生物的系谱(lineage),6、文献数据库,各种杂志、书刊上发表的文章大多数有摘要,(1)PubMed/PubMed/,美国国家医学图书馆的数据库医学分子生物学基础生物学5300多种刊物,来源于70多个国家刊物年限:1948年至今,(2)OMIM(OnlineMendelianInheritanceinMan),NCBI的数据库人类基因遗传疾病每天更新数据条目,/sites/entrez?db=OMIM,(3)Agricola/,美国农部农业图书馆的数据库农业类刊物,7、向数据库提交和修改核苷酸和蛋白质序列,提交:Submission修改:Update,数据库中的数据由大家无偿提供,共同享用,GrowthofSequenceand3DStructureDatabases,Signedby256researchers,(1)向GenBank提交或修改核苷酸序列,用BankIt功能提交序列,网上直接提交,简单方便提交后立刻得到临时编号一周内得到Accessionnumber,用Update功能修改GenBank中的序列和相关信息,修改一次,version的编号就进一位,用Sequin方法提交序列,可下载的电子表格自动确定CDS、ORF和查找重复序列,(2)向SWISS-PROT提交或修改蛋白质序列,网上直接操作只接收用蛋白质直接测序的序列由核苷酸序列翻译得到的蛋白质序列将进入TrEMBL,(三)上机操作,熟悉各种数据库重点了解GenBank和SWISS-PROT的各种功能和适用范围,Xa26nucleicacidsequence(DQ426646,6000bp):ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCAGGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATGGATGGAGCCGGCAGCCGGCGATCCTATTTAA,Xa26aminoacidsequence(ABD84047,1103a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025前沿工业互联网平台数据清洗算法案例分析报告
- 个体品性承诺保证承诺书8篇
- 智能零售创业加速器创新创业项目商业计划书
- 水电解质平衡护理
- 学期科目总结汇报
- 公路设计项目汇报
- 施工安全规范适用性研究
- 交通技术监控设备
- 养护公路安全培训内容课件
- 团队协作任务管理与沟通模板
- 初中化学物质的分类
- 护士心理压力
- 小区广播系统设计方案
- 抗滑桩安全技术交底
- GB/T 5271.28-2001信息技术词汇第28部分:人工智能基本概念与专家系统
- GA/T 1678-2019法庭科学鞋底磨损特征检验技术规范
- 《数字媒体专业认知实习》课程教学大纲
- 中西方婚礼文化差异毕业论文Word版
- 预备队员考核表
- 庆阳地区地下水供水水文地质条件评价
- 储能项目竣工报告
评论
0/150
提交评论