




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学 数据库及在线分析工具 SeeQZIFF,一、数据库(Database),用于收集、整理、储存、加工、发布和检索数据的系统。,生物类的数据库种类很多(序列、结构、生物分子互作、其他),投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中,数据库记录通常包括两部分,原始数据 对这些数据进行的生物学意义的注释,一个数据库通常链接了多个相关数据库,核苷酸数据库水稻抗病相关基因OsDR8 DQ176424,(一)数据库工具,建立纯文本数据库,GenBank 数据库、EMBL 核苷酸数据库,数据库工具,SQL(结构化查询语言)是世界上流行的和标准化的数据库语言 能够快速灵活存储记录文件和图像 下载网址 /,Access,SQL,Oracle,AceDB 数据库工具,AceDB:A C. elegans DataBase(线虫数据库) 被广泛应用的管理和提供基因组数据的工具 数据形式丰富,新陈代谢途径,(二)各种生物数据库,1、核苷酸数据库,DNA、mRNA、tRNA、rRNA序列 RNA序列以cDNA序列的形式收集 核苷酸序列直接来源于实验数据 大量氨基酸序列,主要是非实验来源数据 coding sequence (CDS),EXON,INTRON,CDS (coding sequence),ORF (open reading frame),数据库种类很多,三大核苷酸数据库,GenBank、EMBL核苷酸数据库、DDBJ,(1)GenBank /,美国NCBI的数据库,有部分蛋白质序列 数据每天更新,每年发行六版release /genbank/gbrel.txt Release 172(2009.6.15),106,073,709 entries 105,277,306,080 bases,来源于260,000多个物种 大约12的序列来源于人(Homo sapiens),Growth of GenBank,Locus name(位点名) Accession number (注册号或登陆号) GI(GenInfo identifier) NID(Nucleotide ID),每个序列有一个flatfile 每条序列有三个专有的编号或标识(identifier),LOCUS line,Sample record /Sitemap/samplerecord.html,The divisions of GenBank,The divisions of GenBank,(2)dbEST (Database of Expressed Sequence Tags) /dbEST/index.html,GenBank的二级数据库 5 端或3 端的cDNA 序列(EST) 200-500 bp “Single-pass read” sequence GenBank 中60以上的序列是 EST,(3)UniGene 数据库 /UniGene/,NCBI 的另一个核苷酸数据库 来源于同一基因的非重复 EST 组成基因序列群,人、大鼠、小鼠、斑马鱼、牛、蛙等 拟南芥、水稻、小麦、大麦、玉米等 共计100多个物种,UniGene主页输入关键词检索,(4)dbSTS (Database of Sequence Tagged Sites) /dbSTS/index.html,GenBank的二级数据库 UniSTS 短序列(200-500 bp),仅在基因组中出现一次 已定位于染色体上 如何找到一个STS 检索:GenBank主页选择UniSTS后输入关键词,检索到的条目,每一条目详细内容,点击“mv”查看染色体定位,(5)dbGSS (Database of Genome Survey Sequences) /dbGSS/index.html,GenBank的二级数据库 基因组短序列 cosmid / BAC / YAC 外源插入片段的末端序列 Alu PCR 序列,(6)HTG (High-Throughput Genomic Sequences) /HTGS/,GenBank 的二级数据库 尚未完成测序的重叠群( 2 kb)的序列 新序列的增加速度很快,Phase 0,Phase 1,Phase 2,Phase 3,逐步克隆法clone-by-clone reliable but slow, and the mapping step can be especially time-consuming,鸟枪法shotgun potentially very fast, but it can be extremely difficult to put together so many tiny pieces of sequence all at once.,水稻基因组全基因组大小:430Mb; 每个Reads 读长450bp; 故覆盖每个水稻基因组所需反应:100万; 覆盖水稻基因组8X,需要800万反应; 每个反应的测序成本为19元,800万反应总共需15200万人民币; 人力费800万人民币。,中国水稻基因组计划的经费预算,(7)基因组数据库 /sites/entrez?db=genome,NCBI 的另一个数据库 测序完成和正在测序物种基因组序列、遗传图、物理图等 序列收集在GenBank 已经完成测序的基因组(截止2009年2月) Genome ProjectStatistics,(8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库 /sites/entrez?db=snp,NCBI的数据库,创建于1998.9 约每300 bp 有一个SNP 数据种类,SNP Insertion/deletion (Indel) Deletion/insertion/substitution (DIS),发现致病基因、进化分析,dbSNP主页输入关键词,检索到的条目,每一条目详细内容,标准碱基多意代码,(9)EMBL (European Molecular Biology Laboratory) Nucleotide Sequence Database,EBI (European Bioinformatics Institute) 管理 主要是欧洲国家产生的 DNA 和 RNA 序列 序列数据文档格式与 GenBank 不同,数据库主页http:/www.ebi.ac.uk/embl输入关键词,检索到的条目,每一条目详细内容,(10)DDBJ (DNA Data Bank of Japan),主要是日本产生的 DNA 和 RNA 序列,数据库主页http:/www.ddbj.nig.ac.jp/Welcome-e.html输入关键词,检索到的条目,每一条目详细内容,发表文章要提供 Accession number,(11)EPD (Eukaryotic Promoter Database) http:/www.epd.isb-sib.ch/,由Weizmann Institute of Science in Rehovot (Israel) 开创 4809条真核生物启动子序列(2009.2) 人类基因组中的启动子大约19万个 同一个基因具有多个启动子,2、蛋白质数据库,(1)SWISS-PROT,由 EBI 和瑞士创办 有详细注释的序列,数据来源于实验 与44个数据库相互参照(cross-reference),数据库主页http:/www.ebi.ac.uk/swissprot/点击SRS,在查询网页输入关键词,检索到的条目,(2)TrEMBL (Translation of EMBL),EBI 的数据库 提交到 EMBL 核苷酸数据库中所有CDS 的氨基酸序列,SWISS-PROT 和 TrEMBL数据库合并 UniProt (Universal Protein Resource) ,检索方法与检索SWISS-PROT相同 查询结果和数据格式,(3)PIR (Protein Information Resource) ,由National Biomedical Research Foundation 创办 蛋白质家族分类 蛋白质整合信息,(4)PRF (Protein Research Foundation) http:/www.prf.or.jp/en/os.html,由日本的 Protein Research Foundation 创办 已发表在杂志上的蛋白质序列 修饰位点、SS键等 两月更新一次,(6)Prosite /prosite,蛋白质家族 结构域,3、结构数据库,(1)PDB (Protein Data Bank) ,由 Brookhaven National Laboratories 创办,蛋白质 核酸 其它,57, 103 个结构图(2009.2),可通过 BLAST 系统检索,X 射线衍射图、 核磁共振(NMR) 光谱图和电镜图(文字和三维结构图),(2)SWISS-3D IMAGE http:/www.expasy.ch/sw3d/,蛋白质的平面和立体图,来源于实验结果 理论模型,4、酶和代谢数据库,(1)KEGG (Kyoto Encyclopedia of Genes and Genomes),各种代谢、遗传等路径图 可检索参于各种路径的基因,KEGG主页http:/www.genome.ad.jp/kegg/点击“PATHWAY”,“PATHWAY”网页点击任何代谢路径,如糖酵解/糖原异生途径(Glycolysis/Gluconeogenesis),检索Genetic Information Processing,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何遗传信息路径,如 Protein export 路径,可以查看参加这一路径蛋白质的信息,检索Environmental Information Processing,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何Environmental Information Processing 路径,如 MAPK signaling pathway 路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,检索Cellular Processes,KEGG主页点击“PATHWAY”,“PATHWAY”网页点击任何Cellular Processes 路径,如 Cell cycle 路径,可以查看与这一路径相连的其它信号路径或参加这一路径的蛋白质信息,(2)PKR (Protein Kinase Resource) /pkr/Welcome.do,多种检索内容,已知蛋白激酶的序列比较 蛋白激酶分类 蛋白激酶的三维结构 其它参考资料,5、物种分类数据库,物种分类,界(Kingdom) 门(Phylum) 纲(Class) 目(Order) 科(Family) 属(Genus) 种(Species),每一分类等级下可加设亚级(Sub-),如亚门、亚纲、亚科等。 每一分类等级上可加设总级(Super-),如总纲、总目、总科等。,动物界(Animal) 脊索动物门(Chordata) 脊椎动物亚门(Vertebrata) 哺乳纲(Mammalia) 啮齿目(Rodentia) 鼠科(Muridae) 小家鼠属(Mus) 小家鼠种(musculus),举例:,Mouse:Mus musculus Human:Homo sapiens Arabidopsis:Arabidopsis thaliana,Taxonomy /Taxonomy/taxonomyhome.html,拟南芥系谱(lineage) 各个物种的系谱树,在NCBI Entrez Taxonomy Homepage网页点击“tree”,在“tree”网页点击任一物种名,如“Eukaryota”,真核生物的系谱(lineage),6、文献数据库,各种杂志、书刊上发表的文章 大多数有摘要,(1)PubMed /PubMed/,美国国家医学图书馆的数据库 医学 分子生物学 基础生物学 5300多种刊物,来源于70多个国家 刊物年限:1948年至今,(2)OMIM (Online Mendelian Inheritance in Man),NCBI 的数据库 人类基因 遗传疾病 每天更新数据 条目,/sites/entrez?db=OMIM,(3)Agricola /,美国农部农业图书馆的数据库 农业类刊物,7、向数据库提交和修改核苷酸和蛋白质序列,提交:Submission 修改:Update,数据库中的数据由大家无偿提供,共同享用,Growth of Sequence and 3D Structure Databases,Signed by 256 researchers,(1)向 GenBank提交或修改核苷酸序列,用 BankIt 功能提交序列,网上直接提交,简单方便 提交后立刻得到临时编号 一周内得到 Accession number,用Update 功能修改 GenBank 中的序列和相关信息,修改一次,version 的编号就进一位,用 Sequin 方法提交序列,可下载的电子表格 自动确定 CDS、ORF 和查找重复序列,(2)向 SWISS-PROT 提交或修改蛋白质序列,网上直接操作 只接收用蛋白质直接测序的序列 由核苷酸序列翻译得到的蛋白质序列 将进入TrEMBL,(三)上机操作,熟悉各种数据库 重点了解 GenBank 和 SWISS-PROT 的各种功能和适用范围,Xa26 nucleic acid sequence (DQ426646,6000 bp): ATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCA GGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATG GATGGAGCCGGCAGCCGGCGATCCTATTTAA ,Xa26 amino acid sequence (ABD84047,1103 aa): MALVRLPVWIFVAALLIASSSTVP
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年锂电池电解液供应商合同管理及货物采购协议执行
- 2025年合同模板:申请书申请鉴定专用版
- 2025年盐城中考音乐试卷及答案
- 陕西省西安市未央区第七十五中学2024-2025学年八年级下学期期末语文试题(含答案)
- 2025企业网络维护合同范本
- 2025年生态基础知识考试试题及答案
- 2025年管工中级试题及答案
- 2025深圳租房合同备案
- 2025标准产品购买合同范本
- 工程项目跟踪方案(3篇)
- T/CSPCI 00001-2022汽油中苯胺类化合物的分离和测定固相萃取/气相色谱-质谱法
- 考评员聘用协议书
- 近代中国体育思想的嬗变轨迹与时代特征探寻
- DB31T 1373-2022 海三棱藨草种群生态修复技术规程
- 《农业科技创新政策》课件
- GB/T 2684-2025铸造用砂及混合料试验方法
- 初中地理跨学科主题学习课程设计及特征研究
- 消防专职招聘笔试题及答案
- 超声科报告书写规范及审核制度
- 助贷电销知识培训课件
- 岩棉板活动板房施工方案
评论
0/150
提交评论