




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
杜 娟2013.03.06,生物信息学-第二章,生物数据库介绍,主要内容,引言数据库介绍数据存储格式介绍文献选读,2,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,一 引 言,3,4,生物信息数据库应满足5个方面的主要需求:(1)时间性(2)注释 (3)支撑数据 (4)数据质量 (5)集成性,5,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快 数据量呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库网络化 (4)面向应用,(二) 生物信息学数据库种类,从1994年开始,牛津大学出版的网上在线杂志 Nucleic Acids Research每年的第一期中详细介绍最新版本的各种数据库,对每一个数据库的性质、内容和更新状况进行综合描述。在2000年1月1日出版的28卷第一期报道了115种通用和专用数据库。至2008年,生物信息学数据库总数已达1078个,比2007年增加110个。2013年,达到1512个,6,Nucleic Acids Research 杂志,1512,/nar/database/a/,7,生物分子数据库,一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质序列功能位点数据库Prosite等,8,9,核酸序列数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,一级数据库,10,2.1 一级数据库,世界三大核酸序列数据库(公共序列数据库,Public Sequence Database) GenBank(美国) EMBL(欧洲) DDBJ(日本),A) 核酸(DNA)序列数据库,11,GenBank(美国国家生物技术信息中心,NCBI) 美国国立卫生研究院下属国立生物技术信息中心建立并维护 汇集并注释了所有公开的核酸序列。,GenBank网址 /genbank/,12,包含CoreNucleotide , dbEST, dbGSS,260000个物种,whole genome shotgun (WGS),GenBank中测序最多的20个物种,13,14,EMBL(欧洲分子生物学实验室,EMBL) 1982 European Molecular Biology Laboratory EBI(European Bioinformatics Institute)核苷数据来自基因组测序中心、个别科学家、欧洲专利局、以及跟合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。,EMBL网址 http:/www.ebi.ac.uk/embl,15,DDBJ(日本国家遗传学研究所,NIG) 1986 DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列,DDBJ网址 http:/www.ddbj.nig.ac.jp,16,来源于人类基因组计划及各种模式生物基因组计划 1977年,最早获得的生物基因组全序列是噬菌体(53kb) 1995年,第一个自由生物体流感嗜血菌(H. inf)被完全测序,B) 基因组数据库,17,部分生物基因组计划网址 老鼠(Mouse) /mgd.html 小鼠(Rat) http:/ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) http:/locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪(Pig) http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊(Sheep) http:/dirk.invermay.cri.nz 鸡(Chicken) http:/www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼(Zebra fish) 线虫(C. elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇(Drosophila) 蚊子(Mosquito) 拟南芥(Arabidopsis) /Arabidopsis 棉花(Cotton) 玉米(Maize) 水稻(Rice) http:/www.staff.or.jp 大豆(Soya) :8000/main.html 树(Trees) ,18,GDB(美国、加拿大) 1990年,John Hopkins大学建立,后由加拿大儿童医院生物信息中心管理,2003年起,GDB相关的软件和数据都转移到北卡三角洲国际研究院,数据内容:基因组结构数据、基因组图谱、基因多态性数据与其它分子生物信息网络资源(EMBL、GenBank)的链接,GDB网址 http:/morissardjerome.free.fr/infobiogen//gdb/index.html,19,AceDB 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。,数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,AceDB网址 ,20,SWISSPROT 1. 日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);2002年后由全球蛋白资源数据库 UniProt协会维护 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释; 4. 数据记录包括两部分: 序列 注释(结构域、功能位点、跨膜区域、二硫键位置、翻 译后的修饰、突变体等) 5. 数据存在滞后性 TrEMBL数据库的建立6. 记录以6位字母和数字组成,例:Q5K8D3,C) 蛋白质序列数据库,TrEMBL & GenPept,TrEMBL (Translation of EMBL):计算机注释的Swiss-Prot分支数据库,从EMBL库中的cDNA序列翻译得到的氨基酸序列数据库。GenPept:由GenBank翻译得到的蛋白质序列,与TrEMBL类似,这两个数据库中的序列错误率较大,均有较大的冗余度。,/docs/swiss-prot_guideline.html,21,Universal Protein Resource: Swiss-prot(TrEMBL), PIR两大蛋白数据库的整合体;收录蛋白质序列目录最广泛、功能注释最全面的数据库;包含三个子库:UniProtKB(UniProt Knowledgebase)UniRef(UniProt Reference Clusters)UniParc(Uniprot Archive),UniProt,22,23,UniProt的网址: /,24,539, 165 sequence entries,25,26,PIR(protein information resource) 1. 由美国NCBI翻译自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据依据注释的质量分为4类。,PIR数据库的分类情况(Release 51.03),27,PIR网址: /,D)蛋白质结构数据库,PDB Protein DataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库 /pdb/ NCBI STRUCTURE MMDB (Molecular Modelling DataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库,28,29,SCOP(Structural Classification of Protein) 英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;SCOP的网址:http:/scop.mrc-lmb.cam.ac.uk/scop/ CATH(class, architecture, topology, homology) 英国伦敦大学开发维护;CATH的网址:http:/www.biochem.ucl.ac.uk/bsm/cath,E) 蛋白质结构分类数据库,30,2.2 二级数据库,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。 (例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色),人类疾病与基因数据库,OMIM 孟德尔遗传信息数据库 CGAP The Cancer Genome Anatomy Project 肿瘤基因组图谱知识库,31,三 数据存储格式,DNA/RNA/氨基酸代码的标识GenBank数据格式EMBL & UniProt数据格式FASTA 数据格式,32,DNA代码,氨基酸代码,33,GenBank的数据类型,34,修改日期,35,GenBank数据文件格式,子库,Locus名字,序列类型mRNA (= cDNA)rRNAsnRNADNA,序列长度,序列形状,定义 (标题),检索号,Genbank号,36,EMBL(UniProt)数据格式,ID Q9XYV1_PARTE Unreviewed; 301 AA.AC Q9XYV1;DT 01-NOV-1999, integrated into UniProtKB/TrEMBL.DT 01-NOV-1999, sequence version 1.DT 21-MAR-2012, entry version 71.DE SubName: Full=Cyclin-dependent protein kinase Cdk2;GN Name=CDK2;OS Paramecium tetraurelia.OC Eukaryota; Alveolata; Ciliophora; Intramacronucleata;OC Oligohymenophorea; Peniculida; Parameciidae; Paramecium.OX NCBI_TaxID=5888;,头部区,37,引文区,RN 1RP NUCLEOTIDE SEQUENCE.RC STRAIN=51S;RX MEDLINE=99448661; PubMed=10519216;RX DOI=10.1111/j.1550-7408.1999.tb06065.x;RA Zhang H., Berger J.D.;RT A novel member of the cyclin-dependent kinase family in ParameciumRT tetraurelia.;RL J. Eukaryot. Microbiol. 46:482-491(1999).评论区CC -CC Copyrighted by the UniProt Consortium, see /termsCC Distributed under the Creative Commons Attribution-NoDerivs LicenseCC -,38,交叉引用数据库区,DR EMBL; AF126147; AAD34354.1; -; Genomic_DNA.DR HSSP; P24941; 1OIQ.DR ProteinModelPortal; Q9XYV1; -.DR GO; GO:0005524; F:ATP binding; IEA:UniProtKB-KW.DR GO; GO:0004674; F:protein serine/threonine kinase activity; IEA:InterPro.DR InterPro; IPR011009; Kinase-like_dom.DR InterPro; IPR000719; Prot_kinase_cat_dom.DR InterPro; IPR017441; Protein_kinase_ATP_BS.DR InterPro; IPR002290; Ser/Thr_dual-sp_kinase_dom.DR InterPro; IPR008271; Ser/Thr_kinase_AS.DR Pfam; PF00069; Pkinase; 1.DR SMART; SM00220; S_TKc; 1.DR SUPFAM; SSF56112; Kinase_like; 1.DR PROSITE; PS00107; PROTEIN_KINASE_ATP; 1.DR PROSITE; PS50011; PROTEIN_KINASE_DOM; 1.DR PROSITE; PS00108; PROTEIN_KINASE_ST; 1.,39,序列区,KW ATP-binding; Cyclin; Kinase; Nucleotide-binding; Transferase.SQ SEQUENCE 301 AA; 34675 MW; E839F1A5EA0D5CB5 CRC64; MDLAQSEERY QKLEKIGEGT YGLVYKARDN QTGDIVALKK IRMDHEDEGV PSTAIREISL LKEVQHPNIV PLKDVVYDES RLYLIFDFVD LDLKKYMESV PQLDRMQVKK FINQMIQALN YCHQNRVIHR DLKPQNILVD IKQQNTQIAD
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年汽车制造业新能源汽车技术发展与市场前景研究报告
- 2025年智能家居市场前景及发展方向研究报告
- 2025年绿色环保产业发展前景研究报告
- 2025年智能家居行业可穿戴设备应用与前景展望报告
- 2025年机器人行业机器人服务市场前景研究报告
- 2025年生物科技行业生物医学工程在康复医学中的应用前景研究报告
- 2025年智能网联汽车行业自动驾驶技术发展与市场前景研究报告
- 2025年虚拟现实产业发展前景报告
- 商场冬季用电安全培训课件
- 商场全年安全培训方案课件
- 电梯从业证考试试题及答案解析
- 第九讲 全面依法治国PPT习概论2023优化版教学课件
- 新媒体文案写作PPT完整全套教学课件
- 《细胞》PPT课件-完美版
- 托育园厨师安全工作责任书
- 《编程猫系列》第1课-Hello-编程猫(课件)
- GB 16899-2011自动扶梯和自动人行道的制造与安装安全规范
- 非典型骨折课件
- 封闭区倒塌围墙修复施工方案
- 户口本翻译样本-Word范文-Word范文
- 企业融资计划书2022
评论
0/150
提交评论