




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章生物信息数据库及其信息检索,生物科学与技术学院,.,本章主要内容,生物信息学数据库类型序列数据库结构数据库功能数据库其它专业数据库生物信息学数据库的检索检索方法概述检索实践和案例,.,生物信息学数据库的地位和作用,.,生物信息学数据库类型,核酸研究(NucleicAcidsResearch)杂志的每年第一期为生物信息学数据库专刊,收录最主要的生物学相关数据库,归类并展示在/nar/database/c/。,核酸序列数据库RNA序列数据库蛋白质序列数据库结构数据库基因组数据库(非脊椎动物)代谢与信号通路数据库人类与其他脊椎动物基因组人类基因与疾病微阵列数据库与其他基因表达数据库蛋白质组资源其他分子生物学数据库细胞器数据库植物数据库免疫学数据库细胞生物学数据库,生物信息学数据库类型,序列数据库结构数据库功能数据库其它专业数据库,.,GooglevsBaidu,肤浅的百姓工具,他可以更厉害!甚至超过windows、Linux或Mac等操作系统,.,一、序列数据库,主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学实验中测序获得的核酸和蛋白质序列。基因组序列数据库:GenomeDatabase(GDB)数据库(/)包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL-EBI和Sanger研究所联合开发。UCSCGenomeBrowser(/)加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基因组数据。,.,核酸序列数据库GenBank(/Genbank)EMBL(http:/www.ebi.ac.uk/embl/)DDBJ(http:/www.ddbj.nig.ac.jp/)三个数据库每天互相交换数据GenBank可通过NCBI的检索系统Entrez获取,Entrez集成来自主要DNA和蛋白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息其他各种专业核酸数据库非冗余参考序列数据库RefSeq密码子使用数据库CodonUsageDatabaseCUTG基因可变剪接数据库ASDB转录因子数据库TRANSFAC,.,NCBI(NationalCenterofBiotechnologyInformation)美国国立生物技术信息中心,.,三大数据库之间的联系,.,.,GenBank中测序最多的20个物种,.,human,Arabidopsis,Thermotogamaritima,Escherichiacoli,Buchnerasp.APS,Rickettsiaprowazekii,Ureaplasmaurealyticum,Bacillussubtilis,Drosophilamelanogaster,Thermoplasmaacidophilum,Plasmodiumfalciparum,Helicobacterpylori,mouse,Caenorhabitiselegans,rat,Borreliaburgorferi,Borreliaburgorferi,Aquifexaeolicus,NeisseriameningitidisZ2491,Mycobacteriumtuberculosis,模式生物与基因测序,.,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genomesizesinnucleotidepairs(base-pairs),104,108,105,106,107,1011,1010,109,bonyfish,amphibians,.,蛋白质序列数据库UniProt()由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息。IPI(http:/www.ebi.ac.uk/IPI/)国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt,Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-InvDB翻译的蛋白数据),整合过程中,直接接受手工注释结果。Nr(/refseq/)NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号,并将序列完全一致的非冗余蛋白质合并成簇。,.,二、结构数据库,核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也有同源建模等计算方法获得。结构数据库(核酸)NDB核酸结构数据库(/)收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT(theAutoDepInputTool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片Rfam数据库(http:/rfam.sanger.ac.uk/)RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非编码RNA家族的变异模式,.,结构数据库(蛋白质)PDB(/pdb/)RCSB(ResearchCollaboratoryforStructuralBioinformatics)专门用于处理和发布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物大分子三维结构。蛋白质结构分类数据库SCOP(http:/scop.mrc-lmb.cam.ac.uk/scop/)包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系MMDBNCBI的分子模型数据库。NCBI蛋白结构数据库(/sites/entrez?db=structure/)包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核酸链进行分类的分子匹配。,.,三、功能数据库,收录生物分子的功能数据,由ID号与序列和结构数据链接组织表达谱和亚细胞定位根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的图谱:BodyMap(http:/bodymap.ims.u-tokyo.ac.jp/)Unigene(/sites/entrez?db=unigene)SAGEmap(/projects/SAGE/)GEO(/projects/geo/)StanfordMicroarrayDatabase(/microarray),.,亚细胞定位数据库PSORTdb(/)DBSubLoc(,.,蛋白质-蛋白质相互作用数据库DIP(/)由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术IntAct(http:/www.ebi.ac.uk/intact)提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结构域注释进行网络的扩充代谢网络和信号途径KEGG大百科(http:/www.genome.ad.jp/kegg/)系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的细胞生化过程和同系保守的子通路等信息;LIGAND数据库收录关于化学物质、酶分子和酶反应等信息。,.,反应通路(KEGG),glycolysispathway(糖酵解)京都基因与基因组百科全书(KyotoEncyclopediaofGenesandGenomes),.,全细胞通路,.,四、其它专业数据库,人类基因和疾病数据库OMIM(/sites/entrez?db=omim)收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物模型及其参考文献等信息dbSNP(/sites/entrez?db=SNP)收录已经识别的SNPs的数据库HapMapProject()收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具有相对代表性CGED(http:/lifesciencedb.jp/cged/)收录多种癌症的临床和基因表达数据,更新到2007年,.,基于电泳和生物质谱的蛋白质组数据库SWISS-2DPAGE(/ch2d/)收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息PRIDE(http:/www.ebi.ac.uk/pride/)数据库收集国际蛋白质组计划所产出的鉴定结果数据PeptideAtlas(/)收录大规模LC-MS/MS实验鉴定的蛋白信息,并将信息匹配到Ensembl数据库dbLEP()为肝脏蛋白质组计划设计,提供鉴定结果及可追溯的信息,包括可供评估结果质量的鉴定肽段数和质谱图谱等,同时还提供大量的注释信息,更新到2007年,.,免疫学数据库IMGT(http:/imgt.cines.fr)关于免疫球蛋白、T细胞受体、主要组织相容性复合体以及人类和哺乳动物免疫系统相关蛋白的综合数据库,由序列数据库、基因组和结构数据库、网站资源数据库和各种研究工具数据库组成dbMHC(/mhc/)提供人类组织相容性抗原(HLA)的序列数据和临床上干细胞移植及风湿性关节炎等数据,也提供全世界90多个人群的HLA位点、等位基因和单倍型频率的遗传检测工具,.,Taxonomy分类学数据库,.,北京华大基因研究中心(中科院基因组研究所)杨焕明,我国的一些主要研究中心和数据库,生物信息学数据库的检索,检索方法概述检索实践和案例,.,生物信息学数据库的检索,主要检索系统和工具Entrez(NationalCenterforBiotechnologyInformation,NCBI)SRS(EuropeanBioinformaticsInstitute,EBI)ExPasyExpertProteinAnalysisSystem(SwissInstituteofBioinformatics,SIB)日本、欧洲、美国其他研究机构的工具平台,.,复杂检索,1、限制字段类别常用的有:Author:BaoYMauTitle:stresstiTilte/Abstract:stresstitle/abstractDate:1999:2009dp2、布尔逻辑运算:AND、OR、NOT必须大写。逻辑符的运算次序是从左至右,括号内的检索式可作为一个单元,优先运行。布尔逻辑检索允许在检索词后面附加字段标识例如:ricetiANDBaoYMauAND2008:2009dp,.,同样存在限制字段:常用的有:Author:BaoYMautitle:SNAREtiorganism:riceorganism或者直接输入:Accession:AY077725AccessionGeneName:ZFP15GeneNameProteinName:ZFP15ProteinName如:BaoYMauANDSNAREtiANDriceorganism如果没有限定,就是任意字段。,如何获取GenBank中的序列?,.,Entrez(NationalCenterforBiotechnologyInformation,NCBI),选择数据库,当没有进入号时输入关键词(英文和拉丁文)当有进入号时输入进入号,可编译,.,NCBI主页最下面的区域,是NCBI的快捷连接区域,.,举例:GAPDH或g3pdh是甘油醛-3-磷酸脱氢酶(glyceraldehyde-3-phosphatedehydrogenase)的英文缩写。该酶是糖酵解反应中的一个酶。该酶基因为管家(housekeeping)基因,几乎在所有组织中都高水平表达,在同种细胞或者组织中的蛋白质表达量一般是恒定的,且不受含有的部分识别位点、佛波脂等的诱导物质的影响而保持恒定,故被广泛用作抽提totalRNA,poly(A)+RNA,Westernblot等实验操作的标准化的内参。GAPDH一般是由4个相同亚基组成的四聚体,每个亚基均含有催化结构域和辅酶结合域。GAPDH与辅酶烟酰胺腺嘌呤二核苷酸(NAD+)组成全酶才具有催化活性。,.,基因序列搜索,.,.,.,STS序列标签位点(sequence-taggedsite),是已知核苷酸序列的DNA片段,是基因组中任何单拷贝的短DNA序列,长度在100500bp之间。任何DNA序列,只要知道它在基因组中的位置,都能被用作STS标签。作为基因组中的单拷贝序列,是新一代的遗传标记系统,其数目多,覆盖密度较大,达到平均每1kb一个STS或更密集。这种序列在染色体上只出现一次,其位置和碱基顺序都是已知的。在PCR反应中可以检测出STS来,STS适宜于作为人类基因组的一种地标,据此可以判定DNA的方向和特定序列的相对位置。,.,不能用任何其它的特征关键词表述的具有生物学意义的区域;新的或少见的特征,.,.,蛋白序列搜索,.,.,.,蛋白质结构搜索,.,.,MMDBID:34532PDBID:1U8F,.,Nicotinamide-Adenine-Dinucleotide烟酰胺腺嘌呤二核苷酸,O、P、Q和R为GAPDH的四个亚基蛋白链,其和1(烟酰胺腺嘌呤二核苷酸)的相互作用关系,.,课堂练习:,Homosapiensp53,人体抑癌基因,该基因编码一种分子量为53kDa的蛋白质,命名为P53。p53基因的失活对肿瘤形成起重要作用。但是事物必然有它的两个方面,p53是一个重要的抗癌基因使癌细胞自杀,防止癌变;还具有帮助细胞基因修复缺陷的功能。,基因序列搜索,标注(Searchthetargetgene,andannotatethegene),蛋白序列搜索,标注(Searchthetargetprotein,andannotatetheprotein),蛋白质结构搜索,标注(Searchthestructureofthetargetprotein,andannotateit),Question:从小鼠中查找Bao实验室发布的p53蛋白相关的DNA序列.,一些生物信息学相关的名词和知识,.,参考P74,关键字的定义,Attenuator:regionofDNAatwhichregulationofterminationoftranscriptionoccurs,whichcontrolstheexpressionofsomebacterialoperons,sequencesegmentlocatedbetweenthepromoterandthefirststructuralgenethatcausespartialterminationoftranscription.Enhancer:acis-actingsequencethatincreasestheutilizationofeukaryoticpromoters,andcanfunctionineitherorientationandinanylocation(upstreamordownstream)relativetothepromoter.Promoter:regiononaDNAmoleculeinvolvedinRNApolymerasebindingtoinitiatetranscription.Terminator:sequenceofDNAlocatedeitherattheendofthetranscriptthatcausesRNApolymerasetoterminatetranscription.polyA-signal:recognitionregionnecessaryforendonucleasecleavageofanRNAtranscriptthatisfollowedbypolyadenylation,consensus=AATAAA.,.,Promoter,Enhancer,Gene,Terminator,Transcriptionunit,+1,-1,Downstreamsequence,Upstreamsequence,-10,Transcriptionstartsite,Regulatoryelement,-2,-3,-4,-5,-6,-7,-8,-9,-11,-12,-13,-14,-16,-17,+2,+3,+4,+5,+6,+7,+8,polyA-signal,Attenuator,调节基因,阻遏子,启动子,操纵基因,终止子,lacZ,lacY,lacA,lac操纵元,Attenuator,AAAAAAA,endonucleasecleavage,endonuclease,.,CAAT-signal:CAATbox,partofaconservedsequencelocatedabout75bpup-streamofthestarpointofeukaryotictranscriptionunitswhichmaybeinvolvedinRNApolymerasebinding,consensus=GG(CorT)CAATCT.GC-signal:GCbox,aconservedGC-richregionlocatedupstreamofthestartpointofeukaryotictranscriptionunitswhichmayoccurinmultiplecopiesorineitherorientation,consensus=GGGCGG.TATA-signal:TATAbox,Goldberg-Hognessbox,aconservedAT-richseptamerfoundabout25bpbeforethestartpointofeacheukaryoticRNApolymerasetranscriptunitwhichmaybeinvolvedinpositioningtheenzymeforcorrectinitiation,consensus=TATA(AorT)A(AorT).-10-signal:pribnowbox,aconservedregionabout10bpupstreamofthestartpointofbacterialtranscriptionunitswhichmaybeinvolvedinbindingRNApolymerase,consensus=TAtAaT.-35-signal:aconservedhexamerabout35bpupstreamofthestartpointofbacterialtranscriptionunits,consensus=TTGACa,.,+1,-50,Transcriptionstartsite,-25,-75,-100,Hognessbox,GCbox,GCbox,CAATbox,+1,-50,Transcriptionstartsite,-25,-100,-190,Corepromoter,GCbox,GCbox,Upstreamcontrolelement,GCbox,GCbox,GCbox,Basalpromoter,Upstreamelement,Downstreamelement,+50,Transcriptionstartsite,+1,Hognessbox,Octamermotif,Intragenicpromoter,+90,PSE,Abox,Cbox,IE,Classpromoter,Classpromoter,Classpromoter,eukaryotictranscriptionunits,.,PR:,TTATTCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTATTTCATACCAT,+1,Transcriptionstartsite,-10,Pribnowbox,-35,GACAbox,GTGCGTGTTGACTATTTTACCTCTGGCGGTGATAATGGTTGCATGTACTAAGGA,GGCGGTGTTGACATAAATACCACTGGCGGTGATACTGAGCACATCAGCAGGACG,TGAGCTGTTGACAATTAATCATCGAACTAGTTAACTAGTACGCAAGTTCACGTAA,CCCAGGCTTTACACTTTATGCTTCCGGCTCGTATGTTGTGTGGAATTGTGAGCGG,CCCAGGCTTTACACTTTATGCTTCCGGCTCGTATAATGTGTGGAATTGTGAGCGG,TTTCCTCTTGTCAGGCCGGAATAACTCCCTATAATGCGCCACCACTGACACGGAA,TAAATGCTTGACTCTGTAGCGGGAAGGCGTATTATGCACACCTCGCGCCGCTGA,TCCATGTCACACTTTTCGCATCTTTGTTATGCTATGGTTATTTCATACCATAAGCC,PL:,trp:,lac:,lacUV5:,rrnA1:,rrnA2:,galP1:,galP2:,bacterialtranscriptionunits,.,-35,TTGACA,TATAAT,+20,+1,-10,原核生物的RNA聚合酶全酶及其在转录起始区的结合,.,(1)开放读码框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有读码框都能被表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。(2)CDS,是编码一段蛋白产物的序列。(3)CDS可能是一个ORF,但也可能包括多个ORF。(4)反之,每个ORF不一定都是CDS。,CDS:codingsequence,sequenceofnucleotidesthatcorrespondswiththesequenceofaminoacidsinaprotein(locationincludesstopcodon),featureincludesaminoacidconceptualtranslation.Openreadingframe(ORF):areadingframethatdoesnotcontainanucleotidetripletwhichstopstranslationbeforeformationofacompletepolypeptide.,.,LTR:longterminalrepeat,asequencedirectlyrepeatedatbothendsofadefinedsequence,ofthesorttypicallyfoundinretroviruses.,反转录病毒的基因组的两端各有一个长末端重复序列(5LTR和3LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTP强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。TheHIV-1LTRisapproximately640bpinlengthand,likeotherretroviralLTRs,issegmentedintotheU3,R,andU5regions.,.,5clip:5-mostregionofaprecursortranscriptthatisclippedoffduringprocessing.3clip:3-mostregionofaprecursortranscriptthatisclippedoffduringprocessing.5UTR:regionatthe5endofamaturetranscript(precedingtheinitiationcodon)thatisnottranslatedintoaprotein.3UTR:regionatthe3endofamaturetranscript(followingthestopcodon)thatisnottranslatedintoaprotein.Prim-transcript:primary(initial,unprocessed)transcript,includes5clip,5UTR,CDS,exon,intron,3UTR,and3clip.,5clip,3clip,5UTR,3UTR,exon1,Exon2,Exon3,Prim-transcript,.,Exon:regionofgenomethatcodesforportionofsplicedmRNA,rRNAandtRNA,maycontain5UTR,allCDSsand3UTR.Intron:asegmentofDNAthatistranscribed,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能家居产品房地产开发商销售渠道运营策略研究报告
- 遗传因素在血管健康中的作用考核试卷
- 社会责任与贫困地区文化保护与传承考核试卷
- 食品添加剂安全性评估与合理使用2025市场前景分析报告
- 2025年历史文化街区保护与开发在城市更新中的创新路径研究报告
- 2025年老旧小区改造功能提升与居民满意度影响因素研究
- 影视工业化制作流程与质量控制中的质量控制体系优化策略研究报告
- 面向2025年的无土栽培蔬菜产业农业科技成果转化可行性分析报告
- 环保产业园2025年循环经济废弃物处理产业投资价值研究报告
- 初中生入团志愿书5-多篇
- 高考作文-“新八段文”精讲
- 构建高校生涯教育内容体系
- 议论文知识点总结及真题训练
- 农产品加工厂房建设与设备采购合同三篇
- 《齿轮泵的工作原理》课件
- 煤矿安全生产条例培训
- 抚养权变更协议模板2024年
- 水利工程施工监理规范(SL288-2014)用表填表说明及示例
- DB11T 1010-2013 信息化项目软件开发费用测算规范
- 投标货物包装、运输方案
- 抽水蓄能电站地下厂房系统开挖工程施工方案
评论
0/150
提交评论