版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
生物信息学数据库第1页,课件共67页,创作于2023年2月生物信息学课件吴晓龙第2页,课件共67页,创作于2023年2月讲述内容
一、生物信息学和我的实验室
二、NCBI数据库第3页,课件共67页,创作于2023年2月一、生物信息学和我的实验室第4页,课件共67页,创作于2023年2月生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。1、生物信息学介绍第5页,课件共67页,创作于2023年2月具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。第6页,课件共67页,创作于2023年2月主要研究方向1、序列比对2、蛋白质结构比对和预测3、基因识别非编码区分析研究4、分子进化和比较基因组学6、遗传密码的起源7、基于结构的药物设计8、生物系统的建模和仿真……第7页,课件共67页,创作于2023年2月简单重复序列
简单重复序列(SimpleSequenceRepeats,SSRs)也称微卫星序列(Microsatellites)或短串联重复序列(ShortTandemRepeats,STRs),是由1-6个碱基对组成的串联重复DNA片段。SSRs在真核和原核生物的基因组中分布广泛、数量丰富,并具有较高的突变频率。
如:(A)n、(ACG)n、(ATCG)、(ACCCTT)n
2、我的实验室第8页,课件共67页,创作于2023年2月简单重复序列与人类疾病
简单重复序列是广泛分布在人类基因组中的,尽管其中很多功能都不太清楚,但是既然存在总有它存在的意义。下面总结了一些人类基因组中由于SSR扩增或变异所引起的相关疾病第9页,课件共67页,创作于2023年2月第10页,课件共67页,创作于2023年2月我们实验是近几年发的文章第11页,课件共67页,创作于2023年2月第12页,课件共67页,创作于2023年2月第13页,课件共67页,创作于2023年2月第14页,课件共67页,创作于2023年2月NCBI数据库1、国外的重要生物信息中心
2、NCBI介绍第15页,课件共67页,创作于2023年2月1、国外重要生物信息中心第16页,课件共67页,创作于2023年2月NCBI美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(NationalLibraryofMedicine/NLM)管理着许多著名数据库,如GenBank、Medline、dbSNP、COG、OMIM等提供Entrez、BLAST等服务
17第17页,课件共67页,创作于2023年2月NCBIhomepage第18页,课件共67页,创作于2023年2月EBI欧洲生物信息学研究所(EuropeanBioinformaticsInstitute)1994年建于英国剑桥,前身是德国海德堡的欧洲分子生物学实验室的信息服务部门EBI接收了原来EMBL数据库的管理和维护是欧洲分子生物学网(EMBnet)的一个特别节点http://www.ebi.ac.uk/(主页)http://www2.ebi.ac.uk/(工具)http://www3.ebi.ac.uk/(服务)19第19页,课件共67页,创作于2023年2月20EMBLhomepage第20页,课件共67页,创作于2023年2月NIG日本国立遗传学研究所(NationalInstituteofGenetics)创立于1949年7月1日,属文部省管辖信息服务始于1984年维护管理着DDBJ1987年1月发行DDBJ第一版http://www.nig.ac.jp21第21页,课件共67页,创作于2023年2月22DDBJhomepage第22页,课件共67页,创作于2023年2月23国际核苷酸序列数据库联盟InternationalNucleotideSequenceDatabaseCollaboration(INSDC)包括GenBank [美]/GenbankEMBL [欧]http://www.ebi.ac.uk/embl/
DDBJ [日]http://www.ddbj.nig.ac.jp/
每天这三个数据库作数据同步操作在任何一个数据库操作(查找、投递数据等)是等效的第23页,课件共67页,创作于2023年2月TIGR基因组研究所(TheInstituteforGenomicResearch)是重要的测序中心1992年建立1995年参与完成首次全基因组测序(流感嗜血杆菌)拥有世界最大的cDNA数据库之一/24第24页,课件共67页,创作于2023年2月基因图谱数据库
RHdb(辐射杂交;人、鼠),GDB(人类),GeneMap(人类;NCBI)生物医学文献数据库
MEDLINE3800多种生物医学期刊(通过PubMed查询)
SCIISI提供的文献引用检索(收费)人类基因组相关数据库
GDB(人类基因组),
OMIM(遗传,变异),HGVbase[瑞典](变异,双等位序列)其他模式生物的基因组数据库DOGS(
DatabaseofGenomeSizes[丹麦]综合)线虫ACeDB,Sanger果蝇FlyBase,Berkeley小鼠MGD,Japan
酵母Stanford,MIPS
大肠杆菌WISCDNA结构数据库CUTG(CodonUsageTabulatedfromGenBank,密码子使用频度表)[日]EPD(EukaryoticPromotorDatabase,真核生物启动子数据库)[欧]TRANSFAC(真核生物基因表达调控因子的数据库)[德]
RepBase(重复序列),MicroSatellite(微卫星),COMPEL(复合元件),MPDB(分子探针),NDB(晶体),VectorDB(载体),EID(外显内含子)25第25页,课件共67页,创作于2023年2月26BioSino是中国自主开发的核酸序列公共数据库发表我国学者提供的核酸序列,并接受注册登记有CDNAP和DDIB两个产品//DIDWeb/index.html第26页,课件共67页,创作于2023年2月NCBI介绍
第27页,课件共67页,创作于2023年2月NCBI美国国家生物技术信息中心(NationalCenterforBiotechnologyInformation)前身是NIH所属的一个研究所的计算生物学研究室,1988年独立为NCBI,形式上属于国家医学图书馆(NationalLibraryofMedicine/NLM)管理着许多著名数据库,如GenBank、Medline、dbSNP、OMIM等提供Entrez、BLAST等服务
第28页,课件共67页,创作于2023年2月它的使命包括四项任务:1.建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统。2.实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的研究。3.加速生物技术研究者和医药治疗人员对数据库和软件的使用。4.全世界范围内的生物技术信息收集的合作努力。第29页,课件共67页,创作于2023年2月NCBI数据库介绍
Nucleotide
美国国立卫生研究院GenBank。Genome
即基因组数据库,提供了多种基因组、完全染色体、
Contiged序列图谱以及一体化基因物理图谱。Pubmed
文献数据库。Structures
即结构数据库或称分子模型数据库(MMDB),包含来自
X线晶体学和三维结构的实验数据。MMDB的数据从
PDB(ProteinDataBank)获得。Taxonomy
即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等。
……
第30页,课件共67页,创作于2023年2月Nucleotideandgenome
31第31页,课件共67页,创作于2023年2月Nucleotide该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国HinxtonHall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成。
这三个组织联合组成国际核苷酸序列数据库协作体,每天交换各自数据库中的新增序列记录实现数据共享。其中的核酸序列数据也通过与基因组序列数据库(GSDB)合作获取。第32页,课件共67页,创作于2023年2月选择数据库输入关键字NCBI主页进入Entrez检索第33页,课件共67页,创作于2023年2月Entrez简介Entrez是个全局的生物医学搜索引擎,他可以检索的数据库主要包括三类:(1)文献数据库:PubMed,PubMedCentral,Journals,Books,OMIM,OMIA。(2)序列数据库:Nucleotide,Protein,Genome,Strcture,SNP。(3)其他数据库:Taxonomy,Gene,Probe,PopSet等第34页,课件共67页,创作于2023年2月无对应结果相关的结果Entrez检索的结果Entrez功能强大,在于它的大多数记录可相互链接,既可在同一数据库内链接,也可在数据库之间进行链接。Entrezbrowser来查询各种数据(集成搜索工具)第35页,课件共67页,创作于2023年2月基因组的相关的信息查看详细结果第36页,课件共67页,创作于2023年2月第37页,课件共67页,创作于2023年2月详细结果序列部分注释部分下载格式选择第38页,课件共67页,创作于2023年2月注释部分基因位点(Locus)、基因定义(Definition)、基因存取号(Accession)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊(Journal)、序列特征(Features)、基因(Gene)、蛋白质编码序列CDS(cDNA)
、5’非翻译区(5’UTR)、3’非翻译区3’UTR)、mRNA的polyA位置(polyA_site)、信使RNA(mRNA)、外显子(exon)、内含子(intron)、原序列(Origin)。第39页,课件共67页,创作于2023年2月常用序列格式:FASTA格式
1.定义:在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许序列前添加序列名及注释。通常核苷酸符号大小写均可,而氨基酸常用大写字母。
2.特点:简单使用最多例子(单序列):>gi|9629267|ref|NC_001798.1|Humanherpesvirus2,completegenomeAGTCCCCGTCCTGCCGCGCGGGGGCGGGCGCGGGAAAAAAGCCGCGCGGGGGCGCCCGCGGGAAGGCAGCCCCGCGGCGCGCGGGGGGAGGGGCGGCGCCCGCGGGGGAGCGGCCGGCTCCGGGGGAGGGACGGGGAAGG……….第40页,课件共67页,创作于2023年2月多序列FASTA>sequence1,E.colictgcgagNcgcgcgatgatagMMM-NNNngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactUgaURRRrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVagvcgtaggcagccgcc>sequence2,B.subtilisctgcgagNcgcgcgatgatagctgactNntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactUctURRRrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVcgvcgtaggcagccgcc>sequence3,B.nattoctgcgagNcgcgcgatgatagMcgatcccnatgannncgcggcgagcatgtagcatgctagctgtcgcgagcactUggURRRrrrggrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctaVaavcgtaggcagccgcc第41页,课件共67页,创作于2023年2月FASTA序列格式中的核苷酸表示法A腺嘌呤(adenosine)MA或C(amino)C胞嘧啶(cytidine)SG或C(strong)G鸟嘌呤(guanine)WA或T(weak)T胸腺嘧啶(thymidine)BG或T或CU尿嘧啶(uridine)DG或A或TRG或A(purine)HA或C或TYT或C(pyrimidine)VG或C或AKG或T(keto)NA或G或C或T(any)–不确定长度间隔42第42页,课件共67页,创作于2023年2月FASTA序列格式中的氨基酸表示法A丙(alanine)P脯(proline)BD或NQ谷氨酰胺(glutamine)C半胱(cystine)R精(arginine)D天冬(asparticacid)S丝(serine)E谷(glutamicacid)T苏(threonine)F苯丙(phenylalanine)U硒代半胱(selenocysteine)G甘(glycine)V缬(valine)H组(histidine)W色(tryptophan)I异亮(isoleucine)Y酪
(tyrosine)K赖(lysine)ZE或QL亮(leucine)X任何氨基(any)M甲硫(methionine)*翻译终止(translationstop)N天冬酰胺(asparagine)–不确定长度间隔43第43页,课件共67页,创作于2023年2月GenBank查询已知收录号(accessionnumber)的情况选数据库输入收录号查询结果摘要点击查看详细结果44第44页,课件共67页,创作于2023年2月向GenBank投递序列GenBank提供多种工具投递序列,如BankIt(网上投递)
适于少量的、注释简单的序列投递Sequin(本地投递;软件)
适于大量的、复杂的序列投递 可投递变异、种系发生、群体数据集 图形界面操作 选项多、功能强 可向GenBank,EMBL,DDBJ中的任一数据库投递45第45页,课件共67页,创作于2023年2月PubMed第46页,课件共67页,创作于2023年2月PubMed查找文献选择PubMed文献数据库第47页,课件共67页,创作于2023年2月PubMed主页输入关键词第48页,课件共67页,创作于2023年2月PubMed查询结果所有结果查看摘要免费文章增加筛选条件第49页,课件共67页,创作于2023年2月显示单篇文章摘要链接到原杂志第50页,课件共67页,创作于2023年2月原文章所在杂志PDF格式下载第51页,课件共67页,创作于2023年2月下载页面保存第52页,课件共67页,创作于2023年2月关键词的选择不是特殊情况,尽量使用名词原形,不使用复数、所有格等尽量使用专业用语,不使用the,of,and,research等常用词作为关键词为了减少遗漏,使用尽可能少而精的关键词53第53页,课件共67页,创作于2023年2月Blast第54页,课件共67页,创作于2023年2月序列比对序列比对(sequencealignment)也称联配、队排,是生物信息学中最常用和最经典的手段。通过序列比对,可以推测基因和蛋白质的进化演变规律,或者推测基因和蛋白质的结构和功能。对于两个序列之间的比对,称之为双序列比对或成对比对。对于多序列之间的比对,称之为多序列比对。主要有BLAST和ClustalX两种工具。第55页,课件共67页,创作于2023年2月Blast比对BLAST比对是BasicLocalAlignmentSearchTool(基本局部比对搜索工具)的英文简称,是一种序列类似性检索工具。NCBI提供了网络版BIAST搜索线服务。还提供了BLAST搜索程序和下载链接。有5个子程序。第56页,课件共67页,创作于2023年2月主要的blast程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。第57页,课件共67页,创作于2023年2月Blast结果给出的信息Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息。1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因…这些信息都可以应用到后续分析中。第58页,课件共67页,创作于2023年2月从主页进入blast点此进入blast主页第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年艾灸师行业培训合格考试安排试题及答案
- 汽车销售顾问培训教材与销售技巧
- 商务礼仪培训互动情境模拟方案
- 部门员工培训计划与实施方案
- XX公司安全培训效果评估考核(XXXX年XX月)
- 2026年医保政策知识培训考试题库及一套完整答案
- 2026年环境评估(土壤环境质量评估)试题及答案
- 2025年中职(医学检验)血常规检测实务综合测试题及答案
- 2025年大学(测绘科学与技术专业)地理信息系统基础试题及答案
- 2025年大学第四学年(工程项目融资)融资方案设计阶段测试题及答案
- LY/T 3408-2024林下经济术语
- 2025年湖南邵阳市新邵县经济开发区建设有限公司招聘笔试参考题库附带答案详解
- ICH《M10:生物分析方法验证及样品分析》
- 国家开放大学电大24210丨学前儿童科学教育活动指导(统设课)期末终考题库
- 【读后续写】2021年11月稽阳联考读后续写讲评:Saving the Daisies 名师课件-陈星可
- 教育培训班项目可行性研究报告
- 人参健康食品营销策划
- 2024年人参项目营销策划方案
- 工会职工大会制度实施细则范本
- ups拆除施工方案
- GB/T 21196.4-2007纺织品马丁代尔法织物耐磨性的测定第4部分:外观变化的评定
评论
0/150
提交评论