生物信息学参考资料ppt课件.ppt_第1页
生物信息学参考资料ppt课件.ppt_第2页
生物信息学参考资料ppt课件.ppt_第3页
生物信息学参考资料ppt课件.ppt_第4页
生物信息学参考资料ppt课件.ppt_第5页
已阅读5页,还剩638页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学Bioinformatics,1,生物信息学(Bioinformatics)这一名词的来由,八十年代末期,马来西亚的美籍学者林华安(HwaA.Lim)认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,名称中的-或/符号经常会引起许多问题,林博士于是将其去除,“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。,2,生物学背景?分子生物学基因工程数学?统计学,模型,算法计算机科学背景?Linux/Perl/PHP/JAVA/C+/VisualBasic,调查,3,生物信息学?新兴的交叉学科,Mathematicalsciences,Computersciences,Lifesciences,4,So,采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。收集、加工、储存:计算机科学家分析、解释:生物学家,生物信息学,5,生物信息学的学习人员:1)学习生物信息学是为了发展生物信息学计算机科学家2)学习生物信息学是为了应用生物信息学生物学家我们属于,6,Coursecontent,生物信息学的资源生物信息学的工具生物信息学的原理生物信息学的分析思路生物信息学软件的编写能够学有所用是根本!多练习,7,8,第一章生物信息学引论,9,第一节引言,人类基因组计划(HGP)开始人类基因组计划带来了?,生物信息学,引言,第一章生物信息学引论,10,曼哈顿原子弹计划,阿波罗登月计划,人类基因组计划,人类自然科学史上的大计划,3,引言,11,人类基因组计划准备用15年时间投入30亿美元,完成人全部24(22+X+Y)条染色体中3.2109个碱基对的序列测定,主要任务包括做图、测序和基因预测,其根本任务是解读和破译生物体的生老病死以及与疾病相关的遗传信息。,引言,12,DNA:遗传物质(遗传信息的载体)A,C,G,T基因(Gene):基因是DNA分子上携带有遗传信息的功能片断。基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。,DNA、基因、基因组,引言,13,14,思考题:基因组就是所有基因的集合?,引言,15,HGP的历史回顾,1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在Science撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989美国成立“国家人类基因组研究中心”,Watson担任第一任主任1990.10经美国国会批准,人类基因组计划正式启动,JamesWatson,引言,16,查尔斯-德利思(CharlesDeLisi)博士,有人称德利思为“人类基因组计划之父”他不是第一个提出人类基因组计划的人,但他促成了第一个人类基因组研究项目的启动。,引言,17,完成人类基因组计划的遗传作图思考题:为什么伴随人类基因组计划,要对其他的基因组小的物种进行测序?,H.inf流感嗜血菌(1995),Saccharomycescerevisiae酿酒酵母(1997),Caenorhabditiselegans秀丽线虫(1998),引言,18,1998完成人类基因组计划的物理作图开始人类基因组的大规模测序Celera公司加入,与公共领域竞争启动水稻基因组计划1999.7第5届国际公共领域人类基因组测序会议,加快测序速度,大肠杆菌及其全基因组(1998),水稻基因组计划(2002),引言,19,AttheWhiteHouseonJune26,FrancisCollins(r),DirectoroftheNationalHumanGenomeResearchInstitute,PresidentClinton,andJ.CraigVenter,PresidentofCelaraGenomics,laudedthethousandsofscientistswhocontributedtothegenomesequence.公共领域和Celera公司同时宣布完成人类基因组工作草图,引言,20,2000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组拟南芥全基因组的测序工作2001.2.15Nature刊文发表人类基因组测序国际公共领域结果2001.2.16Science刊文发表Celera公司及其合作者结果,Drosophilamelanogaster果蝇(2000),Arabidopsisthaliana拟南芥(2000),引言,21,人类基因组与其它生物基因组比较,引言,22,通过国际合作,用15年时间(19902005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。HGP的终极目标阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。,HGP目标,引言,23,我国自主产权的全基因组测序计划,引言,水稻(2002),家鸡(2004),家蚕(2007),家猪(启动),大熊猫(启动),24,大规模测序基本策略,逐个克隆法:小片段针对图谱的!全基因组鸟枪法:大片段-测序-组装(美国Celera公司)Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。,引言,25,我国对人类基因组计划的贡献,引言,26,笼统的说,人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。研究多种模式生物基因组将有助于研究地球生物的进化史。,人类基因组计划的实施意义,引言,27,基因变异与疾病,人类基因组计划的实施意义,28,基因组计划带来的科学挑战,随着实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。1、信息的整合2、信息的储存3、信息的比较4、信息的分析5、信息的分解,基因组学,功能基因组学,引言,29,这些过程都需要生物信息学的帮助!,引言,30,生物信息学的应用医学,引言,新药物设计基因芯片疾病快速诊断流行病学研究:SARS人类基因组计划寄生虫基因组计划:基因芯片,31,病人健康人,基因芯片诊断,及早治疗,对症下药,引言,32,此外,生物信息学和人类基因组计划为药物靶标的发现和新药的研制开创了新天地,未来的药物设计将是基于生物信息学的知识挖掘的过程,通过数据分析首先确立靶标分子,预测蛋白质分子结构,设计药物分子与靶标分子相互作用,33,通过本门课程的学习,我们将能够:学会搜索各种生物信息学资源;能够利用各种工具搜索核酸蛋白质数据库;能够对未知基因及其产物进行初步的生物信息学分析;能够利用数据库进行序列的拼接和电子克隆;能够进行系统发育树的构建和分析;能够掌握基因组和蛋白质组分析的基础;了解生物信息学的一般概念和基本算法;初步设计本地化的的生物信息学分析软件,学习目标:,引言,34,1、你认为,什么是生物信息学?2、你认为生物信息学有什么用?对你的生活、研究有影响吗?3、人类基因组计划与生物信息学有什么关系?,Questions,引言,35,绪论,第一节引言从人类基因组计划说起第二节生物信息学及其发展历史第三节生物信息学主要研究内容第四节生物信息学当前的主要任务,36,复习提问:1.简述人类基因组研究计划的历程.2.我国自主知识产权的基因组测序计划有哪些?,37,通过国际合作,用15年时间(19902005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。1990,1996,1998,1999,2001,HGP,引言,38,采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。收集、加工、储存:计算机科学家分析、解释:生物学家,生物信息学,39,生物信息学基本思想的产生,生物信息学的迅速发展,二十世纪50年代,二十世纪80-90年代,生物科学和技术的发展,人类基因组计划的推动,2、生物信息学的发展历史,40,20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端(序列比对算法)20世纪80年代初期,生物信息分析方法的发展20世纪80年代以后,生物信息服务机构和数据库20世纪90年代后,HGP促进生物信息学的迅速发展,2、生物信息学的发展历史,41,1956:美国田纳西州首次召开了“生物学中的理论研讨会”;1962:Zucherkandl和Pauling研究了序列变化与进化的关系,开创了一个新的领域分子进化;1967:Dayhoff研制出蛋白质序列图集,即后来著名的蛋白质信息源PIR;1970:Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献;1970:Gibbs和McIntyre发表著名的矩阵打点做图法;1978:Gingeras等人研制了核酸序列中酶切位点识别程序;1981:Smith和Waterman提出了著名的公共子序列识别算法,同年Doolittle提出了关于序列模式的概念;,42,1982:GenBank第3版本正式发行;1983:Wilbur和Lipman发表了数据库相似序列搜索算法;1986:日本核酸序列数据库DDBJ诞生;1986:蛋白质数据库SWISS-PROT诞生;1988:美国国家生物技术信息中心NCBI诞生;1988:成立欧洲分子生物学网络(EMBNet),EMBL数据库诞生;1988:Person和Lipman发表了著名的序列比较算法FASTA;1990:快速相似性序列搜索算法BLAST问世,1987年BLAST的改进版本PSI-BLAST投入使用1996:Affymetrix生产出第1块DNA芯片。,43,生物信息学主要研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测,44,生物信息学主要研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测,45,采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质)的收集、加工、储存、分析、解释的一门学科。收集、加工、储存:计算机科学家分析、解释:生物学家,生物信息学,46,概念(广义),生物体系和过程中信息的存贮、传递和表达,细胞、组织、器官的生理、病理、药理过程的中各种生物信息,信息科学,生命科学中的信息科学,细胞、组织、器官的生理、病理、药理过程的中各种生物信息,信息科学,细胞、组织、器官的生理、病理、药理过程的中各种生物信息,信息科学,47,概念(狭义),分子生物信息学MolecularBioinformatics,生物分子信息的获取、存贮、分析和利用,48,生物信息学主要研究两种信息载体DNA分子蛋白质分子,49,基因的DNA序列,DNA,前体RNA,mRNA,多肽链,蛋白质序列,对应关系,遗传密码,50,DNA核酸序列,蛋白质氨基酸序列,蛋白质结构,蛋白质功能,最基本的生物信息,维持生命活动的机器,第一部遗传密码,第二部遗传密码?,生命体系千姿百态的变化,生物分子数据及其关系,蛋白质结构决定功能,51,第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少对于第二部密码,目前则只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。,生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。,52,生物分子信息的特征,生物分子信息数据量大生物分子信息复杂生物分子信息之间存在着密切的联系,53,基因组数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,生物分子数据的收集与管理,数据库!搜索!,54,165000个物种!超过100GB的碱基数目!,55,生物信息学主要研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测,56,数据库搜索及序列比较,AAGCTTAACGTAATCTTA-CGT,57,生物信息学主要研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测,58,基因组序列分析,遗传语言分析天书基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较,59,UTR内含子启动子基因之间的序列,基因组序列分析,电子克隆,60,生物信息学主要研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测,61,基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的热点和重点目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能,62,生物信息学主要研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测,63,蛋白质结构预测,蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为:二级结构预测空间结构预测,蛋白质折叠,64,复杂结构分析:X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法,Difficult!Expensive!TooMuchTime!,65,纵观当今生物信息学界的现状,大部分人都把注意力集中在:基因组蛋白质组药物设计(蛋白质结构),第四节生物信息学当前的主要任务,66,UTR内含子启动子基因之间的序列,1.基因组,电子克隆,67,2、蛋白质组,68,二维电泳图,69,一级结构二级结构三级结构各种基序(motif)的识别酸/碱性氨基酸的位置和统计富含某种氨基酸的特性亚细胞定位的预测分子进化蛋白质互作等等,3、蛋白质结构,70,4、新药设计,71,生物信息学研究意义,生物信息学将是21世纪生物学的核心,认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系改变生物学的研究方式改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据,72,总结,引言,第一节引言从人类基因组计划说起第二节生物信息学及其发展历史第三节生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测第四节生物信息学当前的主要任务1、基因组2、蛋白质组3、蛋白质结构4、药物设计,73,1、生物信息指哪些?2、基因组测序的基本策略有哪些?什么叫contig?3、什么事件大大促进了生物信息学的发展?4、生物信息学中最重要的贡献是什么?5、生物信息学研究有什么意义?,Questions,引言,74,生物信息学Bioinformatics,75,绪论,第一节引言从人类基因组计划说起第二节生物信息学及其发展历史第三节生物信息学主要研究内容?第四节生物信息学当前的主要任务?,复习,76,总结,第一节引言从人类基因组计划说起第二节生物信息学及其发展历史第三节生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测第四节生物信息学当前的主要任务1、基因组2、蛋白质组3、蛋白质结构4、药物设计,77,78,第二章生物信息学的生物学基础,79,调查:咱们已经具备了怎样的生物学基础?,80,普通生物学细胞遗传进化分子生物学研究核酸、蛋白质等生物大分子的结构、功能和相互关系研究生物大分子在生命活动中的重要性、规律性,从分子水平上真正揭开生物世界的奥秘,81,生物信息学,生物信息是:,核酸和蛋白质,82,细胞蛋白质核酸研究手段,提纲,83,生命活动的基本单位是什么?,Question1,84,细胞,生命的精致,生命不息,细胞活动不止,85,细胞,细胞活动不止,86,细胞,两类细胞:原核细胞:细菌、蓝细菌、原绿藻真核细胞:如真菌、动物、植物,思考:原核和真核细胞的区别?,87,原核细胞,主要特点:,1.遗传物质仅一个环状DNA或RNA,2.无细胞核,无核膜,3.无细胞器,无细胞骨架,4.以无丝分裂或出芽繁殖,代表生物:,支原体,细菌,兰藻,螺旋藻(人类未来的蛋白质食物新来源),细胞,88,真核细胞,主要特点:,1.遗传物质主要聚集在染色体上,2.有细胞核,有核膜,3.有细胞器,有细胞骨架,4.有丝分裂和减丝分裂,代表生物:,酵母,动物和植物等。,细胞,89,真核细胞,三大结构体系,3.膜系统:质膜,内膜系统,细胞器,1.细胞核系统:遗传信息表达系统,2.骨架系统:细胞质,细胞核等的骨架系统,细胞,90,真核细胞,细胞,91,真核细胞,细胞,细胞的主要构成部分:细胞核细胞膜细胞器细胞质,92,细胞核,细胞,真核细胞中的细胞控制中心包含遗传信息(染色质)与细胞质中的其它细胞器通讯,93,细胞膜,细胞,细胞膜的最重要的特征是?半透性,94,细胞器,细胞,线粒体:能量加工厂内质网:蛋白质和脂肪合成场所高尔基体:加工和包装的场所溶酶体:水解酶催化降解的场所,95,真核细胞的分裂,细胞,96,真核细胞,细胞,思考题:遗传物质基本一样的细胞,为什么形成细胞群的功能千变万化?,细胞分化,基因表达模式,蛋白的修饰,97,生命活动的执行者是什么?,Question2,98,蛋白质,99,20种标准氨基酸,蛋白质,100,20种标准氨基酸,蛋白质,按照侧链化学性质的不同分为:极性氨基酸(容易与水分子形成氢键)Ser、Thr、Cys、Asn、Gln、Tyr、Gly带电氨基酸His、Arg、Lys(+)碱性氨基酸Asp、Glu(-)酸性氨基酸疏水性氨基酸Ala、Val、Leu、Ile、Phe、Trp、Pro和Met,101,蛋白质,蛋白质的结构,102,蛋白质,蛋白质的结构,蛋白质的一级结构(primarystructure)蛋白质的一级结构是指多肽链中氨基酸的序列(包括二硫桥的位置),103,蛋白质,蛋白质的结构,1953年,桑格所测定的牛胰岛素序列,104,蛋白质,蛋白质的结构,蛋白质的二级结构(secondarystructure),二级结构主要有以下几种形式:(i)螺旋(ii)折叠平行折叠反平行折叠(iii)转角连接作用”U”型结构(大多Phe,Gly组成)(iv)无规卷曲-没有确定规律性的肽链构象,但仍是紧密有序的稳定结构(v)无序结构多肽链中有的区段为螺旋和折叠,105,蛋白质,蛋白质的结构,螺旋,肽链主链骨架围绕中心轴盘旋成螺旋状的结构。,106,蛋白质,蛋白质的结构,折叠,在多肽链之间或一条肽链的肽段之间靠氢键联结而成的锯齿状片层结构,107,蛋白质,蛋白质的结构,转角,在球状的蛋白质分子中,肽链经常出现的回折,由4个连续的氨基酸组成。(大多Phe,Gly组成),108,蛋白质,蛋白质的结构,蛋白质的三级结构,在二级结构基础上的肽链再折叠形成的构象,109,蛋白质,蛋白质的结构,蛋白质的四级结构,组成蛋白质的多条肽链在天然构象空间上的排列方式,多以弱键互相连接。疏水力、氢键、盐键,110,111,蛋白质,蛋白质结构与功能的关系,一级结构即氨基酸顺序,高级结构,生物学功能,(1)蛋白质一级结构与功能的关系序列分析(2)蛋白质空间构象与功能的关系结构分析,112,细胞蛋白质核酸研究手段,113,核酸,核酸的化学结构,碱基+戊糖核苷+磷酸核苷酸聚合核酸,碱基,戊糖,磷酸,114,扩展的遗传学字母表或IUPAC编码,115,核酸,DNA的一级结构,(1)DNA的碱基组成(i)A=T,G=C(ii)A+G=C+T(2)DNA的一级结构由A、T、C、G四种脱氧核苷酸通过3、5-磷酸二酯键连接而成的长链高分子多聚体为DNA分子的一级结构,116,核酸,RNA和核糖体,RNA是单链分子,RNA主要有三种:信使RNA(mRNA)-转录遗传信息核糖体RNA(rRNA)-蛋白质合成转运RNA(tRNA)-转运氨基酸核糖体是蛋白质合成的场所,核糖体主要由蛋白质分子和rRNA组成,117,核酸,RNA和核糖体,反密码子,氨基酸,新生肽链,核糖体,mRNA,mRNA,tRNA,rRNA,tRNA,16SrRNA可识别mRNA起始位点,118,核酸,遗传密码的基本特征,密码无标点符号密码的简并性(degeneracy)特殊密码子,119,核酸,中心法则,复制,DNA,转录,逆转录,复制,RNA,蛋白质,翻译,调控,120,核酸,基因,基因具有几个重要的特征:基因是一种相对独立的遗传信息单位;基因是一段DNA分子,遗传信息贮存在DNA中;基因通过指导合成蛋白质或RNA,进而产生生理功能,或影响其他基因的表达。,121,核酸,基因,原核生物基因的转录:,操纵子模型,结构基因,调节基因,操纵基因,操纵子,122,核酸,基因,真核生物基因组特点:(1)真核细胞的基因结构外显子(ATG,TAA,TGA,TAG)内含子(5-GTAG-3)完整的基因结构(2)单拷贝基因和基因家族(3)重复序列,123,TATA盒,翻译起始植物C/GAANNATGG动物A/GNNATGG,各内含子,加poly(A)信号植物G/AATAA1-3动物AATAAA,终止密码子,各个外显子,AGGA或CAAT盒,加帽位点5m7GpppNp,5端,真核基因的一般结构,TSS,124,核酸,基因,真核生物基因:,TSS,125,核酸,基因-蛋白,ORF,126,核酸,真核生物基因表达的调控,转录前调控转录调控转录后调控翻译调控蛋白质后加工,127,细胞蛋白质核酸研究手段,128,基本分子生物学研究手段,PCR,PCR反应液体的成分:PCR循环的程序:PCR原理:,129,基本分子生物学研究手段,RT-PCR反转录PCR,mRNA-cDNA-PCR,130,基本分子生物学研究手段,Cuttingbyenzymes,131,基本分子生物学研究手段,SouthernBlot,132,基本分子生物学研究手段,NorthernBlot,133,细胞蛋白质核苷酸研究手段,提纲,134,Questions:1.蛋白质二级结构有哪些?2.真核生物的启动子有什么作用?3.TSS,外显子和内含子的概念。4.如何判断起始密码子?内含子?5.基因表达调节有哪些?,135,生物信息学Bioinformatics,136,复习:,细胞蛋白质核酸,137,Questions:1.蛋白质二级结构有哪些?2.真核生物的启动子有什么作用?3.TSS,外显子和内含子的概念。4.如何判断起始密码子和终止密码子?内含子?5.基因表达调节有哪些?,138,请画出示意图:,1.中心法则2.真核生物基因的一般结构,139,核酸,中心法则,复制,DNA,转录,逆转录,复制,RNA,蛋白质,翻译,调控,140,TATA盒,翻译起始植物C/GAANNATGG动物A/GNNATGG,各内含子,加poly(A)信号植物G/AATAA1-3动物AATAAA,终止密码子,各个外显子,AGGA或CAAT盒,加帽位点5m7GpppNp,5端,真核基因的一般结构,TSS,141,142,第三章生物信息学数据库资源,143,提纲:,模式生物测序3大核酸数据库蛋白质数据库,144,提纲:,模式生物测序3大核酸数据库蛋白质数据库,145,human,Arabidopsis,Thermotogamaritima,Escherichiacoli,Buchnerasp.APS,Rickettsiaprowazekii,Ureaplasmaurealyticum,Bacillussubtilis,Drosophilamelanogaster,Thermoplasmaacidophilum,Plasmodiumfalciparum,Helicobacterpylori,mouse,Caenorhabitiselegans,rat,Borreliaburgorferi,Borreliaburgorferi,Aquifexaeolicus,NeisseriameningitidisZ2491,Mycobacteriumtuberculosis,一、模式生物,146,模式生物基因组计划,模式生物基因组计划酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对!,147,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genomesizesinnucleotidepairs(base-pairs),104,108,105,106,107,1011,1010,109,bonyfish,amphibians,148,模式生物(ModelOrganism),病毒(Virus)不具有细胞形态结构,仅由核酸和蛋白质构成;如:人艾滋病毒HIV、SARS冠状病毒体积小,10300nm;严格的专性细胞内寄生;对抗生素不敏感。,电子显微镜下的SARS冠状病毒,100nm,149,Escherichiacoli大肠杆菌,大肠杆菌是研究得最为详尽的一个模式生物。这种只有1.6微米长的、可以迅速繁殖的单细胞原核生物,已经成为实验室和基因工程的重要工具。,EscherichiacoliO157:H7,EscherichiacoliK12,模式生物(ModelOrganism),150,Saccharomycescerevisiae酿酒酵母,真菌界的单细胞真核生物,它的全基因组已在1996年测定。,模式生物(ModelOrganism),151,秀丽线虫Caenorhabditiselegans一种透明的、生活在海滩泥沙中的小虫。,细胞数目一定:成虫细胞数目只有959个,其中包括302个神经元;有6条染色体,全基因组于1998年测定,长9.7Mb,模式生物(ModelOrganism),152,Drosophilamelanogaster果蝇,繁殖很快、容易诱发变异的小昆虫。总长达1.8亿核苷酸。,模式生物(ModelOrganism),153,Arabidopsisthaliana拟南芥,个体生活周期只有6周的十字花科小草,是一种理想的模式植物。,模式生物(ModelOrganism),154,Oryzasativa水稻,单子叶植物模式植物,390-430MB,模式生物(ModelOrganism),155,模式生物(ModelOrganism),非洲瓜蟾(Xenopuslavias)1个受精卵在24小时内分裂到各种器官初具雏形的程度;,156,模式生物(ModelOrganism),斑马鱼(Daniorerio)身体透明的小鱼,生活周期约3个月,是研究脊椎动物发育过程的良好对象。,157,模式生物(ModelOrganism),小鼠(Musmusculus)基因组大小与人类相近,约30亿个核苷酸对;,158,159,160,提纲:,模式生物测序3大核酸数据库蛋白质数据库,161,主要的数据库资源,核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库主要有SWISS-PROT,PIR,TrEMBL等,蛋白结构数据库有PDB,MMDB等,与基因组有关的数据库还有dbEST,OMIM等,,162,3大核酸数据库,基因组数据库的相关背景。主要的基因组数据库资源。重点介绍GenBank,163,164,DNA序列数据库最早于1982年在欧洲分子生物学实验室诞生,随即就开始了一个数据库爆炸的时代。此后不久因一项美国国家健康研究中心与洛斯阿拉莫斯国家实验室的合同而诞生了GenBank。日本的DNA数据库(DDBJ),在几年后加入了数据收集的合作。,基因组数据库的发展历史,165,基因组数据库的发展历史,1988年一次三方会议之后(现在称之为“国际DNA序列数据库合作计划”)达成协议,对数据库的记录采用共同的格式现在三个中心都收集直接提交的数据,并在三者之间发布。,166,三大基因数据库,GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。NCBI的网址是:。EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。数据库网址是:http:/www.ebi.ac.uk/embl/。DDBJ数据库日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。DDBJ的网址是:http:/www.ddbj.nig.ac.jp/。,167,GenBank,PublicfreeAvailableviaInternet,EMBLDataLibrary,DDBJ(DNADataBankofJapan),三大基因数据库之间的关系,168,/,http:/www.ddbj.nig.ac.jp/searches-e.html,http:/www.ebi.ac.uk/embl/,169,美国的核酸数据库GenBankBanson,D.A.etal.(1998)NucleicAcidsRes.26,1-7从1979年开始建设,1982年正式运行;,170,171,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,172,173,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,174,175,/,http:/www.ddbj.nig.ac.jp/searches-e.html,http:/www.ebi.ac.uk/embl/,176,GenBank/,177,178,179,180,181,提纲:,模式生物测序3大核酸数据库蛋白质数据库,182,蛋白质数据库,183,主要的数据库资源,核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库主要有SWISS-PROT,PIR,TrEMBL等,蛋白结构数据库有PDB,MMDB等,与基因组有关的数据库还有dbEST,OMIM等,,184,60年代“蛋白质信息资源”(ProteinInformationResource,简称PIR)雏形产生1984年,“蛋白质信息资源”(ProteinInformationResource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。1988年,美国的NBRF、日本的国际蛋白质信息数据库JIPID和德国的慕尼黑蛋白质序列信息中心MIPS合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR。,185,除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所和欧洲生物信息学研究所EBI共同维护和管理。,186,PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。,187,SWISSPROT1.瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护(1986年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释;SWISS-PROT的网址:/sprot,188,189,PIR(proteininformationresource)1.由美国NCBI翻译自GenBank的DNA序列(1984年);2.在EMBL和GenBank数据库上均建立了镜像站点;3.数据依据注释的质量分为4类。网址:/,PIR数据库的分类情况(Release51.03),190,191,蛋白质结构数据库,192,主要的数据库资源,核酸序列数据库主要有GenBank,EMBL,DDBJ等.蛋白质序列数据库主要有SWISS-PROT,PIR,TrEMBL等,蛋白结构数据库有PDB,MMDB等,与基因组有关的数据库还有dbEST,OMIM等,,193,PDB(proteindatabank)1.目前最主要的蛋白质分子结构数据库;2.1970年代建立,美国Brookhaven国家实验室维护管理;3.1988年,由美国RCSB(researchcollaboratoryforstructuralbiology)管理;4.以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等;PDB的网址:/pdb(美国),194,195,196,如何AccessPDB记录?,197,如何AccessPDB记录?,198,如何AccessPDB记录?,199,如何AccessPDB记录?,DownloadPDBfile,ViewPDBfile,Structureviewoptions,200,如何AccessPDB记录?,201,如何AccessPDB记录?,202,提纲:,模式生物测序3大核酸数据库蛋白质数据库,203,Questions:下列数据库分别是什么类型的数据库?GenBank,PIR,DDBJ,SWISS-PROT,PDB,EMBL,TrEMBL,204,生物信息学Bioinformatics,205,Questions:下列数据库分别是什么类型的数据库?GenBank,PIR,DDBJ,SWISS-PROT,PDB,EMBL,TrEMBL,MMDB,206,207,第三章生物信息学数据库资源-数据库查询,208,GenBank/,209,210,211,PubMed的特点收录的文献多!大部分与生命科学相关自动词语匹配链接点多,部分在网上免费获得全文也可以直接定购原文,212,二、检索规则,213,二、检索规则,214,215,216,217,复杂检索,限制字段类别常用的有:Author:BaoYMauTitle:stresstiTilte/Abstract:stresstitle/abstractDate:1999:2009dp,218,复杂检索,布尔逻辑运算:AND、OR、NOT必须大写。逻辑符的运算次序是从左至右,括号内的检索式可作为一个单元,优先运行。布尔逻辑检索允许在检索词后面附加字段标识例如:ricetiANDBaoYMauAND2008:2009dp,219,220,Question1:如何查找由ZhuJ实验室于2005以后发表的,题目中显示关于水稻的文献.,221,Question2:,如:我要查找BaoYM在Nature或Science上发表的论文1BaoYMauAND(NatureJournalORScienceJournal)2BaoYMauANDNatureORScienceJournal3BaoYMauANDNatureJournalORScienceJournal4BaoYMauAND(NatureORScience)Journal哪一个检索语言是正确的?,222,在PubMed页面上选择AdvancedSearch:,223,在PubMed页面上选择AdvancedSearch:,224,在PubMed页面上选择Limits:,225,在PubMed页面上选择Limits:,226,期刊检索,227,如何获取GenBank中的序列?,228,同样存在限制字段:常用的有:Author:BaoYMautitle:SNAREtiorganism:riceorganism或者直接输入:Accession:AY077725AccessionGeneName:ZFP15GeneNameProteinName:ZFP15ProteinName如:BaoYMauANDSNAREtiANDriceorganism如果没有限定,就是任意字段。,如何获取GenBank中的序列?,229,230,Question:从小鼠中查找Bao实验室发布的p53蛋白相关的DNA序列.,231,232,直接录入注册号查询:,233,234,235,查找蛋白质序列:,236,查找EST序列:,237,查找Structure:,238,查找Structure:,239,240,241,242,查找Unigene,243,UniGeneisanexperimentalsystemforautomaticallypartitioningGenBanksequencesintoanon-redundantsetofgene-orientedclusters.EachUniGeneclustercontainssequencesthatrepresentauniquegene,aswellasrelatedinformationsuchasthetissuetypesinwhichthegenehasbeenexpressedandmaplocation.UniGene是非冗余的某个基因的集合,包含了该基因所有的经过实验证明的转录本及其表达信息.,244,245,246,247,248,249,Questions:什么是UniGene?2.根据目前的内容,GenBank的作用?,250,生物信息学Bioinformatics,251,文献检索,限制字段类别常用的有:Author:BaoYMauTitle:stresstiTilte/Abstract:stresstitle/abstractDate:1999:2009dp,252,布尔逻辑运算:AND、OR、NOT必须大写。逻辑符的运算次序是从左至右,括号内的检索式可作为一个单元,优先运行。布尔逻辑检索允许在检索词后面附加字段标识例如:ricetiANDBaoYMauAND2008:2009dp,文献检索,253,同样存在限制字段:常用的有:Author:BaoYMautitle:SNAREtiorganism:riceorganism或者直接输入:Accession:AY077725AccessionGeneName:ZFP15GeneNameProteinName:ZFP15ProteinName如:BaoYMauANDSNAREtiANDriceorganism如果没有限定,就是任意字段。,如何获取GenBank中的序列?,254,255,第四章DNA与蛋白质序列分析,256,什么是序列分析?拿到一个基因/蛋白质序列,我能做什么?,257,在数据库中进行序列相似性搜索基因结构分析/启动子序列分析Motif的寻找与序列的模式识别(含亚细胞定位,跨膜区的预测等),序列分析的内容-为了功能的分析,258,序列比对,第1节,259,序列的相似性,相似性(similarity)是指一种很直接的数量关系。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。,260,序列的相似性,相似性(similarity)通常在某些位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。将保守突变的因素考虑在内,就可以对两序列的相似程度打分,所得分值即代表其相似的程度。,261,一致性(identity):两个蛋白质有一定数量的氨基酸在排比的位点上是相同的,即如果38个氨基酸的蛋白质中15个位点相同,我们说它们一致性为39.4%.MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG-PRNGTIKIYENPARTFTRPYSAKNITIYKEND,262,所以,相似

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论