版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、绪论什么是生物信息学?生物信息学的产生生物信息学发展过程生物信息学的基本方法生物信息学的研究内容生物信息学的应用基因组信息学的首要任务生物信息学的重要研究课题生物信息学的商业价值通过学习应逐渐掌握的内容产生(分子生物学研究中获得的大量数据)收集(数据库)维护(产生高质量数据)传播(互联网,搜索引擎)分析(主要研究内容)应用(多个领域)什么是生物信息学?主要由数据库、计算机网络和应用软件三大部分构成定义收集、维护、传播、分析以及利用在分子生物学研究中获得的大量数据。生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据
2、的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。现代分子生物学的发展,特别是人基因组计划的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单数字,而是公共数据库中数以千兆计的记录。基因组信息是生物信息中最基本的表达形式,并且基因组信息量在生物信息量中占有极大的比重,但是
3、,生物信息并不仅限于基因组信息,生物信息学也不等于是基因组信息学。广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。定义生物信息学的产生80年代未人类基因组计划(Human genome project)的启动生物实验和衍生数据的大量储存涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础建立、更新生物数据库及获取生物数据而联合使用多项计算机科学技术的应用性学科不仅仅是只限于生物信息学这一概念的理论性学科。事实上,它是一门理论概念与实践应用并重的学科bioinform
4、atics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。生物信息学发展过程早在年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。20世纪50年代末 数学模型、统计学方法和计算机处理宏观生物学数据。数量分类学、数学生态。年,这一学科被正式命名为“生物信息学”(bioinformatics)。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。应用于分子生物学:分子生物学数据库、蛋白质结构分析与预测。年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义人类基因组计划(human genome pro
5、ject,HGP):1990年启动,10年时间完成草图(3x10e9个碱基对,并对30,000多个基因进行了注释)。越来越多的微生物和其他模式生物也完成了全基因组测序工作。生物信息学的发展过程大致经历了3个阶段:前基因组时代-生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;基因组时代-基因寻找和识别、网络数据库系统的建立、交互界面的开发;后基因组时代-大规模基因组分析、蛋白质组分析。生物信息学的基本方法:建立生物数据库:核苷酸顺序数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组数据库(
6、YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)。数据库检索:Blast序列分析:序列对位排列、同源比较、进化分析。统计模型:如隐马尔可夫模型(hidden Markov model, HMM)-基因识别、药物设计。最大似然模型(maximun likelihood model, ML)、 最大简约法(Maximun Parsimony, MP)-分子进化分析。算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network)。生物信息学的研究内容对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释:一是对
7、海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是使用好这些数据。具体地说,生物信息学是把基因组(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和(核糖核酸)基因的编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化等的规律。生物信息学的研究内容获取人和各种生物的完整基因组基因组注释:新基因、单核苷酸多态(SNP).基因组中非编码区信息结构分析在基因组水平研究生物进化完整基因组的比较研究从功能基因组到系统生物学
8、蛋白质结构模拟与药物设计生物信息学的研究内容 实验数据 -转换为-计算机信息高度自动化的实验数据的获得、加工和整理如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息,是生物信息学的一个重要课题。这种转化大量地体现在各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息,并对其作简单分析,再将分析结果用于实验条件的控制,完成高度自动化的实验过程。从事大规模EST测序和DNA物理图谱构建的实验室都已建立起高度自动化的机器人系统来完成大部分的实验工作。 数据管理系统伴随着实验过程的高度自动化甚至工厂化,从事大规模分子生物学项目的实验室,每
9、天需要存储的数据可以轻易地超过几千兆字节。这样大的数据量必须用专门的实验室数据管理系统进行处理,以自动完成包括实验进程和数据的记录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输人数据库在内的各项工作。由于不同实验室需处理的数据类型各不相同,很多实验室都是各自开发自己的系统。随着测序逐渐成为实验室的常规工作,对这种系统的需求会越来越大。生物信息学的研究内容目前最为常见的基因测序方法是鸟枪法(Shotgun method)。鸟枪法测序的结果使我们只能得到大量的随机的基因片段更廉价和更高效的新一代测序技术,基因片段越来越短,基本上是25-30个碱基对的片段,与以前的长达几百几千
10、的基因拼接在算法上就有了差异性。为了能够在超短序列上拼接出完整的基因序列,就必须加大测序的覆盖率,这样将会导致庞大的初始序列文件,通常达到了GB级别。最新的序列拼接软件ALLPATHS V3.0 需要至少32GB的内存,这种昂贵的代价是一般机器无法提供的。超短基因片段导致了大量的overlap(重叠区域),这将是传统的拼接算法所无法承受的计算量。还有大量的repeat(重复区域)也将使传统的算法更加的不可靠。同时初始文件的庞大导致传统的内存算法已经不再适用。生物信息学的研究内容序列片段的拼接 基因区域的预测(基因注释) 在完成序列的拼接后,我们得到的是很长的DNA序列,甚至可能是整个基因组的序
11、列。这些序列中包含着许多未知的基因,下一步就是将基因区域从这些长序列中找出来。 所谓基因区域的预测,一般是指预测DNA顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA box和加尾信号)的认识,预测出可能的完整基因。生物信息学的研究内容 基因组注释 有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占11;外显子与外显子之间的区域(称为内含子)占了24;而基因与基因之间的间隔序列却占了75,也就是说在人
12、类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等。 生物信息学的研究内容 发现新基因 发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60是通过信息分析得到的。生物信息学的研究内容Example:Take a protein sequence and use it as a query in a blastp sear
13、ch of the nr database at NCBIIf there is a match with less than 100% identityIf there is a match with100% identity, but to a different species 发现新基因 -(1)基因的电脑克隆 利用 E ST数据库发现新基因也被称为基因的电脑克隆。 E ST序列是基因表达的短 c DNA序列,它们携带着完整基因的某些片段的信息。到2001年10月,GenBank的EST数据库中人类 E ST序列已超过380万条,它大约覆盖了人类基因的90以上。我国早在1996年就开始
14、了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有 E ST片段,再把它们连接起来。由于 E ST序列是全世界很多实验室随机产生的,所以属于同一基因的很多 E ST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的 E ST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。 生物信息学的研究内容 发现新基因 -(2)从基因组 DNA序列中预测新基因 从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区
15、分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。 发现了新基因就会使我们对生命活动的认识加深一步。1999年12月2日自然杂志,人的第22号染色体数据已鉴定出679个基因,其中55的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。但是,要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中,依然是一个十分重要、十分艰巨的任务。生物信息学的研究内容基因组中非编码区信息结构分析近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占
16、整个基因组序列的10到20。随着生物由低等到高等,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。对人类基因组来说,迄今为止,人们真正掌握规律的只有 D NA上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的11。仅占人类基因组11的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,98非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。生物信息学的研究内容 基因功能预测 序列同源比
17、较;寻找蛋白质家族保守顺序;蛋白质结构的预测。生物信息学的研究内容分子进化的研究: 通过上述种种方法我们可以预测出一个新基因的可能具有的功能。然而预测新基因只是生物信息学研究的一个方面,这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。对于基因组研究来说,一个重要的研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。这种研究已逐步形成一个称为比较基因组学的新学科。从各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的研究。生物信息学的研究内容分子进化的研究:科学家们对处于不同进化阶段
18、物种的基因组结构和功能进行比较分析,企图最终弄清人类10 万个基因的起源和进化、结构和功能的演变,发现其间的亲缘关系,像元素周期表那样把基 因和蛋白质分类、排序,得到生物学的周期表,根据基因在进化树上的位置,或一小段核苷 酸序列,或蛋白质的基序、模块、折叠等,即可预测其来源、结构、功能等。这项浩大的工 程显然需要大量生物信息学家长期不懈努力才能完成。生物信息学的研究内容在基因组水平研究生物进化随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时,对“垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重视。也就是
19、近年来发现了基因的“横向迁移现象”。即:基因可以在同时存在的种群间迁移,其结果虽可导致序列差异,但这种差异与进化无关。甚至,对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。如果以人的这些基因序列来研究进化将会得到荒谬的结论。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。特别是:在分子进化分析中,“相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。生物信息学的研究内容完整基因组的比较研究在后基因组时代,完整基因组数据越来越多,有了这些资料人们就能对若干重大生物学问题进行分析研
20、究,如:生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?等等。这些重大的问题估计只有在基因组水平上才能回答。举例来说,鼠和人的基因组大小相似,都含有约30亿碱基对,基因的数目也类似,且大部同源。可是鼠和人差异却如此之大,这是为什么?同样,有的科学家估计不同人种间基因组的差别仅为01;人猿间差别约为1。但他们表型间的差异十分显著。因此,这种差异不仅应从基因、 D NA序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。这一工作开创了比较基因组学。生物信息学的研究内容完整基因组的比较研究科学家们发现:全部基
21、因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、分子伴娘、能量产生、离子转运、各种代谢相关的基因。当我们比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。研究表明在同一界中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。生物信息学的研究内容从功能基因组到系统生物学在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,约有34万个转录子,有的
22、组织中只有几十或几百个基因表达。同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。为了得到基因的表达谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的基因芯片(或称 D NA芯片)技术和在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质组技术。由于芯片上样品点的密度很大,可以达到每片几十万,因此表达谱数据挖掘和知识发现就成了该研究成功与否的关键。无
23、论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。生物信息学的研究内容蛋白质结构模拟与药物设计蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速发展,这一领域面临着新的态势,即:在找到人类34万个基因的碱基序列并确定它们表达产物的氨基酸顺序后,如何预测这些蛋白的空间结构,进而实现针对性的药物设计。(蛋白质的功能和它们的空间结构密切相关 )生物信息学的研究内容生物信息学的应用:基因组分析基因芯片药物开发其他生物信息学的应用基
24、因组(测序组装):基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有亿个碱基,而现在的测序仪每个反应只能读取几百到上千个碱基。这样,要得到人的全部遗传密码,首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。而基因组大规模测序的每一个环节,都同信息分析紧密相关,每一步都紧密依赖于生物信息学的软件和数据库。基因组分析将已知的序列与功能联系在一起、从基于常规克隆的基因分类转向基于序列及功能的分析的基因分类、 从单个基因致病机制的研究转向多个基因致病机制的研究、从组织与组织之间的比较来研究功能基因组和蛋白质组、 从基因组和蛋白质组的结构与功能关系来预测三级结构和功能,并从三级
25、结构和功能反推可能的序列、通过比较不同生物物种的基因组来进行分子进化研究。生物信息学的应用生物信息学的应用蛋白质组:基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行。由于基因芯片技术只能反映从基因组到的转录水平上的表达情况,而从到蛋白质还有许多中间环节的影响,这样,仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者蛋白质的整体表达状况。因此,近年在发展基因芯片的同时,人们还发展了一套研究基因组所有蛋白质产物表达情况的技术蛋白质组研究技术,包括二维凝胶电泳技术和质谱测序技术。然而,最重要的是如何运用生物信息学的方法去分析获得的海量数据,从中还原出生命运转和调控的整体系统的分子机制。
26、生物信息学的应用: 1.基因组分析人类基因组计划(HGP):人类基因组计划(Human Genome Project,简称HGP)是美国科学家在1985年率先提出的,其目的在于阐明人类基因组DNA3109核苷酸序列,破译人类全部遗传信息,HGP于1990年正式启动。随着HGP产生的数据爆炸,一门新兴学科-生物信息学应运而生。生物信息学是以计算机为主要工具,开发各种软件,对日益增长的DNA和蛋白质的序列和结构等相关信息进行收集、储存、发行、提取、加工、分析和研究,同时建立理论模型,指导实验研究,它由数据库、计算机网络和应用软件三大部分构成,在基因组计划中发挥不可替代的作用。生物信息学的应用: 1
27、.基因组分析人类基因组计划(HGP):HGP目的之一,就是找到人类基因组中的所有基因。除功能克隆和定位克隆策略之外,生物信息学为分子生物学家提供了一条寻找和研究新基因的新思路,即从高度自动化的实验出发,经过数据的获取与处理、序列片段的拼接、可能基因的寻找、基因功能的预测一直到基因的分子进化研究。这个过程的每一个环节,都是生物信息学研究的重要内容。生物信息学的应用: 1.基因组分析人类基因组计划(HGP)HGP的目标大致如下:(1)建立一高分辨力的人体基因组图谱。(2)建立某 些选择性模型机体(如大肠杆菌、线虫等)的DNA和人体染色体的基因物质图谱。(3)测定这些人体和选择性机体的DNA序列,以
28、俾更好了解正常基因调控、基因遗传性疾病及其演化过程。(4)建立软件和数据库以提高应用和判断这些基因信息的效能。(5)发明有关的创新技术。(6)建立HGP的伦理学、法律和社会参与的程序。生物信息学的应用:2.基因芯片基因微阵列或DNA芯片(gene microarray 或DNA chips)的原理是将几万个寡核苷酸或DNA作为探针,密集排列于硅片等固相支持物上,将研究样品标记后与微点阵杂交并进行检测。根据杂交信号强弱及探针位置和序列,可以确定靶DNA的表达情况以及突变和多态性存在与否。生物信息学的应用:3.药物开发基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来。要了解它们的功能,只有氨基酸序列是远远不够的。得到这些新蛋白的完整、精确和动态的三维结构,是摆在人们面前的紧迫任务。生物信息学的应用:3.药物开发近年,随着结构生物学的发展,相当数量的蛋白
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026首都机场集团校园招聘历年真题汇编带答案解析
- 2026年甘肃交安c证试题及答案(含解析)
- 2026年数据知识产权登记保护试点及数据资产入表衔接试题
- 水库移民后期扶持项目使用林地可行性报告
- 2026年历年湖南怀化公开银行招聘笔试试题及答案
- 生态旅游项目农用地转用方案
- 2026年5月23日广东省湛江吴川事业单位面试真题及答案解析
- 暖通工程安装方案
- 2025四川东兴区惠和保安服务有限公司招聘1人笔试历年常考点试题专练附带答案详解
- 2025南斗六星技术有限公司校园招聘笔试历年难易错考点试卷带答案解析
- 2026-2030中国染发剂行业现状调查与发展前景预测分析研究报告
- 2026山东师范大学综合评价综合素质考核笔试+面试模拟试题(二)
- 2026江苏苏州常熟市融媒体中心(传媒集团)招聘7人备考题库有答案详解
- 2026学年安徽省宿州市三年级语文期末点睛提升经典测试题详细参考解析详细答案和解析
- 2026-2030中国海洋环境监测行业市场发展现状及竞争格局与投资发展研究报告
- 外墙曲臂车高空作业专项施工方案
- 雨课堂学堂在线学堂云《自然辩证法概论(北京航空航天)》单元测试考核答案
- GB/T 15153.1-2024远动设备及系统第2部分:工作条件第1篇:电源和电磁兼容性
- GB/T 34881-2017产品几何技术规范(GPS)坐标测量机的检测不确定度评估指南
- GB/T 2305-2000化学试剂五氧化二磷
- 三年级语文下册-习作八《我想变成XX》4课件
评论
0/150
提交评论