chapter1-生物信息学简介_第1页
chapter1-生物信息学简介_第2页
chapter1-生物信息学简介_第3页
chapter1-生物信息学简介_第4页
chapter1-生物信息学简介_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024/3/201生物信息学

Bioinformatics

2024/3/202Bioinformatics第一章:生物信息学引论第二章:分子生物学根底第三章:序列比较第四章:生物分子数据库第五章:DNA序列分析第六章:系统发生分析第七章:转录调控的信息学分析第八章:蛋白质结构预测第九章:生物信息学在基因芯片中的应用第十章:数据挖掘与基因表达调控信息分析第十一章:计算表观遗传学第十二章:生物信息学开展现状及趋势2024/3/203主要参考书目《生物信息学与功能基因组学》,[美]JonathanPevsner著,孙之荣主译,化学工业出版社《生物信息学》〔863高科技丛书〕,赵国平〔中科院上海生命科学院〕,科学出版社《生物信息学—基因和蛋白质分析的使用指南》,李衍达〔清华大学〕,清华大学出版社《生物信息学手册》,郝柏林〔中科院物理所〕,上海科学技术出版社《简明生物信息学》,钟扬〔复旦大学〕,高等教育出版社《表观遗传学》,《系统生物学》2024/3/204第一章

生物信息学引论

2024/3/205生物学背景

基因组、蛋白质组、转录组、表观修饰信号等数据统计分析算法

相关性分析、距离参数、主成分分析、假设检验、贝叶斯判别分析等等计算机语言C语言、perl语言、R语言、Matlab等等生物信息学根底2024/3/206本章内容第一节引言第二节生物信息学的开展历史第三节人类基因组方案和基因组信息学第四节蛋白质结构与功能关系的研究第五节目前生物信息学主要研究内容第六节生物信息学所用的方法和技术2024/3/207第一节引言生命信息的组织、传递、表达物理化学分子生物学遗传学计算机科学数学2024/3/2081、

生物信息学概念2024/3/209什么是生物信息学?收集、维护、传播、分析和可视化在分子生物学研究中获得的大量数据。生物信息学〔bioinformatics〕是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而到达揭示数据所蕴含的生物学意义的目的。当前,生物信息学开展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以到达理解这些生物大分子信息的生物学意义的交叉学科。现代分子生物学的开展,特别是人基因组方案的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单数字,而是公共数据库中数以千兆计的记录。〔M〔106〕→G〔109〕→T〔1012〕〕2024/3/2010什么是生物信息学?基因组信息是生物信息中最根本的表达形式,并且基因组信息量在生物信息量中占有极大的比重,但是,生物信息并不仅限于基因组信息,生物信息学也不等于是基因组信息学。广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物〔蛋白质或RNA〕的结构和功能及各生物种间的进化关系等其他信息资源。2024/3/2011概念〔广义〕生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学2024/3/2012概念〔狭义〕生物分子数据深层次生物学知识分子生物信息学MolecularBioinformatics挖掘生物分子信息的获取、存贮、分析和利用2024/3/2013Bioinformatics生物分子数据计算机计算+2024/3/20142、生物分子信息细胞分子存贮、复制、传递和表达遗传信息的系统生物信息的载体2024/3/2015生物信息学主要研究两种信息载体DNA分子蛋白质分子2024/3/2016万亿2024/3/2017ProteinMachines

2024/3/2018FromtheCelltoProteinMachines

2024/3/2019生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息2024/3/2020(1)遗传信息的载体——DNA

遗传信息的载体主要是DNA控制生物体性状的基因是一系列DNA片段生物体生长发育的本质就是遗传信息的传递和表达2024/3/2021DNA通过自我复制,在生物体的繁衍过程中传递遗传信息基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。

基因控制着蛋白质的合成DNARNA蛋白质转录翻译2024/3/2022基因的DNA序列DNA前体RNAmRNA多肽链蛋白质序列对应关系遗传密码2024/3/2023(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构蛋白质结构取决于蛋白质的序列〔这是目前根本共认的假设〕,蛋白质结构的信息隐含在蛋白质序列之中。2024/3/2024(3)DNA分子和蛋白质分子

都含有进化信息通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。2024/3/2025生物分子数据类型生物分子信息DNA序列数据蛋白质序列数据生物分子结构数据生物分子功能数据最基本直观复杂表观遗传修饰数据复杂2024/3/2026

DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化

DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化??组蛋白修饰密码??DNA甲基化密码2024/3/2027第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少对于第二部密码,目前那么只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。2024/3/2028生物分子信息的特征生物分子信息数据量大生物分子信息复杂生物分子信息之间存在着密切的联系2024/3/20293、生物信息学的目标和任务收集和管理生物分子数据数据分析和挖掘开发分析工具和实用软件—生物分子序列比较工具—基因识别工具—生物分子结构预测工具—基因表达数据分析工具2024/3/2030

实验

数据

信息知识收集表示分析建模刻画特征比较推理

应用基因工程蛋白质设计疾病诊断疾病治疗开发新药2024/3/2031分子生物学的核心数据库GenBank核酸序列数据库SWISS-PROT蛋白质序列数据库PDB生物大分子结构数据ENCODE组蛋白修饰、DNA甲基化数据库2024/3/2032表1.1至2001年初已经得到的各类数据及根本数据处理任务数据源数据量生物信息学任务DNA序列11.5百万条序列125.0亿个碱基分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析蛋白质序列40.0万条序列(每条序列平均有300氨基酸)序列比较多重序列比对识别保守的序列模式进化分析大分子结构1.5万个结构(每个结构平均1000个原子坐标)二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作用分析分子模拟基因组300个基因组标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析基因表达酵母6000个基因在约20时间点表达值基因表达模式相关分析基因调控网络分析表达调控信息分析2024/3/2033生物信息学研究意义认识生物本质——了解生物分子信息的组织和结构,破译基因组信息,说明生物信息之间的关系。改变生物学的研究方式——改变传统研究方式,引进现代信息学方法在医学上的重要意义——为疾病的诊断和治疗提供依据——为设计新药提供依据生物信息学将是21世纪生物学的核心

2024/3/2034主要研究内容

破译遗传语言、识别基因预测蛋白质结构和功能破译表观遗传修饰调控网络认识生物界信息存贮和传递的本质研究药物作用机制和开发新药2024/3/2035第二节生物信息学的开展历史生物信息学根本思想的产生生物信息学的迅速开展二十世纪50年代二十世纪80-90年代生物科学和技术的开展人类基因组方案的推动2024/3/2036生物信息学的产生生物信息学〔bioinformatics)是80年代未随着人类基因组方案〔Humangenomeproject)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的根底,依赖于生物实验和衍生数据的大量储存。生物信息学不只是一门为了建立、更新生物数据库及获取生物数据而联合使用多项计算机科学技术的应用性学科,也不仅仅是只限于生物信息学这一概念的理论性学科。事实上,它是一门理论概念与实践应用并重的学科。生物信息学的产生开展仅有30年左右的时间---bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的存在已有50多年,只不过最初常被称为基因组信息学。2024/3/203720世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方法20世纪80年代以后,出现一批生物信息效劳机和生物信息数据库20世纪90年代后,HGP促进生物信息学的迅速开展生物信息学开展过程2024/3/2038生物信息学开展过程20世纪50年代末数学模型、统计学方法和计算机处理宏观生物学数据。应用于分子生物学:分子生物学数据库、蛋白质结构分析与预测。人类基因组方案〔humangenomeproject,HGP〕:1990年启动,10年时间完成草图〔3×109个碱基对,并对30,000多个基因进行了注释〕。越来越多的微生物和其他模式生物也完成了全基因组测序工作。2024/3/2039生物信息学的开展过程大致经历了三个阶段:前基因组时代--生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;基因组时代--基因寻找和识别、网络数据库系统的建立、交互界面的开发;后基因组时代--大规模基因组分析、蛋白质组、转录组分析。2024/3/2040生物信息学的开展过程20世纪后期,生物科学技术迅猛开展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛开展,并日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大开展潜力的新学科——生物信息学——悄然兴起。2024/3/2041生物信息学的开展过程生物信息学的诞生及其重要性:早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。但是,就生物信息学的开展而言,它还是一门相当年轻的学科。直到20世纪80—90年代,伴随着计算机科学技术的进步,生物信息学才获得突破性进展。1987年,林华安博士正式把这一学科命名为“生物信息学”〔Bioinformatics〕。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。1995年,在美国人类基因组方案第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来说明和理解大量数据所包含的生物学意义。生物信息学不仅是一门新学科,更是一种重要的研究开发工具。从科学的角度来讲,生物信息学是一门研究生物和生物相关系统中信息内容与信息流向的综合系统科学。只有通过生物信息学的计算处理,人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。从工具的角度来讲,生物信息学几乎是今后所有生物〔医药〕研究开发所必需的工具。只有根据生物信息学对大量数据资料进行分析后,人们才能选择该领域正确的研发方向。生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它的许多研究成果可以较快地产业化,成为价值很高的产品。2024/3/2042生物信息学的根本方法:建立生物数据库:核苷酸序列数据库(GENBANK)、ProteinDataBank(PDB)、氨基酸序列数据库(SWISS-PRO)、酵母基因组数据库(YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)。数据库检索:Blast序列分析:序列对位排列、同源比较、进化分析。统计模型:如隐马尔可夫模型(hiddenMarkovmodel,HMM)--基因识别、药物设计。最大似然模型(maximunlikelihoodmodel,ML)、最大简约法(MaximunParsimony,MP)--分子进化分析。算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificialneuralnetwork)。2024/3/2043第三节人类基因组方案和基因组信息学1、人类基因组方案简介人类基因组方案准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是根本的任务,在此根底上解读和破译生物体生老病死以及和疾病相关的遗传信息。2024/3/2044基因组

——一个物种中所有基因的整体组成2024/3/2045人类基因组构成——24条染色体和线粒体2024/3/2046人类基因组方案的具体任务可以概括为建立四张图谱遗传图谱物理图谱序列图谱转录图谱2024/3/2047遗传图谱〔geneticmap〕又称连锁图谱(linkagemap),它是以具有遗传多态性〔在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%〕的遗传标记为“路标”,以遗传学距离〔在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM〕为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。遗传图谱2024/3/2048遗传连锁图:通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩〔cM,即每次减数分裂的重组频率为1%〕表示。2024/3/2049物理图谱物理图谱〔physicalmap〕是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。2024/3/20501998年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大局部区域的连续克隆系的物理图谱。敲碎基因组,分析研究内容所处的染色体位置细菌人工染色体〔80~300kb〕酵母人工染色体〔数百~2000kb〕中心粒一对紧密相邻的标志一对相邻较远的标志染色体图2024/3/2051序列图谱随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。2024/3/2052大规模基因组测序

Megabace测序仪3700测序仪2024/3/2053大规模测序根本策略逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装〔公共领域测序方案〕全基因组鸟枪法:在一定作图信息根底上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装〔美国Celera公司〕2024/3/2054运用计算机软件进行序列拼接2024/3/2055转录图谱

转录图谱是在识别基因组所包含的蛋白质编码序列的根底上绘制的结合有关基因序列、位置及表达模式等信息的图谱。2024/3/2056通过定位克隆技术寻找疾病基因的过程

2024/3/2057基因识别

基因识别〔geneidentification〕是HGP的重要内容之一,其目的是识别全部人类的基因。基因识别包括:——识别基因组编码区——识别基因结构基因识别目前常采用的有二种方法:——从基因组序列中识别那些转录表达的DNA片段——从cDNA文库中挑取并克隆。2024/3/2058模式生物酵母大肠杆菌果蝇线虫老鼠2024/3/2059人类基因组方案的实现对医学事业的影响对致病基因的克隆也是人类基因组方案的内容。疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因进行抑制或调控,即可到达治疗某一疾病的效果。如果掌握了与某种疾病相关的基因及突变,那么可以对该疾病进行预测、诊断,甚至治疗。2024/3/2060基因变异与疾病2024/3/2061基因组多态性2024/3/20622024/3/2063人类基因组方案的实施意义人类基因组方案为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就容易得多。研究多种模式生物基因组将有助于研究地球生物的进化史。2024/3/20645、我国对人类基因组方案的奉献2024/3/2065又一次成功!

——水稻基因研究袁隆平……..2024/3/20662、人类基因组方案给生物信息学提出挑战随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作发现生物学规律解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据利用数学模型和人工智能技术2024/3/20672024/3/2068功能基因组学

HGP完成后,研究进入“后基因组学”(post-genomics)时代基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,即功能基因组学〔functionalgenomics〕功能基因组的任务是——进行基因组功能注释〔Genomeannotation〕——认识基因与疾病的关系——掌握基因的产物及其在生命活动中的作用2024/3/2069功能基因组学的研究内容进一步识别基因,识别基因转录调控信息,分析遗传语言。注释所有基因产物的功能,这是目前基因组功能注释的主要层次。研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。2024/3/2070人类基因组与其它生物基因组比较结核菌2024/3/2071例:人与鼠染色体的差异2024/3/2072Structure&FunctionPathways&PhysiologyPopulations&EvolutionEcosystemsGenomesGeneProducts后基因组时代对靶目标进行合理的药物设计2024/3/2073生物信息学与新药研制未来的药物研究过程将是基于生物信息知识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子2024/3/2074生物信息学与疾病检测基因组方案产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示。根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式。2024/3/2075第四节蛋白质结构与功能关系的研究

2024/3/2076基因组方案的不断推进,其结果不仅导致DNA序列数据的迅速增长,也导致蛋白质序列数据的迅速增长。生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生物学、医学、药学等生命科学领域。蛋白质空间结构预测。蛋白质结构是合理药物分子设计的根底。蛋白质结构是蛋白质工程的根底。2024/3/2077基于生物信息学的新药设计2024/3/20782024/3/2079第五节目前生物信息学主要研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测2024/3/2080生物信息学的研究内容生物信息学的研究内容是伴随着基因组研究而开展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与效劳,即管理好这些数据;二是从中发现新的规律,也就是使用好这些数据。具体地说,生物信息学是把基因组DNA〔脱氧核糖核酸〕序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA〔核糖核酸〕基因的编码区。同时,说明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。在此根底上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。2024/3/2081生物信息学的研究内容获取人和各种生物的完整基因组发现新基因和新的单核苷酸多态性〔1〕基因的电脑克隆〔2〕从基因组DNA序列中预测新基因〔3〕发现单核苷酸多态〔SNP〕基因组中非编码区信息结构分析在基因组水平研究生物进化完整基因组的比较研究从功能基因组到系统生物学蛋白质结构模拟与药物设计2024/3/2082生物信息学的应用:基因组分析—基因芯片—药物开发—其他—2024/3/2083生物信息学的应用:1.基因组分析将的序列与功能联系在一起、从基于常规克隆的基因分类转向基于序列及功能的分析的基因分类、从单个基因致病机制的研究转向多个基因致病机制的研究、从组织与组织之间的比较来研究功能基因组和蛋白质组、从基因组和蛋白质组的结构与功能关系来预测三级结构和功能,并从三级结构和功能反推可能的序列、通过比较不同生物物种的基因组来进行分子进化研究。2024/3/2084基因组:基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反响只能读取几百到上千个碱基。这样,要得到人的全部遗传密码,首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。而基因组大规模测序的每一个环节,都同信息分析紧密相关,每一步都紧密依赖于生物信息学的软件和数据库。生物信息学的应用:1.基因组分析2024/3/2085蛋白质组:基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行。由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,而从RNA到蛋白质还有许多中间环节的影响,这样,仅凭基因芯片技术人们还不能最终掌握生物功能的具体执行者——蛋白质的整体表达状况。因此,近年在开展基因芯片的同时,人们还开展了一套研究基因组所有蛋白质产物表达情况的技术——蛋白质组研究技术,包括二维凝胶电泳技术和质谱测序技术。然而,最重要的是如何运用生物信息学的方法去分析获得的海量数据,从中复原出生命运转和调控的整体系统的分子机制。生物信息学的应用:1.基因组分析2024/3/2086人类基因组方案(HGP):人类基因组方案〔HumanGenomeProject,简称HGP〕是美国科学家在1985年率先提出的,其目的在于说明人类基因组DNA3×109核苷酸序列,破译人类全部遗传信息,HGP于1990年正式启动。生物信息学的研究随着HGP产生的数据爆炸应运而生。是,在基因组方案中发挥不可替代的作用。生物信息学的应用:1.基因组分析2024/3/2087人类基因组方案(HGP):HGP目的之一,就是找到人类基因组中的所有基因。除功能克隆和定位克隆策略之外,生物信息学为分子生物学家提供了一条寻找和研究新基因的新思路,即从高度自动化的实验出发,经过数据的获取与处理、序列片段的拼接、可能基因的寻找、基因功能的预测一直到基因的分子进化研究。这个过程的每一个环节,都是生物信息学研究的重要内容。生物信息学的应用:1.基因组分析2024/3/2088人类基因组方案(HGP)——HGP的目标大致如下:1〕建立一高分辨力的人体基因组图谱。2〕建立某些选择性模型机体〔如大肠杆菌、线虫等〕的DNA和人体染色体的基因物质图谱。3〕测定这些人体和选择性机体的DNA序列,以便更好了解正常基因调控、基因遗传性疾病及其演化过程。4〕建立软件和数据库以提高应用和判断这些基因信息的效能。5〕创造有关的创新技术。6〕建立HGP的伦理学、法律和社会参与的程序。生物信息学的应用:1.基因组分析2024/3/2089人类基因组方案(HGP):高度自动化的实验数据的获得、加工和整理如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息,是生物信息学的一个重要课题。这种转化大量地表达在各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息,并对其作简单分析,再将分析结果用于实验条件的控制,完成高度自动化的实验过程。从事大规模EST测序和DNA物理图谱构建的实验室都已建立起高度自动化的机器人系统来完成大局部的实验工作。生物信息学的应用:1.基因组分析2024/3/2090人类基因组方案(HGP):伴随着实验过程的高度自动化甚至工厂化,从事大规模分子生物学工程的实验室,每天需要存储的数据可以轻易地超过几千兆字节。这样大的数据量必须用专门的实验室数据管理系统进行处理,以自动完成包括实验进程和数据的记录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输人数据库在内的各项工作。由于不同实验室需处理的数据类型各不相同,目前各个实验室都是各自开发自己的系统,还没有成熟的可用于不同实验室的分子生物学数据管理系统。但随着测序逐渐成为实验室的常规工作,对这种系统的需求会越来越大,此类系统的开展将成为大势所趋。生物信息学的应用:1.基因组分析2024/3/2091人类基因组方案(HGP):序列片段的拼接——目前DNA自动测序仪每个反响只能测序500bP左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现在生物信息学提供了自动而高速地拼接序列的算法,即根据Lander-Waterman模型利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。这种技术不仅防止了亚克隆排序所需的大量繁琐的工作,还使序列具有一定的冗余性以保证序列中每个碱基的准确性。序列拼接算法的进一步开展,需要在以下方面进行改进:1将的基因组知识应用与拼接算法,以进一步提高拼接真核基因组的有效性。2自动处理自动测序造成的过失,特别是对过失倾向的EST顺序更是如此。生物信息学的应用:1.基因组分析2024/3/2092人类基因组方案(HGP):基因区域的预测在完成序列的拼接后,我们得到的是很长的DNA序列,甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因,下一步就是将基因区域从这些长序列中找出来。所谓基因区域的预测,一般是指预测DNA顺序中编码蛋白质的局部,即外显子局部。不过目前基因区域的预测已从单纯外显子预测开展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号〔如TATAbox和加尾信号〕的认识,预测出可能的完整基因。生物信息学的应用:1.基因组分析2024/3/2093人类基因组方案(HGP):基因功能预测序列同源比较;寻找蛋白质家族保守顺序;蛋白质结构的预测。生物信息学的应用:1.基因组分析2024/3/2094分子进化的研究:通过上述种种方法我们可以预测出一个新基因的可能具有的功能。然而预测新基因只是生物信息学研究的一个方面,这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。对于基因组研究来说,一个重要的研究方向就是分子序列的进化。通过比较不同生物基因组中各种结构成分的异同,可以大大加深我们对生物进化的认识。这种研究已逐步形成一个称为比较基因组学的新学科。从各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的研究。生物信息学的应用:1.基因组分析2024/3/2095分子进化的研究:科学家们对处于不同进化阶段物种的基因组结构和功能进行比较分析,企图最终弄清人类10万个基因的起源和进化、结构和功能的演变,发现其间的亲缘关系,像元素周期表那样把基因和蛋白质分类、排序,得到生物学的周期表,根据基因在进化树上的位置,或一小段核苷酸序列,或蛋白质的基序、模块、折叠等,即可预测其来源、结构、功能等。这项浩大的工程显然需要大量生物信息学家长期不懈努力才能完成。生物信息学的应用:1.基因组分析2024/3/2096生物信息学的应用:2.基因芯片基因微阵列或DNA芯片(genemicroarray或DNAchips)的原理是将几万个寡核苷酸或DNA作为探针,密集排列于硅片等固相支持物上,将研究样品标记后与微点阵杂交并进行检测。根据杂交信号强弱及探针位置和序列,可以确定靶DNA的表达情况以及突变和多态性存在与否。2024/3/2097基因组和蛋白质组研究的迅猛开展,使许多新蛋白序列涌现出来。要了解它们的功能,只有氨基酸序列是远远不够的。得到这些新蛋白的完整、精确和动态的三维结构,是摆在人们面前的紧迫任务。近年,随着结构生物学的开展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得了精确的测定。根据生物大分子结构的知识,有针对性地设计药物成为热点。生物信息学的应用:1.药物开发2024/3/2098疾病相关的基因信息及相关算法和软件开发建立与动、植物良种繁育相关的基因组数据库,开展分子标记辅助育种技术研究与开展药物设计软件和基于生物信息的分子生物学技术寄生虫与流行病学研究、农作物基因组分析、神经科学。生物信息学的应用:4.其他2024/3/2099基因组信息学的首要任务基因组信息学的首要任务之一就是发现新的基因和新的功能,如人基因组含有30亿对核苷酸,其中大约有10万个决定各种性状和功能的基因。这些基因的定位和别离是当前科学家、医生和企业家们最感兴趣的。连一个小耗子的肥胖基因都能卖上亿的美元。过去几十年中,科学家运用经典的遗传学分析方法如功能克隆、定位克隆等方法,总共定位了大约2000个基因。几年前,美、法、英、加、日等国的104位科学家,联合起来利用当时数据库中的45万个DVA小片段(称EST,表达序列标签)和其它有关信息,在很短时间内(1996)就把16354个人类基因进行了定位。2024/3/20100生物信息学的重要研究课题1.大规模基因组测序中的信息分析2.新基因和新SNP的发现与鉴定3.非编码区信息结构分析4.遗传密码的起源和生物进化5.完整基因组的比较研究6.大规模基因功能表达谱的分析7.生物大分子的结构模拟与药物设计8.生物信息学分析方法的研究9.建立国家生物医学数据库与效劳系统10.应用与开展研究2024/3/20101生物信息学的商业价值生物信息学的商业价值十分显著。国外很多大学,研究机构,软件公司甚至政府机构纷纷成立各种生物信息机构,建立自立的生物信息集成系统,研制这方面的软件,重金招聘人才,期望从中获取更多的生物信息和数据加以研究和利用,缩短药物开发周期,抢注基因专利,获取更大利润。我国如不加大资金投入力度,将来可能会花更多的钱去购置别人的软件,使用专利基因或购置新的药物。所幸,我国也开始重视这一学科:南、北方人类基因组中心的相继建成,北大生物城的破土开工等,标志着我国对生物信息学的重视。我们有理由相信,我国的生物信息学在21世纪会有巨大的飞跃。2024/3/20102通过学习逐渐掌握以下内容:搜索网上生物信息学资源建立自己的生物信息学数据库和网页运用Blast等工具检索数据库多序列对位排列构建系统发育树2024/3/201031、生物分子数据的收集与管理基因组数据库EMBLGenBank蛋白质结构数据库PDB表观遗传修饰数据库ENCODEMOD-ENCODEROADMAP蛋白质序列数据库DDBJSWISS-PROTPIR2024/3/201042、数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列序列比较的一个根本操作就是比对〔Alignment〕,即将两个序列的各个字符〔代表核苷酸或者氨基酸残基〕按照对应等同或者置换关系进行比照排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。2024/3/20105发现同源分子2024/3/201063、基因组序列分析

遗传语言分析——天书基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较2024/3/201074、基因表达数据的分析与处理基因表达数据分析是目前生物信息学研究的热点和重点目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此根底上寻找相关基因,分析基因的功能所用方法主要有:——相关分析方法——模式识别技术中的层次式聚类方法——人工智能中的自组织映射神经网络——主元分析方法2024/3/20108基因芯片2024/3/201092024/3/201102024/3/20111层次式聚类2024/3/201125、蛋白质结构预测蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。蛋白质结构预测分为:二级结构预测空间结构预测蛋白质折叠2024/3/20113二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规那么的专家系统方法分子动力学方法人工神经网络方法预测准确率超过70%的第一个软件是基于神经网络的PHD系统2024/3/20114空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型法该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作2024/3/20115第六节生物信息学所用的方法和技术

1、数学统计方法2、动态规划方法3、机器学习与模式识别技术4、数据库技术及数据挖掘5、人工神经网络技术6、专家系统7、分子模型化技术8、量子力学和分子力学计算9、生物分子的计算机模拟10、因特网〔Internet〕技术2024/3/201161、数学统计方法生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法数据统计、因素分析、多元回归分析是生物学研究必备的工具隐马尔科夫模型〔HiddenMarkovModels〕在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链〔MarkovChain〕2024/3/201172、动态规划方法动态规划〔DynamicProgramming〕是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法动态规划解决问题的根本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解2024/3/201183、机器学习与模式识别技术机器学习机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验1、遗传算法采用随机搜索方法,具有自适应能力和便于并行计算。2、神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义。模式识别模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中

——模式识别主要有两种方法:根据对象的统计特征进行识别,根据对象的结构特征进行识别

2024/3/20119环境学习知识库执行机器学习系统的根本结构反馈2024

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论