生物信息学总论_第1页
生物信息学总论_第2页
生物信息学总论_第3页
生物信息学总论_第4页
生物信息学总论_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

生物信息学概论,武汉大学 生物医学工程系 赵旻,Introduction to Bioinformatics,第一节 生物信息学基础第二节 生物信息学与人类基因组计划第三节 生物信息学的研究内容第四节 生物信息学相关技术,本章内容,学习目的,1、了解生物信息学的发展背景2、理解生物信息学在生命科学研究中的作用3、理解数学、计算机科学与生物信息学的关系4、了解生物信息学主要技术方法的原理和应用,医学生物信息学原理教材参考资料目录,教材 1. 生物信息学(供8年制及7年制临床医学等专业用)李霞,李亦学,廖飞 人民卫生出版社 2012 2. 生物信息学基础与临床医学应用指南 伍欣星 赵旻 主编 科学出版社 2005参考书目 1. 基因组研究手册:基因组学、蛋白质组学、代谢组学、生物信息学、伦理和法律问题。 C.W.森森(Sensen.C.W.),谢东 著 科学出版社 20092. 理解生物信息学. M.泽瓦勒贝,JO.鲍姆 著 科学出版社 20123. 生物信息学 许忠能 清华大学出版社 2008,病毒所三楼, ,第一节 生物信息学基础,一、生物信息的特征,生命现象是不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、系统、机体,与医学研究密切相联生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能;生物种间的进化关系等其他信息资源。生物体系和生物过程中信息的内涵和信息的传递,生命与信息,Concept Computers Organisms Instructions Program Genome Bits 0,1 a,c,g,t Stable memory ROM,Disk,tape DNA Active memory RAM RNA Processing CPU/Compiler enzyme/Ribosome Editing Editor tRNA Environment Sockets,people Water,salts,heat I/O AD/DA proteins Monomer Minerals Nucleotide Polymer chip DNA,RNA,protein Replication Cut/Paste DNA replication Sensor/In scanner Chem/photo receptor,基因组信息的获取、处理、贮存、传递、分析和解释蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立相关分析软件的开发和应用新药研制生物进化,二、生物信息的研究范畴,遗传信息,三、生物信息的内涵,与功能相关的结构信息,进化信息,Bioinformation From the Nucleus to Protein Machines,基因序列,DNA,前体RNA,mRNA,多肽链,蛋白质序列,对应关系,遗传密码,DNA通过复制,在生物体的繁衍过程中传递遗传信息,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状,基因控制着蛋白质的合成,DNA,RNA,蛋白质,转录,翻译,?,逆转录,中心法则,DNA本身是否也具有酶活性呢?1994年,GFJoyce等人发现一个人工合成的DNA分子具有一种特殊的磷酸二酯酶活性。又有多例报道人工合成的DNA序列具有各种不同的酶活性。1995年后从多种生物中提取的DNA均具有酯酶活性,能催化乙酸萘酯水解为萘酚和乙酸。这种较弱的酯酶活性并不需要特定序列的DNA编码,而是非特异性DNA的一般性质。DNA分子本身的酯酶活性作为 “分子化石”遗迹。,1970年,DBaltimore和HMTemin在致癌的RNA病毒中,发现依赖RNA的DNA多聚酶,即逆转录酶。这就是说,遗传信息流也可以反过来,从RNADNA。巴尔的摩和梯明于1975年荣获诺贝尔奖。,1981年,TRCech等人在四膜虫发现自催化剪切的tRNA。1983年SAltman发现大肠杆菌的核糖核酸P的催化活性取决于RNA而不是蛋白质。这意味着RNA可以不通过蛋白质而直接表现出本身的某种遗传信息,而这种信息并不以核苷酸三联体来编码。这是对中心法则的又一次补充和发展。切赫和阿尔特曼荣获1989年的诺贝尔化学奖。,中心法则的补充,朊病毒蛋白质信息传递疑问?朊病毒病已发现有4种:库鲁病Ku-rmm、克雅氏综合症CJD、格斯特曼综合症GSS及致死性家庭性失眠症FFI。临床变化都局限于人和动物的中枢神经系统。,DNA分子 蛋白质分子,四、生物信息载体,(1)遗传信息的载体DNA或RNA,遗传信息的载体主要是DNA或RNA分子 控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达,(2)遗传信息的功能载体蛋白质,蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列,蛋白质结构的信息隐含在蛋白质序列之中。,(3) DNA分子和蛋白质分子都含有进化信息,通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。,进化信息 通过比较相似的蛋白质序列可以发现基因的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析种属之间的系统发生关系,推测它们共同的祖先蛋白质。,五、生物信息的特征,生物信息数据量庞大 生物信息复杂度高:遗传信息,功能结构信息生物信息之间存在着密切的联系存在特定载体:核酸分子和蛋白质分子存在不同的层次:分子,细胞,组织器官和机体,六、 生物信息学(Bioinformatics)的建立,八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义。起初,使用的是CompBio,之后又将其更改为 bioinformatique ;进一步更改为bio-informatics (或bio/informatics)。该名称中的-或/符号经常会引起许多计算机系统问题,于是将其去除, bioinformatics 就正式诞生,林博士也因此赢得了“生物信息学之父”的美誉。,生物信息学(bioinformatics)是80年代未随着人类基因组计划(Human genome project, HGP)的启动而兴起的一门新的交叉学科。它涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础,依赖于生物实验和衍生数据的大量储存和加工。,Computation,Informatics,Biology,Bioinformatics,学科交叉发展的需要,HGP生物数据(每15个月翻一番),生物学家,数学家,计算机科学家,生物信息学(bioinfomatics)的诞生,大量数据处理分析的需要,生物体系和过程中信息的存贮、传递和表达,细胞、组织、器官的生理、病理、药理过程的中各种生物信息,信息科学,生命科学中的信息科 学,医学发展的需要,1995年,在人类基因组计划(HGP)第一个五年总结报告中给出了一个较为完整的生物信息学的定义:生信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于理解生物大分子信息的生物学意义的交叉学科。,生物信息学研究意义,生物信息学将是21世纪生物学的核心,认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系对序列、结构数据进行定性和定量分析,从中获取基因编码、基因调控、序列-结构-功能关系等理性知识阐明细胞、器官和个体的发生、发育、病变、衰亡的基本规律和时空联系探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表”,生物分子数据及其关系,第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少 对于第二部密码,目前则只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。,改变生物学的研究方式 改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据,生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。,第二节 生物信息学的建立和发展,人类基因组计划简介,生物信息学产生的背景,1、人类基因组计划的初步完成 人类基因组计划工作草图已完成。人类对基因的认识,从以往的单个基因的了解,上升到在整个基因组水平。2、后基因组时代到来 基因组研究已进入全面信息提取和数据分析阶段,功能基因组和蛋白质组的大量数据已开始涌现。,海量生物信息需要分析;大量未知基因需要破解其功能GenBank中的DNA碱基数目呈指数增加。2000年后其数目已达110亿,它们来自47000种生物;UniGene的数目约达7万个。1999年初单核苷酸多态性(SNP)数据库出现以来,已超过600万。自全长1.8Mb的嗜血流感杆菌基因组序列于1995年发表以来,已有54个模型生物的完整基因组完成了测序,包括9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。还有另外的70余个微生物基因组正在测试当中。,计算机运算速度: 18个月增长一倍; DNA序列数据: 14个月增长一倍,20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息分析方法 20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库20世纪90年代后 ,HGP促进生物信息学的迅速发展,生物信息学的发展历程,生物信息学的发展历程,1952年,Sanger根据胰岛素蛋白质的测序结果,推断蛋白质是排列完美的分子。最早的信息论观点。1955年,Sanger与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。最早的序列比对。1962年,鲍林提出分子进化的理论,推测在人中可能存在50,000100,000个不同的基因/蛋白质。分子进化理论的奠定。1965年,Margaret Dayhoff构建蛋白质序列图谱1970年,Needleman-Wunsch算法:全局优化比对。1981年,Smith-Waterman算法开发:局部优化比对。1990年,快速序列相似性搜索工具BLAST的开发,生物信息学发展过程中的里程碑性事件,人类基因组计划,人类基因组计划(Human Genome Project,HGP)是由美国科学家Renato Dulbecco在1985年首先提出,美国政府1990年10月正式启动的,耗资30亿美元。 目标是构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约3万基因,以及人类基因的鉴定和分离的内容。人类基因组计划全部测序工作提前到2000年春季完成“工作框架”,即工作草图。,曼哈顿原子弹计划,阿波罗登月计划,人类基因组计划,人类自然科学史上的三大计划,人类基因组计划准备用15年时间投入30亿美元,完成人全部24(22+X+Y)条染色体中3109个碱基对的序列测定,主要任务包括作图、测序和基因预测,其根本任务是解读和破译生物体的遗传信息。,1984 犹他州阿尔塔组织会议,研讨测定人类整个基因组DNA序列的意义1985 Dulbecco在Science撰文 “肿瘤研究的转折点:人类基因组的测序” ;美国能源部(DOE)提出“人类基因组计划”草案 美国能源部和国家卫生研究院(NIH)联合启动计划1989 美国成立“国家人类基因组研究中心”,Watson担任第一任主任1990.10 经美国国会批准,人类基因组计划正式启动,James Watson,1996 完成人类基因组计划的遗传作图1998 完成人类基因组计划的物理作图;开始人类基因组的大规模测序;Celera公司加入,与公共领域竞争;启动水稻基因组计划1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度,流感嗜血菌(1995),酿酒酵母(1997),秀丽线虫(1998),大肠杆菌 (1998),水稻基因组计划(2002),2000 Celera公司宣布完成果蝇基因组测序;国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的测序工作2001.2.15 Nature刊文发表人类基因组测序国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果,Drosophila melanogaster果蝇(2000),Arabidopsis thaliana拟南芥(2000),确定人类基因组全部DNA序列;建立基因组图谱识别基因;建立储存信息的数据库;开发数据分析工具软件;人类基因组研究的模式生物(细菌、酵母菌、线虫、 果蝇、小鼠、拟南介)的基因组研究HGP实施所带来的伦理、法律和社会问题。发展建立生物信息学,HGP目标,遗传图谱、物理图谱、转录图谱和序列图谱遗传图谱是以具有遗传多态性的遗传标记为“路标”,以遗传学距离为图距的基因组图。进行基因识别和基因定位物理图谱是指有关基因组中特异性序列排列和间距的信息.建立物理图谱实际上是为全基因组测序建立“路标”。转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。,基因组学,功能基因组学,1、信息的整合2、信息的储存3、信息的比较4、信息的分析5、信息的分解,人类基因组计划对生物信息学的挑战,2018/1/17,人类基因组计划提供了巨量的生物学信息资源。 基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。 人类基因组计划一开始就与计算机技术、信息高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。,48,2018/1/17,从信息学的角度来看,最重要的任务是利用各种数学模型和人工智能技术,分析现有的基因组数据,研究基因组数据之间的关系,发现隐藏在大量数据背后的生物学规律,解读生物遗传密码,认识生命的本质。,49,2018/1/17,如果说生物信息学在人类基因组计划中的着重点是基因组序列的话,那么在功能基因组中,生物信息学的着重点则是序列的生物学意义,基因组编码序列的转录、翻译的过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。 在功能基因组时代,应用生物信息学方法,高通量地注释基因组所有编码产物的生物学功能是功能基因组研究的一个重要特征。,50,2018/1/17,生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成了预期计划,功能基因组研究也已经全面展开。 而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容,促进生物信息学新思想、新方法的产生,生物信息学在近10年迅速发展的历程证明了这一点。,51,第三节生物信息学主要研究内容,研究内容,1、生物分子数据的收集与管理2、数据库搜索及序列比较 3、基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测,Alignment (序列比对) Protein Structure Prediction (蛋白质结构预测) Computer-Aided Gene Recognitions (计算机辅助基因识别)DNA Language (DNA语言)Molecular Evolution & Compared Genomics (分子进化和比较基因组学)Contig Assembly (序列重叠群装配)Origin of Genetic Codes (遗传密码的起源)Analysis of Metabolize Network (代谢网络分析)GeneChip Design (基因芯片设计),常见研究领域,研究方向,基因组序列装配基因识别基因功能预报基因多态性分析基因进化mRNA结构预测基因芯片设计基因芯片数据分析疾病相关基因分析,蛋白质序列分析蛋白质家族分类蛋白质结构预测蛋白质折叠研究代谢途径分析转录调控机制蛋白质芯片设计蛋白质芯片数据分析药物设计,基因组数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,1、 生物分子数据的收集与管理,各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等实验过程高度自动化,产生的海量数据,专门的实验室数据管理系统自动完成包括实验进程和实验数据的纪录,常规数据分析,数据质量检测和问题的自动查找,常规的数据说明和数据输入数据库。建立分子生物学数据管理系统。,例:高度自动化的实验数据的获得、加工和整理,DNA序列片段的测序拼接,目前DNA自动测序仪每个反应只能测序100-1000bp,传统测序方法是将克隆进行亚克隆并对亚克隆进行排序。自动而高速拼接序列的算法,Lander-Waterman模型(Lander ES and Waterman MS,1998)利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。 1.9Mb Haemophilus influenzae(流感嗜血杆菌) (1995) 0.58Mb Mycoplasmu genitalium(支原体) (1995) 0.58Mb jannaschii(甲烷杆菌) (1996)拼接算法需要进一步提高拼接真核基因组的有效性;自动处理自动测序造成的差错。,2、 数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,常用序列分析工具,CLUSTAL: 已知同源的序列间的配比FASTA:全基因数据库的快速搜索PSI-BLAST:非常快速的全数据库搜索HMM:特定蛋白家族的序列模式识别PHYLIPS:基因进化树,序列比较发现同源分子,3、 基因组序列分析,遗传语言分析基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较,基因识别,识别基因组编码区,识别基因结构1、同源比较(DNA序列、EST)2、基因预测(不是用同源搜索的方法来识别基因) 从头开始基因预测,基于知识的基因预测(密码子使用,碱基组成,剪切位点特征,PolyA信号,核苷酸频率,转录信号,转译信号,尺寸分布),基因预测的步骤:1、识别可能的外显子2、辨别起始/内部/终止外显子3、把外显子联结起来,形成可能的基因4、确保该可能的基因没有内部的移位或终止密码子5、leftovers:shadow exons算法: Rule-based system; linguistic system; linear discriminant analysis;decision tree; spliced alignment;fourier analysis,Evaluating Gene Prediction,敏感性(Sensitivity) 敏感性=预测基因中确为基因的数目/待测序列中的基因数目; How many exons were correctly predicted?特异性(Specifity) 特异性=预测基因中确为基因的数目/预测基因数目 How many exon predictions are true?,生物学家们一直假设,人类拥有8万到10万个基因。但是根据测序完成的人类基因组第21对、22对染色体的经验,得出的结论是整个基因组有不多于4万个基因。比较现有的人类基因序列与淡水河豚基因序列,提出了更低的人类基因数估计:在27700与34300之间。马里兰Rockville的基因组研究所(TIGR)的John Quackenbush根据TIGR的人类基因指数的估计118259个基因。 *生物体的复杂性并不是简单地与基因数量相关联的。生物体的复杂性来自于基因如何被管理或表达的,而不是基因数目本身。,人类基因的数目争论!,基因功能预测,序列同源比较: 如果基因A与基因 B有相当的同源性,那么基因A可能具有类似基因B的功能。公共数据库:GenBank,EMBL,DDBJ功能数据库:dbEST, dbSTS, dbGSS(Genome Survey Sequence), dbHTG(high throughput Genomic Sequence,未完成整理的序列数据)蛋白质序列库:PIR(protein information resource), Swiss-Prot 蛋白质高级结构数据库PDB(protein data bank):生物大分子三级结构的数据库。同源比较算法:分为整体对齐(Global alignment)和局部对齐(local alignment)局部对齐的算法有Smith-Watermann 算法; FASTA算法;BLAST算法,4、基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的热 点和重点 目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能 所用方法主要有:相关分析方法模式识别技术中的层次式聚类方法人工智能中的自组织映射神经网络主元分析方法,基因表达分析和调控网络研究,高通量基因转录实验技术1、mRNAcDNA microarrayOligonucleotide chipRT-PCRSAGE2、protein 2D-PAGE,层次式聚类,二维电泳图,5、蛋白质结构预测,蛋白质的生物功能由蛋白质的结构所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为:二级结构预测空间结构预测,蛋白质折叠,二级结构预测,二级结构的预测可以归结为模式识别问题 主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法 预测准确率超过70%的第一个软件是基于神经网络的PHD系统,蛋白质三级结构预测,同源模型化方法远程同源模型化方法结构的从头预测方法距离几何分子动力学,同源模型化方法,空间结构预测方面,比较成功的理论方法是同源模型法 该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构,如果具有25-30%的等同序列,可以假设这两个蛋白质折叠成相似的空间结构运用同源模型方法,借助于数据库搜索和序列的比对排列,可以完成所有蛋白质10-30%的空间结构预测工作,可以通过计算(如分子力学、分子动力学等)来进行结构预测可以通过计算(如分子力学、分子动力学等)来进行结构预测:立体作用, 空间堆积,静电作用,氢键,疏水作用,6 比较基因组学研究,研究生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物至少需要多少基因,这些基因是如何使它们活起来的?鼠和人的基因组大小相似,基因的数目类似。可是鼠和人为什么差异确如此之大?不同人种间基因组的差别仅为 0.01%;人猿间差别约为1%。但表型间的差异十分显著。,生物进化研究,1、序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;2、序列同源性分析。是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;,3、构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;4、稳定性检验。为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70以上)出现的分支点才是可靠的。通用的方法使用 Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。为便于使用者查找表三给出了进化分析相关软件的因特网地址。, 16S rRNA 通过比较真核细胞 rRNA的核苷酸顺序和“真细菌”、“古细菌”的 rRNA核苷酸顺序,发现它们之间截然不同,表明真核细胞不是来自原核细胞,而是远在原核细胞生成之前,真核细胞就已和原核细胞分开而成独立的一支,即“早真核生物”,它才是现代真核生物的始祖。,第四节 生物信息学的主要任务,当今生物信息学界,注意力集中在基因组、蛋白质组、蛋白质结构以及与之相结合的药物设计上。,1. 基因组,1.1 新基因的发现,通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆”; 通过计算分析从基因组DNA序列中确定新基因编码区,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。,1.2 非蛋白编码区生物学意义的分析,非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。,对非蛋白编码区进行生物学意义分析的策略,1 基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;2 通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。,1.3 基因组整体功能及其调节网络的系统把握,研究生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。,1.4 基因组进化与物种进化,仅依靠某些基因或者分子的进化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种进化历史中的重要作用。,由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。,2、蛋白质组,基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况。,因此,近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术和质谱测序技术。 通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。 重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。,蛋白质的功能是通过其三维高级结构来执行的,蛋白质三维结构也不一定是静态的,在行使功能的过程中其结构也会相应的有所改变。目前通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构。,3、蛋白质结构,计算机辅助预测的方法:蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 。,4、新药设计,近年来随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为当前的热点。 生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转移、构象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分子的量子效应。,生物信息学不仅仅是一门科学学科, 它更是一种重要的研究开发工具,从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。,从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。,第五节 生物信息学所用的方法和技术,1、数学统计方法 2、动态规划方法 3、机器学习与模式识别技术 4、数据库技术及数据挖掘 5、人工神经网络技术6、专家系统 7、分子模型化技术8、量子力学和分子力学计算 9、生物分子的计算机模拟10、因特网(Internet)技术,算法统计学信息理论图形学科学可视化图像识别人工智能密码学非线性动力学计算机模拟语言学机器学习数据库软件工程计算机网络分布式系统,数据获取数据解释基因组图谱三维结构预测分子建模药物设计同源比较分子进化数据库检索基因预测仪器设计数据库构建基因调控基因诊断及治疗,生物信息学,计算机科学和数学,分子生物学,1、数学统计方法,生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法 数据统计、因素分析、多元回归分析是生物学研究必备的工具隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),Statistics 统计学Probability Theory 概率论 (特别是随机过程理论) Operational Research 运筹学Optimization Theory & Method 最优化理论与方法Topology 拓扑学 (主要是几何拓扑) Function Theory 函数论Information Theory 信息论Computational Mathematics 计算数学Group Theory 群论,数学(Maths),常用数学模型与方法,Bayes 公式、 Bayes统计马氏链 (Markov chains)隐马氏链 (Hidden Markov chains)Poisson 过程与连续时间马氏链熵、相对熵与信息增益神经网络 (neural networks (NN):Multi-layer feed-forward NN, self-organized learning NN, recurrent NN(Hopfield NN, Bolztmann machine ),2、动态规划方法,动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法 动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解,3、机器学习与模式识别技术,机器学习机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验 1、遗传算法采用随机搜索方法,具有自适应能力和便于并行计算 2、神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义。 模式识别模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中模式识别主要有两种方法:根据对象的统计特征进行识别,根据对象的结构特征进行识别,4、数据库技术及数据挖掘,数据库技术 数据仓库 虚拟数据库技术(Virtual Database,简称 VDB) 数据挖掘(data mining) 又称作数据库中的知识发现 (Knowledge Discovery in Database),它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式 数据挖掘过程一般分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析,5、人工神经网络技术,人工神经网络(Artificial Neural Network, 简称ANN)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型 在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,简称BP网)。BP网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络模型。标准的BP网由三层神经元组成:输入层、隐藏层和输出层,7、分子模型化技术,分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分子之间相互作用的一种技术分子模型化是进行分子设计的基础。分子图形学(Molecular Graphics)是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功,8、量子力学和分子力学计算,量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础理论,在化学等有关学科中得到了广泛的应用 分子力学(Molecular Mechanics)方法是一种非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质 在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分子力学,9、生物分子的计算机模拟,所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质分子动力学和蒙特卡罗方法(Monte Carlo method)是两种最常用的技术,另一种模拟方法是模拟退火方法,10、因特网(Internet)技术,Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所通过网络查询或搜索所需要的生物信息,使用分析工具 将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回,网络技术数据库 (特别是关系型数据库)数据整合和可视化数据挖掘基于Unix操作系统的各种软件包计算机硬件一些重要的算法的复杂性研究,计算机科学(Computer Science),国际著名的生物信息中心,NCBI National Center for Biotechnology Information (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK )ExPASy Expert of Protein Analysis System (Switzerland )CMBI Centre of Molecular and Biomolecule (The Netherlands)ANGIS National Genome Information Service (Australia) NIG National Institute of Genetics (Japan)BIC National Bioinformatics Centre (Singapore),国内部分生物信息学服务器,北京大学生物信息中心 中国生物信息 /北京大学物理化学研究所 北京医科大学生物医学信息 中国科学院微生物研究所 天津大学生物信息中心 中科院计算所智能信息处理重点实验室生物信息学研究组/中国科学院基因组信息学中心 /,例如:北京大学生物信息中心,安装了70多个数据库,提供200多种软件下载建立了14个国外著名生物信息中心镜象提供了数据库和文献查询、搜索构建了中华民族基因多样性等专用数据库集成和开发了基于Web的生物信息软件工具开展了分子模拟、序列分析等应用研究举办了国际国内培训班、讲习班、讨论会开设了生物信息学概论研究生课程,构建二次数据库,中华民族基因多样性数据库转录因子细胞特异性数据库Cytomer蛋白质结构域数据库Domain蛋白质回环数据库Loop水稻矮缩病毒数据库RDV二硫键信息数据库Bridge,其他数据库,EMBL http:/www.embl-heidelberg.de/ http:/www.ebi.ac.uk/embl/GenBank /Web/Genbank/ DDBJ http:/www.ddbj.nig.ac.jp/ Ensembl / Medline /medline/queryform.html BioMedNet http:/www.BioMedN/Staden: /tools/staden/ (biological package)RCSB(结构生物信息学研究联合实验室) PRESAGE(Collaborative resource for structural genomics 结构基因组学联合资源)/ExPASy http:/www.expasy.ch/ SRS http:/srs.ebi.ac.uk:5000/ Entrez /Entrez/ GCG: /about/gcg.html,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论