版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息基础生物信息学简介2022/8/122主讲教师:高 昇Cell:mail: gaoshengOffice:教三楼803-模式识别实验室助教:莫能斌Cell:mail: Office:教三楼803-模式识别实验室参考资料孙啸等编著,生物信息学基础, 清华大学出版社,2005年5月.王勇献等编著,生物信息学导论面向高性能计算的算法与应用,清华大学出版社,2011年6月.陈宝林,最优化理论与算法(第二版),清华大学出版社,2005年10月. 课件存放邮箱: bioinfo_ passwd: bioinfo2022/8/123考核方式 期末成
2、绩 40%大作业 or 考试平时成绩 40%小作业开放项目,鼓励自由参与日常考勤 20% 2022/8/124课程定位Introduction to Life Science and Artificial Life生物信息基础 生命科学中的信息科学利用信息科学的方法和技术,研究生物体系和生物过程中信息的存储、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息。Bioinformatics:分析复杂生物学数据的学科:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。分子生物信息学(Molecular Bioinformatics)2022/
3、8/1252022/8/126内容提要生物信息学产生的背景什么是生物信息学生物信息学的研究意义生物信息学的发展历史 生物信息学主要研究内容 生物信息学所用的方法和技术2022/8/127生命信息的组织、传递、表达物理化学分子生物学遗传学信息技术引言8历史回顾(1)1866年,神父Gregor Mendel通过对豌豆的杂交和遗传学研究,提出了传递遗传特征的基本单位-遗传因子(基因)的概念1944年, Avery & McCarty第一次发现了遗传信息的载体是染色体上的DNA(而不是先前认为的蛋白质).9历史回顾(2)1953年,James Watson & Francis Crick发现了DNA
4、的双螺旋空间结构并推断出了DNA的复制方式,由此揭开了分子生物学研究的序幕。1990年,人类基因组计划启动人类历史上的三大科技工程2022/8/1210曼哈顿原子弹研制计划人类基因组计划阿波罗登月计划1941.12.6 - 1945.7.16罗斯福批准耗资20亿美元原子半径10-10m原子体积10-30m31990.10.1 - 2003.4.23克林顿、布莱尔批准耗资30亿美元1961.5.25 - 1969.7.20肯尼迪批准耗资240亿美元人体半径100m人体体积100m3太阳系半径1012m太阳系体积1034m3人类基因组计划人类基因组计划(Human Genome Project,
5、HGP)1986年R.Dulbeccol在Science上撰文,建议对人类基因组进行全测序。1990年美国政府正式启动人类基因组计划耗资30亿美元、为期15年的计划,预期到2005年完成人类基因组大约30亿个碱基的全序列测定美、英、日、法、德、中六国科学家共同参与HGP的主要任务是:人类基因组以及一些模式生物体(细菌、酵母、线虫、果蝇等)基因组的作图、测序和基因识别。人类基因组计划的发展历程前期准备1984年DOE(Department of Energy) 委托Alta, White R., Mendelsonhm M 科学家专业会议;1985年提出人类基因组计划的动议1986年McKusi
6、ck V 称从整个基因组层次上研究遗传的科学为基因 组学1986年Dulbecco R 在Science上发表文章”肿瘤研究的转折 人类基因组的全序列分析”, 提出人类基因组计划1986年Gilbert W & Berg P 主持人类基因组计划专家会议1987年DOE(能源部)和NIH(国家健康研究院)下拨研究经费1988年NRC(原子能调整委员会)的专家发表mapping and sequencing the human genome报告1988年成立了国家人类基因组研究中心。Watson 第一任主任。人类基因组计划的发展历程正式启动1990年经过5年辩论, 美国国会通过“人类基因组计划”1
7、990年10月1日启动计划15年,30亿美元 多国参与(英国1989, 法国1990, 德国1995, 中国1999)1990年 6月, 欧共体通过“欧洲人类基因组计划”。此外,丹麦,日本,韩国,俄罗斯和澳大利亚也加入行动行列1999年9月1日,杨焕明教授在第五次伦敦国际人类基因组战略讨论会上介绍情况。会议正式接受中国加入国际合作,划定了测序区域,正式承担的测序任务2000年6月26日各国科学家公布了人类基因组工作草图2004年精度大于99%的完成图公布人类基因组计划参与HGP的国家美国(54%)英国(33%)日本(7%)法国(2.8%)德国(2.2%)中国(1%)目标:测定人类基因组DNA序
8、列中的30亿个碱基顺序,获取四张图谱:遗传图谱物理图谱序列图谱基因图谱HGP负责人柯林斯(Collins )已完成测序的基因组(http:/www.ebi.ac.uk/genomes)种类数目备注古细菌(Archaea)16真细菌(Bacteria)120其中有的测定了2个以上的菌株真核生物(Eukaryo)15包括酵母、线虫、果蝇、蚊子、拟南芥、人等病毒(Virus)885包括不同亚类或不同株系类病毒(Viroid)40包括不同亚类或不同株系噬菌体(Phage)114包括不同亚类或不同株系细胞器(Organelle)308包括线粒体和叶绿体质粒(Plasmid)282103 Kilo106
9、Mega109 Giga1012 Tera 1015 Peta1018 Exa1021 Zetta1024 Yotta一个普通生物实验室每年产生的数据量100 Terra-bytes (1014)人类迄今为止所说过的话(词语量)5 exa-bytes (51018)生物信息量至少是所有人类说过的话的200倍!巨量的数据GenBank DataYearBase PairsSequences1982680,33860619832,274,0292,42719843,368,7654,17519855,204,4205,70019869,615,3719,978198715,514,77614,58
10、4198823,800,00020,579198934,762,58528,791199049,179,28539,533199171,947,42655,6271992101,008,48678,6081993157,152,442143,4921994217,102,462215,2731995384,939,485555,6941996651,972,9841,021,21119971,160,300,6871,765,84719982,008,761,7842,837,89719993,841,163,0114,864,570200011,101,066,28810,106,02320
11、0115,849,921,43814,976,310200228,507,990,16622,318,883200336,553,368,48530,968,418200444,575,745,17640,604,319/Genbank/genbankstats.html蛋白质序列四种数据原始数据(Original data)科学文献(Scientific literature)数据组合(Datasets)综合性数据(Organized data)后基因组时代的呼唤传统生物学:实验科学现代生物学的发展:数据获取日益实现自动化、半工业化从数据库中实现数据挖掘、知识发现海量数据难以完全依赖实验手段
12、对新数据进行分析,必须借助计算机实现分析和筛选更复杂层次的生物学问题复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化面对堆积如山的生物学数据2022/8/1222HGP生物数据的激增(每15个月翻一番)生物学家数学家信息科学家生物信息学(bioinfomatics)的诞生生物信息学概念“We are not limited by the number of experiments that we can do, we are limited by our ability to understand the information that is generated a
13、s a result of these experiments. “Biology is quickly becoming an information science.生物学日益成为一门信息科学Biology easily has 500 years of exciting problems to work on.生物学中有着至少500年也解决不完的有趣问题。Donald E. KnuthLets begin our exploration of computational and theoretical biology!什么是生物信息学生物信息学是现代生命科学与信息科学、计算机科学、数学、
14、统计学、物理学、化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学信息的科学。从研究涉及的学科来看:多学科交叉从研究内容来看:基因组信息学、蛋白质组信息学、结构模拟与分子设计等构成其主要组成部分2022/8/1226生物体系和生物过程中信息的存储、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科学概念(广义)2022/8/1227生物分子数据深层次生物学知识分子生物信息学Molecular Bioinformatics挖掘获取概念(狭义)生物分子信息的
15、获取、存储、分析和利用2022/8/1228生物分子数据 信息计算 + Bioinformatics2022/8/1229细胞分子存储、复制、传递和表达遗传信息的系统生物信息的载体生物分子信息2022/8/1230主要研究两种信息载体DNA分子蛋白质分子2022/8/1231生物分子至少携带三种信息遗传信息与功能相关的结构信息进化信息2022/8/1232遗传信息的载体 - DNA遗传信息的载体主要是DNA控制生物体性状的基因是 - 系列DNA片段生物体生长发育的本质就是遗传信息的传递和表达33DNA生物体(人)人体由上亿个细胞组成每个细胞都有着相同的染色体组染色体对每条染色体是一个DNA分子
16、,基因是DNA的功能区域DNA双螺旋结构7.5-10101223对2.8-3.5万2022/8/1234蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。2022/8/1235DNA分子和蛋白质分子都含有进化信息通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。2022/8/1236生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构数据 生物分子功能
17、数据 最基本直观复杂2022/8/1237DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部: 遗传密码第二部: 遗传密码?生命体系千姿百态的变化生物分子数据及其关系2022/8/1238生物分子信息的特征生物分子信息数据量大生物分子信息复杂生物分子信息之间存在着密切的联系2022/8/1239生物信息学的目标和任务收集和管理生物分子数据数据分析和挖掘开发分析工具和实用软件生物分子序列比较工具基因识别工具生物分子结构预测工具基因表达数据分析工具2022/8/1240 实验 数据 信息 知识 收集 表示 分析 建模 刻画特征 比较 推理应 用基因工程蛋白质
18、设计疾病诊断疾病治疗开发新药生物分子信息处理流程数据源数据量生物信息学任务DNA序列11.5百万条序列125.0 亿个碱基分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析 蛋白质序列40.0万条序列(每条序列平均有300氨基酸 )序列比较多重序列比对识别保守的序列模式进化分析 数据源数据量生物信息学任务大分子结构1.5 万个结构(每个结构平均1000个原子坐标) 二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作用分析分子模拟 基因组300个基因组 标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析2022/8
19、/1243数据源数据量生物信息学任务基因表达酵母6000个基因在约20时间点表达值 表达模式相关分析基因基因调控网络分析表达调控信息分析 2022/8/1244分子生物学的三大核心数据库GenBank核酸序列数据库SWISS-PROT蛋白质序列数据库PDB生物大分子结构数据库2022/8/1245生物信息学研究意义认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。改变生物学的研究方式 改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据2022/8/1246生物信息学基本思想的产生 生物信息学 的迅速发展二十世纪50
20、年代二十世纪80-90年代生物科学和技术的发展人类基因组计划的推动 生物信息学的发展历史2022/8/124720世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息分析方法20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库20世纪90年代后, HGP促进生物信息学的迅速发展2022/8/1248生物信息学主要研究内容序列分析/Sequence analysisSequence alignmentStructure and
21、 function predictionGene finding结构分析/Structure analysisProtein structure comparisonProtein structure prediction RNA structure modeling表达分析/Expression analysisGene clusteringGen expression analysis蛋白质组学/ProteomicsProtein-Protein Interaction2022/8/1249基因组数据库 蛋白质序列数据库 蛋白质结构数据库 DDBJEMBLGenBankSWISS-PROT
22、 PDBPIR生物分子数据的收集与管理序列分析从DNA序列与蛋白质序列中进行信息及模式发现寻找进化联系寻找基因组的编码区寻找序列中的功能信号区全基因组序列的拼接与组装识别非编码区,探索其功能单核苷酸多态性SNP (Single nucleotide polymorphism)序列比对/alignment序列分析分子进化和比较基因组学结构分析蛋白质结构和功能的预测分析 蛋白质家族保守序列寻找从氨基酸组成辨识蛋白质蛋白质二级结构预测 蛋白质的三维结构蛋白质的物理性质预测其他特殊局部信息:其它特殊局部结构包括膜蛋白的跨膜螺旋、信号肽、卷曲螺旋(Coiled Coils)等,具有明显的序列特征和结构特
23、征,也可以用计算方法加以预测基因表达数据分析基因表达数据:近年来 biochips, microarray 技术迅速发展起来,使得我们可能得到同一时间成千上万个基因的表达水平的数据。上述基因表达数据为我们提供了深入研究基因功能,基因相互作用,基因网络等复杂网络问题的有力工具。基因表达数据分析面临维数极高,噪声大而且相关,数据重复度低等问题,对数理统计等学科提出了新问题。目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。2022/8/1255基因调控网络与信号转导基因的表达受到蛋白的调控,一个基因的表达与否,表达量,均受到细胞中各种
24、蛋白的调控。所以基因的调控可以看作是细胞中各基因对应的 mRNA 与各种蛋白的一个相互作用网络。信号转导指当细胞受到某种影响,其中某个蛋白的含量发生变化,而引起一系列的蛋白的表达变化的过程和路径。它对于研究药理、病理、细胞的分化、发育、进化等重大问题都十分重要。信号转导、基因网络与基因表达的数据分析是紧密相关的。生物信息处理并行算法2022/8/1258生物信息学主要研究内容序列分析/Sequence analysisSequence alignmentStructure and function predictionGene finding结构分析/Structure analysisPro
25、tein structure comparisonProtein structure prediction RNA structure modeling表达分析/Expression analysisGene clusteringGen expression analysis蛋白质组学/ProteomicsProtein-Protein Interaction2022/8/1259生物信息学所用的方法和技术1、数学统计方法 2、动态规划方法 3、机器学习与模式识别技术 4、数据库技术及数据挖掘 5、人工神经网络技术6、专家系统7、分子模型化技术8、生物分子的计算机模拟9、因特网(Interne
26、t)技术2022/8/1260数学统计方法生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法 数据统计、因素分析、多元回归分析是生物学研究必备的工具隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain) 2022/8/1261动态规划方法动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法 动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解
27、,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解2022/8/1262机器学习与模式识别技术机器学习机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验 遗传算法采用随机搜索方法,具有自适应能力和便于并行计算 神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义。2022/8/1263机器学习与模式识别技术模式识别模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或相似的客体归入同类中模式识别主要有两种方法:根据对象的统计特征进行
28、识别,根据对象的结构特征进行识别 2022/8/1264环境学习知识库执行反馈机器学习系统的基本结构 2022/8/1265数据库技术及数据挖掘数据挖掘(data mining) 又称作数据库中的知识发现 (Knowledge Discovery in Database),它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式 数据挖掘过程一般分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析2022/8/1266人工神经网络技术人工神经网络(Ar
29、tificial Neural Network, 简称ANN)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型2022/8/1267输入层隐藏层输出层2022/8/1268专家系统专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用.2022/8/1269 使 用 界 面解释机构推 理 机知识获取知识库数据库领域专家用 户AI专家专家系统的基本结构2022/8/1270分子模型化技术分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分
30、子之间相互作用的一种技术分子模型化是进行分子设计的基础。分子图形学(Molecular Graphics)是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功2022/8/12712022/8/1272生物分子的计算机模拟传统的生物分子研究主要是实验方法,如利用测序技术确定DNA分子的序列,通过分子遗传学方法确定基因的多态性,通过X-射线晶体衍射确定蛋白质分子的结构,通过生化实验研究生物大分子之间的相互作用、药物分子与靶分子的结合。所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学
31、模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质2022/8/1273 反馈,改进模型实验实验现象数学模型计算机模拟模拟结果分析 新的设想 产生设计解释2022/8/1274因特网(Internet)技术Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所通过网络查询或搜索所需要的生物信息,使用分析工具 将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回复杂网络分析理论 社会网:社交网,演员合作网,姻亲关系网,科研合作网,Email网生物网:食物链网,神经网,新陈代谢网,蛋白质网,基因网络信息网络:WWW,专利使用,论文引用,计算机共享技术网络:电力网,Internet,电话线路网交通运输网:航线网,铁路网,公路网,自然河流网75中药方剂网虽然中药方剂的数量很大,但目前还没有统计用的数据库。不得不用手工进行统计,因此统计的数据量受到很大限制。选用了1536付药方,681种药物进行了统计。节点:药物,边:在一付方剂中药物的相互作用。方剂:药物、药物的相互作用构成的固定完全图局域网,同时也可以看作是节点(药物) 的合作成果。各个完全图通过共用的节点(药物)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026春招:徐工集团面试题及答案
- 贾彩燕课件教学课件
- 2026春招:祥鹏航空试题及答案
- 贷款政策课件
- 货运司机安全培训行业分析
- 货运企业安全培训内容课件
- 医疗人员职业操守培养
- 妇产科疾病预防与健康管理
- 心理咨询服务发展汇报
- 护理教育技术发展与创新
- 云南师大附中2026届高三高考适应性月考卷(六)思想政治试卷(含答案及解析)
- 建筑安全风险辨识与防范措施
- CNG天然气加气站反恐应急处置预案
- 定额〔2025〕1号文-关于发布2018版电力建设工程概预算定额2024年度价格水平调整的通知
- 糖尿病周围神经病变的筛查
- 《生活中的经济学》课件
- 地质勘查现场安全风险管控清单
- JJG 52-2013弹性元件式一般压力表、压力真空表和真空表
- 高考生物学二轮复习备课素材:多变量实验题的类型及审答思维
- 沥青沥青混合料试验作业指导书
- 钢板桩支护工程投标文件(54页)
评论
0/150
提交评论