




已阅读5页,还剩66页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2018/1/5,1,生物信息学,黄原,2018/1/5,2,参考书,1、生物信息学 孙啸 东南大学(课程讲义) /chenyuan/xsun/bioinfomatics/2、生物信息学应用技术 王禄山 高培基 化学工业出版社,2008.13、简明生物信息学 钟扬 复旦大学 高等教育出版社,2018/1/5,3,作业及考核,课外自学作业:在教师指导下,每人必须完成一个生物信息学数据库或软件使用的作业并在课堂上演示使用过程。 40分 数据库和软件的使用练习(30学时):每人一个基因进行研究型分析实验,第14周课程结束时提交分析报告。 60分,2018/1/5,4,第一章生物信息学概论,2018/1/5,5,简介,第1节 生物信息学概念 第2节 生物信息学的发展历史 第3节 生物信息学计算机基础第4节 生物信息学主要研究内容 第5节 生物信息学所用的方法和技术,2018/1/5,6,第1节 生物信息学的概念,生命信息的组织、传递、表达,物理,化学,分子生物学,遗传学,信息技术,2018/1/5,7,1、 生物信息学概念,HGP生物数据的激增(每15个月翻一番),生物学家,数学家,计算机科学家,生物信息学(bioinfomatics)的诞生,2018/1/5,8,概念(广义),生物体系和过程中信息的存贮、传递和表达,细胞、组织、器官的生理、病理、药理过程的中各种生物信息,信息科学,生命科学中的信息科 学,2018/1/5,9,概念(狭义),生物数据,深层次生物学知识,分子生物信息学Molecular Bioinformatics,挖掘,获取,生物信息的获取、存贮、分析和利用,2018/1/5,10,Bioinformatics,2018/1/5,11,2、生物分子信息,细胞,分子,存贮、复制、传递和表达遗传信息的系统,生物信息的载体,2018/1/5,12,生物信息学主要研究两种信息载体DNA分子蛋白质分子,2018/1/5,13,2018/1/5,14,Protein Machines,2018/1/5,15,生物分子至少携带着三种信息遗传信息与功能相关的结构信息进化信息,2018/1/5,16,(1)遗传信息的载体DNA,遗传信息的载体主要是DNA 控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达,2018/1/5,17,DNA通过自我复制,在生物体的繁衍过程中传递遗传信息,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。,基因控制着蛋白质的合成,DNA,RNA,蛋白质,转录,翻译,2018/1/5,18,基因的DNA序列,DNA,前体RNA,mRNA,多肽链,蛋白质序列,对应关系,遗传密码,2018/1/5,19,(2)蛋白质的结构决定其功能,蛋白质功能取决于蛋白质的空间结构 蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。,2018/1/5,20,(3) DNA分子和蛋白质分子都含有进化信息,通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。通过比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统发生关系,推测它们共同的祖先蛋白质。,2018/1/5,21,生物分子信息,DNA序列数据,蛋白质序列数据,生物分子结构数据,生物分子功能数据,最基本,直观,复杂,生物分子数据类型,2018/1/5,22,生物分子数据及其关系,2018/1/5,23,第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少 对于第二部密码,目前则只能用统计学的方法进行分析无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。,生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。,2018/1/5,24,生物分子信息的特征,生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系,2018/1/5,25,3、生物信息学的目标和任务,收集和管理生物分子数据数据分析和挖掘开发分析工具和实用软件生物分子序列比较工具基因识别工具生物分子结构预测工具基因表达数据分析工具,2018/1/5,26,生物分子信息处理流程,2018/1/5,27,分子生物学的三大核心数据库,GenBank核酸序列数据库 SWISS-PROT蛋白质序列数据库 PDB生物大分子结构数据库,2018/1/5,28,表1.1 至2001年初已经得到的各类数据及基本数据处理任务,2018/1/5,29,生物信息学研究意义,认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。改变生物学的研究方式 改变传统研究方式,引进现代信息学方法在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据,生物信息学将是21世纪生物学的核心,2018/1/5,30,第2节 生物信息学的发展历史,生物信息学基本思想的产生,生物信息学 的迅速发展,二十世纪50年代,二十世纪80-90年代,生物科学和技术的发展,人类基因组计划的推动,2018/1/5,31,20世纪50年代,生物信息学开始孕育20世纪60年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来20世纪70年代,生物信息学的真正开端20世纪70年代到80年代初期 ,出现了一系列著 名的序列比较方法和生物信息分析方法 20世纪80年代以后,出现一批生物信息服务机 构和生物信息数据库20世纪90年代后 ,HGP促进生物信息学的迅速 发展,2018/1/5,32,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:/Education/BLASTinfo/milestones.html、/bioinformatics/。,2018/1/5,33,生物信息学国内外发展现状,PubMed中与生物信息学相关论文统计,9000,2%,2018/1/5,34,人类基因组计划给生物信息学提出挑战,随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作,发现生物学规律,,解读生物遗传密码,认识生命的本质,研究基因组数据之间的关系,分析现有的基因组数据,利用数学模型和人工智能技术,2018/1/5,35,2018/1/5,36,功能基因组学,HGP即将完成,我们即将进入“后基因组学”(post-genomics)时代基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,即功能基因组学(functional genomics)功能基因组的任务是进行基因组功能注释(Genome annotation)认识基因与疾病的关系掌握基因的产物及其在生命活动中的作用,2018/1/5,37,功能基因组学的研究内容,进一步识别基因,识别基因转录调控信息,分析遗传语言。注释所有基因产物的功能,这是目前基因组功能注释的主要层次。研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。,2018/1/5,38,人类基因组与其它生物基因组比较,2018/1/5,39,例:人与鼠染色体的差别,2018/1/5,40,后基因组时代,2018/1/5,41,第3节 生物信息学计算机基础,Hardwares (PC、MACINTOSH、Workstation、Supercomputer)Operation systems(WINDOWS、MAC OS、UNIX/LINUX)DatabaseAlgorithmProgrammer (C+, PERL, JAVA, XML)Networks(WWW、FTP、WIKI、BLOG),2018/1/5,42,第4节 生物信息学主要研究内容,1、 生物分子数据的收集与管理2、 数据库搜索及序列比较 3、 DNA和蛋白质序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测,2018/1/5,43,基因组数据库,蛋白质序列数据库,蛋白质结构数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,1、 生物分子数据的收集与管理,2018/1/5,44,2、 数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,2018/1/5,45,发现同源分子,2018/1/5,46,3、 基因组序列分析,遗传语言分析天书 基因组结构分析基因识别基因功能注释基因调控信息分析基因组比较,2018/1/5,47,4、基因表达数据的分析与处理,基因表达数据分析是目前生物信息学研究的热 点和重点 目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能 所用方法主要有:相关分析方法模式识别技术中的层次式聚类方法人工智能中的自组织映射神经网络主元分析方法,2018/1/5,48,基因芯片,2018/1/5,49,2018/1/5,50,2018/1/5,51,层次式聚类,2018/1/5,52,二维电泳图,2018/1/5,53,5、蛋白质结构预测,蛋白质的生物功能由蛋白质的结构所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途径。蛋白质结构预测分为:二级结构预测空间结构预测,蛋白质折叠,2018/1/5,54,二级结构预测,在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有:立体化学方法图论方法统计方法最邻近决策方法基于规则的专家系统方法分子动力学方法人工神经网络方法 预测准确率超过70%的第一个软件是基于神经网络的PHD系统,2018/1/5,55,空间结构预测,在空间结构预测方面,比较成功的理论方法是同源模型法 该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构 运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作,2018/1/5,56,第5节 生物信息学的方法和技术,1、数学统计方法 2、动态规划方法 3、机器学习与模式识别技术 4、数据库技术及数据挖掘 5、人工神经网络技术6、专家系统 7、分子模型化技术8、量子力学和分子力学计算 9、生物分子的计算机模拟10、因特网(Internet)技术,2018/1/5,57,1、数学统计方法,生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法 数据统计、因素分析、多元回归分析是生物学研究必备的工具隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),2018/1/5,58,2、动态规划方法,动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法 动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解,2018/1/5,59,3、机器学习与模式识别技术,机器学习机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验 1、遗传算法采用随机搜索方法,具有自适应能力和便于并行计算 2、神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义。 模式识别模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中模式识别主要有两种方法:根据对象的统计特征进行识别,根据对象的结构特征进行识别,2018/1/5,60,环境,学习,知识库,执行,机器学习系统的基本结构,反 馈,2018/1/5,61,4、数据库技术及数据挖掘,数据库技术 数据仓库 虚拟数据库技术(Virtual Database,简称 VDB) 数据挖掘(data mining) 又称作数据库中的知识发现 (Knowledge Discovery in Database),它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式 数据挖掘过程一般分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析,2018/1/5,62,5、人工神经网络技术,人工神经网络(Artificial Neural Network, 简称ANN)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型 在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,简称BP网)。BP网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络模型。标准的BP网由三层神经元组成:输入层、隐藏层和输出层,2018/1/5,63,输入层,隐藏层,输出层,反向传播神经网络结构示意,2018/1/5,64,6、专家系统,专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用 知识库是专家系统的第一重要组成部分,知识库中的知识通常分为两类:一类领域的事实性知识,或广泛公用的知识另一类是启发性知识,是领域专家在长期研究和实践过程中 积累起来的经验总结知识获取方式大致上可以分为两种:一种是由知识工程师向领域专家询问有关知识,经过整理编 辑后将知识转换成计算机表示形式,送入知识库另一种是针对大量数据进行机器学习,分析、总结和抽取出 有用的新知识,这是更高层次的知识获取方式。 专家系统的另一个重要部分是推理机,由它来控制和 协调整个系统,并根椐当前输入的数据和知识,按一定的推理策 略,去解决当前的问题,推导出结论,2018/1/5,65,知识库,领域专家,用 户,AI专家,专家系统的基本结构,2018/1/5,66,7、分子模型化技术,分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分子之间相互作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农发行赤峰市元宝山区2025秋招笔试英文行测高频题含答案
- 农发行黄冈市蕲春县2025秋招笔试热点题型专练及答案
- 农发行榆林市靖边县2025秋招半结构化面试题库及参考答案
- 农发行苏州市吴中区2025秋招笔试专业知识题专练及答案
- 农发行酒泉市肃州区2025秋招无领导模拟题角色攻略
- 国家能源沧州市青县2025秋招笔试模拟题及答案
- 国家能源吉安市新干县2025秋招心理测评常考题型与答题技巧
- 固原原州区中储粮2025秋招面试半结构化模拟题30问及答案
- 国家能源菏泽市单县2025秋招笔试模拟题及答案
- 国家能源赣州市南康区2025秋招笔试思维策略题专练及答案
- 物业服务提升方案模板
- 不同茶叶的冲泡方法
- 人教版高中地理必修第一册第一章宇宙中的地球第一节地球的宇宙环境练习含答案
- 信息科技风险安全
- 中建幕墙工程安全专项施工方案
- 诊所中药饮片清单汇编
- 红木文化智慧树知到答案2024年广西大学
- 招标代理机构遴选投标方案(技术标)
- 吊车施工专项方案
- 肺栓塞患者护理查房课件
- 9月30日烈士纪念日缅怀先烈功绩弘扬先烈精神课件
评论
0/150
提交评论