华中农业大学本科生物信息_第1页
华中农业大学本科生物信息_第2页
华中农业大学本科生物信息_第3页
华中农业大学本科生物信息_第4页
华中农业大学本科生物信息_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.生物信息学: 生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释 等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大 量数据所包含的生物学意义。 研究内容: 以基因组 DNA 序列信息为源头,识别基因组序列中代表蛋白质和 RNA 基因的编码区,阐 明非编码区的信息特征,破译隐藏在 DNA 序列中的遗传语言规律;同时,归纳、整理与基 因组遗传语言信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认 识代谢、发育、分化、进化的规律。 研究方向: 生物学数据的收集、存储、管理与提供(GenBank 1.06*1011 bps) 基因组序列信息的提取和分析 (非编码区) 功能基因组相关信息分析 生物大分子结构模拟和药物设计 生物信息分析的技术与方法研究 分子进化与比较基因组学 研究方法: 基于数据挖掘的方法,如:统计方法、机器学习、神经网络等。 基于模拟分析的方法,如: 发展前景: 生物信息学将会揭示人类及重要动植物种类的基因的信息,为生物大分子结构模拟和药物 设计提供巨大的帮助。生物信息学不仅对认识生物体和生物信息的起源、遗传、发育与进 化的本质有重要意义,而且将为人类疾患的诊治开辟新的途径,还可为动植物的育种改良提 供坚实的理论基础。生物信息学的发展已经超越了它最初的目标。现在可以说生物信息学 的重要目标在于理解生物数据和揭示生命本质,但是它的前景仍然是不可估量的。可以肯 定,在不远的将来,生物信息学的研究成果不仅被应用于生物、医学等相关领域,同时它 将对其它学科,包括信息科学、数学、计算机科学物理学等的研究产生巨大的影响。 认识:。 。 。 。 。 。 2.基因组:包含细胞或生物体的全套遗传信息的全部遗传物质 3.Encode project:Encyclopedia of DNA Elements(DNA 元件百科全书) 目的:该项目旨在解析人类基因组中的所有功能性元件 4.1 遗传图谱: 又称为连锁图((linkage map) ,是指基因或 DNA 标志在染色体上的相对位置与遗传距离, 后者通常以基因或 DNA 片段在染色体交换过程中的分离频率厘摩(cM )来表示,cM 值越 大,两者之间距离越远。一般可由遗传重组测检结果推算。 4.2 物理图谱: 是指标明一些界标(例如,限制酶的切点、基因等)在 DNA 上的位置,图距物理长度为单 位,例如染色体的带区、核苷酸对数目等。 5*.生物复杂性: 复杂生物系统可以出现在生物界的各个层面上,包括分子水平、细胞水平、组织器官水 平、个体水平、群体水平和生态系统水平。 (可以逐个展开阐述: 单分子层次遗传信息的表达:由 DNA 到 RNA 再到蛋白质,即序列决定结构,结构决定功 能。 分子网络层次遗传信息的表达: 分子与分子的相互作用决定分子相互作用网络,然后又决 定相应的功能。 基因种类多、核酸种类多、调控机理复杂、复杂的基因调控网络、代谢网络;细胞间信号 转导过程;生物个体全部基因表达变化、生物中的复杂网络、复杂过程、复杂现象 、 ) 数据库 6.1 EBI 的主要资源: ENA(核酸序列数据库) , Ensembl(基因组) , ArrayExpress(基因表达数据) , UniProtKB 蛋白质序列, InterPro(蛋白质家族 /域/蛋白指纹等) PDBe(大分子结构) 6.2 NCBI 的主要资源:(书上 P19 7.LAMP 架构 LAMP 架构:L Linux 操作系统 A Apache 网站服务器 M MySQL 数据库 P PHP/Perl 脚本语言 8.1 核酸数据库 8.2 蛋白质结构数据库 8.3 代谢途径数据库 9 动态规划 把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解,从而对问题 进行优化。 适用动态规划的问题必须满足最优化原理和无后效性。 1.最优化原理(最优子结构性质) 最优化原理可这样阐述:一个最优化策略具有这样的性 质,不论过去状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成 最优策略。简而言之,一个最优化策略的子策略总是最优的。一个问题满足最优化原理又 称其具有最优子结构性质。 2.无后效性将各阶段按照一定的次序排列好之后,对于某个给定的阶段状态,它以前各阶 段的状态无法直接影响它未来的决策,而只能通过当前的这个状态。换句话说,每个状态 都是过去历史的一个完整总结。这就是无后向性,又称为无后效性。 3.子问题的重叠性 动态规划将原来具有指数级时间复杂度的搜索算法改进成了具有多项式 时间复杂度的算法。其中的关键在于解决冗余,这是动态规划算法的根本目的。动态规划 实质上是一种以空间换时间的技术,它在实现的过程中,不得不存储产生过程中的各种状 态,所以它的空间复杂度要大于其它的算法。 10.蛋白质预测方法: 蛋白质二级结构预测就是从蛋白质的一级序列出发,预测序列中各分子所属的二级结构类 型。抽象出来看,就是从 20 种氨基酸组成的序列到 3 种二级结构类型(3 类预测)或 8 种 类型(8 类预测)组成的序列的一个映射。预测结果的好坏就是看,谁构造的映射精确, 并且泛化能力强。迄今,蛋白质二级结构预测算法共经历了三代。 第一代是指上世纪六七十年代的工作,这些算法几乎全部都是基于单个氨基酸倾向性的。 第二代算法大体是指上世纪九十年代之前的算法,此阶段的算法主要考虑的是 3-5 个相邻 残基片段的倾向性,三类预测的准确率在 60%多,此时已开始使用机器学习类算法。 第三代预测算法是指上世纪九十年代之后的算法,此时蛋白质二级结构预测领域已经是机 器学习类算法特别是人工神经网络的天下。这一代算法除了考虑残基片段的局部信息以外, 还把从序列比对得到的进化信息(全局信息)结合进来,把 3 类预测的准确率提高到 70% 以上。这些算法通常的做法是,把待预测的序列拿去和蛋白质序列的无冗余库(nr)作比 对,并以比对结果所给出的概貌(Profile)作为神经网络的输入,再由多层神经网络预测 二级结构。 11.人工神经网络: ANN(人工神经网络)是对 BNN(生物神经网络)的结构及功能大大简化后保留主要特性的 某种抽象与模拟,是 BNN 的数学模型,而非物理模型。 人工神经网络具有四个基本特征: 非线性 非线性关系是自然界的普遍特性。 非局限性 一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于 单个神经元的特征,而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之 间的大量连接模拟大脑的非局限性。 非常定性 人工神经网络具有自适应、自组织、自学习能力。 非凸性 一个系统的演化方向,在一定条件下将取决于某个特定的状态函数。 人工神经网络中,神经元处理单元可表示不同的对象,例如特征、字母、概念,或者一些 有意义的抽象模式。网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输 入单元接受外部世界的信号与数据;输出单元实现系统处理结果的输出;隐单元是处在输 入和输出单元之间,不能由系统外部观察的单元。神经元间的连接权值反映了单元间的连 接强度,信息的表示和处理体现在网络处理单元的连接关系中。 12.基因组分析: 真核基因结构: 真核基因的编码区是不连续的,又分为外显子和内含子,外显子能够转录出 mRNA,编码 出蛋白质,而内含子则不可以。 真核基因的非编码序列包括非编码区的所有序列以及编码区里面的内含子。它们的非编码 区虽然不能转录出 mRNA,但是对基因的转录有调控作用,最重要的一个就是位于基因首 端非编码区的启动子和尾端非编码区的终止子,分别起到驱动和终止转录的作用。 原核基因结构:原核生物基因分为编码区与非编码区。非编码区上的基因决定某些性状是 否表达,表达多少次以及何时开始表达。 多元统计: 研究多元变量的统计规律性,是一元统计学的推广,同时又有多元随机变量特有的问题 1、降维问题(简化数据结构) (1) 将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关 的变量 (2) 把高维空间的数据投影到低维空间,使问题得到简化的同时损失的信息不太多。 【主成分分析、因子分析、对应分析】 2、归类问题:对所考察的观测样本(或变量)按照相似程度进行分类、归类 【聚类分析、判别分析】 3、变量间的相互联系 (1 ) 相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化。建立变 量间的定量关系,并用于预测或控制 【回归分析】 (2 ) 变量间的相互关系:分析两组变量间的相互关系 【 典型相关性分析】 判别分析: 判别分析是用于判别个体所属群体的一种统计方法。它的特点是根据已掌握的、历史上每 个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。 然后,当遇到新样本时,只要根据总结出来的判别公式和判别准则,就能判别该样本所属 的类别。只依赖于样本信息的基本判别方法为距离判别法(马氏距离、欧氏距离等) 。若还 依赖于先验信息,则有贝叶斯判别方法。判别分析作为一个强有力的统计模式识别方法在 DNA 序列的模体寻找中得到应用。依据样本类边界的形状,判别分析简单地分为线性判别 和非线性判别。线性判别如 Fisher 判别,应用最多,而在非线性判别中,二次判别曾被用 来识别人类基因组中的编码区。关于判别分析在 DNA 序列分析中的应用,可以参看张奇伟 的综述。 Fisher 判别: 基本思想:将 m 组 n 维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分 开。 局限: 可能陷入局部最优的判别结果; 对数据属性各变量的要求较为苛刻,如正态性、相互独立性等; 对于类别数目太多的判别问题,采用逐级判别比较麻烦。 距离判别: 基本思想:样品与哪一类总体的距离最近,就判别它属于哪一类总体。 距离的定义:绝对距离 相对距离 马氏距离: 欧式距离: 聚类分析的定义: 在不清楚研究对象总体的类别数目未知,也不知总体样本的具体分类情况下,通过分析, 选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法,对研究对象给出合 理的分类。 建立合适的分类方法: (1). 将一批样本按照亲疏程度进行分类(Q 型聚类) (2). 将样本的多个变量按照相似程度进行分类(R 型聚类) 系统聚类: 动态聚类: 有序样本聚类: 模糊聚类: 图论聚类: 隐马尔科夫模型(基于概率的方法) 隐马尔科夫模型,是在马尔科夫模型的基础上,增加了输出概率,即在某一特定状态下, 以一定的概率输出一个值。输出的值也称为观察值,相对地,把产生观察值的状态,称作 隐含状态(hidden states)。在生物序列分析中,观察值的集合也是离散的。隐含状态到输出 值的概率用输出概率矩阵(confuse matrix)来表示。若隐含状态数为 n,观察值的数目为 m,则输出概率矩阵的大小为 nm。隐马尔科夫模型有三个基本问题,即评估问题、解码 问题和学习问题,分别用向前算法、韦特比(Viterbi)算法和向前向后算法来解决。在基因识 别中,一般选取编码、非编码、编码之补等状态作为隐含状态,而观察值就是四种核苷酸 A、C、G、T。而从 DNA 序列中识别出编码区的问题,就是一个解码问题,用韦特比算法 求解。因为,韦特比算法也是基于动态规划的,因此,运算量为 O(n2)。 隐马尔科夫要解决的三个基本问题:评估问题、解码问题、学习问题 具体应用看书 P232 看一下向前算法、viterbi 算法、HMM 的优缺点 基因组:Genome,一般的定义是单倍体细胞中的全套染色体为一个基因组,或是单倍体细 胞中的全部基因为一个基因组。 转录组:转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合, 包括信使 RNA、核糖体 RNA、转运 RNA 及非编码 RNA;狭义上指所有 mRNA 的集合。 蛋白质的二级结构:蛋白质的二级结构包含局部残基之间由氢键所调节的相互作用。最普 遍的二级结构就是 -螺旋及 -折叠,此外还有 - 转角和无规卷曲。 蛋白质的结构域:结构域(Structural Domain)是介于二级和三级结构之间的另一种结构层 次。通常都是几个超二级结构单元的组合,是蛋白质多肽链在二级结构的基础上进一步卷 曲折叠成几个相对独立的近似球形的组装体。 HGP:人类基因组计划 多元统计在生物信息中的应用 参数统计量选择的标准:1.无偏性 2.有效性 3.相合性 4.充分性和完备性 基因组图谱:将基因在染色体上的分布状态、排列顺序等综合一起而绘成的图谱。 假基因: (pseudogene)具有与功能基因相似的序列,但由于有许多突变以致失去了原有的 功能,所以假基因是没有功能的基因,常用 表示。 ORF:(Open reading frame 开放阅读框)是生物个体的基因组中,可能是蛋白质编码序列 的部分。基因中的 ORF 包含并位于开始编码与终止编码之间。 Z 曲线理论: 测序技术:P289 第一代:sanger sequencing: 双脱氧链终止法。Sanger 法是根据核苷酸在某一固定的点开 始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以 A、T 、C、G 结束的四组不同长度的一系列核苷酸,然后在尿素变性的 PAGE 胶上电泳进行 检测,从而获得可见的 DNA 碱基序列。 第二代:(通量微阵列芯片测序) NGS( Next-generation sequencing 下代测序方法) 第三代:单分子测序及纳米测序技术 (next Next-generation sequencing) 第二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论