生物信息学期末考试重点.docx_第1页
生物信息学期末考试重点.docx_第2页
生物信息学期末考试重点.docx_第3页
生物信息学期末考试重点.docx_第4页
生物信息学期末考试重点.docx_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一讲生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。生物技术与生物信息学的区别及联系生物技术生物信息学英文名称BiotechnologyBioinformatics最终目的产品研究方法利用生物的特性和功能,设计构建具有预期功能的新物质或品系对生物信息进行采集、处理、存储、分析和解释涉及学科基因工程、分子生物学、生物化学、遗传学、细胞生物学、胚胎学、免疫学等生物学、计算机科学、数学、物理学等发展历程可追溯到 2000 B.C.数十年生物信息学的发展历史 人类基因组计划(HGP) 人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科)随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。第二讲 回顾细胞结构细胞是所有生命形式结构和功能的基本单位细胞组成细胞膜 主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构细胞质 细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器细胞器 细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等细胞核 最大的细胞器DNA的结构碱基 (腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G)核苷酸核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就是A、T、C、G基因是什么基因是遗传物质的基本单位基因就是核苷酸序列。大部分的基因大约是1000-4000个核苷酸那么长。基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。基因在染色体上。第四讲 数据结构及其对应算法数据结构的定义数据结构探讨的是在计算机中如何有效地存放数据,使其可以方便地被处理 二维数组 链表 栈和队列第五讲 序列比较序列比较的根本任务是:1. 发现序列之间的相似性2. 辨别序列之间的差异目的:相似序列 相似的结构,相似的功能 判别序列之间的同源性推测序列之间的进化关系 序列对比定义:序列对比(sequence alignment)是运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对的结果反映了算法在多大程度上提供序列之间的相似性关系及他们的生物学特征。编辑距离.AGCACAC-A. A-CACACTA.-Match(a,a)字符匹配-Delete(a,-) 从第一条序列删除一个字符,或者在第二条序列相应的位置插入空位 -Replace(a,b)以第二条序列中的字符b替换第一条序列中的字符a, a不等于b-Insert(-,b)在第一条序列插入空位符,或者删除第二条序列中的对应字符b编辑距离,又称Levenshtein距离,是指在对于两个字符串,由其中一个转换成另一个所需要的最少编辑次数,该编辑可以是 Replace, Delete,InsertBesting BeatenS1. Replace (s - a )S2. Replace (i - e ) S3. Delete (g - -)S3. Insert(-,g)问题:把一个字符串s1最少经过多少步操作变成字符串s2?相关算法 递归函数调用自身,需要有边界函数n! = n(n-1)(n-2).1;f(n) = f(n-1)+f(n-2) 动态规划 (最长公共字符子序列)将大问题分解为一系列子问题,每个子问题的解保存在数组中用来求最终解问题描述 字符序列的子序列是指从给定字符序列中随意地(不一定连续)去掉若干个字符(可能一个也不去掉)后所形成的字符序列。令给定的字符序列X=“x0,x1,xm-1”,序列Y=“y0,y1,yk-1”是X的子序列,存在X的一个严格递增下标序列,使得对所有的j=0,1,k-1,有xij=yj。例如,X=“ABCBDAB”,Y=“BCDB”是X的一个子序列。最长公共字符子序列A=“a0,a1,am-1”;B=“b0,b1,bm-1”;Z=“z0,z1,zk-1”为它们的最长公共子序列,那么关于A,B,Z应该有如下性质:1) 如果am-1=bn-1,则zk-1=am-1=bn-1,且“z0,z1,zk-2”是“a0,a1,am-2”和“b0,b1,bn-2”的一个最长公共子序列; 2) 如果am-1!=bn-1,则若zk-1!=am-1,蕴涵“z0,z1,zk-1”是“a0,a1,am-2”和“b0,b1,bn-1”的一个最长公共子序列; 3)如果am-1!=bn-1,则若zk-1!=bn-1,蕴涵“z0,z1,zk-1”是“a0,a1,am-1”和“b0,b1,bn-2”的一个最长公共子序列。 最长公共字符子序列现有两个序列X=x1,x2,x3,.xi,Y=y1,y2,y3,.,yj,设一个Ci,j: 保存Xi与Yj的LCS的长度。第六讲编辑距离问题算法 if i = 0 且 j = 0,matrix(i, j) = 0 if i = 0 且 j 0,matrix(i, j) = j if i 0 且j = 0,matrix(i, j) = i ifi 1 且j 1 ,matrix(i, j) = min matrix(i-1, j) + 1, matrix(i, j-1) + 1, matrix(i-1, j-1) + f(i, j) ,当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i, j) = 1;否则,f(i, j) = 0。第八讲全局序列比对算法Levenshtein 与 LCS 的异同点 Si-1,j-1 + cost(ai,bj) cost = 0 | 1Si,j = minSi-1,j+cost(ai,-) delete (i,-) Si,j-1+cost(-,bj) delete (j,-)算法DemoABBA 01234B 11123B 22112A 32221第九讲 生物信息学的计算机、统计学及数学基础生物信息学的定义:生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。因此,计算机技术将是进行生物信息学研究的重要手段;而数学知识是研究的重要方法。 目前,一般提到的 生物信息学 是就指这个狭义的概念,更准确地说,应该是分子生物信息学(Molecular Bioinformatics)。 2、动态规划方法动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解 在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,简称BP网)。专家系统专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用 知识库是专家系统的第一重要组成部分,知识库中的知识通常分为两类:1. 一类领域的事实性知识或广泛公用的知识2. 另一类是启发性知识,是该领域专家在长期研究和实践过程中积累起来的经验总结知识获取方式大致上可以分为两种:一种是由知识工程师向领域专家询问有关知识,经过整理编辑后将知识转换成计算机表示形式,送入知识库另一种是针对大量数据进行机器学习,分析、总结和抽取出有用的新知识,这是更高层次的知识获取方式。 专家系统的另一个重要部分是推理机,由它来控制和协调整个系统,并根椐当前输入的数据和知识,按一定的推理策略,去解决当前的问题,推导出结论。第十讲 数据挖掘数据挖掘(定义)从技术层面上:数据挖掘就是从大量数据中提取有用信息的过程 从商业层面上:数据挖掘就是一种商业信息处理技术,通过对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据数据挖掘(任务)分类分析(Classification)通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型产生分类规则,然后用这个模型或规则对数据库中的其他记录进行分类。已被广泛应用于用户行为分析、生物科学等领域。 聚类分析(Clustering)聚类和分类是两个容易混淆的概念。聚类是一种无指导的观察式学习,没有预先定义的类。而分类问题是有指导的示例式学习,预先定义类。分类是训练样本里包含有分类属性值,而聚类是要在训练样本中发现这些分类属性值。第十一讲 动态规划矩阵相乘只有当矩阵A的列数与矩阵B的行数相等时AB才有意义。一个mn的矩阵a(m,n)左乘一个np的矩阵b(n,p),会得到一个mp的矩阵c(m,p) 共计算 2 * 3 * 4 = 24次动态规划算法 确定要用动态规划算法之后如何去分析问题 怎么描述问题,要把问题描述为交叠的子问题 交叠子问题的初始条件(边界条件) 动态规划在形式上往往表现为填矩阵的形式回顾编辑距离 或者 LCS算法,以上三点也都在我们的分析中体现背包问题背包问题简述问题:如何在不超出背包重量的前提下得到最大价值?思考解决问题的结构,寻找最优子结构Item a1,a2,a3W: 5,3,2 P : 9,7,8MaxWeight: 5W: 5,3,2P : 9,7,8MaxWeight: 5问题:一共要计算多少种可能性?核心算法cim=maxci-1m,ci-1m-wi+pi第十四讲 信息可视化技术背景计算机图形学的产生和发展为可视化的诞生奠定基础1987年正式将可视化分为:数据可视化、信息可视化、科学可视化数据可视化将数据以图像的形式呈现出来数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。数据可视化是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。 基本概念及构成元素 数据空间:由n维属性和m个元素组成的数据集所构成的多维信息空间 数据开发:利用一定的算法和工具对数据进行定量的推演和计算 数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据 数据可视化:指将大型数据集中的数据以图形图像

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论