电子科大生物信息学重点_第1页
电子科大生物信息学重点_第2页
电子科大生物信息学重点_第3页
电子科大生物信息学重点_第4页
电子科大生物信息学重点_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简答:研究内容: 数据管理层面上:开发、设计一系列相关的工具,能够方便有效的获取、管理 以及使用各种类型的数据和信息。算法开发层面上:开发新的算法及统计学的方法来揭示大规模数据之间的联系。研究对象层面上:分析和解释各种类型的生物学数据,包括核酸、氨基酸序列、蛋白质功能结构域以及蛋白质三级结构等。二十世纪五十年代,为储备期二十世纪六十至七十年代,为萌芽期。二十世纪八十年代,为形成期。 1990s,高速发展期界(kingdom)门(phylum) 纲(class) 目(order) 科(family)属(genus) 种(species) 四大“模式生物”:酵母、线虫、果蝇.小鼠大肠杆菌:460万

2、bp,秀丽线虫9.7mbp, 果蝇1.8亿bp拟南芥l.oxlo8 bp 小鼠30亿水稻4. 3亿bp (要记住那个比那个大/小?) 四种:小分子:单糖、双糖,脂肪酸,核昔酸,氨基酸蛋白质的空间结构0级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序q 二级结构(secondary structure)氢键形成a-螺旋(a -helix)链间形成卩折叠(卩-sheet)0 三级结构(tertiary structure)肽链进一步沿多方向盘绕成紧密的近似球状结构0 四级结构(quaternary structure)具有特定构象的肽链进一步结合,并在空间相互作用

3、1870年,f. miescher从脓细胞的核中分离,由于呈酸性,故命名为核酸。中心法则开始:dna一一rna1、检索方法:(1) 追溯法:通过已知文献后附有的参考文献中提供的线索来查找文献。(2) 常用法:利用各种检索工具来查找文献。(3) 循环法:是将常用法和追溯法交替使用的一种综合文献检索方法。(4) 浏览法:是从本专业期刊或其它类型的原始文献中直接査阅文献资料。3、检索过程: (1)分析研究课题 (2)制定检索策略 (3)査找文献线索 (4)获得原始文献1. pubmed的特性pubmed is ncbi gateway to medline收录了 70多个国家4600多种主要生物医学

4、期刊的摘要和部分全文。最早的文献可追溯至20世纪50年代。最新的文献几乎就在此时此刻。部分出版商通过pubmed提供文献的全文(链接),而这些全文中有些是可以免费登录的。据统计,ncbi目前共有130多种期刊约10万篇的免 费全文。1. 鸟枪法(shot-gun sequencing) 方法:借助物理或化学的手段将整个某因组随机打断成一定大小的片段进行测序,再根据序列间 的重叠关系进行计算机排序与组装,确定它们在基因组中的位置。 适用范围:主要用于巫复序列少、相对简单的原核生物基因组的测序匸作。不适用于分析较大的、 更复杂的基因组。 优点:速度快、简单易行、成本低 缺点: 序列的拼接组装比较困

5、难,尤其是在重复序列多的区域难度更大。 受文库随机性和测序覆盖度的影响,某些区域间会冇较大的空洞(gap)。 由于缺少基因组的物理图谱,冇些序列难以定位,成为游离片段。2. 克隆重叠群法(clone contig sequencing) 方法:先将染色体打成比较大的片段(儿十儿百kb),利用分子标记将这些大片段排成重叠的克隆 群,分别测序后拼装。需要绘制物理图谱,以鸟枪法为基础。 适用范围:较大的、更复杂的基因组。short-g un不需背景信息吋间短得到的是草图(draft)原核基因组成本低clone contig构建克隆群(遗传、物理图谱)需要几年的吋间 得到精细图谱较大的基因组成本髙ui

6、数据提交单机版软件:sequin是独立的程序,由ncbi (美国国家生物情报屮心)开发,用来向三大核酸数据库genbank, embl, ddbj查询与提交序列数据。核酸数据库分级:在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知 识和信息的进一步整理得到的数据库。二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显 示数据库内容;一级数据库与二级数据库之间并无明确的界限。五主要的blast程序程序名查询序列数据库搜索方法blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列

7、blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据 库中的序列逐一搜索。tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译 后的蛋白质序列逐一比对。tbiastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据 库中的核酸序列6框翻译成的蛋白质序列逐一进 行比对。t表示翻译;n表示核酸;p表示蛋白;x表示交叉点阵分析:寻找序列间可能的性状对位排列寻找蛋白质、dna序列中正向或反向重复预测rna中自补区域优点:可以找到两个序列间所有可能的残基匹配简单、易懂直观、整体性强点阵法的序列比对:寻找两条序列的最佳比对,实际上就是寻找在矩阵标记图中找 非重叠平行斜线最长的组

8、合。最短路经问题:算法求解:从起点到终点逐层计算c1w1起点w2c2简答:系统发育树的构建步骤1、特征数据选取:基因、个体、群体或物种的信息常用的方法:多序列比对2、构建距离数据或相似性数据:涉及的则是成对基因、个体、群体或物种的信息。3、选择建树方法以及替代模型:目前主要有三种:距离法、最大简约法、最大似然法4、构建进化树:拓扑结构的判别(从大量的拓扑结构中搜寻、判别)5、进化树评估:与实际进化的比较七:序列预测,常用的检验指标1. 灵敏度(sensitivity, sn):对于真实的数据,能够预测成“真”的比例是多 少;2. 特异性(specificity, sp):对于阴性的数据,能够预

9、测成“假”的比例是多 少;3. 准确性(accuracy, ac):对于整个数据集(包括阳性和阴性数据),预测总共 的准确比例是多少;4. 马修相关系数(mathew correlation coefficient, mcc):当阳性数据的数量与 阴性数据的数量差别较大时,能够更为公平的反映预测能力,值域卜1,1;tptnsn =, sp =ztp+fn tn + fptp + tntp + fp + tn + fnmcc =(tpxtn) - (fnxfp)j(tp + fn) x (tn + fp) x (7p + fp) x (tn + fn)1. 样本/检验数据:阳性数据(p),阴性数

10、据(n);a. 阳性数据(p):真实的,被实验所证实的数据;b. 阴性数据(n):被实验所证明为无功能的数据;2. 对于预测结果的评测,定义:a. 真阳性仃p):阳性数据中被预测为阳性的数据;b. 假阳性(fp):阴性数据屮被预测为阳性的数据;c. 真阴性仃n):阴性数据小被预测为阴性的数据; d假阴性(fn):阳性数据中被预测为阴性的数据作业:碱基:为什么是四个碱基?为什么是三联体编码?为什么密码表是这样排列的?1. 在16种可以配对形成dna的核昔碱基中,为何只有a、t、g、c组成了生物体的基因 组字母表?研究人员一直认为这是因为最初生命形成的原始环境中就只有这4种碱基。但爱 尔兰都柏林的

11、trinity学院的dona 11 mac却认为,这4种碱基的选择是最小化错误策略的 具体表现.2. 三个碱基成为一组决定一个氨基酸。(举个例子:鸟卩票吟一胞喀噪一胞吨喘这三个碱 基组成的信息叫廿氨酸'的氨基酸放在那个位置的指令。)当把四个碱基(鸟瞟吟、胞咗咙、 腺u密喘、胸腺u密呢)做成由三个碱基组成的碱基对时,则能够组成的碱基对总共有4x4x 4二64种。即能够指令64种氨基酸。我们身体的氨基酸总共有二十多种,这说明由三个碱基 组成的碱基对可充分地向人体所有氨基酸作出指令。3. 互不相同的四个碱基,即四块不同的砖"三个合成一组,由一组找出一个氨基酸,数 百个氨基酸连接,才

12、能形成一个蛋白质。蛋白质是氨基酸以碱基互补配对方式连接成的物质o 我们体内有二十多种氨基酸,正是藉着这二十多种氨基酸的组合,地球上的所有动物和植物 的模样和性质都有些不同,即使同样的人,长像和体质也不同。二十个氨基酸合成一个特定 蛋白质的概率是多少。假设17个氨基酸,按着不同的方式排列,能排多少种呢? 17x16x 15x3x2x1 = ?超过355兆种。那么形成其中一种方式的概率为355兆分之一。基因组:人与人为什么长的不一样?那些“垃圾” dna为什么会留下来?人类是怎样进化来的?人与鼠的基因组差别很小,但为什么物种间差异这样大?1. 因为每个人的遗传基因不相同,并且在dna复制转录的过程

13、中述会发生基因突变, 而且每个人生活环境不同,这些也会影响基因的表达,所以人和人反得不一样。2、那些“垃圾”基因在不同的环境下表达效果不同。也有有利的表达方式。3. 人类是由猿猴进化而來。4、基因的选择性表达可能导致无中间的差异,因为人类社会和鼠的社会方式不同,这 会影响基因的表达蛋白质:相同的氨基酸序列有相同的结构吗?每个氨基酸在 蛋白质中的贡献都是相同的吗?蛋白质算不算遗传物质呢? 为什么蛋白质在生物学中是这样的重要?蛋白质是怎样运 动的呢?1、相同的氨基酸序列冇相同得结构,也有不同的结构。空间各异性导致了表达不一样。2、不同,不同的蛋白质每个氨基酸所占比例不同,氨基酸贡献也都不一样。r基一般 不同。3、遗传物质主要指dna和rna,但对月元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论