


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物信息学复习总结生物信息期末总结1. 生物信息学(biinomcs)定义:(第一章) 生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。(或:) 生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(nfc). 科研机构及网络资源中心:ncbi:美国国立卫生研究院ih下属国立生物技术信息中心;ebnt:欧洲分子生物学网络;eb-ebi:欧洲分子生物学
2、实验室下属欧洲生物信息学研究所; exasy:瑞士生物信息研究所sib下属的蛋白质分析专家系统;(ert prein analysis sstem)biiformaticlnks iectory;pdb (poindatabank); unip 数据库3. 生物信息学的主要应用:.生物信息学数据库;2.序列分析;3.比较基因组学;表达分析;5.蛋白质结构预测;6.系统生物学;7计算进化生物学与生物多样性。 什么是数据库: 1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。(记录record、字段field、值vu)2、生物信息数据库应满足5个方面的主要需求:(1)时间性;
3、(2)注释;(3)支撑数据 ;()数据质量 ;()集成性。3、生物学数据库的类型:一级数据库和二级数据库。(国际著名的一级核酸数据库有enn数据库、em核酸库和ddbj库等;蛋白质序列数据库有wis-pot等;蛋白质结构库有pdb等。)、一级数据库与二级数据库的区别: 1)一级数据库:包括:a.基因组数据库-来自基因组作图;b核酸和蛋白质一级结构序列数据库;c.生物大分子(主要是蛋白质)的三维空间结构数据库,(来自x衍射和核磁共振结构测定);)二级数据库:是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。一般说来,一次数据库的数据量
4、大,更新速度快,用户面广,通常需要高性能的计算机服务器、大容量的磁盘空间和专门的数据库管理系统支撑。二次数据库的容量则小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用方便,特别适用于计算机使用经验不太丰富的生物学家。5、一个数据库记录(nty)一般由两部分组成:)原始序列数据(squec data);2)描述这些数据生物学信息的注释(annotation):注释中包含的信息与相应的 序列数据同样重要和有应用价值。6、数据的完整性和注释工作量:1)序列数据广,序列注释不够完整;2)库数据面窄,序列注释全面.7、数据库的动态
5、更新:1)不断增加;2)不断修正.5、几个大型数据库简介:nb、ebi、s(共点:拥有庞大的一级数椐库、大量工具软件和广泛的外联。)1、ci(wwn.nlm.nih.ov):nbi是指美国国家生物技术信息中心(nationalceter forbotechoy inrmtion,cbi),成立于1988年,其主要工作是开发以genak为代表的数据库,进行计算生物学研究,开发用于分析基因组数据的软件工具,发布生物医学信息。1)enrez(集成化的数据库)(ncbi.nlmihvgry/)ntrez是ci著名的用于提取序列信息的工具,它将科学文献、dna和蛋白质序列数据库、蛋白质三维结构数据、种群
6、研究数据以及全基因组组装数据整合成一个高度集成的系统。类似于e的s(见下文),是一个查询、提取和显示系统。thoiginal versin(原始版本)(191) of entrez ha ust 3 d。2)可查pin、pubed(生物医学文献数据库)、cleoti、ne、gee、pathay等相关信息。、b-ei(wweba.k)embcleid sequene dat librry(noknow asemb-ank)为世界上第一个核酸序列数据库(198)。欧洲分子生物学实验室下属欧洲生物信息学研究所(european biinformticsinsttute,ei,192,英国)eml-e
7、b核酸数据库提供了序列搜索的服务。通过它的序列提取系统srs6(搜索引擎),我们可以用十几种不同的方法(如用关键字)搜索我们想要的序列。ebi还资助了ensbl项目,esembl是一个用于对各类物种基因组进行生物信息学分析的非常完备的网站。欧洲分子生物学实验室embl(te erpean molcular ily laboatory)。sevices、uiprot、arrayexpress、nsembl、interpro、pde等界面。3、ib()瑞士生物信息研究所(siss instiu of ionformis,ib ,30 march 1998)。用于获取蛋白质序列和
8、相关数据的最有用的资源之一就sib提供的蛋白质专家分析系统:wiss-rot,exay(xper protin aayissytem瑞士日内瓦大学专家蛋白质分析系统(htt:ww.epas.c/)。6、核酸序列数据库:1、国际上权威的核酸序列数据库: (1)欧洲分子生物学实验室的mbl;(2)美国生物技术信息中心的genbank; ()日本遗传研究所的ddbj,( http:/j.ng.j/);这三个数据库是综合性的dna和rna序列数据库,每条记录代表一个单独、连续、附有注释的dna或na片段。三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。、i
9、ndc国际核酸序列数据库协会:98年,gnban、embl和bj共同成立了国际核酸序列数据库协会(ternainalnotide sqence daabs colaboration,insd),三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。(ttp:/windcorg/)7、蛋白质序列数据库:1)pir(prten infrmatoreouce);(htp:/prgeorgtwn.ed/)2)swis-po; (tt:/ww.expas.ch/spot/srottophtl))tremb;(tt:/wwwei.ac./tembl/ind
10、x.ht) 是与wiss-r相关的一个数据库。包含从emb核酸数据库中根据编码序列(ds)翻译而得到的蛋白质序列,并且这些序列尚未集成到ws-po数据库中;4)ncb美国国家生物技术信息中心(natonl cent for biotecnology nformton,nb);5)uniprot;通用蛋白质数据库(ht:/www.iprt.or/)包括:(swisrt、trembl、pi) 用户可以通过文本查询数据库,可以利用bls程序搜索数据库,也可以直接通过ftp下载数据。8、生物大分子结构数据库:)b(protendata bnk);(tp:/org)2)mdb(moleular mode
11、ling tbse);(sruture/)9、其它生物分子数据库:1)单碱基多态性数据库dn; 2)基因组数据库(gb); )人类基因组数据库ensmbl; )表达序列标记数据库bs;5)序列标记位点数据库dst; 6)面向基因聚类数据库ugne; 7)蛋白质结构分类数据库scp; 8)蛋白质二级结构数据库ds;9)蛋白质同源序列比对数据库hssp;10)omim(ole menelian nheritncin man),是关于人类基因和遗传疾病的分类数据库。nucleic acid researc附:1、ncb和ebi使用的搜索引擎分别是什么?答:nb使用的是nr
12、ez,ebi使用的是srs。2、fsa格式有哪些部分组成,以什么字符开始?答:包含g nmber,atbase ideniers,acession number,lus name等部分,以字符开始。3、n的we和离线序列提交软件是什么?答:w提交工具:bk;离线提交:seqin4、系统生物学:答:确定、分析和整合生物系统在遗传或环境扰动下所有内部元件间相互作用关系的一门学科。10、序列数据的文件格式:(第二章)格式主要有三种:d/rna/氨基酸代码的标识(、z);genbank数据格式;ft 数据格式。一、gbf(genbak flatfie)gebnk平面文件格式:genbnk、emb、dd
13、j每天都相互同步更新各自的数据库,那么它们是怎样交换数据的呢?这里引入gf(genank l平面文件)格式。gbf是nbak数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。gbff文件分为三部分:a.头部包含整个记录的信息(描述符);b.第二部分包含了注释这一记录的特性;c第三部分是核苷酸序列本身。(注:所有序列数据库记录都在最后一行以“/”结尾。)1) gf:ocus行(locus,scu49845,28bp,dn linear,pl,21-jun-999)所有ff都起始于ocus行:第一项:是locus名称(cu4985):现在唯一的作用是它在数据库中是独一无二的,已不再具有
14、任何实际意义。大多数情况下,它仅使用检索号码(acceesionnumbe)以满足对los名称的要求;第二项是序列长度(028b):规定单条数据库记录的长度不能超过350b。除历史原因外,ena已经很少接受长度低于50bp的序列了;第三项表明分子类型(da):其序列必须是一种单一的分子类型;第四项是gnban分类码(ln):由3个字母组成。现在其作用仅限于在下载数据库时对数据库作简单的分类。最后一项是其最后修订日期(21-jun-199):有时也仅表示数据首次公开日期。2) bf: dfiiion行(efin)(definiton saccaomycs cervisae tcp-etaene,
15、 pata cds;and l2p (axl2) ad re7p (rev7) gens, complee cs.)locus行的下一行为deiio行:主要对gennk记录中所含的生物学意义做出总结。它的说明内容包括了来源物种、基因/蛋白质名称。若序列是非编码区,则包含对序列功能的简单描述;若是一段编码区,则标明该序列是部分序列(partal cs)还是全序列(omete cds)。3) gb:accssion行( accesion)检索号行(cesin u985)检索号(accesion)是序列记录的惟一指针。通常由1个字母加5个数字(12345)或由2个字母加个数字(a23456)组成。它
16、在数据库中是惟一而且不变的。有时ccession行中可能会出现多个检索号,可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录覆盖了原有的旧记录。我们称第一个检索号为主检索号,其余的统称为二级检索号。4) gff:vsion行(vesion)版本号行(versonu49845. gi:13613)veion行是版本号,格式为:检索号.版本号。版本号用于识别数据库中一条单一的特定核苷酸序列。在数据库中,如某条序列数据发生了变化,即使是单碱基的改变它的版本号也将增加,而其检索号保持不变。版本号系统与其后的gi(gninoientifie)号系统是平行运行的。即当一条序列改变后,它将被赋
17、予一个新的gi号,其版本号也将增加。蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的gi号。5)bff:eywor行(ewod)关键词行(keyod .)关键词行是用来描述序列的。如果该行没有任何内容,那么就只包含一个“.由于没有对照词汇表,故c/genbak拒绝接受关键词,它只存在于旧的记录中。6)gb:ource行(sorce)来源行(orcesccharmyces erevisiae(bkesast)oranism sacharomyceerevisiae ekroa;fung;ascoy; sachromycotina;saccharomyes; saccharmycetaes;c
18、haromyetce; sccaromes.)对来源行(ure)没做特殊的规定,它通常包含序列来源生物的简称,有时也包含分子类型。在下面以的分类数据库为依据,指明物种的正式科学名称。7)gbff:refern 行reerenc参考文献行(rferene 1(bs1 to 5028)authos topey,le., ibs,p.e., lsn,. and lawren,.w ttcloning andsequne of rev7,a ene whos unction i euirfor dna amaindud mutgnsis in sacharomes crevsiaejonal yeas
19、t 10(11),1503-1509 (1994) pubmed8718)参考文献行将与该数据有关的参考文献均收录在内。将最先发表的文献列于第一位。如果序列数据没有被相关文献报道,该行将出现“unublishe”或“ness”。最后将有一个可能的pubme指针。8)gb:fatues 行(featues)特性表行(fatures locain/qualfirs cd 数据库检索实例 left primr, 。 主要分三步进行:(第一步:由查询序列生成的长度固定(w=3)的字段编译列表(scoret);第二步:在数据库中扫描获得与编译列表中的字段匹配的序列记录,作为后续延伸的种子seed;第三步
20、:对于每一对选择出来的种子,将其向两边延伸,使其在尽可能长的距离得到尽可能多的分数。)比对结果的判读:比对结果的显著性以e值(expect vlue)来衡量,e值趋向于0时,说明比对结果越显著。值的意义就是概率;比对得分(bt cre):表明序列比对的得分,数值越高,两序列越相似。【作业:以纤维素酶基因序列为靶标,进行核酸组分分析,ncbi中比对你的序列,至少使用blasn,blast并下载不少于十个比对出来的序列。】回头来看ncb参数选择:(blastp、blast)limitby ente uer:任何ni bt 搜索的范围都可以用在ntrez搜索中使用的任何一种范围限定词来限定; max
21、targt sequens:比对之后显示的最大的比对序列的数目; 期望exect:期望值e是得分大于或等于某个分值的不同的比对的数目在随机的数据库搜索中发生的可能性。这个数值表示你仅仅因为随机性造成获得这一联配结果的可能次数。对于bsn、blastp、bastxt和blstn期望值的默认设置是0。在这个e值下,随机出现得分等于或高于比对得分s的期望数为0个(这里是假设用与实际的查询序列长度相等的随机的查询序列搜索数据库)。当将期望选项值调小时,返回的数据库搜索结果将变少,匹配被搜索到的概率也会变小。增大e值将返回更多的结果; 字段长度wd sie:对于蛋白质搜索,窗口大小可以被设定为3(默认值
22、)或者2。当用一个查询序列来进行数据库搜索时,lt算法首先将查询序列分割成一系列具有特定长度(字段长度)的小的序列段(字段)。实际应用中对于蛋白质搜索很少需要改变字段的长度;对于核酸序列,默认的字段长度是28,blast的字长缺省值为28,即bln将扫描数据库,直到发现那些与未知序列的28个连续碱基完全匹配的28个连续碱基长度片段为止。然后这些片段(即字)被扩展。降低字段长度将会使搜索变得更准确同时也会变得更慢; 矩阵mtrix:对于blastp的蛋白质蛋白质搜索有5种氨基酸替代矩阵:pam30、p70、blosum4、bloum62(默认值)以及blosum0。一些其他的bls服务器还提供了
23、很多其他的替代矩阵,如pa20。通常情况下明智的选择是在一次blst搜索中使用几种不同的打分矩阵; cmpoiionaadstnt:这个选项是默认选择的,一般来说可改善值的统计计算和提高灵敏度(减少返回的假阳性结果的数目);2)blast双序列比对:blast比对后,当数据库中搜索到多个显著相似的序列时,检测目的序列是否与之有真正关联,可进行双序列比对pirwie ligmnt。nltde: hsp orf vs bm0 (改变参数)点阵图ot atrix vie:连续线表示序列匹配指出,缺口表明量序列不匹配之处。比对结果:3、基因结构识别:包括:(o识别;启动子与转录因子结合位点分析;重复序
24、列分析;cpg isd)1) orf识别:kzak原则:1、第四位的偏好碱基为g;2、atg的5端约15范围内的侧翼序列内不含碱基t;3、在第3、6、位,g为偏好碱基;4、除第、6、9位,在整个侧翼序列中,c为偏好碱基。常见r在线预测工具:(orfine;geear,hmm;glimmer 原核生物;lim hmm真核生物)(orf的验证:bast)。2)启动子及转录因子结合分析:promoerscan;)重复序列分析:reeaskr;4)p iland:cpgpl;(cpgisland通常位于启动子附近)g双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,保持或高于正常概率,这些区
25、段被称作cpg岛。在哺乳动物基因组中的12kb的dn片段,它富含非甲基化的cpg双倍体。cg岛主要位于基因的启动子(protor)和第一外显子区域,约有6以上基因的启动子含有cpg岛。gc含量大于%,长度超过00bp。5、dna双序列比对airieseuence alignt原理:(第五章)1、比什么?给定两条序列(dna or rein)seq 1:aatgaggtccccgtcggctse 2:taattggtgggcactgcacc它们存在多大程度的相似?catatgcgtcccggcaggctaattgcgtggcgaccac2、为什么比?(发现功能、研究进化、某条序列的关键特征、疾病
26、的鉴定)3、序列变化:三种类型的变化包括:subtitui (点突变)、inserion(插入)、deleion(删除),后两个统称为id (插入缺失)。4、为达到比对两序列的目的,我们需要一个定量模型来评估两序列,如何定量两序列间的相似性?一、 全局比对(glbal aignent):是对给定序列全长进行比较的方式。在待比较的两个序列中引入空位(gp),使得对序列的全长都得到比较,edla-wunsc算法。全局序列比对,比对的是全部序列。建立一个得分矩阵,序列在上方,序列在左侧,方格(i,j)的数值是a(0-i)到b(0-j)的最佳比对。全部比对的得分在最下角。二、 局部比对:获得两序列最佳
27、匹配的区域,有时与全局匹配一致。16、蛋白序列比对: (第六章)一般规则:蛋白质序列的同一性(长度100),即为同源基因ogous ene,dna序列同一性大于70%为同源序列。基于氨基酸相似性的序列比对:打分矩阵,基于同一性的打分矩阵:对相似性序列比对不错;但对于相似性程度低的序列效果很差;替换矩阵,对高度相似的序列,我们可以对氨基酸替换频率进行评估打分;blosum矩阵基于高度保守区的置换模式;a矩阵基于通过全局比对的突变,包括高度保守区与高度可变区;blast默认使用blosum2,可以更改。19、分子进化与系统发育分析(第九章)1、达尔文进化论:进化:变异的遗传;自然选择:解释为何演变
28、发生的机制;2、中性进化论:并非所有种群中保留下来的突变都由自然选择所形成;大多数突变是中性或接近中性,不妨碍种群的生存与繁衍。3、分子进化的模式:dna突变的模式:替代,插入,缺失,倒位; 核苷酸替代:转换 (transon)& 颠换 (transveon);(转换:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代;颠换:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代)基因复制:多基因家族的产生以及假基因的产生:a. 单个基因复制、重组或逆转录; 染色体片断复制;c.基因组复制4、同源物的定义:5、同源性与相似性:相似性 (siarit):序列比对过程中用来描述检测序列和目标序列之间相似碱基或氨基酸残基序列所占比例(为定量描述);同源性(homology):两个基因或蛋白质序列具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 食物解救测试题及答案
- 重症肺炎合并心衰诊疗要点
- java源码面试题及答案
- 环境应急考试题及答案
- java面试题及答案arrlist
- 换药术考试题及答案
- 江苏省南京市励志高级中学2024-2025学年高一下学期6月期末地理试题(含答案)
- 心理健康协会会长竞选
- 广西钦州市第十三中学2024-2025学年高一下学期第十六周考试历史试卷(含答案)
- 2025年湖北省黄冈市黄梅县中考适应性考试英语试题(含答案)
- 一级圆柱齿轮减速器的设计计算22001文档
- 第19章一次函数-一次函数专题数形结合一一次函数与45°角模型讲义人教版数学八年级下册
- 2023年四川省宜宾市叙州区数学六年级第二学期期末考试模拟试题含解析
- 幼儿园警察职业介绍课件
- 灭火器维修与报废规程
- 皮肤病的临床取材及送检指南-修订版
- 机型理论-4c172实用类重量平衡
- 校企合作项目立项申请表(模板)
- 管道工厂化预制推广应用课件
- 海水的淡化精品课件
- 项目工程移交生产验收报告
评论
0/150
提交评论