钟杨-生物信息学_第1页
钟杨-生物信息学_第2页
钟杨-生物信息学_第3页
钟杨-生物信息学_第4页
钟杨-生物信息学_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、各种blast的定义:1)、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2)、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3)、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4)、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5)、TBLASTX是核酸序列到核酸库中的一种查询。此

2、种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 双向BLAST:用物种A的基因序列搜索(BLAST)物种B的基因序列,搜到的最高相似的序列反过来再BLAST物种A的基因组(阈值E小于1 e一20)。如果两条序列在这两个BLAST中均是最相似的,称为“双向BLAST最高相似蛋白”,则认为是直系同源关系。Mega-Blast:可用于搜索近似完全的匹配, 可以处理一批核苷酸查询,比标准BLAST查询速度快,NCBI进行基因组BLAST查询时的默认程序。PSI-BLAST:位置特定的迭代 BLAST(Position Sp

3、ecific Iterated BLAST),搜索数据库以找出与查询序列同一蛋白质家族的成员,揭示亲缘关系较远的蛋白质间的关系。两个序列间的查询 比较两个序列的相似性,不需要传统BLAST的数据库查询 BLAST2 局部对位排列,获得结构域或序列内重复信息 建议不超过150 kbBlast流程Blast-Basic Local Alignment Search Tool在浏览器中输入NCBI网址即可进入BLAST的主页,根据目的选用相应的blast类别进行搜索。进入搜索页面后,把查询序列粘贴到“search”编辑框中。在database选择项中,有若干数据库可以选择,BLAST的缺省数据库是n

4、r数据库,如果有特别需要可以选别的数据库。点击BLAST之后,程序就会把序列提交给BLAST服务器,服务器会返回给用户一个requestID,用于搜索BLAST 结果。输入ID,点击相应按钮,浏览器就会弹出新的窗口显示BLAST结果。BLAST结果通常包括三个部分:1、 序列在数据库中搜索得到的Hits分布图,把用户序列在数据库中能找到的匹配序列从高到底用不同颜色的线条图形表示出来。2、 在数据库中检索到的匹配序列的从高到低的排序,BLAST显示所有E值小于设定的E值的匹配序列。这个部分包括三个数据: -第一列:序列的名称 -第二列:Score(分值),用户序列和数据库序列中命中序列比对之后的

5、相似性打分,打分越高则序列相似性越高。-第三列:E值,是随机产生一个比所得分值高的对位排列的概率。是衡量分值可靠性的测度,E值越小, 所得相似序列的可靠性越高。如果用户有大量的数据,则需要将BLAST程序下载到用户本地的计算机中,进行本地化分析。举例:恐龙蛋化石中的18s rDNA 对从恐龙蛋提取出来的18S rDNA进行BLAST,得出多个分值较高同时E值很小的结果,根据此值做出与恐龙蛋基因的遗传树发现DA18s1类似于真菌DA18s7类似于被子植物DA18s1 、DA18s7与鸭、人、鳄鱼和其他动物的序列差异很大鸟类与爬行类是恐龙现存的最近的物种; DA18s1/7都不是真正的恐龙DNA麻

6、黄碱类化合物的起源假说背景介绍:Dopamine能神经元与学习,记忆,运动及药物成瘾有关麻黄碱与人体内肾上腺素受体(AD)及多巴胺转运蛋白(DAT)结合解释: 麻黄碱是麻黄的一种防御物质,其作用之一是抵抗镰孢菌的侵染 麻黄碱对镰孢菌的防御与麻黄碱和镰孢菌中的FG07634蛋白结合有关 FG07634蛋白与人体神经系统中主管奖励机制的一种蛋白-Dopamine transporter (DAT)具有同源性 (由于这种同源性,使麻黄碱类化合物能够干扰人体 “奖励系统”的正常运转,从而发生毒品效应)。推测: 推测FG07634蛋白的功能,因同源同功,推测其为“转运蛋白” 推测被FG07634蛋白转运

7、的物质-与Dopamine、Serotonin、Adrenaline、GABA、Proline等神经介质的功能及结构相似-可能与镰孢菌对植物的侵害有关 进一步得出:Fusaric Acid可能被FG07634转运的物质 Fusaric Acid与Dopamine的相似性基因组分析与进化基因组学1、基因组 一个基因组(genome)是指一种生物体中的整套遗传信息,一般为一个受精卵或一个体细胞的细胞核中所有DNA分子的总和。如植物有核基因组、线粒体基因组和叶绿体基因组。 基因组学研究通常包括: 基因组作图, 基因组测序, 基因组注释, 基因功能鉴定等2、功能基因组学 (functional gen

8、omics): 利用结构基因组学研究所得的各种来源的信息,建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能3、比较基因组学 (comparative genomics): 通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别,为研究生物进化和分离人类遗传病的候选基因以及预测新的基因功能提供依据。其中,着重研究生物进化的领域亦称为进化基因组学 (evolutionary genomics)4、基因组与生物信息学: 基因组信息学: 存储、获取、处理、分配、分析和注释有关基因组的信息 基因组分析的难度: 1) 基因组分析的信息量比单基因要高几个数量级2) 一些基因组

9、的数据尚不完备, 质量也有待提高3) 基因组分析的方法学研究还处于起步阶段5、基因组注释定位所有已知基因预测新的基因提供功能注释为基因组提供尽量多的其它信息数据统计及分布6、基因识别 检测在一段DNA序列中是否存在ORF 判明基因结构, 包括起止位置, 外显子/内含子边界, 启动子, polyA区域, 非转译区(UTR)等 预测真基因, “假基因”( pseudogene)及可能的剪切位点7、基于序列相似性的基因预测 将基因组序列与EST(表达序列标签) 或cDNA等相比较 (用Sim4等方法), 找出与 mRNA相对应的区域 将基因组序列与蛋白质数据库相比较 (用 BLASTX等方法),找出

10、可能的编码区 将预测得到的多肽与蛋白质数据库相比较 将基因组序列与同源性相近物种的基因组相比较, 找出保守区域8、“从头开始法”基因预测 隐马尔可夫模型(Hidden Markov Model, HMM) 人工神经网络(Neural Network) 动态规划法 决策树 语言学方法 线性判别法分子进化与进化基因组分析1、核苷酸置换模型 Jukes Cantor 单参数模型 Kimura 双参数模型 Equalinput模型 Tamura模型 HKY模型 .2、分子系统发育分析的主要方法(1). 距离矩阵法 (Distance Matrix)(2). 最大简约法 (Maximum Parsimo

11、ny)(3). 最大似然法 (Maximum Likelihood)3、基因组进化 基因组排列 (genome arrangement): 是指基因序列的变化(序列插入,转座等) 基因组含量 (genome content): 基因的获得(序列的趋异、复制、重组、水平转移)和基因丢失4、直系同源体簇(COG) 直系同源基因(orthologous gene)是指在不同物种之间同源相似的基因,而并系同源基因(paralogous gene)是指一个物种内的同源基因。一个生物物种的基因组中,两个基因或开放读码在各自全长的60以上范围内,同一性不少于30时,称为同源体。研究直系同源基因之间或并系同源

12、基因之间的功能关系,可以为基因组分析提供很大的帮助。例如,比较8个已完成测序的整个基因组所编码的蛋白质序列,可以发现代表不同系统发育关系并反映了不同物种的直系同源体簇(cluster of orthologous groups, COG)。5、基于基因含量的基因组系统发育分析 计数基因组共享直系同源基因的数量 以共享直系同源基因的数量除以较小基因组的基因数得到一个相似性矩阵 从相似性矩阵构建用于系统发育分析的距离矩阵2004年考题:从GenBank等分子数据库中检索收录号为AF的DNA序列, 用BLAST等工具对该序列进行同源性搜索, 用所获得的序列构建进化树。Flow:1.登录NCBI主页-

13、点击BLAST-点击TBLASTX-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。2Mega建树 构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。(1) 首先用Clustal X对上述检测到的序列进行比对.并将开始和末尾处长短不同的序列剪切整齐,得到目标同源序列。(2)采用mega软件,建立系统树。关于用Mega建立系统树的具体步骤,有兴趣的同学可参考 /603/2005年考题:背景知识1:干扰素(Interferon,IFN)是一个具有多种生物学功能的蛋白质家族,具有抗病毒

14、、细胞生长抑制和免疫调节的作用。目前,将IFN分为2个亚型:I和II,其中I型基因分为、和。对所有哺乳动物研究发现,干扰素家族成员均没有内含子,而且序列相似性高。人类IFN-2的序列号是NM_。背景知识2:直系同源基因是指在物种形成过程中从祖先物种“继承”的基因,其在结构和功能等方面都具有保守性;并系同源基因是存在于同一个基因组中的同源基因。可以根据并系同源基因起源时间与物种形成时间的关系,进一步划分并系同源基因,其中“inparalog”基因特指那些物种形成之后形成的同源基因。题目:根据上述背景知识,用BLAST工具搜索-干扰素基因相关序列,并据此构建哺乳动物-干扰素基因的进化树。此外,根据

15、并系同源基因的概念讨论-干扰素基因的进化模式。(提示:物种分类可以参考在线BLAST结果中的Taxonomy report)系统树的建立过程同上。进化模式的讨论:根据所建立的系统进化树,讨论哺乳动物、和编码基因,通过比较a等亚型建立系统进化树确定其同源关系。补充资料:系统进化树构建及数据分析的简介:/577/2007年考题 现在获得一个基因,试用生物信息学的知识对其功能,结构,来源等方面进行研究。1. 结构:用blastx程序在蛋白质序列数据库中找出翻译后的查询序列的相似的蛋白序列,可预测其编码区并能基于已知的查询出的相似蛋白的结构建立查询蛋白的结构模型,对预测其功能有一定的指导作用。2. 功能:用blastn方法,在核苷酸

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论