生物信息学分析方法_第1页
生物信息学分析方法_第2页
生物信息学分析方法_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、核酸和蛋白质序列分析蛋白质 , 核酸, 序列关键词: 核酸序列 蛋白质序列 分析软件在获得一个基因序列后, 需要对其进展生物信息学分析, 从中尽量开掘信息, 从而指导进一 步的实验研究。通过染色体定位分析、含子/外显子分析、ORF分析、表达谱分析等,能够说明基因的根本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件, 可以为基因的调控研究提供根底。 通过蛋白质根本性质分析,疏水性分析, 跨膜 区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。 尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有

2、重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询 基因表达谱聚簇数据库、 基因敲除数据库、 基因组上下游邻居等, 尽量挖掘网络数据库中的 信息,可以对基因功能作出推论。 上述技术路线可为其它类似分子的生物信息学分析提供借 鉴。本路线图与推荐网址已建立超级,放在大学人类疾病基因研究中心 /science/bioinfomatics.htm , 可以直接点击进入检索。下面介绍其中一些根本分析。值得注意的是,在对序列进展分析时,首先应当明确序列的性质,是mRN序列还是基因组序列?是计算机拼接得到还是经过PCRT增测序得到?是原核生物还是真核生物?这些决定了

3、分析方法的选择和分析结果的解释。一核酸序列分析1、双序列比对 pairwise alignment 双序列比对是指比较两条序列的相似性和寻找相似碱基与氨基酸的对应位置,它是用 计算机进展序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和 Smith-Waterman 算法为代表。 由于这些算法都是启发式 heuristic 的算法,因此 并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分gappenalty 和空格延伸罚分 gap extension penalty ,以获得更优的比对。除了利用BLAST FASTA等局部比对工具

4、进展序列对数据库的搜索外,我们还推荐使用 EMBOSS:件包中的 Needle 软件bioinfo.pbi.nrc.ca:8090/EMBOSS/ ,和 Pairwise BLAST 。以上介绍的这些双序列比对工具的使用都比较简单, 一般 输入所比较的序列即可。1BLAST和FASTAFASTA . 和 BLAST . 是目前运用 较为广泛的相似性搜索工具。 这两个工具都采用局部比对的方法, 选择计分矩阵对序列计分, 通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST进展数据库搜索,找到与查询序列有一定相似性的序列。一般认为 , 如果蛋白的序列一致性为 25-30

5、%,那么可认为序列同源。BLAST根据搜索序列和数据库的不同类型分为5种表2,另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTNBLASTP在实践中最为常用,TBLASTN在搜索相似序列进展新基因预测时特别有用。使用BLAST时,先选择需要使用的 BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。(2)Needle 和 Pairwise BLAST :其中 Needle 适用于蛋白质和 DNA序列,而 Pairwise BLAST 仅适用于DNA序列3相似性和同源性:必须指出,相似性similarity丨和同源性( homology) 是两

6、个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的 不同序列。相似性是指序列比对过程中检测序列和目标序列之间一样碱基或氨基酸残基序列 所占比例的大小。经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。2、多序列比对和进化树在研究生物问题时,常常需要同时对两个以上的序列进展比对,这就是多序列比对。多序列比对可用于研究一组相关基因或蛋白, 推断基因的进化关系, 还可用于发现一组功能 或结构相关基因之间的共有模式 pattern 。最常用的多序列比对工具为 ClustalW . ,多用于比较蛋白序列。ClustalW 用法:1输入:序列以 FastA 格式输入

7、。 2输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc常见于文献与DNAStar 软件等显示结果。多序列比对的结果还用于进一步绘制进化树。3、ORF(Open Reading Frame) 分析从核酸序列翻译得到蛋白质序列,需要进展ORF分析,每个生物信息学分析软件包几乎都带有翻译功能。推荐使用 NCBI 的 ORF F/gof/gof.html软件或 EMBOS中的 getorf bioinfo.pbi.nrc.ca:8O9O/EMBOSS/软件。ORFFinder 以图形方式,分为正链 +1、 2

8、、 3和反链 1、2、3六个相位预测 ORF;Getorf 可指定预 测ORF的长度下限和指定预测正反链。 进展ORF分析虽然比较简单,但应注意以下几点:1 序列的准确性:尤其是通过计算机拼接的序列,需要根据EST和基因组序列进展反复校正。2ORF是否完整:看在 ORF上游同一相位是否具有终止码,或者具有起始密码子。3参考Kozak 一致性规律,即起始密码子位点符合A/GCCATGG 4不要忽略反义读框。4、染色体定位根据基因组图谱对序列进展染色体定位和浏览其基因组上下游基因。具体方法为: 1进展Genomic BLAST搜索。2通过"Genome vieW观察基因组结构。3点击相应

9、染色体区域,通过表意图 ideogram 和相应区域上下游的基因进展准确定位。5、基因结构分析根据基因的mRNA序列与基因组序列,可以进展基因结构的分析。推荐使用BLAST或BLAT()进展分析。 由于真核生物转录后含子将被剪切,因此将mRNZ和基因组进展比对以后,会发现mRNA勺每个外显子与基因组序列片断匹配, 根据这些片段可以判断外显子的数目和大小。外显子和含子具体边界确实定, 可以参考GT/AG一致性规那么。BLAT的结果直接显示外显子数目、大小与边界。丨进展启动子预测。用RT-PCR等实验方法获得的 mRNA往往缺少完整的 5'端,采用 FirstEF 程序可以对第一外显子 尤

10、其是非编码的第一外显子 和CpG相关启动子进展预测。方法:以 FastA 格式输入起始密码子上游序列。2转录因子结合位点分析:推荐使用 TFSEARC程序.cbrc.jp/research/db/TFSEARCH.html 丨与 MATCH程序 .gene-regulation./pub/programs.html#match对转录因子数据库 TRANSFAC 进展搜索,寻找可能的转录因子结合位点。方法: 输入起始密码子上游序列。 结果将给出很多可能的转录因子结合位点, 注意选择其中 分值较高的位点。 二 蛋白质序列分析1 、跨膜区预测各个物种的膜蛋白的比例差异不大, 约四分之一的人类蛋白为膜

11、蛋白。 由于膜蛋白不 溶于水,别离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋进 展预测是生物信息学的重要应用。推荐使用 TMHM软件丨对蛋白进展跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型Hidden Markov Models,对跨膜区与膜外区进展整体的预测。TMHMI是目前最好的进展跨膜区预测的软件 ,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否 为膜蛋白。所有跨膜区预测软件的准确性都不超过52,但 86的跨膜区可以通过不同的软件进展正确预测。 因此,综合分析不同的软件预测结果和疏水性图以获得更

12、好的预测结果。 方法:输入待分析的蛋白序列即可。2、信号肽预测信号肽位于分泌蛋白的 N端,当蛋白跨膜转移位置时被切掉。 信号肽的特征是包括一 个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3 和-1位为小而中性氨基酸。推荐使用 SignalP 软件 2.0 版.cbs.dtu.dk/services/SignalP-2.0/对 PDCD5N端序列进展信号肽分析。 SignalP2.0 根据信号肽序列特征,采用神经网络方法或隐马氏模型方法, 根据物种的不同, 分别选择用真核和原核序列进展训练, 对信号肽位置与切割位点进展预测。信号肽切割位点预测用 Y-score ma

13、ximum来判断,对是否分泌蛋白用 meanS-score来判断: 如果meanS-score大于0.5,那么预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否那么选择真核训练集。3、亚细胞定位预测亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理: 1不同的细胞器往往具有不同的理化环境 , 它根据蛋白质的结构与外表理化特征 , 选择性 容纳蛋白。 2蛋白质外表直接暴露于细胞器环境中 , 它由序列折叠过程决定 , 而后者取决于氨基酸组成。因此可以通过氨基酸组成进展亚细胞定位的预

14、测。推荐使用1软件对PDCD蛋白的细胞定位进展预测。PSORT将动物蛋白质定位于 10 个细胞器: 1细胞浆, 2 细胞骨架, 3质网, 4胞外, 5高尔基体,6溶酶体,7线粒体,8胞核,9过氧化物酶体 peroxisome 和10细胞膜。DNA序列分析技术路线图cDNAFeatuesAATAAA signal,PolyadenylationElectronic elongation(EST)ORFs(ORF Finder, getorf)Restriction site(DNASIS) Expression profileESTSAGEmap,SAGE GenieMicroarray(Wor

15、mBase)Genomic sequenceFeatureschromosome location(Human Genome)MW, base compositon(DNAMAN)Exon-intron(SIM4) Repeats(RepeatMasker) SNPs(dbSNP, TSC)5' flanking sequencePromoter, TATA box(FIRSTEF)CpG island(cpgplot)Transcription factor binding site(TFSEARCH, match)Novel gene prediction(EST, stackPA

16、CK) 蛋白序列分析技术路线图Protein features MW,pi,AA composition(EMBOSS) Hydrophobicity(BioEdit) Transmembrane region(TMHMM) Signal peptide(Signal P) subcellular location(PSORT)Coiled coil(COILS)Antigenic site(DNAStar)Function inferenceGene knockouts(WormBase)Similarity searchAlignment(BLAST,FASTA,CLUSTALW)Phylogenic analysis(DNANAN)Gen

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论