版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
序列搜索,比对以及进化树的构建NCBI(NationalCenterforBiotechnologyInformation)美国国立生物技术信息中心NCBI负责管理GenBank。GenBank是美国国立卫生研究院维护的基因序列数据库,汇集并注释了所有公开的核酸序列。GenBank与日本DNA数据库(DNADataBankofJapan,DDBJ)以及欧洲生物信息研究所的欧洲分子生物学实验室核苷酸数据库(EuropeanMolecularBiologyLaboratory,EMBL),所有这3个中心都可以独立地接受数据提交,而3个中心之间则逐日交换信息,并制成相同的充分详细的数据库向公众开放。因此他们是相等的。序列搜索,分析和比对以及使用Cluxtal,phylip用邻接法做进化树的简易教程
唐明BLAST(BasicLocalAlignmentSearchTool)即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(LocalAlignmentAlgorithm),而不是全序列对准算法(GlobalAlignmentAlgorithm)。Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列。通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。(1)经由WWW使用的BLAST
,进入NBCI主页,然后链接到BLAST主页。
(2)网络版的BLAST
BLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器()下的/blast/network/blast2/获取。
PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过NCBI匿名的FPT服务器()下的/blast/network/blast2/powerBLAST/获取。
blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;
blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;
blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;
tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;
tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。将序列粘帖进去nr:所有非冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。
month:最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列
dbEST:GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。
dbSTS:GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。
htgs:高允许能力(HighThroughput)基因序列。
yeast:yeast(SaccharomycesCerevisiae)基因核酸序列。
E.coli:大肠杆菌(E.coli)基因核酸序列。
pdb:蛋白质数据库。
Kabat[Kabatnuc]:免疫学上感兴趣的核酸序列Kabat数据库。
Vector:GenBank载体数据库。
mito:线粒体序列数据库。
alu:从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名下的/pub/jmc/alu目录中获取。
epd:真核生物的启动子数据库。
gss:基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和AluPCR序列。Blastn
:应该是出现较早的算法。比对的速度慢,但允许更短序列的比对(如短到7个碱基的序列)。MEGABLAST
:主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快。同一物种间的。DiscontiguousMEGABLAST
:灵敏度(sensitivity)更高,用于更精确的比对。主要用于跨物种之间的同源比对。进化分析的流程收集数据寻找同源基因多重联配模型选择系统发育分析假设检验建立一个序列的数据集Cluxtal-X比对,生成一个XX.phy文件将XX.phy文件拷入PHYLIP文件夹中的exe文件夹若是核酸序列使用邻接法做进化树,依次使用seqboot,dnadist,neighbor,consense四个程序做进化树蛋白质序列,则使用prodist什么是fasta格式?怎么建立?新建一个txt文本文件,命名如:bph.txtFasta的格式:>序列名称序列Clustalw/clustalx计算过程的三步曲Clustal-W是网页版本,Clustal-X是Clustal-W的图形版本。所有序列两两比较,得出两两间差异值(最粗的距离)根据序列间的差异把差异越小的序列放在一起构建一个分类树(有点像进化树)最终操作是以这个分类树作为引导树,从各个相似序列的组作为起点做多重联配,直到所有序列被联配上。Clustalx的输出结果.aln格式文件这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。.dnd格式文件引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树不能做进化分析。进化分析要考虑的所有同源位点的一个综合效应,因此应该用.aln格式文件专门做进化分析。1234依次使用seqboot,dnadist,neighbor,consenseseqboot
重复抽样:双击seqboot,输入BPH.phy,回车输入R,回车,把数字改为1000。代表自举值bootstrap=1000。如果bootstrap值太低,则树不可靠自引导评估(bootstrap):Bootstrap是由Felsenstein(PHYLIP的编写者)引入分子分类领域的,现己成为分析分子树置信区间最常用的方法。可以对任何建树方法进行评估。模拟研究表明,在合适的条件下也就是各种替换速率基本相等,树枝基本对称的条件下,如果自引导数值大于70,那么所得的系统发育进化树能够反映真实的系统发生史的可能性要大于95%。其他不管,输入Y,回车。Randomnumberseed”(随机种子数),数值必须是4n+1(n为正整数),例如输入“5or9or13等等”,此为随机数,对结果没影响。然后再回车。可以看到计算过程。看到exe文件夹中出现一个outfile文件,然后可以把seqboot关掉了dnadist
计算核苷酸距离矩阵
把刚才的outfile改名,如dnadistinfile双击dnadist,输入dnadistinfile,回车输入D,选择模型,如改成kimura-2输入M,然后输入D,再输入1000,和上面步骤要一致即自举值bootstrap=1000输入1000后,回车。再输入y,回车。可见运算过程。运算完成后,再次出现一个outfile文件。关掉dnadist程序。neighbor
邻接法建树将outfile改名,如neighborinfile。双击neighbor,然后输入neighborinfile输入n,选择neighbor-joining,使用邻接法做树,不要选UPGMA。输入m,再输入1000,回车。Randomseed,还是输入9。然后输入y,回车。可见运算过程。算完后,文件夹中多了outtree和outfile两个文件。然后关闭neighbor程序。consense
构建一致树
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 逾期账款催收事宜通知函(3篇)
- 教育领域人工智能技术应用研究
- 小学主题班会课件:诚实守信与为人处世之道
- 健康生活:合理饮食与作息小学主题班会课件
- 警惕交通危险,珍惜宝贵生命几年级主题班会课件
- 湖南省衡阳市衡东县2025年四上数学阶段联考试题(含答案)
- 人力资源管理数字化转型升级路径规划手册
- 催办关于节日促销活动的执行函6篇范本
- 湖南省衡阳市石鼓区2025届三年级数学第二学期期末检测试题含答案
- 家庭厨房厨余处理量化指导书
- 2026广东茂名博贺港铁路有限责任公司招聘2人备考题库有答案详解
- 2026年马鞍山市人力资源和社会保障局、市社会保险费征缴管理中心编外聘用人员3名招聘笔试参考题库及答案详解
- 2026年重庆市中考语文试卷(含答案)
- 2026年抖音内衣-泳衣类目准入考试高频原题+标准答案
- 绿电直连项目主设备选型方案
- 哈三中2026年高三语文第四次模拟考试作文题目及范文:一棵榕树垂下气根
- 2026四川成都蓉城酒店管理有限公司月校园招聘1人笔试参考试题及答案解析
- (2026年)发展对象考试测试题库(附答案)
- 2026年中国石油国际事业公司面试
- 2026年青海军转安置考试题及答案
- 2026年仓库管理员工作总结汇报
评论
0/150
提交评论