免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
【引用】对于研究生有用的一些生物信息学知识(转载)Bioinformatics 2011-01-11 11:39:58 阅读47 评论0 字号:大中小订阅 本文引用自人生若只如初见【引用】对于研究生有用的一些生物信息学知识(转载)和大家分享这篇日志,我的看法是:原文地址:【引用】对于研究生有用的一些生物信息学知原文作者:人生若只如初见和大家分享这篇日志,我的看法是:原文地址:对于研究生有用的一些生物信息学知识(转载原文作者:fhqdddddd还有几个月快毕业离校了,写完硕士论文翻翻电脑中的资料,感觉可能对一些同学有用,我把一些自己曾经用过的东西整理了一下,希望对读研期间的同学能多少有些帮助,有些东西我可能写的不是很详细,另有一些电子书,附件上传以下软件内容多用于批量处理核酸或蛋白的序列,少量的完全没有必要这么麻烦。1 .Blast程序本地化使用的方法(转)Blast程序的下载地址: /blast/executables/release/2.2.9/blast-2.2.9-ia32-win32.exe数据库的下载/blast/db/FASTA/其中 nr.gz 为非冗余的数据库,nt.gz 为核酸数据库month.nt.gz 为最近一个月的核酸序列数据。下载完后,blast-2.2.9-ia32-win32.exe 为自解压文件,双击运行后,在当前目录中会释放许多程序。下载的month.nt.gz先用winrar解压缩。得到 month.nt 然后使用formatdb.exe对数据库进行格式化。在MS-DOS环境下,输入formatdb.exe -i month.nt -p F -o T-i input file 参数用于指定需要格式的数据库-p type of file 用于指定文件类型,T 为蛋白质,F为核酸,默认为 T-o parse options 用于指定是否解析序列ID并创建索引 T 为创建,F为不创建,默认为F。接着就是blastall.exe 的使用先找到要对比的序列,这里是从程序包使用说明中拿来的一段FASTA格式的序列作为测试序列。 TestAGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAA将此段序列保存为test.txt 置于程序目录下。然后在DOS窗口下,使用 blastall -p blastn -d month.nt -i test.txt -o out.txt-p program name 为需要使用的程序名 blastn 为核酸序列对比搜索 blastp 为蛋白质序列对比搜索 blastx 为用被翻译的核酸序列在蛋白质数据库中搜索 tblastn 为 用蛋白质序列在 核酸序列翻译后数据库 *1中搜索 tblastx 为用翻译后的核酸序列 在 核酸序列翻译后数据库中搜索注:*1原英文为 translated nucleotide database 意思为,将核酸序列通过计算机翻译为对应的蛋白质序列而形成的数据库,此处我自己水平有限,不知道该怎么正确翻译,特此注明。-d database name 指定所使用的数据库名称-i input file 待搜索的序列文件-o output file 指定保存结果的文件即可在out.txt中得到相应的结果。此外,之前由于在使用formatdb.exe 使 没有使用 -o T 参数,导致没有生成索引文件,出现了以下错误提示:NULL_Caption WARNING: Test: Could not find index files for database month.nt在此说明,希望能对以后遇到和我一样错误的人,一个正确的解决办法,那就是在使用formatdb.exe时,不要忘了-o 参数,因为这个参数默认是不创建索引的,另外数据库的类型不要弄错了 附赠blast批量解析perl脚本(linux系统运行,xp下需安装Avtiveperl运行),解析内容包括相似性最高的gene ID, E-value,score功能注释#!/usr/bin/perl -w (blast解析脚本)open (ONE,fxzdownblast.out);while ($one=) $num=0; if ($one=/Query=/) $count+; chomp $one; $one=s/Query= /; print $onet; OUT: while ($two=) if($two=/) chomp $two; $two=s/; print $twot; array=(); while($three=) if ($three=/) last OUT; else if ($three=/Score/) $num+; if($num=2) last OUT; if ($three=/Score/) $three=/(Expect = .*)/; print $1t; if ($three =/Query/) push (array,$three); if ($three =/Sbjct/) push (array,$three); if ($#array3) $array0=/(d+).*(d+)/;$q_b=$1;$array1=/(d+).*(d+)/;$s_b=$1;$array-2=/(d+).*?(d+)/;$q_e=$2;$array-1=/(d+).*?(d+)/;$s_e=$2;print $q_bt$q_et$s_bt$s_en; else $array0=/(d+).*?(d+)/;print $1t$2t;$array-1=/(d+).*?(d+)/;print $1t$2n; #print $countn;2.seqclean批量去载体和污染(少量序列可使用NCBI VecScreen去除)/cgi-bin/tgi/download.pl?ftp_dir=software&file_dir=seqclean/seqclean.tar.gzlinux系统安装,使用需下载NCBI载体库,具体使用参看脚本内部说明,一般就简单几个参数。3.phrap phred consed crosmatch/一套序列拼接软件,需申请获得,phrap源码因对方用unix uucode编码传输,所以邮件服务器可能给截码,无法解压,收到后注意自己解码,phred 用于读取峰图,consed可用于检测多态性,crosmatch可去除载体序列(载体序列已知),用于大量的EST测序或基因组测序拼接。cap3也是另一拼接软件,精确度较phrap较高,但没有phrap拼接长4.blast2GO(XP系统linux都可)/基因功能注释软件,比较强大,注释包括GO、KEGG、EC等,缺点是在线运行,要是赶上网速慢,那你死定了,而且时常短线,本人测试正常情况300条序列大概六个小时,做芯片差异基因或SSH文库的EST注释还可以。安装时须java坏境,先安装erproscan基因功能注释,包括功能域,需下载大约9G数据库,缺点一般电脑运行相当慢,服务器很爽。运行环境linux perl.6.蛋白功能预测今年来文章提到的一个不错的网站 http:/www.sbg.bio.ic.ac.uk/phyre/index.cgi7.基因预测GeneScan可在线运行,也可本地化(linux环境)8.emboss软件包(Linux)ftp:/ftp.ebi.ac.uk/pub/software/unix/EMBOSS/功能很强大,功能较多,包括批量序列寻找开房读码框orf,多序列比对,进化树构建等,还有蛋白分析,很多功能还未尝试使用,一句话,相当强大。9.单倍型分析软件Haploview(XP)/ftp/pub/mpg/haploview/hapinstall.exe10.ssr分析软件misa.pl(linux)其实说软件就是一个简单的perl脚本,很快,测试20万条,大概需要10分钟,结果形式如下 IDSSRnr.SSRtypeSSRsizestartenda1c*(GA)18(GAT)5*491765b1p1(G)1717368384c1p2(AG)8161833d1p3(GGA)515365379e1p1(T)1919118136gi|285809600|gb|GW403132.1|GW403132_C303D11R_Fragaria_x_ananassa_var._Chandler_red_fruit_UCO_library_C3_Fragaria_x_ananassa_cDNA_clone_C303D11R,_mRNA_sequence1p3(CCT)61856658311.芯片相关网站博奥分子功能注释系统 MAS /zh-hans/support/MASAFFy的网站 /estore/analysis/index.affx;jsessionid=356DF8ADFB6A57F79502E17779CCF2F8?category=34005&categoryIdClicked=34005&rootCategoryId=34005&navMode=34005&aId=netAffxNav都需免费注册12.芯片分析软件R&bioncondutorR统计软件并安装bionvondutor包,功能很是强大,生物信息类的功能很多很好的工具,缺点,说明都是E文的,看懂说明其实熟悉就可以基本操作,说明很全面,其实自己感觉,如果三年研究生能完全数量掌握此软件,已经是一招吃遍天了,目前很多做生信的都在使用13.annot8r/bioinformatics/annot8r/index.shtmlest批量本地化注释软件,叫其他基因功能注释软件很迅速,安装比较麻烦,当时和一同学不懂搞了很长时间,平台linux 需postgresql、本地blast、perl annot8r.pl等14.pathway 分析北大生物中心/15.sam统计分析与芯片分析,安装后自带样本目录,前提芯片三个重复以上才能用16.Sigmastatexcel插件,基本的统计算法全能满足,数学应用16.生物类电子书和词典下载 植物学 植物学词典 /glossary/ 该词典词汇量约 4400 ,包括了植物、园艺、建筑、风景等方面的术语 中国花卉报的花卉拉丁名、英文名、汉语名词典 /dict/ 植物拉丁名 - 英文普通名词典 p.leeds.ac.uk/pfaf/D_latin.html 植物药材索引 /botanical/mgmh/comindx.html 该词典由 Mrs. M. Grieve 于 1931 年出版,包含了药学、烹调学、化妆以及民间药材等方面的术语 常见植物病 /online/common/t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年铁岭辅警招聘考试真题及一套答案详解
- 2025年濮阳辅警协警招聘考试真题及答案详解(真题汇编)
- 2025年芜湖辅警招聘考试题库及答案详解1套
- 2025年白银辅警协警招聘考试真题及答案详解(夺冠)
- 2025年韶关辅警招聘考试真题附答案详解(典型题)
- 2025年邵阳辅警招聘考试真题及一套完整答案详解
- 2025年福州辅警招聘考试题库附答案详解(培优)
- 2025年铜梁县辅警招聘考试真题含答案详解(满分必刷)
- 2025年钦州辅警协警招聘考试备考题库含答案详解(夺分金卷)
- 2025年绥化辅警招聘考试题库附答案详解(综合题)
- 心理学习得性无助课件
- 2025高考数学专项复习:圆锥曲线基础总结、二级结论、方法与技巧
- 2023级高二上期半期考试物理试题
- 行政伦理学-终结性考核-国开(SC)-参考资料
- 山东省日照市五莲县北京路中学2024-2025学年七年级上学期期中考试英语试题
- 4.2.1 角 北师版七年级数学上册课件
- 2024年“湖北工匠杯”职工技能大赛无人机驾驶员理论考试题库-上(单选题)
- 双减背景下小学语文个性化作业设计研究课题开题报告【五篇】
- 沪教版五年级上册数学计算题专项练习1000道带答案
- 走进物理系列-生活中的物理智慧树知到答案2024年广西师范大学
- 初中英语阅读理解50套
评论
0/150
提交评论