版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二讲文献、核酸序列、蛋白质序列的搜索2014/9/13李永海副教授遗传与基因工程教研室生命科学技术学院本文档共97页;当前第1页;编辑于星期三\12点16分第一节文献及核酸蛋白序列的搜索本文档共97页;当前第2页;编辑于星期三\12点16分NIH•美国Department
of
Health
&
Human
Services
的下属机构•NIH=NationalInstitute
of
HealthNIH
Mark
O.
Hatfield
Clinical
Research
Center,
Bethesda,
Maryland,
US本文档共97页;当前第3页;编辑于星期三\12点16分NIH•美国生物医学界科研经费的主要来源之一–2013年预算为308.6亿美元–2013年NSF(NationalScience
Foundation)预算为73.73亿美元–2012年国家自然基金委预算为124.8亿元–2012年科技部预算为286.78亿元(包括行政支出)–(124.8+286.78)/6.2=66.38亿美元本文档共97页;当前第4页;编辑于星期三\12点16分0
NIH•27个下属机构,1200个PI,4000多个博士后Career
levelYears
of
experienceStipendPostdoctoral1234567
or
more$39,264$41,364$44,340$46,092$47,820$49,884$51,582$54,180本文档共97页;当前第5页;编辑于星期三\12点16分NCBI•世界上最大,最全,最常用,也是最完备的生物信息数据库•世界上生物医学的文献集中营•生物研究者最常用的网站本文档共97页;当前第6页;编辑于星期三\12点16分利用NCBI进行文献查询•Non‐redundant•大致按照时间排序•条件宽松•举例:查询有关Methanosarcinaacetivorans(乙酸甲烷八叠球菌)的论文本文档共97页;当前第7页;编辑于星期三\12点16分本文档共97页;当前第8页;编辑于星期三\12点16分••••常用使用技巧多添加关键词可以减少搜出的文献数量作者+关键词是一种好办法作者的名字:Ferry
JG使用好Advanced•邮件通知可以将某一个领域的新论文每天都发给你本文档共97页;当前第9页;编辑于星期三\12点16分本文档共97页;当前第10页;编辑于星期三\12点16分本文档共97页;当前第11页;编辑于星期三\12点16分本文档共97页;当前第12页;编辑于星期三\12点16分ISIWebofKnowledge•ThomsoScientific公司开发的信息检索平台,通过这个平台用户可以检索关于自然科学、社会科学、艺术与人文学科的文献信息,包括国际期刊、免费开放资源、图书、专利、会议录、网络资源等,可以同时对多个数据库(包括专业数据库和多学科综合数据库)进行单库或跨库检索,可以使用分析工具,可以利用书目信息管理软件。•提供了精确的,无冗余的文献搜索服务•更重要的,Web
of
knowledge提供了引用分析•Web
of
knowledge具有无可辩驳的权威性本文档共97页;当前第13页;编辑于星期三\12点16分SCI•SCI=Science
Citation
Index•JCR=Journal
Citation
Report–每年六月份发布上一年的影响因子结果•什么叫做引用–自引–他引•影响因子:近两年的总引用数除以近两年的
总论文数本文档共97页;当前第14页;编辑于星期三\12点16分本文档共97页;当前第15页;编辑于星期三\12点16分本文档共97页;当前第16页;编辑于星期三\12点16分影响因子的问题•领域之间不一致;•Open
access可以提高影响因子;•杂志的种类(review,综合性等)影响很大;•编辑政策有很大影响;•以影响因子为纲很容易使得科研工作者急功近利.本文档共97页;当前第17页;编辑于星期三\12点16分中科院分区•一区:第一流杂志•二区:主流杂志•三区:灌水杂志•四区:垃圾杂志本文档共97页;当前第18页;编辑于星期三\12点16分h‐index•一个科研工作者的h-index意味着他发表过被引用h次以上的论文共h篇。•在物理学界–h=12:副教授–h=18:正教授–h=15‐20:美国物理学会的fellowship–h=45:美国院士本文档共97页;当前第19页;编辑于星期三\12点16分ESI数据库是一个衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具,是基于ISI引文索引数据库ScienceCitationIndex(简称SCI)和SocialScienceCitationIndex(简称SSCI)所收录的全球8500多种学术期刊的900万多条文献纪录而建立的计量分析数据库。ESI在农学、生物学、化学等22个专业领域内分别对国家、研究机构、期刊、论文、科学家进行统计分析和排序,帮助用户了解在一定排名范围内的科学家、研究机构(大学)、国家(城市)和学术期刊在某一学科领域的发展和影响力。ESI本文档共97页;当前第20页;编辑于星期三\12点16分ESI•按照工作的重要性对人/单位/论文排名•重要性的主要评价标准是总引用次数和平均引用率本文档共97页;当前第21页;编辑于星期三\12点16分•••••Google
scholar不但可以搜索论文,而且可以搜索专利。绝无漏网之鱼;可以搜索全文;按照相关性排序;查找“最相关”论文的时候有用;•搜索很宽松;•不适合用来做“literature
survey”本文档共97页;当前第22页;编辑于星期三\12点16分
新乡医学院图书馆资源学术搜索与全文递送系统
Pubmed检索平台
Ovid-Medline医学文献库
Ovid-LWW医学期刊全文数据库
SpringLINK全文数据库
新乡医学院馆藏外文期刊全文数据库
外文博硕士论文服务系统(FDTS)
NSTL外文回溯期刊全文数据库
NSTL国外网络版期刊跨库检索平台
CNPLINKER中图在线
OpenAccessLibrary开放存取资源ScienceDirect数据库
DIALOG国际联机检索系统
中国科学文献服务系统
万方数据知识服务平台
万方医学网中国期刊全文数据库(本地)
中国知识资源总库(本地)
中国专利全文数据库
中文科技期刊数据库
维普期刊资源整合服务平台
中国生物医学文献服务系统
本文档共97页;当前第23页;编辑于星期三\12点16分TIGR数据库•TIGR数据库是Craig
Venter
Institute建立并
维护的微生物数据库。•TIGR数据库比NCBI数据库注释更加精确,也
更加易于查询相应基因上下游的情况•三天两头罢工本文档共97页;当前第24页;编辑于星期三\12点16分特定基因的上下游序列•利用各数据库均可以查询•各数据库之间均可互相印证•举例:Trichoderma
reesei
的tmk3基因的上
下游基因本文档共97页;当前第25页;编辑于星期三\12点16分本文档共97页;当前第26页;编辑于星期三\12点16分本文档共97页;当前第27页;编辑于星期三\12点16分本文档共97页;当前第28页;编辑于星期三\12点16分本文档共97页;当前第29页;编辑于星期三\12点16分本文档共97页;当前第30页;编辑于星期三\12点16分基因的预测•整体上来说,基因预测目前并不十分准确•基因预测的必要性不大•可以利用GENSCAN来预测基因•本文档共97页;当前第31页;编辑于星期三\12点16分利用NCBI对蛋白质的查询•利用NCBI对蛋白质的查询和对基因的查询类似•蛋白质也有相似的Accession
No.和GI
number•注意蛋白质和核酸的序列并不是一一对应的。•FASTA格式本文档共97页;当前第32页;编辑于星期三\12点16分通过NCBI鉴定蛋白质的结构域本文档共97页;当前第33页;编辑于星期三\12点16分进行序列相似性搜索:blast和FASTA本文档共97页;当前第34页;编辑于星期三\12点16分第二节基于blast的序列搜索数据库搜索的基础是序列的相似性比对及双序列对比。本文档共97页;当前第35页;编辑于星期三\12点16分实际工作中我们经常遇到的两种情况开始序列已知吗?数据库搜索Y数据库检索(SRS/Entrez)N数据库中有与之相似的序列吗?本文档共97页;当前第36页;编辑于星期三\12点16分
数据库查询为生物学研究提供了一个重要工具,在实际工作中经常使用。然而,在分子生物学研究中,对于新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。对于氨基酸序列来说,有可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。因此,数据库搜索与数据库查询一样,是生物信息学研究中的一个重要工具。本文档共97页;当前第37页;编辑于星期三\12点16分数据库搜索的基础是序列的相似性比对,即双序列比对(pairwisealignment)。新测定的、希望通过数据库搜索确定其性质或功能的序列称作检测序列(probesequence);通过数据库搜索得到的和检测序列具有一定相似性的序列称目标序列(subjectsequence)。为了确定检测序列和一个已知基因家族之间的进化关系,在通过数据库搜索得到某些相似序列后,还需要判断其序列相似性程度。如果检测序列和目标序列的相似性程度很低,还必须通过其它方法或实验手段才能确定其是否属于同一基因家族。本文档共97页;当前第38页;编辑于星期三\12点16分对统计学意义的评价--E值(E-Value)P值(P-Value)(概率值)
BLAST程序中使用了E值而非P值,这主要是从直观和便于理解的角度考虑。比如E值等于5和10,总比P值等于0.993和0.99995更直观。但是当E<0.01时,P值与E值接近相同。E值就是S值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于这条显示的序列的可能性。所以它的分值越低越好。本文档共97页;当前第39页;编辑于星期三\12点16分表6数据库相似性搜索程序BLAST和FASTA程序清单注:n:核酸序列或核酸序列库;p:蛋白质序列或蛋白质序列库本文档共97页;当前第40页;编辑于星期三\12点16分
FastA和BLAST程序是目前最常用的基于局部相似性的数据库搜索程序,它们都基于查找完全匹配的短小序列片段,并将它们延伸得到较长的相似性匹配。它们的优势在于可以在普通的计算机系统上运行,而不必依赖计算机硬件系统而解决运行速度问题。本文档共97页;当前第41页;编辑于星期三\12点16分
BLAST是目前常用的数据库搜索程序,它是BasicLocalAlignmentSearchTool的缩写,意为“基本局部相似性比对搜索工具”[Altschul,1990,1997]。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST程序之所以使用广泛,主要因为其运行速度比FastA等其它数据库搜索程序快,而改进后的BLAST程序允许空位的插入。可以访问NCBI的网站在线进行BLAST和FastA的搜索本文档共97页;当前第42页;编辑于星期三\12点16分表7BLAST程序检测序列和数据库类型程序名检测序列数据库类型方法Blastp蛋白质蛋白质用检测序列蛋白质搜索蛋白质序列数据库Blastn核酸核酸用检测序列核酸搜索核酸序列数据库Blastx核酸蛋白质将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库Tblastn蛋白质核酸用检测序列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库Tblastx核酸核酸将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库本文档共97页;当前第43页;编辑于星期三\12点16分
BLAST程序是免费软件,可以从美国国家生物技术信息中心NCBI等文件下载服务器上获得,安装在本地计算机上,包括UNIX系统和WINDOWS系统的各种版本。但必须有BLAST格式的数据库,可以从NCBI下载,也可以利用该系统提供的格式转换工具由其它格式的核酸或蛋白质序列数据库经转换后得到。对核酸序列数据库而言,不论用哪种方式,都需要很大的磁盘空间;而程序运行时,需要有较大的内存和较快的运算速度,因此必须使用高性能的服务器。本文档共97页;当前第44页;编辑于星期三\12点16分
欧洲生物信息研究所BLAST服务器的用户界面(图4)比较简洁,提供的数据库和参数很多,用户可以根据不同要求,选择不同的数据库和各种参数。一般情况下,可以先按照系统给定的缺省参数进行初步搜索,对结果进行分析后再适当调整参数,如改变相似性矩阵、增加或减少空位罚分值、调节检测序列滑动窗口大小等。对于核酸序列数据库,一般选择重复序列屏蔽功能,而对于蛋白质序列,特别是球蛋白,通常不必选择重复序列屏蔽功能。本文档共97页;当前第45页;编辑于星期三\12点16分图4欧洲生物信息学研究所的BLAST服务器的用户界面本文档共97页;当前第46页;编辑于星期三\12点16分BLAST结果的评价比对好坏的评价:Bit分值;考虑了比对中相同和相似基团、gap、替代矩阵,并经过标化;
Bit分值越高,比对越好;比对统计学意义的评价:E值(E-value)
E值越低,则比对就更有可能具有显著性;其他:比对的长度也是一个关键因素。本文档共97页;当前第47页;编辑于星期三\12点16分BLAST程序的选择蛋白:BLASTP-tBLASTN核酸:blastn-blastx-tblastx数据库的选择:nr最为常用;month跟踪每个月新增数据;Swissprot蛋白库注释详尽。本文档共97页;当前第48页;编辑于星期三\12点16分比对结果是否有意义的判定统计学显著性;一致性:蛋白序列>25%,核酸序列>70%(参考);长度。本文档共97页;当前第49页;编辑于星期三\12点16分BasicLocalAlignmentSearchTool,BLAST
(基本的局部比对搜索工具)本文档共97页;当前第50页;编辑于星期三\12点16分UsingNCBI-BLAST本文档共97页;当前第51页;编辑于星期三\12点16分1.ChoosingtheBLASTProgram本文档共97页;当前第52页;编辑于星期三\12点16分本文档共97页;当前第53页;编辑于星期三\12点16分2.EnteringtheQuerySequenceTherearethreeoptionsforthis:pasteinthebaresequence,pasteinafileinFASTAformat,orenteravalidNCBIidentifier.本文档共97页;当前第54页;编辑于星期三\12点16分>gi|11611818|gb|AF287139.1|AF287139LatimeriachalumnaeHoxa-11gene,partialcdsTACTTGCCAAGTTGCACCTACTACGTTTCGGGTCCCGATTTCTCCAGCCTCCCTTCTTTTTTGCCCCAGACCCCGTCTTCTCGCCCCATGACATACTCCTATTCGTCTAATCTACCCCAAGTTCAACCTGTGAGAGAAGTTACCTTCAGGGACTATGCCATTGATACATCCAATAAATGGCATCCCAGAAGCAATTTACCCCATTGCTACTCAACAGAGGAGATTCTGCACAGGGACTGCCTAGCAACCACCACCGCTTCAAGCATAGGAGAAATCTTTGGGAAAGGCAACGCTAACGTCTACCATCCTGGCTCCAGCACCTCTTCTAATTTCTATAACACAGTGGGTAGAAACGGGGTCCTACCGCAAGCCTTTGACCAGTTTTTCGAGACGGCTTATGGCACAACAGAAAACCACTCTTCTGACTACTCTGCAGACAAGAATTCCGACAAAATACCTTCGGCAGCAACTTCAAGGTCGGAGACTTGCAGGGAGACAGACGAGAAGGAGAGACGGGAAGAAAGCAGTAGCCCAGAGTCTTCTTCCGGCAACAATGAGGAGAAATCAAGCAGTTCCAGTGGTCAACGTACAAGGAAGAAGAGGTGC
本文档共97页;当前第55页;编辑于星期三\12点16分3.ChoosingtheDatabasetoSearch本文档共97页;当前第56页;编辑于星期三\12点16分Databases:Proteindatabases(1)nonredundant(非冗余数据库)Theproteindatabaseisconstructedfrom:-SwissProt,-SwissProtupdates,-SwissProtsplicevariants,-TrEMBL,-TrEMBLupdates,-TrEMBLsplicevariants,-Genpept,-Genpeptupdates,-andasmallsubsectionofPIRcontainingsequencesnotintheotherdatabases(usuallyforgoodreasons).Updatedweekly,usuallyonweekends.本文档共97页;当前第57页;编辑于星期三\12点16分Databases:Proteindatabases(2)SwissProt
ThemostrecentfullreleaseofSwissProt.Doesincludeweeklyupdatesandsplicevariants.SwissProt/TrEMBL/TrEMBL_NEW
AcombinationofSwissProtandTrEMBL(includingupdatesandsplicevariantsbutnotREM-TrEMBL).ThisdatabasecontainsallconsolidatedproteinsandORFs(updatedweekly).TrEMBL/TrEMBL_NEW
Sameasabove,butwithoutSwissProt.本文档共97页;当前第58页;编辑于星期三\12点16分Databases:Proteindatabases(3)GenPept(由GenBank编码序列自动翻译而成的数据库)
ThemostrecentreleaseofGenPeptfile.Doesnotincludeupdates(updatedweekly).GenPeptupdates
ThemostrecentGenPeptupdatefile.Usefulforlimitingthesearchtonewsequences(updatedweekly).本文档共97页;当前第59页;编辑于星期三\12点16分Databases:Proteindatabases(4)Worm(C.elegans)TheproteindatabasecontainsallannotatedC.elegansORFs(updatedoccasionally).Yeast(S.cerevisiae)TheproteindatabasecontainsallannotatedyeastORFs(updatedoccasionally).Non-redundant3DstructureAnon-redundantdatabaseofallthesequencesfoundinPDB(updatedoccasionally).Allmicrobialgenomes
Acollectionofallavailablemicrobial(archaeandeubacteria)genomesfromtheHAMAPproject(updatedweekly).本文档共97页;当前第60页;编辑于星期三\12点16分Databases:DNAdatabases(1)EMBLisnowprovidedinthedifferentsubdivisions(Updatedweekly,usuallyonweekends.):Bacteriophage(phg)Fungi(fun)GSS(gss)STS(sts)HTG(htg)Human(hum)Invertebrate(inv)Organelles(org)OtherMammals(mam)OtherVertegrates(vrt)Patents(patent)Plants(pln)Prokaryotes(pro)Rodents(rod)Synthetic(syn)Other(unclassified)(unc)Viruses(vrl)YoucanselectthemostrecentfullreleaseoftheEMBLdatabasesorthecumulativeweeklyupdates(updatedweekly).
DoesnotcontaintheESTsections.本文档共97页;当前第61页;编辑于星期三\12点16分Databases:DNAdatabases(2)dbESTisnowprovidedinsubdivisions(updatedweekly):Human(est_hum)Mouse(est_mus)Rat(est_rat)Rodent(est_rod)Cow(est_cow)Plants(est_pln)OtherMammals(est_mam)Zebrafish(est_dan)OtherVertebrates(est_vrt)Arabidopsis(est_ara)Drosophila(est_dro)Invertebrates(est_inv)Fungi(est_fun)Prokaryotes(est_pro)本文档共97页;当前第62页;编辑于星期三\12点16分4.ChoosingtheParametersofthe
Search本文档共97页;当前第63页;编辑于星期三\12点16分本文档共97页;当前第64页;编辑于星期三\12点16分本文档共97页;当前第65页;编辑于星期三\12点16分5.SubmittingtheSearch本文档共97页;当前第66页;编辑于星期三\12点16分6.ViewingtheResults本文档共97页;当前第67页;编辑于星期三\12点16分7.ChoosingtheFormat本文档共97页;当前第68页;编辑于星期三\12点16分HeaderofaBLASTreport本文档共97页;当前第69页;编辑于星期三\12点16分Thebody:graphicaloverview本文档共97页;当前第70页;编辑于星期三\12点16分Thebody:one-linedescriptions本文档共97页;当前第71页;编辑于星期三\12点16分Thebody:alignmentshigh-scoringsegmentpair(HSP)123本文档共97页;当前第72页;编辑于星期三\12点16分BLASTpdiagramProteinsequenceBlastpComparethequeryproteinsequencetoknownproteinsequencedatabases(e.g.Swiss-Prot)AnalysisoftheoutputfileDeducepotentialfunction本文档共97页;当前第73页;编辑于星期三\12点16分BLASTprograms(2)blastncomparesanucleotidequerysequenceagainstanucleotidesequencedatabase
(用核酸序列搜索核酸序列数据库)本文档共97页;当前第74页;编辑于星期三\12点16分进行序列相似性搜索:blast和FASTA•Blast和FASTA首先是一种算法,其次才是一个软件,最后才是一个网上工具。•Blastp•Blastn•Blastx:Search
protein
database
using
a
translated
nucleotide
query•tblastn:Search
translated
nucleotide
database
using
a
protein
query•tblastx:Search
translated
nucleotide
database
using
a
translated
nucleotide
query本文档共97页;当前第75页;编辑于星期三\12点16分1.在NCBI中查询如下论文Ox-LDLpromotesmigrationandadhesionofbonemarrow-derivedmesenchymalstemcellsviaregulationofMCP-1expression.ZhangF,WangC,WangH,LuM,LiY,FengH,LinJ,YuanZ,WangX.MediatorsInflamm.2013;2013:691023PMID:23956504应用实例本文档共97页;当前第76页;编辑于星期三\12点16分2.查询下载一篇3年内关于stemcellosteogenicdifferentiation的综述性文章全文本文档共97页;当前第77页;编辑于星期三\12点16分本文档共97页;当前第78页;编辑于星期三\12点16分本文档共97页;当前第79页;编辑于星期三\12点16分本文档共97页;当前第80页;编辑于星期三\12点16分本文档共97页;当前第81页;编辑于星期三\12
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海盗内部惩罚制度
- 煤矿运输队内部考核制度
- 环保汽修厂内部管理制度
- 理财子公司内部审计制度
- 监理内部控制制度
- 目内部审核制度
- 科室内部安全保卫制度
- 科技经费管理内部制度
- 管委会内部聘用制度规定
- 粮库内部安全管理制度范本
- 视网膜中央动脉阻塞的急救和护理
- 君之手工烘焙坊1基础篇
- 自制中外对比旧约历史年代对照表
- 眩晕的诊断及鉴别
- 大隆水库竣工验收技术鉴定报告
- GB/T 16895.6-2014低压电气装置第5-52部分:电气设备的选择和安装布线系统
- GB 29921-2021食品安全国家标准预包装食品中致病菌限量
- GB 20922-2007城市污水再生利用农田灌溉用水水质
- GA 1131-2014仓储场所消防安全管理通则
- 浓密池专项施工方案
- 《中外历史纲要》上册( 第1至29课 )思维导图2021-2022学年高一统编版历史综合复习
评论
0/150
提交评论