Eutils用法总结.docx_第1页
Eutils用法总结.docx_第2页
Eutils用法总结.docx_第3页
Eutils用法总结.docx_第4页
Eutils用法总结.docx_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

好久没更新了,这里都长草了。总结下Eutils的用法,参考E-utilities Quick Start,没时间看英文的可以参考下。简介Eutils全称是The Entrez Programming Utilities (E-utilities),是由八个服务器端程序组成的一套编程工具,它提供用于访问NCBI Entrez查询和数据库系统的稳定接口。 这八个工具包括Einfo、ESearch、EPost、ESummary、EFetch、ELink、EGQuery、ESpell(详见表1)。通过这些工具,你可以访问NCBI Entrez所包含的序列、三维结构、文献等所有38个数据库。表1. 八种Eutils工具Eutils NameEntryRequired ParametersOptional ParametersReturn FormatEInfoeinfo.fcgidbxmlESearchesearch.fcgidbtermusehistoryWebEnvquery_keyretstartretmaxrettypefielddatetypereldatemindate, maxdatexmlEPostepost.fcgidbidWebEnvQueryKeyxmlESummaryesummary.fcgidbidWebEnvquery_keyretstartretmaxversionxmlEFetchefetch.fcgidbidWebEnvquery_keyretmoderetstartretmaxrettypestrandseq_startseq_stopcomplexityxml/text/asn(详情见表2)ELinkelink.fcgidbdbfromcmdidWebEnvquery_keylinknametermholdingdatetypereldatemindate, maxdatexmlEGQueryegquery.fcgitermxmlESpellespell.fcgidbtermxml访问地址Eutils工具使用固定URL地址的形式进行访问,每个工具都有一个固定的访问地址BaseURL,都以EutilsURL开始。EutilsURL:/entrez/eutils/如:EInfo 的访问地址为:/entrez/eutils/einfo.fcgi即:BaseURL=EutilsURL + Entry(一个以工具名称命名的Fasta CGI 文件,扩展名为fcgi。什么是Fasta CGI?。其实我也不了解)使用限制每秒查询次数不能超过3次,大型查询限制在周末和工作日的9:00 PM5:00 AM,超过次限制会被封IP,除非给发邮件注册使用eutils服务的软件名称tool和email地址,并在使用服务时以URL参数的形式传入。大量操作最好还是注册一下比较好。使用示例通过设置不同的URL参数获取不同的结果,八个工具参数列表如下图所示,参数分为两种,必须参数和可选参数,返回文件格式大多为xml。o EInfo示例示例1:/entrez/eutils/einfo.fcgi示例2:/entrez/eutils/einfo.fcgi?db=protein示例1没有传入参数将列出所有的支持数据库,即示例2中db参数的名字;示例2将列出protein数据库的基本信息。o Esearch示例示例1:/entrez/eutils/esearch.fcgi?db=protein&term=dnapol示例2:/entrez/eutils/esearch.fcgi?term=dnapol示例3:/entrez/eutils/esearch.fcgi?db=protein&term=dnapol&usehistory=y示例4:/entrez/eutils/esearch.fcgi?db=protein&term=virus&query_key=1&WebEnv=NCID_1_55320436_8_5553_1335062251_525363903&usehistory=y示例1传入必须参数,所查询的数据库名称db和要查询的关键词term;示例2仅传入要查询的关键词term,并不是由于db为非必须参数,而是因为db的默认值是pubmed,所以示例2将查询以dnapol为关键词查询pubmed数据库;示例3使用可选usehistory参数将在服务器端产生一个查询历史记录,结果中将生成WebEnv和query_key值,下一次使用ESearch、ESummary等操作可利用这些参数在这一次查询结果基础上进行操作,这也是Eutils最强大的地方,可以方便的建立自己的工作流程;示例4中即使用示例3中的查询结果重新查询以virus为关键词的条目,这等价于将示例3中的“term=dnapol”替换为“term=dnapol+virus”的查询结果。o EPost示例示例1:/entrez/eutils/epost.fcgi?db=protein&id=15718680,157427902,119703751示例2:/entrez/eutils/epost.fcgi?db=protein&id=15718680,157427902,119703751&WebEnv=NCID_1_25983036_4_5553_1335063999_246386066示例1将三个蛋白质数据库的id号上传到服务器,结果中将生成WebEnv和query_key值,以备后续操作使用;示例2在给定的WebEnv历史记录上添加给定id号;注:在使用其他Eutils工具,如EFetch,id参数条目数超过限制时,只能使用EPost,先上传需要的id,然后在所使用工具中传入EPost结果中的WebEnv和query_key值。o ESummary示例示例1:/entrez/eutils/esummary.fcgi?db=protein&id=15718680,157427902,119703751示例2:/entrez/eutils/esummary.fcgi?db=protein&query_key=1&WebEnv=NCID_1_25983036_4_5553_1335063999_246386066示例1列出给定id号的摘要信息;示例2列出给定查询历史记录中的摘要信息。注:ESummary中db为必选参数,id和(query_key+WebEnv)二选一。o EFetch示例示例1:/entrez/eutils/efetch.fcgi?db=protein&id=15718680,157427902,119703751示例2:/entrez/eutils/efetch.fcgi?db=protein&id=15718680,157427902,119703751&rettype=fasta示例3:/entrez/eutils/efetch.fcgi?db=protein&id=15718680,157427902,119703751&rettype=fasta&retmode=xml示例1以text ASN.1格式返回给定id号的蛋白序列文件;示例2以text fasta格式返回给定id号的蛋白序列文件;示例3以xml fasta格式返回给定id号的蛋白序列文件。注:EFetch是获取数据库文件的常用工具,示例1中没有给定rettype和retmode参数,默认为text ASN.1格式,示例2中retmode参数默认为text,示例3中retmode设置为xml,返回xml格式的fasta文件。各数据库支持的返回参数见表2。在EFetch中使用ESearch结果中的query_key和WebEnv参数,可轻松实现普通的Entrez下载操作。表2.EFetch中各数据库支持的retmode和rettype值Record Type&rettype&retmodedb = biosampleFull record XMLfull,defaultxml,defaultFull record textfull,defaulttextdb = biosystemsFull record XMLxml,defaultxml,defaultdb = gdsSummarysummary,defaulttext,defaultdb = genetext ASN.1nullasn.1,defaultXMLnullxmlGene tablegene_tabletextdb = homologenetext ASN.1nullasn.1,defaultXMLnullxmlAlignment scoresalignmentscorestextFASTAfastatextHomoloGenehomologenetextdb = meshFull recordfull,defaulttext,defaultdb = nuccore, nucest, nucgss, protein or popsettext ASN.1nulltext,defaultbinary ASN.1nullasn.1Full record in XMLnativexmlAccession number(s)acctextFASTAfastatextTinySeq XMLfastaxmlSeqID stringseqidtextAdditional options for db = nuccore, nucest, nucgss or popsetGenBank flat filegbtextGBSeq XMLgbxmlINSDSeq XMLgbcxmlAdditional option for db = nuccore and proteinFeature tablefttextAdditional option for db = nuccoreGenBank flat file with full sequence (contigs)gbwithpartstextCDS nucleotide FASTAfasta_cds_natextCDS protein FASTAfasta_cds_aatextAdditional option for db = nucestEST reportesttextAdditional option for db = nucgssGSS reportgsstextAdditional options for db = proteinGenPept flat filegptextGBSeq XMLgpxmlINSDSeq XMLgpcxmldb = pmcXMLnullxml,defaultMEDLINEmedlinetextdb = pubmedtext ASN.1nullasn.1, defaultXMLnullxmlMEDLINEmedlinetextPMID listuilisttextAbstractabstracttextdb = sequencestext ASN.1nulltext,defaultAccession number(s)acctextFASTAfastatextSeqID stringseqidtextdb = snptext ASN.1nullasn.1,defaultXMLnullxmlFlat fileflttextFASTAfastatextRS Cluster reportrsrtextSS Exemplar listssexemplartextChromosome reportchrtextGenotype XMLgenxmlxmlSummarydocsettextUID listuilisttext or xmldb = sraXMLfull,defaultxml,defaultdb = taxonomyXMLnullxml,defaultTaxID listuilisttext or xmlo ELink示例示例1:/entrez/eutils/elink.fcgi?dbfrom=protein&db=gene&id=15718680,157427902示例2:/entrez/eutils/elink.fcgi?dbfrom=pubmed&db=pubmed&id=20210808&cmd=neighbor_score示例1将返回给定的蛋白id所对应的基因的id;示例2将返回和文章20210808相似的pubmedID,并给出对应的相似性分数。注:ELink是eutils中一个强大的跨库查询工具,通过cmd参数可以实现各种各样的map功能。如示例1中,cmd默认参数是neighbor,实现简单的将蛋白id映射到对应的基因id的功能。示例2中neighbor_score实现相似文章的搜索。cmd参数的详细功能见表3。表3. Elink中cmd参数功能详解参数功能neighbor (default)返回另一个数据库中和给定UID对应的UID。如不设置db相当于设置db=pubmed(默认值)。下同1neighbor_score返回同一数据库中和给定UID相似的UID列表及相似性分数。如不设置db相当于设置与dbfrom相同的值。下同2neighbor_history将以neighbor为参数返回的结果存入历史记录服务器,并返回query_key和WebEnv。同1acheck返回给定UID的所有可能链接方式。如不设置db相当于选中所有。ncheck判断同一个数据库中是否存在与给定的UID相关的链接。同2,忽略db设置lcheck判断给定的UID是否存在链出链接。同2,忽略db设置llinks列出给定UID的所有非图书馆链出链接及对应属性。同2,忽略db设置llinkslib列出给定UID的所有链出链接及对应属性,包含图书馆链接。同2,忽略db设置prlinks列出给定UID的首选链出链接及对应属性,在设置retmode=ref情况下直接跳转到链接网页。同2,忽略db设置o EGQuery示例示例1:/entrez/eutils/egquery.fcgi?term=asthma示例1返回所有数据库中含有关键词asthma的条目数注:EGQuery为全局查询,和在Entrez中选择所有数据库查询的结果相同。o ESpell示例示例1:/entrez/eutils/espell.fcgi?db=pubmed&term=asthmaa+OR+alergies示例1返回对三个关键词的拼写建议,asthmaa被替换为asthma,OR为逻辑词不进行替换,alergies被替换为allergies。注:ESpell为拼写建议工具,会根据关键词的相似性进行建议,方便关键词的纠错和相关关键词的推荐。部分通用参数解释db:查询的数据库名称。和Entrez下拉菜单中显示的名称不一样,所支持的所有值可通过EInfo(/entrez/eutils/einfo.fcgi)查看;term:查询的关键词。和Entrez查询相似,可使用逻辑操作词AND,OR,NOT以及acession、organism等以字段限定词等(具体可参见Entrez Help),但是中间的空格要以“+”替代,其他特殊符号要转换为URL编码(如引号“编码为%22;井号#编码为%23)。WebEnv:历史记录环境编号。 ESearch的usehistory=y参数、EPost、ELink的cmd=neighbor_history参数都会产生一个WebEnv。后续操作传入次参数将大大减少查询工作量。query_key:历史记录环境下的查询编号。第一次生成WebEnv的结果的query_key为1,在此WebEnv环境下的下一个操作结果的query_key为2,后续操作依次递增。retstart:返回结果在查询结果中的起始位置。默认为0,配合retmax实现分页显示。retmax:返回结果条目数最大值。默认为20。rettype:返回数据类型。不同的工具有不同的可选值。ESearch的可选类型为uilist(默认)和count(只返回查询结果数目),EFetch可参加表2。retmode:返回数据方式。详见表2。datetype:限定日期的类型。限定reldate, mindate, maxdate的日期类型,不同的数据库有不同的可选值,常见的为mdat(modification date)、pdat(publication date)、edat(Entrezdate)。reldate:相对于当前时间的天数。返回过去多少天内的数据。mindate, maxdate:时间间隔。返回由最小日期

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论