NCBI的检索.doc

上传人：f*** IP属地：河南上传时间：2020-01-10 格式：DOC 页数：25 大小：143.50KB 积分：20 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

NCBI的检索 NCBI包括五个部分，第一部分是欢迎进入NCBI，包括NCBI的最新信息、计划与活动、读者来信、服务地址和用户评论等。第二部分是基因序列数据库(GenBank)，包括基因库概述、检索与投稿。第三部分是数据库服务，包括免费的PubMed检索、Entrez检索、BLAST序列族性检索、电子邮件服务（详见本章第四节）、匿名FTP服务。第四部分是NCBI的其它资源。 GenBank的检索在NCBI主页的第二部分点击“Searching GenBank”，即可进入GenBank的检索屏幕。NCBI提供了五种检索，即Entrez浏览检索、BLAST序列类似性检索、dbEST检索、dbSTS检索和文本检索(Text Searching)。一、Entrez浏览检索 1.Entrez检索的数据库及其检索信息 Entrez浏览器(Entrez Browser)可以检索以下与NCBI链接的基因序列数据库的分子生物数据和书目文献资料。 (1) GenBank、EMBL、DDBJ中的DNA序列； (2) SWISS-PROT、PIR、PRF、PDB中的蛋白质序列以及DNA序列数据库中翻译的蛋白质序列； (3) 基因和染色体图像数据； (4) PDB以及收入NCBI分子模型数据库(MMDB)的蛋白质三维结构； (5) 通过PubMed检索Medline和PreMedline数据库。 2.Entrez检索功能 Entrez提供了以下三种检索功能。 (1)自由词检索功能用户可以通过文本词、关键词、截词、期刊名或文献的作者检索Entrez数据库。截词用*号，期刊名必须用Medline刊名缩写，作者姓名必须是姓在前，名在后，用首字母缩写。 (2)索引词表(List Terms)检索功能索引词表检索是当你键入检索词，Entrez在你选定的字段中显示从该检索词开始的一个索引词表窗口，这时，你可以选择一个或几个词进行检索，这对单词拼写不准确时非常有用。例如：在输入框中键入“P53”，选择文本字段(Text Words)和索引词表(List Terms)检索功能，再点击“Search”，这时返回一个以“P53”开始的索引词表窗口，浏览选择一个或几个索引词，点击“Search”，Entrez将返回检索结果。 (3)自动检索功能自动检索功能就是Entrez浏览器根据用户输入的检索式自动进行检索，返回当前检索式检出的文献数，如满意，可进一步取得检索结果，如不满意，则可对当前检索式进行修改，直到用户满意为此。例如在输入框键入“P53”，选择所有字段和自动检索功能，点击“Search”，Entrez返回一个Web页，包括当前检出文献数、加词检索和修改当前检索三个部分。如果你对检出文献数不满意（过多或过少），可以在加词检索部分增加更专指的检索词，以提高查准率，也可以在修改当前检索部分选择某一布尔算符(AND、OR、NOT、ANDNOT)，对当前的检索策略进行修改，直到你满意为止。对于检出文献，用户可以选择浏览格式进行浏览，也可以打印或存盘。 3 Entrez检索规则 (1)Entrez支持“*”号截词检索； (2)Entrez对你键入的词可以进行逻辑识别。例如：键入“Lipman DJ Genomics”，Entrez将它识别为作者的姓名Lipman DJ和自由词Genomics，并将提问式转换为“Lipman DJ”AND Genomics。对于Entrez不能识别的提问式，如 bac 1，必须加双引号，系统就会将它们作为一个词进行检索； (3)Entrez支持复杂的布尔逻辑检索； (4)Entrez支持限定字段检索；字段标识符的全称如下： WORD=Text Word, TITL=Title Word, MESH=Mesh Term, MAJR=MeSH Major Topic, AUTH=Author Name, JOUR=Journal Name, ECNO=EC/RN Number, GENE=Gene Name, DATE=Publication Year, PDAT=Publication/Creation Date, MDAT=Modification Date, PAGE=First Page, VOL=Volume, KYWD=Keyword, ORGN=Organism, ACCN=Accession Number, PROT=Protein Name, SUBS=Substance,PROP=Property, FKEY=Feature Key 和 PTYP=Publicaton Type 二、BLAST序列类似性检索序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索，找出与之相似的序列，从而评判新测定的序列是重复别人的工作，还是在前人的基础上有所创新，或是发现了新的序列。现在用于序列类似性检索的软件很多，下面主要介绍GenBank的序列类似性检索工具棗BLAST。 1. BLAST简介 BLAST是Basic Local Alignment Search Tool的英文缩写，意即碱基局部对准检索工具，是一种序列类似性检索工具。它采用统计学记分系统，能将真正配对的序列同随机产生的干扰序列区别开来；同时采用启发式算法系统，即采用的是局部对准算法(Local Alignment Algorithm)，而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似；而局部对准算法是找出两个被比较序列的“最类似”片断，并得出可能只包含两个序列的某个部分的对准结果。在BLAST的基础上，NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。BLAST 2.0是一种新的BLAST检索工具，它对BLAST作了改进，运行速度更快，灵敏度更高，同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。Gapped BLAST允许在对准的序列中引入空位(碱基缺失或插入)，引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST的全称是Position-Specific Iterated BLAST，意即特殊位置重复BLAST，它提供了自动、易用的概貌(Profile)检索，是查找序列同源(Sequence Homologues)的有效方法。目前，PSI-BLAST仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。 2. 使用NCBI BLAST服务的四种基本方法 (1)经由WWW使用的BLAST 使用BLAST最容易的方法是WWW方式。在用户的浏览器中键入NCBI的URL地址：http/，进入NBCI主页，然后链接到BLAST主页。BLAST主页提供了好几种BLAST检索软件，包括BLAST、BLAST 2.0、Gapped BLAST和PSI-BLAST等，其中BLAST和BLAST 2.0提供了基本检索和高级检索两种模式。 (2)网络版的BLAST BLAST2是标准的网络BLAST客户软件，它可以通过NCBI匿名的FTP服务器()下的/blast/network/blast2/获取。 PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件，它可以通过NCBI匿名的FPT服务器()下的/blast/network/blast2/powerBLAST/获取。 (3)独立运行的BLAST BLAST 2.0可以在本地计算机上独立运行，也可以在自建的序列数据库中进行BLAST检索，还可以下载NCBI数据库中的记录。BLAST运行的软硬件环境为IRIX 6.2、Solaris 2.5、PEC OSF1(第四版)和Win32系统。可独立运行的BLAST 2.0在NCBI匿名的FTP服务器()下的/blast/executables/获取。 (4) 电子邮件的BLAST 通过电子邮件对基因库进行BLAST检索（详见本章第四节二）。 3. BLAST的检索方法 (1) BLAST数据库的选择 BLAST检索的数据库包括两大类：一类是肽序列数据库，另一类是核酸序列数据库。肽序列数据库包括： nr: 所有无冗余基因库CDS转录产物、PDB、SwissProt以及PIR序列 month: 最近30天注释的所有新增的或修订的基因库CDS转录产物、PDB、SwissProt和PIR序列。 SwissProt: SwissProt蛋白质序列数据库中最新的主要注释(无更新)序列。 yeast: Yeast(Saccharomyces Cerevisiae)蛋白质序列。 E.coli: E.coli基因CDS转录产物。 pdb: 从Brookhaven蛋白质序列数据和三维结构衍生出来的序列。 Kabat Kabatpro: 免疫学上感兴趣的蛋白质序列Kabat数据库。 alu: 从重复序列数据库(REPBASE)选取的Alu重复序列，适用于过滤查询序列中Alu重复序列。通过匿名FTP从下的/pub/jmc/alu目录中获取。核酸序列数据库包括： nr: 所有无冗余的GenBank+EMBL+DDBJ+PDB序列；但不包括EST、STS、GSS或HTGS序列。 month: 最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列 dbEST: GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。 dbSTS: GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。 htgs: 高允许能力(High Throughput)基因序列。 yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。 E.coli: 大肠杆菌(E.coli)基因核酸序列。 pdb: 蛋白质数据库。 KabatKabatnuc: 免疫学上感兴趣的核酸序列Kabat数据库。 Vector: GenBank载体数据库。 mito: 线粒体序列数据库。 alu: 从重复序列数据库(REPBASE)选取的Alu重复序列，适用于过滤查询序列中Alu重复序列。通过匿名FTP从下的/pub/jmc/alu目录中获取。 epd: 真核生物的启动子数据库。 gss: 基因搜寻序列，包括单递基因数据、外切核酸酶捕获序列和Alu PCR序列。 (2) BLAST程序的选择 BLAST是一种碱基局部对准检索工具，实质上是一种序列类似性检索工具，它运行blastp、blastn、blastx、tblastn、tblastx等五种程序的启发式检索算法；这五种程序是利用改进的Karlin和Altschul的统计学方法来描述检索结果的显著性。这些程序不支持主题形式检索，也就是不支持主题词、自由词、文本词等检索。下面介绍五种程序的基本功能。 blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询； blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询； blastx:先将待查询的核酸序列按六种可读框架（逐个向前三个碱基和逐个向后三个碱基读码）翻译成蛋白质序列，然后将翻译结果对蛋白质序列数据库进行查询； tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列，然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询； tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列，然后再将两种翻译结果从蛋白质水平进行查询。因此，根据你查询的目的和序列选择合适的blast程序，有助于获得满意的检索结果。 (3) BLAST参数的设置 BLAST提供了许多参数可限制你的检索，以达到满意的结果。对于BLAST基本检索，系统预设的参数默认值即可满足需要，不需要你重新设定。但是对于BLAST高级检索，可开窗选择如下几种参数，也可在输入框增加其它参数。直方图(Histogram)：显示每次检索评分的直方图。有yes、no两种选择，默认值为yes 描述(Descriptions)：限定描述性类似序列的条数。有default、0、10、50、100、250、500等七种选择，默认值为100。对准(Alignments)：限定检出高积分片断配对(High-scoring Segment Pairs,HSPs)的数据库序列的条数，有default、0、10、50、100、250、500等七种选择，默认值为50。如果检索到的数据库序列超出设定值，BLAST仅显示最具统计学意义的配对序列，直到设定值。期望值(Expect,E值)：它是期望数据库中具有某一统计学意义配对序列的值。有default、0.001、0.01、0.1、1、10、100、1000等选择值，默认值为10，一般地，期望值越低，限制越严格，甚至会导致无随机配对序列。 Cutoff：设定高积分片断配对(HSPs)的Cutoff值。有default、60、70、80、90、100、110等七种选择值，其默认值一般通过期望值来计算得出。一般地，Cutoff值越高，其限制就越严格，甚至会导致无随机配对序列。矩阵(Matrix)：为BLAST、BLASTX、TBLASTN和TBLASTX程序指定一个交替记分矩阵。其默认值为BLOSUM62，有PAM40、PAM120、PAM250和IDENTITY等四种有效选择。但交替记分矩阵对BLASTN不起作用。股(Strand)：把BLASTN检索限定在数据库序列的股的首端或末端；或者把BLASTN、BLASTX、TBLASTX检索限定在查询序列股的首端或末端的机读部分。过滤器(Filter)：过滤器可以过滤查询序列中低成分复杂性(Low Compositional Complexity)片断。它只过虑查询序列及其转录产物中的低成分复杂性片断，不能过虑数据库序列中的低成分复杂性片断。用户可以在BLAST和BLAST 2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰，如不用过滤功能则选择“NONE”。但是在BLAST和BLAST 2.0基本检索中，因为，系统对于不同的BLAST程序设定了默认值，例如对于blastn程序，其默认值为“DUST”，对于其他程序，默认值为“SEG”，所以用户只须选择用不用过虑功能，而不必设定过虑程序。值得注意的是，过滤器中的SEG和XUN程序不能过滤SWISS-PROT数据库中的低复杂性片断，因此，虽然过滤器可以应用于SWISS-PROT数据库序列，但并未起作用。 NCBI-GI：在输出结果中除存取号和位点名称(Locus Name)外，还可以选择NCBI-GI标识号。有yes 和no两种选择，其默认值为no。 (4) BLAST检索结果 BLAST程序用大致相同的格式显示检索结果，它包括四个部分：一是程序的介绍；二是一系列配对数据库序列的描述，从积分高到低排列，一行描述一条序列；三是实际的序列对准；四是检索中设定的参数及其它统计数据。三、dbEST检索 dbEST是基因库的一部分，主要收录核酸序列数据库的表达序列标志以及“单递”(Single Pass) cDNA序列等信息。 dbEST使用的提问式是IRX格式，其通用的IRX格式是：TermField List，这里的Field List可以是一个或几个用空格分隔的字段标识符。“Term”可以是词或词组。 dbEST中的字段： DBID EST登记号 LIBX 馆藏描述 IDS EST名称或GenBank存取号，GI号 SUB 发送者信息 CLIN 克隆信息或来源信息 CIT 引文信息 COM 评论 MAP 图谱数据 LIB 馆藏名称及机构 NBR 同源(相邻)信息在输入框按照IRX格式输入一个提问式，点击“Submit Query”，系统进行检索并返回检索结果。四、dbSTS检索 dbSTS是NCBI一种新的数据库，主要收录基因标志序列或序列标志位点和图谱数据。虽然dbSTS序列将并入GenBank，但是dbSTS中的注释更具综合性，包括有关实验者、实验条件和基因图谱定位等更为详细的信息。 dbSTS检索方法和步骤与dbEST相同。五、文本检索(Text Searching) NCBI提供文本检索服务。可通过两种形式进行检索，一种是表格式的客户机检索，另一种是非表格式的客户机检索。 (1)基于表格式的客户机检索(Search with Forms-Based Clients) 它可以检索GenBank以及GenBank Updates最近注释的新增的和变更的记录。查询表格有四个输入框，每个输入框前面冠有“FR”(Field Restriction 字段限定)，后面带有布尔算符(AND,OR,BUTNOT)，布尔算符描述相邻两个输入框中词或词组的逻辑匹配。在第四个输入框的下面左边有一个“Run Query”按钮，右边有一个“Clear Input”按钮，它可清除当前的输入，回到初始的状态，在上述两个按钮之间，有一个下拉式菜单按钮，可开窗选择检索后每页返回的记录数。在按钮行的下面，有数据库选择区，允许你选择当前检索的GenBank数据库，有三种选择：GenBank、GenBank Updates和Both。在数据库选择区的下面有可供选择的限定字段，如Locus、Definition、Accession No.、NID、Keywords、Source、Reference、Comment和Features等，可选择其中的字段限定你的检索式。 (2)非表格式的客户机检索它可以检索GenBank、GenBank Updates、Swiss-Prot和PIR等数据库。这些数据库均带有下划线，点击某一数据库，则可进入该数据库的文本检索界面。在输入框中，输入检索词，词组或布尔表达式，然后点击发送检索按钮，即可检索到所需要的文献。 PubMed PubMed医学文献检索服务系统，其检索内容包含MedLine，PreMedline（不含Mesh检索主题词）医学文献数据库及其他电子出版文献。PubMed覆盖了全世界70多个国家4300多种主要生物医学期刊的摘要和部分全文。年收编量为30多万条，以题录和文摘形式进行报道。其中75是英文文献，7080文献含有英文文摘。1973年，MEDLINE开始收编我国期刊，现收编中文期刊40多种。文献题录和原文发表的时差一般为13个月。其覆盖的时间段也非常长，早的可以追溯到20世纪60年代。页面上方的检索框和功能键：一框五键（检索框，Limit键,Preview/Index键,History键，Clipboard键和Details键）。主界面的左侧框： Journal Browser期刊浏览 MeSh Browser可以用它来分层流览MeSH表 Single Citation Matcher输入期刊的信息可以找到某单篇的文献或整个期刊的内容。 Batch Citution Matcher用一种特定的形式输入期刊的信息一次搜索多篇文献。 Clinical Queries这一部分为临床医生设置，通过过滤的方式将搜索的文献固定在4个范围：治疗、诊断、病原学与预后。 Old PubMed(使用旧式的PubMed查询方式) Related Resources： Order Documents可以使用户在当地得到文献的全文，但这是要收费的，至于如何免费获得文献全文，我将在后面的有关章节中详述。 Grateful Med是对另一个NLM基于网络的查询系统的链接。Grateful Med也提供MEDLINE的接入，并且还有一些其他的数据库如AIDSLINE、HISTLINE等等。 ConsumerHealth提供与MEDLINEplus的链接，MEDLINEplus是与消费者健康信息相关的国家医学图书馆的网络节点。 ClinicalAlerts此部分的目的是加快NIH资助的临床研究成果的发布。 PUBMED 简单检索技巧明确要检索的关键概念及词语，即关键字；考虑到关键字的类似说法，即有可能出现的同义词；通过限定DATES,STUDY GROUP等，精炼检索范围；词语（主题）检索这时我们在PubMed主页的检索框中键入的是英文单词或短语（大写或小写均可）。然后回车或点击Go，PubMed即使用其词汇自动转换功能进行检索，并将检索结果直接显示在主页下方。词与词间可用AND、OR或NOT逻辑进行连词检索。对PubMed不能识别检索的词组，需加引号强调，如键入：“Insight II” 检索时可在词尾加“*”号检索所有具有同样词头的词。如键入：biolog*可查得biology或biological等词。著者检索：著者姓空格名字首字母缩写，例如smith ja。刊名检索：刊名全称或MEDLINE形式的简称、ISSN号。日期或日期范围检索可以在检索框中键入日期或日期范围，然后回车或点击Go，系统会按日期段检索，并将符合条件的记录予以显示。日期的录入格式为YYYY/MM/DD；如：1999/09/08也可以不录月份和日子，如：2000或1999/12。检索期刊子集（辑）检索的格式为：检索词AND jsubseta,如：neoplasm AND jsubseta。可供检索的期刊子库有3种：Abridged Index Medicus(有120种重要核心期刊)、Dental和Nursing。分别使用jsubseta,jsubsetd,jsubsetn进行限定。检索带文摘的记录检索的格式为：检索词AND has abstract, 如：liver cancer AND has abstract。要注意的是在1975年前出版的文章，其MEDLINE记录中没有文摘。布尔逻辑检索：PubMed系统允许使用布尔逻辑检索，只要在检索框中键入布尔逻辑运算符（AND，OR或NOT）。处理检索结果：符合检索要求的项目以SUMMARY（简要格式）显示出来的，就是列出作者，文章题目，以及文章来源的一些信息。在DISPLAY键后还可以选择别的显示格式，点击DISPLAY键后，系统按所选格式全部检索结果。如果只需要显示其中一部分记录，则需点击该记录左边的查询框，使标记后，再点击Display键；如果只需显示一条记录，则可直接点击该记录中的作者姓名超链接，系统会自动显示该记录的文摘格式。还有一点，系统所设定的默认值为每页显示20条选项，这点可以在SHOW后的下拉菜单处选择。如果选中所感兴趣的内容，即可进行保存，打印等等操作。PubMed系统允许最多可保存5000条记录。要保存全部检索结果时，打开Summary下拉菜单选择其中一种格式，然后点击Save键；要保存特定记录时，点击记录左边的选择框予以标记后，再点击Save键。使用浏览器的打印功能，即可把感兴趣的内容打印出来。系统允许每页最多显示500条记录。如果想打印成文本格式，请先点击Text键，然后再打印。 PUBMED 高级检索技巧即Limits按钮,Preview/Index按钮,History按钮,Clipboard按钮,及Details按钮。 1. Limits按钮 2Preview/Index按钮在按下Preview/Index按钮之后，我们可以进行的设定有：在显示条目之前显示所查到的文献数。随时通过增加查询单词来修改查询方案。在特定的搜索域中向方案里加入查询词。从Index中查看并选择词语来修改查询方案。在你修改查询时查看方案。 Preview(预览) 使用此功能可以在显示条目之前显示所查到的文献数。使用时，在输入框中键入搜索词，然后单击Preview，PubMed返回的信息是条目的数量。 Index（索引）使用此功能,可以从特定域中选择以索引的单词，并把他们加入查询方案之中;可以查看某一个特定搜索域中词语列表；也可以使用布尔运算符来建立一个查询方案。 3History按钮 History（历史记录）：作为PUBMED的“四大金刚”之一，至少有50的人忽略了它的好处。历史记录中保存的是你所有的查询方案与查询结果，只有当你运行了一次查询之后，History中才有内容。History屏幕将会显示：你的查询方案、查询时间、查询到的文献数量。Preview显示的是历史记录中最近的三条记录，而使用History可以看到最近100次的查询结果。一旦查询数量超过100，PubMed会将最早的查询除去，加进最新的一次查询。如果两次查询内容相同，PubMed会将头一次的去除。此外，如果你打开的PubMed（或者Entrez提供的其他数据库）有一个小时都没有任何检索动作，系统也会自动清空历史。显而易见的是，通过History，我们可以对本次检索过程一目了然，你只要点击每个条目后面的Results，就可以直接看到该条目的检索结果。更重要的是，你可以根据History所提供的信息，决定如何进一步调整检索策略，以便得到尽可能满意的结果。以上图为例，你发现在9:23分的那次检索中，用chicken, pox,vaccine为关键字，Limits中设置为英语和综述，得到了113条结果。但你可能发现其实你的研究主要以儿童为对象，需要进一步对此加以限制，那么你该怎么办呢？其实在History中非常简单，只需在检索框里输入那次检索对应的序列号#3，AND child。这就表示其他检索条件不变，仅在原来基础上增加了一个关键字child。这样是不是很方便呢？同样，如果你希望把某两次检索条件合并去重新检索（如#2和#6），只要输入#2 AND #6即可。需要特别强调的一点是，如果你发现你的系统不能使用History，那么很可能是因为你的浏览器设置成Disable Cookies。遇到这种情况，只要到浏览器的功能设置界面中取消这一限制即可。（注意:在HISTORY中输入检索式后按回车的效果与按PREVIEW按钮是一样的，即仅显示检索结果有多少篇，但按GO按钮之后就会跳出HISTORY进入题名或文摘界面,再进HISTORY时就需切换一下,有点麻烦） 4Clipboard按钮剪贴板可以帮助你保存或查看在一个或多个查询中选择的条目，然后就可以打印、保存、订购剪切板中的内容了。将条目左边的复选框选中，单击Add to clipboard就可以将其加入剪切板中。当点击Clear History可以将History中的所有内容清除。剪切板中最大的储存数是500条。而放在剪切板中的内容如果在一小时内没有任何操作，将会自动消失。点击Features Bar（特征条）上的Clipboard则可以查看剪切板中的内容，如果要删除剪切板中的某些条目，先将其左面的复选框选中，然后点击Remove from clipboard按钮；要想清空剪切板，不选任何条目，单击Remove from clipboard按钮。如果要保存剪切板中的内容，首先选择一种显示方式，选中你想要的条目（如果想保存所有的条目，则哪个也不选），点击Save按钮即可。 5Details按钮 Details是用于帮助你查看PubMed的检索策略。即在提问框中键入的检索词被PubMed自动地转换成了那些词，并使用了什么样的检索规则和检索语法。此外，使用Details键可以对检索策略进行编辑，然后再一次检索。在PubMed Query框内显示的是PubMed实际使用的检索策略和语法。该框下有四个区域：Result区显示检索结果的记录总数，点击这个数字，可回到检索结果显示屏；Translation区显示检索词转换的详细情况；Database区显示检索的数据库；User Query区显示用户键入的检索词或检索式。要对检索策略进行编辑可直接点击PubMed Query框中的检索策略，将其增加、删除或修改后点击Search键。除了以上五个主要功能键以外，利用PubMed提供的其他一些功能，如MeSH等，也可以在很大一部分程度上提高我们的检索效率。在以后的若干章里，我们将会以详尽的笔墨来系统的剖析这些功能用法。显示检索文献(RetrievingDocuments) 当检索结果的文献数目较少，且能满足需要时，按“Retrieve（检索）”按钮即显示检索到的文献内容列表，包括文献的标题(title)，作者(author)及出版杂志、页码及日期(年)，这个列表称为文献摘引列表(DocumentSummaryPage)。可根据需要显示详细内容，每条文献均有好几种显示格式： Citationreport(引录格式)包含引录杂志，文章标题，作者联系地址，摘要，MeSh词，化学物质规范名，以及MedLine和PubMed特定标识号。 Abstractreport(摘要格式)包含引录杂志，标题，作者，地址或联系处以及摘要。 MEDLINEreport(MEDLINE经典格式)可用来下载并收入目录型数据库(bibliographicdatabase)。 ASN.1report(ASN.1格式)指文献整个的结构格式，显示相关蛋白质或核苷酸的相关文献。在某些文献还能连接到提供全文的杂志。查询结果的显示选择查询结果的显示选择框(Display)中有8种显示方式可供选择，可按各自需要获取信息。引录格式(Citation report) 摘要格式(Abstract report) MEDLINE.格式(MEDLINE report) ASN.1格式(ASN.1 report) MEDLINE网邻(MEDLINE Neighbors) 蛋白质数据库相关蛋白质(Protein links) 核苷酸数据库相关基因(Nucleotide links) 相关基因组(Genome links) 如在Protein links显示选择中能检索到相关蛋白质，还能进一步报告这些相关蛋白质的详细信息：基因推导的蛋白质序列(GenPept report) MEDLINE相关文献(MEDLINE links) 类邻蛋白质(Protein neighbors) FASTA格式(FASTA report) 核苷酸数据库相关基因(Nucleotide links) ASN.1格式(ASN.1 report) 结构数据库相关结构(Structure links) 相关基因组（Genome links） MeSH Browser （医学主题词浏览器） MeSH是Medical Subject Headings的缩略词，即医学主题词，是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定，浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词，其中论述文献中心的主题词称主要主题词（major topic headings），论述主题某一方面的内容的词称为副主题词。可以从PubMed首页上点击PubMedServices下方的MeSHBrowser即可进入以下界面。举例说明，如果你想要检索Neoplasms和bone的相关文献，首先在MeSH Browser的检索框内输入检索词Neoplasms，然后点击Browse按钮，系统显示其定义及在树状等级结构中的位置，如下图。在这里，检索系统将显示详细的内容，可选择特定的副主题词，也可进行主要主题词或单个主题词检索，其选项如下：（1）Add the search to the following subheadings：点击副主题词前的方框，表示选中该副主题词，可连续选择多个词，它们之间的逻辑关系为OR。（2）Restrict Search to Major Topic headings only：若将检出结果限定在主要主题词（Major Topic Heading）则可提高查准率。（3）Do Not Explode this term：系统要检索某一主题词时，会自动扩展检索（Explode），即将该主题词的下位词一并检出。如果只需检索单个主题词，可点击此按钮。完成上述选项后，点击Add按钮，稍后在下一屏Current Query的方框中将显示所选的主题词。然后，我们再在MeSH浏览器内输入bone, 按检索按钮，系统会告诉你bone不是一个主题词，但它会自动将其转换成主题词Bone and Bones, 同样，其下方也会显示出其定义及在树状等级结构中的位置。你一样可以选择Detailed display以便进行更为精细的选择，选择完成后，点击Add按钮，则进入下面的界面。这时，你只需点击PubMed Search按钮即开始检索，查询出用这两个主题词为关键字以及所选择的相应逻辑关系的文献检索结果。总而言之，主题词检索法虽然稍嫌繁琐，但其检索结果的准确性高，遗漏率低，是最佳的检索方法，一旦熟练掌握，将使得我们的检索工作事半功倍。链接与包厢服务相关PubMed文章链接（Related PubMed Articles Link）细心一点的用户一定早已注意到在检索结果中，每一个条目的右面都有一个Related Articles（相关文章）的链接。点击这个按钮，PubMed自动把数据库中的文献与该条目的标题、摘要和医学主题词进行比较，从而得出与该条目相关的文献条目，并且按照相关系数由高到低的顺序排序。这其实是一个很有用的功能。因为我们在检索时，自己输入的关键字常常可能并不十分贴切，导致无法得到所有相关的文献。常见的一种情况是，我们在几十个检索结果中浏览时，突然发现有某一篇才是我们真正想要的，这时，你不妨点击其右面的Related Articles键，让系统自动去对比，从而得到更多的相关文章。但值得提醒的是，用RelatedArticles功能得到的文献并不受Limits键影响。比如，你开始检索时要求是英文文献，在当由Related Articles链接入相关文献时，则不受此限制，可能出现法文等其他语种的文献。那么，我们是否可以对此加以限制呢？其实，我们只要应用前面介绍过的History（历史）功能键就可以了。点击History，你会查到所有你检索过的条目，包括相关链接，标记为 Link to PubMed from XX. ，你只要在检索框中输入其相应的序列号，再加上限制词即可。如#3 AND english la；#14 AND 1996:1999 dp等等，就分别表示对#3的结果再次筛选，只要其中的英文文献；而#14只要从1996年到1999年之间的文献。 LinkOut 功能 LinkOut功能允许你在PubMed中检索时，也能链接入那些与PubMed建立联系的网站，如某篇文献所对应期刊的出版商，文献全文等等。有LinkOut的文献会在其条目或摘要的旁边显示一个出版商的图标，点击这个图标即可链接进入该出版商的网站。 Cubby（包厢服务）从PubMed主页上面的点击Cubby，便进入了一个为你提供个性化服务的窗口。首先，你需要注册，获得一个用户名和密码。注册成功后，即可登录开始享受为你度身定制的包厢服务了。那么，利用Cubby到底能够为你提供那些服务呢？最主要的功能是，它可以存储你的检索信息。步骤如下： 1运行或者预览你的检索。利用Cubby就可以存储你检索时所使用的关键字和限制方法。 2点击Cubby，系统将显示你检索时的信息。 3在Store in Cubby键钮上方的框内为本次检索命名，例如Headaches in Preschool Children, Dr. Johnsons Arthritis Update等等。 4点击Store in Cubby键钮。保存，打印及其他一旦找到所需要的文献，那么接下来的任务就是把检索结果保存或者打印出来，供我们日后仔细阅读。有不少人在浏览器中采用全选，然后另存为的办法，但往往无法准确保存页面。其实PubMed早就为你考虑到了这一点。 Save(保存) 如果需要保存查询结果，先在Display下拉菜单中选择所需显示格式，选择所需保存的条目，然后点击Save按钮。而如果你没有选定任何一个条目，直接点击Save按钮，系统将保存所有检索得到的条目，但至多不超过10000条，一旦你想保存的超过这个书目的内容，PubMed将显示一条提示你修改查询的信息。如果你需要保存多次检索的内容，建议你使用Clipboard（剪切板）功能。方法如下： 1使用Add to Clipboard（添加到剪切板）功能把每次检索结果或所选择的条目加入剪切板。 2Clipboard（剪切板）最多可包含500个条目。 3当你把所需要的条目都添加至Clipboard后，在Display下拉菜单中选择格式。 4点击Save。系统会提示你选择该文件的存放位置，并为该文件命名。我建议大家使用以TXT为后缀的文本文件格式，因为这样便于在不同的文本处理程序中阅读，如simpletext,word等。 Printing（打印） Printing（打印）过程与Save(保存)很相似，在此不再赘述。你当然也可以先把查阅到的文献条目保存成文本文件，然后在文本处理程序中调整后再进行打印。这样或许可以节省你不少纸张。至此，我们已经介绍完了PubMed的主要检索技巧及其常用的功能键，利用这些技巧，你将如虎添翼，不再会为检索文献而烦恼。 Journal DataBase： PUBMED不光提供了许多全文链接，而且其JournalDatabase功能也很有用。当你看到一篇参考文献而不知道期刊全名时，用JournalDatabase搜一下就可以了，然后把全名往GOOGLE里一贴，就可以找到这本期刊的网站了。JournalDatabase另一个重要功能是提供网上全文期刊目录，对于哪本杂志被哪些数据库收录、收录了哪几年的都有详细的说明。由于数据库之间存在交叉收录现象，所以知道这些信息是非常有用的。 NCBI其他资源的获取在NCBI主页的第四部分，NCBI以超链的形式列出了与GenBank有关的其他资源，即肿瘤基因组解剖计划(Cancer Genome Anatomy Project，CGAP)、人类基因组基因图谱(Gene Map of the Human Genome)、人鼠特有基因序列集(Unique Human Gene Sequence Collection for Human and Mouse，UniGene)、Clusters of Orthologous Groups、孟德尔人类遗传学联机数据库(Online Medelian Inheritance in Man,OMIM)、表达序列标志数据库(Database of Expressed Sequence Tags,dbEST)、基因搜寻序列数据库(Database of Genome Survey Sequence,dbGSS)、序列标志位点数据库(Database of Sequence Tagged Sites,dbSTS)、电子PCR(Electronic PCR)、分子模型数据库(molecular Model Database,MMDB)、NCBI分类学(NCBI Taxonomy)、开放阅读框架查询器(Open Reading Frame Finder,ORF Finder)以及人/鼠同源图谱(Human/Mouse Homology Maps)。下面主要介绍肿瘤基因组解剖计划(CGAP)、人类基因组基因图谱、人鼠特有基因序列集（UniGene）、孟德尔人类遗传学联机数据库(OMIM)、分子模型数据库(MMDB)、NCBI分类学、开放阅读框架查询器(ORF Finder)以及人/鼠同源图谱。一、肿瘤基因组解剖计划(CGAP) 众所周知，肿瘤的发生是单个细胞基因改变累积所致，这就为我们攻克癌症提供了一种新方法。通过测定癌症发生、发展各个阶段单个细胞的基因全貌，有助于癌症的预防、早期检测、诊断和最佳治疗方案的选择。挑取单个细胞，获取其分子标志，不仅有助于了解癌细胞与正常细胞的差异以及正常细胞向癌细胞转化的基因改变，而且有助于获得用于肿瘤检测的敏感而特异的分子标志，明确不同肿瘤之间的分子差异以及组织学差异，还有助于了解肿瘤发展的最初阶段对治疗的反应如肿瘤生长的速度、是否转移，应选用哪种治疗方案。为此，国家癌症研究所(National Cancer Insititute,NCI)宣布建立肿瘤基因组解剖计划，其总体目标是获取正常的、癌前的和癌性细胞完整的分子特性。肿瘤基因组解剖计划最初目标在于建立一个资源、信息和技术的基本框架，为最终后完成该计划奠定坚实的基础，这些目标是：（1）建立肿瘤基因索引对肿瘤细胞进行完整的分子分析的重要步骤之一是建立肿瘤基因索引，其目的在于建立肿瘤表达基因数据库，各研究机构能够获取其数据用于肿瘤分子分析。肿瘤基因索引不仅包括cDNAs，而且包括DNA序列及其基因定位。NCI已经选择乳腺癌、前列腺癌、肺癌、结肠癌、卵巢癌等，开始建立肿瘤基因索引。肿瘤基因索引为肿瘤研究机构提供了一个综合性的资源，首次在分子解

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

NCBI的检索.doc

文档简介

温馨提示

最新文档

评论

相关文档