版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2.1信息检索原理、类型与方式一、信息检索原理信息检索的基本原理是:通过对大量的、分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识(特征标识是指从自然语言中精选出来的并加以规范化处理的一套特殊符号或代码)达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。下一页返回2.1信息检索原理、类型与方式
信息存储工作包括信息收集、信息加工整理,最后形成有序的、具有存储标志的信息数据库;广义的信息检索包括信息的存储和检索两个过程。信息的存储就是将收集到的一次信息,经过著录其特征(如题名、著者、主题词、分类号等)而形成款目,并将这些款目组织起来成为二次信息的过程。所谓著录,是指在编制目录时,对具体文献的各种形式特征、内容特征及物质形态等进行分析、选择和记录的过程。信息的检索是针对已存储好的二次信息库进行的,是存储的逆过程。上一页下一页返回2.1信息检索原理、类型与方式
在信息存储过程中,信息存储人员需要对文献信息进行标引。标引就是将文献和提问的内容特征用信息检索语言的形式表达出来的过程。当使用分类号来表达文献内容时就叫作分类标引;当使用主题词来表达文献内容时就叫作主题标引。标引的目的在于将文献和提问的内容特征翻译成简短明了的信息检索语言,以便对文献进行检索。然而,由于职业、知识水平、个人素质甚至习惯等因素的差异,信息存储者(标引者)与信息检索用户(检索者)对同一信息的分析、理解也会存在不同。比如《计算机在生物化学中的应用》一文,标引者可能将其归人“生物化学”类,而检索者则可能在“计算机”类查找该文。这样,标引者与检索者之间发生了标引错位,存储的信息就无法检索到。怎样才能保证信息存得进又取得出呢?那就是存储与检索所依据的规则必须一致,也就是说,标引者与检索者必须遵守相同的标引规则。这样,无论什么样的标引者,对同一篇文献的标引结果均一致,不论是谁来检索,都能查到这篇文献。上一页下一页返回2.1信息检索原理、类型与方式
信息存储与检索共同遵循的规则称为信息检索语言。只要标引者和检索者用同一种检索语言来标引要存入的信息特征和要查找的检索提问,使它们变成一致的标识形式,信息的存储过程与检索过程就具备了相符性。相应地,存入的文献也就可以通过信息检索工具(系统)检索出来。如果检索失败了,那么就要分析一下检索提问是否确切地描述了待查课题的主题概念,在利用检索语言标引时是否出了差错,从而导致检索提问标识错误。只有检索提问标识和信息特征标识一致时,相关的文献才能被检索出来。信息检索正是以信息的存储与检索之间的相符性为基础的,如图2-1所示。如果两个过程不能相符,那么信息检索就失去了基础。检索不到所需的信息,存储也就失去了意义。上一页下一页返回2.1信息检索原理、类型与方式二、信息检索类型掌握了信息检索的原理,就有必要了解信息检索的类型。按照不同的标准,信息检索可划分为不同的类型,其特点也各不相同。1.按照使用不同的工具和手段划分
1)手工检索手工检索(ManualRetrieval)简称“手检”,是指人们通过手工的方式来存储和检索信息,其使用的检索工具主要是书本式、卡片式的信息系统,即目录、索引、文摘和各类工具书。检索过程是由人工以手工的方式完成的。检索者根据文献标引规则查阅有关文献,是手工检索方法的基本功之一。利用手工检索,灵活性高,费用低,又能与机检互为补充,在今后相当长时间内,手工检索方法仍是重要的检索手段。上一页下一页返回2.1信息检索原理、类型与方式2)计算机检索计算机检索(Computer-basedRetrieval)简称“机检”,是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息的过程,其检索是在人机的协同作用下完成的。为实现这种信息检索,必须事先将大量的原始信息加工处理、存储在各种信息载体上待用,所以计算机信息检索广义上讲包括信息的存储和检索两个方面。计算机会从其存储的大量数据中自动分拣出与用户提问相匹配的信息,而用户则是整个检索方案的设计者和操纵者。计算机检索的本质没有发生变化,发生变化的只是信息的载体形式、检索手段、存储方式和匹配方法。上一页下一页返回2.1信息检索原理、类型与方式2.按照信息检索内容划分
1)文献信息检索凡是利用目录、文摘或索引等二次信息查找有关信息以及这些信息的出处和收藏单位等,都属于文献信息检索(DocumentRetrieval)范畴,其检索的结果是文献信息。它们是文献信息的外部特征与内容特征的描述集合体。信息用户通过检索获取的是原文的“替代物”。
2)数据信息检索利用参考工具书、数据库等检索工具检索包含在文献中的某一数据、参数、公式或化学分子式等,统称为数据信息检索(DataRetrieval)。其检索结果为数据信息。信息用户可用通过检索获得的经过核实、整理的数值信息再作定量分析。上一页下一页返回2.1信息检索原理、类型与方式3)事实信息检索凡是利用百科全书、数据库等检索工具从存储事实的信息系统中查找出特定事实的过程称为事实信息检索(FactRetrieval)。其检索结果是基本事实。它是数值信息和系统数据信息的混合。一般先从系统中检索出所需信息后,再加以逻辑推理才能给出结论。文献信息检索是一种相关性的检索,检索的结果是文献线索,还必须进一步查找才能检索到有关的一次信息;数据与事实信息检索是一种确定性检索,检索的结果是可供用户直接利用的信息。一般情况下,文献信息检索通过二次信息来实现,而数据与事实信息检索则通过三次信息来完成。上一页下一页返回2.1信息检索原理、类型与方式三、信息检索方式人们获取信息的方式通常有两种:直接检索、间接检索,本文所描述的检索原理主要针对后者而言。1.直接检索直接检索就是从浏览、阅读文献中(主要指一次文献)获取所需要的信息过程,它是研究者习惯使用的方法,具有以下几个突出优点。
(1)易于把握文献信息实质内容。
(2)可直接对信息内容进行判断取舍。
(3)简便易行。
(4)信息获取速度快,时效高。但直接检索信息方式有以下几个难以避免的严重缺陷:(1)信息传递与交流的速度较慢。
(2)所获信息量只占信息总量的很小的部分。
(3)检索者受语言、地理等因素影响较大。上一页下一页返回2.1信息检索原理、类型与方式2.间接检索间接检索就是以检索工具(主要是二次文献和部分三次文献)为导向,进而查找原始文献以获得所需信息的过程,其优越性有以下几点。
(1)使盲目的分散检索成为有目的的集中检索,因为检索工具将分散在不同学科、不同类型、不同语种中,但主题内容相同的文献集中在一起,这样就可避免直接检索的分散性、盲目性,大幅度提高检索效率。
(2)检索工具中的信息源不限于某一个或儿个信息机构,这样就可以为读者提供广泛的信息来源。
(3)提供有规律的检索途径,因而检索者只要掌握检索工具所提供检索途径的规律性,就可以实现有效的信息检索。上一页下一页返回2.1信息检索原理、类型与方式(4)消除语言障碍,因为检索工具通常只用一种文字(主要是英文)写成,检索者只需掌握常用文种,即可实现多语种信息检索。
(5)检索工具通常提供相关主题的题录或文摘而不是全文,因而可加快检索速度。由此可见,间接检索相对直接检索更科学,在实践中若能有机结合,则能相得益彰。上一页返回2.2信息检索语言与工具一、信息检索语言1.信息检索语言及其作用1)检索语言的概念检索语言(RetrievalLanguage)是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。简言之,检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。下一页返回2.2信息检索语言与工具2)检索语言的作用检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。检索语言的主要作用如下:①标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性。②对内容相同及相关的文献信息加以集中或揭示其相关性。③使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索。④便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性。⑤保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。上一页下一页返回2.2信息检索语言与工具2.信息检索语言的类型目前,世界上的信息检索语言有几千种,依其划分方法的不同,其类型也不一样。下面介绍两种常用的检索语言划分方法及其类型。
1)按照标识的性质与原理划分
(1)分类语言(ClassificationLanguage):是指以数字、字母(即分类号)或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。上一页下一页返回2.2信息检索语言与工具尽管分类表的类型很多,但它都有一个基本结构,即由正表、附表、说明和索引组成。而正表是主要部分,它由类号、类名、注释3部分组成。现在,我国广泛应用的主要是《中国图书馆分类法》(简称《中图法》)、《中国科学院图书馆图书分类法》(简称《科图法》)、《中国人民大学图书馆图书分类法》(简称《人大法》),国外应用最多的是《国际十进分类法》(简称《UDC》)、《杜威十进分类法》(简称《DDC》)、《美国国会图书馆图书分类法》(简称《LC》)。上一页下一页返回2.2信息检索语言与工具
我国各类型图书馆使用最多的为《中国图书馆分类法》,《中国图书馆分类法》原称《中国图书馆图书分类法》,是我国建国后编制出版的一部具有代表性的大型综合性分类法,自1999年第四版起更名为《中国图书馆分类法》,英文译名为ChineseLibraryClassification,英文缩写为CLC。《中图法》的编制始于1971年,先后出版了四版,即1975年出版的第一版,1980年出版的第二版,1990年出版的第三版,1999年出版的第四版,此外,1973年还出版了试用版。《中图法》与国内其他分类法相比,编制产生年代较晚,但发展很快,它不仅系统地总结了我国分类法的编制经验,而且吸取了国外分类法的编制理论和技术。目前,《中国图书馆分类法》已普遍应用于全国各类型的图书馆,国内主要大型书目、检索刊物、机读数据库,以及《中国国家标准书号》等都著录《中国图书馆分类法》分类号。至四版为止,《中国图书馆分类法》为5大部类,22个大类(详见附录),53811个类目(包括专用和通用类目)。上一页下一页返回2.2信息检索语言与工具《中图法》的标记符号分类法是由类号和类目组成的集合。类号是文献信息概念的表示符号,通常由字母、数字或其组合构成。其主要作用就是简明系统地表示每个类目在分类体系中的位置,以便组织分类目录。类目是具有共同属性的一组概念,类号和类目一一对应,密不可分。
《中图法》标记制度采用汉语拼音字母与阿拉伯数字相结合的混合制号码,以字母顺序反映大类序列。另外在工业技术大类中,由于学科较多,为了便于细分,一级类目也用字母代表,其余二级、三级、四级……类目用阿拉伯数字细分。当数字超过3位时,为了易读易记,在第三位后加小圆点“.”,称为间隔符号。上一页下一页返回2.2信息检索语言与工具(2)主题语言(SubjectLanguage)是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。主题语言又可分为标题词、元词、叙词、关键词。①标题词(SubjectHeading)语言是以标题词作为文献内容标志和检索依据的一种主题语言,是指从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。标题词是主题语言系统中最早的一种类型,它通过主标题词和副标题词固定组配来构成检索标识,只能选用“定型”标题词进行标引和检索,反映文献主题概念必然受到限制,不适应时代发展的需要,目前已较少使用。常用的标题词表有:EI所用的《工程标题词表》(SubjectHeadingsforEngineering,SHE)、《美国国会标题词表》(LibraryofCongressSubject)。标题词语言的特点是词语规范,专指性强,查全率高。但因其固定组配,灵活性较差,不方便自由检索。上一页下一页返回2.2信息检索语言与工具②元词(Uniterm)又称单元词,是指从文献中抽取出来的,能表达文献主题的最基本、不能再分的单元词语。它从文献内容中抽出,经过规范,能表达一个独立的概念,具有灵活的组配功能。元词是不能再分解的概念单元的规范化词,用来标引文献的主题概念。具有灵活的组配性,但是字面的组配不是概念的组配。例如,对于“公路桥梁”这一概念,按元词的做法是通过“公路”和“桥梁”这两个元词组配来表达该概念,而标题词则直接选用“公路桥梁”这个词组表达它。实际上,表达事物概念,除了单一概念外,还有许多的复合概念,由于科技不断发展,元词语言已不能适应信息检索的要求,因此,它已被更先进的叙词语言取而代之上一页下一页返回2.2信息检索语言与工具③叙词(Descriptor)是指从文献内容中抽取出来,能概括表达文献内容基本概念的并经过规范化的名词或术语。随着计算机技术的广泛应用,为了适应计算机检索的需要,叙词于20世纪60年代产生,它是在标题词、元词和分类的基础上发展起来的一种新型的检索语言。它既吸收了分类语言的优点编制了叙词分类索引和等级索引,又吸收了标题词语言的优点编制了参见著录项目。因此,叙词语言既适用于手工检索,又特别适用于计算机检索。叙词特点是具有组配性,通过概念组配来表达主题。两个或两个以上的叙词组配在一起,形成一个新概念,数量不多的叙词可组成许多概念,便于提高标引专指性和检索的灵活性。叙词语言是一种规范化的检索语言,在检索时可由多个叙词组成任意合乎逻辑的组配,形成多种检索方式。叙词综合了多种信息检索语言的原理和方法,具有概念性强、规范化程度高、检索灵活等特点,适用于计算机和手工检索系统,是目前应用较广的一种语言。常用的叙词表有:INSPEC的词表((INSPECThesaurus》,EI的《EIThesaurus》及我国编辑出版的《汉语主题词表》等。上一页下一页返回2.2信息检索语言与工具④关键词(Keyword)是自然语言,直接取自文献的题名、文摘等,或者取自全文。除乐禁用词(Stop-Term,如一些冠词、介词、副词或连词外,凡在概念上有意义的词都可用作关键词,它确保检索用词与文献记录中的词汇完全一致。关键词有词表,一般按字顺排序,由关键词作索引标目的就是关键词索引,这些关键词可以进行组配。其特点是专指性强,查准率高,使用方便,广泛用于计算机和手工检索系统。但因其不是规范语言,存在大量同义词、多义词,容易引起误检或漏检。
(3)代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。上一页下一页返回2.2信息检索语言与工具2)按照表达文献的特征划分
(1)表达文献外部特征的检索语言:主要是指文献的题名、责任者、文献编号等。将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,所形成的以篇名、作者及号码的检索途径来满足用户需求的检索语言。这些可以表征一篇特定文献的特征可以标识在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。
(2)表达文献内容特征的检索语言:按其结构原理可划分为分类语言、主题语言和代码语言3大类型,这类检索语言在揭示文献特征与表达检索提问方面具有更大的深度,在结构与使用规则方面比表达外部特征语言复杂,因此对表达文献内容特征的检索语言成为研究的主题及核心。按照文献的特征划分的检索语言可用图2-2简单表示。上一页下一页返回2.2信息检索语言与工具
文献的外表特征与文献是一一对应的,即一组外表特征只对应一篇唯一的文献,而文献的内容特征与文献却是一种模糊的对应关系,即一篇文献有多个主题词(关键词)或分类号,一个主题词(关键词)或分类号也可对应多篇甚至几百篇文献。正因为存在这两种对应关系,使得两种特征的用途大不相同。利用外表特征只能检索出很少的文献,有时只用于特定情况下(如已经知道作者名等)。利用内容特征一次能检索出一批文献,这对研究者来说是极其有用的。上一页下一页返回2.2信息检索语言与工具二、信息检索工具1.检索工具的涵义检索工具是指用以报导、存储和查找文献线索的工具。它是附有检索标识的某一范围文献条目的集合,是二次文献。一般说来,检索工具应具备以下5个条件。
(1)明确的收录范围。
(2)有完整明了的文献特征标识。
(3)每条文献条目中必须包含有多个有检索意义的文献特征标识,并标明供检索用的标识。
(4)全部条目科学地、按照一定规则组织成为一个有机整体。
(5)有索引部分,提供多种必要的检索途径。上一页下一页返回2.2信息检索语言与工具2.检索工具的类型目前可供人们使用的检索工具有很多,不同的检索工具各有特点,可以满足不同的信息检索的需求。检索工具有不同的分类方法,常见的有以下几种。
1)按检索手段划分检索工具按检索手段不同,可分为手工检索工具和机器检索工具。
(1)手工检索工具:亦称传统检索工具,它是由人直接参与查找文献的检索工具,如各种目录、文摘、索引、题录等。
(2)机器检索工具:是借助于某些机器设备(主要是电子计算机和数据库)查找文献和信息的检索系统,如光盘检索系统、电子计算机检索系统、联机检索系统等。这是文献信息检索工具的发展方向。上一页下一页返回2.2信息检索语言与工具2)按载体形式划分按信息检索载体形式划分,信息检索工具可分为书刊型检索工具、卡片型检索工具、机读型检索工具和缩微型检索工具。
(1)书刊型检索工具:是以图书、刊物形式出版的常用检索工具。它又可分为期刊式、单卷式和附录式。
(2)卡片型检索工具:就是将文献的主题、分类、著者和文献题名等检索标识著录在卡片上,并将这些卡片按一定的方法排列成逻辑有序的传统检索工具,它是图书情报系统为揭示本单位藏书以备读者查阅的传统形式。上一页下一页返回2.2信息检索语言与工具(3)机读型检索工具:是以光、电、磁等作为存储和传递的介质,以计算机为主要手段进行信息检索的工具。它包括磁带、磁盘、光盘以及网络检索数据库等各种形式。这种检索工具是目前发展迅速、应用广泛和使用便捷的新型检索工具,是检索工具今后发展的主导形式和方向。
(4)缩微型检索工具:又称COM式的检索工具,它是指计算机输出缩微品(ComputeOutputMicrofiche)目录。有平片与胶卷两种形式。它由计算机将存储于存储器里的书目数据,按照人们指定的格式与排列系统进行输出,然后加以缩微照相而得到的胶卷式或胶片式目录。上一页下一页返回2.2信息检索语言与工具3)按照著录格式的不同划分。按照著录格式的不同划分,信息检索工具可分为目录型检索工具、题录型检索工具、文摘型检索工具和索引型检索工具。
(1)目录(BibliographyCatalogue)型检索工具是记录文献具体出版单位、收藏单位及其他外表特征的工具。它以一个完整的出版或收藏单位为著录单元,一般著录文献的名称、著者、文献出处等。目录的种类很多,对于文献检索来说,国家书目、联合目录、馆藏目录等尤为重要。
(2)题录(Title)型检索工具是以单篇文献为基本著录单位来描述文献外表特征(如文献题名、著者姓名、文献出处等),无内容摘要,快速报道文献信息的一类检索工具。题录与目录的主要区别是著录的对象不同。目录著录的对象是单位出版物,题录的著录对象是单篇文献。上一页下一页返回2.2信息检索语言与工具(3)文摘(Abstracts)型检索工具是将大量分散的文献,选择重要的部分,以简练的形式做成摘要,并按一定的方法组织排列起来的检索工具。按照文摘的编写人,可分为著者文摘和非著者文摘。著者文摘是指按原文著者编写的文摘;非著者文摘是指由专门的熟悉本专业的文摘人员编写而成的文摘。就其摘要的详简程度,可分为指示性文摘和报导性文摘两种。指示性文摘以最简短的语言写明文献题目、内容范围、研究目的和出处,实际上是题目的补充说明,一般在100字左右;报导性文摘以揭示原文论述的主题实质为宗旨,基本上反映了原文内容、讨论的范围和目的、采取的研究手段和方法、所得的结果或结论,同时也包括有关数据、公式,一般500字左右,重要文章可多达千字。
(4)索引(Index)型检索工具是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元,如书名、刊名、人名、地名、语词等,按照一定的方法编排,并指明出处,为用户提供文献线索的一种检索工具。索引的类型是多种多样的,在检索工具中,常用的索引类型有分类索引、主题索引、关键词索引、著者索引等。上一页返回2.3信息检索的方法、途径与程序一、信息检索方法查找信息的方法分为如下3种。1.直接法直接法是指直接利用检索工具(系统)检索文献信息的方法,这是信息检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。
1)顺查法顺查法是指按照时间的顺序,由远及近地利用检索工具进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献信息检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。下一页返回2.3信息检索的方法、途径与程序2)倒查法倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献信息检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。3)抽查法抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。上一页下一页返回2.3信息检索的方法、途径与程序2.追溯法追溯法是指不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大情报来源的方法。它还可以从查到的“引文”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的内容相关文献。参考文献列于文后,正文中也须用上角标标出引用文献的序号。参考文献用“顺序编码制”,即各篇文献按其在正文中的标注序号依次列出。参考文献条目著录:个人著者采用姓在前,名在后的著录格式。作者3人以下全部著录,4人以上只著录前3人,之间加“,”,后加“等”或“etal"。上一页下一页返回2.3信息检索的方法、途径与程序1)参考文献类型及标识专著:M;论文集:C;报纸文章:N;期刊文章:J;学位论文:D;报告:R;标准:S;专利:P;其他:Z;数据库:DB;计算机程序:CP;电子公告:EB。
2)参考文献编排格式
(1)专著,格式如下:[序号]作者.文献题名[文献类型标识].出版地:出版者.出版年,起止页码(任选).
范例:[1]唐绪军.报业经济与报业经营[M].北京:新华出版社,1999:117-121上一页下一页返回2.3信息检索的方法、途径与程序(2)期刊文章,格式如下:[序号]主要责任者.文献题名[J].刊名,年,卷(期):起止页码.
范例:[5]肖凯军.大豆分离蛋自的酶法改性[J].食品科学,1995,16(9):30-34.(3)论文集,格式如下:[序号]作者.题名[C].//编者.文集名.出版地:出版者,出版年:起止页码范例:[3]郭爱民.浅谈提高图书的综合质量[C].//王君仁.编辑出版文集.大连:大连理工大学出版社,1993:70-82上一页下一页返回2.3信息检索的方法、途径与程序(4)学位论文,格式如下:
[序号]主要责任者.文献题名[D].保存地:保存单位,年份.
范例:[7]张和生.地质力学系统理论[D].太原:太原理工大学,1998.(5)报纸文章,格式如下:[序号]作者.文献题名[N].报纸名,出版日期(版次).
范例:[1]丁文祥.数字革命与竞争国际化[N].中国青年报,2000-11-20(15).(6)国际、国家标准,格式如下:[序号]标准代号.标准名称[S].出版地:出版者,出版年.
范例:[9](GB/T16159-1996.汉语拼音正词法基本规则[S].北京:中国标准出版社,1996.上一页下一页返回2.3信息检索的方法、途径与程序(7)专利文献,格式如下:[序号]专利申请者或所有者.专利题名:专利国别,专利号[P].公告日期或公开日期范例:[11]姜锡洲.一种温热外敷药制备方案:中国,88105607.3[P].1989-07-26.(8)电子文献,格式如下:[序号]作者.题名[EB/OL](发表或更新日期).[引用日期〕.网址.
范例:[2]萧钮.出版业信息化迈入快车道[EB/OL].(2001-12-19).[2002-04-15]./news/20011219/200112190019.html.上一页下一页返回2.3信息检索的方法、途径与程序3.综合法综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检索到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求为止。综合法兼有直接法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。对于查新工作中的文献检索,可以根据待查新项目的性质和检索要求将上述检索方法融汇在一起,灵活处理。上一页下一页返回2.3信息检索的方法、途径与程序二、信息检索途径检索工具有多种索引,可以提供多种检索途径。一般来讲,检索途径可以分为以下4种。1.分类途径分类途径是指按照文献信息所属学科(专业)类别进行检索的途径,它所依据的是检索工具中的分类索引。分类途径检索文献关键在于正确理解检索工具的分类表,将待查项目划分到相应的类目中去。一些检索工具如《中文科技资料目录》是按分类编排的,可以按照分类进行查找。上一页下一页返回2.3信息检索的方法、途径与程序2.主题途径主题途径是指通过文献信息的内容主题进行检索的途径,它依据的是各种主题索引或关键词索引,检索者只要根据项目确定检索词(主题词或关键词),便可以实施检索。主题途径检索文献关键在于分析项目、提炼主题概念,运用词语来表达主题概念。主题途径是一种主要的检索途径。主题词的抽取原则包括:揭示主题内容,选取专指度高的专业术语,抽取深度恰当,逻辑关系明确,词性明确(名词、动名词和名词性词组,不用形容词、副词等)。主题词抽取是否准确,直接影响文献的查全率及查准率。上一页下一页返回2.3信息检索的方法、途径与程序1)文献主题的类型
(1)单主题和多主题:这是根据文献论述与研究对象和问题的数量划分的(构成多主题的因素一定是不相容的逻辑关系,即矛盾关系或不相容的并列关系或反对关系)。如:单主题—教育理论、高等数学;
多主题—有机物与无机物、月亮和太阳。上一页下一页返回2.3信息检索的方法、途径与程序(2)单元主题与复合主题:这是根据构成文献主题结构因素多少划分的。构成复合主题的主题因素之间一定具有相容的逻辑关系,一般是属种关系、整体与部分的关系、全面与方面的关系、交叉关系、相容的并列关系。如:单元主题—量子力学、古环境、皮肤肿瘤。复合主题如下。①“事物一部分”型—人体与其心脏。②“事物一方面”型—动物饲养。③“事物一影响一受影响事物”型—计算机硬盘维修。
④“事物一比较一对照事物”型—中美图书馆学的比较。⑤“事物一关系一相关系的事物”型—鱼与水的关系。⑥“事物一应用一被应用事物”型—数学在测量技术中的应用。⑦“事物一文献类型”型—图书馆学的博士论文。⑧“事物属一种”型—油料作物花生、谷类作物玉米。上一页下一页返回2.3信息检索的方法、途径与程序(3)整体主题与局部主题:这是根据主题对文献概括范围大小划分的。一篇文章整体主题通常情况下只有一个,但局部主题可以有多个。如:“科学技术信息系统标准与使用指南五:情报文献工作标准”。整体主题—情报文献工作标准使用指南;
局部主题—文献著录标准使用指南,文献分类,叙词标引标准使用指南,文献编辑出版格式标准使用指南。上一页下一页返回2.3信息检索的方法、途径与程序(4)显性主题和隐性主题:这是根据主题对文献概括的清晰程度划分的。显性主题是指文献中直接表达出来,对文献概括清晰。隐性主题是指文献中没有直接表达出来,对文献概括模糊,不是显而易见的,而是隐含在文献内容中的主题。隐含主题具有隐含性、相对性及模糊性等特征,使得隐性主题的辨识和提炼具有一定的难度。如:“固体废物处理技术及工程应用”。显形主题—固体废物处理;
隐性主题—环境污染。上一页下一页返回2.3信息检索的方法、途径与程序(5)主要主题与次要主题:也称为中心主题和边缘主题,这是根据主题对文献内容概括的重要程度划分的。通常情况下一篇文献有一个主要主题,但是当题日中含有“与”、“和”等并列词的时候,文献就有两个主要主题了。与单主题和多主题一样,构成这种情况下的几个主要主题应该是不相容的并列关系。如:“我国土壤普查中存在的问题”。主要主题—土壤普查;
次要主题—中国。其他次要主题为隐性主题,应根据文献内容确定。
(6)专业主题与相关主题:根据主题所反映的专业属性划分。上一页下一页返回2.3信息检索的方法、途径与程序2)划分文献主题的结构所谓结构就是指关系,那么文献主题结构就是指构成文献主题的各个因素及其相互关系。划分文献主题结构的目的在于通过对主题概念分解和分析,弄清文献主题的主要成分和次要成分,掌握主题的中心部分和修饰说明部分。目前使用比较普遍的是我国著名学者刘湘生提出的文献主题标引公式“主体面一通用面一空间面一时间面一文献类型面”。其下设置了很多属性。
(1)主体因素:能反映主要特征属性的一组主题概念。所含的主题因素叫作主体因素,包括研究对象、材料、方法、过程、条件等具有独立检索意义的基本概念。在计算机检索系统中可以同时提供多个检索入口;在手工检索系统中可以同时轮排作主标题。上一页下一页返回2.3信息检索的方法、途径与程序(2)研究对象因素:事物、任务、事物的成分和事物的组成部分、学科、问题、现象。如:“教育社会心理学”的主体因素是研究对象因素“教育心理学”、“社会心理学”。
(3)方法因素:为对象因素进行操作时的措施、工艺、手段、方法、工具等。如:“小麦病虫害防治方法”的主体因素是事物和方法因素“小麦”、“病虫害防治方法”。
(4)材料因素:构成对象的物质材料。如:“铝合金板”的主体因素是事物和材料因素“金属板”、“铝合金”。
(5)过程因素:各种自然过程、社会过程和生产过程中的运动、操作、演变等。如:“动物的无性繁殖”主体因素是研究对象因素和过程因素“动物”、“无性繁殖”。上一页下一页返回2.3信息检索的方法、途径与程序(6)条件因素:对象因素存在、发展、变化、研究、操作等方面的条件。如:“叶酸维生素B缺乏病”的主体因素是研究对象因素和条件因素“维生素B缺乏病”、“叶酸”。
(7)通用因素:反映文献主题中一般通用特征属性的一组概念因素。这是文献主题中的次要部分,修饰说明文献内容的部分的次要属性因素。它们一般都不具有独立检索的意义,是主题因素的通用性复分。在计算机检索系统中不作检索入口;在手工检索目录体系中不作主标题。如:“天文仪器构造、维修、应用”的主体因素是“天文仪器”,通用因素是“器物结构”、“器物维修”、“器物应用”。
(8)空间因素:即位置因素,是反映文献主题中的空间地理位置属性的一组概念因素,如“太空”、“宇宙”等。上一页下一页返回2.3信息检索的方法、途径与程序(9)自然区域:自然区域名称,如“长江流域”。
(10)行政划分区域:国家名称、地区名称,如“中国”、“江西省”等。它是对主体因素在地理位置上的限定、修饰。同通用因素一样,不作检索人口。例如“中国通史”的“中国”为主体因素;“新疆地区人畜共患病情况调查”中的“新疆”是“人畜共患病”的位置因素,而不是主题因素。
(11)时间因素:反映文献主题中所处的时间属性的一组概念因素,如年代、时代、朝代等。一般不作检索人口和主标题。例如:古代歌曲集;1919-1949年的中国共产党党史。
(12)文献类型因素:表现该主题的文献类型因素,如期刊、手册、词典等。一般不作检索入口、不作主标题。上一页下一页返回2.3信息检索的方法、途径与程序3)分析文献主题
(1)文献主题分析步骤。文献主题分析一般分如下步骤:审读一提炼主题一主题概念的取舍。
●
审读:浏览题名、文摘;查阅简介;检查日次、文内标题、图表、数据、实例、参考文献目录;阅读序、结论、正文;查明其研究对象、中心内容、学科或专业性质、协作目的、用途等。
●
提炼主题:精练概括其主题。
●
主题概念的取舍:根据文献的类型和文献检索系统的需要进行取舍。上一页下一页返回2.3信息检索的方法、途径与程序(2)文献主题分析方法。①宏观/微观分析:宏观分析只能采用整体取舍或者概括性取舍、综合性取舍。它只能对文献主题浅分析,多用与一套、多卷或一种文献。如“自然科学宝库”,宏观分析出的主题是“自然科学”与“普及读物”或“科普读物”。微观分析只能采用重点取舍。它提炼的主题概念要深人和专指,采取深层次的分析。多用于单篇文献或文献的章、节。如在上例中,用此分析方法的主题是具体的内容如“昆虫”与“普及读物”。②概括/描述分析:概括分析比较粗略,仅分析出主体事物或整体主题,简单概括取舍;描述分析比较深入全面的分析,要指出主体事物、分析文献主题的相关事物、揭示局部主题、分析事物属性特性组成部分,表达复杂、全面,是较为常用的方式方法。例如“美国飞机设计”,前者得出的主题是“飞机”,后者得出的主题是“飞机”、“设计”、“美国”。上一页下一页返回2.3信息检索的方法、途径与程序③文献主题类型分析:确定文献主题的性质和数量,是文献决策确立的基础。④文献主题结构模式/文献主题提纲分析。文献主题结构模式实际上就是对复杂主题概念的分解过程。把概念分解上面提到的5个面中,再确定同一组面之间和不同组面之间概念因素的关系。其中符合主题中主体因素之间的逻辑关系又很复杂,可以概括为交叉关系(青年工人、轻型军用飞机、地震心理学)和限定关系日L个概念间存在着主次关系、偏正关系、比较关系、应用关系、影响关系、因果关系等,达到限定、细分、修饰和说明,如航空发动伺服机构、工业经济政策、运筹学在工业管理中的运用,造林对气候的影响)。上一页下一页返回2.3信息检索的方法、途径与程序
文献主题提纲分析主要是以提问的形式列举出儿个方面的分析要点,从主题分面结构模式、学科专业特点、不同检索语言、检索系统的特定拟定,例如:
文献研究对象?
文献研究对象的构成、结构、性质、材料、层次和关系?
文献研究对象的研究方法、设备、研究角度?
文献研究对象所处的环境、条件、时间?
文献是否有隐含主题、专业主题?是否有新观点、新论据、新方法、新设备、新材料、新工艺?
文献的写作目的、写作用途、检索途径?
文献类型?
综上所述,文献主题的取舍,是一个专业知识,这与每个人的知识、经验密不可分。实际检索中,一般结合上述方法,提取关键词方式实现,尤其是核心关键词的选定与检索的目标是紧密相关的。上一页下一页返回2.3信息检索的方法、途径与程序【例2-1】“论传统中国绘画的色彩观念”。分析:它属艺术类文献,对艺术的您来说,核心词是“绘画”、“中国绘画”、“色彩”,其次才是传统或观念。如果选定传统与观念作为核心关键词则检索结果达不到检索要求。为了提高查全率,要会联想或使用相关度或相近词检索,比如由例2-1的题目可以想到“中国图画”、“着色”、“绘画技巧”等。
【例2-2】“网页设计与网站建设的创意与思考”。可能想到的核心关键词有“网页设计”、“网站设计”、“网站建设”、“网页制作”等。选词不能固定,要根据文献的内容特征加以思考确定。上一页下一页返回2.3信息检索的方法、途径与程序【例2-3】“我国戏剧早萌晚熟原因探究”。可能涉及的关键词有“戏剧”、“中国戏剧”、“萌芽”、“成熟”,如果用“早萌晚熟”就找不到到结果,所以要注意思考如何拆词,而且要拆得有度。
【例2-4】“苏东坡历史故事”。可能涉及的关键词有“苏东坡”、“历史故事”、“中国”、“现代”。利用主题(主题词或关键词)进行检索时,还要充分应用布尔逻辑算符"and"、"or"、"not"缩检或扩检。上一页下一页返回2.3信息检索的方法、途径与程序【例2-5】“投机家的证券心理分析”。可能涉及的关键词有“股票”、“证券投资”、“市场心理学”,用“股票”、“证券投资”、“市场心理学”3个主题词进行方面组配表达股票市场证券投资心理这一主题内容。检索时,应通过布尔逻辑算符“and"、"or"、"not”的运用进行缩检或扩检,检索到该文献或者与该文献相关的文献。随着网络文化的发展,网络语言的内容处理也有异于传统文本处理。比如,网虫喜欢将“东西”说成“东东”,将“大侠”说成“大虾”,将“漂亮妹妹”说成“PPMM",将“再见”说成“88"等,且“网虫”一词本身也是一种刚流行的称呼。这些词,在现代汉语常用词典里一般是查不到的,即使查到了,意思也大相径庭,因此,类似这些网络词汇,目前就不能作为关键词检索。上一页下一页返回2.3信息检索的方法、途径与程序3.著者途径著者途径是指根据已知文献著者来查找文献的途径,它依据的是著者索引,包括个人著者索引和机关团体索引。4.其他途径其他途径包括利用检索工具的各种专用索引来检索的途径。专用索引的种类很多,常见的有各种号码索引(如专利号、入藏号、报告号等),专用符号代码索引(如元素符号、分子式、结构式等),专用名词术语索引(如地名、机构名、商品名、生物属名等)。上一页下一页返回2.3信息检索的方法、途径与程序三、信息检索程序信息检索工作是一项实践性和经验性很强的工作,对于不同的项目,可能采取不同的检索方法和程序。检索程序与检索的具体要求有密切关系,大致可分为以下几个步骤。1.分析待查项目,明确主题概念首先应分析待查项目的内容实质、所涉及的学科范围及其相互关系,明确要查证的文献内容、性质等,根据要查证的要点抽提出主题概念,明确哪些是主要概念,哪些是次要概念,并初步定出逻辑组配。上一页下一页返回2.3信息检索的方法、途径与程序2.选择检索工具,确定检索策略选择恰当的检索工具,是成功实施检索的关键。选择检索工具一定要根据待查项目的内容、性质来确定,选择的检索工具要注意其所报道的学科专业范围、所包括的语种及其所收录的文献类型等。在选择中,要以专业性检索工具为主,再通过综合型检索工具相配合。如果一种检索工具同时具有机读数据库和刊物两种形式,应以检索数据库为主,这样不仅可以提高检索效率,而且能提高查准率和查全率。为了避免检索工具在编辑出版过程中的滞后性,还应该在必要时补充查找若干主要相关期刊的现刊,以防止漏检。上一页下一页返回2.3信息检索的方法、途径与程序3.确定检索途径和检索标识一般的检索工具都根据文献信息的内容特征和外部特征提供多种检索途径,除主要利用主题途径外,还应充分利用分类途径、著者途径等多方位进行补充检索,以避免单一途径不足所造成的漏检。4.查找信息线索,索取原文应用检索工具实施检索后,获得的检索结果即为文献线索,对文献线索进行整理,分析其相关程度,根据需要,可利用文献线索中提供的文献出处,索取原文。上一页返回2.4计算机信息检索一、计算机信息检索基本知识1.检索原理计算机信息检索始于20世纪50年代,随着计算机技术、通信技术和网络技术的迅猛发展,计算机信息检索已成为信息检索服务中最重要的方式。计算机信息检索是指利用计算机存储和检索信息。具体地说,就是指人们在计算机或网络终端上使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需的信息,然后再由终端设备显示、打印的过程。计算机信息检索广义上讲包括信息的存储和检索两个方面。下一页返回2.4计算机信息检索
计算机信息存储过程就是将收集到的原始文献进行主题概念分析,根据一定的检索语言抽取出主题词、分类号以及文献的其他特征进行标识或者写出文献的内容摘要。然后再把这些经过处理的数据按一定格式输入计算机存储起来,形成机读数据库,存储在存储介质(如磁带、磁盘或光盘)上,完成信息的加工存储过程。计算机信息检索过程则是存储的逆过程。指用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序的控制下进行高速逻辑运算,选出符合要求的信息输出。上一页下一页返回2.4计算机信息检索
与传统的手工信息检索相比,计算机信息检索具有以下特点。
(1)检索速度快:手工检索需要数日甚至数周的课题,计算机检索只需要数小时甚至数分钟。
(2)检索途径多:除手工检索工具提供的分类、主题、著者等检索途径外,还能提供更多的检索途径,如题名途径等。
(3)更新快:尤其是国外的计算机检索工具,光盘多为月更新、周更新,网络信息甚至为日更新。
(4)资源共享:通过网络,用户可以不受时空限制,共享服务器上的检索数据库。
(5)检索更方便灵活:可以用逻辑组配符将多个检索词组配起来进行检索,也可以用通配符、截词符等进行模糊检索。
(6)检索结果可以直接输出:可以选择性打印、存盘检索结果,有的还可以在线直接订购原文。有的计算机检索工具甚至可以直接检索出全文。上一页下一页返回2.4计算机信息检索2.检索系统的组成计算机信息检索系统主要是由计算机、通信网络、检索终端设备和数据库组成。
1)计算机计算机是检索系统的核心部分,它包括硬件和软件。计算机硬件是系统采用的各种硬设备的总称,软件由系统维护软件与检索软件构成。检索软件可以分为指令式、菜单式和超文本等。
2)通信网络通信网络是联系计算机系统和检索终端设备的桥梁,其作用是确保信息传递的畅通。整个通信网络分成资源子网和通信子网两部分。上一页下一页返回2.4计算机信息检索3)检索终端设备检索终端设备是用户与检索系统相互传递信息进行“人--机对话”的装置,有电传终端、数传终端和PC机终端等。现在基本上都是PC机终端。
4)数据库数据库(Database)就是在计算机存储设备上按一定方式存储的相互关联的数据集合,是检索系统的信息源,也是用户检索的对象。数据库可以随时按不同的目的提供各种组合信息,以满足检索者的需求。上一页下一页返回2.4计算机信息检索3.数据库的类型与构成
1)数据库的类型按照所含信息的内容,数据库可以划分为以下几种类型。
(1)文献书目数据库(BibliographicDatabase):是存储某个领域原始文献的书目,即二次文献数据库,记录内容包括文献的题名、著者、原文出处、文摘、主题词等。大多数是印刷本检索工具的机读版。如美国工程索引数据库(EICompendex),英国科学文摘数据库(INSPEC),美国化学文摘数据库(CASearch)等。
(2)信息指南数据库(ReferralDatabase):主要是记录一些机构、人物、产品、项目简述等事实数据的数据库,通过该类数据库可以查到公司、机构的地址、电话、产品目录、研究项目或人名简历等信息。这类数据库也称为事实数据库。上一页下一页返回2.4计算机信息检索
(3)数值数据库(NumericDatabase):是专门提供以数据形式表示信息的一种源数据库。记录中存放的是各种调查数据或统计数据,如人口统计资料、科学技术实验室数据和市场调研数据等。
(4)全文数据库(Full-textdatabase}:是存储文献内容全文或其中主要部分的数据库,简称全文库。它是将经典著作、学术期刊、重要的会议记录、法律法规、新闻报道以及白‘科全书、手册、年鉴等的全部文字和非文字内容转换成计算机可读形式。全文数据库可以解决用户获取一次文献所遇到的困难,能向用户提供一步到位的查找原始文献的信息服务。
(5)多媒体数据库(MultimediaDatabase):是近年来出现的新型数据库,它将图形、图像、文字、动画、声音等多媒体数据结构结合为一体,并统一进行存取、管理和应用,检索时可以获得图文并茂的效果。上一页下一页返回2.4计算机信息检索2)数据库的构成数据库主要由文档、记录和字段3个层次构成。
(1)文档(File)是书目数据库和文献检索系统中数据组成的基本形式,是由若干个逻辑记录构成的信息集合。从数据库的内部结构来看,通常一个数据库至少包括一个顺排文档和一个倒排文档。①顺排文档是将数据库的全部记录按照记录号的大小排列而成的文献集合,它构成了数据库的主体内容,类似于检索刊物中按文摘号排列文摘款目。每一篇文献为一条记录单元,一个存取号对应一条记录,存取号越大,对应的记录就越新。由于它存储记录最完整的信息,所以又把它称为主文档。如果在顺排文档中进行检索,计算机就要对每个检索提问式逐一扫描数据库中的每一条记录,存储的记录越多,扫描的时间越长,这样检索效率就会很低。上一页下一页返回2.4计算机信息检索②倒排文档是将顺排文档(主文档)中的可检字段(如主题词、著者)抽出,按某种顺序重新排列起来所形成的一种文档。不同的字段组织成不同的倒排文档(如主题词倒排文档、著者倒排文档等)。倒排文档可以按主题词的字顺排,也可以按分类号的大小排。按表达文献内容特征的主题词排列的文档称为基本索引文档;按表达文献外部特征排列的文档称为辅助索引文档。倒排文档只有文献的标识、文献篇数及文献存取号。因此,在实施检索时,必须和顺排文档配合使用,先在数据库的倒排文档中查得文献篇数及其记录存取号,再根据存取号从顺排文档中调出文献记录。倒排文档类似于检索工具中的辅助索引。上一页下一页返回2.4计算机信息检索(2)记录(Record)是数据库文档的基本单元,是对某一实体属性进行描述的结果。在书目数据库中,被描述的实体是某一特定的文献,这类记录通常被称作文献记录。一个数据库可能包含几千条甚至几十万条记录。在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。
(3)字段(Field)是构成记录的最小信息单元,一条记录包含着若干个字段。这些数据字段就是手工检索工具正文部分的文摘款目中的若干著录项目,如原始文献的篇名、著者、文献出处、出版时间、文摘、主题词、语种等。为了便于计算机识别记录的各个字段,每个字段都设有字段标识符。常见的字段标识符见表2一1。数据库记录的著录项目(字段)往往比手工检索多得多,这就决定了计算机检索能够提供比手工检索更丰富的检索途径。上一页下一页返回2.4计算机信息检索4.检索类型随着计算机技术、通信技术及网络技术的飞速发展,信息检索的手段发生了质的飞跃。目前,计算机信息检索已成为广大用户获取信息的主要方式,其中联机检索、光盘检索以及网络信息检索是3种主要的检索类型。如何快速、准确及有效地检索到所需的信息,已成为目前亟待解决的问题。下面就这3种计算机信息检索类型作简单介绍。上一页下一页返回2.4计算机信息检索1)联机检索联机检索(OnlineRetrieval)是由一台主机带多个终端的信息检索类型。这种类型具有分时的操作能力,能够使许多相互独立的终端同时进行检索。检索是以人机对话的方式进行的,用户在自己的终端上输入检索提问式,联机服务中心的计算机就可以立即处理用户的请求,在数据库中查找符合用户提问的数据,并将检索结果回送至用户的检索终端上。用户可以随时修改检索提问,直至获得满意的结果,并可通过打印或传输立即得到检索的最终结果。联机检索是较早开始使用的计算机信息检索的形式。世界上比较著名的联机检索类型有美国洛克希德公司的DLALOG系统、美国系统开发公司的ORBIT系统、美国医学图书馆的MEDLINE系统、欧洲共同体9国所属的欧洲科技信息联机检索网络EURONET、欧洲空间组织的ESA/IRS系统、日本科技信息中心的JICST系统等。上一页下一页返回2.4计算机信息检索2)光盘检索光盘检索(CD-ROMRetrieval)是指利用计算机设备对只读式光盘数据库(CD-ROM)进行检索。光盘是一种用激光记录和读取信息的盘片,具有信息存取密度高、容量大、速度快、成本低等优点。尤其是只读光盘(CD-ROM)作为数据库的存储媒介是非常合适的,因此出现了光盘检索类型。光盘检索单机模式的构成非常简单,用户只要有一台配有光驭的计算机和光盘数据库以及相应的软件,就可以进行光盘数据库检索;光盘检索网络模式是将光盘数据库放在一个计算机局域网上,用一台光盘服务器来管理多用户对光盘数据库的访问,把多张光盘放在光盘塔、光盘库或磁盘阵列中,使多个终端用户能实时共享上百张光盘数据库信息。上一页下一页返回2.4计算机信息检索3)网络检索网络检索(NetworkRetrieval)是指利用计算机设备和国际互联网(Internet)检索网上各服务器站点的信息类型。随着互联网的发展,图书馆、信息服务机构和科研机构以及一些大的数据库生产商纷纷加入到互联网上,为信息需求者提供各种各样的信息服务,构成极其丰富的网络信息资源。其内容涉及自然科学、社会科学、工程技术、农业、医学、文化教育以及商业、财政金融等各个领域,信息量大,更新速度快,彻底打破了信息检索的区域性和局限性,用户足不出户就可以获取所需要的文献信息。互联网的迅速发展和广泛应用,改变了计算机信息检索的方式和方法,将信息检索拓展到了一个更广阔的领域。上一页下一页返回2.4计算机信息检索二、计算机信息检索基本技术计算机信息检索的实质是“匹配运算”,即由用户将检索需求组织成计算机系统能够识别和处理的检索提问式并输入计算机,由计算机自动对数据库中各文档的记录进行扫描、匹配。为了提高检索效率,计算机检索系统常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。下面介绍几种常用的信息检索技术。1.布尔检索利用布尔逻辑算符(BooleanLogical)将检索词或代码组配成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。这是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有3种,分别是逻辑与“and"、逻辑或“or"、逻辑非“not"。上一页下一页返回2.4计算机信息检索
(1)逻辑“与”:用and或“*”表示,用于概念之间相交关系的运算。这种组配可以缩小检索范围,有利于提高查准率。例如,要检索同时含有概念A和概念B的文献,可表示为“AandB”或“A*B"。检索结果如图2-3(a)所示,图中阴影部分即为同时包含A和B的命中文献。
(2)逻辑“或”:用or或“+”表示,用于概念之间相并关系的运算。这种组配可以扩大检索范围,防止漏检,提高查全率。例如,要检索含有概念A或概念B的文献,可表示为“AorB”或“A+B"。检索结果则将含有A的文献集合与含有B的文献集合相加,形成一个新的集合。检索结果如图2-3(b)所示,图中阴影部分即为包含A或B的命中文献。
(3)逻辑“非”:用not或“-”表示,用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围,使检索结果更准确。例如,要在含有概念A的文献集合中排除同时含有概念B的文献,可表示为“AnotB”或“A-B"。检索结果如图2-3(c)所示图中阴影部分即为包含A且排除B的命中文献。上一页下一页返回2.4计算机信息检索
如果一个检索式中含有多个逻辑算符,则它们的执行顺序是not->and->or,但是可以用括号改变它们之间的运算顺序。例如,(AorB)andC,表示先执行"AorB”的检索,再与C进行and运算。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。上一页下一页返回2.4计算机信息检索2.位置检索位置检索(PositionSearch)也叫全文检索或邻近检索(ProximitySearch)。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是为了弥补有些提问检索式难以用逻辑算法准确表达提问要求,避免误检,同时提高检索深度,利用位置符规定检索词在原始文献中相对位置,进行全文检索。常用位置算符有以下几种。
(1)(W)或()-With;表示算符两侧的检索词相邻,且两者之间允许只有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。例如:Air-craft()design可检索出含有Aircraftdesign的文献记录。Computer()aided()design可检索出含有Computeraideddesign的文献记录。上一页下一页返回2.4计算机信息检索(2)(nW)-nWords;表示在此算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。例如:laser(1w)printer可检出含有laserprinter和lasercolorprinter的文献记录。
(3)(N)-Near;表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。例如:computer(N)network可检出含有computernetwork,networkcomputer形式的文献记录。
(4)(nN)-nNear;表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。例如:computer(2N)system可检出含有computersystem、computercodesystem、computeraideddesignsystem、systemusingmoderncomputer等形式的文献记录。上一页下一页返回2.4计算机信息检索(5)(S)-Subfield;表示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。此子字段通常由数据库确定,可以是同一句子、同一段落,在记录中经常用分号分开或为单独一行的子字段。例如:computer()control(s)System可检出文摘中含有“Thispaperisconcernedwithanapplicationofthecomputercontroltechniqueinaintelligentsystemfortestinginnerwallsofpipes.”这样一句话的文献记录。
(6)(F)-Field;表示其两侧的检索词必须是在文献记录的同一字段中,如标题词字段、叙词字段、文摘字段等,而它们在该字段中的相对次序和相对位置的距离不限。例如:Water()pollution(F)control表示在同一个字段中(如篇名、文摘、叙词等)同时含有waterpollution和control的文献记录均可检索出来。上一页下一页返回2.4计算机信息检索(7)(L)-Link;表示其两侧的检索词之间有主从关系,前者为主,后者为副。L可用来连接主、副标题,它们被列在记录的规范词字段。
(8)(C)-Citalion表示算符两侧的检索词可以不分字段、不按顺序,只要检索词出现在一篇文献记录即算命中。上一页下一页返回2.4计算机信息检索3.截词检索截词检索(TruncationSearch)就是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,截词可有后截断、前截断、中截断3种类型。不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截断(即一个截词符只代表一个字符)和无限截断(一个截词符可代表多个字符)。以下举例中用“?”来表示有限截断,用“*”表示无限截断。上一页下一页返回2.4计算机信息检索
(1)后截断,前方一致。如:comput*表示可检索出computer,computers,computing等。system??(后截O~2个字母)则表示可检索出system,systems,systemic等,但不能检索出systematic、systematical等。
(2)前截断,后方一致。如:*compute
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乐山市事业单位选调考试真题2025
- 2025年绍兴市越城区卫生健康系统事业单位招聘考试试卷真题
- 简历模板与劳动合同协议
- 皮肤病患者教育与科普
- 译林版英语四年级下册Unit7第二课时
- 食堂食品卫生安全知识培训考核试题(含答案)
- 新员工院感知识考核试卷
- (新)营养科工作制度2篇
- 2026毕节高速交警面试题目及答案
- 2025年中国珠尾机市场调查研究报告
- 2026年安徽省体育彩票管理中心编外聘用人员公开招聘11名考试参考题库及答案解析
- 2026重庆物流集团数字科技有限公司招聘3人笔试历年参考题库附带答案详解
- 2026广西能汇投资集团有限公司校园招聘笔试参考题库及答案解析
- 上海静安区社区工作者招聘考试真题2024
- E446标准图谱.(250KV)课件
- 立体构成(高职艺术设计)PPT完整全套教学课件
- 文化常识宗法礼俗节日
- 大学无机及分析化学考试题及答案
- 2022届上海市高考各区二模考试英语试卷(共13个区附答案)
- LY/T 1277-1998猎枪弹弹丸
- GB/T 40815.2-2021电气和电子设备机械结构符合英制系列和公制系列机柜的热管理第2部分:强迫风冷的确定方法
评论
0/150
提交评论