




已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章计算机检索原理,主要内容,1.计算机检索的发展历史2.计算机检索的原理3.文献数据库简介4.计算机检索技术与实现5.计算机检索策略的制定及调整,1计算机检索的发展历史,计算机检索从产生到现在经历了4个阶段:(1)20世纪50年代,以批量处理、脱机检索为特点的第一阶段。1955年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界上第一个计算机检索系统NOTS,4000条记录,“与”,不能人机对话;1950年代末,IBM公司利用一台IBM650计算机成功地编制出关键词索引,并建立了世界上第一个定题情报检索(SDI,SelectiveDisseminationofinformation)系统,为用户定期检索和提供一定主题的新到文献,并很快得到了推广应用。,(2)20世纪60年代末,联机检索阶段,出现人机对话;196080年代,数据通讯网络出现,大容量计算机分时系统和强功能检索软件研制成功,使脱机检索发展到联机检索并迅速得到了推广。1970-80年代,联机检索得到迅速发展,一些联机检索系统开始向公众提供商业性服务,如DIALOG、ESA、ORBIT、BRS等许多世界着名的联机检索系统相继投入商业性运营。,(3)20世纪70-80年代,联机检索与光盘检索共同发展阶段;前三阶段以文献数据库检索为主(4)20世纪90年代,基于互连网的数据库检索和Internet网上信息检索并重的第四阶段网络系统阶段。Internet成为重要的电子信息源随着互联网的迅速发展及超文本技术的出现,基于客户/服务器的检索软件的开发,使客户/服务器网络检索模式开始取代以往的终端/主机结构,成为联机检索的发展趋势。,计算机网络检索的发展趋势,目前,信息检索技术正向两个方向发展:传统信息检索向全文文本、多媒体、多载体、跨平台等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、Web检索智能代理、数据挖掘、自动翻译等;信息资源的网络化存储和分布式存储,在广度上提高管理和组织信息的能力。,2计算机检索的原理,计算机检索的原理就是利用计算机将用户所提出的检索标识与检索系统中的标引标识进行比较,将匹配的文献视为命中。所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。,计算机信息检索广义上讲包括信息的存储和检索两个方面。计算机信息存储过程是:用手工或者自动方式将大量的原始信息进行加工,具体做法是将收集到的原始文献进行主题概念分析,根据一定的检索语言抽取出主题词、分类号以及文献的其他特征进行标识或者写出文献的内容摘要。然后再把这些经过“前处理”的数据按一定格式输入计算机存储起来,计算机在程序指令的控制下对数据进行处理,形成机读数据库,存储在存储介质(如磁带、磁盘或光盘)上,完成信息的加工存储过程。计算机信息检索过程是:用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用系统检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行检索。计算机按照用户的要求将检索策略转换成一系列提问,在专用程序的控制下进行高速逻辑运算,选出符合要求的信息输出。计算机检索的过程实际上是一个比较、匹配的过程,检索提问只要与数据库中的信息的特征标识及其逻辑组配关系相一致,则属“命中”,即找到了符合要求的信息。,计算机信息检索原理示意图,检索标识(检索式)是检索者根据对课题的分析,制定出的既能反映课题的要求,又符合计算机检索要求的检索语言,其中包括适当的检索词,以及合适的逻辑算符和位置算符。,计算机检索系统的构成,软件系统中有关的程序和各种文件资料的总称,包括系统软件(如操作系统,输入输出控制程序)和应用软件。硬件系统中采用的各种硬件设备的总称,包括具有一定性能的计算机主机、外围设备以及怀数据处理或数据传输有关的其他设备。主机,是计算机检索系统的中枢。外围设备包括外部存储器,输入输出设备如键盘、光笔、鼠标、光学字符识别装置,显示终端、打印机等。数据库,信息存储与数据库结构,信息源收集计算机信息检索系统向用户提供检索的各种信息记录均来自各种信息源。各检索系统根据本系统的服务目的选择不同的信息源,并以此为基础建立数据库。在信息源收集阶段主要进行以下的确定工作:1)确定入选信息的专业范围。信息的专业性体现了数据库的特色与权威性。2)确定信息的文献类型。如期刊、会议录、学位论文、标准等。3)确定信息的载体。如印刷品、缩微制品、光盘、磁带、磁盘、网络下载的信息。4)确定信息的加工深度。对于文献数据库而言,加工深度表现为三个层次:题录、文摘、全文。5)确定信息的起始时间。收集的信息时间跨越范围需要根据信息的特点合理选择,回溯年限长,信息时效性就差,但历史性就越强。,标引与著录所谓“标引”,就是指对信息内容特征进行分析,赋予信息以检索标识的过程。标引一般包括主题标引和分类标引。所谓“著录”,就是对信息外部特征(如文献的篇名、著者、出处、出版时间等)进行分析、选择与记录的过程。对信息内容特征进行标引和对信息外部特征进行著录,形成一条信息题录,并根据信息内容作出摘要,然后将上述检索标识与著录项目一并填入工作单,就完成了数据库建设的“数据前处理”工作。,标引人工标引是指文献标引人员根据自身的专业知识水平、信息处理能力,对文献进行分析判断后给出主题词的过程。一般步骤为:分析主题、主题概念提取、选择主题词。计算机辅助标引是指文献标引人员借助计算机对文献进行主题概念分析,选定反映主要主题概念的检索标识的过程。计算机辅助标引是在保留人工标引中人工参与的基础上,将计算机的快速、准确和人脑的智慧结合起来进行的标引。自动标引的方式主要有两种:自动抽词标引和自动赋词标引。自动抽词标引,是指利用计算机直接从文献全文、文摘或标题中抽出能表达文献主题的关键词作为标引词,并自动生成关键词索引或倒排文档。自动赋词标引,是指计算机根据某种特定的标准,从预选编制的词表中选取标引词,用于表示某一文献的主题概念。,3.文献数据库简介,3.1数据库的定义和类型3.1.1定义:数据库是至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。通俗地说,数据库是在计算机存储设备上按一定方式存储,并提供给确定范围内的各类用户共享的相互关联的数据集合。数据库是计算机技术与信息检索技术相结合的产物。它既是现代人们从事信息资源管理的工具,同时也是计算机信息检索的基础。按一定方式存储的相互关联的数据集合。它是检索工具的一种。根据ISO/DIS5217号标准,数据库至少要由一种文档组成。,3.1.2数据库的类型,参考数据库源数据库混合数据库,参考数据库,指用户从中获取信息线索后,还需进一步查找原文或其他资料的一类数据库。文献目录型数据库(bibliographicdatabase).也称为书目数据库或者目录数据库,是二次文献数据库,包含文摘数据库、题录数据库、索引数据库、各国的MARC(machinereadablecatalogue)格式的图书目录。如EI,SCIE等。指南数据库(referencedatabase).也称指示性数据库,其内容是关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,是指引用户从其他有关的信息源获取更详细的信息的一类数据库。如中国人物数据库、Dialog系统中的邓白氏国际市场情报库。,源数据库,又称为数据银行。它是能够直接为用户提供原始资料或具体数据的一类数据库。数值型数据库文本数值型数据库术语数据库图像数据库全文数据库超文本数据库,数值数据库(numericdatabase).又称数据型数据库,此类数据库存储的均为数据信息。如中国统计年鉴Dialog系统中的公司披露数据库。全文型数据库(full-textdatabase)。是指储存的数据是文献全文或者其主要部分是文献全文的一种数据库。如中国期刊全文数据库,重庆维普期刊全文库。,混合数据库,这类数据库兼有源数据库和参考数据库的特点,按载体形式它又可分为以下四种类型:磁媒体数据库光盘数据库多媒体数据库:是一种能够对文字、数值、声音和图像等不同性质的媒体进行一体化处理和管理的新型数据库超媒体数据库。通过外部树形的链接将多种类型的媒体连成一个集合,该集合称为超媒体数据库。,3.2数据库的构成,由文档、记录、字段构成。(1)文档(file),若干个逻辑记录构成的信息集合成为文档。数据库和文献检索系统中数据组织的基本形式,与检索系统的硬件和软件的功能和系统的效率有密切关系。用户选择所需的联机系统数据库时,多数数据库以单一的文档编号出现。此时文档的概念和数据库相当。(2)记录(record),记录是若干个字段组成的文献单元,是计算机检索系统存储文献款目和标引的信息载体,在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。,(3)字段(field),是文献著录的基本单元,用来描述文献主题内容相关的某种属性。在书目数据库中,记录中含有著者、题名、主题词、出版年、文摘等字段。在有些数据库中,根据与文献内容相关与否,文献数据库字段分为基本字段和辅助字段两类。基本字段和辅助字段在检索策略的构成方法上往往有些区别。基本字段通常是默认的主题途径检索范围,如果需要查找专门的基本字段或者辅助字段,通常要以某种方法予以指定。,数据库的字段可分为基本字段和辅助字段:基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等字段;辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。,ERICDatabase记录格式,文献数据库常见字段和段码表,数字对象唯一标识符(DOI),DOI-DigitalObjectUniqueIdentifier国外的数字文献生产商较早采用唯一标识符来标识其出版的电子文献,并形成了很多应用在不同环境下的标识符方案。相对于这些唯一标识符,美国出版协会(TheAssociationofAmericaPublishers,简称AAP)建立的DOI在技术上比较成熟。它主要是针对因特网环境下如何对知识产权进行有效的保护和管理而产生的。目前国外Elsevier、Blackwell、JohnWiley、Springer等大型出版商大多使用DOI对数字资源进行标识,形成了比较完整的命名、申请、注册、变更等管理机制,DOI的解析系统发展也比较成熟。在此基础上,一些生产商相继推出各种与DOI相关的增值服务。例如CrossRefSearch结合Google检索技术与DOI系统的定位服务,实现了CrossRefSearch检索结果到生产商全文之间持久、有效的链接。,DOI特点和编码格式,特点:唯一性;持久性;兼容性;互操作性;动态更新编码格式两部分组成:前缀和后缀,中间用“/”分割。对前缀与后缀的字符长度没有任何限制,因此理论上,DOI编码体系的容量是无限的。前缀由两部分组成,一个是目录代码,所有DOI代码都以“10.”开头。另一个是登记机构代码,任何想登记DOI的组织或单位都可以向IDF申请登记机构代码。登记机构代码的分配也是非常灵活的,如一个出版商可以为其所有的信息资源只申请一个前缀,也可以为其数字图书、音像制品各申请一个前缀。DOI后缀是一个在特定前缀下唯一的后缀,由登记机构分配并确保其唯一性。后缀可以是任何字母数字码,其编码方案完全由登记机构自己来规定。后缀可以是一个机器码,或者是一个已有的规范码,如ISBN号或ISSN号。,4计算机检索技术与实现,布尔逻辑检索优先处理运算符位置算符截词检索词组检索字段限制检索,4.1布尔逻辑检索,即运用布尔逻辑算符(Booleanoperators)对检索词尽心逻辑组配,表达两个概念之间的逻辑关系。布尔逻辑算符主要有:ANDORNOT在中文数据库里,布尔逻辑运算符又是用AND、OR、NOT表示,有时用“*“、”“及”“。,逻辑与(逻辑乘),用运算符号:AND或*连接检索词是用以组配不同的概念逻辑符号,表示“and”连接的两个词在一个记录中必须同时出现。AND算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的查准率。例:查“有关计算机在图书馆中的应用”的文献,检索式=计算机*图书馆,AND举例,提问式:ssCommunicationANDSatellite通过检索EICompendex(1998)所得结果为:S112940CommunicationS22173SatelliteS3842CommunicationANDSatellite,逻辑或,用运算符号“OR”或“+”连接两检索词,是用来组配相同或相近概念的词的逻辑算符,表示在记录中出现其一即可视为命中。OR算符的基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率。还有一个去重的功能。例1查“苹果或梨”方面的文献检索式=苹果+梨它在同义词检索中使用,能提高查全率。例2查“计算机或机器人”方面的文献检索式=计算机+机器人,举例,提问式:ssPIPEORTUBEEiCOMPENDEX1998结果为“s11834PIPEs22022TUBEs33647PIPEORTUBE,逻辑非,用运算符号“NOT”或“”连接两检索词ANOTB排除某个概念的逻辑算符。NOT算符的基本作用是缩小范围,但并不一定提高文献命中的准确性,常常只是起到缩小文献输出量的作用。NOT算符有排除掉相关文献的危险,在实际检索中应慎用。如:PatentnotJapan,表示检中的记录中包含Patent,不包含Japan。例查“不是铬合金”方面的文献。检索式=合金铬,举例,检索式:PATENTNOTCERMANEICOMPENDEX1998检索结果:s1110PATENTs2325GERMANs3108PATENTNOTGERMAN,4.2优先处理运算符,优先算符用()表示,在含有多个运算的检索式中,可以用()将需要优先运算的部分括上,系统会优先运算()中的部分,然后在按照not,and,or的顺序进行运算。,AORB-S1CORD-S2S1ANDS2归并为一组检索式:(AORB)AND(CORD),4.3位置算符检索邻接算符(adjacentoperators),适用于两个检索词以指定或者指定的顺序出现的场合,是调整检索策略的一种重要手段。文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样,布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,用词间位置算符来限定和组配检索词,可弥补布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词位置关系,易造成误检的不足。,位置算符检索就是利用一些特定的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。有的书上还把这种检索称为原文检索。这种检索在利用TI(Title)和AB(Abstract)途径检索时,对检索质量影响很大。常用的位置算符有:W、W/N、WITH、WITHIN、nW、PRE、N、NEAR、ADJ、nN、F、SAME,W、W/N、WITH、WITHIN,功能:两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒)表达式:Education(W)school或EducationWITHschool检索结果:Educationschool;educationschoolsW的含义为“with”或“within”,其两侧的检索词须紧密相连,除开空格和标点符号外,不得插入其他词或字母,词序不可颠倒。,nW,功能:两词相邻,按输入时顺序排列(也有数据库允许顺序颠倒),两词之间允许插入0n个词。表达式:Education(1W)school检索结果:Educationschool;educationschools;Educationandmusicschool;nW中的“W”含义为word,它允许检索词间插入最多为n个其他词,包括实词和系统禁用词,词序不变。,PREPREn(ElsevierScienceDirect数据库使用),功能:两词相邻,按输入顺序排列表达式:EducationPREschool检索结果:EducationschoolEducationschoolsPREn表示两个词前后顺序不变,而且两个词之间相隔的n个以内的词。,N、NEAR、ADJ,功能:两词相邻,顺序可以颠倒表达式:Education(N)schoolEducationNEARschool检索结果:EducationschoolEducationschoolsSchoolofEducationN含义为near,表示其两侧的检索词须紧密相连,除开空格和标点符号外,不得插入其他词或字母,两词的词序可以颠倒。ADJ-SIAM(美国工业和应用数学学会)、ElsevierScienceDirect,nNN算符的变形,功能:两词相邻,顺序可以颠倒,两词中间可以插入0n个词表达式:Education(1N)school检索结果:EducationschoolschoolofeducationEducationandsicschoolschoolofmusicandeducation,F,功能:两词必须出现在同一字段中,词序与词量不限表达式:Education(F)school/DE检索结果:Education和school必须同时出现在叙词字段内即可F含义为Field。表示其两侧的检索词必须在同一字段中出现,词序不限,中间可以插入任意检索词项。由于F邻近算符限制性差,所以在文中检索多个叙词字段时不宜使用。F与AND主要区别在于:F邻近算符使两个检索项在同一字段,AND布尔逻辑组配中两个检索词会发生在不同字段中。,L,意思是link,表示连结的两个词要在同一个规范词单元中出现,它们之间具有相关关系或所属关系。不同的数据库对于规范单元的规定不同。例如主、副标题词即为一个规范词单元。如:Spreparation(L)crystalthepreparationofcrystalsorbitol(结晶山梨醇的制备),SSAMESentence,功能:两词出现在同一自然句中,其词序与词量不受限制表达式:EducationSAMEschool检索结果:Education和school两词出现在同一句子中即可。,位置算符使用注意,以上介绍的各种位置算符,按照限制程度的大小,W、nW最强,N、nN次之,S再次之,F的最弱。当nN中的n10时,其作用相当于S。,CNKI举例,TI=str1#str2and(AU=str3notCS=str4)=str包含功能%str模糊功能=str1#str2检索TI字段中同时包含Str1、2=str1%str2TI中包含Str1、2,两词顺序依次出现的=str1/NEARnstr2=str1/PREVnstr2两词间隔在2个词以内,并顺序出现的=str1/AFTnstr2两词间隔超过2个词以外,并顺序出现的,4.4截词检索,截词运算符号有两个:“?、*”。其在不同系统中表示的含义不同。Dialog系统中用“?”。原因:在英语词汇中,一个词可能有多种形态,如词的单、复数形式的不同,英美拼写方法不同、词性不同等。前方一致、后方一致、中间一致、中间屏蔽四种存在形式,有限截词。即在检索词后后截几个有限的字母,如名词的单复数,动词的词尾变化等。如输入computer?表示有0-2个字母变化,可检出computer和computers.输入stud?表示截断处有0-3个字母变化,可检出study,studies,studied,studing.,无限截断:在检索词后加一个“*”或“?”,表示该词后可加任意个字符。使用无限截词,所截词根不能太短,否则会输出许多无关文献,造成误检。例如:chemic?,可检出chemic,chemical,chemicalize,chemicallly,chemicophysical,chemiculture。,中间截断:在检索词中间加一个或几个?号,主要解决一些英美拼写不同,单复数形式的不同的词的输入,可简化输入。如:输入wom?n可检出woman,women屏蔽符:“?”作为屏蔽符,加在单词中间,可以代表1个字符的变化。如:wom?n,表示women和woman。词中使用几个屏蔽符,则代表有几个字符的变化。,截词注意事项,截词检索在中文数据库中截的是词意。例:西北?分别检出了:西北农林科技大学学报、西北园艺、西北纺织学院学报等。在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 转移性胃癌治疗胃癌诊疗指南解读试题(附答案)
- 数字化物流商业运营 习题答案-模块4
- 2025年物流运输职业技能实务操作知识考试题库与答案
- 2025年叉车司机车辆基本操作知识考试题库及答案
- 树叶上的秘密课件
- 2025院感试题及答案
- 标准化基础知识培训目的课件
- 深圳独栋度假别墅室内设计方案
- 化肥厂员工安全培训知识课件
- 医嘱查对制度试题(带答案)
- 全兴项目-FICO-FI020辅助核算项余额查询报表开发功能说明书-V1.0-20230602
- 广西现代物流集团笔试题
- 洗车店开业活动方案
- 2024智能巡检机器人一体化平台
- 2024年建筑工程质量检测行业分析报告及未来发展趋势
- 球墨铸铁管件理论重量规格表
- 公转私转账协议
- 《资本运营理论与实务》自考各章习题集及其重要资料复习资料
- 深圳福田狮岭小学谢非FRANKTHERAT
- 校园突发事件与应急管理
- GA 1301-2016火灾原因认定规则
评论
0/150
提交评论