版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2计算机文献检索
主要内容2.1计算机检索概述2.2标引、分类表、主题表2.3数据库2.4检索技术2.5检索途径和检索程序2.6书目及多馆联合目录2.1计算机检索基本原理2.1.1计算机信息检索的简短回顾
计算机信息检索,是指利用计算机进行信息存贮和检索的过程。
脱机检索系统,指利用单台计算机的输入输出装置进行检索的系统。由计算机硬件、检索软件和数据库三部分构成。联机检索系统,是一台主机带多个终端的计算机信息检索系统。具有分时操作能力,能使许多相互独立的终端同时进行检索。联机检索系统包括检索系统主机、通讯网、检索软件、检索终端和数据库。计算机信息检索始于上世纪60年代初,它的发展可分为4个时期:
第一阶段(1954-1964):脱机检索阶段
第二阶段(1965-1972):联机检索阶段
第三阶段(1972-1992):国际联机检索阶段
第四阶段(1993-):网络信息检索阶段
我国计算机文献检索的发展始于1975年,大体经历了3个发展阶段。
第一阶段是萌芽阶段(1975-1980),其特点是引进与试验。
第二阶段是生长阶段,以服务和自己研制为特点,时间大约从1980年到1990年。第三阶段是迅速发展阶段(1990-),其特点是普及与完善。2.1.2计算机文献检索的意义
第一,计算机检索极大地提高了文献信息的使用价值。第二,计算机检索促进了国际文化技术的交流和全球的文献资源共享。
第三,促进了计算机科学和情报学的发展,提高了文献服务机构在信息社会中的地位。2.1.3计算机文献检索的特点
检索速度快
检索途径多计算机检索系统对数据库记录的很多字段都做了索引,均可作为检索入口。
使用方便计算机采用灵活的逻辑运算和后组式组配方式,便于进行多员检索和多途径检索。
检索范围广计算机能提供远程检索。联机联网系统中含有大量的数据库,其主题涉及各个学科领域。检索内容新、时效性强2.1.4计算机文献检索的基本模式
这个过程可简单地描述为:从文献选择需要录入数据库的文献;对这些文献进行概念分析,把它们的外部特征以及内容特征提取出来,按一定格式制成数据库;然后收集用户的提问,对这些提问进行概念分析,把它们的提问要素(篇名、作者、分类号、主题词等)提取出来,按一定要求列成提问式;检索时将数据库中的文献的特征与提问中的特征进行比较,符合提问式要求的文献即为命中文献,予以输出。
2.2标引、分类表、主题词表
2.2.1标引
标引:将信息和提问的内容特征用情报检索语言的形式表达出来的过程,当使用分类号来表达信息内容时就叫做分类标引,当使用主题词来表达文献内容时就叫做主题标引。
2.2.2分类表、主题表
分类表又称类目表,具有以下四种属性:
○网罗性。
○体系性。
○明确性。
○可查性。
主题词表是对检索和标引用词进行规范并显示其中各种关系的词表。其作用:○通过同义词的互见对检索和标引用词进行规范,将不同形式的同义词转换成事先选择好了的唯一形式,从而避免由于对同义词的不同选择而造成的漏检。○通过上位词、下位词的显示来增加机器的扩检缩检功能。○通过内容互有关联的主题词的“参见”提高检全率。2.2.3文献标引的方法
分类标引,是在分类表中找一个或几个与文献内容相符的类目,将这个类目的类号作为这篇文献的分类号。
主题标引:用主题词(subjectterm)标引,即选用主题词表中的词对文献进行标引。用自由词(freeterm)标引,既当文献的主题在主题词表中找不到合适的词来表达,直接用词表以外的词进行标引。
进行主题标引时,遵循的两个基本原则:○标引用词要准确反映文献的内容,即尽量用能准确反映文献主题的词来标引。尽量在主题词表中找到切题的词,当在表中找不到合适的主题词时,先用主题词表中的词把所要标引的概念组配出来,然后用自由词标引。对于主题词表中没有收录,又无法用其它主题词组配出来的主题概念,可用它的上位主题词或近义主题词标引,同时把该概念的自由词形式标上。○标引时尽量选用用户最容易使用的词标引,尤其是自由词标引时,不用生僻词。2.3数据库2.3.1数据库的类型数据库:指包含书目及文献有关数据的机读记录的有组织的集合。是计算机信息检索系统的信息源和核心。记录包括两个方面:一是原文标题、内容及作者的信息,二是有关原文获取途径的信息。数据库类型:
1.文献数据库
(1)书目数据库,也叫二次文献数据库,包括各种文摘、索引、目录。(2)全文数据库,是存贮文献全文或其中主要部分的数据库,简称全文库。
2.源数据库用来存储事实、数值、概念、图形等一系列非文献数据的数据库。
(1)数值数据库,专门提供以数值方式表示信息的一种源数据库。(2)事实数据库,包含自原始文献或社会调查中获得并经过处理的各种事实。常见的有指南数据库、产品数据库等(3)概念数据库,存贮各种名词术语或语言资料。如词典数据库、语料库等。(4)多媒体数据库,视频、音频、文字、图像、动画等的集合体。2.3.2数据库的构成:1.文档(File):是由若干条逻辑记录构成的信息集合。文档是书目数据库和文献检索系统中数据组织的基本形式。
(1)顺排文档:将文献的各种特征按文献记录的输入顺序(既文献序号)排列的文档。又称主文档。
(2)倒排文档:是把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。2.记录(Record):是数据库的的基本单元,是对某一实体属性进行描述的结果。一个数据库可以有多个文档,一个文档由若干条记录构成。
AN=DIALOGNo:03883137EIMonthlyNo:EIP94031231114/TITitle:Laser/LightimagingforunderwateruseAU=Author:
Caimin,FrankM.Cs=CorporateSource:HarborBranchoceanographicInst.Inc.FT.Pierce,FL,USASO=Source:SeaTechnology,V.34No.12Dec.1993.P.22-27PY=PublicationYear:1993CO,SN=CODEN:SEATADISSN:0993-3651LA=Language.EnglishDT,TC=DocumentType:JA(JoumalArticle);Treatmentcode:A(Applications);X(Experimental)/AB=Abstract:/DE=Description:*Imagingtechniques:Laserapplication;Interferometry;Oceanengineering/ID=Identifiers:Laserlightimaging;Underwatertechnology/CC=EIClassificationCodes:741.3(OpticalDevices&Systems);744.9(LaserApplications)3.字段(Filed):是文献记录的基本单元。
基本字段主要是描述文献的内容特征的字段,如篇名、文摘、叙词、标引词等;
辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等。
2.4检索技术
2.4.1布尔逻辑检索
用逻辑运算符号(与、或、非)将提问特征连接起来的式子叫逻辑提问式。布尔逻辑检索:利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索标识组配成一个具有复杂概念的检索式,以满足课题检索的要求。
1.逻辑“与”逻辑“与”用“AND”或“*
”表示,两个检索词以“AND”或“*
”相连,表示被检中的文献必须同时含有这两个词。例如:查找有关计算机在图书馆中应用的文献computer*library或computerANDlibrary2.逻辑“或”逻辑“或”用“OR”或“+”表示,两个检索词以“OR”或“+”相连,表示被检中的文献含有两个词之一或同时包含两词。
computer+library或computerORlibrary
3.逻辑“非”
逻辑“非”用“NOT”或“-”表示,两个检索词若用逻辑“NOT”或“-”相连,表示被检索文献在含有检索词A而不含检索词B时才被命中。
例如:要检索汽车方面的文献,而又不希望文献中出现拖拉机的主题,逻辑式为:
carNOTtractor或car-tractor
在一个复杂的逻辑提问中,不仅可以有多个逻辑运算符,也可以使用括号来指定运算的先后顺序。例如:(A*B+C)*(D+E)+FA、B、C、D、E、F各代表一个检索词。2.4.2词表助检
有些文献数据库有自己的主题词表,不仅用于标引文献,也用于助检。2.4.3截词检索:截词检索:计算机检索时利用检索词的词干或不完整词形进行查找的过程。
按截断字符数量分为有限截词、无限截词和中间截词。按截断部位分为前方一致、后方一致、中间一致。
1.有限截词将n个截词符“?”放在检索词的词干中或词尾可能变化的位置上,若在词尾,在n个“?”后空一格再加一个“?”,n个“?”表示截词的位数为0~3个字符,最后一个“?”表示停止符。例如:stud????----study、studies、studied等词的记录。
2.无限截词
在检索词干后加1个“?”或“﹡”,表示该词词尾允许变化的字符数不受任何限制。例如:comput?(或comput
﹡),可检出computer、computerized、computation、computational、computability等词的记录。3.中间截词
截断符用在单词中间,嵌入字母数等于问号,通常用于英美不同拼法。
例如:检索“analys?s”,实际上可检索出含有analysis和analyses的文献。
4.前方一致:文献标引词只要前面一部分与提问词相同,即命中。
5.后方一致:当提问词的后半部分完全相同时,可使用后方一致,文献中有一个标引词的后部与提问词相同,文献即命中。
6.中间一致:当提问词的中间部分完全相同时,可使用“中间一致”。检索时文献标引词的中间部分与提问词相同,文献即命中。2.4.4限定检索
联机检索系统中,为提高查全率或查准率而缩小或约束检索结果的方法,称之为限定检索。例如:检索“computer/TI,AB”表示在TI和AB字段中检索computer.4.4.5原文检索
原文检索技术是用一些特定的位置算符来表达检索词与检索词之间的关系,并且可以不依赖叙词表而只直接使用自由词进行检索的检索方法。
位置算符的功能是限定检索词与检索词之间的位置关系.1.相邻位置算符
(W)----with
表示此算符两侧的检索词相邻,顺序不能颠倒,且不允许在两词之间插入其他词或字母,但允许有一空格或连词符号(—)。
例如查找空气污染方面的文献:
Air(W)Pollution
(nW)—
nwords
表示在此算符两侧的检索词之间最多可插入n个词,但该算符两侧检
索词的词序不能颠倒。
例
:Air(2W)Pollution可检出:airpollution、airandnoisepollution、airandwaterpollution等文献。(N)—Near表示在此算符两侧的检索词相邻,且顺序可以颠倒,但两词之间不许插入任何词。例如:
Computer(N)Communication可检索出含有ComputerCommunication、CommunicationComputer(nN)—nNear:
表示在此算符两侧的检索词的顺序可以颠倒,且最多可在其间插入n个词。例如:Computer(2N)Communication可检索出ComputerCommunication、CommunicationComputer、ComputerandCommunication、
CommunicationthroughComputer、ComputermediatednetworkCommunication、2.字段位置算符(F)—Field
表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段,如篇名字段、文摘字段、叙词字段、自由词字段等,但两个词的词序不限,夹在两个检索词之间的词的个数也不限。3.其他位置算符(L)—Link表示两侧的检索词之间有一定的从属关系。例如:Rubber(L)natural表示Rubber为主标题,natural为副标题。
(X)—当用两相邻而又完全相同的词组检索时,两个词之间用(X)运算符连接。例如:Protein(X)Protein表示检中的文献记录中含有Protein—Protein。
2.5检索途径和检索程序检索途径
检索途径又叫检索点,是指检索系统为用户提供检索文献的路径,或者说检索者通过文献的哪些特征可以检索出文献。这些检索点一般有:
按字顺排列:主题词、自由词、关键词、篇名或书名、报告名、会议名、化学物质名等等。
按数字排列:顺序号、日期、化合物登记号、纯数字的分类号等等。
字母数字混排:专利号、合同号、字母数字型的分类号、分子式等等检索程序1、分析检索课题(1)了解用户情报需求的目的和意图。(2)分析检索课题的主题要求。必须把该课题涉及到的主题概念、主题概念之间的逻辑关系揭示出来,以便下一步进行概念组配,编制检索提问。
(3)时间要求(4)检索效果要求。包括检索结果的查全率、查准率、所需文献的大概数量、是否需要提供原文文献等。(5)检索费用及其他要求。
2、选择检索系统和数据库(1)检索系统的更新周期(2)检索系统的学科范围(3)不同的数据库可能会涵盖同一检索课题所涉及的学科,选择数据库时,不仅要看该数据库的记录是否能满足用户的检索要求,还要看该数据库是否是同类数据库中最具权威性的。在具体数据库的选择过程中必须做到:①明确数据库收录的数量、类型、存贮年限和更新周期②明确数据库所具有的独特性和交叉性;③明确数据库所提供的检索途径、功能和服务方式。
3、选择检索词,构造检索提问式,确定检索策略(1)检索词的选择
①所选数据库具有叙词表或主题词表,优先选用叙词或主题词作为检索词;②从词表规定的专业范围出发,选用各学科具有检索价值的基本名词或术语;③自由词作为检索词时,要注意从专业角度出发,使用国际上通用的术语,或利用相应的光盘数据库试检,从有关文献信息中找出其用词规律,同时尽可能不使用一词多义的词;④选词要适应待检数据库的检索用词规则;⑤要多选常用的基本词汇进行组配。
(2)检索提问式的构造
检索提问式是指计算机信息检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符组成。
①全面准确选词,不仅要考虑提问中的词,还要考虑提问中没有但是与提问有密切关系的词。
②当用户提问的主题词在主题表中找不到准确的主题词时,可以先用自由词检索;若仍不理想,可放宽检索范围,用上位词和相关词检索。也可用自由词、上位词和相关词同时检索。
③在检索式中,将必需的主题词以及用+连接的比较容易命中的词提前。
④提问式尽量化简。如1*2+1*3应化简成1*(2+3)
⑤对某一部分完全相同的多个主题词,尽量利用检索系统的截词功能,即文献标引词只要有某一部分与提问词相符,即命中,这样可以节省比较时间。(3)确定检索策略所谓检索策略,就是在分析信息需求的实质的基础上,确定检索途径与检索用词,并明确各词之间的逻辑关系与查找的步骤的一种科学安排。制定检索策略实际上包括了选择检索词与编制检索提问式这两步。除此之外,检索策略还应该对检索式可能的检索结果作出预测,并事先提出相应的对策。
提高查全率、查准率方法
查全率,主要从扩检入手(1)选用同义词并以“OR”方式与原词连接后加入到检索式中;(2)降低检索词专指度,从词表或检出文献中选上位词或相关词;(3)采用分类号检索;(4)减少AND运算;(5)取消过严的限制符,如字段限制符等;(6)调整位置算符。
查准率,主要从缩检入手(1)提高检索词的专指度,增加下位词和专指性较强的自由词;(2)用AND连接限定主题概念的相关检索项;(3)限制检索词出现的可检字段;
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 危重患者营养支持护理
- 危重患者管道管理
- 2026年照明行业直播选品策略:趋势洞察与实战指南
- 《医学形态学实验(系统解剖学分册)(第3版)》课件 3-中枢神经系统-脑分部、脑干
- 2026三年级下新课标除法验算方法学习
- 2026九年级上语文小说主题表达技巧
- 2026五年级下新课标读后感写作指导
- 护理诊断的急诊护理
- 2026年焦作卫生基础考试试题及答案
- 呼吸训练对术后患者恢复的影响
- 眉山市2026国家开放大学行政管理类-期末考试提分复习题(含答案)
- 嘉峪关2025年嘉峪关市事业单位引进50名高层次和急需紧缺人才(含教育系统)笔试历年参考题库附带答案详解(5卷)
- 2026江苏省数据集团有限公司春季招聘笔试参考题库及答案解析
- 北京市通州区2023年八年级下学期《语文》期中试题与参考答案
- 监理实施细则混凝土工程
- 牵引管管道施工方案【实用文档】doc
- SB/T 10595-2011清洁行业经营服务规范
- 课前小游戏(肢体猜词接力)课件
- 询价单(表格模板)
- 教学大纲-数据库原理及应用(SQL Server)(第4版)
- 申论详解(PPT课件)
评论
0/150
提交评论