版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索技术
第五讲:壹主题语言的演变贰代码语言叁计算机检索技术肆检索流程及效果评价目录CONTENTS主题检索语言的演变
主题是一组具有共性事物的总称,用以表达文献所论述和研究的具体对象与问题,即文献的中心内容,表达主题概念的词汇就是主题词。以主题词作为文献内容标识和检索依据的语言就是主题语言,它以自然语言的字符为字符,用一组名词术语作为检索标识。以主题语言来描述和表达信息内容的信息处理方法称为主题法。主题语言包括四种
(1)标题词语言,是最早使用的一种主题语言。它以规范化的自然语义作为标识,来表达文献涉及的主题概念,表达主题的词语称为标题词。
(2)单元词语言,是从文献内容中抽选出来的最基本的词汇,将代表最一般、最基本的、不可再分割的概念的词作为单独标引文献的单位。
(3)叙词语言,是从自然语言中优选出来并经过规范化处理的名词术语。采用表示单元概念的规范化词语的组配,对文献内容主题进行描述,也是目前使用最广泛的主题语言。
(4)关键词语言,以关键词作为文献内容标识和检索依据的一种主题语言。关键词是指人文献内容中抽出来的关键的、未经规范化处理的自由词汇,关键词不受词表控制。
案例:《大学图书馆的图书采购》标题词法:图书馆,大学,学府
,购置单元词法:大学—图书馆—图书—采购叙词法:
大学图书馆&院校图书馆院校图书馆—图书采购关键词法:大学图书馆—采购大学图书馆—图书采购大学—图书馆采购大学图书馆采购标题法开始:1856年,英国Crestadoro发表《图书馆的编目技术》形成:1895年出版的《美国图书馆学会标题表》和1911年诞生的《美国国会图书馆标题表》
标题法:以“标题”表达文献内容主题,“标题”最初取自篇名,逐渐发展到取自文献的主题内容标题法标题词描述语言:
标题语言是最早产生的一种主题语言。标题是主题标目(SubjectHeading)的简称,它是直接表达文献主题的标识,大多是对文献内容所论及事物名称及特征的规范表达。众多标题集合而成的主题标识系统,就是标题语言。标题法TEXTTEXTTEXT优点:(1)对标题词进行规范,达到词的单义(2)对标题细分:带说明语的单级标题,如“十二指肠溃疡”多级标题,如“胃-溃疡”、“胃-生理”、“胃-肿瘤”倒置标题,如“肝炎,中毒性”、“肝炎,酒精性”、“肝炎,先天性”带限定词的标题,如“桔(树)”、“桔(水果)”标题法(3)为集中同一主题的文献,将方面概念作副标题,如“病因”、“诊断”、“治疗”(4)用参照系统显示标题词间等同关系、等级和相关关系总之,大量采用词组或短语作标题,含义明确、结构稳定、专指度比较高。标题法缺点:先组式语言,标题固定不能多元标引和多元检索,不灵活不能解决文献“集中与分散”的矛盾
20世纪30-40年代,分面分类理论逐步发展,由此产生单元词法、叙词法。单元词法早期的后组式主题检索语言
20世纪50年代初,美国陶伯(M.Taube)等创立单元词法:以字面上不能再分的词汇单元——元词作标识,以字面组配表达文献主题。单元词法优点:与标题语言一样,标识受控将“标题”分解为单元词,通过若干单元词的组配专指地表达主题概念,是后组式检索语言如:胃+溃疡+治疗每个单元词都可作为检索入口,提供多途径检索可利用单元词的增减扩大、缩小或改变检索范围单元词法缺点:对词组的分解是字面分解,组配也是字面组配,易导致语义失真及误检
字面组配概念组配香蕉苹果香蕉+苹果香蕉味食品+苹果胃溃疡出血胃+溃疡+出血胃溃疡+消化性溃疡出血
缺乏完善的参照系统,不利于族性检索叙词法新型的后组式主题检索语言
与单元词出现同期,美国穆尔斯(C.N.Mooers)创造是对单元词语言的直接继承,但克服了单元词语言的不足,吸收并综合了多种标引语言的原理和方法,是能结合计算机使用的后组式语言。叙词法AtthefirstGodmadetheheavenandtheearthAtthefirstGodmadetheheavenandtheearth概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:字面组配
概念组配
文献+检索-->文献检索
文献+检索-->文献检索
广东+潮剧->广东潮剧广东地方剧+潮剧->广东潮剧
香蕉+苹果-->香蕉苹果
香蕉味食品+苹果-->香蕉苹果叙词法AtthefirstGodmadetheheavenandtheearthAtthefirstGodmadetheheavenandtheearth在以上第一例中,无论是字面组配还是概念组配,其结果都是“文献检索”,第二例“广东”和“潮剧”,如果用“广东”检索则范围太广泛,用“广东地方剧”更符合检索要求;第三例中,根据字面组配原理,“香蕉”和“苹果”组配是“香蕉苹果”,而概念组配的结果应是指“一种香蕉和苹果杂交的品种”,而这样的品种目前是不存在的。所谓“香蕉苹果”只能是一种有香蕉味的苹果,因此,根据概念组配原理,这个概念应当用“香蕉味的食品”和“苹果”两个词组配,才符合概念逻辑。叙词法AtthefirstGodmadetheheavenandtheearthAtthefirstGodmadetheheavenandtheearth优点:
概念组配准确,标引能力强
结构完备,词汇控制严格
适合多途径检索,检索效率高
对检索系统的适应性强缺点:
叙词表编制和管理难度较大
利用叙词语言标引和检索较复杂,信息报道速度相对较慢叙词法AtthefirstGodmadetheheavenandtheearthAtthefirstGodmadetheheavenandtheearth我国目前使用最广的《中国分类主题词表》(前身是《汉语主题词表》)就是属于叙词法,有电子版和印刷版两种形式。《中国分类主题词表》是分类主题一体化的词表,与《中图法》相互对应,这对文献信息的组织和检索十分方便。可以看出,各个主题词及其之间的关系是严格控制的,从而构成一个严密的语义网络,为建立高效的文献信息检索系统提供了保证。
《中国分类主题词表》实例关键词法/1127AtthefirstGodmadetheheavenandtheearthAtthefirstGodmadetheheavenandtheearth自然语言形式的情报检索语言
随计算机出现,为适应索引编制自动化的需要产生直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过关键词轮排方法揭示文献主题。关键词法AtthefirstGodmadetheheavenandtheearth例如:“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。eavenandtheearth它与标题词语言、叙词语言同属主题法系统。但是,标题词语言、叙词语言使用的都是经规范化的自然语言,而关键词语言基本上不作规范化处理。关键词法AtthefirstGodmadetheheavenandtheearthAtthefirstGodmadetheheavenandtheearth优点:
直接源于自然词汇,专指性优于其它主题语言
标引无需查表,简便易行,节省人力
及时更新词汇,报道信息快(新冠)
适于计算机自动抽词标引,标引一致性高、标引深
度大关键词法AtthefirstGodmadetheheavenandtheearthAtthefirstGodmadetheheavenandtheearth缺点:词语不规范,不能显示词间的等同关系、等级关系和相关关系,查全率、查准率相对较低代码语言代码语言
代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提共检索的检索语言。代码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。例如,科技报告有报告号,还有合同号、拨款号等;专利文献有专利号、入藏号、公司代码等。类型特点优点缺点分类语言聚集相同学科门类和主题内容的文献,使杂乱无序的文献有序化按学科分门别类地集中文献,揭示各个类目在内容上的逻辑联系,提供从学科角度进行族性检索的途径;便于随时放宽或缩小检索范围无法反映新学科和新技术的内容;不能全面检索有关跨学科专业的某事物的所有文献;不适应新兴学科和边缘学科的检索主题语言以代表文献内容特征和科学概念的名词术语作为检索标识使检索具有直接性与直观性;适合于从事物出发按专题进行特性检索缺乏按学科进行族性检索的能力;缺乏表述专度较高的复杂概念的能力分类语言
PK主题语言计算机检索技术
检索技术,是指利用光盘数据库、联机数据库、网络数据库、搜索引繁等进行信息检索,采用的相关技术,主要包括布尔逻辑检索、截词检索、字段检索、词位置检索加权检索等1、布尔逻辑检索
所谓布尔逻辑检索,是用布尔逻辑运算符将检索词、短语或代码进行逻辑组配来指定文献的命中条件和组配次序,用以检索出符合逻辑组配所规定条件的记录。它是计算机检索系统中最常用的一种检索方法。
布尔逻辑运算符有三种,即逻辑与、逻辑或和逻辑非。名称表达形式检索式图示作用逻辑与AND、﹡、并且、并含A
ANDB缩小检索范围逻辑或OR、+、或者、或含A
ORB扩大检索范围逻辑非NOT、一、非,、不含ANOTB缩小检索范围布尔逻辑运算符及其作用BABABA2、截词检索
截词检索是指用给定的词干作为检索词,用以检索出含有该词干的全部检索词的记录。它可以起到扩大检索范围、提高查全率、减少检索词的输入量、节省检索时间等作用。检索时,当遇到名词的单复数形式、词的不同拼写法、词的前缀或后缀变化时均可采用此方法。
截词的方式有多种。按截断部位可分为前截断、后截断、中间截断、前后截断等按截断字符的数量,可以分为有限截断和无限截断。各检索系统使用的截词符号各不相同,有*、?、$、%等。(1)前截断:截去某个词的前部,进行词的后方一致比较,也称后方一致检索。例如,输入“*logy”能够检出含有biology、technology等词的记录(2)后截断:截去某个词的后部,进行词的前方一致比较,也称前方一致检索。例如,输入“integra*”能够检出含有integral、integrate、integrated、integrating、integration、integrative、integrator等词的记录(3)中间截断:截去某个词的中间部分,进行词的两边一致比较检索例如,输入“rac??et”能够检索含有racquet、racket等词的记录。(4)前后截断:截去某个词的前部和后部,进行词的中间一致比较检索。例如,输入“*chemi*”可以检出chemical、chemistry、biochemical等词的记录。注:不同的检索系统所用的截词符不一样,使用前应先查一下帮助或检索提示(tips)加以确认。3、字段检索
字段检索是指将检索词限定(Within)在某个或某些字段中,用以检索某个或某些字段含有该检索词的记录。通常有两种方式。(1)通过下拉菜单选择检索字段。此时,字段名一般用全称表示,如题名、摘要、Title、Abstract等。(2)输入检索字段符限定检索字段。此时,字段名一般用字段符表示,各检索系统的字段符各不相同。检索字段符是对检索词出现的字段范围进行限定。执行时,机器只对指定的字段进行检索,经常应用于检索结果的调整。常用的检索字段见下表。字段全称中文名称简称字段全称中文名称简称Title标题tiJournalName期刊名称jnAbstract文摘abSource来源出版物信息soKeywords关键词keLanguage语种laSubject/Topic主题词DEDocumentType文献类型DTAuthor作者auPublicationYear出版年代pyFull-text全文FTDocumentNo记录号DNCorporateSource单位或机构名称coCountry出版国co
常用的检索字段案例:要查询高波教授的文章,就应将“高波”限制在“作者”字段,如果要查询高波教授指导研究生的毕业论文,就应将“高波”限制在“导师”字段。又如要检索关于研究老舍的论文,输入“老舍”时必须选择途径为“标题”或“关键词”,不能选择作者途径。这是因为“老舍”在这里是被研究的对象而不是论文的作者。选择的字段不同,得到的检索结果也会不同。选自全文字段,得到的检索结果的数量最多,但相关度最低;选择题名和关键字段,得到的检索结果的数量最少,但相关度最高;选择文摘字段,得到的检索结果则介于两者之间。通常用核心概念、前提概念限定篇名、关键词;用次要概念、集合概念限定主题、文摘。需要注意的是限定文摘字段,会漏检没有摘要的论文。4、词位置检索词位置检索,是指在检索词之间使用位置算符,来规定算符两边的检索词出现在记录中的位置,用以检索出含有检索词且检索词之间的位置也符合特定要求的记录。1.词位置算符词位置算符包括(W)、(N)算符,用于限定检索词的相互位置以满足某些条件。W是With的缩写,表示其两侧的检索词必须按前后顺序出现在记录中,且两词之间不允许插入其他词,只可能有空格或一个标点符号。其可扩展为(nW),n为自然数,表示其两侧的检索词之间最多可插入n个词。例如,“light(W)rail”,表示rail必须紧跟在light之后,中间不允许插入其他词,q且位置不能颠倒。“light(4W)rail”表示light之间最多可插入4个词,但两个词的位置不能颠倒。N是Near的缩写,(N)表示其两侧的检索词位置可以颠倒,在两次之间不能插入其他词。(nN)为其扩展,表示其两侧的检索词之间最多可插入n个词。例如,“computer(N)network”,其检中记录可包含“computernetwork”或“networkcomputer”。“computer(2N)network”,表示computer与network之间可插入2个词,其先后顺序可以颠倒。
加权检索是指根据检索词对检索课题的重要程度,事先指定不同的权值。检索时,系统先查找这些检索词在数据库记录中是否存在,再对存在的检索词计算它们的权值总和。凡是在用户指定的临界值(阈值)之上者作为命中记录输出。临界值可视命中记录的多少而灵活地调整。临界值越高,命中记录越少。搜索引擎通常以“+”和“-”来表示检索词一定在检索结果中出现,或一定不在检索结果中出现,这相当于加杈检索。5、加权检索
检索式是指将各检索单元(其中最多的是表达主题内容的检索词)之间的逻辑关系、位置关系等,用检索系统规定的各种组配符(也称算符)连接起来,成为计算机可识别和执行的命令形式。检索式是检索策略的具体体现,它控制着检索过程。检索式是否合理关系到能否检索到最相关的信息。a、针对不同搜索引擎、数据库和不同的信息需求,有不同的检索策略,其检索式的构造也各有不同。b、设计合理的检索式成为控制和提高检索质量的关键。c、检索式的表达不是唯一的,而是有多种选择、组配、限定的。
d、当检索过于复杂,检索要求难以用一个检索式来表达时,应该采用分步检索或二次检索以提高查准率。
e、编写检索式时最重要的是注意检索途径与检索词的正确匹配。检索式用逻辑“与”、逻辑“或”逻辑“非”检索“法律的渊源”的信息。作答正常使用主观题需2.0以上版本雨课堂可为此题添加文本、图片、公式等解析,且需将内容全部放在本区域内。正常使用需3.0以上版本不能单凭字面解析,需要先了解概念层面,区分要检索的是论文还是课题。主观题10分答案解析写出“防撞气囊在汽车安全中的应用”的检索式。作答正常使用主观题需2.0以上版本雨课堂可为此题添加文本、图片、公式等解析,且需将内容全部放在本区域内。正常使用需3.0以上版本“防撞气囊”*“汽车”主观题10分答案解析研究“法律与经济和政治的关系”的课题,要如何设置检索式?作答正常使用主观题需2.0以上版本雨课堂可为此题添加文本、图片、公式等解析,且需将内容全部放在本区域内。正常使用需3.0以上版本法律*(经济+政治)主观题10分答案解析检索流程及效果评价信息需求与信息检索的对应关系
一般情况下,大部分的信息需求,最后会转化为信息检索的行为。信息检索人员认识到的信息需求不同于客观信息需求。由于主观因素、专业知识、认识能力等的差异,检索人员有可能对信息需求产生错误的或片面的认识,或者是对认识到的问题存在表达障碍。也就是说,有时候用户能够正确地表达出来的信息需求,与其客观信息需求之间存在着相当大的差距。这些因素都会导致信息检索策略的不准确或检索结果的失败。信息需求及其对应的信息检索类型如下表所示。检索类型需求特点检索特点适用类型重点文献普查类需要全面收集某一主题的文献资料需求带有普查、追溯的特点,要求高的查全率立项、综述、申请发明、编写教材,进行基础理论研究的用户专利、期刊及会议论文、科技报告、各类综述等攻关类需要收集有关特定方面的文献资料具有专指性的特点,要求尽量高的查准率科研、生产中需要解决某一关键问题的用户专利、期刊和会议论文、产品说明书、标准探索类需要了解和掌握某一领域的最新研究动向或研发成果信息需求具有及时的特点,要求检索结果尽可能“新”研究、开发和应用新技术、新理论的用户期刊及会议论文检索流程检索流程是从确立信息需求到信息需求满足的全过程。对于不同的检索系统、不同的课题、不同的用户来说,其具体检索流程有所不同。通用信息检索流程一般包括:分析检索课题、选择检索工具、确定检索策略、调整检索策略及获取原始文献等流程,见图3-11。信息需求用户信息分析选择检索工具确定检索策略检索匹配输出检索结果检索结束用户评价满意不满意调整检索策略图3-11检索通用流程图调整检索策略之前,首先要分析结果不理想的原因。若是检索结果输出的篇数过多,其原因可能是:选用了多个多义性的检索词;截词截得过短;输入的检索词太少;应该使用AND却用了OR;优先运算符用错。若是检索结果输出的篇数过少,其原因可能是:错选数据库;检索词概念错误或拼写错误;检索词过于冷僻或者具体;没有使用截词符;位置算符与字段算符用得过多;使用过多的AND算符。选用了不规范的主题词或某些产品的俗称、商品名作为检索词;同义词、近义词或隐含概念没有得到充分考虑,上位概念或下位概念没有得到完整运用等。检索结果不理想的原因检索效果评价信息检索效果是利用检索系统进行检索所产生的有效结果。检索效果评价是根据一定指标,对实施信息检索活动所取得的成果进行客观科学的评价,以进一步完善检索工作的过程检索系统的检索效果指标包括收录范围、查全率、查准率、响应时间、用户负担及输出形式。其中两个主要的衡量指标是查全率和查准率。这些指标不仅可进行定性的,也可进行定量的评价。查全率=被检出的相关文献篇数/数据库中的相关文献篇数x100%查准率-被检出的相关文献篇数/被检出的文献的总篇数x100%
(1)网络环境下信息检索方法主要是关键词检索,其主要考虑的是关键词出现的位置和频率。此方法有两个缺陷:一是检索结果多是在字面上符合用户的要求,实际内容往往偏离用户的实际需要;二是用户输入的检索词稍有偏差,检索系统就无法确定用户的真正需要,因而无法提交正确的结果。
(2)无法发掘隐性信息,由于一些隐性信息的存在,用户不能及时准确地从繁杂的检索系统中找到自己所需的信息。造成检索系统的检索效果不佳的原因主要有以下两点从用户的角度考虑,可以从检索到的文献的相关性、适用性、新颖性三个方面判断检索效果是否满意。
(1)相关性。即用户判断检索到的文献信息与实际信息需求之间关系的标准。现实的信息系统是回答用检索式表达后的信息提问。虽然检出的是与信息提问相关的信息,但不一定是真正切题的信息,用户只有在阅读文献信息后才能对其切题性作出判断。
(2)适用性。即检索到的文献对用户的实际需要的满足程度或能够给用户带来的效果和产生的效益。
(3)新颖性。即对用户而言,从检索系统中检出来的、含有新颖信息的文献数与文档中总相关文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗废物处理中的社区告知与环境风险沟通
- 医疗不良事件RCA的标准化管理规范
- 2025年广西南宁市良庆区住房和城乡建设局公开招聘工作人员1人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2026年同城仓储配送合同范本
- 2026年仓储货物寄存合同协议
- 2026年监控系统工程建设项目质量合同
- 2026年打印机驱动更新服务合同协议
- 2026年广告合规审核服务合同协议
- 软件开发合同协议2026年合同生效条款
- 2026年农村农业科研合作合同协议
- 脑卒中后吞咽障碍的护理
- 麻醉机检查流程
- 广告标识牌采购投标方案
- 提升信息素养教学课件
- 2025CSCO子宫内膜癌新进展及指南更新要点
- 血站采血操作规范
- 学校“1530”安全教育记录表(2024年秋季全学期)
- DBJ50T-306-2018 建设工程档案编制验收标准
- 植物生物化学
- 产业研究报告-中国二手奢侈品行业发展现状、市场规模、投资前景分析(智研咨询)
- 《低温技术及其应用》课件
评论
0/150
提交评论