计算机检索基本原理.ppt_第1页
计算机检索基本原理.ppt_第2页
计算机检索基本原理.ppt_第3页
计算机检索基本原理.ppt_第4页
计算机检索基本原理.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 计算机检索基本原理,1计算机检索系统 2计算机检索的基本原理与技术 3计算机检索策略及其调整,1计算机检索系统,1.1计算机检索系统组成 计算机硬件,计算机软件,数据库 1.2数据库 1.2.1定义:包含书目以及与文献有关数据的机读记录的有组织的集合。机读记录是文献的代替物,一条记录对应一篇文献,数据库由若干条记录组成。 1.2.2类型 1.2.3构成,1.2.2文献数据库类型(据数据库所含信息内容 ),1)文献数据库:存储文献型数据,如一次文献或二次文 献 书目数据库(二次文献数据库):包括各种文摘、索引、 目录。存贮某个领域原始文献的书目。组成记录的 字段一般有文献的标题、作者、出处、文摘、主题 词等。 全文数据库:存贮文献全文或其中主要部分的数据库。 能使用户获得最终的一次文献。 2)源数据库:存储事实、数值、概念、图形等非文献数 据的数据库,数值数据库:提供以数值方式表示信息的一种源数据库,其检索结果可能只是单一的值或一组数据。数值数据库能提供产品价格等数值信息,也可提供物质的物理化学性质、结构、频谱等数据。 事实数据库:自原始文献或社会调查中获得并经过处理的各种事实,如机构、人物、产品、资源等数据。常见的有指南数据库、产品数据库等。 概念数据库:库内存储各种名词术语或语言资料,如词典数据库、语料库等。 多媒体数据库:将各种类型的信息集中在CDROM上,是视频、音频、文字、图像、动画等的集合体,如一些互动性的百科全书。,1.2.3数据库的构成,1)记录:是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库由若干条记录构成。每条记录相当于文摘型或题录型检索刊物的一条著录款目。 文献记录格式(以Dialog系统中EICompendexPlus数据库为例)如下:,AN DIALOG NO:03883137 EI Monthly NO;EIP94031231114 TI Title:LaserLight imaging for underwater use AU= Author:Caimin,Frank M CS= Corporate Source:Harbor Branch oceanographic lnstIncFL Pierce,FL,USA SO= Source:Sca Technology,V34 NO12 Dec1993P22-27 PY= Publication Year:1993 CO,SN=CODEN:SEATAD ISSN:0993-3651 LA= LanguageEnglish DT,TC=Document Type:JA(Joumal Article);Treatment code X(Experimental); AB Abstract:Conventional undersea imaging limitationsave Pointed out and several imaging systems are described,in particular the range galed imaging,fieldlimited imaging,and 3-D Structured inter ferometric illumination systems DE Description: * Imaging techniques: Laser application; engineering;Vision ID Identifiers:Laser light imaging;Underwater technology CC= EI Classification Codes;,2)字段:是文献记录的基本单元。一条记录有若干个字段,一个字段有时还可分为几个子字段(Subfield)。在书目数据库中,一条记录应包含原始文献的篇名、作者、刊名、出版时间、分类号、文摘、主题词等字段。 数据库的字段可分为基本字段和辅助字段: 基本字段主要是描述文献内容特征的字段,如篇名、文 摘、叙词、自由标引词等字段; 辅助字段主要是描述文献外表特征的字段,如著者、机 构名称、语种、文献来源等字段。,AN:Dialog存取号(Dialog Access Number)。在一个数据库中,每条记录只有一个存取号,两者一一对应。 TI:篇名字段(Title)。 AU=:作者字段(Author)。 CS=:作者所在单位字段(Corporate Source)。 SO=:文献来源字段(Source Publication)。包括期刊名称、年,卷、 期、页等,或包括会议事项。 PY=:出版年份(Publication Year)。 CO=:期刊代码字段(CODEN)。 LA=:语种字段(Language),表示原文的语种。,DT:文献类型字段(Document Type)。 TC=:处理码字段(Treatment Code)表示论文的性质,A表示应用,X表示实验,T表示理论,等等 AB:文摘字段(Abstract)。 DE:叙词字段(Descriptor),选自叙词表、主题词表中的词。 ID:自由标引词字段(Identifier),非系统词表中的词,由标引人员确定。 CC=:分类代码字段(Classification Code)。 对于不同检索系统、不同数据库来说,其记录格式、字段代码、字段数目可能不完全相同。,3)文档(File):若干条逻辑记录构成的信息集合。文档 是书目数据库和文献检索系统中数据组织的基本形式。 根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。,顺排文档:是按文献记录的输入顺序(即文献序号)排列的文档。相当于印刷型检索工具的正文部分。 在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为主文档(Master File)。 这种存贮方式决定了对记录的存取只能按顺序进行。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存贮的记录愈多,扫描的时间愈长,从而严重影响了检索的速度。 主要供用户输出和打印文献记录用。,倒排文档:把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。 倒排文档与顺排文档的区别: 顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。,2 计算机检索的基本原理与技术,2.1检索原理,计算机简单查询过程(以检索小麦或燕麦的文献为例),2.2检索功能,布尔逻辑检索功能 词间位置检索功能 截词检索功能 限定字段检索功能 禁用词 其他功能,1)Boolean Search(布尔逻辑检索),逻辑“与”:AND ;and;*,A and B;A*B wheat and mildew,定义:用于交叉概念或限定关系的组配,即被命中的文献必须同时含有检索项A和B。 作用:可缩小检索范围,提高查准率。 要求:运用时,把出现频率低的检索词置于“与”的左端,可使否定答案尽早出现,节省机时。,1)Boolean Search(布尔逻辑检索),逻辑“或”:OR;or;+,A or B;A+B;computer or robot,定义:表示两个概念的并列,即被命中的文献含有两词之一或同时包含两词。 作用:可扩大检索范围,提高查全率。 要求:组构检索式时,可将估计出现频率高的词置于“或”的左面,可使选中的答案尽早出现。,1)Boolean Search(布尔逻辑检索),逻辑“非”:NOT;not; -,A not B;A-B; mildew not wheat,定义:表示两个概念的排除,即被检索文献在含有检索词A而不含有检索词B时才被命中。 作用:用于排斥关系的组配,即从原来的检索范围排除不需要的概念或影响检索结果的概念,提高查准率。 注意:往往会把切题的文献给丢掉,运用时要非常慎重。,2)位置检索:,表达检索词之间位置关系的一种检索 位置算符,3)截词检索:*;?,定义:允许检索词有一定范围的变化。检索时将截词符置于检索词允许变化的部位,只要检索词和标引词的词干相同即为命中文献。 作用:减少检索词的输入量,扩大检索范围 ,提高检索效率。 注意:使用截词检索必须慎重,一是词干不要太短,以免检出许多与原来检索词不相关的文献记录,二是英美不同拼法的词,如变化字母数不同则不能使用中间截词检索,必须详细写出并用OR组配后输入。,分类: 按截词位置:前截断;后截断;中间截断 按截词方式:无限截词;有限截词;中间截词,前截断:将截词符放在词根前边,后方一致,表示在词根前方有有限个或无限个字符。 如*magnetic 能够检出含有magnetic、ctromagnetic、paramagnetic等词的记录。 后截断:将截词符放在词根后边,前方一致,表示在词根后方有有限个或无限个字符。 如metal*,能够检出含有metal、metals、metaled、metalist等词的记录。 中间截断:将截词符放在词的中间,词的前后方一致。 如colo*r,能够检出含有colour、color的记录。,无限截词:指允许截去的字符数量不限,也称开放式截断。如前截断和后截断 有限截词:允许截去有限个字符。如dye* ,能够检出含有dyer、dye、dyed、dyeing等词的记录。 中间截词:如中间截断。,4)限定字段检索:,定义:将检索过程限定在记录的特定的字段中进行。 作用:缩小或约束检索结果 ,提高检索效率。 检索符号:in、 、 等。,computerTI,AB:表示在TI和AB字段中检索computer。 AUWang fang and PY 2000:表示查找王芳于2000年以来发表的文章。,5)禁用词(stop words):,保留词:Near、 and、 or 、not 噪音词(非常常见的词): a 、are 、for、 the、with 、is、 of、about、 for、 as、 from、this等,6)其他功能:,整体检索: 在词组的两端加上“ ”,如“wheat powdery mildew” 优先级检索:在一个复杂的逻辑提问中,使用括号(单层或多层)来指定运算的先后顺序。 (A*B+C)*(D+E)+F,3计算机检索策略及其调整,3.1计算机检索策略 1)最专指面优先策略 2)最少记录面优先策略 3)积木型概念组面策略 4)引文珠形增长策略 5)逐次分馏策略 3.2计算机检索策略调整 扩检 缩检,1)最专指面优先策略:指在检索时,首先选择最专指的概念组面进行检索,如果检索命中的文献相当少,那么其他概念组面就不再加到检索提问式中去;如果检索命中的文献较多,就把其他概念组面加到检索提问式中,以提高查准率。 2)最少记录面优先策略:与最专指面优先策略类似,即先从估计检中的文献记录数量最少的概念组面人手,如果检中的文献记录相当少,则不必检索其他概念组面,反之,则将其他概念组面加到检索提问式中去,提高检索结果的查准率。,3)积木型概念组面策略:把检索课题分解成若干个概念组面,并分别先对这几个概念组面进行检索,在每个概念组面中尽可能全地列举同义词、相关词、近义词,并用布尔算符“OR”连接成子检索式,然后再用布尔算符“AND”把所有概念组面的子检索式连接起来构成一个总检索式。,4引文珠形增长策略:从直接检索课题中最专指的概念组面开始,以便至少检出一篇命中文献。检索人员从这一条或数条记录中找到新的规范词或自由词,补充到检索式中去,然后再检索就能重新查出更多的文献。 5逐次分馏策略:先确定一个较大的、范围较广的初始文献集,然后逐步提高检索式的专指度,从而逐步缩小命中文献集,直到得到数量适宜、用户满意的文献集合为止。,扩检时,即提高查全率时,调整检索式的主要方法有: (1) 选全同义词并以“OR”方式与原词连接后加入到检索式中。 (2) 降低检索词的专指度,从词表或检出文献中选一些上位词或相关词。 (3) 采用分类号进行检索。 (4)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论