第三章计算机检索原理_第1页
第三章计算机检索原理_第2页
第三章计算机检索原理_第3页
第三章计算机检索原理_第4页
第三章计算机检索原理_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章计算机检索原理计算机检索概述1.计算机检索的发展2.计算机检索的原理3.文献数据库简介4.计算机检索中常用的运算符5.计算机检索策略的制定及调整1.计算机检索的发展历史计算机检索从产生到现在经历了4个阶段:

(1)20世纪50年代,以批量处理、脱机检索为特点的第一阶段(美国海军兵器中心NOTS,4000条记录,“与”,不能人机对话);(2)20世纪60年代末,联机检索阶段(出现网络,dialog,人机对话);(3)20世纪70-80年代,联机检索与光盘检索共同发展阶段;

前三阶段以文献数据库检索为主;(4)20世纪90年代,基于互连网的数据库检索和Internet网上信息检索并重的第四阶段。因特网成为重要的电子信息源.2.计算机检索的原理

计算机检索的原理就是利用计算机将用户所提出的检索标识与检索系统中的标引标识进行比较,将匹配的文献视为命中。

检索标识(检索式)是检索者根据对课题的分析,制定出的既能反映课题的要求,又符合计算机检索要求的检索语言,其中包括适当的检索词,以及合适的逻辑算符和位置算符。例:朱万成2008年论文,题目是“动态荷载作用下混凝土破裂的数值模拟”。AU=朱万成andTI=动态荷载作用下混凝土破裂的数值模拟(CNKI)3.文献数据库简介3.1数据库的定义和类型3.1.1定义:按一定方式存储的相互关联的数据集合。它是检索工具的一种:CNKI/万方。3.1.2数据库类型:文献目录型数据库(bibliographicdatabase).也称为书目数据库或者目录数据库,是二次文献数据库,包含文摘数据库、题录数据库、索引数据库、各国的MARC格式的图书目录。如EI,SCIE等。指南数据库(referencedatabases).也称指示性数据库,其内容是关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述,是指引用户从其他有关的信息源获取更详细的信息的一类数据库。如中国人物数据库、Dialog系统中的邓白氏国际市场情报库。数值数据库(numericdatabase).又称数据型数据库,此类数据库存储的均为数据信息。如中国统计年鉴\Dialog系统中的公司披露数据库。全文型数据库(full-textdatabase)。是指储存的数据是文献全文或者其主要部分是文献全文的一种数据库。如中国期刊全文数据库,重庆维普期刊全文库。3.2数据库的构成

由文档、记录、字段构成。(1)文档(file),若干个逻辑记录构成的信息集合。文档是书目数据库和文献检索系统中数据组织的基本形式。根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。顺排文档:是按文献记录的输入顺序(即文献序号)排列的文档。在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号愈大,对应的记录就愈新。由于它存贮有记录的最完整的信息,所以,通常又把它称之为主文档(MasterFile)。倒排文档:把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。(2)记录(record),记录是若干个字段组成的文献单元。是对某一实体属性进行描述的结果。一个数据库由若干条记录构成。在全文数据库中,一个记录相当于一篇完整的文献;在书目数据库中,一个记录相当于一条文摘或题录。(3)字段(field),是文献著录的基本单元,用来描述文献主题内容相关的某种属性。一个字段有时还可分为几个子字段(Subfield)。数据库的字段可分为基本字段和辅助字段:基本字段主要是描述文献内容特征的字段,如篇名、文摘、叙词、自由标引词等字段;辅助字段主要是描述文献外表特征的字段,如著者、机构名称、语种、文献来源等字段。4.计算机检索中常用的运算符4.1逻辑算符4.1.1逻辑“与”。用“and”或者“*”表示,是用以组配不同的概念逻辑符号,表示“and”连接的两个词在一个记录中必须同时出现。如:LibraryandComputerLibraryComputer4.1.2逻辑“或”。用“or”或“+”表示。是用来组配相同或相近概念的逻辑算符,表示在记录中出现其一即可作为命中。如:fiberorfibrefiberfibre4.1.3逻辑“非”。在系统中用“not”或者“-”表示,排除某个概念的逻辑算符,如:PatentnotJapan,表示检中的记录中包含Patent,不包含Japan。

PatentJapan4.2优先算符

优先算符用()表示,在含有多个运算的检索式中,可以用()将需要优先运算的部分括上,系统会优先运算()中的部分,然后在按照not,and,or的顺序进行运算。如:S

(fiberorfibre)andoptical

4.3截词符和屏蔽符4.3.1.截词符:用“?”或者“*”,不同数据库有不同的规定4.3.2

屏蔽符:“?”作为屏蔽符,加在单词中间,可以代表1个字符的变化。如:wom?n,表示women和woman。词中使用几个屏蔽符,则代表有几个字符的变化。有的数据库使用“#”4.4位置算符位置算符是用来规定检索词之间的位置关系的算符:4.4.1.(w),(nW),意思是with,表示它连结的两个词前后位置确定,中间插词不能超过0-n个。(w)也写作(),实际上是(0W),表示连接的两个词必须紧密相连,中间不能插词,但是中间可以加连字符。如:卡车S

motor(W)lorry可以检出motor-lorry和motorlorry。4.4.2.(N),(nN),意思是near,表示它连结的两个词前后次序不限,中间可以插入n个词。(N)实际上是(0N),表示连结的两个词中间不得插入其他词。如:S

corrosion(N)resist?可以检索出corrosionresistance;corrosionresistant;resistingcorrosion;

S

protect?(2N)forest可以检出protectionofforest,forestprotection,protectingtheforest等。

4.4.3

(S),意思是subfield或sentence,它表示连结的两个检索词要在同一个子字段或同一句话中出现。如:

S

computer(s)library要求computer和library在同一个句子中出现

Scs=shenyang(s)university

要求shenyang和university在cs字段中的同一个子字段出现。4.4.4(F),意思是field,表示连结的两个词要在同一个字段中出现。如:S

fieldbus(f)multimedia要求fieldbus和multimedia在同一个字段中出现。以上是计算机中常用的位置算符,但并非所有的系统都可用,不同的检索系统有其自己的规定。5.计算机检索策略的制定及调整1.概念的选取(1)核心概念的选取:

变温条件下煤层损伤与瓦斯运移的热流固耦合模型

a.选取语言最小单位;b.切分词(拆词);C.同义词、近义词

(2)发掘隐含概念:石质文物的保护—石雕、石刻、石碑…(3)考虑同义词包括术语和俗称:保护conservation,preservation,protection

(铝矿or铝土矿or铝矿石or铝土矿石or一水铝石型铝土矿or一水硬铝石)(4)排除不必要的概念:使用专业数据库或通用词(5)使用准确的代码:标准号、专利号、产品代码借助工具找出核心概念同义词的方法在检索出来的文献中寻找中文同义词:百度百科CNKI工具书与知识元搜索读秀知识搜索英文翻译:金山词霸GoogleCNKI翻译助手百度百科CNKI工具书与知识元搜索CNKI工具书与知识元搜索CNKI工具书与知识元搜索CNKI工具书与知识元搜索读秀知识搜索读秀知识搜索CNKI翻译助手2.数据库的选择(1)合适的主题范畴(社科、工程技术、化学、医学…)(2)合适的数据库类型、年度范围(专利、标准、期刊、书…)3.检索策略的制定及调整(1)拟定检索式:变温条件下煤层损伤与瓦斯运移的热流固耦合模型

(非等温or变温)and(煤层or煤岩体)and(损伤or破坏or损坏)and

(瓦斯or煤层气or煤气)and(运移or漂移or运动)and热流固(2)如果检索结果太少,适当调整策略,以扩大检索范围(增加同义词或隐含概念)a.热流固有没有同义词热-流-固;b.去掉热流固;c.and改为or:((煤层or煤岩体)and

(损伤or破坏or损坏)or(瓦斯or煤层气or煤气)and

(运移or漂移or运动))d.去掉第一个检索词(非等温or变温)注意:尽量从概念和逻辑关系上找原因,或者“精确”匹配改为“模糊”匹配(3)如果检索结果太多,也要适当调整策略,以缩小检索范围(增加概念(检索词)或用字段、年代等限制)。

(非等温or变温)and(煤层

/主题or煤岩体/主题)

and(损伤or破坏or损坏)and(瓦斯or煤层气)/主题

and(运移or漂移or运动)and热流固and(耦合模型or数学模型or仿真or数值模拟)要把检索式变成数据库认识的检索式:第一检索式结果为0增加检索词热-流-固,三个检索式都是0去掉(变温+非等温)条件:2条。或者去掉“热流固”概念

SU=(非等温+变温)and(SU=(煤层+煤岩体)andSU=(损伤+破坏+损坏)orSU=(瓦斯+煤层气+煤气)andSU=(运移+漂移+运动))5条同时去掉非等温和热流固概念

(SU=(煤层+煤岩体)andSU=(损伤+破坏+损坏)andSU=(瓦斯+煤层气+煤气)andSU=(运移+漂移+运动))108条发现一个新词:煤层变形把“变形”加进去,结果变得非常多,251条

(SU=(煤层+煤岩体)andSU=(损伤+破坏+损坏+变形)andSU=(瓦斯+煤层气+煤气)andSU=(运移+漂移+运动))再检索(变温+非等温)*(煤层+煤岩体)*(瓦斯+煤层气+煤气):18条,发现有一个新词:温度变化把“温度变化”加进去,有79条记录,用这种方法再找找有没有“运移”的同义词。把“温度变化”和“变形”同时加进去SU=(非等温+变温+温度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论