计算机信息检索知识讲座图书馆参考咨询部_第1页
计算机信息检索知识讲座图书馆参考咨询部_第2页
计算机信息检索知识讲座图书馆参考咨询部_第3页
计算机信息检索知识讲座图书馆参考咨询部_第4页
计算机信息检索知识讲座图书馆参考咨询部_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

计算机信息检索知识讲座图书馆参考咨询部闫江Email:yanjiangTel:67792226,主要内容:信息检索的相关知识;图书馆主页资源介绍;常用的著名搜索引擎简介。,一、相关概念信息:一般指数据、消息中包含的意义。它是物质的一种具有普遍性的关系属性,是物质存在方式及其运动规律、特点的外在表现。特点:(1)时效性(2)传递性:信息借助于一定的物质载体进行传递,其过程由6个部分组成:信源-编码-信息-信息传递渠道(载体)-译码-信宿(3)可扩散性(4)可扩充性(5)可替代性(6)共享性,知识:人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映。情报:广义上是指人们以各种方式传递与交流的具有一定目的与时效性的信息,可以分为知识性和非知识性两大部份;狭义的情报则专指知识性情报。关系:知识来源于信息,理性化、优化和系统化了的信息;情报是解决特定问题的知识和智慧,是激活的那部分知识;文献是它们的载体。,二、文献信息检索的基本知识1.文献:以文字、图形、符号、声频、视频等手段记录和传播知识或信息的载体。2.文献的级别与分类按出版类型分按加工层次分按载体形式分按相对利用率划分依文献获取的难易程度划分,3.文献的特征(1)外表特征:题目、作者、作者工作单位,专利和科技报告还有专利号或报告号等,这些可以表征一篇特定文献的特征可以在文献的封面或扉页,即不打开书本,或不看文献的具体内容就可以确定一篇文献。(2)内容特征:分类号、主题词、关键词等,4.检索语言(1)描述文献外表特征的检索语言(2)描述文献内容特征的检索语言分类语言主题语言a.标题词语言b.关键词语言c.叙词语言,例:查找“艾滋病的药物疗法”方面的文献。分类语言:R512.910.5(按分类体系来查找)主题词语言:获得性免疫缺陷综合征/药物疗法(全面、准确,可一步到位)关键词语言:AIDS、艾滋病、爱滋病、药名等(适于初学者使用,但易漏检),5.信息检索的指令语言目前大部分文献检索系统使用的指令语言有:(1)菜单式(2)指令式(3)混合式,6.检索工具(1)目录(2)题录(3)文摘,7.信息检索原理及作用(1)原理:检索者将检索提问标识与存储在检索工具或检索系统中的文献特征标识进行比较,相一致的则从检索工具或检索系统中输出。a.信息检索:将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。b.计算机信息检索:在人和计算机的共同作用下去完成信息存取操作,从机器存储的大量数据中自动分拣出用户所需要的部分。,计算机信息检索基本原理,用户提问,匹配运算,数据库,命中信息并于终端输出结果,(2)作用:a.继承和借鉴前人的成果,避免重复研究;b.节省研究人员查找文献的时间;c.协助决策者做出正确的决策;d.继续教育“授人以渔”,一套科学地进行知识更新和积累的治学方法;,三、信息检索的方法和程序:(一)检索方法指在分析信息需求实质的基础上,确定检索工具、检索途径与检索用词,并明确各词之间的逻辑关系。在检索过程中具体的步骤如下:,分析研究课题分析研究课题的主题内容、所属学科,然后分析出主题概念、提取关键词和分子式、号码等作为检索词,再确定课题所需查找文献的时间范围、国家范围和文献类型范围。,关键词的抽取在分析了课题后,可以进行关键词的抽取,滤除一些虚词、禁用词后,将剩余的词作为关键词。制定关键词时还须考虑同义词、不同的拼写方法、单复数形式、常用缩写词语和其完整词语,即同一概念的检索词的扩展。,选择检索工具(数据库)确定和学科专业有关的、以及和所查文献类型有关的数据库。,一些常用的国内外科技综合类数据库中国期刊网中国科技期刊数据库万方数据检索系统中华人民共和国国家知识产权局oclcfirstsearch国际联机检索系统ebscohost全文数据库NTIS美国政府研究报告文摘和通报EiCOMPENDEXweb工程索引,构建检索式根据课题分析的结果,将检索词用布尔逻辑、及数据库系统使用的检索算符组成检索表达式。,(二)检索策略构成和调整方法检索策略的制定过程可以简单地理解为检索表达式的形成过程。(1)布尔逻辑算符规定检索词之间的逻辑关系的算符,称为布尔逻辑算符。布尔逻辑算符包括逻辑“与(AND)”、“或(OR)”和“非(NOT)”。,A.与(AND)运算符也可用“*”代替,组配用来表示不同检索主题概念之间的相交。其含义是检出的记录必须同时含有所有的检索词。AND算符的基本作用是缩小检索范围,提高检索结果的查准率。在实际检索中,不同概念组面之间以及同一组面内的不同含义的词之间通常使用AND算符。,例如:以提问式“communicationANDsatellite”检索为例:图2逻辑“与”示意图这个实例的示意图,图中的阴影部分反映了“communication”和“satellite”两词间使用AND算符后的运算结果。,B.或(OR)运算符也可用“+”代替,表示主题概念之间的同义、近义、相关或多个并列的检索概念。其含义是,检出的记录中,至少含有两个检索词中的一个。OR算符的基本作用是扩大检索范围,OR运算符还有一个去重的功能。另外,在使用截词方法检索具有相同词干的检索词或顺序的范围检索(PY=1989:1992相当于PY=(1989or1990or1991or1992)或使用多个字段限制时(wildness/ti,de,id),这些词之间也自动地隐含了逻辑“或”的关系。,图1逻辑“或”示意图用A、B分别表示两个主题概念,那么AORB表示用该式子检出的文献中至少含有其中的一个检索项,即或A或B,或A、B同时存在的文献,OR逻辑关系运算对所检的主题概念起到了概念的外伸作用。,C.非(NOT)运算符也可用“”代替,但在检索时建议使用NOT,以避免与词间的分隔符“-”混淆,NOT算符是排除含有某些词的记录的,ANOTB检索出的文献中包含A的主题概念,而不含B主题概念。NOT算符的基本作用是缩小检索范围,提高检索结果的查准率。例如:检索“PATENTnotGERMAN”,检索结果示意如下:图3逻辑“非”示意图,(2)优先处理算符“()”逻辑算符OR和AND的使用方法,如果归纳成一个模式,比如有A、B、C、D四个检索词(其中A和B,C和D分别为同义概念),检索提问式为:(AORB)AND(CORD)即,同一组检索提问既含有OR算符,又含有AND算符,此时须使用优先处理算符“()”,将OR算符前后的词放入括号中,计算机将优先运算括号内的算符。,(3)位置算符位置算符又称邻接算符(adjacentoperators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合,比如,以词组形式表达的概念;彼此相邻的两个或两个以上的词;被禁用词或特殊符号分隔的词以及化学分子式等。位置算符是调整检索策略的一种重要手段。,以AND运算符查得的记录中,尽管同时含有所希望的检索词,但AND算符并不限制两个检索词的位置和出现顺序。以“communicationANDsatellite”这个策略为例,命中的文献中可能既含有“communicationsatellite”,又含有“satellitecommunication”;也可能既含有“communicationdevicesforsatellite”,又含有“communicationlinkswithoutsatellites”,显然其中的有些记录与课题要求毫无关系。位置算符可以用于改进AND运算符这种不足之处,因此,它们可以看成是特殊功能的AND运算符。,常用的位置算符有N或near、W、Adj等。各个检索系统中的位置算符的表示方法有所不同。下面介绍的以EiCOMPENDEX数据库使用的位置算符为例。,而对于EBSCO数据库:W算符表示在此算符两侧的检索词在命中时,必须按输入时的先后次序排列,不得颠倒顺序。两个检索词之间可以插入任何其它的词和字母(但可以有一个空格或一个符号连接号),相隔的词数用W加数字表示,即nW或W/n。可见,检索用户要想用一个固定的词组检索,也可采用(W)算符,如:thin(W)film等。N算符表示在此算符两侧的检索词在命中时,词序可以颠倒。检索词之间允许插入任何其它的词和字母,相隔的词数用N加数字表示。,(4)截词算符(?,*)此算符可看作是将某一部分相同的检索词用“或”算符连接后进行检索。不同数据库有不同的截词符,如EI_Village2用?,而Webofknowledge平台用*。基本作用是,减少输入步骤,简化检索程序,扩大检索范围,提高查全率,节省机时,降低费用。一般可分为后截断、前截断、中间截断、混合截断四种。,后截断(开放式截断)后截断可保持词首部分的一致性。如:computer?或computer*,可实现:computer,computerised,computerized,computers的检索,前截断前截断可保持词尾部分的一致性。如:?computer,可实现:microcomputer,minicomputer的检索,中间截断(嵌入式截断)中间截断可实现对某词不同拼法的检索,嵌入字母数等于问号数,通常用在英美不同拼法。如:computeri?ed,可实现:computerised,computerized的检索,混合截断混合截断可以实现对不同词根、词首、及中间部分不一致的检索。如:?computer?,可实现:computer,computerized,computers,microcomputer,microcomputerized,minicomputer的检索,限制式截断(1)词干后只跟一个字母,用?表示,两问号间空一格。主要用于单、复数名词的检索。例:DYE?表示检索DYE、DYED、DYES。(2)词干后至多跟与问号数相同的字母数,用?或?表示,问号间不用空格。例:UNIVERS?表示最多跟2个字母,可检索UNIVERSE、UNIVERSAL等。例:CAND?表示最多跟3个字母,可检索CANDY、CANDIES、CANDIED等。,(5)字段限制(TI,AB,DE,ID)A.基本字段限制基本字段限制的用法是在需要指定字段(题目、叙词、识别词和文摘)的检索词后加上后缀运算符“/”和段码。例如,检索策略“OPTICAL/TIANDFIBER/TI”的含义是指定在题目字段中查找含有“optical”和“fiber”两词的所有记录。字段段码可以多个连用,段码之间加“,”即可。例如,检索策略“FIB?/TI,DE”的含义是指定在题目和叙词字段中查找以“fib”为词干的所有记录。,B.辅助字段限制辅助字段运算符的用法是在需要指定字段的检索词(有时检索词须放在双引号内)之前加上段码和前缀运算符“=”。例如检索策略AU=“Robert,S.”的含义是在作者字段中查找含有“Robert,S.”的所有记录。下面是其他常用的辅助字段限制及其实例:指定著者单位字段CS=SHANGHAIUNIVERSITY指定刊物名称字段JN=APPLIEDMATHEMATICS指定语言字段LA=ENGLISH指定文献类型字段DT=JOURNAL,(6)检索策略的调整检索表达式输入检索系统后,输出的检索结果有时不一定能满足课题的要求,或者检出的篇数过多,而且不相关文献所占比例很大,或者检出的文献数量太少,有时甚至为零,这时就需要调整检索策略。,调整检索策略之前,首先要分析造成结果不理想的原因。对于输出篇数过多的情况,应分析是否可能是如下原因造成:a.选用了多义性的检索词;b.截词截得过短;c.输入的检索词太少;d.应该使用“与(AND)”的使用了“或(OR)”;e.优先运算符“()”使用错误。,对于输出篇数过少的情况,应分析是否方式如下原因造成:a.检索词拼写错误;b.遗漏重要的同义词或隐含概念;c.检索词过于冷僻具体;d.没有使用截词算符;e.位置算符和字段算符使用的过多;f.使用过多的“AND”算符。,针对上述原因,如果是属于需要扩大检索范围,提高检索结果查全率的,调整策略的方法有:a.减少“与(AND)”算符,增加同义词或同族相关词用逻辑或(OR)将它们连接起来;b.在词干相同的单词后使用截词符(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论